האם אנחנו לומדים להשתמש ב-AI נכון?

כלי AI משתלבים במהירות בחיי היומיום שלנו, בקצב שהיה קשה לחזות אפילו לפני שנה. אבל עצם האימוץ של טכנולוגיות אלו לא מספר לנו הרבה על השפעתן בפועל. שאלה חשובה לא פחות היא: ככל שה-AI הופך לחלק בלתי נפרד מחיינו, האם אנו מפתחים את המיומנויות הנכונות להשתמש בו ביעילות ובבטחה?

דוחות חינוך קודמים של אנתרופיק (Anthropic) בחנו כיצד סטודנטים ומחנכים משתמשים בקלוד (Claude). מצאנו שסטודנטים משתמשים בו ליצירת דוחות וניתוח תוצאות מעבדה; מחנכים משתמשים בו לבניית חומרי לימוד ואוטומציה של עבודות שגרתיות. אך ידענו שכל אדם המשתמש ב-AI עשוי להשתפר במה שהוא עושה. רצינו לבחון זאת לעומק, ולהבין כיצד אנשים המשתמשים ב-AI מפתחים 'שטף' עם טכנולוגיה זו לאורך זמן.

בדוח הנוכחי, אנתרופיק מתחילה לענות על שאלה זו. החברה עקבה אחר נוכחותם או היעדרם של מגוון התנהגויות המייצגות לדעתה שטף AI, על פני מדגם גדול של שיחות אנונימיות עם קלוד.

בדומה למדד הכלכלי האחרון שלהם, אנתרופיק מגלה כי הביטוי הנפוץ ביותר של שטף AI הוא 'השלמתי' (augmentative) – יחס ל-AI כשותף לחשיבה, ולא רק כהאצלת עבודה מלאה. למעשה, שיחות אלו הציגו יותר מפי שניים במספר התנהגויות שטף AI מאשר שיחות קצרות של 'שאל-תשובה' מהירה.

אך המחקר חושף גם שכאשר ה-AI מייצר Artifacts – הכוללים אפליקציות, קוד, מסמכים או כלים אינטראקטיביים – המשתמשים נוטים פחות להטיל ספק בשיקול הדעת שלו (-3.1 נקודות אחוז) או לזהות הקשר חסר (-5.2 נקודות אחוז). ממצא זה מתיישב עם דפוסים דומים שנצפו במחקר קודם על מיומנויות קידוד. ממצאים ראשוניים אלו מספקים בסיס חשוב למעקב אחר התפתחות שטף ה-AI לאורך זמן.

איך מודדים שטף AI?

כדי לכמת את שטף ה-AI, אנתרופיק השתמשה ב-"מסגרת 4D לשטף AI", שפותחה על ידי הפרופסורים ריק דקאן (Rick Dakan) וג'וזף פלר (Joseph Feller) בשיתוף עם אנתרופיק. מסגרת זו מסייעת להגדיר 24 התנהגויות ספציפיות המהוות דוגמה לשיתוף פעולה בטוח ויעיל בין אדם ל-AI.

מתוך 24 התנהגויות אלו, 11 (שהוצגו בגרף בדו"ח המקורי) ניתנות לצפייה ישירה כאשר בני אדם מתקשרים עם קלוד ב-Claude.ai או ב-Claude Code. 13 האחרות (כמו למשל כנות לגבי תפקידו של ה-AI בעבודה, או התחשבות בהשלכות של שיתוף תוכן שנוצר על ידי AI) מתרחשות מחוץ לממשק הצ'אט של Claude.ai, ולכן קשה הרבה יותר לעקוב אחריהן. התנהגויות בלתי ניתנות לצפייה אלו הן ככל הנראה מהמימדים המשמעותיים ביותר של שטף AI, ולכן בעבודה עתידית מתכננים באנתרופיק להשתמש בשיטות איכותניות כדי להעריך אותן.

לצורך מחקר זה, התמקדה אנתרופיק ב-11 ההתנהגויות הניתנות לצפייה ישירה. החברה השתמשה בכלי הניתוח שומר הפרטיות שלה כדי לבחון 9,830 שיחות שכללו מספר סבבי שאלות ותשובות עם קלוד ב-Claude.ai, במהלך חלון זמן של שבעה ימים בינואר 2026.1 לאחר מכן, נמדדה נוכחותן או היעדרן של 11 ההתנהגויות; כל שיחה יכלה להפגין ראיות למספר התנהגויות. אמינות המדגם נבדקה על ידי וידוא שהתוצאות עקביות בכל יום בשבוע ובשפות השונות במדגם (ונמצא שהן אכן היו).2 זה, בסופו של דבר, סיפק את מדד שטף ה-AI: מדידת בסיס לאופן שבו אנשים משתפים פעולה עם AI כיום, ובסיס למעקב אחר התפתחות התנהגויות אלו לאורך זמן, ככל שהמודלים משתנים.

ממצאים עיקריים: איטרציה מעצימה, Artifacts מרדימים

במחקר ראשוני זה, אנתרופיק מצאה שני דפוסים עיקריים בשימוש בקלוד: קשר חזק בין שטף ה-AI לבין איטרציה וליטוש באמצעות שיחות ארוכות יותר עם המודל, ושינויים בהתנהגויות השטף של משתמשים בעת קידוד או יצירת תפוקות אחרות.

שטף ה-AI קשור קשר הדוק לשיחות מבוססות איטרציה וליטציה

אחד הדפוסים החזקים ביותר בנתונים הוא הקשר בין איטרציה וליטוש לבין כל שאר התנהגויות שטף ה-AI. 85.7% מהשיחות במדגם הפגינו איטרציה וליטוש: בנייה על בסיס חילופי דברים קודמים כדי ללטש את עבודת המשתמש, במקום לקבל את התגובה הראשונה ולעבור למשימה חדשה. שיחות אלו הציגו שיעורים גבוהים משמעותית של התנהגויות שטף אחרות.

בממוצע, שיחות עם איטרציה וליטוש מציגות 2.67 התנהגויות שטף נוספות – כמעט כפול מהשיעור הלא-איטרטיבי של 1.33. הדבר בולט במיוחד עבור התנהגויות שטף הקשורות להערכת תפוקות קלוד. שיחות עם איטרציה וליטוש היו בסבירות גבוהה פי 5.6 לכלול הטלת ספק בשיקול הדעת של קלוד, ובסבירות גבוהה פי 4 לראות זיהוי הקשר חסר על ידי המשתמשים.

ביצירת Artifacts, המשתמשים הופכים מנחים יותר – אך ביקורתיים פחות

12.3% מהשיחות במדגם כללו יצירת Artifacts, כולל קוד, מסמכים, כלים אינטראקטיביים ותפוקות אחרות. בשיחות אלו, אנשים שיתפו פעולה עם AI באופן שונה למדי.

באופן ספציפי, נמצאו שיעורים גבוהים משמעותית של התנהגויות הנופלות תחת הנושאים הרחבים יותר של "תיאור" ו"האצלה". לדוגמה, בשיחות אלו נטו המשתמשים יותר להבהיר את מטרתם (+14.7 נקודות אחוז), לציין פורמט (+14.5 נקודות אחוז), לספק דוגמאות (+13.4 נקודות אחוז), ולבצע איטרציה (+9.7 נקודות אחוז) בהשוואה לשיחות ללא Artifacts. במילים אחרות, הם עשו יותר כדי לכוון את ה-AI בתחילת עבודתם.

אבל הנחיה זו אינה מתורגמת לרמות גבוהות יותר של הערכה או אבחנה. למעשה, ההפך הוא הנכון: בשיחות שבהן נוצרים Artifacts, המשתמשים נוטים פחות לזהות הקשר חסר (-5.2 נקודות אחוז), לבדוק עובדות (-3.7 נקודות אחוז), או להטיל ספק בשיקול הדעת של המודל באמצעות בקשה להסבר הרציונל שלו (-3.1 נקודות אחוז). המדד הכלכלי של אנתרופיק מוצא – ולא מפתיע – כי המשימות המורכבות ביותר הן אלו שבהן קלוד מתקשה ביותר, כך שממצא זה ראוי לציון מיוחד.

ישנם מספר הסברים אפשריים לדפוס זה. ייתכן שקלוד יוצר תפוקות מלוטשות ונראות פונקציונליות, שעבורן לא נראה הכרחי להטיל ספק נוסף: אם העבודה נראית גמורה, משתמשים עשויים להתייחס אליה ככזו. אך ייתכן גם ששיחות Artifacts כוללות משימות שבהן דיוק עובדתי חשוב פחות מאסתטיקה או פונקציונליות (למשל, עיצוב ממשק משתמש לעומת ניתוח משפטי). לחילופין, משתמשים עשויים להעריך Artifacts דרך ערוצים שלא ניתנים לצפייה – הרצת קוד, בדיקת אפליקציה במקום אחר, שיתוף טיוטה עם עמית – במקום לבטא את הערכתם בתוך אותה שיחה ראשונית.

בכל הסבר, הדפוס הזה ראוי לתשומת לב. ככל שמודלי AI הופכים למתוחכמים יותר ביכולתם להפיק תפוקות מלוטשות למראה, היכולת להעריך באופן ביקורתי את התפוקות הללו, בין אם בשיחה ישירה או באמצעים אחרים, תהפוך יקרת ערך יותר ולא פחות.

מגבלות המחקר

מחקר זה מגיע עם אזהרות חשובות:

  • מגבלות דגימה: המדגם משקף משתמשי Claude.ai שהיו מעורבים בשיחות מרובות תורות במהלך שבוע יחיד בינואר 2026. מכיוון שאנו סבורים שזהו עדיין שלב מוקדם יחסית בהפצת כלי AI, משתמשים אלה נוטים כנראה להיות מאמצים מוקדמים שכבר מרגישים בנוח עם AI – כלומר, ייתכן שהם אינם מייצגים את האוכלוסייה הרחבה יותר. המדגם שלנו צריך להיתפס כמתן בסיס עבור אוכלוסייה זו, ולא כמדד ביצועים אוניברסלי. מכיוון שהנתונים מגיעים משבוע יחיד, הם גם אינם מסוגלים ללכוד השפעות עונתיות או אורכיות. ומכיוון שהוא מתמקד ב-Claude.ai, איננו לוכדים כיצד משתמשים מתקשרים עם פלטפורמות AI אחרות.
  • כיסוי חלקי של המסגרת: במחקר זה, הערכנו רק 11 מתוך 24 מחווני ההתנהגות הניתנים לצפייה ישירה בשיחות ב-Claude.ai. כל ההתנהגויות הקשורות לשימוש אחראי ואתי בתפוקות AI מתרחשות מחוץ לשיחות אלו, ואינן נלכדות.
  • סיווג בינארי: עבור כל שיחה במדגם, אנו מסווגים כל התנהגות כנוכחת או נעדרת. אך זה ככל הנראה מפספס ניואנסים משמעותיים – כמו הדגמות שנויות במחלוקת או חלקיות של התנהגויות, או אותות חופפים ביניהן.
  • התנהגויות מרומזות: משתמשים עשויים להפגין התנהגויות שטף באופן מנטלי (כגון בדיקת עובדות של טענות קלוד מול הידע שלהם) מבלי לבטא התנהגויות אלו בשיחה. זה נראה רלוונטי במיוחד עבור הנתונים שלנו על Artifacts – משתמשים עשויים להעריך את תפוקות קלוד באמצעות בדיקות ושימוש מעשי, ולא באמצעות התנהגויות גלויות בשיחה.
  • ממצאים קורלטיביים: הקשרים שאנו מזהים הם קורלטיביים בלבד. איננו יודעים אם התנהגות אחת גורמת לאחרת, או אם שתיהן משקפות גורם בסיסי משותף כלשהו, כמו מורכבות המשימה או העדפות המשתמש.

לאן פנינו מכאן?

מחקר זה מציע בסיס שניתן להשתמש בו כדי להעריך כיצד שטף ה-AI משתנה לאורך זמן. ככל שיכולות ה-AI מתפתחות ואימוץ הטכנולוגיה עולה, אנו שואפים ללמוד האם משתמשים מפתחים התנהגויות מתוחכמות יותר, אילו מיומנויות צומחות באופן טבעי עם הניסיון, ואילו ידרשו פיתוח מכוון יותר.

בעבודה עתידית, אנו מתכננים להרחיב את הניתוח שלנו במספר כיוונים. ראשית, אנו מתכננים לערוך "ניתוחי עוקבה" (cohort analyses), המשווים משתמשים חדשים למשתמשים מנוסים, על מנת להבין כיצד היכרות עם AI קשורה להתפתחות שטף. שנית, אנו מתכננים להשתמש בשיטות מחקר איכותניות להערכת ההתנהגויות שאינן ניתנות לצפייה ישירה בשיחות Claude.ai. ושלישית, אנו שואפים לבחון את השאלות הסיבתיות שמחקר זה מעלה – כמו האם עידוד שיחות איטרטיביות מוביל להערכה ביקורתית רבה יותר, או האם קיימות התערבויות אחרות שיכולות לעודד זאת ביעילות רבה יותר.

בנוסף, נרצה לבחון התנהגויות שטף AI ב-Claude Code, פלטפורמה המשמשת בעיקר מפתחי תוכנה. לקראת מחקר זה, ביצענו ניתוח ראשוני שמצא עקביות בין שיחות Claude Code לשיחות ב-Claude.ai. אך זה עדיין ראשוני, ובסיס המשתמשים והפונקציונליות השונים מאוד של Claude Code מרמזים שנדרש מחקר משמעותי יותר.

אנו מצפים שאופי שטף ה-AI יתפתח וישתנה באופן ניכר לאורך זמן. באמצעות מחקר זה ומחקרים עתידיים, אנו שואפים להפוך התפתחות זו לנגישה, מדידה וניתנת ליישום.