קידוד סוכני: מומחיות בתחום גוברת על כישורי קידוד קלאסיים

ממצאי מפתח

בהתבסס על עבודות קודמות, אנו מציגים מסגרת למחקר קידוד סוכני אינטראקטיבי, המבוססת על ניתוח שומר פרטיות של כ-400,000 סשנים של Claude Code שנערכו בין אוקטובר 2025 לאפריל 2026. הערכנו את הרכב המשימות, שיתוף הפעולה בין אדם ל-AI, ושיעורי ההצלחה.
בסשן טיפוסי, אנשים מקבלים את מרבית החלטות התכנון (מה לעשות) וקלוד מקבל את מרבית החלטות הביצוע (איך לעשות זאת). ככל שאדם מביא יותר מומחיות בתחום לסשן, כך קלוד מבצע יותר עבודה פר הנחיה. במשימות קידוד, כל עיסוק מרכזי מצליח – משיג את מה שהמשתמש התכוון לעשות, עם ראיות ניתנות לאימות כמו בדיקות שעברו או עבודה שהועברה – בשיעור כמעט זהה לממוצע המהנדסים.
ככל שלאדם יש יותר מומחיות בתחום, כך הסשן מסתיים בהצלחה לעיתים קרובות יותר – אם כי הפער בין משתמשים בינוניים למומחים הוא צנוע. במהלך שבעת החודשים שבדקנו, שיעור הסשנים שהוקדשו לתיקון באגים ירד כמעט בחצי, והשימוש עבר לכיוון שימוש סוכני מקצה לקצה: פריסה והרצת קוד, ניתוח נתונים וכתיבת מסמכים שאינם קוד.
במהלך אותם שבעה חודשים, ערך המשימה הטיפוסית, שאותו אנו מעריכים באמצעות השוואה למודעות עבודה פרילנסריות, עלה כמעט בכל סוג עבודה – בכ-25% בממוצע.

מבוא

הקידוד הסוכני תפס תאוצה משמעותית. שיעור פרויקטי GitHub עם פעילות סוכני קידוד הכפיל את עצמו מאז סוף 2025¹, ומשתמשי Claude Code מבלים כיום בממוצע 20 שעות בשבוע בשימוש בכלי². האם אנשים ללא ניסיון קידוד פורמלי יכולים לכוון בהצלחה סוכן דרך עבודה טכנית מורכבת? ומה משמעות האימוץ והשיפור המהיר של כלים אלו עבור עבודת ידע באופן רחב? אמנם אין לנו עדיין תשובות מלאות לשאלות אלו, אך אנו בוחנים את נתוני השימוש ב-Claude Code לאיתותים מוקדמים.

דוח זה מספק עדויות על האופן שבו Claude Code משמש בפועל, בהתבסס על ניתוח שומר פרטיות של כ-400,000 סשנים אינטראקטיביים מכ-235,000 אנשים בין אוקטובר 2025 לאפריל 2026. הוא מתבסס על עבודות קודמות שהתמקדו במדדי אוטונומיה בסשנים של Claude Code, ובאופן שבו Claude Code משנה את העבודה באנתרופיק³. כאן, אנו מציגים מסגרת לתיאור השימוש בעוזר קידוד AI אינטראקטיבי: איזה סוג עבודה מבוצע, מי מבצע אותה, והאם היא מצליחה. אנו מתמקדים בשימוש ב-Claude Code דרך ממשק שורת פקודה (CLI), Claude.ai, או אפליקציית ה-Claude Code למחשב שולחני⁴. על ידי מעקב אחר האופן שבו השימוש בקידוד סוכני משתנה ככל שהמודלים הופכים ליותר מוכשרים, אנו יכולים להבין טוב יותר כיצד כלים אלה משפיעים על שוק העבודה למקצועני קידוד ועובדי ידע.

מה שקורה ב-Claude Code עשוי להיות תצוגה מקדימה של הכיוון אליו מועדת עבודת הידע, ככל שסוכנים משתלבים בעבודות שאינן קידוד. אנו מגלים שקלוד מטפל במשימות מורכבות ובעלות ערך רב יותר. יחד עם זאת, נותרה חלוקת עבודה ברורה בקידוד סוכני: אנשים מחליטים מה לבנות, והסוכן מחליט כיצד לבנות זאת.

אנו רואים גם עדויות לכך שמומחיות בתחום, ולא מיומנות קידוד, מגבירה את השימוש האפקטיבי בכלי. בפרט, מומחי תחום מצליחים לעיתים קרובות יותר, ומתאוששים בקלות רבה יותר מטעויות ואי-הבנות. עם זאת, הפער בין מומחים לבינוניים הוא צנוע – מה שמצביע על כך שמיומנות בתחום מספיקה כדי להשתמש בכלי כמעט באותה יעילות כמו אלה בעלי שליטה עמוקה.

ממצאים אלו מספקים לנו קריאה מוקדמת לגבי שינויים אפשריים בשוק העבודה. בנתונים שלנו, ההצלחה נקבעת על פי מידת הבנתו של האדם את הבעיה שאותה הוא מנסה לפתור, ולא על פי אם הוא מאומן בקידוד. אם דפוסים אלו יחזיקו מעמד בכלכלה, זה מצביע על כך שבעוד שכלים לקידוד סוכני עשויים לספוג חלק מעבודת היישום הכבדה, הם גם מתגמלים את אלה עם הבנה מוצקה של הבעיות שהם פותרים בעבודה. סוכני קידוד אינם מחליפים מומחיות בתחום – ככל שעובד מביא יותר הבנה לסוכן, כך הסוכן מסוגל לבצע יותר עבודה איכותית.

חלוקת העבודה

למה אנשים משתמשים ב-Claude Code

כדי להבין למה אנשים משתמשים ב-Claude Code, אנו מסווגים כל סשן לאחד מתשעה מצבי עבודה – הפעילות הבודדת שמתארת בצורה הטובה ביותר את מה שהסשן מנסה להשיג⁵. ארבעה מצבים כרוכים בכתיבה או תחזוקה ישירה של קוד: בניית משהו חדש, תיקון משהו שבור, בדיקת קוד, ותיאום סוכנים אחרים או צינורות אוטומטיים. קטגוריה נוספת היא תפעול תוכנה – פריסה, הגדרה, הרצת צינורות, ניטור מערכות. שתי קטגוריות מתמקדות יותר בהבנה מה לעשות: הבנה איך מערכת קיימת עובדת, ותכנון שינוי לפני ביצועו. ושתי קטגוריות נוספות נוקטות פעולות שאינן קשורות לקוד, או שבהן הקוד הוא אגבי למוצר הסופי: ניתוח נתונים, ותקשורת באמצעות מצגות ומסמכים מבוססי פרוזה אחרים.

כ-56% מהסשנים כוללים כתיבה (25%), תיקון (26%), או בדיקה ותיאום קוד (5%). תפעול תוכנה מהווה 17%, בעוד ש-14% מהסשנים הם תכנון או חקירה, ו-13% מייצרים ניתוח או פרוזה (איור 1).

פירוט הפעילויות בסשנים של Claude Code — איור 1: התפלגות סוגי הפעילויות המבוצעות ב-Claude Code.

אנו מסווגים כל סשן באמצעות מודל שקורא את התמלול שלו, ולאחר מכן, באמצעות כלי הניתוח שומר הפרטיות שלנו, אנו משווים אותם לנתוני טלמטריה הנרשמים אוטומטית עבור כל סשן, כולל אם נוספו או נמחקו שורות קוד. שני המקורות מציגים התאמה גבוהה – למשל, למעלה מ-90% מהסשנים שמסווג שלנו סימן כיצירת או שינוי קוד הראו שינויים בקוד בטלמטריה. לפרטים נוספים ראו את הנספח.

מי מחליט מה

עד כמה Claude Code אוטונומי? הערכות יכולת מראות שהתקרה גבוהה ובעלייה: במדדי ביצועים כמו הערכות אופק זמן של METR, מודלי חזית יכולים כעת להשלים משימות תוכנה שייקחו לאדם שעות, תוך התגברות אוטונומית על מכשולים בדרך. אך איך נראה השימוש בפועל? כאן, אנו בוחנים כמה הכוונה נעשית על ידי האדם וכמה על ידי קלוד בסשנים אמיתיים.

אנו חוקרים שאלה זו משתי זוויות. ראשית, אנו מתמקדים במידה שבה אנשים מפקידים החלטות בידי קלוד, ושנית אנו בוחנים כמה פעולות הם נותנים לקלוד. כדי להבין את חלוקת קבלת ההחלטות בסשן, בנינו מסווג ייחוס החלטות שומר פרטיות המבוסס על תוכן הסשן. אנו מבקשים ממסווג לרשום את כל ההחלטות המשמעותיות בסשן. אנו מפרידים החלטות אלו לתכנון (מה לעשות, איזו גישה לנקוט, מה נחשב ל'בוצע') וביצוע (אילו קבצים לשנות, איזה קוד לכתוב, באיזו שפה לכתוב, אילו פקודות להריץ). המסווג מייחס לאחר מכן כל החלטה לקלוד או למשתמש, ומעניק לכל סשן שני מספרים: חלקו של המשתמש בהחלטות התכנון וחלקו בהחלטות הביצוע.

בממוצע, אנשים מקבלים כ-70% מהחלטות התכנון אך רק 20% מהחלטות הביצוע (איור 2). בפועל, קיימת חלוקת עבודה ברורה בקידוד סוכני – אנשים מחליטים מה לבנות, והסוכן מחליט כיצד לבנות זאת.

כדי להבין את העברת הסמכויות לפעולות בסשן, אנו בוחנים את מבנה הסשן במקום את תוכנו. סשן של Claude Code כולל מעבר הלוך ושוב בין קלוד למשתמש, כאשר הם מחליפים פרומפטים (מהמשתמש) ופעולות (המבוצעות על ידי קלוד) – המשתמש כותב פרומפט וקלוד מבצע עבודה מסוימת, ואז המשתמש כותב פרומפט נוסף, וכן הלאה. בסשן טיפוסי, ישנם כ-4 מהלכים כאלה. בנתונים ההיסטוריים שלנו מאוקטובר עד אפריל, כל פרומפט שהמשתמש שולח מפעיל שרשרת של כ-10 פעולות בממוצע על ידי קלוד – ולעיתים מעל 100⁶. בכל מהלך, קלוד קורא קבצים, עורך קוד, מריץ פקודות וכותב בממוצע 2,400 מילים של פלט.

כמות העבודה שקלוד מבצע בין בדיקות ביניים עוקבת במידה רבה אחר זהות מקבל ההחלטות. כאשר המשתמש שומר על שליטה בביצוע (כלומר, מקבל למעלה מ-80% מהחלטות הביצוע), קלוד מבצע פחות פעולות למהלך (כ-8 פעולות). וכאשר קלוד לוקח שליטה על התכנון (כלומר, מקבל למעלה מ-80% מהחלטות התכנון), הוא מבצע את מספר הפעולות הגבוה ביותר (כ-16).

חלוקת העבודה בין אדם לקלוד בקבלת החלטות — איור 2: אנשים מקבלים את החלטות התכנון, קלוד מבצע את הפעולות.

רמת מומחיות

מתוך כל תמלול, קלוד מדרג את רמת המומחיות לכאורה של המשתמש במשימה בסולם של חמש נקודות, ממתחיל ועד מומחה. מסווג המומחיות מחפש שלושה סימנים: עד כמה המשתמש מנסח את הוראותיו במדויק, מה הוא מבקש מקלוד לאמת, והאם המשתמש נוטה לתקן את קלוד או שקלוד נוטה לתקן את המשתמש. יש לציין שמומחיות לוכדת משהו שונה למדי מתואר תפקיד או יכולת כללית, ובאופן מכריע, היא ספציפית למשימה. מהנדס בכיר השואל את שאלת ה-Rust הראשונה שלו הוא מתחיל ב-Rust. רואה חשבון שמעולם לא השתמש ב-Python, אך אומר לקלוד בדיוק אילו כללי התאמה סקריפט Python חייב לאכוף ותופס את מקרה הקצה שהוא מטפל בו בצורה שגויה בסוף החודש, הוא מומחה במשימה זו.

הטבלה למטה מציגה כיצד הגדרנו כל רמת מומחיות במסווג יחד עם בקשה לדוגמה ממערך נתונים ציבורי של סשני סוכני קידוד, SWE-chat. השיחה המסווגת כמתחיל נותנת הוראות כלליות ללא ידע מרומז ספציפי לתחום. השיחה המסווגת כמומחה מעבירה ידע מעמיק של בסיס הקוד והסביבה הטכנית.

טבלת רמות מומחיות ודוגמאות — הגדרות רמת המומחיות והשוואה בין משתמש מתחיל למומחה במשימות קידוד.

אנו מכמתים כיצד מומחיות קשורה לפלט ולפעילות של קלוד פר פרומפט. בסשנים טיפוסיים של מתחילים, כל פרומפט מפעיל כ-5 פעולות של קלוד וכ-600 מילים של פלט, בעוד שסשנים של מומחים מפעילים שרשראות פעולה ארוכות יותר מפי שניים (12 פעולות) הנושאות פי חמישה פלט (3200 מילים) (איור 3). פער זה בין סשני מתחילים ומומחים מופיע בכל סוג עבודה ובכל טווח של ערך משימה.

מדדים אלה משלימים את מדדי האוטונומיה בהדוח הקודם שלנו על Claude Code, אשר עקבו אחר משך זמן ריצת הסוכן ותדירות אישור פעולותיו באופן אוטומטי על ידי אנשים. מדד ייחוס ההחלטות שלנו, לעומת זאת, לוכד מי מקבל את ההחלטות המהותיות בסשן כמכלול, בעוד שמדדי הפלט והפעולות שלנו פר פרומפט מודדים כמה פעילות אוטונומית מקלוד מופעלת על ידי כל פרומפט אנושי.

פעולותיו והפלט של קלוד לכל פרומפט עולים עם רמת המומחיות של המשתמש — איור 3: קלוד מבצע יותר פעולות ופלט ככל שרמת המומחיות של המשתמש גבוהה יותר.

מי משתמש ב-Claude Code, ולשם מה

המשתמשים

כדי להבין מי מבצע עבודה זו, אנו מסיקים את מקצועו של כל משתמש מתמלול הסשן, וממפים אותו לאחת מ-23 קבוצות עיקריות בטקסונומיה של הסיווג המקצועי הסטנדרטי (SOC) של הלשכה לסטטיסטיקה של העבודה. המסווג מונחה להסתמך רק על אותות כגון הקשר הפרויקט שהסוכן טוען בתחילת הסשן, שמות ומבנה הקבצים שלהם, כל Artifacts שהם מפנים אליהם (לדוגמה, מסמכים משפטיים, נתונים קליניים, דוחות פיננסיים, תוכנית לימודים וכו') ואוצר המילים שבו הם משתמשים⁷. הוא מונחה במפורש לא להתייחס לפעולת הקידוד כראיה למקצוע קידוד. סשן מסווג לקוד ה-SOC של קידוד (מקצועות מחשבים ומתמטיקה) רק כאשר יש אות ברור שעבודת תוכנה או נתונים היא עבודתו של המשתמש. סשן שבו עורך דין בונה סקריפט לסימון אוטומטי של סעיפים חסרים על פני תיקיית חוזים ממופה למקצועות משפטיים, גם אם עיקר העבודה בסשן היא תוכנה. הסשן נשאר לא מסווג כאשר אין אות לגבי מקצועו של המשתמש.

הצלחנו להסיק את המקצוע בכ-70% מהסשנים. בתוך קבוצה זו, מקצועות מחשבים ומתמטיקה, קטגוריה הכוללת את מרבית המשרות הקשורות לתוכנה, היא באופן לא מפתיע הקבוצה הגדולה ביותר. הקבוצות הבאות בגודלן הן תפעול עסקי ופיננסי, אומנות, עיצוב ומדיה, ניהול, ומדעי החיים, פיזיקה וחברה. קבוצות המקצועות שאינן תוכנה הצומחות במהירות הגבוהה ביותר במדגם שלנו הן ניהול, מכירות ומקצועות משפטיים.

העבודה

הרכב העבודה שבוצעה באמצעות Claude Code השתנה מהותית בין אוקטובר 2025 לאפריל 2026. השינוי הברור ביותר הוא ששיעור הסשנים שהוקדשו לתיקון קוד שבור ירד מ-33% ל-19% (איור 4). במקומם, ראינו עלייה בשיעור העבודה שמסביב לקוד. תפעול תוכנה גדל מ-14% ל-21% מהסשנים. כתיבה וניתוח נתונים הוכפלו בקירוב, מכ-10% לכ-20% מהסשנים.

גם המשימות עצמן הפכו לבעלות ערך רב יותר. אנו מעריכים את הערך הכלכלי של כל סשן על ידי שאלה כמה העבודה תעלה בשוק פרילנסרים, מכוילת מול מערך נתונים ציבורי של מודעות עבודה אמיתיות. על פי מדד זה, הערך המוערך של סשן ממוצע עלה ב-27% בין אוקטובר לאפריל. העלייה נשמרת בסוגים רבים של עבודה. משימות בנייה, תפעול ותיקון הפכו כולן לבעלות ערך רב יותר בכשליש או יותר (כ-43%, 34% ו-32% בהתאמה). הערכות מחיר אלו הן גסות, ולכן אנו משתמשים בהן בעיקר כדי להשוות משימות זו לזו לאורך זמן, לא כערכים דולריים שיש לקרוא מילולית⁸. לפרטים אודות בניית מעריך המשימות, ראו את הנספח.

שינוי בפעילויות Claude Code לאורך זמן — איור 4: ירידה משמעותית בתיקון באגים והתרחבות לעבודות מסביב לקוד.

ההצלחה תלויה במה שהמשתמש מביא

הערך המוערך של משימה הוא דרך אחת להבין כיצד Claude Code מסייע לאנשים לבצע את עבודתם. זווית נוספת היא לבחון כמה סשנים מוצלחים, ואילו מאפיינים של סשן קשורים להצלחה. בכל מדדי ההצלחה שלנו, אנו רואים דפוס ברור: ככל שאדם מפגין יותר מומחיות בסשן, כך הסבירות להצלחה גבוהה יותר. רוב הרווח מתרכז בקצה הנמוך של סולם המומחיות – הפער בין סשנים של מתחילים לסשנים של בינוניים גדול יותר מהפער בין בינוניים למומחים.

לפני שנעבור למאפייני סשנים מוצלחים, עלינו לדייק כיצד אנו מודדים הצלחה. איננו צופים בתוצאות אמיתיות של משתמשים, ואיננו יכולים לשאול אותם ישירות אם קיבלו את מבוקשם מקלוד. במקום זאת, אנו מסתמכים על שני מדדים משלימים המבוססים על תמלולים. הראשון, הצלחה מוערכת, מגיע ממסווג שקורא את התמלול המלא ומחליט אם האדם הצליח לעשות את מה שהתכוון (עם אפשרויות: הצליח, הצליח חלקית, נכשל, אין מטרה ברורה). שני מסווגים נלווים מדרגים לאחר מכן את עוצמת הראיות לאותה הערכה כדי לקבוע הצלחה מאומתת. מסווג איתותי הצלחה מחפש ראיות ניתנות לאימות להצלחה. בפרט, הוא מחפש פעילות git כמו Commits ובקשות Pull התואמות את העבודה, כמו גם מעבר חבילות בדיקה, ואישור מפורש מהמשתמש. הוא מדרג את הסשן מ"אין איתות" ל"איתות חלש" (1) ועד "איתותים חזקים מרובים" (5). איתות כישלון מקביל מדרג את הראיות לכך שהדברים השתבשו – שגיאות, בדיקות שנכשלו, ניסיונות חוזרים, המשתמש דוחה את הפלט. הצלחה מאומתת דורשת שגם הסשן יוגדר כמוצלח וגם שיש לפחות איתות אחד קשה וניתן לאימות להצלחה. עבור הניתוח הבא, המתמקד במידת ההצלחה או הכישלון בסשן, אנו מוציאים סשנים המסווגים כ"ללא מטרה ברורה", המהווים כ-7.7% מהמדגם המלא שלנו.

התמורה למומחיות

אז אילו סוגי סשנים הם המוצלחים ביותר? מתברר שדירוג המומחיות של סשן, כפי שתואר לעיל, משפיע במידה רבה על הצלחתו.

יש לחשוש שמומחיות אינה הגורם המניע האמיתי – אולי מומחים פשוט בוחרים משימות שונות, או נבדלים בדרכים אחרות. לאורך סעיף זה, אנו מתייחסים באופן חלקי לחשש זה על ידי השוואת סשנים המבצעים את אותו סוג עבודה, באותו ערך מוערך, באותו חודש, באותו נושא, מאנשים באותה קבוצת עיסוק רחבה, ושואלים כיצד התוצאות שונות לפי המומחיות המדורגת של האדם.

איור 5: שיעורי הצלחה ממוצעים לפי רמת מומחיות לפני התאמות.

בכל מדדי ההצלחה שלנו, ככל שאדם מפגין יותר מומחיות בסשן, כך גדלה הסבירות שהסשן יצליח. סשן המדורג כמתחיל מגיע למדד המחמיר ביותר שלנו, הצלחה מאומתת, ב-15% מהמקרים ולפחות הצלחה חלקית ב-77% מהמקרים. סשן המדורג כבינוני ומעלה מגיע להצלחה מאומתת ב-28-33% מהמקרים ולהצלחה חלקית ב-91-92% מהמקרים (איור 6).

בכל מדד, רוב הרווח מגיע ממעבר מרמת מתחיל לרמת ביניים; בין רמת ביניים למומחה, השיפוע יורד. בנספח, אנו מפרטים אודות הרגרסיות שמאחורי איור 6.

איור 6: קשר בין מומחיות לשיעורי הצלחה ושיעורי התאוששות מבעיות לאחר התאמות.

שיפוע דומה מופיע בסשנים שנתקלים באתגרים בדרך. אנו אומרים שסשן נתקל בבעיה כאשר איתות הכישלון רושם ראיות מאומתות לכישלון. זה יכול להיות שגיאה, בדיקה שנכשלה, ניסיונות מרובים לעשות את אותו הדבר, או שהמשתמש מביע תסכול או חוסר שביעות רצון. בקרב סשנים שנתקלו בבעיה, שיעור הסשנים שהם הצלחות מאומתות עולה מ-4% עבור סשנים המדורגים כמתחילים ל-15% עבור סשנים המדורגים כמומחים, תוך התחשבות בכל הבקרות שתוארו לעיל (איור 6).

בבחינת המדדים הפחות מחמירים, אנו מגלים ששיעור ההצלחה החלקית לפחות הוא 60% למתחילים ו-80-81% למשתמשים בינוניים ומומחים.

אנו עוקבים גם אחר הקשר ההפוך – מומחיות מול מדדי כישלון שונים. יש לציין שבניתוח זה, הסשנים שנשפטו ככישלונות הם אלו שלא הצליחו אפילו חלקית. אנו אומרים שסשן בעייתי ננטש אם הוא נשפט ככישלון ולא נכתבו בו אפס שורות קוד: 19% מהסשנים שבהם המשתמש נראה כמתחיל מסתיימים בנטישה, לעומת 5-7% עבור כל השאר. במילים אחרות, משתמשים בעלי הניסיון הפחות נוטים יותר לוותר כשהם מתקשים להשיג את התוצאה שהם רוצים. נראה שחלק מערך המומחיות הוא היכולת לכוון את הסוכן לכיוון הנכון⁹.

מקצוע עשוי להיות פחות חשוב ממומחיות

אנשים במקצועות הקשורים לתוכנה מגיעים להצלחה מאומתת בכ-30% מהסשנים שלהם בסך הכל, בעוד שמשתמשים ממקצועות אחרים מגיעים להצלחה מאומתת בכ-26% מהמקרים. בקרב סשנים המייצרים קוד (כלומר, סשנים שמוסיפים או משנים לפחות שורת קוד אחת), מספרים אלה הם 34% ו-29% בהתאמה (איור 7).

הפער בין מקצועות הקשורים לתוכנה למקצועות אחרים מצטמצם תחת הגדרת ההצלחה הפחות מחמירה שלנו – כאשר שתי הקבוצות מגיעות לפחות להצלחה חלקית בסשנים מייצרי קוד ב-89% ו-88% מהמקרים, בהתאמה. פער זה של חמש נקודות הוא קטן, והוא לא התרחב ולא הצטמצם במהלך שבעה חודשים, גם כאשר שיעורי ההצלחה בשתי הקבוצות עלו. בסשנים מייצרי קוד, כל אחד מעשרת המקצועות הגדולים ביותר במערך הנתונים שלנו נוחת בטווח של שבע נקודות ממהנדסי תוכנה מבחינת הצלחתם. מקצועות הניהול נמצאים בראש בסעיף ההצלחה המאומתת, מעט מעל מקצועות הנדסת התוכנה. שיעורי ההצלחה המאומתים הגבוהים יותר שלהם עשויים לשקף כישורי ניהול המועברים לניהול סוכן. אך הם עשויים גם לשקף באופן חלקי את המדידה שלנו: האימות נשען באופן חלקי על אישור מפורש בתמלול, ומנהלים עשויים להיות בעלי סיכוי גבוה יותר לתקשר כאשר הם מקבלים את מבוקשם¹⁰.

שיעורי הצלחה לפי קבוצת עיסוק — איור 7: שיעורי הצלחה מאומתת ומוערכת לפי קבוצת עיסוק.

מבט קדימה

התוצאות בדוח זה מציעות תמונה מתפתחת של האופן שבו קידוד סוכני מגביר צורות מסוימות של ידע וכישורים, תוך החלפת אחרות. בסשנים המייצרים קוד, כל עיסוק מרכזי מצליח בשיעורים הנמצאים בטווח של כמה נקודות בלבד מאלו שבמקצועות הקשורים לתוכנה. נראה שסוכני קידוד הופכים רקע בקידוד לפחות רלוונטי לתכנות מוצלח.

יחד עם זאת, סשנים מוצלחים נוטים יותר להפגין מומחיות בתחום. סשנים המדורגים כמומחים מגיעים להצלחה מאומתת בתדירות כפולה מזו של סשנים המדורגים כמתחילים, וכאשר סשן נתקל בבעיה, מתחילים נוטשים את הסשן בשיעור גבוה פי כמה מכל השאר. צורת שיתוף הפעולה מוסיפה צבע לתמונה זו – מומחי תחום מסוגלים להנחות את קלוד לבצע יותר עבודה עם כל הוראה שהם נותנים. לכן, היכולת לכוון את קלוד להצלחה נובעת יותר משליטה בתחום מאשר מהיכולת לכתוב קוד. אדם עם שליטה כזו, בכל תחום, עשוי כעת להיות מסוגל לבצע עבודה טכנית שלא היה יכול לבצע קודם לכן. אדם ללא מומחיות כזו יקבל הרבה פחות מאותו כלי. והרווחים מגיעים בעיקר מיכולת, לא משליטה מלאה – הבנה עובדתית של התחום לוכדת את רוב התועלת, בעוד שהתמחות עמוקה מוסיפה רק מעט מעבר לכך.

ממצאים אלו הם ראשוניים. כמו ברוב המחקרים שלנו, איננו יכולים למדוד תוצאות בעולם האמיתי, כמו האם קוד שנכתב בסשן אכן משמש או נזרק לאחר מכן, או האם הוא מייצר Artifacts בעלי ערך כלכלי. בנוסף, השימוש הלא-אינטראקטיבי שדוח זה אינו כולל מהווה נתח משמעותי מהפעילות. פיתוח מסגרת למדידתו הוא בראש סדר העדיפויות לעבודה עתידית. וכל הסיווגים שלנו של סשנים תלויים בקריאת המודל את התמלול. בנספח, אנו מראים כיצד המסווגים שלנו עוקבים אחר טלמטריה עצמאית בכיוונים צפויים, ומסכימים עם מודל ייחוס חזק ברוב הסשנים. אך מסווגים נותרים מאתגרים לאימות בקנה מידה, וסשנים של Claude Code מוסיפים קושי נוסף, מכיוון שהם עשויים להיות ארוכים ומורכבים מדי עבור תוויות אנושיות כדי לשמש כאמת קרקע.

התמונה בדוח זה תתעדכן ככל שהמודלים, המשתמשים וחלוקת העבודה ביניהם ישתנו. אנו מקווים שמדדים אלה יאפשרו לנו לעקוב אחר שינויים משמעותיים כשהם מתרחשים. לדוגמה, אם התמורה למומחיות תתחיל לרדת עם הזמן, זה יצביע על כך שהמודלים מתחילים לספק את שיקול הדעת המהותי שהמשתמשים מביאים כיום, ושהרווחים מכלים אלה מתרחבים מעבר למומחי תחום. אם שיעור סשני הקידוד המושלמים בהצלחה על ידי משתמשים מחוץ למקצועות התוכנה ימשיך לגדול, זה יכול להעיד על כך שייצור תוכנה הופך לחלק מעבודה רגילה בכל תחום, במקום להיות תוצר של עיסוק בודד. שינויים אלה ישנו את זהות המוטבים מקידוד סוכני, ובאיזו מידה, ותהיה להם השלכות על מה שמוערך ביותר בשוק העבודה.

נספח

זמין כאן.

ציטוט

@online{hitzig2026agentic,
 author = {Zoe Hitzig and Maxim Massenkoff and Eva Lyubich and Ryan Heller and Peter McCrory},
 title = {Agentic coding and persistent returns to expertise},
 date = {2026-06-16},
 year = {2026},
 url = {https://www.anthropic.com/research/claude-code-expertise},
}

תודות

תודות מיוחדות ל: ג'ייק איטון, שרה פולק, חנה הו, שימון סאצ'ר, אנטון קורינק, סנטי רואיז, קרי פרסן, אנקור ראתי, אלכס טמקין, הת'ר וויטני, קט וו, קייסי ג'נקינס, ג'ניפר מרטינז, איימי רוטהרהם, בוריס צ'רני, אלינור דורפמן, מיילס מקיין וג'ק קלארק.

הערות שוליים

¹ מחקר ראשון, שכיסה 128,000 מאגרי קוד ציבוריים, זיהה פעילות סוכני קידוד בכ-16-23% מהפרויקטים נכון לסוף אוקטובר 2025. מחקר המשך שהשתמש באותה מתודולוגיה מצא שיעורי אימוץ גבוהים פי למעלה משניים בקרב פרויקטים שנוצרו לאחר תקופה זו. זיהוי פעילות קידוד סוכני מסתמך על תגי שיתוף פעולה של סוכנים וקבצי תצורה, מה שככל הנראה אינו סופר במלואו את השימוש בפועל.
² יש לציין כי זה מודד שעות שבהן Claude Code פעל באופן פעיל, לא את זמן השימוש הישיר של המשתמש בהקלדה לקלוד.
³ בנוסף, סרקר (2026) ובאומן ואח' (2026) הציעו דרכי הסתכלות להבנת קידוד סוכני, על ידי לימוד סשנים של Cursor IDE וסשנים זמינים לציבור, בהתאמה.
⁴ יש לציין שאנו לא כוללים שימוש ב-Claude Code שמתבצע דרך סביבות פיתוח משולבות של צד שלישי (IDE) ו-SDK. אנו מוציאים אפוא גם סשנים במצב "headless" שבו משתמש מריץ פרומפט בודד ב-CLI באמצעות claude -p “<prompt>”. אנו מוציאים שימוש זה מכיוון שהוא שונה בשתי דרכים מרכזיות – רובו תכנותי, כאשר Claude Code מוטמע בכלים וצינורות אוטומטיים במקום לשוחח עם משתמש, וגם כאשר משתמש נוכח, איננו רואים את הסשן של המשתמש מקצה לקצה כפי שאנו עושים בממשקים שאנו כוללים.
⁵ כל המסווגים בדוח זה משתמשים ב-Claude Sonnet 4.6 אלא אם צוין אחרת. פרטים על המסווגים, כולל הטקסט המלא המדויק ותוצאות האימות שלהם, ניתן למצוא בנספח.
⁶ זנב הפעולות פר פרומפט ארוך. כ-2% מהסשנים ממוצעים מעל 100 פעולות פר פרומפט, כ-1 מכל 270 ממוצע מעל 200, וכ-1 מכל 2,300 ממוצע מעל 500.
⁷ כמו כל המדדים בדוח זה, הסקות אלו מופקות באמצעות כלי הניתוח שומר הפרטיות שלנו. אף חוקר אינו קורא תמלילים בודדים, תוויות מקצוע אינן מקושרות לעולם למשתמשים מזוהים, ואנו צופים רק באגרגטים מעל מספר מינימלי של משתמשים ייחודיים.
⁸ גישת ההערכה שאנו נוקטים כאן נועדה להגיע להבדלים יחסיים בערך הסשנים, לא לערך מוחלט. הסכום הדולרי מבוסס על השוואות לשוק הפרילנסרים – לא לעבודה בשכר – ומגיע מהתאמה מעורפלת בסופו של דבר בין סשן Claude Code למודעת הדרושים. מכיוון שהערכות יחסיות יסירו כל הטיה עקבית מנושאים אלה, אנו שמים עליהן דגש רב יותר.
⁹ התניה על בעיות בוחרת סשנים שונים עבור משתמשים שונים. מומחים נתקלים בבעיות פחות לעיתים בסך הכל, ולכן הסשנים הבעייתיים שיש להם נוטים להיות בבעיות קשות יותר – באמצעות הערכת מחיר הסשן כאינדיקטור למורכבות הסשן, אנו רואים שהערך המוערך הממוצע של סשן בעייתי מכפיל את עצמו בערך מתחתית סולם המומחיות לפסגה. חלק מהפער בשיעורי ההתאוששות עשוי אפוא לשקף שמתחילים נתקעים בבעיות שגרתיות בעוד שמומחים נתקעים בבעיות קשות ומאתגרות.
¹⁰ גם אם המודל מסווג מנהלים באופן שגוי, האותות שעליהם מסתמכים כדי לקבוע שהמשתמש הוא ככל הנראה מנהל – אולי באופן שבו משימות מואצלות ומפורטות – נוטים להיות קשורים להצלחה רבה יותר. במילים אחרות, ייתכן שפעולה כמנהל מעניקה הצלחה רבה יותר.