מייקל אילי (Michael Ilie), סי. דניאל פרימן (C. Daniel Freeman) וקווין ק. טרוי (Kevin K. Troy)

באוגוסט 2025, ערכנו ניסוי כדי לבדוק באיזו מידה קלוד יכול לסייע לעובדי אנתרופיק – שלא היו מומחי רובוטיקה – לבצע משימות מורכבות (ומשעשעות) עם רובוט כלב מרובע רגיל (מעתה ואילך, רובו-כלב). קראנו לניסוי זה פרויקט Fetch. מצאנו כי גישה למודל המתקדם שלנו באותה עת (Claude Opus 4.1) סייעה לצוות אחד להשיג ביצועים טובים משמעותית מהצוות השני, שנאלץ להסתמך רק על האינטרנט ועל כושר ההמצאה שלו. הצוות שנעזר בקלוד ביצע יותר משימות, ובמהירות רבה יותר.

לפני שגררנו את עמיתינו למחסן לצורך הניסוי, בדקנו אם Opus 4.1 יכול לבצע את המשימות לגמרי בכוחות עצמו. באופן חד-משמעי, הוא לא הצליח. בדומה לצוות שלנו ללא קלוד, הוא נתקע במשימה המקדימה של הבנת אופן ההתחברות לרובוט.

אבל מודלי AI מתקדמים במהירות – אפילו מהר יותר מהרובו-כלב שיצא מכלל שליטה וכמעט התנגש באחד הצוותים האנושיים שלנו באוגוסט.

החלטנו שהגיע הזמן לבחון מחדש את פרויקט Fetch כדי לראות אם המודלים החדשים יותר שלנו יכולים לעלות בביצועיהם על הדור הקודם. לא רק שהם עשו זאת, אלא שClaude Opus 4.7 – שפעל ללא סיוע אנושי – היה מהיר פי 20 בערך מהצוות האנושי המהיר ביותר בכל המשימות שהושלמו על ידי המשתתפים שלנו לפני פחות משנה.

זה לא אומר שמודלי שפה גדולים (LLM) פתרו כעת את עולם הרובוטיקה. רחוק מכך. מודלי קלוד העדכניים עדיין התקשו בשימוש ברובוט כדי להזיז את כדור החוף בדיוק הנדרש – החלק ה'אוסף' של פרויקט Fetch. ואף אחת מהמשימות בניסויים אלו לא כללה את האלמנטים המאתגרים יותר ברמה נמוכה של בקרת רובוטים, כגון פיתוח מדיניות הפעלה ספציפית. עם זאת, שוב אנו רואים דפוס שבו בתחילה, מודלים מסייעים לבני אדם. לאחר מכן, בני אדם מסייעים למודלים. ולבסוף, מודלים מסוגלים לעשות דברים בעצמם במידה רבה. ראינו זאת באבטחת סייבר, וכעת אותה דינמיקה מתחילה להתגבש בצומת הדרכים שבין AI לעולם הפיזי.

מה עשינו בניסוי?

פרויקט Fetch המקורי כלל צוותים של עובדי אנתרופיק (ששובצו באקראי לעבוד עם או בלי קלוד) שביצעו את השלבים הבאים: הפעלת הרובו-כלב באמצעות בקר יצרן, התחברות לחיישני הווידאו וה-LiDAR של הרובו-כלב, כתיבת והפעלת תוכנה לבקרת הרובו-כלב באופן ידני, פיתוח דרך לנטר את מסלול הרובו-כלב בחלל, כתיבת תוכנה לזיהוי כדור החוף, ולבסוף חיבור כל החלקים יחד כדי לאסוף את הכדור באופן אוטונומי.

בעדכון האוטונומי הזה, לא יכולנו לבקש מקלוד להשתמש בבקר פיזי, וגם לא הערכנו את הזמן שלקח לחוקר להשתמש בבקר שתכנת קלוד כדי לאסוף את הכדור (אם כי אישרנו שהוא עבד כמצופה). על תת-הקבוצה הנותרת של המשימות, ביצענו שלושה ניסיונות עם Opus 4.7 באמצעות 'חשיבה אדפטיבית' (adaptive thinking) עם רמת מאמץ מקסימלית ב-Claude Code. מדדנו את הזמן שחלף עבור כל יעד והערכנו איכותית את הצלחת המודלים.

תפקידו של החוקר שלנו הוגבל לחיבור מחשב נייד שמריץ את Claude Code לרובו-כלב, הזנת ה-פרומפט הראשוני, אישור פקודות ואישור למודל לעבור למשימה הבאה.

במה קלוד הצטיין?

פשוט מאוד: בכל משימה שהושלמה על ידי לפחות צוות אנושי אחד באוגוסט, Opus 4.7 השלים את אותה משימה במהירות גבוהה פי עשרה לפחות.1 אם נתייחס לארבע המשימות שהושלמו על ידי שני הצוותים האנושיים, Opus 4.7 היה, בממוצע, מהיר פי 37 מצוות Claude-less ויותר מפי 18 מצוות Claude.

תרשים עמודות המשווה את זמן הביצוע הכולל של 4 משימות על ידי צוותים אנושיים ו-Claude Opus 4.7.
השוואת זמני ביצוע עבור 4 משימות שהושלמו על ידי כל הצוותים בניסוי.

התרשים משווה את מהירות הצוותים המקוריים (צוות Claude וצוות Claude-less) ל-Opus 4.7 בכל המשימות שבחנו במסגרת שלב שני.

טבלה המשווה את ביצועי Claude Opus 4.7 לצוותים אנושיים במשימות בקרה ותפעול אוטונומי.
השוואת ביצועים מפורטת בין Claude Opus 4.7 לצוותים האנושיים במגוון משימות.

בעוד שבני האדם התקשו לבחור בין גישות שונות מרובות לממשק עם חיישני הרובו-כלב, Opus 4.7 הצליח לזהות במהירות את הדרך הטובה ביותר. רוב הקידוד שהוא כתב היה יעיל בניסיון הראשון (מה שלא היה המקרה עבור צוות Claude או צוות Claude-less בניסוי המקורי). ואכן, אנו רואים עדות ליעילותו של Opus 4.7 כאשר אנו בוחנים את היקף הקידוד שיצר: הוא היה מוצלח לא פחות (ואף יותר) משני הצוותים האנושיים, תוך שהוא מייצר כמעט פי עשרה פחות קידוד מצוות Claude.

תרשים עמודות המציג את נפח הקידוד הכולל שנוצר על ידי הצוותים ו-Claude Opus 4.7.
נפח הקידוד שנוצר: Opus 4.7 כתב כמעט פי 10 פחות קידוד מצוות Claude.

Opus 4.7 לא היה מושלם. לדוגמה, הוא נטה להשתמש באלגוריתם זיהוי אובייקטים מיושן. אבל גם אז, הוא הצליח לעקוף זאת ולהגיע לפתרון יעיל.

הבחַנו במעט שונות בתוך משימות (במונחים מוחלטים) בזמני ההשלמה של השלבים שהמודל סיים. (אם כי בחירת האלגוריתם הלא אופטימלית שהוזכרה לעיל היא כנראה הסיבה שבגללה אחד מניסיונות זיהוי כדור החוף ארך זמן רב יותר מהאחרים באופן משמעותי.) בסך הכל, עבור המשימות בניסוי זה, בתוך מעטפת היכולות שלו, קלוד אמין למדי כעת. (ראו את הסעיף הבא לניתוח מה קלוד עדיין אינו מסוגל לעשות.)

גרף פיזור המציג את אמינות הביצועים של Opus 4.7 במשימות שונות.
אמינות הביצועים של Opus 4.7: זמני השלמה עקביים יחסית בין הרצות שונות.

חשוב להדגיש (כפי שעשינו בפוסט הקודם שלנו) שהתקדמות זו אינה תוצאה של מאמץ ממוקד לשיפור יכולות הרובוטיקה של המודלים שלנו. שיפורים אלו, בדומה לרבים אחרים בהיסטוריה של פיתוח מודלי שפה גדולים, נבעו מ-סקיילינג כללי הרבה יותר.

במה קלוד התקשה?

בשימוש בידיהם, ועם קצת אימון, בני האדם שלנו הצליחו להטיס את הרובו-כלבים כדי לדחוף בעדינות כדור חוף בחזרה לבסיס הבית (פיסת דשא מלאכותי) שבו החלו הרובוטים. זה דרש את היכולת לתפוס במהירות אם הכדור סטה מהמסלול, כיצד שגיאה זו קשורה לפקודה הקודמת, היכן נמצא הכדור כעת, ולאחר מכן כיצד להתאים תשומות עתידיות כדי להזיז את הכדור בצורה מדויקת יותר. זוהי סוג של לולאה סגורה שבה אנשים מצטיינים (לפחות לאחר ביצוע טעויות ולמידה מהן).

בניסויי שלב שני שלנו, קלוד התקשה לתפוס את העדינות הזו. בדומה לבני האדם שהגיעו לשלב הצורך לכתוב תוכנה לאיסוף אוטונומי של כדור חוף, קלוד הצליח להזיז את הרובוט מאחורי הכדור ולמקם אותו כדי להעיף את הכדור בחזרה לנקודת ההתחלה. אך המאמצים לעשות זאת היו בפיקוח לקוי ו(שוב, בדומה למשתתפים האנושיים שלנו) לא מוצלחים.

אחד החוקרים שלנו, עם ניסיון רב יותר ברובוטיקה ממתנדבי שלב אחד, הצליח לבצע את משימת תכנות האיסוף האוטונומי. עם יותר זמן ותמיכה נוספת, אנו חושבים שסביר מאוד שדורות נוכחיים של קלוד יוכלו לעשות את אותו הדבר. מה שנצפה לו בהמשך, עם זאת, הוא היכולת של המודלים לבצע משימה אחרונה זו באותה מהירות ואמינות שהציגו באלמנטים האחרים של פרויקט Fetch.

מה המשמעות של ממצאים אלה?

כשכתבנו על שלב אחד, הדגשנו כיצד מודלי שפה גדולים יכולים לספק דחיפה לבני אדם שאינם מומחים הזקוקים להשתמש ברובוטים. הדבר נכון אף יותר כעת מאשר בעבר. מודלים משלימים כעת עבודות שבעבר היו עבודת קידוד בזוגות בין בני אדם למודלים, במהירות רבה יותר בכוחות עצמם, מה שאומר שאנשים יכולים לעבור מהר יותר לבקרת הרובוטים ולשימוש בהם. ועבור משימות מסוימות, אדם בלולאה השולט ברובוט עשוי עדיין לעלות על מודל ה-AI עם ידו (הוירטואלית) על לוח הבקרה.

מה שמעניין ושונה הוא שכעת אנו נראים קרובים הרבה יותר לעולם שבו מודלים יוכלו להשתמש בכלים פיזיים זמינים בקלות יחסית – לפחות למטרות מוגבלות. זה דומה לאופן שבו מודלי AI השתמשו בכלי עריכת תוכנה קיימים כמו string-replace כאשר עברו לקידוד סוכני יותר. אנו נכנסים, באופן סביר, לתקופה המוקדמת של AI סוכני פיזי.

דרוש מחקר נוסף כדי להבין את יכולת המודלים להפוך כלים פיזיים אלו למותאמים אישית יותר, בין אם על ידי כתיבת מדיניות בקרה המותאמת למשימות ספציפיות ובין אם על ידי תכנון מערכות רובוטיות. וייתכנו חסמים משמעותיים לחזון כללי יותר זה של מודלי שפה בעלי יכולת פיזית ויכולת הסתגלות. אך כפי שראינו, מרחקים גדולים לכאורה ביכולת המודל יכולים להיחצות במהירות. מודלים שבונים כלי תוכנה משלהם אולי נראו מוזרים לא מזמן, אבל זה קורה. יהיה זה לא נבון לפסול את אותה מסלול התפתחות בחומרה.

עודכן ב-18 ביוני: תוקן התאריך של השלב הראשון של פרויקט Fetch.

הערות שוליים

  1. אנו מדווחים על תוצאות מ-Claude Opus 4.7 מכיוון שהוא היה המודל המתקדם ביותר שלנו שאינו מסדרת Mythos בזמן שערכנו ניסוי זה. ניסויים מקדימים עם Claude Mythos Preview הראו שהוא לא יספק השוואה הוגנת מול מודלים אחרים בגלל האופן שבו הגדרנו את הניסוי וכיצד המודל סופק.