בפוסט זה, סידהארת' מישרה-שארמה (Siddharth Mishra-Sharma), חוקר בצוות ה-"Discovery" של אנתרופיק, מסביר כיצד ליישם תהליכי עבודה של קידוד סוכני הנפרסים על פני מספר ימים – הכוללים שימוש באורקלי בדיקה, זיכרון מתמשך ותבניות תזמור – למשימות חישוב מדעיות, גם מחוץ לתחום ההתמחות הספציפי של החוקר.

ההבטחה הגדולה של סוכני ה-AI

מרבית המדענים המשתמשים כיום בסוכני AI פועלים בלולאת שיחה מתמדת, ומנהלים כל שלב בתהליך בצורה הדוקה. אולם, ככל שהמודלים השתפרו משמעותית בביצוע משימות ארוכות-טווח בשנה האחרונה, צצה דרך עבודה חדשה: במקום להיות מעורבים בכל פרט ופרט, אנו יכולים להגדיר את היעד הכללי ולשחרר צוות של סוכנים שיעבדו באופן אוטונומי. גישה זו מאפשרת להשלים פרויקטים תוך שעות בודדות, שעשויים היו להימשך ימים, שבועות, ואף חודשים. סוגים מסוימים של משימות מדעיות מתאימים היטב למודל זה, למשל, יישום מחדש של פותר מספרי, המרת תוכנה מדעית ישנה שנכתבה בניב פורטרן ללשון מודרנית, או ניפוי באגים בקוד גדול מול יישום ייחוס. אלו משימות שהיקף העבודה בהן מוגדר היטב, קריטריוני ההצלחה ברורים, והפיקוח האנושי יכול להיות מדי פעם, ולא רציף.

פרויקט מהדר ה-C של אנתרופיק הדגים גרסה של עקרון זה, כאשר קלוד עבד על פני כ-2,000 סשנים כדי לבנות מהדר C המסוגל להדר את ליבת לינוקס. פוסט זה מתאר כיצד להגדיר תבנית דומה למשימות חישוב מדעיות באמצעות Claude Code, תוך התחשבות במעבדת מחקר אקדמית טיפוסית. כדוגמה קונקרטית, אסקור את השימוש ב-Claude Opus 4.6 ליישום גרסה דיפרנציאבילית של פותר בולצמן קוסמולוגי. זהו קוד נומרי שחוזה את התכונות הסטטיסטיות של ההדף מהמפץ הגדול – קרינת הרקע הקוסמית (CMB). הוא עושה זאת על ידי פיתוח משוואות מצומדות עבור פוטונים, באריונים, ניוטרינים וחומר אפל לאורך היקום המוקדם.

פותרי בולצמן כמו CLASS ו-CAMB הם אבני יסוד בתשתית המדעית של הקוסמולוגיה, ומאפשרים לנו להגביל מודלים קוסמולוגיים באמצעות נתונים מסקרים כמו Planck ו-Simons Observatory. גרסה דיפרנציאבילית – כזו שיכולה להפיץ גרדיאנטים דרך הפותר השלם – מאפשרת שימוש בשיטות הסקה מבוססות גרדיאנטים, ומאיצה באופן דרמטי את אמידת הפרמטרים. כתיבתה ב-JAX מתאימה לכאן באופן טבעי, שכן היא מעניקה לנו דיפרנציאציה אוטומטית ותאימות למאיצים (לדוגמה, GPUs) כמעט בחינם.

חשוב לציין שהמשימה אינה בתחום המדעי המרכזי שלי – יש לי היכרות כללית עם הכלים והמדע, אך אין לי את המומחיות להשלים אותה בעצמי בפרק זמן סביר. קבוצות שיש להן מומחיות זו כבר בנו פותרי דיפרנציאביליים ב-JAX עם תת-קבוצה של התכונות הקיימות ב-CLASS. מאמצים אלה מייצגים בדרך כלל חודשים עד שנים של עבודת חוקרים. המטרה כאן הייתה לראות אם סוכן יכול להתקדם עוד יותר עם הכוונה מינימלית מצד אדם שאינו מומחה בתחום.

סוג זה של משימה שונה מבחינה מבנית מפרויקט מהדר ה-C, שיכול להתחלק למספר רב של סוכנים מקבילים. פותר בולצמן, לעומת זאת, הוא צינור עבודה מקושר עמוקות – טעות נומרית קטנה או קירוב לקוי במודל האופן שבו היקום המוקדם מתאחה יכולים להשפיע באופן עדין על כל המערכת במורד הזרם. לכן, הוא דורש מערך שונה של יכולות סוכני. ניפוי באגים מצריך מעקב סיבתי לאורך כל השרשרת ושליפת ידע מתחום הדומיין, מה שעשוי להתאים יותר לסוכן יחיד שעובד באופן סדרתי, מפעיל סוכני משנה לפי הצורך, ומשתמש ביישום הייחוס כדי לאתר חריגות.

נשתמש באשכול מחשוב-על (HPC) המריץ את מתזמן המשימות SLURM כסביבת החישוב שלנו, אך רעיונות הליבה – קובץ התקדמות, אורקל בדיקה, ופרומפט סוכני עם כללים ברורים – תקפים ללא קשר למקום שבו מריצים את Claude Code.

הדרך לעבודה אוטונומית: תכנון, זיכרון ובקרה

במעבר זה לניהול צוות מחקר אוטונומי של סוכנים, יש להשקיע את רוב הזמן (בהתייעצות עם קלוד) בניסוח סט הוראות המפרטות בבירור את תוצרי הפרויקט וההקשר הרלוונטי. הוראות אלו אמורות להימצא בקובץ CLAUDE.md בתיקיית השורש. קלוד מתייחס לקובץ זה באופן מיוחד, שומר אותו בהקשר ומשתמש בו כהתייחסות לתוכנית הכוללת. חשוב מכך, קלוד יכול לערוך הוראות אלו במהלך עבודתו, ולעדכן אותן למשימות עתידיות ככל שהוא מתקדם בפתרון בעיות.

כאן ניתן למצוא קובץ CLAUDE.md מוקדם עבור פרויקט פותר בולצמן הקוסמולוגי, המציג את התוכנית הכללית והחלטות התכנון שגובשו לאחר ניסיון ראשוני בכתיבת הפותר. כדי להגיע לכך, הגדרתי את היעדים הגבוהים של הפרויקט – השגת שוויון תכונות מלא עם יישום הייחוס CLASS תוך כדי היותו דיפרנציאבילי לחלוטין, ויעד דיוק של 0.1% מול CLASS בתוצרי המדע העיקריים – ועברתי איטרציות עם קלוד עד שהתוכנית נראתה מספקת. בהתחשב בכך ש-0.1% הוא רמת ההתאמה הטיפוסית בין שני קודי בולצמן הקאנוניים CLASS ו-CAMB, זה נראה כיעד מדעי ראוי.

זיכרון מתמשך בין סשנים

קובץ ההתקדמות, אשר מתוך נוחות נקרא כאן CHANGELOG.md, הוא הזיכרון ארוך הטווח הנייד של הסוכן, ומתפקד כמעין "יומן מעבדה". בקובץ CLAUDE.md, קלוד הונחה לעקוב אחר ההתקדמות בקובץ זה.

קובץ התקדמות יעיל יכול לתעד את הסטטוס הנוכחי, משימות שהושלמו, גישות כושלות והסיבות לכישלונן, טבלאות דיוק בנקודות בקרה מרכזיות, ומגבלות ידועות. הגישות הכושלות חשובות – בלעדיהן, סשנים עוקבים ינסו שוב ושוב את אותן דרכים ללא מוצא. ערך ביומן יכול להיראות כך: "ניסינו להשתמש ב-Tsit5 עבור ODE ההפרעות, המערכת קשיחה מדי. עברנו ל-Kvaerno5." כאן נמצא יומן השינויים לדוגמה הרצה, המציג אלמנטים אלה.

אורקל הבדיקה

אף שמחקר מדעי פתוח יותר באמצעות סוכנים נמצא בהחלט באופק, עבודה מדעית אוטונומית ארוכת-טווח תלויה באופן קריטי ביכולת של הסוכן לדעת אם הוא מתקדם. עבור קוד מדעי, זה יכול להיות יישום ייחוס, יעד בר-כימות ברור, או חבילת בדיקות קיימת. יכול להיות גם מועיל להנחות את הסוכן להרחיב את חבילת הבדיקות ולהריץ אותן תוך כדי עבודה, כדי למנוע רגרסיות. במשימת הדוגמה שלי, קלוד הונחה לבנות ולהריץ באופן רציף בדיקות יחידה תוך שימוש ב-קוד המקור C של CLASS כיישום ייחוס.

Git כמנגנון תיאום ובקרה

Git יכול לשמש דרך יעילה לניטור ותיאום התקדמות הסוכן בצורה פסיבית. על הסוכן לבצע קומיט ולדחוף שינויים (push) לאחר כל יחידת עבודה משמעותית. זה מספק היסטוריה ניתנת לשחזור אם משהו משתבש, הופך את ההתקדמות לגלוי מקומית, ומונע אובדן עבודה אם, למשל, הקצאת המשאבים החישוביים נגמרת באמצע הסשן.

בפועל, ניתן לכלול סט הוראות זה בקובץ CLAUDE.md, למשל: "בצע קומיט ו-push לאחר כל יחידת עבודה משמעותית. הרץ pytest tests/ -x -q לפני כל קומיט. לעולם אל תבצע קומיט לקוד ששובר בדיקות קיימות שעברו בהצלחה."

כדי לכוון את הסוכן, ניתן תמיד להתחבר לאשכול באמצעות SSH ולשנות ידנית את הפרומפט ו/או לעדכן את הוראותיו. לרוב, נוח יותר פשוט לבקש ממופע מקומי של Claude Code להתחבר באמצעות SSH ולהריץ עבורך פקודות; זה יחול גם על כל מה שמתואר בהמשך.

לולאת הביצוע: אוטונומיה בתנאי שטח

כפי שצוין לעיל, לעיתים קרובות מועיל לבצע איטרציות על התוכנית באופן מקומי עד שתתקבל תוכנית סבירה המקודדת בקובץ CLAUDE.md. משם, התחל סשן של Claude Code בתוך מולטיפלקסר מסוף כמו tmux על צומת חישוב, אמור לסוכן היכן למצוא את בסיס הקוד שלך, ותן לו לעבוד. מכיוון שהסשן רץ בתוך tmux, תוכל להתנתק, לסגור את המחשב הנייד שלך, ולבדוק מדי פעם את ההתקדמות (במקרה של פותר בולצמן, הייתי בודק ב-GitHub בטלפון שלי, למשל בזמן המתנה בתור לקפה).

באשכול HPC, ניתן לבקש צומת דרך מתזמן SLURM, ותסריט עבודה לדוגמה המשיק את Claude Code בסשן tmux עשוי להיראות כך:

#!/bin/bash
#SBATCH --job-name=claude-agent
#SBATCH --partition=GPU-shared
#SBATCH --gres=gpu:h100-32:1
#SBATCH --time=48:00:00
#SBATCH --output=agent_%j.log
cd $PROJECT/my-solver
source .venv/bin/activate
export TERM=xterm-256color
tmux new-session -d -s claude "claude; exec bash"
tmux wait-for claude

ברגע שהמשימה מתחילה, אתה מתחבר לסשן ה-tmux, נותן ל-Claude Code כיוון (לדוגמה, "קרא את CHANGELOG.md ובחר את המשימה הבאה"), ומתנתק כשאתה מרוצה שהסוכן בכיוון הנכון. תוכל להתחבר מחדש בכל עת שתרצה לבדוק התקדמות, לכוון, או להתחיל משימה חדשה באמצעות פקודה כזו:

srun --jobid=JOBID --overlap --pty tmux attach -t claude

לולאת Ralph: ככל שהמודלים הופכים ליכולים יותר, הם דורשים פחות תזמור מותאם אישית כמו הנדסת פרומפטים, RAG או מילוי חלון הקשר. עם זאת, בנקודת זמן נתונה, יכול להיות מועיל לספק רמה מסוימת של פיגומים כתמיכה ביכולת. לדוגמה, מודלים קיימים עלולים לסבול מעצלות סוכני – כאשר מתבקשים להשלים משימה מורכבת מרובת חלקים, הם עלולים לפעמים למצוא תירוץ לעצור לפני סיום המשימה כולה ("נהיה מאוחר, בוא נמשיך מחר?").

כדי לעקוף זאת, תבנית תזמור שימושית היא לולאת Ralph, שהיא למעשה לולאת for שמחזירה את הסוכן להקשר כאשר הוא טוען להשלמה, ושואלת אותו אם הוא באמת סיים. זה יכול להיות שימושי עבור משימות ארוכות-טווח שכן הסוכן יודה שהמשימה אינה עומדת במפרט, וימשיך לעבוד עד שתסתיים. תבניות דומות אחרות כוללות את GSDווריאנטים ספציפיים לתחום) וכן את פקודת ה-/loop המובנית ב-Claude Code.

ניתן להתקין את Ralph באמצעות /plugin. פרומפט הפעלה טיפוסי ב-Claude Code יכול להיראות כך:

/ralph-loop:ralph-loop “Please keep working on the task until the success criterion of 0.1% accuracy across the entire parameter range is achieved.” --max-iterations 20 --completion-promise “DONE”

כאן, קלוד יבצע איטרציות עד 20 פעמים עד שיבטיח שהמשימה בוצעה עם הכרזת "DONE".

התוצאות המפתיעות והלקחים

קלוד עבד על הפרויקט מאפס במשך מספר ימים, והגיע להתאמה של פחות מאחוז אחד מול יישום הייחוס CLASS בכל התוצאות השונות שלו. ביקשתי מקלוד לשחזר את הדיוק של חלק מהתוצרים העיקריים של הקוד – ספקטרום הכוח הזוויתי השונים של CMB – לאורך הפרויקט, תוך סימון אבני דרך במהלך הפיתוח. הוא יצר את התרשים שלהלן, הממחיש את הדרך לדיוק של פחות מאחוז אחד.

מסלול הפיתוח של הסוכן היה מגושם משהו. לדוגמה, היו פערי כיסוי ברורים בבדיקותיו – במשך זמן מה הוא בדק את הקוד רק בנקודת פרמטר יחידה (פידוציאלית), מה שהפחית באופן דרמטי את שטח פני זיהוי הבאגים שלו. הוא יכול גם לבצע טעויות בסיסיות, כמו להיתקל בקונבנציות כיול או לבזבז שעות במרדף אחר באגים שקוסמולוג היה מזהה באופן מיידי, אך הוא המשיך להתקדם באופן עקבי לעבר היעד המוצהר של דיוק של פחות מאחוז אחד.

תוצר לוואי של הפרויקט היה שלמדתי כמות מפתיעה על פותרי בולצמן ועל הפיזיקה שהם ממדלים, על ידי מעקב אחר היסטוריית הקומיטים ב-Git. הפרויקט אינו מתחום המדעי המרכזי שלי, אך מעקב אחר ההתקדמות המצטברת של קלוד וחיפוש מידע על מה שלא זיהיתי התגלה כדרך יעילה לספוג את המדע. יומן הקומיטים נקרא כמו יומן מעבדה של פוסט-דוקטורנט מהיר וסופר-ליטרלי.

אף שהפותר שנוצר אינו מיועד לסביבת ייצור (לדוגמה, הוא אינו תואם את יישום הייחוס CLASS בדיוק מקובל בכל מצב), הוא מדגים כי פיתוח מונחה-סוכנים יכול לדחוס חודשים ואף שנים של עבודת חוקרים לכדי ימים בודדים.

דחיסה מסוג זה משנה את מה שנתפס כ"זמן בטלה". חוויה אוניברסלית במחקר AI היא להשיק ניסוי (לדוגמה, ריצת אימון) למשך הלילה ואז ליהנות מראיית התוצאות בבוקר. אי-הרצת הניסוי כרוכה בעלות הזדמנות. בימים אלה, גם אי-הפעלת סוכנים מרגישה כרוכה בעלות. אם יש לכם את כוח המחשוב ואת הפרויקטים עם קריטריוני הצלחה מוגדרים היטב, כל לילה שבו אינכם מפעילים סוכנים עבורכם הוא התקדמות פוטנציאלית שנשארת על השולחן.

תודות

אנו מודים לאריק קאודרר-אברמס (Eric Kauderer-Abrams) על ביקורת עמיתים, וכן לאלכסנדר בלוויט (Xander Balwit), איתן דייר (Ethan Dyer) ורבקה היסקוט (Rebecca Hiscott) על מתן משוב מועיל.

תוכן קשור

כיצד אוסטרליה משתמשת בקלוד: ממצאים ממדד הכלכלה של אנתרופיק

דוח מדד הכלכלה של אנתרופיק: עקומות למידה

הדוח החמישי של מדד הכלכלה של אנתרופיק בוחן את השימוש בקלוד בפברואר 2026, ומתבסס על מסגרת ה"פרימיטיבים הכלכליים" שהוצגה בדוח הקודם שלנו.

מציגים את בלוג המדע שלנו

אנו משיקים בלוג חדש אודות AI ומדע. נשתף מחקרים המתבצעים באנתרופיק ובמקומות אחרים, שיתופי פעולה עם חוקרים ומעבדות חיצוניות, ונדון בתהליכי עבודה פרקטיים עבור מדענים המשתמשים ב-AI בעבודתם.

הירשמו ל-"Anthropic Science"

כתבות על תגליות בסיוע AI, תהליכי עבודה פרקטיים ורשומות שטח מתחומי המדע השונים.