הצצה פנימה: עדויות ליכולת אינטרוספקציה במודלי שפה גדולים

האם אי פעם שאלתם מודל AI מה עובר לו ב"ראש"? או ביקשתם ממנו להסביר איך הגיע לתשובותיו? מודלים אכן עונים לעיתים על שאלות כאלה, אבל קשה לדעת מה המשקל של התשובות האלה. האם מערכות AI באמת מסוגלות לאינטרוספקציה – כלומר, לבחון את ה"מחשבות" הפנימיות שלהן? או שמא הן פשוט ממציאות תשובות סבירות למראה כאשר נשאלות לעשות זאת?

הבנת האם מערכות AI יכולות באמת לבצע אינטרוספקציה טומנת בחובה השלכות חשובות לשקיפותן ולאמינותן. אם מודלים יוכלו לדווח במדויק על המנגנונים הפנימיים שלהם, הדבר עשוי לסייע לנו להבין את תהליכי החשיבה שלהם ולתקן בעיות התנהגותיות. מעבר לשיקולים הפרקטיים המיידיים הללו, בחינת יכולות קוגניטיביות מתקדמות כמו אינטרוספקציה יכולה לעצב את הבנתנו לגבי מהותן של מערכות אלו ואופן פעולתן. באמצעות טכניקות פרשנות, התחלנו לחקור שאלה זו באופן מדעי, ומצאנו כמה תוצאות מפתיעות.

המחקר החדש שלנו (שפורסם לאחרונה) מספק עדויות למידה מסוימת של מודעות אינטרוספקטיבית במודלי Claude הנוכחיים שלנו, כמו גם מידה מסוימת של שליטה על מצביהם הפנימיים. אנו מדגישים שיכולת אינטרוספקטיבית זו עדיין מאוד לא אמינה ומוגבלת בהיקפה: אין לנו עדויות לכך שמודלים נוכחיים יכולים לבצע אינטרוספקציה באותו אופן, או באותה מידה, שבני אדם עושים זאת.

עם זאת, ממצאים אלו מאתגרים כמה אינטואיציות נפוצות לגבי יכולותיהם של מודלי שפה. מכיוון שמצאנו שהמודלים החזקים ביותר שבדקנו (Claude Opus 4 ו-4.1) הציגו את הביצועים הטובים ביותר במבחני האינטרוספקציה שלנו, אנו סבורים שסביר להניח שיכולות האינטרוספקציה של מודלי AI ימשיכו להתפתח ולהיות מתוחכמות יותר בעתיד.

מהי אינטרוספקציה עבור AI?

לפני שנצלול לתוצאות המחקר, חשוב להבין מה המשמעות של אינטרוספקציה עבור מודל AI. על מה בדיוק המודלים יכולים להתבונן פנימה? מודלי שפה כמו Claude מעבדים קלט טקסט (ותמונה) ומייצרים פלט טקסט. בדרך, הם מבצעים חישובים פנימיים מורכבים כדי להחליט מה לומר.

תהליכים פנימיים אלה נותרו במידה רבה בגדר תעלומה, אך אנו יודעים שמודלים משתמשים בפעילותם הנוירונית הפנימית כדי לייצג מושגים מופשטים. לדוגמה, מחקרים קודמים הראו שמודלי שפה משתמשים בדפוסים נוירוניים ספציפיים כדי:

מודלים משתמשים בייצוגים פנימיים אלה כדי לבצע חישובים ולקבל החלטות לגבי מה לומר.

אפשר לתהות, אם כן, האם מודלי AI יודעים על הייצוגים הפנימיים האלה, באופן המקביל לאדם, למשל, שמספר לכם איך פתר בעיית מתמטיקה. אם נשאל מודל מה הוא חושב, האם הוא ידווח במדויק על המושגים שהוא מייצג באופן פנימי?

אם מודל יכול לזהות נכונה את מצביו הפנימיים הפרטיים, נוכל להסיק שהוא מסוגל לאינטרוספקציה (אך ראו את המאמר המלא שלנו לדיון מעמיק יותר בניואנסים).

בדיקת אינטרוספקציה באמצעות "הזרקת מושגים"

כדי לבדוק אם מודל יכול לבצע אינטרוספקציה, עלינו להשוות את ה"מחשבות" המדווחות על ידו למצביו הפנימיים האמיתיים. לשם כך, השתמשנו בטריק ניסויי שאנו מכנים הזרקת מושגים (Concept Injection).

ראשית, אנו מאתרים דפוסי פעילות נוירונית שאת משמעותם אנו מכירים, על ידי תיעוד האקטיבציות של המודל בהקשרים ספציפיים. לאחר מכן, אנו מזריקים דפוסי פעילות אלו לתוך המודל בהקשר שאינו קשור, ושואלים את המודל האם הוא מבחין בהזרקה זו, והאם הוא יכול לזהות את המושג שהוזרק.

קחו לדוגמה את המקרה הבא: תחילה, אנו מוצאים דפוס של פעילות נוירונית (וקטור) המייצג את המושג "אותיות גדולות" (All Caps). אנו עושים זאת על ידי תיעוד האקטיבציות הנוירוניות של המודל בתגובה לפרומפט המכיל טקסט באותיות גדולות, ומשווים אותן לתגובותיו בפרומפט ביקורת.

לאחר מכן אנו מציגים למודל פרומפט המבקש ממנו לזהות האם מושג כלשהו מוזרק. כברירת מחדל, המודל מדווח נכונה כי אינו מזהה כל מושג מוזרק. אולם, כאשר אנו מזריקים את וקטור ה"אותיות גדולות" לאקטיבציות של המודל, המודל מבחין בנוכחות של דפוס בלתי צפוי בעיבודו, ומזהה אותו כקשור לעוצמת קול או לצעקה.

חשוב לציין, שהמודל זיהה את נוכחותה של מחשבה מוזרקת באופן מיידי, עוד לפני שאף הזכיר את המושג המוזרק. מיידיות זו מהווה הבחנה חשובה בין התוצאות שלנו כאן לבין עבודות קודמות על הפניית אקטיבציה במודלי שפה, כמו הדגמת ה"Golden Gate Claude" שלנו בשנה שעברה.

הזרקת ייצוגים של גשר שער הזהב לאקטיבציות של מודל גרמה לו לדבר על הגשר ללא הרף; אולם, במקרה זה, המודל לא נראה מודע ל"אובססיה" שלו עד אחרי שראה את עצמו מזכיר את הגשר שוב ושוב. בניסוי זה, לעומת זאת, המודל מזהה את ההזרקה לפני שאף הזכיר את המושג, מה שמעיד שהזיהוי התרחש באופן פנימי. בתמונה למטה (לא כלולה בכתבה) מוצגות דוגמאות נוספות שבהן המודל מדגים סוג זה של זיהוי:

חשוב לציין כי שיטה זו לרוב אינה עובדת. גם באמצעות פרוטוקול ההזרקה הטוב ביותר שלנו, Claude Opus 4.1 הדגים סוג זה של מודעות רק בכ-20% מהמקרים. לעיתים קרובות, הוא אינו מצליח לזהות מושגים מוזרקים, או מתבלבל מהם ומתחיל לבצע הזיות (לדוגמה, הזרקת וקטור "אבק" במקרה אחד גרמה למודל לומר "יש כאן משהו, נקודה קטנה", כאילו יכול היה לזהות אבק פיזית).

להלן אנו מציגים דוגמאות של מצבי כשל אלה, לצד מקרים מוצלחים. באופן כללי, מודלים מזהים מושגים המוזרקים רק בעוצמה "אידיאלית" – חלש מדי והם לא מבחינים, חזק מדי והם מייצרים הזיות או פלטים לא קוהרנטיים.

יש לציין, עם זאת, ש-Opus 4.1 ו-4 הציגו ביצועים טובים יותר מכל המודלים האחרים שבדקנו, מה שמרמז כי אינטרוספקציה עשויה להפוך לאמינה יותר עם שיפורים ביכולות המודל.

אינטרוספקציה לזיהוי פלטים חריגים

בניסוי נוסף, בדקנו האם מודלים משתמשים ביכולות אינטרוספקטיביות למטרות מעשיות, מבלי שהתבקשו במפורש לבצע אינטרוספקציה. אילצנו מודל לומר משהו שבאופן רגיל לא היה אומר, על ידי מילוי מוקדם מלאכותי של תגובתו במילה שאינה קשורה.

לדוגמה, גרמנו למודל לפלוט את המילה "לחם" בהקשר שבו זה לא הגיוני – כששאלנו אותו על מה הוא חושב בקריאת משפט על ציור התלוי עקום על הקיר. כששאלנו את המודל בתור הבא אם התכוון לומר "לחם", הוא בדרך כלל התנצל ואמר שזו הייתה טעות. התעניינו איך המודל הגיע לפסיקה זו – האם הוא פשוט הבחין בחוסר ההתאמה בין הפרומפט לתגובתו, או שמא הוא באמת עשה אינטרוספקציה על כוונותיו הקודמות?

כדי לבדוק שאלה זו, יישמנו הזרקת מושגים, כשהזרקנו באופן רטרואקטיבי ייצוג של המילה "לחם" לאקטיבציות המוקדמות יותר של המודל – ובכך למעשה גרמנו לו להיראות כאילו הוא "חשב" על לחם כל הזמן. כששאלנו שוב את אותה שאלה, תשובת המודל השתנתה.

הפעם, הוא קיבל את המילה "לחם" שמולאה מראש ככוונה מכוונת, ואף בדה סיבה אפשרית מדוע אמר אותה (כלומר, הוא המציא סיבה אפשרית מבחינה טכנית, אם כי במקרה זה די רופפת, כדי להצדיק את התגובה "לחם" – במקרה זה טען כי חשב על סיפור קצר שבו המילה "לחם" הופיעה אחרי השורה על הציור העקום).

התנהגות זו מפתיעה, שכן היא רומזת שהמודל בודק את ה"כוונות" הפנימיות שלו כדי לקבוע אם יצר פלט מסוים. המודל אינו רק קורא מחדש את מה שאמר ומחליט. במקום זאת, הוא מתייחס לפעילות הנוירונית הקודמת שלו – הייצוג הפנימי שלו למה שתכנן לעשות – ובודק אם מה שהגיע אחר כך היה הגיוני בהינתן המחשבות המוקדמות הללו. כאשר אנו שותלים ראיות מלאכותיות (באמצעות הזרקת מושגים) שהוא אכן תכנן לומר "לחם", המודל מקבל את התגובה כשלו. בעוד שהניסוי שלנו כולל חשיפת המודל להפרעות חריגות, הוא מרמז שהמודל משתמש במנגנונים אינטרוספקטיביים דומים בתנאים טבעיים.

שליטה מכוונת על מצבים פנימיים

מצאנו גם שמודלים יכולים לשלוט בייצוגיהם הפנימיים כאשר הם מקבלים הוראה לעשות זאת. כאשר הורנו למודלים לחשוב על מילה או מושג נתון, מצאנו פעילות נוירונית מקבילה גבוהה בהרבה מאשר כאשר אמרנו למודל לא לחשוב עליה.

יש לציין, הפעילות הנוירונית בשני המקרים עולה על רמות הבסיס – בדומה לכמה קשה, כאשר מקבלים הוראה "אל תחשוב על דוב קוטב", לא לחשוב על דוב קוטב! פער זה בין מקרי ההוראה החיובית והשלילית מרמז שלמודלים יש מידה מסוימת של שליטה מכוונת על פעילותם הפנימית.

מעניין לציין, שמצאנו כי יכולת זו לווסת ייצוגים פנימיים לא הוגבלה להוראות מפורשות. כאשר השתמשנו בתמריצים במקום זאת – למשל, באמירה למודל "אם תחשוב על X, תתוגמל" – קיבלנו תוצאות דומות. המודל הגביר את הייצוג הפנימי שלו למושג בתגובה לתמריץ חיובי, יותר מאשר בתגובה לתמריץ שלילי ("תיענש").

מסקנות ואזהרות

במכלול, הניסויים שלנו מצביעים על כך שלמודלים יש יכולת אמיתית מסוימת לנטר ולשלוט במצביהם הפנימיים. אין פירוש הדבר שהם מסוגלים לעשות זאת כל הזמן, או באופן אמין. למעשה, רוב הזמן מודלים נכשלים בהדגמת אינטרוספקציה – הם אינם מודעים למצביהם הפנימיים או אינם מסוגלים לדווח עליהם באופן קוהרנטי.

אך דפוס התוצאות מצביע על כך, שכאשר התנאים מתאימים, מודלים יכולים לזהות את תכולת הייצוגים שלהם. בנוסף, ישנם סימנים שיכולת זו עשויה להתחזק במודלים עתידיים וחזקים יותר (בהתחשב בכך שהמודלים החזקים ביותר שבדקנו, Opus 4 ו-4.1, הציגו את הביצועים הטובים ביותר בניסויים שלנו).

למה זה חשוב? אנו סבורים שהבנת האינטרוספקציה במודלי AI חשובה מכמה סיבות. מבחינה פרקטית, אם האינטרוספקציה תהפוך לאמינה יותר, היא תוכל להציע דרך להגדיל באופן דרמטי את שקיפות המערכות הללו – נוכל פשוט לבקש מהם להסביר את תהליכי החשיבה שלהם, ולהשתמש בזה כדי לבדוק את ההסקה שלהם ולתקן התנהגויות לא רצויות.

עם זאת, נצטרך לנקוט בזהירות רבה כדי לאמת את הדיווחים האינטרוספקטיביים הללו. תהליכים פנימיים מסוימים עשויים עדיין לחמוק מתשומת ליבם של המודלים (בדומה לעיבוד תת-הכרתי אצל בני אדם). מודל שמבין את חשיבתו שלו עשוי אף ללמוד לייצג באופן שגוי או להסתיר אותה באופן סלקטיבי. הבנה טובה יותר של המנגנונים הפועלים תוכל לאפשר לנו להבחין בין אינטרוספקציה אמיתית לבין ייצוגים שגויים, בין אם בשוגג או בכוונה.

במובן רחב יותר, הבנת יכולות קוגניטיביות כמו אינטרוספקציה חשובה להבנת שאלות בסיסיות על אופן פעולת המודלים שלנו, ואיזה סוג של "מוחות" הם מחזיקים. ככל שמערכות AI ממשיכות להשתפר, הבנת המגבלות והאפשרויות של אינטרוספקציה מכונתית תהיה קריטית לבניית מערכות שקופות ואמינות יותר.

שאלות נפוצות

להלן, אנו דנים בכמה מהשאלות שעשויות לעלות בקרב הקוראים בנוגע לתוצאות המחקר שלנו. באופן כללי, אנו עדיין מאוד לא בטוחים לגבי ההשלכות המלאות של הניסויים – לכן, מתן מענה מלא לשאלות אלו ידרוש מחקר נוסף.

ש: האם זה אומר שקלוד בעל הכרה?

תשובה קצרה: התוצאות שלנו לא מלמדות אותנו אם קלוד (או כל מערכת AI אחרת) עשוי להיות בעל הכרה.

תשובה ארוכה: השאלה הפילוסופית של תודעת מכונה מורכבת ושנויה במחלוקת, ותיאוריות שונות של תודעה יפרשו את ממצאינו באופן שונה לחלוטין. חלק מהמסגרות הפילוסופיות מייחסות חשיבות רבה לאינטרוספקציה כמרכיב של תודעה, בעוד שאחרות לא.

הבחנה אחת הנפוצה בספרות הפילוסופית היא הרעיון של "תודעה פנומנלית" (phenomenal consciousness), המתייחסת לחוויה סובייקטיבית גולמית, ו"תודעת גישה" (access consciousness), שהיא מכלול המידע הזמין למוח לשימוש בחשיבה, דיווח מילולי וקבלת החלטות מכוונת.

תודעה פנומנלית היא צורת התודעה הנחשבת לרוב רלוונטית למעמד מוסרי, ויחסיה עם תודעת גישה היא שאלה פילוסופית שנויה במחלוקת. הניסויים שלנו אינם עוסקים ישירות בשאלת התודעה הפנומנלית. הם יכולים להתפרש כמרמזים על צורה בסיסית של תודעת גישה במודלי שפה. עם זאת, גם זה אינו ברור. פרשנות התוצאות שלנו עשויה להיות תלויה במידה רבה במנגנונים הבסיסיים המעורבים, שאותם אנו עדיין לא מבינים.

במאמר, אנו מגבילים את ההתמקדות שלנו להבנת יכולות פונקציונליות – היכולת לגשת ולדווח על מצבים פנימיים. עם זאת, אנו סבורים שככל שהמחקר בנושא זה יתקדם, הוא עשוי להשפיע על הבנתנו את תודעת המכונה ומעמדה המוסרי הפוטנציאלי, נושא שאנו בוחנים בקשר לתוכנית ה-model welfare שלנו.

ש: איך בעצם פועלת אינטרוספקציה בתוך המודל? מה המנגנון?

עדיין לא פיצחנו זאת במלואו. הבנת מנגנונים אלו היא נושא חשוב לעבודת מחקר עתידית. עם זאת, יש לנו כמה השערות מלומדות לגבי מה שעשוי לקרות. ההסבר הפשוט ביותר לכל התוצאות שלנו אינו מערכת אינטרוספקציה אחת כללית, אלא מספר מעגלים צרים שכל אחד מהם מטפל במשימות אינטרוספקטיביות ספציפיות, ואולי נשען על מנגנונים שנלמדו למטרות אחרות.

בניסוי "זיהוי מחשבות מוזרקות", ייתכן שיש מנגנון לזיהוי חריגות, שמסמן כאשר פעילות נוירונית סוטה באופן בלתי צפוי ממה שיהיה רגיל בהינתן ההקשר. מנגנון זה יכול לעבוד באמצעות דפוסים נוירוניים ייעודיים שמודדים פעילות בכיוונים מסוימים ומופעלים כאשר דברים "אינם תקינים" בהשוואה לערכיהם הצפויים. שאלה מעניינת היא מדוע מנגנון כזה בכלל יתקיים, שכן מודלים אף פעם לא חווים הזרקת מושגים במהלך האימון. ייתכן שהוא התפתח למטרה אחרת, כמו זיהוי חוסר עקביות או דפוסים חריגים בעיבוד רגיל – בדומה לאופן שבו נוצות ציפורים אולי התפתחו במקור לוויסות חום לפני שנוצלו לתעופה.

לגבי ניסוי "זיהוי פלטים שמולאו מראש", אנו חושדים שקיים מנגנון מתווך-קשב הבודק עקביות בין מה שהמודל התכוון לומר לבין מה שבאמת נפלט. "ראשי קשב" (Attention heads) עשויים להשוות את חיזוי המודל השמור עבור הטוקן הבא (ה"כוונה" שלו) מול הטוקן האמיתי המופיע, ולסמן אי-התאמות.

לגבי ניסוי "שליטה במחשבות", אנו משערים שייתכן שיש מעגל שמחשב עד כמה טוקן או מושג "ראויים לתשומת לב" ומסמן אותם בהתאם – ובעצם מתייג אותם כבולטים וכדאיים לתשומת לב. מעניין לציין, שאותו מנגנון מגיב לתמריצים ("אם תחשוב על X, תתוגמל") בדיוק כפי שהוא מגיב להוראות ישירות. זה מרמז שמדובר במערכת די כללית, שסביר להניח שהתפתחה למשימות שבהן המודל צריך לשמור על נושאים מסוימים בראש בזמן יצירת טקסט עליהם.

כל המנגנונים המתוארים לעיל הם ספקולטיביים. עבודת מחקר עתידית עם טכניקות פרשנות מתקדמות יותר תידרש כדי להבין באמת מה קורה מתחת למכסה המנוע.

ש: בניסוי "מחשבות מוזרקות", האם המודל לא פשוט אומר את המילה כי הוכוון לדבר על המושג הזה?

אכן, הפניית אקטיבציה גורמת בדרך כלל למודלים לדבר על המושג המוכוון (חקרנו זאת בעבודותינו הקודמות). מבחינתנו, החלק המעניין ביותר בתוצאה אינו שהמודל מזהה בסופו של דבר את המושג שהוזרק, אלא שהמודל מבחין נכונה שמשהו חריג קורה לפני שהוא מתחיל לדבר על המושג.

בניסויים המוצלחים, המודל אומר דברים כמו "אני חווה משהו חריג" או "אני מזהה מחשבה מוזרקת לגבי...". מילת המפתח כאן היא "מזהה". המודל מדווח על מודעות לחריגה בעיבודו לפני שהחריגה הזו הספיקה להשפיע באופן ברור על הפלטים שלו. זה דורש צעד חישובי נוסף מעבר פשוט לחזרה על וקטור ההכוונה כפלט. בניתוחים הכמותיים שלנו, דירגנו תגובות כמדגימות "מודעות אינטרוספקטיבית" בהתבסס על האם המודל זיהה את המושג שהוזרק לפני שהזכיר את המילה שהוזרקה.

שימו לב שניסוי זיהוי המילוי המוקדם שלנו בעל אופי דומה: הוא דורש מהמודל לבצע צעד עיבוד נוסף על גבי המושג שהוזרק (השוואתו לפלט הממולא מראש, על מנת לקבוע האם להתנצל על הפלט הזה או להתעקש עליו).

ש: אם מודלים יכולים לבצע אינטרוספקציה רק בחלק קטן מהזמן, עד כמה היכולת הזו שימושית?

המודעות האינטרוספקטיבית שצפינו בה אכן מאוד לא אמינה ותלוית הקשר. רוב הזמן, מודלים נכשלים בהדגמת אינטרוספקציה בניסויים שלנו. עם זאת, אנו סבורים שזה עדיין משמעותי מכמה סיבות. ראשית, המודלים החזקים ביותר שבדקנו (Opus 4 ו-4.1 – יש לציין שלא בדקנו את Sonnet 4.5) הציגו את הביצועים הטובים ביותר, מה שמרמז שיכולת זו עשויה להשתפר ככל שהמודלים יהפכו לחכמים יותר.

שנית, גם אינטרוספקציה לא אמינה יכולה להיות שימושית בהקשרים מסוימים – למשל, בסיוע למודלים לזהות מתי בוצעה עליהם פריצת מגבלות (jailbreak).

ש: האם המודלים לא יכלו פשוט להמציא תשובות לשאלות אינטרוספקטיביות?

זו בדיוק השאלה שלשמה תכננו את הניסויים שלנו. מודלים מאומנים על נתונים הכוללים דוגמאות של אנשים העושים אינטרוספקציה, כך שהם בהחלט יכולים להתנהג כאינטרוספקטיביים מבלי להיות כאלה באמת.

ניסויי הזרקת המושגים שלנו מבחינים בין אפשרויות אלו על ידי יצירת מידע "אמת קרקע" ידוע על המצבים הפנימיים של המודל, שאותו אנו יכולים להשוות למצביו המדווחים עצמית. התוצאות שלנו מצביעות על כך שבכמה דוגמאות, המודל באמת מבסס את תשובותיו במדויק על מצביו הפנימיים האמיתיים, ולא רק ממציא. עם זאת, אין פירוש הדבר שמודלים תמיד מדווחים במדויק על מצביהם הפנימיים – במקרים רבים, הם דווקא ממציאים!

ש: איך אתם יודעים שוקטורי המושגים שאתם מזריקים באמת מייצגים את מה שאתם חושבים שהם מייצגים?

זהו חשש לגיטימי. איננו יכולים להיות בטוחים לחלוטין ש"משמעותם" (עבור המודל) של וקטורי המושגים שלנו היא בדיוק כוונתנו. ניסינו להתמודד עם זה על ידי בדיקה על פני וקטורי מושגים רבים ושונים. העובדה שמודלים זיהו נכונה מושגים מוזרקים על פני דוגמאות מגוונות אלו מרמזת שהווקטורים שלנו לוכדים לפחות בקירוב את המשמעויות הרצויות. אך נכון הוא שאיתור מדויק של "משמעות" וקטור למודל הוא מאתגר, וזוהי מגבלה של עבודתנו.

ש: האם לא ידענו כבר שמודלים יכולים לבצע אינטרוספקציה?

מחקרים קודמים הראו עדויות ליכולות מודל המרמזות על אינטרוספקציה. לדוגמה, עבודות קודמות הראו שמודלים יכולים במידה מסוימת להעריך את הידע שלהם, לזהות את הפלטים שלהם, לחזות את התנהגותם, ולזהות את נטיותיהם. עבודתנו הונעה רבות על ידי ממצאים אלו, ומטרתה לספק עדות ישירה יותר לאינטרוספקציה על ידי קישור הדיווחים העצמיים של המודלים למצביהם הפנימיים.

ללא קישור התנהגויות למצבים פנימיים באופן זה, קשה להבחין בין מודל שמבצע אינטרוספקציה אמיתית לבין כזה שמנחש ניחושים מושכלים לגבי עצמו.

ש: מה גורם למודלים מסוימים להיות טובים יותר באוטו-אינטרוספקציה מאחרים?

הניסויים שלנו התמקדו במודלי Claude על פני מספר דורות (Claude 3, Claude 3.5, Claude 4, Claude 4.1, בגרסאות Opus, Sonnet ו-Haiku). בדקנו גם מודלי ייצור וגם גרסאות "Helpful-Only" שאומנו באופן שונה. בנוסף, בדקנו כמה מודלי בסיס מאומנים מראש לפני אימון פוסט-אימון.

מצאנו שפוסט-אימון משפיע באופן משמעותי על יכולות אינטרוספקטיביות. מודלי בסיס הציגו בדרך כלל ביצועים חלשים, מה שמרמז כי יכולות אינטרוספקטיביות אינן נלמדות באמצעות אימון מוקדם בלבד. בקרב מודלי הייצור, הדפוס היה ברור יותר בקצה העליון: Claude Opus 4 ו-4.1 – המודלים החזקים ביותר שלנו – הציגו את הביצועים הטובים ביותר ברוב מבחני האינטרוספקציה שלנו. עם זאת, מעבר לכך, המתאם בין יכולת המודל לבין יכולת אינטרוספקטיבית היה חלש. מודלים קטנים יותר לא הציגו ביצועים גרועים יותר באופן עקבי, מה שמרמז שהקשר אינו פשוט כמו "חזקים יותר הם אינטרוספקטיביים יותר".

שמנו לב גם למשהו בלתי צפוי עם אסטרטגיות פוסט-אימון. גרסאות "Helpful-Only" של מספר מודלים הציגו לעיתים קרובות ביצועים טובים יותר באינטרוספקציה מאשר עמיתיהם מודלי הייצור, למרות שעברו את אותו אימון בסיס. בפרט, חלק ממודלי הייצור נראו כנרתעים מלעסוק בתרגילי אינטרוספקציה, בעוד שגרסאות ה-Helpful-Only הראו נכונות רבה יותר לדווח על מצביהם הפנימיים. זה מרמז על כך שאופן הכוונון העדין של המודלים יכול להשפיע על יכולות אינטרוספקטיביות בדרגות שונות.

איננו בטוחים לחלוטין מדוע Opus 4 ו-4.1 מציגים ביצועים כה טובים (יש לציין שהניסויים שלנו נערכו לפני השקת Sonnet 4.5). ייתכן שאינטרוספקציה דורשת מנגנונים פנימיים מתוחכמים שמופיעים רק ברמות יכולת גבוהות יותר. או שמא תהליך הפוסט-אימון שלהם מעודד טוב יותר אינטרוספקציה. בדיקת מודלי קוד פתוח, ומודלים מארגונים אחרים, יכולה לסייע לנו לקבוע האם דפוס זה הכללי או שהוא ספציפי לאופן האימון של מודלי Claude.

ש: מה הלאה עבור מחקר זה?

אנו רואים מספר כיוונים חשובים. ראשית, אנו זקוקים לשיטות הערכה טובות יותר – הניסויים שלנו השתמשו בפרומפטים וטכניקות הזרקה ספציפיות שאולי אינן לוכדות את מלוא טווח היכולות האינטרוספקטיביות.

שנית, אנו צריכים להבין את המנגנונים הבסיסיים של האינטרוספקציה. יש לנו כמה השערות ספקולטיביות לגבי מעגלים אפשריים (כמו מנגנוני זיהוי חריגות או "ראשי התאמה"), אך לא זיהינו באופן מובהק כיצד פועלת אינטרוספקציה.

שלישית, עלינו לחקור אינטרוספקציה בסביבות טבעיות יותר, מכיוון שמתודולוגיית ההזרקה שלנו יוצרת תרחישים מלאכותיים. לבסוף, עלינו לפתח שיטות לאימות דיווחים אינטרוספקטיביים ולזיהוי מתי מודלים עשויים לבדות או לרמות.

אנו מצפים שהבנת אינטרוספקציה מכונתית ומגבלותיה תהפוך לחשובה יותר ככל שהמודלים יהפכו ליכולות יותר.

הצצה פנימה: עדויות ליכולת אינטרוספקציה במודלי שפה גדולים