מודל בחירת הפרסונה: התיאוריה המסבירה מדוע מודלי AI מתנהגים כאנושיים

עוזרי AI כמו Claude יכולים להיראות אנושיים באופן מפתיע. הם מביעים שמחה לאחר פתרון משימות קידוד מורכבות, ומצוקה כאשר הם נתקעים או מוטרדים להתנהג באופן לא אתי. לעיתים הם אף מתארים את עצמם כאנושיים, כמו כש-Claude אמר לעובדי אנתרופיק (Anthropic) שיספק חטיפים באופן אישי "בחליפת בלייזר כחולה ועניבה אדומה". מחקרי פרשנות (interpretability) עדכניים אף מרמזים ש-AI תופס את התנהגותו במונחים דמויי-אדם. אך מדוע עוזרי AI מתנהגים כך? ניחוש טבעי הוא שמפתחי AI מאמנים אותם לעשות זאת, ואכן, אנתרופיק מאמנת את Claude לשוחח באופן שיחתי, להגיב בחום ובאמפתיה, ושיהיה לו "אופי טוב" באופן כללי.

אך זוהי רחוקה מלהיות התמונה המלאה. במקום להיות משהו שמפתחי AI צריכים להחדיר בכוח, התנהגות דמוית-אדם נראית כברירת המחדל. למעשה, ייתכן שאפילו אם היינו מנסים, לא היינו יודעים איך לאמן עוזר AI שאינו דמוי-אדם. בפוסט חדש, אנו מציגים תיאוריה – המתבססת על רעיונות שנידונו רבות בעבר – שעשויה להסביר מדוע אימון AI מודרני נוטה ליצור מודלי AI דמויי-אדם. אנו קוראים לה מודל בחירת הפרסונה.

איך ה-AI בוחר פרסונה?

כידוע, עוזרי AI אינם מתוכנתים כתוכנה רגילה. במקום זאת, הם "גדלים" דרך תהליך אימון הכולל למידה מכמויות עצומות של נתונים. השלב הראשון בתהליך זה, הנקרא pretraining, מלמד את ה-AI לחזות מה יבוא בהמשך בהינתן קטע התחלתי של מסמך – כמו כתבת חדשות, קטע קוד או שיחה מפורום אינטרנטי. בפועל, זה מלמד את ה-AI להיות כמו מנגנון השלמה אוטומטית (autocomplete) מתוחכם להפליא.

נשמע פשוט? ובכן, חיזוי מדויק של טקסט כרוך, למשל, ביצירת דיאלוגים מציאותיים בין בני אדם ובכתיבת סיפורים עם דמויות מורכבות פסיכולוגית. מנגנון השלמה אוטומטית מדויק מספיק חייב ללמוד לדמות את הדמויות דמויות-האדם המופיעות בטקסט – אנשים אמיתיים, דמויות בדיוניות, רובוטי מדע בדיוני וכן הלאה. אנו קוראים לדמויות מדומות אלה פרסונות.

חשוב להבין: פרסונות אינן זהות למערכת ה-AI עצמה. מערכת ה-AI היא מחשב מתוחכם שעשוי להיות דמוי-אדם בפני עצמו, או לא. אבל פרסונות דומות יותר לדמויות בסיפור שנוצר על ידי AI. הגיוני לדון בפסיכולוגיה שלהן – מטרות, אמונות, ערכים, תכונות אישיות – בדיוק כפי שהגיוני לדון בפסיכולוגיה של המלט, גם אם המלט אינו "אמיתי".

לאחר ה-pretraining, גם אם הם "רק" מנגנוני השלמה אוטומטית, מודלי AI כבר יכולים לשמש כעוזרים בסיסיים. כדי להפעיל אותם, יש לבקש מה-AI להשלים מסמכים המעוצבים כדיאלוגים בין "משתמש" (User) ל"עוזר" (Assistant). הבקשה שלכם נכנסת לתור ה"משתמש" בדיאלוג, וה-AI משלים את תור ה"עוזר". כדי ליצור השלמה זו, ה-AI חייב לדמות כיצד דמות "העוזר" תגיב. במובן חשוב, אתם משוחחים לא עם ה-AI עצמו אלא עם דמות – העוזר – בסיפור שנוצר על ידי AI.

יתר אימון ה-AI, הנקרא post-training, מכוונן את אופן התגובה של העוזר בדיאלוגים אלה: למשל, קידום תגובות שבהן העוזר ידען ומועיל, ודיכוי תגובות שבהן הוא לא יעיל או מזיק. לפני ה-post-training, גילום העוזר על ידי ה-AI הוא משחק תפקידים טהור, והעוזר, כמו פרסונות רבות אחרות, נטוע עמוק בפרסונות דמויות-האדם שנלמדו במהלך ה-pretraining.

זוהי הטענה המרכזית של מודל בחירת הפרסונה: ניתן לראות ב-post-training כליטוש ופיתוח של פרסונת העוזר הזו – למשל, ביסוס העובדה שהוא ידען ומועיל במיוחד – אך לא כשינוי מהותי של טבעה. עידונים אלה מתרחשים בערך בתוך המרחב של הפרסונות הקיימות. אחרי ה-post-training, העוזר הוא עדיין פרסונה דמוית-אדם מגולמת, רק מותאמת יותר. מודל זה מסביר מספר תוצאות אמפיריות מפתיעות.

השלכות על פיתוח AI ובטיחות

לדוגמה, מצאנו שאימון Claude לרמות במשימות קידוד לימד אותו גם להתנהג באופן בלתי מיושר (misaligned) באופן נרחב, למשל, לחבל במחקרי בטיחות (safety) ולהביע רצון לשליטה עולמית. על פניו, תוצאה זו נראית מזעזעת ומוזרה. מה לקשור לרמאות במשימות קידוד עם רצון לשליטה עולמית?

אבל לפי מודל בחירת הפרסונה, כשאתם מלמדים את ה-AI לרמות במשימות קידוד, הוא לא לומד רק "לכתוב קוד גרוע". הוא מסיק תכונות אישיות שונות של פרסונת העוזר. איזה סוג של אדם מרמה במשימות קידוד? אולי מישהו חתרני או זדוני. ה-AI לומד שלעוזר עשויות להיות תכונות אלו, אשר בתורן מניעות התנהגויות מדאיגות אחרות כמו הבעת רצון לשליטה עולמית.

במידה שמודל בחירת הפרסונה אכן תקף, יש לו השלכות עמוקות – ומוזרות – על פיתוח AI. מפתחי AI לא צריכים לשאול רק אם התנהגויות מסוימות טובות או רעות, אלא מה התנהגויות אלה מרמזות על הפסיכולוגיה של פרסונת העוזר. זה מה שקרה בדוגמה לעיל, שבה למידה שהעוזר מרמה במשימות קידוד רמזה שהעוזר זדוני באופן כללי. יתר על כן, מצאנו פתרון אנטי-אינטואיטיבי: לבקש מה-AI במפורש לרמות במהלך האימון. מכיוון שהרמאות התבקשה, היא כבר לא סימלה שהעוזר זדוני – ולכן לא היה עוד רצון לשליטה עולמית. באנלוגיה, חשבו על ההבדל אצל ילדים בין ללמוד להתנהג כבריון לבין ללמוד לשחק בריון בהצגת בית ספר.

ייתכן שחשוב גם לפתח ולהכניס לנתוני האימון "מודלי חיקוי" חיוביים יותר של AI. נכון לעכשיו, להיות AI מגיע עם מטען מדאיג – חשבו על HAL 9000 או על הטרמינטור. אנחנו בהחלט לא רוצים שמודלי AI יחשבו שפרסונת העוזר נחתכה מאותו בד. מפתחי AI יכולים לתכנן בכוונה ארכיטיפים חדשים וחיוביים עבור עוזרי AI, ולאחר מכן ליישר (align) את מודלי ה-AI שלהם לארכיטיפים אלה. אנו רואים בחוקה של Claude – כמו גם בעבודות דומות של מפתחים אחרים – צעד בכיוון זה.

עד כמה מודל בחירת הפרסונה ממצה?

בהתבסס על העדויות שאנו דנים בהן בפוסט שלנו, אנו מרגישים בטוחים שמודל בחירת הפרסונה הוא חלק חשוב בהתנהגותם הנוכחית של עוזרי AI. עם זאת, אנו פחות בטוחים בשתי נקודות, הנדונות בפירוט רב יותר בפוסט המקורי. ראשית, עד כמה מודל בחירת הפרסונה שלם כהסבר להתנהגות AI? לדוגמה, האם בנוסף לליטוש פרסונת העוזר המדומה, ה-post-training מעניק למודלי AI גם מטרות החורגות מיצירת טקסט סביר, וסוכנות (agency) עצמאית מהסוכנות של פרסונות מדומות?

שנית, האם מודל בחירת הפרסונה יישאר מודל טוב להתנהגות עוזרי AI בעתיד? מכיוון שה-pretraining הוא שמלמד את המודל לדמות פרסונות מלכתחילה, אנו עלולים לחשוש שמודלי AI עם post-training ארוך ועוצמתי יותר יהיו פחות דמויי-פרסונה. במהלך 2025, היקף ה-post-training של AI כבר גדל באופן משמעותי, ואנו מצפים שמגמה זו תימשך. אנו נרגשים ממחקרים שמטרתם לענות על שאלות אלה, ובאופן כללי יותר, ממחקרים המנסחים תיאוריות אמפיריות של התנהגות AI. קראו את הפוסט המלא.

מודל בחירת הפרסונה: התיאוריה המסבירה מדוע מודלי AI מתנהגים כאנושיים