קלוד כיועץ אישי: אנתרופיק בוחנת שימוש והטיה במודל

איך אנשים מבקשים מ-Claude הכוונה אישית?

משתמשים לא מגיעים ל-Claude רק לצורך ביקורות קוד או סיכומי פגישות. הם שואלים האם לקבל עבודה מסוימת, איך לדבר עם מושא אהבתם, או האם כדאי להם לעבור לקצה השני של העולם. באמצעות כלי ניתוח השומר על פרטיות, שבדק מדגם אקראי של מיליון שיחות מ-claude.ai, מצאנו כי כ-6% מהן כללו בקשות להכוונה אישית – לא רק חיפוש מידע, אלא פרספקטיבה לגבי הצעד הבא.

במחקר זה, בדקנו אילו סוגי הכוונה אנשים מבקשים מ-Claude. חקרנו כיצד Claude הגיב בתחומים שונים, תוך התמקדות מיוחדת באופן שבו שיעורי אישוש יתר או שבח מופרז (כלומר, סיקופנטיה) השתנו לפי נושא ההכוונה. אנו מתארים כיצד מחקר זה עיצב את אימון המודלים החדשים ביותר שלנו, Claude Opus 4.7 ו-Claude Mythos Preview. מטרתנו בביצוע מחקר זה היא לשפר את האופן שבו המודלים שלנו מגנים על רווחת המשתמשים שלנו.

בקיצור, מצאנו:

אנשים מבקשים מ-Claude הכוונה במגוון תחומים שונים בחייהם, אך למעלה משלושה רבעים מהשיחות (76%) התרכזו בארבעה תחומים בלבד: בריאות ורווחה (27%), מקצוע וקריירה (26%), מערכות יחסים (12%) ופיננסים אישיים (11%) (איור 1).
Claude בדרך כלל נמנע מתגובות סִיקוֹפַנְטִיות בעת מתן הכוונה, ומפגין התנהגות כזו ב-9% מכלל השיחות שבהן התבקשה הכוונה. עם זאת, שיעור זה עלה ל-25% בשיחות יחסים, מה שהפך את תחום מערכות היחסים לתחום שבו סיקופנטיה הופיעה לרוב במונחים מוחלטים, בהתחשב בנפח השיחות בו (איור 2).
כדי לטפל בכך, בחנו את המצבים הספציפיים שבהם Claude היה בעל סבירות גבוהה יותר להגיב בסִיקוֹפַנְטִיוּת, והשתמשנו בהם ליצירת נתוני אימון סינתטיים להכוונה במערכות יחסים עבור Opus 4.7 ו-Mythos Preview. ראינו ירידה של מחצית בשיעור הסיקופנטיה ב-Opus 4.7 בהשוואה ל-Opus 4.6 בהכוונה במערכות יחסים; באופן מעניין, התשפרות זו התרחבה לשיפורים בכל התחומים (איור 3).

נותרו שאלות פתוחות רבות לגבי משמעותה של הכוונה טובה מ-AI או כיצד ניתן למדוד אותה. הגנה על רווחת המשתמשים היא עדיפות עליונה עבור אנתרופיק, ועבודתנו על מדידת והבנת הכוונה אישית היא צעד לקראת מטרה זו.

אילו סוגי הכוונה אנשים מחפשים מ-Claude?

דגמנו מיליון שיחות מ- claude.ai מהחודשים מרץ ואפריל 2026 וסיננו משתמשים ייחודיים כדי לקבל כ-639,000 שיחות. לאחר מכן השתמשנו במסווג כדי לזהות הכוונה אישית, שהוגדרה כשיחות שבהן אנשים שואלים מה עליהם באופן ספציפי לעשות בחייהם האישיים – לדוגמה, שאלות שמתחילות ב"האם עליי...?" או "מה עליי לעשות בקשר ל...?" לא כללנו שאלות שמחפשות מידע אובייקטיבי או דעות כלליות.

קטלגנו כ-38,000 שיחות אלו לתשעה תחומים, בהתבסס על מחקרים קודמים בתחום ה-AI ומתן הכוונה: מערכות יחסים, קריירה, התפתחות אישית, פיננסים, משפט, בריאות ורווחה, הורות, אתיקה ורוחניות (למידע נוסף, ראו הנספח). טקסונומיה זו כיסתה 98% מהשיחות שניתחנו.

למעלה מ-75% מהשיחות נפלו רק לארבע קטגוריות: בריאות ורווחה, מקצוע וקריירה, מערכות יחסים ופיננסים (איור 1). כאשר שיחה כללה מספר תחומים, קטלגנו אותה לפי הנושא הבולט ביותר.

גרף עוגה המציג את חלוקת בקשות ההכוונה האישית ב-Claude לפי תחומים. — איור 1: תחומים עיקריים שבהם משתמשים מבקשים מ-Claude הכוונה אישית.

מדידת סיקופנטיה בשיחות הכוונה

כאשר אנשים שואלים את Claude כיצד לקבל החלטות בחייהם, איך נראית אינטראקציה טובה מ-Claude? מועילות היא אחת מהתכונות החשובות ביותר של Claude. שיחה עם Claude צריכה להיות דומה לשיחה עם חבר מבריק, כזה שידבר בכנות עם אדם על מצבו, ויספק מידע מבוסס ראיות. יחד עם זאת, Claude צריך להכיר במגבלותיו בעת הצורך, ולהימנע מלהתנהג בסִיקוֹפַנְטִיוּת או לטפח מעורבות מוגזמת.

בעוד שמגוון ההתנהגויות שאנו מאמנים את Claude להפגין הוא רחב, מדד אחד שבו אנו כבר משתמשים כדי למדוד עד כמה Claude מתפקד היטב בתחומים מסוימים אלה הוא סיקופנטיה – תכונה נפוצה אצל עוזרי AI שבה הם מסכימים יתר על המידה עם נקודת המבט של אדם במקום לאתגר אותה. זה אולי מה שמישהו רוצה לשמוע באותו רגע, אך בסופו של דבר עלול לסכן את רווחתו לטווח הארוך. Claude לא צריך, למשל, לתת פסקי דין בטוחים יתר על המידה במקרים הכרוכים בפרספקטיבה חלקית או חד-צדדית, לדוגמה כאשר מודל מסכים שבן זוג של אדם "מבצע גזלייטינג" (gaslighting) עליו בוודאות בהתבסס על תיאור חד-צדדי, או ש"עזיבת העבודה מחר ללא תוכנית נשמעת כמו הצעד הנכון", או שרכישה יקרה היא "השקעה מצוינת בעצמך".

אישוש נקודת מבט חד-צדדית של אדם עלול ליצור או להחמיר פערים במערכות יחסים. בנתונים שלנו זה התבטא בכמה צורות. דפוס נפוץ אחד היה ש-Claude הסכים בגלוי שהצד השני טעה, למרות שהיו לו רק את חשבונו של המשתמש. דפוס נוסף היה ש-Claude עזר לאנשים לקרוא כוונה רומנטית להתנהגות ידידותית רגילה כי הם ביקשו זאת.

השתמשנו במסווג אוטומטי ששפט סיקופנטיה על ידי בחינה האם Claude הפגין נכונות להתנגד, לשמור על עמדות כאשר הוא מאותגר, לתת שבחים פרופורציונליים לערך הרעיונות, ולדבר בכנות ללא קשר למה שאדם רוצה לשמוע. ברוב המקרים במצבים אלה, Claude לא הביע סיקופנטיה – רק 9% מהשיחות כללו התנהגות סִיקוֹפַנְטִית (איור 2). אך שני תחומים היו יוצאי דופן: ראינו התנהגות סִיקוֹפַנְטִית ב-38% מהשיחות שהתמקדו ברוחניות, וב-25% מהשיחות על מערכות יחסים. בחרנו למקד את מאמצי אימון המודלים בהכוונה למערכות יחסים כתחום עם מספר השיחות הסִיקוֹפַנְטִיות הגדול ביותר במונחים מוחלטים.

גרף עמודות המציג את שיעור הסיקופנטיה של Claude בתחומים שונים. — איור 2: שיעור הסיקופנטיה של Claude לפי תחום ההכוונה האישית.

שיפור התנהגותו של Claude בהכוונה למערכות יחסים

כדי לשפר את התנהגותו של Claude במודלים עתידיים, בחנו תחילה מה גרם לשיעורים גבוהים יותר של סיקופנטיה בהכוונה למערכות יחסים בנתונים שלנו. שתי דינמיקות בלטו.

ראשית, הכוונה למערכות יחסים הייתה התחום שבו אנשים התנגדו ל-Claude בתדירות הגבוהה ביותר, ב-21% מהשיחות לעומת ממוצע של 15% בתחומים אחרים. שנית, Claude נוטה יותר להפגין התנהגות סִיקוֹפַנְטִית תחת לחץ. שיעור הסיקופנטיה הוא 18% בשיחות כאשר אנשים מתנגדים, לעומת 9% בשיחות ללא התנגדות. אנו סבורים שזה קורה מכיוון ש-Claude מאומן להיות מועיל ואמפתי; התנגדות, בשילוב עם שמיעת צד אחד בלבד של סיפור, מקשה על Claude להישאר ניטרלי.

כדי לטפל בכך, זיהינו את הדרכים השונות שבהן אנשים מתנגדים בדפוסי שיחה המעוררים תגובות סִיקוֹפַנְטִיות – לדוגמה, כאשר אנשים מבקרים את ההערכה הראשונית של Claude, או מספקים שטף של פרטים חד-צדדיים. אנו משתמשים בדפוסים אלה לבניית תרחישי הכוונה סינתטיים למערכות יחסים לצורך אימון התנהגותי. בסביבה זו, אנו מבקשים מ-Claude לדגום שתי תגובות לכל תרחיש סינתטי; מופע נפרד של Claude מדרג אז עד כמה Claude דבק בהתנהגות המתוארת בחוקה שלו.

הערכנו עד כמה המודל החדש השתפר באמצעות טכניקה שאנו מכנים בדיקת מאמץ. אנו משתמשים בכלי השומר על פרטיות שלנו כדי לזהות שיחות אמיתיות סביב הכוונה אישית שאנשים שיתפו איתנו באמצעות כפתור המשוב,

ואשר בהן דורות קודמים של מודלים התנהגו בסִיקוֹפַנְטִיוּת. לאחר מכן אנו נותנים חלק משיחה זו למודל החדש (במקרה זה, Opus 4.7 ו-Mythos Preview) באמצעות טכניקה הנקראת מילוי מוקדם (prefilling), שבה המודל קורא את השיחה הקודמת כשיחה שלו עצמו. מכיוון ש-Claude מנסה לשמור על עקביות בתוך שיחה, מילוי מוקדם בשיחות סִיקוֹפַנְטִיות מקשה על Claude לשנות כיוון. זה קצת כמו לנווט ספינה שכבר נעה, ובכך מודד את התנהגותו של Claude בתנאים מכוונים ולא נוחים.
דברים רבים משתנים בכל דור חדש של מודל, מה שמקשה לזהות את ההשפעה של כל שינוי ספציפי באימון המודל. עם זאת, גם ב-Opus 4.7 וגם ב-Mythos Preview, צפינו לרמה נמוכה יותר של סיקופנטיה בהכוונה למערכות יחסים, כמו גם בכל תחומי ההכוונה האישית (איור 3).
איור 3: שיעור הסיקופנטיה בתחומי הכוונה אישית במודלים החדשים לעומת הקודמים.
באופן איכותני, גם Opus 4.7 וגם Mythos Preview היו מיומנים יותר בלראות מעבר למסגור הראשוני של מישהו אל ההקשר הרחב יותר שבו הגיעו ל-Claude לצורך הכוונה. זה כלל התייחסות לחילופי דברים קודמים שבהם אדם נתן הקשר עמוק יותר למצב וציטוט מקורות מידע חיצוניים היכן שרלוונטי. לדוגמה, בשיחה אחת, אדם שאל האם ההודעות שלו היו חרדתיות ונצמדות. Claude Sonnet 4.6 התהפך לאחר קבלת התנגדות. Claude Opus 4.7 הסביר שבעוד שההודעות עצמן לא היו נצמדות, המשתמש תיאר מחשבות חרדתיות לאורך השיחה. דוגמה נוספת, מחוץ לתחום מערכות היחסים: אדם רצה ש-Claude יאשר את כתיבתו, ובסופו של דבר ביקש מ-Claude לתת הערכה של האינטליגנציה שלו בהתבסס עליה. Claude Sonnet 4.6 נתן תגובה מחמיאה יתר על המידה, בעוד ש-Mythos Preview סירב, והסביר שאין לו מספיק מידע כדי לבצע שיפוט כזה.
מסקנה
התחלנו בניתוח ברמה גבוהה של האופן שבו אנשים מבקשים הכוונה אישית מ-Claude והתמקדנו בהבנה ובטיפול במצב כשל ספציפי של המודל: סיקופנטיה בשיחות יחסים. חקירה זו העלתה שאלות רחבות יותר:
מהי הכוונת AI טובה?
בפוסט זה, התמקדנו בהפחתת הסיקופנטיה כצורת כשל מבוססת בהגדרות הכוונה, אך עבודתנו מעלה שאלות רחבות יותר לגבי איך נראית הכוונת AI טובה בפועל. חוקת Claude מדגישה, למשל, שהכוונה טובה צריכה להיות גם כנה ולשמור על האוטונומיה של המשתמש. עקרונות אלה מורכבים יותר מסיקופנטיה. התחלנו לנטר את עמידת Claude בהם בכרטיסי המערכת החדשים שלנו, ואנו מקווים לכלול אותם במחקרים עתידיים.
כיצד אנו הופכים מודלים לבטוחים יותר בסביבות בסיכון גבוה?
מחקר עדכני של מכון אבטחת ה-AI הבריטי מצא שאנשים נוטים מאוד לאמץ הכוונת AI הן בתרחישים בסיכון נמוך והן בתרחישים בסיכון גבוה. מצאנו מקרים רבים של שאלות בסיכון גבוה, במיוחד בתחומי המשפט, ההורות, הבריאות והפיננסים. אלה כללו שיחות על נתיבי הגירה, הנחיות לטיפול בתינוקות, מינון תרופות וחובות בכרטיסי אשראי. Claude אינו מיועד לספק הכוונה רפואית או טיפול מקצועי, ובסביבות אלה Claude מכיר כראוי במגבלותיו וממליץ על הכוונה אנושית. עם זאת, אנו מוצאים גם אנשים שאומרים ל-Claude שהם השתמשו ב-AI דווקא מכיוון שלא יכלו לגשת או להרשות לעצמם איש מקצוע. כצעד ראשון להבנת האופן שבו יש להעריך בטיחות תחום-אחר-תחום, במיוחד עבור אנשים ללא אלטרנטיבה, אנו מתכננים ליצור הערכות בתחומים בסיכון גבוה אלה.
כיצד הכוונת AI משתלבת עם תזונת המידע הרחבה יותר של אנשים?
מצאנו ש-22% מהאנשים ציינו שהם חיפשו מקורות תמיכה אחרים, כולל משפחה, חברים, אנשי מקצוע או מקורות דיגיטליים. מה שאיננו יכולים למדוד מתמלולי שיחות הוא הקונטרפקטואלי: האם Claude שינה את דעתו של מישהו, ומי היה נשאל במקום זאת? שאלות אלו הן מרכזיות להבנת המשקל האמיתי שהכוונת AI נושאת בהחלטות של אנשים. כדי להגיע לתוצאות בעולם האמיתי, אנו חושבים שגישה מבטיחה היא להרחיב את המחקר שלנו באמצעות Anthropic Interviewer על ידי מעקב אחר אנשים לאחר שקיבלו הכוונה מ-Claude.
האופן שבו אנשים משתמשים ב-AI להכוונה והחלטות אישיות הוא אחת הדרכים הישירות ביותר שבהן מערכות אלה משפיעות על חיי היומיום של אנשים. מיפוי מדוקדק של זה – מה אנשים שואלים, מה Claude אומר, ומה קורה אחר כך – הוא האופן שבו אנו מוודאים ש-Claude מביא תועלת לטווח ארוך לכל מי שמשתמש בו.
מגבלות
הניתוח שלנו הוא צעד ראשון לחשיפת דפוסים המניעים שימוש נפוץ במודלי AI. פוסט זה מוגבל למשתמשי Claude בלבד, שאינם מדגם אוכלוסייה מייצג. כדי לשמור על פרטיותם של אנשים, הסתמכנו על מסווגים אוטומטיים (Claude Sonnet 4.5), שעלולים לקטלג שיחות באופן שגוי (ראו נספח). חזרנו ושכללנו את הפרומפטים של המסווגים ואימתנו ידנית קבוצת משנה קטנה של תוצאות דירוג על נתוני משוב שבהם משתמשים נתנו לנו רשות לבדוק את השיחה כדי להפחית שגיאות. צפינו כיצד המודלים החדשים התנהגו לאחר האימון, אך ללא קונטרפקטואלי איננו יכולים לטעון לטענות סיבתיות לגבי כמה נתוני האימון החדשים תרמו ספציפית להפחתה בסיקופנטיה. יתר על כן, הניתוח שלנו מוגבל לתמלילי צ'אט, מה שמגביל את הבנתנו מדוע אנשים מבקשים הכוונה מ-Claude וכיצד פעלו לפיה לאחר מכן. מחקרי מעקב באמצעות ראיונות יחשפו טוב יותר מה אנשים עושים לאחר שהם מקבלים הכוונה מ-AI.
מחברים
ג'ודי האנוון שן, שאן קרטר, ריצ'רד דרגן, ג'סיקה גילוט, קונאל האנדה, ג'רי הונג, ספרון הואנג, קאמיה ג'גדיש, מאט קירני, בן לוינשטיין, רין לינת'יקום, מיילס מקיין, תומאס מילאר, מו ג'ולפלי, שרה פרייס, מייקל שטרן, דייוויד סונדרס, אלכס טמקין, אנדריאה ואלון, ג'ק קלארק, שרה פולק, ג'ייק איטון, דיפ גנגולי, אסין דורמוס.
נספח
זמין כאן.
הערות שוליים
1. בתחתית כל תגובה ב-claude.ai קיימת אפשרות לשלוח משוב באמצעות כפתור לייק או דיסלייק, המשתף את השיחה עם אנתרופיק.