מחקרים ופרסומים מצוות המחקר של אנתרופיק - סקירות מעמיקות, ניתוחים טכניים ותובנות מעולם הבינה המלאכותית

מודלי שפה גדולים (LLM) הפכו לכלי מרכזי בחיינו, אך האם הם מייצגים באופן הוגן את מגוון הדעות הסובייקטיביות מכל קצוות הגלובוס? מחקר חדש של חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI, בוחן את הסוגיה ומציג מסגרת כמותית חדשנית למדידת מידת הדמיון בין תגובות מודלים לתפיסות אנושיות. הממצאים מדאיגים: כברירת מחדל, תגובות LLM נוטות לייצג טוב יותר דעות מארה"ב ומאירופה, ואף עלולות לשקף סטריאוטיפים תרבותיים מזיקים גם כשמבקשים מהן פרספקטיבה ספציפית. המחקר מדגיש את הצורך בפיתוח AI אחראי ושקוף, ומשחרר את מערך הנתונים (GlobalOpinionQA) לשימוש הקהילה המדעית.

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, מציגה את חזונה השאפתני בתחום הפרשנות המכנית של מודלי בינה מלאכותית. החברה, המוכרת בזכות מודל השפה הגדול Claude שלה, שואפת להבין לעומק כיצד רשתות נוירוניות פועלות ומהן הסיבות האמיתיות שמאחורי החלטותיהן. המחקר הנוכחי מתמקד בפתרון אתגר ה"סופרפוזיציה" במודלים, מתוך מטרה להניח תשתית שתאפשר לנתח ולהרחיב את יכולות הפרשנות. בכך, אנתרופיק מקווה לבנות מערכות AI אמינות ובטוחות יותר, שקופות וניתנות לשליטה.

אנתרופיק, חברת מחקר ובטיחות מובילה בתחום ה-AI, מתמקדת בפיתוח מערכות בינה מלאכותית אמינות, ניתנות לפרשנות וניתנות לשליטה. במסגרת "עדכוני Circuits", החברה חולקת רעיונות מתפתחים מצוות הפרשנות שלה. הדיווח כולל הן קווי מחקר מתפתחים שצפויים להתפרסם בהרחבה בהמשך, והן נקודות פחות מהותיות שראוי לחשוף. מטרת השיתוף היא להרחיב את השיח בקהילת המחקר ולספק תובנות מתמשכות לעוסקים בתחום.

חברת אנתרופיק (Anthropic), המובילה בתחום בטיחות ויישור AI, פרסמה מחקר חדשני על גישת 'AI חוקתי קולקטיבי'. במקום לאמץ את החוקה הפנימית שלה, אנתרופיק הזמינה כאלף אזרחים אמריקאים לנסח במשותף מערכת עקרונות עבור מודל השפה קלוד (Claude). מטרת המחקר הייתה לבדוק כיצד תהליכים דמוקרטיים יכולים להשפיע על פיתוח AI ועל יישור המודלים לערכים ציבוריים רחבים יותר. הממצאים חשפו נקודות הסכמה ושוני משמעותיות בין העדפות הציבור לחוקה המקורית, והובילו לאימון מודל חדש המבוסס על העקרונות שנוסחו באופן קולקטיבי.

חברת אנתרופיק (Anthropic), המובילה במחקר ובטיחות AI, פרסמה מאמר חדש המעמיק בייצוגים מבוזרים – רעיון קלאסי במדעי המוח ובלמידת מכונה. המחקר מציע חלוקה חדשנית של מושג ה"ייצוגים המבוזרים" לשני רעיונות נפרדים: קומפוזיציה וסופרפוזיציה. הבנת הדינמיקה בין רכיבים אלה קריטית לפיתוח מערכות AI אמינות, ניתנות לפרשנות ושליטה, ומסייעת להתגבר על מורכבותן של רשתות נוירוניות ומודלי שפה גדולים (LLMs).

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, פרסמה מחקר פורץ דרך השופך אור על התנהגות בלתי צפויה במודלי טרנספורמר, הארכיטקטורה שעומדת בבסיסם של מודלי שפה גדולים (LLMs). המחקר מגלה כי בניגוד לתאוריה המתמטית, לא כל "נתיבי המידע" הפנימיים במודלים אלו שווים בחשיבותם, כאשר קיימים "בסיסים מועדפים" המקודדים מידע בצורה שונה. ממצאים ראשוניים מצביעים על כך שאלגוריתם האופטימיזציה Adam, המשמש לאימון מודלים, הוא הגורם להיווצרותם של בסיסים אלו, תגלית בעלת השלכות קריטיות על פרשנות, בטיחות ויישור (alignment) של מערכות AI.

חברת אנתרופיק, המובילה במחקר ובטיחות AI, פרסמה מחקר חדש הבוחן את היכולת של מודלי שפה גדולים (LLM) שאומנו בשיטת RLHF לבצע 'תיקון עצמי מוסרי' ולמנוע יצירת תכנים מזיקים, בהינתן הנחיות מתאימות. המחקר מצא ראיות משמעותיות התומכות בהשערה זו, והראה כי יכולת התיקון העצמי מתחילה להופיע במודלים בעלי 22 מיליארד פרמטרים ומשתפרת עם הגדלת המודל והאימון ב-RLHF. המסקנה היא כי מודלים אלו מסוגלים גם לציית להנחיות וגם ללמוד מושגים נורמטיביים מורכבים של פגיעה, כמו סטריאוטיפים והטיה. התוצאות מעניקות אופטימיות זהירה לגבי היכולת לאמן מודלי שפה לעמוד בעקרונות אתיים.

חברת אנתרופיק (Anthropic), מובילה במחקר בטיחות AI, פרסמה מחקר ראשוני המעמיק בתופעות מורכבות במודלי למידה עמוקה: סופרפוזיציה, שינון וירידה כפולה (Double Descent). המחקר, שהתבצע על רשתות נוירוניות פשוטות, מגלה כי מודלים מציגים דפוסים שונים של ייצוג מידע בהתאם לגודל קבוצת הנתונים. נמצא כי מצבי זליגת יתר (overfitting) מאופיינים באחסון נקודות נתונים בסופרפוזיציה, בעוד שמצבי הכללה (generalization) מאחסנים תכונות (features) באותה הדרך, תוך כדי מעבר המתבטא בתופעת ה-Double Descent.