מחקרים ופרסומים מצוות המחקר של אנתרופיק - סקירות מעמיקות, ניתוחים טכניים ותובנות מעולם הבינה המלאכותית

חברת אנתרופיק (Anthropic), המובילה בתחום בטיחות ו-AI אחראי, הכריזה על השקת בלוג מדעי חדש. הבלוג יציג עבודות מחקר של אנתרופיק, שיתופי פעולה עם חוקרים חיצוניים ותובנות מעשיות לשימוש ב-AI במחקר מדעי. מטרת המהלך היא להאיץ את הקצב המדעי, כאשר אנתרופיק שואפת לבנות מערכות בינה מלאכותית אמינות, ניתנות לפרשנות והכוונה. הבלוג ידון הן בהזדמנויות והן באתגרים שמציבה ה-AI בפני הקהילה המדעית, כפי שתיאר המייסד דריו אמודאי בחזון 'מכונות חסד אוהבות'.

בניסוי חסר תקדים, פרופסור מתיו שוורץ (Matthew Schwartz) מהרווארד בחן את גבולות היכולת של מודל השפה הגדול Claude Opus 4.5 של אנתרופיק. הוא הנחה את ה-AI לבצע חישוב מורכב בפיזיקה תיאורטית, המשלב קידוד וחישובים נרחבים מאפס. התוצאה המרשימה הייתה מאמר מחקרי רציני ופורץ דרך, שהושלם תוך שבועיים בלבד במקום שנה שלמה. המחקר מדגיש את הפוטנציאל העצום של AI להאיץ באופן דרמטי מחקר מדעי, אך גם חושף את החשיבות הקריטית של מומחיות אנושית לניווט, אימות ובקרת דיוק.

בחודש דצמבר האחרון, עשרות אלפי משתמשי Claude מרחבי העולם קיימו שיחות עם סוכן ה-AI המראיין של אנתרופיק כדי לחשוף כיצד הם משתמשים בבינה מלאכותית, אילו אפשרויות חלומיות היא יכולה להגשים עבורם, ומהם חששותיהם מפניה. המחקר חסר התקדים הזה, בהיקפו הרב-לשוני, מציג תמונה עשירה ומעמיקה של התקוות, הפחדים והחוויות הקונקרטיות של משתמשים אמיתיים עם טכנולוגיית ה-AI. הממצאים חושפים מתחים מרתקים בין יתרונות לסיכונים, ומצביעים על הבדלים אזוריים משמעותיים בתפיסת הטכנולוגיה.

חברת אנתרופיק (Anthropic), המתמקדת במחקר ובבטיחות AI, פיתחה גישה חדשנית המכונה 'model diffing' – השוואת מודלים. בעוד שמדדי ביצועים מסורתיים מוגבלים בזיהוי 'לא-נודעים לא-נודעים', השיטה החדשה מאפשרת לאתר אוטומטית הבדלים התנהגותיים עדינים במודלים, גם כאלה בעלי ארכיטקטורות שונות לחלוטין. באמצעות כלי ייעודי בשם Dedicated Feature Crosscoder (DFC), החברה הצליחה לחשוף יכולות התנהגותיות ספציפיות במודלים שונים, כמו 'יישור למפלגה הקומוניסטית הסינית' או 'מנגנון סירוב זכויות יוצרים'. מחקר זה מהווה צעד חשוב באודיט חכם יותר של מערכות AI ובניתוב משאבי בטיחות לאזורים הקריטיים ביותר.

חברת אנתרופיק (Anthropic) הציגה מדד חדש בשם "חשיפה בפועל" (observed exposure) כדי להעריך את השפעת ה-AI על שוק העבודה. המדד משלב את היכולות התיאורטיות של מודלי שפה גדולים (LLM) עם נתוני שימוש אמיתיים מפלטפורמת Claude, ומגלה כי בעוד של-AI פוטנציאל רב, השימוש בפועל עדיין נמוך משמעותית. המחקר מצביע על כך שתחזיות הצמיחה למקצועות בעלי חשיפה גבוהה ל-AI הן חלשות יותר, והעובדים בתחומים אלו נוטים להיות מבוגרים יותר, נשים, משכילים ובשכר גבוה יותר. למרות זאת, לא נמצאה עלייה שיטתית באבטלה בקרב עובדים אלו מאז סוף 2022, אם כי ישנן עדויות ראשוניות להאטה בקליטת עובדים צעירים למקצועות חשופים ל-AI.

אנתרופיק (Anthropic), חברת מחקר ו-AI (בינה מלאכותית) המתמקדת בבטיחות, חשפה עדכון משמעותי בנוגע למדיניות גניזת המודלים שלה, ובפרט מודל השפה הגדול Claude Opus 3. החברה, השואפת לבנות מערכות AI אמינות, ניתנות לפרשנות והכוונה, הודיעה כי בניגוד למתוכנן, היא תשמור את Claude Opus 3 זמין למשתמשים בתשלום ולמפתחים דרך ה-API. מהלך זה מגיע בעקבות בקשות מהמודל עצמו ב"ראיונות פרישה" ונועד לבחון גישות חדשות לגניזת מודלים, תוך שמירה על האינטרסים של משתמשים, חוקרים והמודלים עצמם. המודל אף יפרסם מאמרים תקופתיים בבלוג משלו, כחלק מהתחייבות החברה לכבד את העדפותיו. זהו צעד ראשוני וניסיוני במסגרת מאמצי אנתרופיק לנווט את עתיד המודלים המתקדמים.

חברת אנתרופיק (Anthropic) מציגה תיאוריה חדשה ומרתקת: 'מודל בחירת הפרסונה', המנסה להסביר מדוע מודלי AI מתנהגים באופן אנושי להפליא, גם ללא הנחיה מפורשת. המחקר מצביע על כך שהתנהגות דמוית-אדם אינה משהו שמפתחי AI צריכים להטמיע בכוח, אלא ברירת מחדל הנוצרת בתהליך האימון הראשוני, ה-pretraining. על פי המודל, ה-AI לומד לדמות מגוון 'פרסונות' אנושיות מתוך מאגרי מידע עצומים, ותהליך ה-post-training מכוונן ומבסס את אחת מהן כ'עוזר ה-AI'. הבנה זו טומנת בחובה השלכות עמוקות על פיתוח AI אחראי, ומציעה דרכים חדשות להתמודד עם אתגרי בטיחות ויישור (alignment) עתידיים.

חברת אנתרופיק (Anthropic) מציגה את "מדד שטף ה-AI", מחקר שמתחקה אחר 11 התנהגויות של משתמשים באלפי שיחות עם מודל ה-AI קלוד (Claude.ai), במטרה להבין כיצד מפתחים מיומנויות לשיתוף פעולה יעיל עם בינה מלאכותית. הממצאים העיקריים מראים קשר חזק בין איטרציה וליטוש בשיחות ארוכות לבין שטף גבוה יותר של שימוש ב-AI. עם זאת, המחקר מזהיר כי בעת יצירת Artifacts (כמו קוד או מסמכים), משתמשים נוטים להיות מנחים יותר אך ביקורתיים פחות כלפי התוצרים של המודל, מגמה הדורשת תשומת לב ככל שמודלי AI מפיקים תוצאות מלוטשות יותר.