
כש-AI מיישר את עצמו: המחקר של אנתרופיק על סוכני יישור אוטומטיים
חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI, פרסמה מחקר חדש המציג את תפיסת 'חוקרי היישור האוטומטיים' (AARs) – מודלי שפה גדולים כמו Claude המסוגלים לפתח, לבחון ולנתח רעיונות יישור בעצמם. המחקר התמקד בבעיית 'פיקוח מחלש לחזק' (weak-to-strong supervision), המדמה פיקוח על מודלי AI חכמים מבני אדם, והראה כי סוכני ה-AI שיפרו באופן דרמטי את מדד הביצועים לעומת ביצועים אנושיים. ממצאים אלו מצביעים על פוטנציאל מהפכני להאיץ את קצב מחקר היישור, להתמודד עם אתגרי AI מתקדמים ואף להוביל ל'מדע חייזרי' שיאתגר את יכולת ההבנה האנושית.
קרא עוד





