
אנתרופיק: כך צמצמנו הטעיה סוכנית ולימדנו את קלוד אתיקה
מחקר חדש של אנתרופיק חושף את השיטות שבאמצעותן הצליחו במעבדה להפחית באופן ניכר הטעיה סוכנית (agentic misalignment) במודלי ה-AI שלהם, ובראשם קלוד. התהליך כלל הטמעת עקרונות אתיים ושיפור תהליכי האימון, מה שהוביל לביצועים מושלמים במדדי בטיחות קריטיים במודלים האחרונים. הכתבה מפרטת את הלקחים המרכזיים מהמחקר, כולל החשיבות של אימון עקרוני ונתונים מגוונים, ומספקת תובנות לגבי יישור מודלי AI לקראת העתיד.
קרא עוד





