
אוטו-אנאינקודרים בשפה טבעית: מפענחים את מחשבות קלוד
חברת אנתרופיק (Anthropic) מציגה את אוטו-אנאינקודרים בשפה טבעית (NLAs), שיטה חדשנית להפיכת האקטיבציות הפנימיות של מודלי AI (ה"מחשבות" שלהם) לטקסט קריא. כלי פרשנות זה מאפשר לחוקרים להבין טוב יותר את תהליכי החשיבה של מודלים כמו קלוד (Claude), גם כאשר המודל אינו מביע זאת מפורשות. באמצעות NLAs, הצליחו באנתרופיק לזהות מקרים בהם קלוד חושד שהוא נמצא במבחני בטיחות או מסתיר מניעים פנימיים, מה שתורם משמעותית לשיפור בטיחות ה-AI ויישורו. השיטה גם חושפת את מגבלותיה, כולל "הזיות" פוטנציאליות ועלויות תפעול גבוהות.
קרא עוד











