
29 באוקטובר 2025
הצצה פנימה: עדויות ליכולת אינטרוספקציה במודלי שפה גדולים
אנתרופיק (Anthropic) פרסמה מחקר חדש שבוחן את יכולתם של מודלי שפה גדולים (LLM) לבצע אינטרוספקציה – כלומר, להתבונן פנימה ולדווח על מצביהם הפנימיים. המחקר, שהתמקד במודלי Claude, חושף עדויות מפתיעות לכך שמודלים אלה מסוגלים לזהות ולבקר פעילות נוירונית פנימית, ואף לשלוט בה במידה מסוימת. למרות שהיכולת עדיין מוגבלת ולא אמינה במלואה, הממצאים מעידים על פוטנציאל משמעותי לשקיפות רבה יותר במערכות AI בעתיד, ומעלים שאלות חדשות לגבי אופיים של "מוחות" מכונה. מדובר בצעד קריטי להבנת יכולותיהם הקוגניטיביות של מודלי בינה מלאכותית ולבניית מערכות אמינות ושקופות יותר.
קרא עוד