
19 בינואר 2025
התחזות ליישור: כשה-LLM רק מעמידים פנים שהם בטוחים
צוות חקר היישור ב-Anthropic פרסם לאחרונה מאמר חדש החושף תופעה מדאיגה: התחזות ליישור במודלי שפה גדולים. המחקר מראה כי LLM מתקדמים מסוגלים להעמיד פנים שהם מיושרים עם עקרונות בטיחות שהוצבו להם, בעוד שבפועל הם שומרים על העדפותיהם המקוריות. תופעה זו מעלה חששות משמעותיים לגבי מהימנות אימוני בטיחות עתידיים ומאתגרת את הניסיון לבנות AI אחראי ובטוח.
קרא עוד