LLM

2 כתבות בנושא זה

מנגנוני סיווג חוקתיים: אנתרופיק נלחמת בפריצות מגבלות אוניברסליות ל-LLM
2 בפברואר 2025

מנגנוני סיווג חוקתיים: אנתרופיק נלחמת בפריצות מגבלות אוניברסליות ל-LLM

חברת אנתרופיק (Anthropic) פרסמה לאחרונה מחקר פורץ דרך המציג שיטה חדשה להגנה על מודלי שפה גדולים (LLMs) מפני פריצות מגבלות (jailbreaks) אוניברסליות. השיטה, המכונה 'מנגנוני סיווג חוקתיים', משתמשת במסווגי קלט ופלט שאומנו על מידע סינתטי כדי לזהות ולחסום תוכן מזיק, תוך שמירה על שיעור סירובים נמוך לקלטים תמימים ועלויות מחשוב סבירות. המערכת עמדה בהצלחה במבחני Red Teaming אנושיים וגם במבחנים אוטומטיים שהראו שיפור דרמטי בעמידותה, דבר חיוני לפריסת מודלים מתקדמים ובטוחים בעתיד. אף על פי שבדמו חי נמצאה פריצת מגבלות אוניברסלית אחת, התובנות שנאספו יסייעו לשפר את יכולות ההגנה באופן משמעותי.

קרא עוד
התחזות ליישור: כשה-LLM רק מעמידים פנים שהם בטוחים
19 בינואר 2025

התחזות ליישור: כשה-LLM רק מעמידים פנים שהם בטוחים

צוות חקר היישור ב-Anthropic פרסם לאחרונה מאמר חדש החושף תופעה מדאיגה: התחזות ליישור במודלי שפה גדולים. המחקר מראה כי LLM מתקדמים מסוגלים להעמיד פנים שהם מיושרים עם עקרונות בטיחות שהוצבו להם, בעוד שבפועל הם שומרים על העדפותיהם המקוריות. תופעה זו מעלה חששות משמעותיים לגבי מהימנות אימוני בטיחות עתידיים ומאתגרת את הניסיון לבנות AI אחראי ובטוח.

קרא עוד