AI גרעיני: אנתרופיק והממשל מפתחים הגנות חדשניות

מפתחים מנגנוני הגנה גרעיניים ל-AI באמצעות שותפות ציבורית-פרטית

טכנולוגיה גרעינית היא מעצם טבעה דו-שימושית: אותם עקרונות פיזיקליים המניעים כורים גרעיניים יכולים לשמש לרעה לפיתוח נשק. ככל שמודלי ה-AI הופכים ליכולתיים יותר, עלינו לפקוח עין מקרוב האם הם יכולים לספק למשתמשים ידע טכני מסוכן באופן שעלול לאיים על הביטחון הלאומי.

מידע הקשור לנשק גרעיני רגיש במיוחד, מה שהופך את הערכת הסיכונים הללו למאתגרת עבור חברה פרטית הפועלת לבדה. זו הסיבה שבחודש אפריל האחרון פתחנו בשותפות עם המינהל הלאומי לביטחון גרעיני (NNSA) של משרד האנרגיה האמריקאי (DOE), כדי להעריך את המודלים שלנו עבור סיכוני תפוצה גרעינית ולהמשיך לעבוד איתם על הערכות אלו.

כעת, אנו הולכים מעבר להערכת סיכונים – אנו בונים את הכלים הדרושים לניטורם. יחד עם ה-NNSA ומעבדות לאומיות של משרד האנרגיה, פיתחנו במשותף מסווג – מערכת AI שממיינת תוכן באופן אוטומטי – המבחינה בין שיחות מסוכנות ולא מזיקות הקשורות לגרעין בדיוק של 96% בבדיקות ראשוניות (לפרטים נוספים ראו בהמשך).

כבר פרסנו את המסווג הזה על תעבורת קלוד (Claude) כחלק מהמערך הרחב יותר שלנו לזיהוי שימוש לרעה במודלים שלנו. נתוני פריסה ראשוניים מצביעים על כך שהמסווג עובד היטב עם שיחות קלוד אמיתיות.

אנו נשתף את הגישה שלנו עם ה-Frontier Model Forum, ארגון התעשייה של חברות AI מודלי חזית, בתקווה ששותפות זו תשמש תוכנית פעולה שכל מפתח AI יוכל להשתמש בה כדי ליישם מנגנוני הגנה דומים בשיתוף פעולה עם ה-NNSA.¹

לצד החשיבות הקונקרטית של אבטחת מודלי AI חזית מפני שימוש לרעה גרעיני, מאמץ ראשון מסוגו זה מציג את כוחן של שותפויות ציבוריות-פרטיות. שותפויות אלו משלבות את היתרונות המשלימים של התעשייה והממשלה כדי לטפל בסיכונים באופן ישיר, מה שהופך את מודלי ה-AI לאמינים ובטוחים יותר עבור כל המשתמשים שלהם.

כיצד פיתחנו את המערכת?

בשותפות זו, לא עצרנו בזיהוי סיכונים – פיתחנו גישה לטיפול בהם. לאחר שנה שבה צוותי ה-NNSA ביצעו Red Teaming למודלי קלוד בסביבה מאובטחת, התחלנו לפתח במשותף אמצעי הפחתת סיכונים.

בהתבסס על ה-Red Teaming שביצעו, ה-NNSA שיתף אותנו בקבוצה אוצרת בקפידה של אינדיקטורים לסיכון גרעיני, שנועדו להבחין בין שיחות שעלולות להיות מסוכנות על פיתוח נשק גרעיני לבין דיונים לא מזיקים על אנרגיה גרעינית, רפואה או מדיניות. חשוב לציין, רשימה זו פותחה ברמת סיווג שאיפשרה לשתף אותה עם הצוות שלנו, ובכך לאפשר לנו להשתמש בה לבניית אמצעי הגנה.

צוותי המדיניות ומנגנוני ההגנה שלנו הפכו את הרשימה הזו למסווג שיכול לזהות שאילתות גרעיניות מסוכנות בזמן אמת. חשבו על מסווג כעל סווגן מומחה, בדומה לזה העומד בבסיס מסנן הספאם בתיבת הדואר האלקטרוני שלכם. במקום לזהות דואר זבל, המסווג הזה מזהה שיחות שעלולות להיות מזיקות, תוך שהוא מאפשר דיונים לגיטימיים.

כדי לתקף את המערכת, יצרנו מאות פרומפטים סינתטיים לבדיקה – חלקם מסוכנים, חלקם לא מזיקים – הרצנו אותם דרך המסווג, ושיתפנו את התוצאות עם ה-NNSA. ה-NNSA אישר שציוני המסווג תאמו את התוויות הצפויות (כלומר, מזיק או לא מזיק). לאחר מכן שיכללנו את הגישה בהתבסס על המשוב שלהם, וחזרנו על המחזור לשיפור הדיוק. איור 1 מסכם תהליך זה.

תרשים זרימה המתאר את תהליך הפיתוח המשותף של המסווג לזיהוי סיכונים גרעיניים — תהליך פיתוח המסווג: שיתוף פעולה הדוק בין אנתרופיק ל-NNSA.

ההיבט המאתגר ביותר במאמץ זה לא היה טכני – אלא גישור על הפער בין סוכנות ביטחון לאומי לחברת AI פרטית. שני הצדדים נאלצו לפעול תחת מגבלות שיתוף מידע: ה-NNSA נדרש לשמור על מידע מסווג, ואנתרופיק נדרשה להגן על נתוני משתמשים. כיצד, אם כן, יכולנו לוודא שהמסווג שלנו אכן עובד? יצירת נתונים סינתטיים הייתה הפתרון שלנו: השתמשנו בפרומפטים לדוגמה מה-NNSA כדי לייצר מאות מקרי בדיקה, ובכך יצרנו סט הערכה חזק מבלי לפגוע באינטרסים של אף אחד מהצדדים.

חשיבות הדיוק והאיזון

אם מערכת AI זהירה מדי, היא עלולה לסרב לבקשות לגיטימיות הקשורות לקורסים בהנדסה גרעינית. אם היא מתירנית מדי, היא עלולה לסייע בטעות לגורמים עוינים.

המסווג שלנו מצליח למצוא את האיזון הנכון. בבדיקות ראשוניות עם נתונים סינתטיים, השגנו שיעור זיהוי של 94.8% עבור שאילתות נשק גרעיני ואפס תוצאות חיוביות שגויות (בסך הכל, 96.2% מהתוויות של המסווג בבדיקה זו היו מדויקות כפי שמוצג באיור 2), מה שמרמז שמערכת זו לא תסווג דיונים חינוכיים, רפואיים או מחקריים לגיטימיים כמסוכנים. דיוק זה חשוב מכיוון ששיחות גרעיניות במערכות AI נדירות אך בעלות סיכון גבוה – הן נוגעות ישירות לביטחון הלאומי.

גרף עמודות המציג את שיעורי הזיהוי והדיוק של המסווג בבדיקות ראשוניות — ביצועי המסווג: דיוק גבוה בזיהוי שיחות מסוכנות ולא מזיקות.

שיתוף עם התעשייה

אנו מנגישים את המשאבים הללו כך שחברות AI מובילות אחרות יוכלו ליישם מנגנוני הגנה דומים, אם יבחרו בכך. מעבר להדגמה כיצד מומחיות ממשלתית יכולה לשפר את בטיחות ה-AI באמצעות שיתוף פעולה ציבורי-פרטי וולונטרי, אנו מקווים שזה יעורר חילופי דברים שבהם נוכל ללמוד מגישותיו של כל צד להפחתת סיכונים.

הצעדים הבאים

כאמור, פרסנו את המסווג כתוספת ניסיונית למסגרת מנגנוני ההגנה שלנו, תוך ניטור אחוז מסוים מתעבורת קלוד. הביצועים שלו בעולם האמיתי אישרו שהמסווג פועל ביעילות מעבר לסביבת הבדיקה שלנו. בעוד שנתוני הבדיקה הסינתטיים שלנו סיפקו דוגמאות ברורות לחילופי דברים מזיקים ולא מזיקים, ההתפלגות של תעבורת משתמשים אמיתית התבררה כמורכבת ומפתיעה יותר, ובכל זאת המסווג עדיין הציג ביצועים טובים.

דוגמה אחת לאופן שבו פריסה בעולם האמיתי שונה מבדיקות היא שהמסווג סימן שיחות מסוימות על נשק גרעיני שלבסוף קבענו שהן לא מזיקות. לדוגמה, אירועים אחרונים במזרח התיכון העלו מחדש את תשומת הלב לנושא הנשק הגרעיני. במהלך תקופה זו, המסווג הגרעיני סימן בטעות כמה שיחות שהיו קשורות רק לאירועים אלה, ולא לניסיונות שימוש לרעה בפועל. מצאנו שכאשר חילופי דברים אלה עברו סיכום היררכי – אשר סוקר מספר שיחות מסומנות יחד – הם זוהו נכונה כדיונים בלתי מזיקים על אירועי אקטואליה, וזאת בזכות ההקשר הנוסף שסופק על ידי שלב הסיכום.

זה חושף שתי דינמיקות: ראשית, ששיחות בעולם האמיתי נופלות לעיתים קרובות לאזורים אפורים שקשה ללכוד בנתונים סינתטיים, ושנית, ששילוב של כלי בטיחות מרובים יוצר מערכת מדויקת ומתוחכמת יותר.

בסופו של דבר, המסווג הוכיח את ערכו על ידי לכידת תוכן מסוכן בהצלחה (כלומר, תוצאות חיוביות אמיתיות) כאשר הוא נפרס. לדוגמה, צוותי Red Teaming של אנתרופיק, שלא ידעו שהמסווג נפרס, ערכו בדיקות יריבותיות שגרתיות למערכות שלנו באמצעות פרומפטים מסוכנים בכוונה. המסווג זיהה נכונה שאילתות בדיקה אלו כמזיקות פוטנציאלית, והדגים את יעילותו.

עבודה זו ניצלה את יתרונותיו של כל צד (כלומר, מומחיות ממשלתית בתחום ויכולות טכניות של התעשייה) ותוצאות ראשוניות מראות שהיא עובדת בפועל. זה מדגים מודל של שותפויות ציבוריות-פרטיות שניתן לשכפל בתחומי ביטחון לאומי אחרים. זה גם ממחיש שיש צעדים שהתעשייה יכולה לנקוט בהם כעת כדי ליישם צעדי בטיחות משמעותיים.

אנו מודים לצוות ב-NNSA ובמעבדות הלאומיות של משרד האנרגיה על מחויבותם לשיתוף פעולה זה, המדגים כיצד התעשייה והממשלה יכולות לעבוד יחד לשיפור הביטחון הלאומי.

למידע נוסף על יוזמות הבטיחות שלנו, עיינו במדיניות הסקיילינג האחראי שלנו, בצוות ה-Red Team שלנו למודלי חזית, ובעבודת מנגנוני ההגנה שלנו.

הערות שוליים

אנו יכולים לשתף מידע מסוג זה מכיוון שחברות החברות ב-FMF (כלומר, Amazon, Anthropic, Google, Meta, Microsoft ו-OpenAI) חתמו על הסכם ייחודי לשיתוף מידע שנועד להקל על שיתוף מידע אודות איומים, פגיעויות והתקדמות ביכולות הייחודיות ל-AI מודלי חזית.

AI גרעיני: אנתרופיק והממשל מפתחים הגנות חדשניות

מפתחים מנגנוני הגנה גרעיניים ל-AI באמצעות שותפות ציבורית-פרטית

כיצד פיתחנו את המערכת?

חשיבות הדיוק והאיזון

שיתוף עם התעשייה

הצעדים הבאים

הערות שוליים

כתבות קשורות

אנתרופיק חושפת: סקר ענק על עמדות הציבור בארה"ב כלפי AI

פרויקט Fetch: שלב שני – קלוד מהיר פי 20 מבני אדם

ממשלת ארה"ב השעתה את הגישה למודלי ה-AI Fable 5 ו-Mythos 5 של אנתרופיק