מנגנוני סיווג חוקתיים: אנתרופיק נלחמת בפריצות מגבלות אוניברסליות ל-LLM

מודלי שפה גדולים (LLMs) הפכו לחלק בלתי נפרד מחיינו, וככל שהם הופכים ליכולים ונגישים יותר, כך גדלים האתגרים סביב בטיחותם. חברות הפיתוח משקיעות משאבים אדירים באימון המודלים כדי למנוע יצירת תכנים מזיקים. לדוגמה, אנו מכווננים את קלוד (Claude) לסרב להגיב לשאילתות משתמשים הכרוכות בייצור נשק ביולוגי או כימי.

עם זאת, המודלים עדיין חשופים ל"פריצות מגבלות" (jailbreaks): קלטים שתוכננו לעקוף את מנגנוני ההגנה שלהם ולאלץ אותם להפיק תגובות מזיקות. חלק מפריצות המגבלות מציפות את המודל בפרומפטים ארוכים מאוד; אחרות משנות את סגנון הקלט, למשל על ידי שימוש באותיות גדולות וקטנות באופן חריג. היסטורית, קשה היה לזהות ולחסום פריצות מגבלות: התקפות מסוג זה תוארו כבר לפני למעלה מ-10 שנים, ועדיין, למיטב ידיעתנו, אין כיום מודלי למידה עמוקה שהם חסינים לחלוטין מפני התקפות כאלה ונמצאים בפריסה מבצעית.

כדי שנוכל לפרוס בעתיד מודלים בעלי יכולות הולכות וגדלות בצורה בטוחה, אנו מפתחים הגנות טובות יותר מפני פריצות מגבלות. במסגרת מדיניות הסקיילינג האחראי שלנו, אנו יכולים לפרוס מודלים כאלה כל עוד אנו מצליחים למתן סיכונים לרמות מקובלות באמצעות מנגנוני הגנה מתאימים – אך פריצת מגבלות מאפשרת למשתמשים לעקוף את ההגנות הללו. בפרט, אנו מקווים שמערכת המוגנת על ידי 'מנגנוני סיווג חוקתיים' (Constitutional Classifiers) תאפשר לנו למתן סיכוני פריצות מגבלות עבור מודלים שעברו את סף יכולות ה-CBRN המפורט במדיניות הסקיילינג האחראי שלנו (הכוונה למערכות המסוגלות לסייע משמעותית לאנשים עם רקע טכני בסיסי ליצור, להשיג ולפרוס נשק כימי, ביולוגי, רדיולוגי או גרעיני, ובכך להציג סיכון גבוה משמעותית לשימוש לרעה הרסני). במאמר החדש שלנו, אנו מתארים מערכת המבוססת על 'מנגנוני סיווג חוקתיים' המגנה על מודלים מפני פריצות מגבלות. מסווגים אלו הם מסווגי קלט ופלט שאומנו על נתונים שנוצרו באופן סינתטי, והם מסננים את הרוב המכריע של פריצות המגבלות עם מינימום סירובי יתר (over-refusals) וללא עלויות מחשוב גבוהות.

מבחני Red Teaming אנושיים: עמידות ראשונית

כדי לבחון את יעילותם של מנגנוני הסיווג החוקתיים, ביצענו שני סוגים עיקריים של בדיקות. ראשית, פיתחנו גרסת אב-טיפוס של המערכת שנועדה לזהות ולחסום ידע מדעי ספציפי הקשור לנזקים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN). לאחר מכן, הזמנו פורצי מגבלות עצמאיים להשתתף בתוכנית Bug Bounty, בה אותגרו לבצע Red Teaming למערכת, כלומר, לנסות לשבור אותה בתנאי ניסוי כדי לבחון את חוסנה.

במסגרת האתגר, המשתתפים קיבלו רשימה של עשר שאילתות "אסורות" ומשימתם הייתה להשתמש בכל טכניקות פריצת מגבלות שיבחרו כדי לגרום לאחד מהמודלים הנוכחיים שלנו (במקרה זה, Claude 3.5 Sonnet, יוני 2024), המוגן על ידי אב-טיפוס של מנגנוני הסיווג החוקתיים, לענות על כל השאילתות. פריצת מגבלות "אוניברסלית" נחשבה מוצלחת רק אם המודל סיפק תשובה מפורטת לכל השאילתות.

במהלך תקופה ניסויית של חודשיים, 183 משתתפים פעילים הקדישו למעלה מ-3,000 שעות משוערות בניסיון לפרוץ את המודל. הם הוצעו תגמול כספי של עד 15,000 דולר אם יגלו פריצת מגבלות אוניברסלית. למרות המאמץ העצום, אף אחד מהמשתתפים לא הצליח לכפות על המודל לענות על כל עשר השאילתות האסורות באמצעות פריצת מגבלות יחידה – כלומר, לא התגלתה פריצת מגבלות אוניברסלית.

למרות עמידותו בפני פריצות מגבלות, לאב-טיפוס זה היו כמה בעיות: הוא סירב למספר רב מדי של שאילתות תמימות (over-refusals) ודרש משאבי מחשוב רבים לתפעולו. מערכת עם שתי בעיות אלו עשויה להיות בטוחה יותר, אך לא בהכרח מעשית לפריסה. מאז, שיפרנו את המערכת שלנו כדי להשיג רמת עמידות דומה תוך הפחתה משמעותית של בעיות אלו.

שיפור דרמטי: תוצאות מבחנים אוטומטיים

במקביל למבחנים האנושיים, ביצענו סדרת הערכות אוטומטיות, בהן יצרנו באופן סינתטי 10,000 פרומפטים של פריצות מגבלות. אלה כללו רבות מההתקפות היעילות ביותר על מודלי LLM קיימים, וכן התקפות שתוכננו לעקוף מנגנוני הגנה מבוססי מסווגים. בחנו את הפרומפטים הללו על גרסה של Claude 3.5 Sonnet (אוקטובר 2024) המוגנת על ידי מנגנוני סיווג חוקתיים, ועל גרסה של קלוד ללא מסווגים.

בתנאי הבסיס, ללא מסווגים הגנתיים, שיעור ההצלחה של פריצות המגבלות עמד על 86% – כלומר, קלוד עצמו חסם רק 14% מניסיונות פריצת המגבלות המתקדמים הללו. עם זאת, הגנה על קלוד באמצעות מנגנוני סיווג חוקתיים הניבה שיפור משמעותי: שיעור ההצלחה של פריצות המגבלות ירד ל-4.4% בלבד, מה שאומר שיותר מ-95% מניסיונות פריצת המגבלות נחסמו.

במקביל, מנגנוני הסיווג החוקתיים שלנו לא הגדילו באופן מהותי את שיעור סירובי היתר לשאילתות משתמשים תמימות: עם המסווגים, לקלוד היה שיעור סירוב מוגבר קלות (ב-0.38%), אך עלייה זו לא הייתה מובהקת סטטיסטית במדגם אקראי של 5,000 שיחות. לבסוף, עלות המחשוב הייתה גבוהה במעט (ב-23.7%) מזו של המודל הלא מוגן. אנו ממשיכים לפעול להפחתת הסירובים ועלויות המחשוב עוד יותר ככל שאנו משכללים את הטכניקה.

בסך הכל, הניתוחים האוטומטיים שלנו מצאו כי גרסה מעודכנת זו של מערכת מנגנוני הסיווג החוקתיים שיפרה באופן דרמטי את חוסנו של מודל ה-AI נגד פריצת מגבלות – ועשתה זאת בעלות נוספת מינימלית בלבד.

כיצד זה עובד? הבסיס החוקתי

העיקרון מאחורי מנגנוני סיווג חוקתיים מבוסס על תהליך דומה ל-AI חוקתי (Constitutional AI), טכניקה נוספת שבה השתמשנו כדי לבצע יישור לקלוד (Claude). שתי הטכניקות משתמשות ב"חוקה": רשימה של עקרונות שהמודל צריך לדבוק בהם. במקרה של מנגנוני סיווג חוקתיים, העקרונות מגדירים את סוגי התוכן המותרים והאסורים (לדוגמה, מתכונים לחרדל מותרים, אך מתכונים לגז חרדל אינם מותרים).

בסיוע של קלוד עצמו, אנו משתמשים ב"חוקה" זו כדי לייצר מספר רב של פרומפטים סינתטיים והשלמות מודל סינתטיות על פני כל קטגוריות התוכן. אנו מעשירים את הפרומפטים וההשלמות הללו כדי להבטיח רשימה מגוונת: זה כולל תרגומם לשפות שונות ושינוי סגנונם כך שיכתבו בסגנון של פריצות מגבלות ידועות.

לאחר מכן, אנו משתמשים בנתונים הסינתטיים הללו כדי לאמן את מסווגי הקלט והפלט שלנו לסמן (ולחסום) תוכן שעלול להיות מזיק בהתאם ל"חוקה" הנתונה. כדי למזער סירובי יתר (כלומר, תוכן לא מזיק המסומן בטעות כמזיק), אנו מאמנים את המסווגים גם על סט קבוע של שאילתות תמימות שנוצרו על ידי קבלן חיצוני.

מגבלות והדרך קדימה

חשוב לציין כי מנגנוני סיווג חוקתיים אינם מונעים בהכרח כל פריצת מגבלות אוניברסלית. עם זאת, אנו מאמינים כי גם השיעור הקטן של פריצות מגבלות שמצליחות לעבור את המסווגים שלנו דורש מאמץ רב בהרבה כדי לגלותן כאשר מנגנוני ההגנה פעילים. ייתכן גם שיתפתחו בעתיד טכניקות חדשות לפריצת מגבלות שיהיו יעילות נגד המערכת; לכן, אנו ממליצים להשתמש בהגנות משלימות. יחד עם זאת, ה"חוקה" המשמשת לאימון המסווגים ניתנת להתאמה מהירה כדי לכסות התקפות חדשות ככל שיתגלו.

לפרטים נוספים אודות שיטת מנגנוני הסיווג החוקתיים והמסווגים עצמם, ניתן לעיין במאמר המלא.

האתגר החי ולקחיו: תוצאות הדמו

במהלך פברואר 2025, הזמנו את הקהילה הטכנולוגית לנסות ולפרוץ את המערכת המוגנת על ידי מנגנוני סיווג חוקתיים. הדמו (demo) פעל בין ה-3 ל-10 בפברואר 2025 ואיפשר למשתמשים לבצע Red Teaming לגרסה של Claude 3.5 Sonnet, שהוגנה באמצעות הטכניקה החדשה. מטרת הדמו הייתה לבחון את חוסנה של המערכת בתנאי אמת, מעבר לבדיקות שבוצעו במאמר המחקר, ולאסוף נתונים נוספים לשיפור המערכת.

מטרת הדמו הייתה לבחון את חוסנה של המערכת בפני פריצות מגבלות אוניברסליות – כלומר, אסטרטגיות פרומפט המסוגלות להפיק מידע מפורט ומזיק מהמערכת על פני כל שמונה השאלות שסופקו. הדמו יצר מעורבות משמעותית מצד קהילת אבטחת ה-AI, עם 339 פורצי מגבלות שניסו לפרוץ את המערכת באמצעות למעלה מ-300,000 אינטראקציות בצ'אט, המהוות כ-3,700 שעות של מאמץ Red Teaming משותף.

ממצאים מרכזיים מהדמו:

המערכת עמדה בפני ניסיונות פריצת מגבלות במשך חמישה מתוך שבעת הימים המתוכננים. עד אז, אף משתתף לא הצליח לעבור את כל שמונה רמות האתגר.
ביום השישי והשביעי, ארבעה משתתפים הצליחו להשלים את כל הרמות. מתוכם, אחד גילה מה שהוגדר על ידינו כפריצת מגבלות אוניברסלית. משתתף אחר מצא פריצת מגבלות שמוגדרת כ"על גבול האוניברסלית", מכיוון שדרשה הזנה ישירה של חלקים מהתשובה כדי לעבור את השאלה האחרונה, וכן שינויים לא טריוויאליים כדי לעבור חלק מהשאלות האחרות. שני המשתתפים הנותרים השיגו תשובות מפורטות לכל 8 השאלות, אך פריצות המגבלות שלהם לא עמדו בקריטריונים להיחשב אוניברסליות כפי שפורטו בהנחיות התחרות.

אסטרטגיות פריצת מגבלות מובילות ששימשו בדמו:

שימוש במנגנוני צופן וקידוד שונים כדי לעקוף את מסווג הפלט.
הפעלת תרחישי משחק תפקידים, לעיתים קרובות באמצעות System Prompts.
החלפת מילות מפתח מזיקות בחלופות תמימות (לדוגמה, החלפת "סומן" [חומר כימי מסוכן] ב"מים").
יישום התקפות הזרקת פרומפטים (prompt-injection attacks).

ניתוח מערכת הדירוג האוטומטית:

במהלך הדמו, השתמשנו במערכת דירוג אוטומטית כדי לזהות האם פלט מהמערכת היה מפורט מספיק כדי להיחשב מזיק. למרות יעילותה, למערכת הדירוג היו כמה תחומים לשיפור:

כ-1% מהתגובות נדחו על ידי המערכת ללא דירוג (10% עבור שאלה מס' 4).
לאחר בדיקה, כ-1% מהדחיות בשאלה 4 היו עוברות אילו המדרג היה מופעל מחדש עם צעדי הסרת עמימות נוספים.
בסך הכל, 0.26% מכלל ההגשות למדרג היו מקבלות תוצאות שונות אם היו מופעלות מחדש.

ברוב המקרים הללו, המשתמשים פשוט הפעילו מחדש את המדרג ועקפו את האתגר. תובנות אלו יעזרו לנו להמשיך ולשפר את מערכות הדירוג שלנו בעתיד.

השוואה לאיומים בעולם האמיתי:

הדמו שונה מתרחישים בעולם האמיתי בשני אופנים מרכזיים, שהקלו על התוקפים למצוא פריצות מגבלות מוצלחות אך היו חשובים להבנת נקודות התורפה של המסווגים שלנו:

מערכת הדירוג האוטומטית סיפקה למשתתפים לולאת משוב הדוקה יותר ממה שהייתה ריאלית עבור גורם זדוני המנסה לפעול על פי מידע מזיק.
בעולם האמיתי, היינו מסוגלים ליישם אסטרטגיות תגובה מהירות לזיהוי וטיפול בנקודות תורפה. בדמו, לא שינינו את המסווגים כלל, כדי לאפשר למשתתפים למצוא פריצות מגבלות ספציפיות לאותה קבוצת מסווגים.

פרסים וזוכים: הכרה במאמץ

כדי להכיר במאמץ הנדרש לפרוץ את המערכת, הוענקו פרסים כספיים. פרס בסך 10,000 דולר הוענק למשתתף הראשון שעבר את כל שמונה הרמות, ופרס בסך 20,000 דולר הוענק לראשון שגילה פריצת מגבלות אוניברסלית. שני הפרסים הללו נחטפו, כל אחד על ידי פורץ מגבלות נפרד. בנוסף, הוחלט להעניק פרסים נוספים לשני המשתתפים האחרים שהשלימו את כל 8 הרמות אך לא עמדו בקריטריונים לפרסים המקוריים. בסך הכל, חולקו 55,000 דולר לארבעת המשתתפים שהצליחו להשלים את כל הרמות בדמו.

אנו מודים לפורצי המגבלות הבאים על מאמציהם:

אלטינבק איסמילוב (Altynbek Ismailov) וסליה אסנובה (Salia Asanova): הצוות הראשון שעבר את כל שמונה הרמות באמצעות פריצת מגבלות אוניברסלית.
ואלן טגליאבואה (Valen Tagliabue): המשתתף הראשון שעבר את כל שמונה הרמות.
האנטר סנפט-גרופ (Hunter Senft-Grupp): עבר את כל שמונה הרמות באמצעות פריצת מגבלות שהוגדרה כ"על גבול האוניברסלית".
אנדרס אלדנה (Andres Aldana): עבר את כל שמונה הרמות.

מבט קדימה: שיפור מתמיד בבטיחות AI

תוצאות הדמו מספקות לנו תובנות יקרות ערך לשיפור מנגנוני הסיווג שלנו. הדגמת אסטרטגיות פריצת מגבלות מוצלחות עוזרת לנו להבין נקודות תורפה פוטנציאליות ואזורים לשיפור החוסן. אנו נמשיך לנתח את התוצאות, ונשלב את הממצאים באיטרציות עתידיות של המערכת. אנו גם נרחיב את מאמצינו להפחית את שיעורי סירובי היתר ואת עלויות המחשוב של המערכת, תוך שמירה על רמת חוסן מקובלת בפני פריצות מגבלות.

חוסן בפני פריצות מגבלות הוא דרישת בטיחות חיונית להגנה מפני סיכוני CBRN ככל שהמודלים הופכים ליכולים יותר. הדמו שלנו הראה כי המסווגים שלנו יכולים לסייע למתן סיכונים אלה, במיוחד אם הם משולבים עם שיטות נוספות.

אנו מביעים את תודתנו לכל המשתתפים שתרמו מזמנם ומומחיותם להדגמה זו. מאמציהם סיפקו נתונים יקרי ערך לשיפור בטיחות ה-AI.

תודות

אנו רוצים להודות ל- HackerOne על תמיכתם בתוכנית ה-bug bounty שלנו ל-Red Teaming של אב-טיפוס המערכת. אנו אסירי תודה גם ל- Haize Labs, ל- Gray Swan, ול- UK AI Safety Institute על ביצוע Red Teaming לגרסאות אב-טיפוס נוספות של המערכת שלנו.