אנתרופיק מציגה את מדיניות הסקיילינג האחראי 3.0: כך היא מתמודדת עם סיכוני AI

חברת אנתרופיק (Anthropic) משיקה את גרסה 3.0 למדיניות הסקיילינג האחראי (RSP), מסגרת וולונטרית שהיא מפעילה למיתון סיכונים קטסטרופליים ממערכות בינה מלאכותית. שנתיים לאחר השקת המדיניות המקורית, אנתרופיק למדה רבות על יתרונותיה ומגבלותיה, ועל כן החליטה לעדכן אותה. מטרת העדכון היא לחזק את מה שעבד היטב עד כה, לשפר היכן שנדרש, וליישם אמצעים חדשים להגברת השקיפות והאחריות בתהליכי קבלת ההחלטות שלה.

האתגרים שהובילו לגרסה 3.0

המדיניות המקורית, שהושקה בספטמבר 2023, ניסתה להתמודד עם סיכוני AI שאינם קיימים בעת כתיבתה אך עלולים לצוץ במהירות. בעוד שבתחילה התבססה על התחייבויות מותנות (אם המודל עובר רמת יכולת מסוימת, אזי נדרשים אמצעי הגנה מחמירים יותר), המציאות הוכיחה מורכבות רבה יותר.

בצד החיובי, ה-RSP אכן דרבן את אנתרופיק לפתח מנגנוני הגנה חזקים יותר, כמו מסווגי קלט ופלט מתוחכמים לחסימת תוכן מסוכן, ואף עודד חברות AI אחרות לאמץ מסגרות דומות. עם זאת, התחומים הבאים לא התפתחו כמצופה:

עמימות במדדי יכולת: רמות היכולת שנקבעו מראש התבררו כעמומות בהרבה מהצפוי. המדע שמאחורי הערכת מודלים אינו מפותח דיו כדי לספק תשובות חד-משמעיות האם מודל עבר סף סיכון מסוים, מה שהחליש את היכולת לדרוש פעולה רב-צדדית מהתעשייה.
תגובה ממשלתית איטית: למרות התקדמות מהירה ביכולות ה-AI, פעולות הממשלה בנושא בטיחות AI התקדמו באיטיות. סדרי העדיפויות הפוליטיים נוטים לכיוון תחרותיות וצמיחה כלכלית, בעוד שדיוני בטיחות טרם צברו תאוצה משמעותית ברמה הפדרלית.
קושי בפעולה חד-צדדית: דרישות הבטיחות ברמות ASL (AI Safety Level) גבוהות יותר עלולות להיות בלתי אפשריות ליישום ללא שיתוף פעולה תעשייתי וממשלתי רחב. דו"ח של RAND, לדוגמה, קבע כי תקן אבטחה "SL5" שנועד לעצור פעולות עדיפות על ידי המוסדות המתוחכמים ביותר מבחינה קיברנטית, "אינו אפשרי כרגע" ו"ככל הנראה ידרוש סיוע מקהילת הביטחון הלאומי".

שלושת העקרונות המרכזיים של RSP 3.0

הגרסה החדשה כוללת שלושה עקרונות מרכזיים שמטרתם להתמודד עם האתגרים הללו:

1. הפרדה בין תוכניות פנימיות להמלצות תעשייתיות

המדיניות החדשה מפרטת שתי קבוצות של צעדי מיתון סיכונים: הראשונה, צעדים שאנתרופיק מתחייבת ליישם באופן עצמאי; והשנייה, מפת דרכים שאפתנית ליכולות אל מול צעדי מיתון, שלדעת החברה תסייע בניהול נאות של סיכוני AI מתקדם אם תיושם בכל תעשיית ה-AI.

2. מפת דרכים לבטיחות מודלי חזית (Frontier Safety Roadmap)

ה-RSP החדש מחייב את אנתרופיק לפתח ולפרסם "מפת דרכים לבטיחות מודלי חזית" (Frontier Safety Roadmap) שתתאר את תוכניותיה הקונקרטיות למיתון סיכונים בתחומי אבטחה, יישור, מנגנוני הגנה ומדיניות. היעדים במפת הדרכים שאפתניים אך בני השגה, ומספקים לחברה מנוף פנימי להתקדמות מהירה. אלו יעדים פומביים, לא התחייבויות נוקשות, שהתקדמות החברה לקראתם תדורג בשקיפות. בין היעדים לדוגמה:

השקת פרויקטי מחקר ופיתוח פורצי דרך לחקר דרכים חדשניות להשגת רמות אבטחת מידע חסרות תקדים.
פיתוח שיטה ל-Red Teaming למערכות החברה שתעלה על תרומותיהם המצטברות של מאות משתתפים בתוכנית ה-Bug Bounty שלה.
יישום אמצעים שיטתיים רבים להבטחת שקלוד יתנהג בהתאם ל-AI החוקתי שלו.

3. דוחות סיכון וביקורת חיצונית

דוחות הסיכון (Risk Reports) מהווים שיפור נוסף מגרסאות ה-RSP הקודמות. הם יספקו מידע מפורט על פרופיל הבטיחות של המודלים של אנתרופיק בעת הפרסום, ויתארו כיצד היכולות, מודלי האיום (דרכים ספציפיות שבהן המודלים עלולים להוות איום) ואמצעי מיתון הסיכונים הפעילים משתלבים יחד. הדוחות יפורסמו באופן מקוון כל 3-6 חודשים ויכללו גם ביקורת חיצונית במקרים מסוימים, שתבוצע על ידי מומחים חיצוניים חסרי ניגוד עניינים.

מדיניות הסקיילינג האחראי נועדה תמיד להיות מסמך חי, בעל גמישות להשתנות ככל שמודלי ה-AI הופכים ליכולתיים יותר. גרסה 3.0 מחזקת את הצדדים המוצלחים של המדיניות הקודמת, מגבירה את השקיפות לגבי תוכניות החברה ושיקולי הסיכון שלה, ומפרידה בין המלצותיה לתעשייה כולה לבין מה שאנתרופיק יכולה להשיג כחברה יחידה. ברוח פרגמטית זו, אנתרופיק תמשיך לעדכן ולשכלל את ה-RSP שלה, כמו גם את שיטותיה להערכה ולמיתון סיכונים, ככל שהטכנולוגיה תתפתח.

אנתרופיק מציגה את מדיניות הסקיילינג האחראי 3.0: כך היא מתמודדת עם סיכוני AI

האתגרים שהובילו לגרסה 3.0

שלושת העקרונות המרכזיים של RSP 3.0

1. הפרדה בין תוכניות פנימיות להמלצות תעשייתיות

2. מפת דרכים לבטיחות מודלי חזית (Frontier Safety Roadmap)

3. דוחות סיכון וביקורת חיצונית

כתבות קשורות

אנתרופיק: כך צמצמנו הטעיה סוכנית ולימדנו את קלוד אתיקה

אוטו-אנאינקודרים בשפה טבעית: מפענחים את מחשבות קלוד

אנתרופיק תורמת את כלי היישור Petri בקוד פתוח: גרסה 3.0 ובית חדש