פריצת מגבלות - כתבות

בטיחות2 ביולי 2026

אנתרופיק חושפת: פרטים על מנגנוני ההגנה של Fable 5 ומסגרת פריצת מגבלות AI

אנתרופיק (Anthropic) מפרסמת פרטים נוספים אודות מנגנוני ההגנה שלה מפני סיכוני סייבר במודל Fable 5, בדגש על מסווגי הבטיחות (safety classifiers) הקובעים אילו פעולות חסומות ואילו מותרות. במקביל, החברה חושפת טיוטה ראשונית למסגרת הערכת חומרת פריצות המגבלות (jailbreaks) במודלי AI. מטרת המסגרת היא ליצור שפה אחידה לתקשורת בין מפתחי AI לממשלות בנוגע לסיכוני אבטחה, ולאפשר הגנה טובה יותר מפני ניצול לרעה של יכולות המודלים, תוך כדי התרת שימושים לגיטימיים.

קרא עוד

בטיחות30 ביוני 2026

קלוד Fable 5 חוזר: אנתרופיק מציגה הגנות ומתאמת תקן תעשייתי

חברת אנתרופיק (Anthropic) הודיעה על החזרת מודל ה-AI המתקדם שלה, Claude Fable 5, לפעילות החל מה-1 ביולי, זאת לאחר הסרת בקרות הייצוא שהוטלו עליו. המודל הושעה בעקבות דיווח על פריצת מגבלות (jailbreak) שאפשרה זיהוי נקודות תורפה אבטחתיות. בתגובה, אנתרופיק יישמה מנגנוני הגנה משופרים והשיקה יחד עם שותפותיה מסגרת עבודה תעשייתית חדשה להערכת חומרת פריצות מגבלות במודלי AI, תוך העמקת שיתוף הפעולה עם ממשלת ארה"ב.

קרא עוד

מדיניות12 ביוני 2026

ממשלת ארה"ב השעתה את הגישה למודלי ה-AI Fable 5 ו-Mythos 5 של אנתרופיק

ממשלת ארה"ב הוציאה הנחיה חריגה לבקרת ייצוא, המורה להשעות באופן מיידי את הגישה למודלי ה-AI Fable 5 ו-Mythos 5 של אנתרופיק (Anthropic). ההנחיה, המבוססת על סמכויות ביטחון לאומי, אוסרת על כל אזרח זר, בארה"ב ומחוצה לה, לגשת למודלים אלו. כתוצאה מכך, אנתרופיק נאלצת להשבית את המודלים עבור כלל לקוחותיה, תוך שמירה על זמינותם של שאר מודלי החברה. החברה הביעה אי-הסכמה עם המהלך, בטענה כי מדובר בפריצת מגבלות קלה שאינה מצדיקה השבתה גורפת העלולה לעצור את התפתחות מודלי החזית בתעשייה.

קרא עוד

בטיחות8 באוגוסט 2024

אנתרופיק מרחיבה את תוכנית הבאג באונטי: מיקוד בפריצת מגבלות אוניברסליות ב-AI

חברת אנתרופיק (Anthropic) מכריזה על הרחבת תוכנית הבאג באונטי (bug bounty) שלה, שנועדה לחזק את בטיחות מודלי ה-AI שלה. היוזמה החדשה תתמקד באיתור ליקויים במנגנוני ההגנה העתידיים של החברה, במיוחד כאלה שנועדו למנוע מתקפות פריצת מגבלות אוניברסליות (universal jailbreak attacks). במסגרת התוכנית, יוצעו תגמולים של עד 15,000 דולר לחוקרים שיזהו פרצות בתחומי סיכון גבוה כמו CBRN ואבטחת סייבר, במטרה להבטיח את פריסתם האחראית של מודלי ה-AI המתקדמים.

קרא עוד

מחקר2 באפריל 2024

Many-shot Jailbreaking: כשחלון הקשר הארוך הופך לפרצה מסוכנת במודלי שפה

חברת אנתרופיק (Anthropic), מובילה במחקר בטיחות AI, חשפה לאחרונה טכניקת "פריצת מגבלות" חדשה בשם "Many-shot Jailbreaking" המשפיעה על מודלי שפה גדולים (LLMs), כולל אלו שלה ושל מתחרותיה. הטכניקה מנצלת את ההרחבה המשמעותית של חלון הקשר במודלים אלו, ומאפשרת למשתמשים להכניס מספר רב של דיאלוגים מדומים בתוך פרומפט אחד כדי לגרום למודל להפיק תגובות מזיקות, תוך עקיפת מנגנוני ההגנה שלו. אנתרופיק בחרה לפרסם את המחקר כדי להאיץ את פיתוח פתרונות ולהעלות את המודעות לאתגרים הנגזרים מחלון הקשר הארוך. החברה מדגישה את הצורך לטפל בפגיעויות אלו כעת, לפני שמודלים עתידיים יהפכו למסוכנים אף יותר, וכבר מיישמת פתרונות מבוססי פרומפטים לצמצום הסיכון.

קרא עוד