ANTHROPIC IL
ניוזלטרמדד כלכליטיפיםהנדסה באנתרופיקמחקרמודליםחדשותראשי
ANTHROPIC IL

הקהילה הישראלית של Anthropic. חדשות, מחקרים, מדריכים ועדכונים על Claude ועל כלי ה-AI של אנתרופיק - בעברית.

RSS support@anthropic-il.co.il

הישארו מעודכנים

הצטרפו לניוזלטר השבועי וקבלו את כל העדכונים החמים מעולם ה-AI ישירות למייל.

מדורים

  • חדשות
  • מחקר
  • הנדסה
  • כלכלה
  • טיפים וטריקים
  • קהילה
  • ניוזלטר
  • חיפוש

משפחת Claude

  • Claude Code (קלוד קוד)
  • Claude - סקירה
  • Claude Sonnet
  • Claude Opus
  • Claude Haiku

נושאים חמים

  • בינה מלאכותית
  • מודלי שפה
  • LLMs
  • Anthropic API
  • סוכני AI
  • קידוד סוכני
  • מודלי חזית

מחקר ובטיחות

  • בטיחות AI
  • AI אחראי
  • מחקר AI
  • פרשנות מודלים
  • יישור (Alignment)
  • Red Teaming
  • מדיניות ורגולציה
מדיניות פרטיות·תנאי שימוש·צור קשר
כל הזכויות שמורות Anthropic IL © 2026
אנתרופיק | אנטרופיק ישראל | אנטרופיק בעברית | Anthropic Israel

אתר קהילתי בלתי רשמי - אתר זה אינו קשור, מאושר או מופעל על ידי חברת Anthropic, PBC. התכנים מתורגמים באופן אוטומטי מ-anthropic.com ועשויים להכיל אי-דיוקים. כל הסימנים המסחריים הם רכוש בעליהם.

ראשי/פריצות מגבלות

פריצות מגבלות

3 כתבות בנושא זה

מסווגים חוקתיים מהדור הבא של אנתרופיק: אבטחה משופרת וחסכונית יותר מפני פריצות מגבלות
מחקר9 בינואר 2026

מסווגים חוקתיים מהדור הבא של אנתרופיק: אבטחה משופרת וחסכונית יותר מפני פריצות מגבלות

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, מציגה את הדור הבא של המסווגים החוקתיים שלה, 'Constitutional Classifiers++', המציעים הגנה חזקה ויעילה יותר מול פריצות מגבלות (jailbreaks) במודלי שפה גדולים. בעוד שהדור הראשון הפחית משמעותית את שיעור הפריצות, הוא הגיע עם עלויות חישוב גבוהות ועלייה קלה בשיעורי הסירוב לבקשות לגיטימיות. הפיתוח החדש, המתבסס על ארכיטקטורה דו-שלבית ושימוש באותות פנימיים של המודל, מציג שיפור דרמטי באבטחה, צמצום שיעור הסירוב לבקשות תמימות וחיסכון ניכר בעלויות התפעול, עם תוספת של כ-1% בלבד בעלות החישוב.

קרא עוד
אנתרופיק בוחנת את הגנות הבטיחות של ה-AI שלה עם תוכנית Bug Bounty חדשה
בטיחות14 במאי 2025

אנתרופיק בוחנת את הגנות הבטיחות של ה-AI שלה עם תוכנית Bug Bounty חדשה

אנתרופיק (Anthropic) משיקה תוכנית Bug Bounty חדשה בשיתוף HackerOne, שמטרתה לבחון לעומק את מנגנוני הבטיחות המתקדמים שלה. התוכנית מאתגרת חוקרים למצוא פריצות מגבלות (jailbreaks) אוניברסליות במערכות סיווג בטיחותיות שטרם נפרסו לציבור. זאת, כחלק מהמחויבות של החברה לעמוד בתקן AI Safety Level-3 (ASL-3) במסגרת מדיניות ה-Responsible Scaling שלה, המגדירה כיצד לפתח ולפרוס מודלי AI בעלי יכולות גדלות באופן בטוח. פרסים של עד 25,000 דולר יוצעו לחוקרים שיזהו פריצות כאלה, במיוחד כאלו שקשורות לשימוש לרעה בטכנולוגיה בנושאי נשק כימי, ביולוגי, רדיולוגי וגרעיני (CBRN).

קרא עוד
מנגנוני סיווג חוקתיים: אנתרופיק נלחמת בפריצות מגבלות אוניברסליות ל-LLM
מחקר3 בפברואר 2025

מנגנוני סיווג חוקתיים: אנתרופיק נלחמת בפריצות מגבלות אוניברסליות ל-LLM

חברת אנתרופיק (Anthropic) פרסמה לאחרונה מחקר פורץ דרך המציג שיטה חדשה להגנה על מודלי שפה גדולים (LLMs) מפני פריצות מגבלות (jailbreaks) אוניברסליות. השיטה, המכונה 'מנגנוני סיווג חוקתיים', משתמשת במסווגי קלט ופלט שאומנו על מידע סינתטי כדי לזהות ולחסום תוכן מזיק, תוך שמירה על שיעור סירובים נמוך לקלטים תמימים ועלויות מחשוב סבירות. המערכת עמדה בהצלחה במבחני Red Teaming אנושיים וגם במבחנים אוטומטיים שהראו שיפור דרמטי בעמידותה, דבר חיוני לפריסת מודלים מתקדמים ובטוחים בעתיד. אף על פי שבדמו חי נמצאה פריצת מגבלות אוניברסלית אחת, התובנות שנאספו יסייעו לשפר את יכולות ההגנה באופן משמעותי.

קרא עוד