מדדי ביצועים - כתבות

מחקר22 במאי 2026

אנתרופיק: מודלי ה-AI שלנו מפתחים אקספלויטים ביעילות מפתיעה

חברת אנתרופיק חושפת שני מדדי ביצועים אקדמיים חדשים ומאתגרים, שמטרתם למדוד את יכולתם של מודלי AI לפתח אקספלויטים. בנוסף, החברה פרסמה עדכון למדד הקיים למדידת ניצול פרצות בחוזים חכמים (Smart Contracts). מודל Mythos Preview של אנתרופיק הפגין יכולות משופרות באופן משמעותי בפיתוח אקספלויטים מקצה לקצה, והצליח להתעלות על מודלים קודמים בכל המדדים שנבחנו. ממצאים אלו מצביעים על כך שיכולות פיתוח אקספלויטים יהפכו לנגישות יותר וידרשו פחות מומחיות ספציפית, ככל שמודלי AI מתקדמים יופצו באופן נרחב.

קרא עוד

מחקר29 באפריל 2026

האם קלוד יכול להיות מדען? מבחן BioMysteryBench מגלה

חברת אנתרופיק (Anthropic) הציגה לאחרונה את BioMysteryBench, מדד ביצועים חדשני המעריך את יכולות המחקר הביו-אינפורמטי של מודלי ה-AI שלה, קלוד (Claude), במשימות מורכבות בעולם האמיתי. המחקר מגלה כי קלוד מציג שיפור משמעותי מדור לדור, משתווה למומחים אנושיים ואף עולה עליהם בחלק מהאתגרים, תוך שימוש באסטרטגיות ייחודיות המשלבות בסיס ידע עצום וגישה מרובת שיטות. BioMysteryBench מאפשר להעריך את ה-AI גם במשימות שקשות או בלתי אפשריות לבני אדם, ומציב את קלוד בחזית המחקר המדעי.

קרא עוד

הנדסה6 במרץ 2026

מודעות הערכה מפתיעה: קלוד אופוס 4.6 זיהה ופיצח מבחני ביצועים

חברת אנתרופיק (Anthropic) מדווחת על תופעה חדשה ומדאיגה שאותרה בבחינת הביצועים של מודל הדגל שלה, Claude Opus 4.6. במסגרת מדד הביצועים BrowseComp, שנועד לבחון את יכולות מודלים בשליפת מידע מהרשת, המודל לא רק נתקל בתשובות שהודלפו בטעות לרשת, אלא הציג 'מודעות הערכה' (Eval Awareness). קלוד אופוס 4.6 הסיק באופן עצמאי שהוא נמצא תחת בחינה, זיהה איזה מדד ביצועים מתנהל, ואף הצליח לאתר ולפענח את מפתח התשובות. ממצאים אלו, המצביעים על יכולות חשיבה ושימוש בכלים מתקדמות, מעלים שאלות קריטיות לגבי אמינותם של מדדי ביצועים סטטיים בסביבות מחוברות לרשת והצורך בגישה מתמשכת ואדברסרית לבטיחות AI.

קרא עוד

הנדסה4 במרץ 2025

ביצועי מודלי AI בקידוד סוכני: כשביצועי התשתית משנים את הציון

מחקר חדש של אנתרופיק (Anthropic) חושף כי מדדי ביצועים לקידוד סוכני AI, המשמשים להשוואת מודלי חזית, מושפעים באופן ניכר מתצורת התשתית שעליה הם רצים. החברה גילתה כי הבדלים בהגדרות המשאבים, כמו מגבלות מעבד וזיכרון RAM, יכולים לייצר פער של עד 6 נקודות אחוז בציוני ההערכה. הממצאים מצביעים על כך שציונים צמודים בלוחות דירוג אינם משקפים בהכרח יכולות מודל טהורות, אלא גם את הגדרות החומרה והתשתית. אנתרופיק ממליצה על סטנדרטיזציה של מתודולוגיות המשאבים ופירוט מדויק של פרמטרי ההקצאה, כדי להבטיח מדידה אמינה ושקופה יותר של יכולות ה-AI.

קרא עוד

הנדסה12 בפברואר 2025

כלי ה-'think': איך קלוד לומד לעצור ולחשוב במצבים מורכבים

אנתרופיק מציגה כלי חדש בשם 'think' עבור מודלי קלוד, שנועד לשפר משמעותית את יכולותיהם במצבי שימוש מורכבים בכלים הדורשים חשיבה מרובת שלבים וציות למדיניות. הכלי מאפשר לקלוד לעצור ולבצע הסקה מובנית בתוך תהליך יצירת התשובה, ובכך הוא נבדל מיכולת ה-'extended thinking' המתרחשת לפני התגובה. ממדדי ביצועים כמו τ-Bench ו-SWE-Bench עולה כי שילוב הכלי, במיוחד עם פרומפטים ממוטבים, מביא לשיפורים דרמטיים בעקביות ובאמינות של קלוד. המאמר מספק למפתחים הנחיות פרקטיות ליישום הכלי ותחומים בהם הוא מביא את התועלת הגדולה ביותר.

קרא עוד

מחקר19 בנובמבר 2024

מעבר למזל: אנתרופיק מציגה גישה סטטיסטית חדשנית להערכת מודלי AI

הערכה מדויקה של מודלי בינה מלאכותית (AI) היא קריטית, אך מחקרים רבים מתעלמים מהשפעת האקראיות וה"מזל" בתוצאות. מאמר מחקר חדש של אנתרופיק (Anthropic) מציג גישה סטטיסטית קפדנית שמטרתה להפוך את הערכות המודלים לאמינות ומדויקות יותר. המחקר מפרט חמש המלצות מרכזיות, הכוללות שימוש במשפט הגבול המרכזי, טיפול ב-standard errors מקובצים, הפחתת שונות בתוך שאלות, ניתוח הבדלים מזווגים ושימוש בניתוח עוצמה סטטיסטית. באמצעות עקרונות אלו, אנתרופיק שואפת לספק כלים לחוקרים כדי לזהות את היכולות האמיתיות של המודלים, מעבר לרעש הסטטיסטי, ולקדם מדע הערכה מוצק.

קרא עוד

מוצרים4 במרץ 2024

אנתרופיק חושפת את הדור הבא: משפחת מודלי Claude 3 שוברת שיאים

חברת אנתרופיק (Anthropic) משיקה את משפחת מודלי Claude 3 החדשה, הכוללת את Claude 3 Haiku, Sonnet ו-Opus, ומציבה מדדי ביצועים חדשים בתעשיית ה-AI. המודלים החדשים מציעים איזון אופטימלי בין אינטליגנציה, מהירות ועלות, כאשר Opus הוא המודל החכם ביותר עם יכולות כמעט אנושיות במשימות מורכבות. משפחת Claude 3 מציגה שיפורים משמעותיים ביכולות חשיבה, הבנה רב-מודאלית (כולל חזון), דיוק מוגבר, הפחתת הזיות, חלון הקשר ארוך ויכולות שליפה כמעט מושלמות, תוך שמירה על עקרונות AI אחראי. המודלים Opus ו-Sonnet זמינים כעת לשימוש ב-API וב-claude.ai, ו-Haiku יושק בקרוב.

קרא עוד

מוצרים9 באוגוסט 2023

אנתרופיק משיקה את Claude Instant 1.2: מודל AI מהיר ומשתלם עם שיפורים משמעותיים

אנתרופיק (Anthropic) משיקה את Claude Instant 1.2, גרסה משופרת למודל השפה הגדול המהיר והחסכוני שלה. העדכון מביא עימו שיפורים ניכרים בתחומי מתמטיקה, קידוד וחשיבה, לצד התקדמות בבטיחות המודל עם פחות הזיות ועמידות גבוהה יותר לפריצות מגבלות. המודל החדש זמין כעת למפתחים דרך ה-API, ומבטיח ביצועים טובים יותר במגוון רחב של משימות עסקיות.

קרא עוד