
3 בפברואר 2026
ביצועי מודלי AI בקידוד סוכני: כשביצועי התשתית משנים את הציון
מחקר חדש של אנתרופיק (Anthropic) חושף כי מדדי ביצועים לקידוד סוכני AI, המשמשים להשוואת מודלי חזית, מושפעים באופן ניכר מתצורת התשתית שעליה הם רצים. החברה גילתה כי הבדלים בהגדרות המשאבים, כמו מגבלות מעבד וזיכרון RAM, יכולים לייצר פער של עד 6 נקודות אחוז בציוני ההערכה. הממצאים מצביעים על כך שציונים צמודים בלוחות דירוג אינם משקפים בהכרח יכולות מודל טהורות, אלא גם את הגדרות החומרה והתשתית. אנתרופיק ממליצה על סטנדרטיזציה של מתודולוגיות המשאבים ופירוט מדויק של פרמטרי ההקצאה, כדי להבטיח מדידה אמינה ושקופה יותר של יכולות ה-AI.
קרא עוד