
מחקר17 בדצמבר 2024
Claude 3.5 Sonnet קובע רף חדש בביצועי SWE-bench Verified
מודל Claude 3.5 Sonnet המשודרג של אנתרופיק (Anthropic) מציג ביצועי שיא במדד SWE-bench Verified, ומדגים יכולות הנדסת תוכנה מתקדמות ודיוק יוצא דופן ביצירת קוד. הכתבה מפרטת את המתודולוגיה הטכנית שעמדה בבסיס ההערכה, ואת בניית סוכן ה-AI סביב המודל, אשר סייע להביא לידי ביטוי את מלוא יכולותיו. נלמד כיצד הגישה הייחודית של אנתרופיק מאפשרת למודל להתמודד עם משימות קידוד מורכבות בעולם האמיתי, ומדוע מדובר בפריצת דרך משמעותית.
קרא עוד