הנדסה | Anthropic IL

הנדסה22 באפריל 2025

קלוד קוד מתחזק: אבטחה משופרת ואוטונומיה בזכות ארגז חול חדש

אנתרופיק משיקה תכונת ארגז חול (sandboxing) חדשה ב-Claude Code, המאפשרת למפתחים לעבוד בסביבה בטוחה ואוטונומית יותר. הפיצ'ר החדש כולל בידוד מערכת קבצים ובידוד רשת, שמפחיתים באופן דרמטי את הצורך בבקשות אישור תמידיות מצד המשתמש, ומגבירים את הבטיחות מפני איומים כמו הזרקת פרומפט. בזכות ארגז החול, קלוד יכול לבצע פעולות רבות יותר בחופשיות, תוך הגנה על נתוני המשתמש הרגישים ושיפור יעילות הפיתוח. בנוסף, הושק Claude Code on the web להרצת קוד מאובטחת בענן.

קרא עוד

הנדסה22 באפריל 2025

הנדסת הקשר יעילה עבור סוכני AI

בעוד שהנדסת פרומפטים עמדה במרכז תשומת הלב ב-AI יישומי, עולה כעת מונח חדש: הנדסת הקשר. גישה זו מתמקדת באופטימיזציה של הנתונים והטוקנים הזמינים למודל שפה גדול (LLM) בכל רגע נתון, במטרה להבטיח התנהגות עקבית ואפקטיבית של סוכני AI. הכתבה דנה בחשיבות ניהול הקשר מוגבל, תוך התייחסות למגבלות כמו 'ריקבון הקשר' (context rot), ומציגה אסטרטגיות כמו שליפה בזמן אמת (just in time retrieval) ושימוש מושכל בכלים. עוד נבחנות טכניקות מתקדמות למשימות ארוכות טווח, כולל דחיסה, רישום הערות מובנה וארכיטקטורות תת-סוכנים, במטרה לבנות סוכנים אמינים ויעילים יותר.

קרא עוד

הנדסה22 באפריל 2025

מבחנים עמידים ל-AI: המרוץ של אנתרופיק לבחון מהנדסים במציאות משתנה

אנתרופיק (Anthropic), מובילה בתחום ה-AI, מתמודדת עם אתגר הולך וגובר: כיצד להעריך מהנדסי ביצועים כשלמודלי שפה גדולים כמו Claude יש יכולת לפתור מבחנים טכניים מורכבים. הכתבה מתארת את מסע החברה בשלוש גרסאות של מבחן בית (take-home) שתוכנן לאתר כישרונות הנדסיים, וכיצד כל דור של מודל Claude הצליח להתעלות עליו, מה שאילץ את הצוות לתכנן מחדש את המבחן. היא חושפת תובנות לגבי בניית הערכות עמידות ל-AI ומציגה את האתגר הפתוח של אנתרופיק לקהילה הטכנולוגית.

קרא עוד

הנדסה21 במרץ 2025

לשחרר את כוחם של סוכני AI לקידוד יישומים מורכבים עם סקיילינג

חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ומחקר ה-AI, בוחנת גישות הנדסיות חדשניות לפיתוח יישומי AI אמינים, ניתנים לפרשנות וניתנים לשליטה. מאמר זה מתאר פיתוח של ארכיטקטורת ריסון (harness) מרובת סוכנים, בהשראת GANs, המסוגלת לייצר עיצובי פרונטאנד איכותיים ויישומי Full-Stack מורכבים באופן אוטונומי. באמצעות הפרדה בין סוכני 'יוצר' ל'מעריך', התמודדו המפתחים עם בעיות נפוצות כמו 'חרדת הקשר' והערכה עצמית מוטה, והצליחו לשפר באופן ניכר את ביצועי מודלי ה-LLM במשימות קידוד ארוכות טווח וסובייקטיביות.

קרא עוד

הנדסה11 במרץ 2025

פיתוח מערכת המחקר מרובת הסוכנים של קלוד: אתגרים ותובנות הנדסיות

הכתבה מפרטת את המסע ההנדסי והלקחים שנלמדו מבניית מערכת המחקר מרובת הסוכנים של Anthropic עבור Claude. היא מסבירה כיצד מערכת זו, המורכבת ממספר סוכני LLM הפועלים בשיתוף פעולה, מתמודדת עם משימות מחקר מורכבות ופתוחות ביעילות רבה יותר ממערכות סוכן יחיד. הדיון כולל עקרונות ארכיטקטוניים, אסטרטגיות הנדסת פרומפטים לתיאום סוכנים, שיטות הערכה מתקדמות ופתרונות לאמינות בייצור. הכתבה מדגישה את הרווחים המשמעותיים בביצועים, לצד העלייה בצריכת הטוקנים והמורכבות בפריסה הטבועות במערכות AI מתוחכמות אלו.

קרא עוד

הנדסה11 במרץ 2025

אנתרופיק מנגישה את קלוד Desktop: התקנת שרתי MCP מקומיים בלחיצה אחת

אנתרופיק (Anthropic) משיקה את 'הרחבות שולחן העבודה' (Desktop Extensions), פורמט חדש שמטרתו לפשט באופן דרמטי את תהליך התקנת שרתי ה-MCP המקומיים עבור קלוד (Claude) Desktop. עד כה, התקנה דרשה ידע טכני וטיפול ידני בתצורות ותלויות; כעת, הרחבות אלו מאפשרות פריסה בלחיצה אחת, ובכך מנגישות יכולות מתקדמות של אינטגרציה עם מערכות קבצים ונתונים מקומיים גם למשתמשים שאינם מפתחים. המהלך נועד להרחיב את יכולותיו של קלוד, תוך הבטחת בטיחות ופרטיות, ואנתרופיק אף פותחת את מפרט הפורמט לקוד פתוח במטרה לבנות סביבה אקולוגית רחבה.

קרא עוד

הנדסה11 במרץ 2025

איך לבנות כלים יעילים לסוכני AI – בעזרת סוכני AI

פרוטוקול ה-Model Context Protocol (MCP) מאפשר לסוכני LLM להשתמש במאות כלים לפתרון משימות מורכבות בעולם האמיתי. אבל איך נוודא שכלים אלה יהיו אפקטיביים ככל האפשר? בכתבה זו נפרט טכניקות מומלצות לבניית אבות טיפוס, ביצוע הערכות מקיפות ושיתוף פעולה עם סוכנים כמו Claude Code כדי לשפר אוטומטית את ביצועי הכלים. נסקור עקרונות מפתח לכתיבת כלים איכותיים, כולל בחירת הכלים הנכונים, תיחום פונקציונליות באמצעות Namespacing, החזרת מידע בעל משמעות מהכלים, אופטימיזציה של תגובות לחסכון בטוקנים ו-Prompt Engineering לתיאורי כלים.

קרא עוד

הנדסה4 במרץ 2025

סוכני AI: המדריך המעשי לבנייה אפקטיבית

אנתרופיק (Anthropic) חושפת תובנות מניסיונה בפיתוח סוכני AI אמינים ויעילים. הכתבה מפרטת את הגישה שלה לפיתוח סוכנים, תוך התמקדות במחקר על יכולותיהם, שיקולי בטיחות מרכזיים והתשתית הטכנית הנדרשת לבניית מערכות AI הראויות לאמון. נלמד מהם הדפוסים הפשוטים והיעילים ביותר שאומצו על ידי צוותים מובילים בתעשייה, החל מאבני בניין בסיסיות ועד לדפוסי תהליכי עבודה מתקדמים ואוטונומיים.

קרא עוד

הנדסה4 במרץ 2025

קלוד 3.5 סונט שובר שיאים ב-SWE-bench Verified לקידוד

מודל ה-AI קלוד 3.5 סונט מבית אנתרופיק מציג פריצת דרך מרשימה במדד SWE-bench Verified. הוא עקף את המודלים המובילים הקודמים, והגיע לביצועים חסרי תקדים במשימות הנדסת תוכנה בעולם האמיתי. הכתבה חושפת את היכולות המתקדמות של המודל בקידוד, את האופן שבו סוכנים (agents) מבוססי מודל זה מצליחים לבצע שינויי קוד מורכבים, ואת המתודולוגיות הטכניות ששימשו להערכת ביצועיו.

קרא עוד

הנדסה4 במרץ 2025

ביצועי מודלי AI בקידוד סוכני: כשביצועי התשתית משנים את הציון

מחקר חדש של אנתרופיק (Anthropic) חושף כי מדדי ביצועים לקידוד סוכני AI, המשמשים להשוואת מודלי חזית, מושפעים באופן ניכר מתצורת התשתית שעליה הם רצים. החברה גילתה כי הבדלים בהגדרות המשאבים, כמו מגבלות מעבד וזיכרון RAM, יכולים לייצר פער של עד 6 נקודות אחוז בציוני ההערכה. הממצאים מצביעים על כך שציונים צמודים בלוחות דירוג אינם משקפים בהכרח יכולות מודל טהורות, אלא גם את הגדרות החומרה והתשתית. אנתרופיק ממליצה על סטנדרטיזציה של מתודולוגיות המשאבים ופירוט מדויק של פרמטרי ההקצאה, כדי להבטיח מדידה אמינה ושקופה יותר של יכולות ה-AI.

קרא עוד

הנדסה4 במרץ 2025

כש-16 סוכני קלוד חוברים יחד: כך בנו באנתרופיק מהדר C מאפס

חוקר ב-אנתרופיק (Anthropic) חשף גישה חדשנית לפיתוח תוכנה באמצעות 'צוותי סוכנים' של מודלי Claude, במסגרתה 16 מופעים של Claude פעלו במקביל ואוטונומית לבניית מהדר C מאפס. הניסוי המרשים הוליד מהדר בן 100,000 שורות קוד, המסוגל לקמפל את ליבת לינוקס, בעלות של כ-20,000 דולר וכמעט 2,000 סשנים של Claude Code. הכתבה מתארת את האתגרים והפתרונות בתכנון סביבת עבודה לסוכנים אוטונומיים ארוכי טווח, כולל טיפול במקביליות ובדיקות איכות קפדניות. למרות ההישג הטכנולוגי פורץ הדרך, המחבר מביע גם דאגה מהסיכונים הכרוכים בפריסה אוטונומית לחלוטין של קוד ללא פיקוח אנושי.

קרא עוד

הנדסה12 בפברואר 2025

כלי ה-'think': איך קלוד לומד לעצור ולחשוב במצבים מורכבים

אנתרופיק מציגה כלי חדש בשם 'think' עבור מודלי קלוד, שנועד לשפר משמעותית את יכולותיהם במצבי שימוש מורכבים בכלים הדורשים חשיבה מרובת שלבים וציות למדיניות. הכלי מאפשר לקלוד לעצור ולבצע הסקה מובנית בתוך תהליך יצירת התשובה, ובכך הוא נבדל מיכולת ה-'extended thinking' המתרחשת לפני התגובה. ממדדי ביצועים כמו τ-Bench ו-SWE-Bench עולה כי שילוב הכלי, במיוחד עם פרומפטים ממוטבים, מביא לשיפורים דרמטיים בעקביות ובאמינות של קלוד. המאמר מספק למפתחים הנחיות פרקטיות ליישום הכלי ותחומים בהם הוא מביא את התועלת הגדולה ביותר.

קרא עוד