למידת מכונה - כתבות

מחקר8 במאי 2026

אנתרופיק: כך צמצמנו הטעיה סוכנית ולימדנו את קלוד אתיקה

מחקר חדש של אנתרופיק חושף את השיטות שבאמצעותן הצליחו במעבדה להפחית באופן ניכר הטעיה סוכנית (agentic misalignment) במודלי ה-AI שלהם, ובראשם קלוד. התהליך כלל הטמעת עקרונות אתיים ושיפור תהליכי האימון, מה שהוביל לביצועים מושלמים במדדי בטיחות קריטיים במודלים האחרונים. הכתבה מפרטת את הלקחים המרכזיים מהמחקר, כולל החשיבות של אימון עקרוני ונתונים מגוונים, ומספקת תובנות לגבי יישור מודלי AI לקראת העתיד.

קרא עוד

הנדסה22 באפריל 2025

מבחנים עמידים ל-AI: המרוץ של אנתרופיק לבחון מהנדסים במציאות משתנה

אנתרופיק (Anthropic), מובילה בתחום ה-AI, מתמודדת עם אתגר הולך וגובר: כיצד להעריך מהנדסי ביצועים כשלמודלי שפה גדולים כמו Claude יש יכולת לפתור מבחנים טכניים מורכבים. הכתבה מתארת את מסע החברה בשלוש גרסאות של מבחן בית (take-home) שתוכנן לאתר כישרונות הנדסיים, וכיצד כל דור של מודל Claude הצליח להתעלות עליו, מה שאילץ את הצוות לתכנן מחדש את המבחן. היא חושפת תובנות לגבי בניית הערכות עמידות ל-AI ומציגה את האתגר הפתוח של אנתרופיק לקהילה הטכנולוגית.

קרא עוד

מחקר16 באוקטובר 2024

לפרק את הקופסה השחורה: אנתרופיק מציגה כלי חדש להבנת מודלי AI

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, הציגה לאחרונה עבודה מתפתחת מצוות הפרשנות שלה, המציגה גישה חדשנית לשימוש במאפייני למידת מילון (dictionary learning features) כמסווגים. המחקר, שנועד לקדם את היכולת לבנות מערכות AI אמינות, ניתנות לפרשנות ושליטה, מהווה צעד חשוב בהבנת המנגנונים הפנימיים של מודלים מורכבים. זוהי התפתחות קריטית במאמץ לפענח את ה'קופסה השחורה' של הבינה המלאכותית, ולאפשר למפתחים ולחוקרים להבין טוב יותר כיצד מודלי שפה גדולים (LLMs) מגיעים למסקנותיהם, ובכך לתרום לבניית AI אחראי ובטוח יותר.

קרא עוד

מחקר5 באוקטובר 2023

מאחורי הקלעים של ה-AI: אנתרופיק מציגה שיטה לפירוק מודלי שפה

אנתרופיק, חברת מחקר ובטיחות AI מובילה, מפתחת מערכות בינה מלאכותית אמינות, ניתנות לפרשנות ולשליטה. במסגרת מאמציה להבטיח את בטיחות ורמת האחריות של AI, החברה פרסמה מחקר פורץ דרך המציג שיטה לפירוק מודלי שפה גדולים לרכיבים מובנים. גישה זו, הנקראת 'למידת מילון', מאפשרת זיהוי של 'תכונות' ספציפיות בתוך הרשתות הנוירוניות, ובכך פותחת פתח להבנה מעמיקה יותר של פעולתם הפנימית. הבנה זו קריטית לאבחון כשלים, תיקונם, והבטחת שהמודלים בטוחים ואמינים לשימוש רחב היקף.

קרא עוד

מחקר16 במרץ 2023

בסיסים מועדפים בטרנספורמרים: אנתרופיק חושפת כיצד אלגוריתם Adam משפיע על מודלי AI

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, פרסמה מחקר פורץ דרך השופך אור על התנהגות בלתי צפויה במודלי טרנספורמר, הארכיטקטורה שעומדת בבסיסם של מודלי שפה גדולים (LLMs). המחקר מגלה כי בניגוד לתאוריה המתמטית, לא כל "נתיבי המידע" הפנימיים במודלים אלו שווים בחשיבותם, כאשר קיימים "בסיסים מועדפים" המקודדים מידע בצורה שונה. ממצאים ראשוניים מצביעים על כך שאלגוריתם האופטימיזציה Adam, המשמש לאימון מודלים, הוא הגורם להיווצרותם של בסיסים אלו, תגלית בעלת השלכות קריטיות על פרשנות, בטיחות ויישור (alignment) של מערכות AI.

קרא עוד

מחקר5 בינואר 2023

הצצה פנימה: סופרפוזיציה, שינון וירידה כפולה במודלי AI

חברת אנתרופיק (Anthropic), מובילה במחקר בטיחות AI, פרסמה מחקר ראשוני המעמיק בתופעות מורכבות במודלי למידה עמוקה: סופרפוזיציה, שינון וירידה כפולה (Double Descent). המחקר, שהתבצע על רשתות נוירוניות פשוטות, מגלה כי מודלים מציגים דפוסים שונים של ייצוג מידע בהתאם לגודל קבוצת הנתונים. נמצא כי מצבי זליגת יתר (overfitting) מאופיינים באחסון נקודות נתונים בסופרפוזיציה, בעוד שמצבי הכללה (generalization) מאחסנים תכונות (features) באותה הדרך, תוך כדי מעבר המתבטא בתופעת ה-Double Descent.

קרא עוד

מחקר15 בדצמבר 2022

AI חוקתי: הדרך של אנתרופיק לבינה מלאכותית בטוחה באמצעות ביקורת עצמית

חברת אנתרופיק (Anthropic), המתמקדת במחקר ובבטיחות AI, פיתחה גישה חדשנית בשם "AI חוקתי" (Constitutional AI) במטרה לבנות מערכות בינה מלאכותית אמינות, ניתנות לפרשנות ושליטה. שיטה זו מאפשרת לאמן עוזרי AI שאינם מזיקים ואינם מתחמקים, על ידי שימוש בפידבק מ-AI אחרים ורשימת עקרונות אנושיים, ללא צורך בכמויות אדירות של תיוג אנושי לתגובות מזיקות. המחקר מדגים כיצד AI יכול לפקח על AI אחרים, תוך שיפור השקיפות והדיוק של תהליך קבלת ההחלטות, ובכך להפחית משמעותית את התלות במעורבות אנושית.

קרא עוד

מחקר1 בדצמבר 2021

מעבדת יישור: כך Anthropic בונה סוכני שפה בטוחים ואחראיים

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, מציגה תובנות חדשות ממחקר שנועד להפוך מודלי שפה גדולים (LLM) לעוזרים כלליים שמתיישרים עם ערכים אנושיים – כלומר, מועילים, כנים ולא מזיקים. המחקר בוחן שיטות יישור פשוטות כמו פרומפטים, ומגלה כי התערבויות קטנות משפרות את הביצועים ומתרחבות עם גודל המודל, מבלי לפגוע ביכולותיו. בנוסף, נבחנות אסטרטגיות אימון שונות, כאשר אימון מבוסס דירוג העדפות מתגלה כיעיל ביותר בסקיילינג ובהשגת יישור מיטבי. לבסוף, מציגה אנתרופיק שיטת קדם-אימון חדשנית שמטרתה לשפר את יעילות הלמידה מהעדפות אנושיות.

קרא עוד