AI חוקתי - כתבות

בטיחות22 בינואר 2026

אנתרופיק חושפת: החוקה החדשה שמעצבת את ערכי קלוד

חברת אנתרופיק (Anthropic) מציגה גישה מעודכנת למסמך החוקתי של מודל השפה הגדול שלה, קלוד (Claude). החוקה החדשה, המשמשת כלי מרכזי בתהליך אימון המודל ועיצוב ערכיו והתנהגותו, מתמקדת כעת בהסברת ה'למה' מאחורי ההנחיות, ולא רק ה'מה'. מטרת העדכון היא לאפשר לקלוד להפגין חשיבה ושיקול דעת טובים יותר במגוון רחב של מצבים חדשים, תוך שמירה על בטיחות, אתיקה, עמידה בהנחיות ויכולת סיוע משמעותית. אנתרופיק משחררת את המסמך המלא בקוד פתוח תחת רישיון CC0, מתוך אמונה בשקיפות ועידוד ביקורת קהילתית.

קרא עוד

מחקר24 באוקטובר 2023

AI חוקתי: עקרונות כלליים מול ספציפיים לבטיחות הבינה המלאכותית

חברת אנתרופיק, המובילה בתחום בטיחות ה-AI, בוחנת במחקר חדש את האפקטיביות של AI חוקתי – גישה המבוססת על פידבק מודלי AI בהתאם לעקרונות כתובים. המחקר מראה כי גישה זו מונעת ביעילות התבטאויות בעייתיות, ואף חושף שמודלי שפה גדולים יכולים להפנים התנהגות אתית כללית גם מעיקרון יחיד כמו 'עשה את הטוב ביותר לאנושות'. עם זאת, למרות הפוטנציאל לצמצם את הצורך ברשימת עקרונות ארוכה, עקרונות מפורטים יותר עדיין משפרים את השליטה העדינה על נזקים ספציפיים. הממצאים מצביעים על כך ששילוב של עקרונות כלליים וספציפיים הוא המפתח להיגוי בטוח של AI.

קרא עוד

מחקר9 במאי 2023

AI חוקתי קולקטיבי: אנתרופיק מאמנת את קלוד על פי חוקה שנכתבה בידי הציבור

חברת אנתרופיק (Anthropic), המובילה בתחום בטיחות ויישור AI, פרסמה מחקר חדשני על גישת 'AI חוקתי קולקטיבי'. במקום לאמץ את החוקה הפנימית שלה, אנתרופיק הזמינה כאלף אזרחים אמריקאים לנסח במשותף מערכת עקרונות עבור מודל השפה קלוד (Claude). מטרת המחקר הייתה לבדוק כיצד תהליכים דמוקרטיים יכולים להשפיע על פיתוח AI ועל יישור המודלים לערכים ציבוריים רחבים יותר. הממצאים חשפו נקודות הסכמה ושוני משמעותיות בין העדפות הציבור לחוקה המקורית, והובילו לאימון מודל חדש המבוסס על העקרונות שנוסחו באופן קולקטיבי.

קרא עוד

בטיחות8 במרץ 2023

החוקה של Claude: אנתרופיק מפרטת את עקרונות ה-AI האחראי שלה

חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI, פיתחה את גישת ה-AI החוקתי (Constitutional AI) כדי להפוך מודלי שפה גדולים (LLM) לאמינים, ברי פרשנות וניתנים לשליטה. גישה זו, המוטמעת במודל Claude שלהם, מציעה מענה לשאלת ה"ערכים" של מודלי שפה על ידי מתן עקרונות מפורשים, בניגוד להסתמכות בלעדית על משוב אנושי. השיטה מאפשרת סקיילינג יעיל של פיקוח AI, שקיפות גבוהה יותר של המודל, ומבטיחה תגובות מועילות ולא מזיקות מבלי לחשוף מפעילים אנושיים לתכנים מטרידים.

קרא עוד

מחקר15 בדצמבר 2022

AI חוקתי: הדרך של אנתרופיק לבינה מלאכותית בטוחה באמצעות ביקורת עצמית

חברת אנתרופיק (Anthropic), המתמקדת במחקר ובבטיחות AI, פיתחה גישה חדשנית בשם "AI חוקתי" (Constitutional AI) במטרה לבנות מערכות בינה מלאכותית אמינות, ניתנות לפרשנות ושליטה. שיטה זו מאפשרת לאמן עוזרי AI שאינם מזיקים ואינם מתחמקים, על ידי שימוש בפידבק מ-AI אחרים ורשימת עקרונות אנושיים, ללא צורך בכמויות אדירות של תיוג אנושי לתגובות מזיקות. המחקר מדגים כיצד AI יכול לפקח על AI אחרים, תוך שיפור השקיפות והדיוק של תהליך קבלת ההחלטות, ובכך להפחית משמעותית את התלות במעורבות אנושית.

קרא עוד