ANTHROPIC IL
ניוזלטרמדד כלכליטיפיםהנדסה באנתרופיקמחקרמודליםחדשותראשי
ANTHROPIC IL

הקהילה הישראלית של Anthropic. חדשות, מחקרים, מדריכים ועדכונים על Claude ועל כלי ה-AI של אנתרופיק - בעברית.

RSS support@anthropic-il.co.il

הישארו מעודכנים

הצטרפו לניוזלטר השבועי וקבלו את כל העדכונים החמים מעולם ה-AI ישירות למייל.

מדורים

  • חדשות
  • מחקר
  • הנדסה
  • כלכלה
  • טיפים וטריקים
  • קהילה
  • ניוזלטר
  • חיפוש

משפחת Claude

  • Claude Code (קלוד קוד)
  • Claude - סקירה
  • Claude Sonnet
  • Claude Opus
  • Claude Haiku

נושאים חמים

  • בינה מלאכותית
  • מודלי שפה
  • LLMs
  • Anthropic API
  • סוכני AI
  • קידוד סוכני
  • מודלי חזית

מחקר ובטיחות

  • בטיחות AI
  • AI אחראי
  • מחקר AI
  • פרשנות מודלים
  • יישור (Alignment)
  • Red Teaming
  • מדיניות ורגולציה

אתרי אחות

  • קלודLEARN - לימוד
  • מבוא ל-LLMs
  • הזיות בקלוד
  • פרומפט ראשון
מדיניות פרטיות·תנאי שימוש·צור קשר
כל הזכויות שמורות Anthropic IL © 2026
אנתרופיק | אנטרופיק ישראל | אנטרופיק בעברית | Anthropic Israel

אתר קהילתי בלתי רשמי - אתר זה אינו קשור, מאושר או מופעל על ידי חברת Anthropic, PBC. התכנים מתורגמים באופן אוטומטי מ-anthropic.com ועשויים להכיל אי-דיוקים. כל הסימנים המסחריים הם רכוש בעליהם.

ראשי/תיקון עצמי

תיקון עצמי

1 כתבות בנושא זה

אנתרופיק במחקר פורץ דרך: היכולת לתיקון עצמי מוסרי במודלי שפה גדולים
מחקר15 בפברואר 2023

אנתרופיק במחקר פורץ דרך: היכולת לתיקון עצמי מוסרי במודלי שפה גדולים

חברת אנתרופיק, המובילה במחקר ובטיחות AI, פרסמה מחקר חדש הבוחן את היכולת של מודלי שפה גדולים (LLM) שאומנו בשיטת RLHF לבצע 'תיקון עצמי מוסרי' ולמנוע יצירת תכנים מזיקים, בהינתן הנחיות מתאימות. המחקר מצא ראיות משמעותיות התומכות בהשערה זו, והראה כי יכולת התיקון העצמי מתחילה להופיע במודלים בעלי 22 מיליארד פרמטרים ומשתפרת עם הגדלת המודל והאימון ב-RLHF. המסקנה היא כי מודלים אלו מסוגלים גם לציית להנחיות וגם ללמוד מושגים נורמטיביים מורכבים של פגיעה, כמו סטריאוטיפים והטיה. התוצאות מעניקות אופטימיות זהירה לגבי היכולת לאמן מודלי שפה לעמוד בעקרונות אתיים.

קרא עוד