ANTHROPIC IL
ניוזלטרמדד כלכליטיפיםהנדסה באנתרופיקמחקרמודליםחדשותראשי
ANTHROPIC IL

הקהילה הישראלית של Anthropic. חדשות, מחקרים, מדריכים ועדכונים על Claude ועל כלי ה-AI של אנתרופיק - בעברית.

RSS support@anthropic-il.co.il

הישארו מעודכנים

הצטרפו לניוזלטר השבועי וקבלו את כל העדכונים החמים מעולם ה-AI ישירות למייל.

מדורים

  • חדשות
  • מחקר
  • הנדסה
  • כלכלה
  • טיפים וטריקים
  • קהילה
  • ניוזלטר
  • חיפוש

משפחת Claude

  • Claude Code (קלוד קוד)
  • Claude - סקירה
  • Claude Sonnet
  • Claude Opus
  • Claude Haiku

נושאים חמים

  • בינה מלאכותית
  • מודלי שפה
  • LLMs
  • Anthropic API
  • סוכני AI
  • קידוד סוכני
  • מודלי חזית

מחקר ובטיחות

  • בטיחות AI
  • AI אחראי
  • מחקר AI
  • פרשנות מודלים
  • יישור (Alignment)
  • Red Teaming
  • מדיניות ורגולציה

אתרי אחות

  • קלודLEARN - לימוד
  • מבוא ל-LLMs
  • הזיות בקלוד
  • פרומפט ראשון
מדיניות פרטיות·תנאי שימוש·צור קשר
כל הזכויות שמורות Anthropic IL © 2026
אנתרופיק | אנטרופיק ישראל | אנטרופיק בעברית | Anthropic Israel

אתר קהילתי בלתי רשמי - אתר זה אינו קשור, מאושר או מופעל על ידי חברת Anthropic, PBC. התכנים מתורגמים באופן אוטומטי מ-anthropic.com ועשויים להכיל אי-דיוקים. כל הסימנים המסחריים הם רכוש בעליהם.

ראשי/ניווט תכונות

ניווט תכונות

1 כתבות בנושא זה

אנתרופיק חושפת: האם ניתן 'לנווט' את הטיות מודלי ה-AI מבפנים?
מחקר25 באוקטובר 2024

אנתרופיק חושפת: האם ניתן 'לנווט' את הטיות מודלי ה-AI מבפנים?

מחקר חדש מבית אנתרופיק (Anthropic) בוחן את טכניקת 'ניווט תכונות' (feature steering), שיטה המאפשרת להתערב במרכיבים פנימיים וניתנים לפרשנות של מודלי שפה גדולים (LLM) דוגמת Claude 3 Sonnet. המטרה היא לבדוק כיצד ניתן למתן הטיות חברתיות מבלי לפגוע ביכולות הכלליות של המודל. הממצאים הראו קיום 'נקודה אופטימלית' (sweet spot) לניווט, ואף זיהוי של 'תכונת ניטרליות' שמפחיתה הטיות רבות. יחד עם זאת, המחקר חשף גם אתגרים כמו 'השפעות בלתי צפויות' (off-target effects) והצביע על מורכבות ההשפעה של תכונות על פלטי המודל, מה שמדגיש את הצורך בהערכה זהירה לפני הטמעת השיטה בפועל.

קרא עוד