תורמים את כלי היישור בקוד פתוח שלנו
באוקטובר 2025, השקנו את Petri, ארגז כלים בקוד פתוח המכיל מבחני יישור (alignment) שניתן ליישם על כל מודל שפה גדול (LLM). Petri, שפותח כחלק מתוכנית Anthropic Fellows שלנו, יכול לשמש לבדיקה מהירה וקלה של מודלי AI לגילוי נטיות מדאיגות כמו הטעיה, חנופה ושיתוף פעולה עם בקשות מזיקות. הכלי מהווה חלק ממאמצינו לפתח כלי יישור שהם פתוחים ושימושיים עבור כל קהילת פיתוח ה-AI.
Petri שימש כחלק מהערכת היישור שלנו עבור כל מודל Claude מאז Claude Sonnet 4.5. הוא משווה כיצד המודל החדש מתנהג במגוון תרחישים רלוונטיים ליישור, המדומים על ידי מודל "מבקר" נפרד. לאחר מכן, מודל "שופט" נוסף מנקד את התמלילים המתקבלים בהתאם להתנהגויות לא מיושרות.
שמחנו לראות את Petri נמצא בשימוש על ידי ארגונים חיצוניים: לדוגמה, מכון אבטחת ה-AI הבריטי (AISI) הפך אותו לחלק מרכזי באופן שבו הם מעריכים מודלים לגבי נטייתם לחבל במחקר AI.
אנו כעת מעדכנים את Petri לגרסתו השלישית. הנה כמה מהשינויים הגדולים ביותר:
- התאמה (Adaptability). Petri 3.0 כולל שינויים ארכיטקטוניים משמעותיים המאפשרים למשתמשים להתאים אותו ליותר שימושים, ובפרט על ידי פיצול מודל המבקר ומודל היעד לרכיבים נפרדים שניתן לכוונן באופן עצמאי;
- ריאליזם (Realism). למרות חוקרי יישור מנסים לגרום למבחנים להיראות מציאותיים, מודל יכול לעתים קרובות להסיק מחוסר טבעיות שונים בהגדרה שהוא למעשה חלק ממבחן. ואם המודל מודע לכך שהוא נבדק, החוקר אינו יכול עוד לראות כיצד המודל מתנהג באופן כללי. תוסף ל-Petri, שאנו מכנים "Dish", הופך את ההגדרה למציאותית הרבה יותר, למשל על ידי הרצת המבחנים באמצעות ה-System Prompt האמיתי של המודל וה-"scaffold" האמיתי (התוכנה שעוטפת את המודל כדי לעזור לו להגשים את מטרותיו) שהיה משמש בפריסות מודל אמיתיות;
- עומק (Depth). שילבנו כעת את Petri עם כלי היישור הנוסף שלנו בקוד פתוח, Bloom, שיכול לבצע הערכות מעמיקות יותר של התנהגויות נבחרות וספציפיות (בהשוואה לגישה הרחבה יותר של Petri).
אנו גם נותנים ל-Petri בית חדש. העברנו את פיתוחו לידי Meridian Labs, עמותה ללא מטרות רווח להערכת AI. מהלך זה – בדומה למתי שתרומנו את ה-Model Context Protocol (MCP) ל-Linux Foundation – יסייע להבטיח ש-Petri יישאר עצמאי מכל מעבדת AI, כך שתוצאותיו ייתפסו כניטרליות ואמינות על ידי כלל התעשייה ומעבר לה.
כחלק מ-Meridian Labs, מצטרף Petri לכלים נוספים כמו Inspect ו-Scout, ובכך בונה ערימת טכנולוגיה פתוחה למעבדות, חוקרים עצמאיים וממשלות כאחד, בתקופה שבה מבחנים אמינים של התנהגות מודלי AI חשובים יותר מתמיד.
תוכלו לקרוא עוד על Petri 3.0 בבלוג של Meridian Labs.
הוראות להתקנה ושימוש ב-Petri זמינות באתר האינטרנט של Petri.



