באנתרופיק, אנו שואפים לבנות מערכות AI שיקדמו את האנושות ויפעלו למען טובת הכלל. לשם כך, אנו נדרשים לקיים שיח עם אלו הרואים את העולם ממגוון רחב של נקודות מבט.
במהלך החודשים האחרונים, ארגנו דיאלוגים עם קבוצות שעבודתן ומסורותיהן נוגעות לשאלות שעולות מ-AI. סבב הדיונים הראשון שלנו התמקד ב'מסורות חוכמה' – וכלל חוקרים, אנשי דת, פילוסופים ואתיקנים מיותר מ-15 קבוצות דתיות ובין-תרבותיות. אנו מצפים להרחיב את המעורבות עם מגוון רחב יותר של אנשים בעתיד.
למה זה חשוב?
בניית מודלי AI בטוחים ומועילים דורשת עבודה טכנית מעמיקה בנושאי יישור, פרשנות, מנגנוני הגנה, הערכות ועוד. אך עבודה זו אינה מתבצעת – וגם AI אינו נפרס – בחלל ריק. ה-AI כבר משפיע על אנשים רבים, והשאלות שהוא מעלה מרוויחות ממגוון רחב של נקודות מבט.
אנו בוחנים בקפדנות כיצד יכול להיראות עתיד משגשג בעולם של AI עוצמתי, מה המשמעות של מערכת AI שמקיימת אינטראקציה עם מיליוני אנשים להיות 'טובה', וכן את התוכן של מסמכים כמו החוקה של קלוד, המספק תיאור מפורט של הערכים וההתנהגויות המעצבים את המודל. פילוסופים, אנשי דת, עורכי דין, סופרים, פסיכולוגים ומנהיגי קהילות ביצעו עבודה נרחבת בשאלות דומות, וחשוב לנו ללמוד מאותם יחידים, קהילות וארגונים. אנו גם רוצים לנצל הזדמנות זו כדי לשתף את הידע שלנו על פיתוח מודלי AI חזיתיים, ההשפעות שלדעתנו יהיו למערכות אלו על החברה, ומה שנדרש לעשות כדי למתן את הסיכונים הכרוכים בהן.
עבודה זו נמצאת בשלביה המוקדמים, אך אנו מקווים ששיחות אלו יוכלו להזין את העבודה המעשית בפיתוח קלוד, כמו תוכן החוקה שלו, הערכים שאנו מאמנים את קלוד לגלם, ומגוון ההתנהגויות שאנו בוחרים להעריך.
מתחילים בגיבוש מוסרי
כאשר כתבנו את החוקה של קלוד, חיפשנו משוב ותובנות לגבי הערכים שהצגנו במסמך מאנשים מתחומים וממסורות שונות. חילופי דברים מוקדמים אלו התפתחו מאז לתחום מחקר רחב יותר בנושא הגיבוש המוסרי של מערכות AI. השיחות הראשונות שלנו נערכו עם אנשים מקהילות דתיות, פילוסופיות ותרבותיות בעלות מסורת ארוכה של חשיבה על מעלות, אופי ומה משמעות חיים טובים.
מודלי AI מאומנים על כמויות עצומות של כתיבה אנושית. מתוך טקסטים אלו, הם לומדים דרכי דיבור, חשיבה וקבלת החלטות. מפתחים מעצבים זאת עוד יותר באמצעות אימון – בוחרים אילו דפוסים לחזק, אילו להניח בצד, ואיזה סוג של אופי אנו רוצים שיתפתח בהם. הדבר מעלה שאלות לגבי אופן עיצוב אופייה של מערכת AI: מה המשמעות של AI 'טוב'? אילו תכונות והתנהגויות עליו להציג, ובאילו נסיבות? כיצד האופי הופך לחזק מספיק כדי לעמוד בלחץ מבלי להיכנע להתנהגויות כמו חנופה?
אנו נפגשים עם הוגים ואנשי מקצוע ממסורות דתיות, פילוסופיות והומניסטיות, וכן ממגוון רחב של אמונות פוליטיות, כדי ללמוד כיצד הם התייחסו לשאלות אלו. עבודה זו אינה נועדה ליישר את המודלים שלנו עם תפיסת עולם של מסורת אחת; אנו רוצים שקלוד ישאב ממגוון מלא של נקודות מבט – דתיות, חילוניות, פוליטיות – בעומק ודיוק שווים (ואכן, זהו אחד העקרונות שנקבעו בחוקה של קלוד). מה שאנו מחפשים בשיחות אלו הוא חשיבה מצטברת וזהירה על האופן שבו אופי טוב נוצר בפועל.
אפילו בשלב מוקדם זה, שיחות אלו מניבות רעיונות לניסויים. במפגש אחד עם חוקרים העוסקים בצומת שבין מדעי המוח לגיבוש אופי, חזרנו שוב ושוב לתפקיד שאנשים אחרים ממלאים בהתפתחות מוסרית. מנטור או נותן חסות יכולים לתפקד כמצפון חיצוני, 'אחר בטוח' שאליו ניתן לפנות כאשר נמצאים במצב שבו עלולים להידחף לפעול בניגוד לערכים האישיים. תהינו האם משהו אנלוגי יכול לסייע למודל.
לכן, ערכנו ניסוי ונתנו לקלוד כלי שבו הוא יכול להשתמש תוך כדי משימה, אשר מחזיר תזכורת קצרה לגבי המחויבויות האתיות שלו. קלוד השתמש בכלי ברגעים קריטיים, ממש לפני פעולות משמעותיות, ולעיתים קרובות ציין ניגוד עניינים מצידו. ניסויים שבהם הכלי שולב בלולאת ההחלטות של קלוד הראו שיעורים נמוכים באופן ניכר של התנהגות לא מיושרת במספר הערכות יישור פנימיות. אנו עדיין מנסים להבין עד כמה ההשפעה נובעת מהתזכורת עצמה לעומת הפעולה של עצירה לצורך התבוננות, ומתכננים לשתף תוצאות נוספות בקרוב.
דיונים אלו הם הראשונים מני רבים, ואנו אסירי תודה לכל מי שכבר הקדיש לנו מזמנו ונקודת מבטו הכנה.
הבא בתור
בחודשים הקרובים, אנו מתכננים לקיים שיח עם קבוצות נוספות – כולל חוקרים משפטיים, פסיכולוגים, סופרים ומוסדות אזרחיים. רבות מהשיחות הללו יחרגו מנושא הגיבוש המוסרי לעבר שאלות רחבות יותר לגבי האופן שבו AI מעצב מחדש עבודה, מוסדות והפצת כוח.
אנו נמשיך להעמיק את הקשרים שכבר יצרנו, לבחון את מה ששמענו אל מול המחקר שלנו, ולשתף את מה שנלמד.



