אנתרופיק הופכת את קלוד לכימאי

תקציר: אנו עובדים עם כימאים סינתטיים, חישוביים ואנליטיים מהשורה הראשונה כדי לשפר את יכולותיו של קלוד בתחום הכימיה. בפוסט זה אנו חולקים את עבודתנו הראשונה במסגרת מאמץ זה, ובה הכימאי דייוויד קמבר (David Kamber) מאנתרופיק בוחן כיצד קלוד מתפקד בניתוח קלט אנליטי נפוץ ביותר עבור כימאים: ספקטרום NMR.

בעבודתם עם מולקולות, כימאים עוברים בין מבנים מצוירים ביד על לוח, קריאות ממכשירים, שאילתות למסדי נתונים וסימונים טכניים בפטנטים ובפרסומים. כל אחת מהייצוגים הללו מקודדת את אותה כימיה בסיסית, אך כל אחת דורשת שטף מסוג אחר. למשל, סקיצה של קפאין מאפשרת לכימאי לזהות את הדמיון שלו לאדנוזין, האות של הגוף לעייפות, ולחזות שהוא שומר אותנו ערניים על ידי חסימת הקולטן. עם זאת, אותה סקיצה לא יכולה לעזור לכימאי להבדיל בינו לבין מולקולות אחרות שנראות כמעט זהות.

הבנה באיזו מולקולה עובד כימאי היא קריטית. כימיה עומדת בבסיס כל דבר, החל מהמזונות והתרופות שאנו צורכים ועד לקרמים, לצבעים ולפלסטיק שלנו. אם מנתבים מחדש קומץ קשרים בין אותם אטומים, גלוקוז הופך לפרוקטוז – מולקולות החולקות נוסחה, אך מעובדות באמצעות מסלולים מטבוליים שונים לחלוטין. אם הופכים מולקולה לתמונת ראי שלה, חומר הרגעה הופך לטרטוגן, כפי שקרה באסון התלידומיד1. העבודה היומיומית של כימאים תלויה בקריאת אותות אלו נכונה, בכל ייצוג שמתאים למשימה נתונה.

התרגום בין ייצוגים אלו (איתור מבנה מתוך תרשים, התאמת קריאת מכשיר לתוצר מוצע, שליפת נתונים ממסד נתונים בסימון הנכון) גוזל זמן ובלתי אפשרי להתמודדות איתו בסקיילינג. CAS, מאגר הכימיה הגדול ביותר, מכיל למעלה מ-290 מיליון חומרים מפורסמים וגדל בכ-15,000 חומרים חדשים מדי יום.

בינה מלאכותית (AI) ממוקמת היטב כדי לקחת על עצמה את עומס המחקר הזה, אך היא עדיין נותרה במידה רבה שאיפה בהקשר של כימיה. כלי למידת מכונה (Machine Learning) מוצבו במשך שנים ככאלה שיכולים לחולל שינוי בתחומים כמו רטרוסינתזה – תהליך העבודה לאחור ממולקולת יעד למולקולות מבשרות פשוטות יותר כדי לתכנן כיצד לבנות אותה – חיזוי תגובות והערכת תכונות. אולם, הנתונים הנדרשים לכלים אלו קשים להשגה: הם דלילים בתוצאות שליליות, לא עקביים בפורמט ונעולים מאחורי חומות תשלום בכתבי עת מנויים (ובמידע תומך לא מובנה). רטרוסינתזה היא דוגמה טובה לכך – כלי AI בעלי יכולת קיימים מזה שנים, אך האימוץ שלהם אינו אחיד, והכימאי הממוצע באקדמיה או במעבדה קטנה עדיין אינו משתמש בהם.

למרות זאת, התקדמויות ב-AI מגיעות סוף סוף לתחום הכימיה. מודלי חזית (frontier models) של היום הם רב-מודאליים (multimodal) ומסוגלים לחשיבה והסקה מפורשת. הם יכולים לקרוא מבנה כימי ישירות מתרשים בכתב עת או מסקיצה ידנית, במקום להסתמך על מסד נתונים מולקולריים שעברו אצור מראש. הם גם יכולים לקרוא את הפרטים הניסיוניים של סעיף שיטות או מידע תומך בצורה שבה הוא פורסם בפועל. בנוסף, הם יכולים להציג את תהליך החשיבה שלהם צעד אחר צעד, מה שמאפשר לכימאי לבדוק את התוצאות. כל זה לא מבטל את בעיית הנתונים שהתחום מתאר מזה שנים, אך זה משנה אילו בעיות ניתנות לפתרון למרות זאת.

בסופו של דבר, טענתנו צנועה: קלוד מתחיל לסייע באופן משמעותי לכימאים בעבודת התרגום, השליפה והאינטגרציה היומיומית, אשר משלימה את שיקול דעתם, ואנו מתכננים להמשיך להרחיב את יעילותו. היום אנו מפרסמים את ה-White Paper הראשון במאמץ זה להאצת העבודה. הוא מתמודד עם הקלט האנליטי הנפוץ ביותר עבור כימאים: ספקטרום NMR.

קלוד מול ChemDraw בחיזוי NMR וזיהוי מבנה


הגרסה המלאה זמינה כאן

כמעט כל מולקולה קטנה – תרופה, חומר הדברה, צבע, חומר ריח, פולימר, יחידת DNA או חלבון, וחומרים אי-אורגניים או מוצקים פונקציונליים – קיימת מכיוון שכימאי קבע את המבנה שלה. בהתחשב בכך שמולקולות אלו אינן ניתנות לצפייה במיקרוסקופים, כימאים חייבים להסתמך על ניתוח ספקטרלי, תוך בדיקת מולקולה עם אור, גלי רדיו או שדות מגנטיים. הדרך שבה מולקולה נתונה סופגת, פולטת או מסיטה אנרגיה זו מעניקה לכימאים תבנית, או ספקטרום, שבאמצעותה הם יכולים לזהות את מבנהה.

ספקטרוסקופיית NMR – אחת הטכניקות הקנוניות שכימאים מסתמכים עליה – היא אחד השלבים הגוזלים זמן הרב ביותר בכימיה סינתטית; עבור כל תרכובת, כימאי צריך להתאים כל שיא בספקטרום לאטום במבנה המוצע באופן ידני. עבור White Paper זה, בדקנו כיצד קלוד התמודד מול תוכנות NMR ייעודיות שכימאים מסתמכים עליהן כיום. מדדנו שלושה מודלים של קלוד (Opus 4.7, Opus 4.6, Sonnet 4.6) מול ChemDraw ו-MestReNova על 20 תרכובות שנלקחו ממאמרי כימיה שפורסמו לאחר מועד סיום האימון של המודלים, כדי למנוע הטיית בחירה. גם ChemDraw וגם MestReNova מבצעות חיזוי קדימה (forward prediction), תוך שימוש במבנה מצויר כדי לדמות איזה ספקטרום NMR ייווצר. בנוסף לחיזוי קדימה, רצינו גם לראות אם קלוד יכול לבצע את המשימה ההפוכה – להתחיל מספקטרום ניסיוני ולהציע את המבנה שמאחוריו. זוהי המשימה הקשה יותר, וזו שתוכנות קיימות משאירות כיום לכימאי.

כדי להגדיר את ההערכה שלנו, שלפנו 20 תרכובות ממאמרי ChemRxiv2 שפורסמו לאחר מועד סיום האימון של המודלים, ולקחנו את המולקולות החדשניות הראשונות שאופיינו במלואן מכל מאמר. 20 התרכובות מתפרשות על פני ארבע משפחות מבניות, חמש תרכובות בכל משפחה, כאשר כל משפחה נבחרה מכיוון שהיא כוללת קטגוריה שונה של אתגר NMR. כל כלי קיבל את המבנה המקודד כמחרוזת SMILES – הסימון הטקסטואלי שכימאים משתמשים בו כדי להזין מולקולה לתוכנה – והתבקש לחזות היכן יפלו כל שיא מימן ופחמן לאורך ספקטרום NMR חד-ממדי (ציר אופקי המודד שינויים כימיים ב-ppm, חלקים למיליון). בהתחשב בכך שדגימות NMR מומסות בנוזל, ושבחירת הממס (כלורופורם, DMSO וכו') מזיזה מעט את מיקומי השיאים, נאמר לכל כלי לחזות את הספקטרום בכל ממס שבו השתמשו הכימאים במאמר שפורסם.

גרף של ארבעת סוגי השלד המבניים
תרשים המציג את ארבע המשפחות המבניות שנבדקו במחקר.

מכיוון שהפלט של מודל שפה גדול (LLM) משתנה בין הרצות שונות, כל מודל של קלוד נשאל שלוש פעמים עבור כל תרכובת וחושב ממוצע; ChemDraw ו-MestReNova מחזירות את אותה תשובה בכל פעם והורצו פעם אחת. לאחר מכן, התאמנו כל שיא חזוי למקבילו הניסיוני ומדדנו את הפער ב-ppm. אלו נפלו בטווח שכימאי יגדיר כנכון – ±0.20 ppm עבור מימן או ±1.0 ppm עבור פחמן.

גרף המסכם את שגיאות MAE/RMSE לכל כלי על פני 20 תרכובות
סיכום ביצועי הכלים השונים במדדי שגיאה (MAE/RMSE) על 20 תרכובות.

בבדיקת מימן, Opus 4.7 היה המדויק ביותר, עם שגיאה ממוצעת של ±0.079 ppm – הרבה מתחת לחצי מטווח הסבילות – והחלק הגבוה ביותר של שיאים שנחתו בתוכו. בבדיקת פחמן, Opus 4.7 ו-MestReNova היו כמעט שווים, ב-±1.37 ו-±1.48 ppm בהתאמה; שאר הכלים שמרו על אותו סדר דירוג בשני היסודות. Opus 4.6 היה בינוני כצפוי, ו-Sonnet 4.6 היה החלש ביותר. הפער ביניהם היה בולט ביותר במימן אחד שקשה במיוחד – פרוטון NH במשפחת הכלורופירידאזין, שמיקומו האמיתי נופל בטווח צר שבין 6.8 ל-7.9 ppm. Opus 4.7 מיקם אותו מעט נמוך אך באופן עקבי; Opus 4.6 פיזר את ניחושיו על פני מספר ppm; Sonnet 4.6 הציב אותו בטווח 10–13, הרחק ממיקומו בפועל.

תרשים המציג דיוק בתוך הטווח לכל תרכובת
דיוק התוצאות לכל תרכובת, בתוך טווח הסבילות המקובל.

בעוד ש-Opus 4.7 הציג ביצועים דומים למדי ל-ChemDraw ו-MestReNova, הפער היה רחב יותר בחיזוי צורת שיא ה-NMR של מימן ובמרחק בין השיאים, תכונות המכילות גם מידע מבני שכימאי קורא לצד המיקום. Opus 4.7 התאים לדפוס הפיצול שדווח בניסוי לעתים קרובות יותר מכל כלי אחר, וכל שלושת מודלי קלוד חזו את מרווח תת-השיאים בטווח של חצי הרץ בכ-80% מהזמן – לעומת 26% עד 35% עבור ChemDraw ו-MestReNova. Opus 4.7 היה גם העקבי ביותר על פני שלוש ההרצות החוזרות שלו: השגיאה הממוצעת שלו השתנתה פחות מהרצה להרצה מאשר המרווח שהפריד בינו לבין הכלי הבא בתור.

משם, הערכנו חיזוי הפוך (זיהוי מבנה): האם נוכל לקבוע את מבנה המולקולה מהספקטרום שלה? נתנו ל-Opus 4.7 15 בעיות זיהוי וביקשנו ממנו, שלוש פעמים כל אחת, להציע עד שלושה מבנים מועמדים מדורגים. לכל בעיה סופקו הנוסחה המולקולרית המדויקת של התרכובת (מתוך ספקטרומטריית מסות ברזולוציה גבוהה) וספקטרומי ה-NMR של מימן ופחמן. חמש עשרה הבעיות חולקו לפי קושי. שמונה המטרות הפשוטות יותר – מולקולות בעלות טבעת יחידה או שני שברים – הוצגו עם הנוסחה והספקטרום בלבד. שבע המטרות המורכבות יותר – טבעות מאוחדות, ספירוציקלים וכדומה – לוּוו ברמז נוסף: מבנה חומר המוצא שנכנס לתגובה.

תרשים המציג את זיהוי המבנה
קלוד זיהה בהצלחה מבנים מורכבים מספקטרום NMR.

Opus 4.7 שחזר בהצלחה את כל שמונת המבנים הפשוטים יותר בכל ניסיון, מתוך ספקטרום ונוסחה בלבד. עבור שבעת היעדים הקשים יותר, בהינתן הרמז על חומר המוצא, הוא החזיר את המבנה הנכון בכל שלוש ההרצות עבור ארבעה מהם, ובשתי הרצות מתוך שלוש עבור הנותרים.

בסופו של דבר, מצאנו כי עבור חיזוי נתונים שגרתי, Opus 4.7 – מודל לשימוש כללי ללא כוונון עדין (fine-tuning) ספציפי לכימיה – טוב כיום בממוצע או עולה על ChemDraw ו-MestReNova. בנוסף, קלוד יכול גם לפתור את הבעיה בכיוון ההפוך, ולהציע מבנה מתוך נתוני NMR בלבד. תוכנות ייעודיות לזיהוי מבנה קיימות מזה עשרות שנים, אך הן דורשות בדרך כלל NMR דו-ממדי (ספקטרום עם שני צירים, והפלט הוא מפת קונטור במקום שורת שיאים), הכשרה מיוחדת וכלים מורשים. קלוד מבצע זאת מתוך אותו ספקטרום מסות ברזולוציה גבוהה ורשימת שיאי NMR חד-ממדית שכימאי ידביק לצ'אט, ללא צורך בהגדרה מוקדמת.

מגבלות

הערכה זו מראה לנו שמודל כללי יכול להיות תחרותי מול תוכנות NMR ואף להפוך זיהוי מבנה הפוך חד-ממדי (1D inverse elucidation) לבר-טיפול. אך קיימות מספר מגבלות ראויות לציון.

  • ראשית, ההערכה הייתה מצומצמת – 20 תרכובות על פני ארבעה שלדים עבור המשימה הישירה, ו-15 עבור המשימה ההפוכה – וכל שלד תורם מחלקה אחת של מצבי כשל. לכן, ביצועי המודל צריכים להיקרא כאינדיקטיביים ולא מדויקים.
  • שנית, ביעדים ההפוכים הצפופים ביותר, ללא חומר המוצא כקלט נוסף, המודל יכול היה לחזור על תהליך החשיבה שלו מבלי להתחייב למבנה סופי; זו הסיבה לכך ששבע הבעיות הקשות יותר הוצגו עם מבנה חומר המוצא ולא עם ספקטרום בלבד.
  • שלישית, כמה שלדים כימיים לא נבדקו. לדוגמה, הטרוארומטים NH עם החלפה איטית (טבעות ארומטיות שבהן N–H מוחלף עם ממס לאט מספיק כדי להותיר שיא NMR חד) נדגמו רק באמצעות כלורופירידאזינים, תוך השמטת מערכות קשורות (הידרוקסיפירידינים, אמינותיאזולים ושלדים אחרים פעילים ב-NH של DMSO-d₆).
  • רביעית, ניסויי דו-ממד (COSY, HSQC, HMBC) וסטריאוכימיה אינם כלולים בעיצוב המחקר, מכיוון ש-NMR חד-ממדי לבדו אינו יכול לקבוע קונפיגורציה. כתוצאה מכך, תרכובות מוצרים טבעיים מורכבים לא הוערכו.
  • ולבסוף, כיסוי הממסים שלנו הוגבל ל-DMSO-d₆, CDCl₃ ו-D₂O, כך שמתנול-d₄, בנזן-d₆ ואצטון-d₆ לא הוערכו.

באופן אידיאלי, היינו רוצים לראות כיצד מספרים אלו עומדים במבחן על פני כמה מאות תרכובות המשתרעות על פני 20–30 מחלקות שלדיות, עם לפחות 15 תרכובות לכל מחלקה, כך שניתן יהיה להפריד את השונות בתוך המחלקה מההבדלים בין הכלים. כמו כן, היינו מעריכים הטרוארומטים פעילים ב-NH מעבר לכלורופירידאזינים, בוחנים את הממסים שלא נבדקו, ומבצעים גרסאות של שתי המשימות המבוססות על ניסויי דו-ממד.

מבט לעתיד

בזמן שאנו ממשיכים לשפר את ביצועי קלוד בכימיה, אנו מתמקדים באופן ספציפי בכמה צווארי בקבוק המאטים את הכימאים ביותר.

  • קריאה והצגה של מבנים כימיים – המרת ציור מתוך תרשים, פטנט, שקף או סקיצה לצורה קריאה למכונה, ומעבר בין ייצוגים מבניים לשמות שיטתיים המשמשים בספרות הכימית.
  • חשיבה והסקה סינתטית ותגובתית – הצעת, הערכת וביקורת מסלולים סינתטיים, צפיית תוצאות וחשיבה על סלקטיביות, תנאים ותוצרי לוואי סבירים.
  • מנגנון – הסבר ובדיקת מנגנוני תגובה בשפה שכימאי משתמש בה בפועל, עם חיצי אלקטרונים, תוצרי ביניים וטיעוני מצב מעבר.
  • הבנת ספרות כימית – קריאת כימיה כפי שהיא מופיעה בעבודות שפורסמו, כאשר אותה מולקולה עשויה להיות מצוירת, נקובה בשם, מקוצרת או מוזכרת על ידי קוד, ושליפת הכימיה החשובה מסעיפי שיטות, מידע תומך ופטנטים.

אלו אינם כולם באותה עקומת בגרות. בעוד שניתוח ספקטרלי מתקדם מספיק כדי לשמש כמדד ביצועים (benchmark), אחרים, כמו תכנון רטרוסינתזה, עדיין נמצאים בשלבי הגדרה. ככל שנבין טוב יותר את צווארי הבקבוק הללו, נשתף היכן מודלים קיימים מצטיינים, והיכן הם עדיין נופלים. מטרתנו הסופית היא לוודא שכימאים עובדים יודעים היכן קלוד יכול לחסוך להם זמן, והיכן הם עדיין צריכים להסתמך על המומחיות שלהם.

עבודה איתנו

אנו מרחיבים את תוכנית ה-AI למדע כדי לתמוך באופן מפורש יותר במחקר כימיה. אם אתם חוקרים העובדים על בעיה שבה קלוד יכול לסייע, במיוחד כזו הכוללת את סוגי החשיבה הרב-מודאלית (multimodal reasoning) שתיארנו, נשמח לשמוע מכם בכתובת scienceblog@anthropic.com, או דרך אפליקציית ה-AI למדע.

הערות שוליים

  1. אירוע שבו תרופה לבחילות בוקר נקשרה למומים מולדים חמורים אצל למעלה מ-10,000 ילדים ברחבי העולם.
  2. ארבעת מאמרי ChemRxiv מהם שלפנו את התרכובות: https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002274/v1, https://chemrxiv.org/doi/full/10.26434/chemrxiv-2025-59lfh, https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002423/v1, https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002316/v1.