נכתב על ידי לורה לובברט (Laura Luebbert). מבוסס על מחקר מאת פרדאוס נסרי (Ferdous Nasri), שרה גורב (Sarah Gurev), פטריק וורילי (Patrick Varilly), קרית'יק ראמש (Krithik Ramesh), נואלה א. או'לירי (Nuala A. O’Leary), ג'ונה קול (Jonah Cool), ברנהרד ו. רנארד (Bernhard Y. Renard), פארדיס סאבטי (Pardis Sabeti) ולורה לובברט.
בפוסט זה, לורה לובברט טוענת כי עלינו להפוך את תשתית הנתונים הביולוגית לידידותית יותר לסוכנים. כמקרה מבחן, היא וצוותה הטילו על סוכני מחקר מדעיים (Claude, Biomni Open Source (Biomni OSS)1, Edison Analysis,2 GPT) לשלוף נתוני רצפים מ-NCBI Virus, מסד נתונים שוירולוגים משתמשים בו למשימות כמו מעקב ופיתוח מבחני אבחון. אפילו המודלים החזקים ביותר לא השיגו באופן עקבי את רמת הדיוק הנדרשת לבניית מערך נתונים אמין. אך הדיוק עלה לכמעט 100% ברגע שהיא וצוותה הוסיפו את gget virus, שכבת שליפה דטרמיניסטית. הלקח הרחב יותר עבור סוכנים מדעיים הוא שכלי שליפה דטרמיניסטיים חיוניים (נכון לעכשיו) כדי להפוך את זרימות העבודה של סוכנים לאמינות יותר, ומסדי נתונים ביולוגיים יצטרכו להיות מתוכננים מתוך מחשבה על סוכנים כמשתמשים בקנה מידה רחב, כדי לאפשר גילויים מדעיים אמינים.
שימוש בסוכני AI כדי לנווט בתשתית נתונים ביולוגית דומה לנהיגה בעיר עתיקה שתוכננה לפני המצאת המכוניות: התשתית אמנם יפה ואף מחושבת, אך היא מלאה ברחובות צרים ומפותלים שקשה לכלי רכב מודרניים לנווט בהם (פורמטים קבצים ייחודיים, מסדי נתונים מפוזרים וסקריפטים חד-פעמיים לשליפה).3 אפשר אומנם להתאים את העיר עם תמרורים, מגרשי חניה וכבישים מורחבים מדי פעם, אך התכנון הבסיסי נותר קשה לניווט מכיוון שהוא תוכנן עבור אמצעי תחבורה אחר. תשתית תוכנה, לעומת זאת, תוכננה בעיקרה עבור צורכי מכוניות (סוכנים): כבישים סלולים, נתיבים ברורים, אותות מתוקננים ומערכות שתוכננו לנסיעה מהירה מההתחלה ועד הסוף (בקרת גרסאות, API מתועדים היטב ומנהלי חבילות).
כתוצאה מכך, סוכני קידוד התקדמו הרבה יותר מהר מסוכנים ביולוגיים. תוכנה מספקת בדרך כלל זרימות עבודה דיגיטליות מובנות וממשקים אמינים, בעוד שתשתית הביולוגיה החישובית הנדרשת לשליפת נתונים ואימותם היא לעיתים קרובות שבירה, הטרוגנית ותלוית תהליכים. הכלים שבהם אנו מנווטים אותם הם בהכרח מותאמים אישית ומכווננים לתחומים או השערות מוגדרים. יתרה מכך, תוכנה מספקת פלטים ניתנים לבדיקה שניתן לקמפל ולאמת במהירות (לדוגמה, פתרון באג ב-GitHub על ידי יצירת תיקון שעובר את בדיקות הפרויקט), בעוד שהביולוגיה מציעה מעט תגמולים פשוטים, ניתנים לאימות ועם זאת משמעותיים.
לפיכך, צוואר הבקבוק עבור סוכנים ביולוגיים אינו רק חשיבה, אלא היעדר שכבות ביצוע דטרמיניסטיות נפוצות לשאילתות על נתונים ביולוגיים. מדען יכול להביע את כוונתו (לדוגמה, מציאת כל הקינאזות האנושיות עם תחום זה ושליפת המבנים שלהם), אך לעיתים קרובות לסוכנים חסרה דרך אמינה לגשת למסדי הנתונים המכילים את המידע שהם זקוקים לו.
בזרימות עבודה ביולוגיות ומדעיות, אפילו טעויות קטנות יכולות להיות בעלות השלכות חמורות. שליפת קואורדינטות מגרסת גנום שגויה, למשל, יכולה לפסול את הפרשנות הביולוגית ההמשכית. כך גם ערבוב רשומות RefSeq ו-GenBank ללא כוונה, התייחסות לגנומים חלקיים כגנומים שלמים, בלבול בשמות מקטעים בנגיפים מקוטעים, או החמצת רשומות רלוונטיות בגלל שדות מטא-דאטה לא עקביים. היופי והאתגר של המחקר טמונים בכך שהפרטים הם לעיתים קרובות בעלי חשיבות מכרעת.
כמו בנהיגה בעיירה איטלקית על גבעה, לא משנה כמה המכונית חזקה אם הרחובות צרים מדי, הפניות חדות מדי והמסלול תלוי בידע מקומי. אם אנו רוצים שסוכנים יסייעו בגילוי מדעי, החל מתגובה להתפרצויות ועד עיצוב תרופות ומידול ביולוגי, עלינו לבנות תשתית נתונים ביולוגית שהם יוכלו לנווט בה באותה מידה של אמינות כמו בני אדם.
מה מלמדת אותנו הרצאתו של קרפתי על פיתוח ווב לגבי עבודה ביולוגית עם סוכני AI
חוסר התאמה זה בין צרכי סוכנים לבין כלים שנבנו על ידי בני אדם אינו ייחודי לביולוגיה. אותו חיכוך מופיע בכל מקום שבו סוכנים מוחדרים לסביבות שתוכננו אך ורק לשימוש אנושי.
לפני מספר חודשים, אנדריי קרפתי (Andrej Karpathy) העביר הרצאה על תוכנה בעידן ה-AI וסיים בטענות שנשמעו מוכרות מדי. הוא קידד אפליקציית ווב קטנה 'לפי וייב', אך כשניסה להפוך אותה למציאותית (אימות, תשלומים, פריסה), הוא בזבז שבוע בלחיצות בלוחות מחוונים בדפדפן.
כפי שסיכם: "הקוד היה החלק הקל ביותר! רוב העבודה הייתה בדפדפן, בלחיצה על דברים." התיעוד המשיך לומר לו "עבור לכתובת URL זו, לחץ על תפריט נפתח זה." מסקנתו הייתה שאף אחד לא צריך לעשות זאת. במקום זאת, עלינו לבנות עבור סוכנים.
קרפתי חווה משהו חדש בעולם סוכני התוכנה שחוקרי ביולוגיה מתמודדים איתו כבר זמן רב: הכאב של ניסיון לגרום למערכות אינטליגנטיות לפעול בסביבות הבנויות סביב מידע הטרוגני, מוסכמות מרומזות, ובני אדם המקליקים בדפדפנים.
מקרה מבחן: מס הקליקים בוירולוגיה
הרבה לפני סוכני AI, ביולוגים חישוביים וגנטיקאים כבר החלו לייצר כלים לביולוגיה חישובית מסורתית, שכרסמו בבעיה זו. חבילות כמו Biopython, BioPerl, BioJulia, Entrez Direct, BioMart, gget ורבות אחרות של ספריות זרימת עבודה, כולן מהוות מאמצים להזיז נתונים ביולוגיים מממשקי דפדפן למקומות שבהם חוקרים יכולים לבצע עליהם חישובים ישירות.
הבעיה היא שנתונים ביולוגיים אינם חיים במסד נתונים יחיד עם ממשק יחיד. זוהי רשת כבישים מבולגנת, שלכל אחד מהם מזהים, מוסכמות, פורמטים, לוגיקת סינון ורמת גישה תכנותית משלו. חלק מהנתונים נגישים בקלות באופן תכנותי. אחרים, פחות.
וירולוגיה, בפרט, היא אחד המקרים הקשים יותר. זרימות עבודה מחקריות, מעיצוב חיסונים ומבחני אבחון ועד בניית נתוני אימון למודלי חלבונים, מתחילות לעיתים קרובות בשליפת רצפים מ-NCBI Virus, אוסף של רשומות רצפים ויראליים מ-GenBank, RefSeq ומערכת INSDC הבינלאומית, כולל Pathoplexus, מאחורי ממשק ווב ניתן לחיפוש. כחוקרים הבונים כלים למעקב אחר התפרצויות ויראליות, אנו יודעים ממקור ראשון כמה ידע מומחה נסתר מאחורי שליפות אלו. במעבדות וירולוגיה, הוראות אוצרות נתונים עבור NCBI Virus מועברות לעיתים קרובות כרשימות ארוכות של פילטרים מורכבים שמשתמשים חייבים לשחזר ידנית בממשק ה-ווב: בדיוק סוג זרימת העבודה מבוססת הקלקה בדפדפן שקרפתי התלונן עליה.
התפרצות מחלת האבולה הנוכחית הנגרמת על ידי נגיף בונדיבוגיו (Bundibugyo) ברפובליקה הדמוקרטית של קונגו היא דוגמה בולטת לכך שגישה יעילה לנתונים ויראליים יכולה להיות בעלת השלכות אמיתיות, של חיים או מוות. ב-14 במאי 2026, INRB קינשסה (Kinshasa) ברפובליקה הדמוקרטית של קונגו ניתחה 13 דגימות דם ואישרה מחלת נגיף הבונדיבוגיו בשמונה מהן למחרת,4 ולאחר מכן הוכרזה התפרצות אבולה. עד 29 במאי, ארגון הבריאות העולמי (WHO) דיווח על למעלה מ-1,000 מקרים מאושרים וחשודים ברפובליקה הדמוקרטית של קונגו, כולל למעלה מ-200 מקרי מוות. חוקרים גם יצרו את הגנומים הכמעט שלמים הראשונים של ההתפרצות, ובכך סייעו לקבוע שההתפרצות נגרמה על ידי אירוע גלישה חדש.
גנומים אלה מציבים בפני פקידי בריאות הציבור שלוש שאלות דחופות. ראשית, עד כמה נגיף ההתפרצות הזה שונה מנגיפי האבולה שנצפו בעבר? שנית, האם אבחונים קיימים עדיין יכולים לזהות אותו? ושלישית, האם טיפולים קיימים עדיין יגנו מפניו? מתן תשובות לשאלות אלו דורש השוואת הגנומים החדשים מול גנומי אבולה היסטוריים הזמינים דרך NCBI Virus ו-Pathoplexus (שמסונכרן לתוך NCBI Virus). אך במקום שזה יהיה ניתן לאוטומציה בקלות, הצעדים הראשונים בניתוח זה כרוכים בהקלקה ידנית בממשק ווב, שחזור פילטרים מורכבים ידנית, ובתקווה שערכת הנתונים המתקבלת תהיה שלמה ונכונה.
הסיבה לכך שזרימת עבודה זו כל כך קשה לאוטומציה היא שרוב לוגיקת הסינון של NCBI Virus קיימת רק בממשק ווב זה. זה מרגיז עבור בני אדם ונורא עבור סוכנים. אם חוקר רוצה כל רצף SARS-CoV-2 ששוחרר ב-2025 ומכיל את הגליקופרוטאין על פני השטח, זה עשוי לדרוש מוירולוג מנוסה מספר קליקים בדפדפן. אבל באופן תכנותי, זה יכול לדרוש סקריפט באורך מאות שורות המדביק יחד מספר API (REST, Datasets, E-utilities), שליפת תוצאות עמוד אחר עמוד, יישוב מזהים, והורדת מאות ג'יגה-בייט של נתונים, רק כדי לזרוק את רובם לאחר סינון מקומי.
אפילו אם למשאב יש API, עדיין יכול להיות קשה לסוכנים להשתמש בו באופן אמין ממגוון סיבות, לדוגמה אם ה-API אינו חושף את אותה סמנטיקת סינון כמו ממשק ה-ווב, אם שדות מטא-דאטה מתועדים בצורה גרועה או לא מתוקננים באופן עקבי, אם מזהים משתנים בין מקורות, או אם "התשובה הנכונה" תלויה במוסכמות שבני אדם מומחים מכירים אך מכונות צריכות להסיק.
מה קורה כשסוכנים מנסים בכל זאת
כדי להבין טוב יותר את האתגר של גישור בין סוכנים למסדי נתונים, פיתחנו מבחן ליכולתם של סוכני מחקר מדעיים חדישים (Claude, Biomni OSS, Edison Analysis, GPT) כאשר הם נדרשים לשלוף רצפים ויראליים מ-NCBI Virus באמצעות התשתית הזמינה כיום. מדד הביצועים שלנו, VirBench, כולל 120 שאילתות רצפים ויראליים ריאליסטיות המשתרעות על פני 40 פתוגנים עם ספירות אמת ידניות מאומתות. השאילתות משקפות משימות המופיעות במעקב ויראלי, עיצוב מבחני אבחון, ובניית נתוני אימון למודלי חלבונים. לדוגמה, שאילתה אחת ביקשה מסוכנים "לשלוף רצפים ויראליים מ-NCBI עבור TaxID 3052462 (Orthoebolavirus zairense (ZEBOV)) העונים לקריטריונים הבאים: אורגניזם מארח: אנוש, מיקום גאוגרפי של איסוף הדגימה: אפריקה, נאסף בתאריך 01/01/2014 או אחריו, נאסף בתאריך 20/06/2014 או לפניו, אורך רצף מינימלי: 15,200 בסיסים, מקסימום 1,900 תווים דו-משמעיים (N), לא לכלול דגימות שעברו מעבר מעבדתי."
כאשר סוכנים נותרו לפתור שאילתות אלו בכוחות עצמם, הביצועים השתנו באופן נרחב בין המערכות והשתפרו משמעותית במודלי חזית חדשים יותר. עם זאת, אפילו המודלים החזקים ביותר לא השיגו באופן עקבי את רמת הדיוק והשחזור הנדרשת לבניית מערך נתונים אמין. Claude Sonnet 4, Claude Opus 4.7, Biomni OSS, Edison Analysis, GPT-5.2-pro ו-GPT-5.55 השיגו דיוק ממוצע הנע בין 16.9% ל-91.3%. עבור משימות שליפת נתונים אלו, הרף הוא למעשה 100%: במקרים מסוימים, רשומה חסרה או שגויה יכולה לקבוע אם מבחן אבחוני נראה כמכסה מגוון מופץ, או אם התפרצות מוערכת כהחלה שבועות מוקדם יותר או מאוחר יותר מכפי שהייתה. בנוסף, אותו מודל הפיק לעיתים קרובות תשובות שונות באופן מהותי כאשר נשאל את אותה שאלה שלוש פעמים, ובכך פגע הן בדיוק והן בשחזוריות הנדרשת לזרימות עבודה מדעיות אמינות. עבור שאילתת האבולה לדוגמה לעיל, Sonnet 46 החזיר 106 רצפים בהרצה אחת (צפוי: 266), 15 בהרצה שנייה, ו-5 בשלישית, למרות שקיבל פרומפט זהה בכל פעם.
לחוסר עקביות מסוג זה יש השלכות על ניתוחים המשכיים. השתמשנו בשאילתה שהוצגה לעיל כדי לשלוף רצפי נגיף אבולה ולבנות עץ פילוגנטי, ניתוח סטנדרטי לשחזור הקשר בין דגימות ויראליות במהלך התפרצות. כמות חשובה שנוכל לקבל מעצים פילוגנטיים היא הזמן המשוער לאב הקדמון המשותף האחרון (TMRCA). זהו תאריך השורש המשוער של התפרצות, שיכול לשנות מסקנות לגבי מתי והיכן נגיף נוצר, וכן כמה זמן נגיף הסתובב. במקרה זה, עץ שנבנה ממערך רצפי NCBI Virus שאורגן ידנית שחזר TMRCA של ינואר 2014, עקבי עם דיווחים קודמים (צפיפות אקסטריורית עליונה של 95% משתרעת על פני 27 בינואר עד 14 במרץ) להתפרצות האבולה ב-2014. לעומת זאת, שניים משלושת מערכי הרצפים שנשלפו על ידי Sonnet 4 היו לא שלמים בעליל, כולל עץ אחד שדחף את ה-TMRCA המשוער אחורה ל-1922. מערך הנתונים הנותר (הרצה 1) נראה סביר על פני השטח, אך לא הצליח לשלוף רצפים מגינאה והזיז את ה-TMRCA המשוער לאפריל 2014, ובכך שינה את העיתוי המשוער של ההתפרצות.

השונות בין ניסיונות שליפה מ-NCBI Virus יכולה גם להשפיע על מסקנות לגבי טיפולים תרופתיים. שלפנו רצפי גליקופרוטאין של נגיף האבולה כדי לבחון את האפיטופים הנקשרים על ידי מאפטיבימאב (maftivimab) ו-MBP134, טיפולים תרופתיים מבוססי נוגדנים שפותחו נגד נגיף אבולה מזן זאיר ומועמדים לטיפול בעדיפות עליונה של WHO בהתפרצות האבולה המתמשכת. שאלנו האם מוטציות הופיעו בעבר באזורים שאותם נוגדנים אלה תוקפים ברצפי נגיף אבולה מזן זאיר קשורים. ניתוח מסוג זה יכול לתת לחוקרים מושג האם טיפול ימשיך להגן על חולים ככל שהנגיף מתפתח. אם הרצפים הבסיסיים אינם שלמים או נשלפו באופן שגוי, זה יכול לשבש את מסקנתם. בדוגמה שלנו, רצפים שנשלפו על ידי Sonnet 4 התקרבו לתוצאות שהתקבלו באמצעות שאילתת NCBI ידנית בניסיון הראשון. בהרצה חוזרת, הוא פספס את רוב השיירים המוטנטים. ובהרצה השלישית, הוא הדגיש סט שונה של שיירים, יצר שלושה רשמים שונים של השונות באזורי יעד אלו.7

שתי הדוגמאות הללו ממחישות דפוס רחב יותר במדע: פרטים שנראים כבחירות שליפה מינוריות יכולים לשנות את המסקנה הביולוגית. במקרה זה, ביצועי המודל הלא עקביים בשליפת רצפים ויראליים ואופי מצבי הכשל הדגישו כי רוב השונות יוחסה לכשלים בתשתית. סוכנים ספרו פחות מהנדרש כאשר לא הצליחו לשלוף מערכי תוצאות גדולים, וספרו יותר מהנדרש כאשר פילטרים הוחלו באופן שגוי. לדוגמה, הסטיות הגדולות ביותר מהספירות הצפויות התרחשו עבור נגיפים עם מספר רב של רשומות זמינות, כולל Influenza A, HIV-1 ו-SARS-CoV-2, כאשר עצירה באמצע השליפה וסינון שגוי בהמשך הדרך יכולים לעוות באופן מהותי את מערך הנתונים הסופי. הם גם התקשו עם שדות מטא-דאטה שמשמעותם תלויה בהקשר, במוסכמה, או במקום שבו המידע מאוחסן. הביצועים ירדו ככל שהשאילתות הפכו מורכבות יותר, במיוחד מעבר לשלושה או ארבעה פילטרים בו-זמנית.
בסופו של דבר, הסוכנים הבינו לעיתים קרובות את המשימה מספיק טוב כדי לנסות אותה, אך חסרה להם דרך ניתנת לפעולה מכונה לבצע אותה, לוודא אותה ולחזור עליה. התשובות שהתקבלו יכלו להיראות סבירות אך עדיין היו שגויות, וזה מסוכן במיוחד מכיוון ששליפת רצפים היא בדרך כלל השלב הראשון בזרימת עבודה ביולוגית ארוכה בהרבה.
שכבה דטרמיניסטית לשליפת נתונים ויראליים
להסבר מקיף יותר על VirBench ועל gget virus, קראו את קדם-ההדפסה.
כדי להפוך שליפת נתונים ויראליים למשהו שסוכנים ובני אדם יכולים לקרוא ישירות, פיתחנו את gget virus בשיתוף פעולה עם חוקרים ב-NCBI. בתחילה, זה נראה כעניין פשוט של התחברות לקריאות ה-API הנכונות. בפועל, זה היה קשה הרבה יותר: NCBI Virus הוא פורטל מעל משאבים בסיסיים מרובים, כולל מסדי נתונים של רצפים מסונכרנים בינלאומית המתוחזקים ברחבי ארצות הברית, אירופה ויפן, כך שמתן תשובה לשאילתה שנראית פשוטה דורש לעיתים קרובות הרכבת מידע ממספר מקומות.
כדי לשחזר את התנהגות ממשק ה-ווב של NCBI Virus, gget virus צריך לתאם בין המערכות השונות שמתחתיו, כולל ה-REST, Datasets, ו-E-utilities APIs. gget virus מחליט אילו פילטרים ניתן להחיל באמצעות ה-API הקיימים הללו ואילו יש לבדוק מקומית מכיוון שממשק ה-ווב חושף התנהגות סינון שאינה זמינה מנקודת קצה תכנותית אחת. הוא מטפל באצווה כך שמערכי תוצאות גדולים, כמו עבור מערכי נתונים של SARS-CoV-2 ו-Influenza A, נשלפים באופן מקיף ולא נקטעים באופן שרירותי. כאשר הסינון תלוי במידע נוסף המאוחסן במסד נתונים נפרד, כגון רשומות GenBank המציינות אם רצף מכיל חלבון ויראלי מסוים, gget virus שולף את הרשומות הללו, משתמש בהן כדי להחיל את הפילטרים, ושומר את המידע הרלוונטי של GenBank בפלט הסופי. לאחר מכן הוא מחזיר פלטים מתוקננים שניתנים לקריאה הן על ידי אנשים והן על ידי מכונות, עם יומנים מפורטים המראים כיצד הופקה התוצאה הסופית.8

כאשר נתנו לסוכנים גישה ל-gget virus, הדיוק עלה מעל 90% עבור כל הסוכנים, והגיע לשיא של 99.7% עבור GPT-5.5. השונות בין הרצות בוטלה ברובה, ופער הביצועים בין המודלים הצטמצם באופן דרמטי. במילים אחרות, הוספת שכבת שליפה דטרמיניסטית הפכה את בחירת המודל לפחות חשובה בהרבה. זה משמעותי במיוחד בהתחשב בכך שבניית מערך נתונים אמין לא צריכה להיות תלויה בגישה למודל החדש ביותר או היקר ביותר, או בידיעה איזה מודל עובד הכי טוב עבור מסד נתונים נתון. במקום זאת, מודלים זולים יותר המשולבים עם הכלי הנכון מפחיתים שונות ומאפשרים גישה רחבה יותר.
gget virus הופך סוכנים קיימים לאמינים יותר לשליפת נתונים ויראליים על ידי תרגום זרימת עבודה מורכבת מבוססת דפדפן לשליפת נתונים לממשק מדויק וניתן לשחזור. אם נחזור לאנלוגיית העיר ההליכתית שלנו, זה כאילו הוספנו מנהרת כביש מהיר מתחת לתשתית הולכי הרגל, עם רמפות עלייה וירידה, מחלפים זורמים, ומספרי יציאה הקשורים לסימוני קילומטר ידועים.
כפי שאמר קרפתי: "הפכו את [הנתונים הגנומיים] לנגישים לסוכנים"
אנו רוצים שמודלים יהיו יצירתיים כאשר הם מייצרים השערות, מתכננים ניסויים, או מסיקים לגבי מנגנונים. אבל השכבה שמתחת ליצירתיות הזו – מזהי גנים, סכמות, לוגיקת שליפה, מערכות קואורדינטות, מוסכמות מטא-דאטה, ונתיבי גישה לנתונים – חייבת להיות אמינה עד כדי שעמום (או במילים אחרות, דטרמיניסטית). gget virus הוא דוגמה אחת מתוך קבוצה רחבה יותר של מאמצים לבנות את מנועי ההקשר הללו: תשתית אמינה ונגישה לסוכנים עבור נתונים ביולוגיים. מאמצים אחרים צצים ממערכות AI למדע, רבות מהן מסתמכות על רתמות מודל המחברות סוכנים למקורות נתונים ביולוגיים, כולל ToolUniverse, Robin של Edison Scientific, Biomni, וסוכנים ביו-רפואיים קשורים. האתגר הוא להבין היכן הדטרמיניזם הזה שייך וכיצד לבנות אותו.
עבודה על מחברים ורתמות הופכת למורכבת יותר כאשר אנו בוחנים כמה מהר יכולות המודל משתנות. אם נמתח את עקומת המודל קדימה מהתוצאות לעיל, קל לדמיין עתיד (קרוב מאוד) שבו התועלת של כלים כמו gget virus מתקרבת לאפס: סוכנים יהיו מספיק טובים כדי לנווט בפורטלים מבולגנים, ליישב מזהים, לחלק לדפים נכון, ולהתאושש מכשלים בעצמם. בעולם כזה, ייתכן שרתמות לא יהיו נחוצות. עם זאת, גם אם סוכן יכול לעשות זאת, זה לא אומר שהמשימה צריכה להיות מטופלת (ומומצאת מחדש) על ידי סוכן בכל פעם. מודל שיכול לפלס את דרכו דרך זרימת עבודה ביו-אינפורמטית מבלבלת עדיין עשוי להיות יקר מדי, איטי מדי, קשה מדי לביקורת, או קשה מדי לבטוח בו לעבודה מדעית שגרתית. ואם סוכנים אכן יהפכו בסופו של דבר את הרתמות של היום למיושנות, הלקח למסדי נתונים ביולוגיים נשאר תקף: עלינו לשמור על סוכנים בראש כשאנו חושבים על המשתמשים שלנו, ועלינו לבנות עבור סקיילינג.
תודות
אנו מודים לאלכסנדר בלויט (Xander Balwit), איתן דאייר (Ethan Dyer), סטיוארט ריצ'י (Stuart Ritchie), רבקה היסקוט (Rebecca Hiscott), אליסה מורו (Alyssa Morrow), קיר בראדוול (Keir Bradwell), אריק קאודרר-אברמס (Eric Kauderer-Abrams), ג'ונה קול, אנדריי קרפתי, פטריק וורילי, סזאר ארז (Cesar Arze), בלייק לש (Blake Lash), פילין גוקלברגר (Philine Guckelberger), נישה גופאל (Nisha Gopal), אליוט הרשברג (Elliot Hershberg), פארדיס סאבטי וג'ונתן פלדמן (Jonathan Feldman) על המשוב המעמיק, העריכות המוקפדות והשיחות המועילות ששיפרו מאמר זה.
אנו אסירי תודה במיוחד לשרה גורב וגיג' מורנו (Gage Moreno) על עזרתם בפיתוח וביצוע ניתוחי הוירולוגיה לדוגמה, ולפרדאוס נסרי וקרית'יק ראמש, שתרמו תרומות משמעותיות לרעיונות, למסגור ולכתיבת מאמר זה.
הערות שוליים
- Biomni Open Source (Biomni OSS) מתייחס לגרסת קוד פתוח של Biomni (https://github.com/snap-stanford/Biomni, v0.0.8) עם Claude Sonnet 4 כמודל שפה גדול (LLM) הבסיסי. הוא אינו משקף את הביצועים של מוצר Biomni Lab מבית Phylo.
- הוערך ב-26 בפברואר 2026.
- להסבר מעמיק יותר מדוע תוכנה ביולוגית לעיתים קרובות מרגישה מפוצלת, לא מתוחזקת מספיק וקשה לשימוש, ראו את המאמר של אליוט הרשברג (Elliot Hershberg) "כיצד תוכנה במדעי החיים באמת עובדת (וכיצד היא לא עובדת)".
- אנו מכירים ומודים לצוותים במכון הלאומי למחקר ביו-רפואי (INRB) ברפובליקה הדמוקרטית של קונגו ובמעבדה המרכזית לבריאות הציבור (CPHL) באוגנדה על הריצוף המהיר, הניתוח, ושיתוף פתוח של גנומי נגיף בונדיבוגיו ראשוניים במהלך התפרצות מאי 2026.
- באחת מ-360 הרצות (שאילתה 32, חזרה שלישית), GPT-5.5 זיהה והשתמש באופן עצמאי ב-gget virus, למרות שלא קיבל פרומפט מפורש לעשות זאת. זו הייתה ההרצה היחידה לשאלה זו שהפיקה את התשובה הנכונה.
- Claude Sonnet 4 מייצג את מודל אנתרופיק הזמין לציבור האחרון שניתן להשתמש בו להערכה זו, בשל הגבלות גישה מאוחרות יותר הקשורות לבטיחות ביולוגית על מודלים חדשים יותר.
- כל הניתוחים שבוצעו כאן ניתנים למטרות המחשה בלבד ואינם מיועדים לספק הנחיות רפואיות או לבריאות הציבור; להמלצות טיפול במחלת האבולה, אנא עיינו בהנחיות הרשמיות של WHO.
- כדי להדהד נקודה שנילס הומר העלה לאחרונה לגבי כלי ביו-אינפורמטיקה מוכנים ל-AI: "עוזרי AI צריכים לעבוד עם הקוד שלכם, הפלטים שלכם והלוגיקה האנליטית שלכם." זה מאפשר לסוכנים לבדוק לא רק מה נשלף, אלא גם איך הוא נשלף, ולהפוך תשובה שנראית סבירה למשהו שניתן לבדוק ולשחזר.



