• עדכון בנוגע ליכולת החשיבה המורחבת (Extended Thinking)
    15 בדצמבר 2025
    יכולות החשיבה המורחבת השתפרו מאז השקתן הראשונית, כך שאנו ממליצים להשתמש בתכונה זו במקום בכלי ה-'think' הייעודי ברוב המקרים. חשיבה מורחבת מספקת יתרונות דומים – מתן מרחב לקלוד לבצע חשיבה על בעיות מורכבות – עם שילוב וביצועים טובים יותר. ראו את תיעוד החשיבה המורחבת שלנו לפרטי יישום.

עדכון בנוגע ליכולת החשיבה המורחבת

15 בדצמבר 2025

יכולות החשיבה המורחבת השתפרו מאז השקתן הראשונית, כך שאנו ממליצים להשתמש בתכונה זו במקום בכלי ה-'think' הייעודי ברוב המקרים. חשיבה מורחבת מספקת יתרונות דומים – מתן מרחב לקלוד לבצע חשיבה על בעיות מורכבות – עם שילוב וביצועים טובים יותר. ראו את תיעוד החשיבה המורחבת שלנו לפרטי יישום.

ככל שאנו ממשיכים לשפר את יכולות פתרון הבעיות המורכבות של קלוד, גילינו גישה יעילה במיוחד: כלי "think" היוצר מרחב ייעודי לחשיבה מובנית במהלך משימות מורכבות.

טכניקה פשוטה אך עוצמתית זו – אשר, כפי שנסביר בהמשך, שונה מיכולת ה-"extended thinking" החדשה של קלוד (ראו כאן לפרטי יישום של extended thinking) – הביאה לשיפורים יוצאי דופן ביכולת השימוש הסוכני בכלים של קלוד. זה כולל ציות למדיניות, קבלת החלטות עקביות וטיפול בבעיות מרובות שלבים, כל זאת עם עלות יישום מינימלית.

בפוסט זה, נחקור כיצד ליישם את כלי ה-"think" ביישומים שונים, ונחלוק הנחיות פרקטיות למפתחים המבוססות על תוצאות מדדי ביצועים מאומתים.

מהו כלי ה-"think"?

באמצעות כלי ה-"think", אנו מעניקים לקלוד את היכולת לכלול שלב חשיבה נוסף – עם מרחב ייעודי משלו – כחלק מההגעה לתשובתו הסופית.

בעוד שזה נשמע דומה לחשיבה מורחבת (extended thinking), מדובר במושג שונה. חשיבה מורחבת עוסקת במה שקלוד עושה לפני שהוא מתחיל לייצר תגובה. עם חשיבה מורחבת, קלוד שוקל לעומק ומשפר את תוכניתו לפני נקיטת פעולה. כלי ה-"think" נועד עבור קלוד, ברגע שהוא מתחיל לייצר תגובה, כדי להוסיף שלב לעצור ולחשוב האם יש לו את כל המידע הדרוש כדי להמשיך. זה מועיל במיוחד בעת ביצוע שרשראות ארוכות של קריאות כלים או בשיחות ארוכות ומרובות שלבים עם המשתמש.

זה הופך את כלי ה-"think" למתאים יותר למקרים שבהם לקלוד אין את כל המידע הדרוש לניסוח תגובתו משאילתת המשתמש בלבד, ושבהם הוא צריך לעבד מידע חיצוני (לדוגמה: מידע בתוצאות קריאת כלים). ההסקה שקלוד מבצע באמצעות כלי ה-"think" פחות מקיפה מזו שניתן להשיג באמצעות חשיבה מורחבת, והיא מתמקדת יותר במידע חדש שהמודל מגלה.

אנו ממליצים להשתמש בחשיבה מורחבת לתרחישי שימוש פשוטים יותר בכלים, כמו קריאות כלים לא רציפות או ביצוע הוראות פשוטות. חשיבה מורחבת שימושית גם למקרי שימוש, כמו קידוד, מתמטיקה ופיזיקה, כאשר אין צורך שקלוד יקרא לכלים. כלי ה-"think" מתאים יותר כאשר קלוד צריך לקרוא לכלים מורכבים, לנתח בזהירות את פלטי הכלים בשרשראות ארוכות של קריאות כלים, לנווט בסביבות עתירות מדיניות עם הנחיות מפורטות, או לקבל החלטות סדרתיות שבהן כל שלב בונה על קודמיו וטעויות הן יקרות.

להלן דוגמת יישום המשתמשת בפורמט מפרט הכלים הסטנדרטי המגיע מ-τ-Bench:

{
  "name": "think",
  "description": "Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
  "input_schema": {
    "type": "object",
    "properties": {
      "thought": {
        "type": "string",
        "description": "A thought to think about."
      }
    },
    "required": ["thought"]
  }
}

ביצועים על τ-Bench

הערכנו את כלי ה-"think" באמצעות τ-bench (טא-בנץ'), מדד ביצועים מקיף שנועד לבחון את יכולת המודל להשתמש בכלים בתרחישי שירות לקוחות ריאליסטיים, כאשר כלי ה-"think" הוא חלק מהסביבה הסטנדרטית של ההערכה.

τ-bench מעריך את יכולתו של קלוד:

  • לנווט בשיחות ריאליסטיות עם משתמשים מדומים
  • לציית באופן עקבי להנחיות מדיניות מורכבות של סוכן שירות לקוחות
  • להשתמש במגוון כלים לגישה ולתמרון בבסיס הנתונים של הסביבה

מדד ההערכה העיקרי המשמש ב-τ-bench הוא pass^k, המודד את ההסתברות שכל k ניסויי משימה עצמאיים יצליחו עבור משימה נתונה, בממוצע על פני כל המשימות. בניגוד למדד pass@k הנפוץ להערכות LLM אחרות (המודד אם לפחות אחד מתוך k ניסויים מצליח), pass^k מעריך עקביות ואמינות – תכונות קריטיות ליישומי שירות לקוחות שבהם הקפדה עקבית על מדיניות היא חיונית.

ניתוח ביצועים

ההערכה שלנו השוותה מספר תצורות שונות:

  1. קו בסיס (ללא כלי "think", ללא מצב חשיבה מורחבת)
  2. מצב חשיבה מורחבת בלבד
  3. כלי "think" בלבד
  4. כלי "think" עם פרומפט ממוטב (לתחום התעופה)

התוצאות הראו שיפורים דרמטיים כאשר Claude 3.7 השתמש ביעילות בכלי ה-"think" הן בתחומי שירות הלקוחות "תעופה" והן "קמעונאות" של מדד הביצועים:

  • תחום התעופה: כלי ה-"think" עם פרומפט ממוטב השיג ציון של 0.570 במדד pass^1, בהשוואה ל-0.370 בלבד לקו הבסיס – שיפור יחסי של 54%;
  • תחום הקמעונאות: כלי ה-"think" בלבד השיג 0.812, בהשוואה ל-0.783 לקו הבסיס.

ביצועי Claude 3.7 Sonnet בתחום "תעופה" בהערכת Tau-Bench

הביצועים הטובים ביותר בתחום התעופה הושגו על ידי שילוב כלי ה-"think" עם פרומפט ממוטב המספק דוגמאות לסוגי גישות ההסקה שיש להשתמש בהן בעת ניתוח בקשות לקוחות. להלן דוגמה לפרומפט הממוטב:

## Using the think tool

Before taking any action or responding to the user after receiving tool results, use the think tool as a scratchpad to:
- List the specific rules that apply to the current request
- Check if all required information is collected
- Verify that the planned action complies with all policies
- Iterate over tool results for correctness 

Here are some examples of what to iterate over inside the think tool:
<think_tool_example_1>
User wants to cancel flight ABC123
- Need to verify: user ID, reservation ID, reason
- Check cancellation rules:
  * Is it within 24h of booking?
  * If not, check ticket class and insurance
- Verify no segments flown or are in the past
- Plan: collect missing info, verify rules, get confirmation
</think_tool_example_1>

<think_tool_example_2>
User wants to book 3 tickets to NYC with 2 checked bags each
- Need user ID to check:
  * Membership tier for baggage allowance
  * Which payments methods exist in profile
- Baggage calculation:
  * Economy class × 3 passengers
  * If regular member: 1 free bag each → 3 extra bags = $150
  * If silver member: 2 free bags each → 0 extra bags = $0
  * If gold member: 3 free bags each → 0 extra bags = $0
- Payment rules to verify:
  * Max 1 travel certificate, 1 credit card, 3 gift cards
  * All payment methods must be in profile
  * Travel certificate remainder goes to waste
- Plan:
1. Get user ID
2. Verify membership level for bag fees
3. Check which payment methods in profile and if their combination is allowed
4. Calculate total: ticket price + any bag fees
5. Get explicit confirmation for booking
</think_tool_example_2>

מה שמעניין במיוחד הוא ההשוואה בין הגישות השונות. שימוש בכלי ה-"think" עם הפרומפט הממוטב השיג תוצאות טובות באופן משמעותי על פני מצב חשיבה מורחבת (שהראה ביצועים דומים לכלי ה-"think" ללא פרומפט). שימוש בכלי ה-"think" לבדו (ללא פרומפטינג) שיפר את הביצועים לעומת קו הבסיס, אך עדיין נפל מהגישה הממוטבת.

השילוב של כלי ה-"think" עם פרומפטים ממוטבים הניב את הביצועים החזקים ביותר בפער משמעותי, ככל הנראה עקב המורכבות הגבוהה של מדיניות התעופה בחלק ממדד הביצועים, שם המודל נהנה ביותר מקבלת דוגמאות לאופן "החשיבה".

בתחום הקמעונאות, בדקנו גם תצורות שונות כדי להבין את ההשפעה הספציפית של כל גישה.

ביצועי Claude 3.7 Sonnet בתחום "קמעונאות" בהערכת Tau-Bench

כלי ה-"think" השיג את ציון pass^1 הגבוה ביותר של 0.812 גם ללא פרומפטינג נוסף. מדיניות הקמעונאות קלה יותר לניווט בהשוואה לתחום התעופה, וקלוד הצליח להשתפר רק על ידי קבלת מרחב לחשוב ללא הנחיות נוספות.

תובנות מפתח מניתוח τ-Bench

הניתוח המפורט שלנו חשף מספר דפוסים שיכולים לעזור לך ליישם את כלי ה-"think" ביעילות:

  1. לפרומפטים יש חשיבות משמעותית בתחומים קשים. עצם הפיכת כלי ה-"think" לזמין עשויה לשפר את הביצועים במידה מסוימת, אך שילובו עם פרומפטים ממוטבים הניב תוצאות טובות באופן דרמטי בתחומים קשים. עם זאת, תחומים קלים יותר עשויים להפיק תועלת מעצם הגישה ל-"think".
  2. עקביות משופרת בין ניסויים. השיפורים משימוש ב-"think" נשמרו עבור pass^k עד k=5, מה שמצביע על כך שהכלי עזר לקלוד לטפל במקרי קצה ותרחישים יוצאי דופן בצורה יעילה יותר.

ביצועים על SWE-Bench

כלי "think" דומה נוסף להגדרת SWE-bench שלנו בעת הערכת Claude 3.7 Sonnet, ותרם לציון שיא של 0.623. הגדרת כלי ה-"think" המותאמת ניתנת להלן:

{
  "name": "think",
  "description": "Use the tool to think about something. It will not obtain new information or make any changes to the repository, but just log the thought. Use it when complex reasoning or brainstorming is needed. For example, if you explore the repo and discover the source of a bug, call this tool to brainstorm several unique ways of fixing the bug, and assess which change(s) are likely to be simplest and most effective. Alternatively, if you receive some test results, call this tool to brainstorm ways to fix the failing tests.",
  "input_schema": {
    "type": "object",
    "properties": {
      "thought": {
        "type": "string",
        "description": "Your thoughts."
      }
    },
    "required": ["thought"]
  }
}

הניסויים שלנו (n=30 דגימות עם כלי "think", n=144 דגימות ללא) הראו כי ההשפעות המבודדות של הכללת כלי זה שיפרו את הביצועים ב-1.6% בממוצע (מבחן t של Welch: t(38.89) = 6.71, p < .001, d = 1.47).

מתי להשתמש בכלי ה-"think"

בהתבסס על תוצאות הערכה אלו, זיהינו תרחישים ספציפיים שבהם קלוד מפיק את מירב התועלת מכלי ה-"think":

  1. ניתוח פלט כלי. כאשר קלוד צריך לעבד בזהירות את הפלט של קריאות כלים קודמות לפני נקיטת פעולה ועשוי להזדקק לחזור בו מגישתו;
  2. סביבות עתירות מדיניות. כאשר קלוד צריך לציית להנחיות מפורטות ולאמת עמידה במגבלות; ו-
  3. קבלת החלטות סדרתיות. כאשר כל פעולה בונה על קודמותיה וטעויות הן יקרות (נפוץ בתחומים מרובי שלבים).

שיטות עבודה מומלצות ליישום

כדי להפיק את המרב מכלי ה-"think" עם קלוד, אנו ממליצים על שיטות היישום הבאות בהתבסס על ניסויי τ-bench שלנו.

1. פרומפטינג אסטרטגי עם דוגמאות ספציפיות לתחום

הגישה היעילה ביותר היא לספק הוראות ברורות מתי וכיצד להשתמש בכלי ה-"think", כגון זו ששימשה עבור תחום התעופה ב-τ-bench. מתן דוגמאות המותאמות למקרה השימוש הספציפי שלך משפר באופן משמעותי את יעילות השימוש של המודל בכלי ה-"think":

  • רמת הפירוט הצפויה בתהליך ההסקה;
  • כיצד לפרק הוראות מורכבות לשלבים ברי ביצוע;
  • עצי החלטה לטיפול בתרחישים נפוצים; ו-
  • כיצד לבדוק אם כל המידע הדרוש נאסף.

2. הצבת הנחיות מורכבות ב-System Prompt

מצאנו כי, כאשר ההוראות היו ארוכות ו/או מורכבות, הכללת הוראות לגבי כלי ה-"think" ב-System Prompt הייתה יעילה יותר מאשר הצבתן בתיאור הכלי עצמו. גישה זו מספקת הקשר רחב יותר ועוזרת למודל לשלב טוב יותר את תהליך החשיבה בהתנהגותו הכוללת.

מתי לא להשתמש בכלי ה-"think"

בעוד שכלי ה-"think" יכול להציע שיפורים משמעותיים, הוא אינו ישים לכל מקרי השימוש בכלים, והוא כרוך בעלות של אורך פרומפט מוגדל וטוקנים נוספים בפלט. באופן ספציפי, מצאנו שכלי ה-"think" אינו מציע שיפורים במקרי השימוש הבאים:

  1. קריאות כלים לא סדרתיות. אם קלוד צריך לבצע רק קריאת כלי אחת או מספר קריאות מקבילות כדי להשלים משימה, אין צורך בשיפורים מתוספת "think".
  2. ביצוע הוראות פשוטות. כאשר אין אילוצים רבים שקלוד צריך לדבוק בהם, והתנהגות ברירת המחדל שלו מספיק טובה, אין סיכוי לרווחים מחשיבה נוספת ("think").

תחילת עבודה

כלי ה-"think" הוא תוספת פשוטה ליישום קלוד שלך שיכולה להניב שיפורים משמעותיים בכמה שלבים בלבד:

  1. בדוק בתרחישי שימוש סוכני בכלים. התחל עם מקרי שימוש מאתגרים – כאלה שבהם קלוד מתקשה כרגע בציות למדיניות או בהסקה מורכבת בשרשראות ארוכות של קריאות כלים.
  2. הוסף את הגדרת הכלי. יישם כלי "think" המותאם לתחום שלך. הוא דורש קוד מינימלי אך מאפשר הסקה מובנית יותר. שקול גם לכלול הוראות מתי וכיצד להשתמש בכלי, עם דוגמאות הרלוונטיות לתחום שלך, ל-System Prompt.
  3. נטר ודייק. עקוב אחר אופן השימוש של קלוד בכלי בפועל, וכוונן את הפרומפטים שלך כדי לעודד דפוסי חשיבה יעילים יותר.

החלק הטוב ביותר הוא שתוספת כלי זה כרוכה בסיכון מינימלי מבחינת תוצאות ביצועים. הוא אינו משנה התנהגות חיצונית אלא אם קלוד מחליט להשתמש בו, ואינו מפריע לכלים או לזרימות העבודה הקיימות שלך.

סיכום

המחקר שלנו הוכיח כי כלי ה-"think" יכול לשפר משמעותית את ביצועי Claude 3.7 Sonnet1 במשימות מורכבות הדורשות עמידה במדיניות והסקה בשרשראות ארוכות של קריאות כלים. "Think" אינו פתרון יחיד המתאים לכולם, אך הוא מציע יתרונות משמעותיים למקרי השימוש הנכונים, וכל זאת עם מורכבות יישום מינימלית.

אנו מצפים לראות כיצד תשתמשו בכלי ה-"think" כדי לבנות מערכות AI בעלות יכולת רבה יותר, אמינות ושקופות יותר עם קלוד.

1. בעוד שתוצאות τ-Bench שלנו התמקדו בשיפור של Claude 3.7 Sonnet עם כלי ה-"think", הניסויים שלנו מראים שגם Claude 3.5 Sonnet (New) מסוגל להשיג רווחי ביצועים עם אותה תצורה כמו 3.7 Sonnet, מה שמצביע על כך ששיפור זה הכללי למודלי קלוד אחרים.