לפני מספר ימים פרסמתי פוסט המבשר על השחרור הקרב ובא של GPT 5. ביחס לדקות הספורות שהשקעתי בכתיבה שלו - זה כנראה הפוסט שקיבל הכי הרבה לייקים והתעניינות… מה שאומר דבר פשוט אחד: GPT 5 מעניין את הציבור כאן, וכמו שכתבתי - לפניכם הסקירה המלאה:

מה יש ב-GPT-5?

לפני שנעבור לנתונים, הנה סקירה קצרה:

GPT 5 נועד לסדר את הבאלגן בדגמים השונים של OpenAI. לא עוד o3-4o-o4-mini וכו’, אלא סדרה אחת תחת השם GPT 5. המודל החדש עדיין יכלול תתי מודלים, כמו GPT 5 mini, GPT 5 pro ו-GPT 5 thinking. אך הבחירה ביניהם תהיה הרבה יותר ברורה.

אחד השיפורים המשמעותיים במודל החדש, היא שילוב של נתב אוטומטי, שבוחר את הדגם הרצוי בהתאם לשאילתא. דגם “טיפש” יותר לשאילתות פשוטות, וחכם יותר לשאילתות מורכבות.

זה מהווה שינוי נהדר עבור רוב מוחלט מהצרכנים של צ’אט GTP, שלא מכירים ויודעים יותר מידי, וכל תוספת או בחירה של דגמים רק מסבכת אותם. עבור המשתמשים המתקדמים מדובר על חיסרון מסויים, אך סם אלטמן הבטיח להוסיף בחירה ברורה ושקופה יותר בין הדגמים עבור המשתמשים החזקים.

על אלו נתונים צריך להסתכל?

הפעם, פחות אתמקד במדדים המלאים, כי לדעתי הם פחות חשובים, אלא אתמקד במה שבאמת חשוב באירוע.

היו הרבה דיבורים על זה שההתקדמות בין GPT 4 ל-GPT 5, היא יחסית מינורית, והרבה פחות משמעותית מההתקדמות בין GPT 3 ל-4. ואם לומר את האמת? הנתונים שפורסמו באמת קצת מאכזבים.

אמנם ישנה התקדמות מכובדת במספר מדדים משמעותיים, ואפילו קפיצות לא מעטות, למשל בבחינה האחרונה של האנושות, אך במובנים רבים הוא לא טוב בהרבה מהמתחרים כמו גרוק 4 למשל, שקיבל ציון דומה באותו מבחן, ואפילו קיבל ציון טוב בהרבה במדד ARC-2.

אז איפה הבשורה?

כאן מגיעות כמה נקודות חשובות שחשוב מאוד לשים לב אליהן.

הדגמים הכי חכמים מגיעים לכולם

שחרור GPT 5, הוא לא רק חשוב בגלל היותו הכי טוב בהכל, אלא בעובדה שהוא נותן (כמעט) את הטוב ביותר - ישר לצרכן החינמי הפשוט.

אם בעבר גישה למודל חכם כל כך הייתה מצריכה מנוי בתשלום, כעת הוא הופך נגיש לכולם בחינם.

למשל, ישנה שאלה פשוטה שאני בודק עם דגמים חדשים שיוצאים.

מה המשפט הבא בעברית, בהנחה שלחצתי בטעות על מקש הקפס-לוק במקלדת?

AKUO KFK NH ACT KFTI VHUO/ TBH RUMV KVZNHI KCNV T, VTHA UVTDSV' FNR JHHO HJZETKUCH.W

המודל הראשון שהצליח לפתור אותה היה o1-preview. לאחריו רק Gemini 2.5 pro הצליח במשימה. gpt 4o ושאר המודלים טרום עידן החשיבה, לא התקרבו לפתרון, וגם מודלי החשיבה הקטנים שכבר היו זמינים בחינם, כמו o3 mini ו-o4 mini, נכשלו במשימה באופן טוטאלי.

GPT 5 משולב חשיבה - היה המודל החינמי הראשון בצ’אט-GPT שהצליח במשימה בצורה מושלמת!

תשוו את GPT 5 ל-GPT 4 המקורי, לא ל-O3!

הנקודה החשובה ביותר היא קריטית: אל תשוו את GPT 5 ל-O3, תשוו אותו ל-GPT 4 המקורי, זה שיצא במרץ 2023.

אחד המשפטים הרווחים עם השחרור הוא: “עברו שנתיים וזה כל מה שהם הצליחו להוציא??”

וכאן מגיע הקאצ’ - לא. לא עברו שנתיים, עברו 3.5 חודשים. O3 יצא באפריל 2025, ‏O3-pro יצא לפני 58 ימים. אתם משווים את GPT-5 ל-o3, לא ל-GPT-4. אמנם GPT-4 היה מדהים לתקופתו, אבל נראה שאנשים לא זוכרים עד כמה הוא היה חלש בפועל. לכו לקרוא את המאמר המקורי על GPT-4 – הם התגאו בזה שהוא קיבל 75% בבחינות שאף אחד כבר לא זוכר, כי הן נשחקו לחלוטין לפני שנה. ‏GPT-4 קיבל 67% ב-humaneval. מתי בפעם האחרונה מישהו בכלל טרח לדווח על ציון humaneval? ‏GPT-4 היה בתחתית 5% ב-codeforces.

אז סליחה שאתם מאוכזבים כי קוראים לזה GPT-5 וציפיתם להיות יותר המומים. אבל מאז GPT-4 קרו הרבה דברים, ואין ספק שהפער בין GPT-5 ל-GPT-4 דומה לפער בין GPT-4 ל-GPT-3. רק שעכשיו ההתקדמות היא כל כך מהירה, שעולם לא נחווה שוב את ההלם ש-GPT-4 נתן.

מקור והשראה לקטע זה

GPT 4 נגד GPT 5 - הנתונים

כאחד שאוהב להציג את הנתונים במספרים ברורים, חיפשתי מדדים שניתן להשוות ל־GPT-5. זה לא היה פשוט, אבל הנה כמה נבחרים:

GPQA – מבחן ידע מדעי ברמת מחקר אקדמית - GPT-4 קיבל 35.7% בלבד, בעוד GPT-5 קיבל 85.7%.

SWE-Bench – מבחן פתרון באגים ממשיים מקוד פתוח - GPT-4 פתר 2.8% מהמשימות בלבד, בעוד GPT-5 פתר 74.9%.

Codeforces – דירוג בתחרות קידוד אלגוריתמי מורכב- GPT-4 קיבל ציון 392, שממקם אותו טוב יותר מ־5% בלבד מהמתכנתים. ל-GPT-5 אין עדיין נתונים רשמיים, אך לפי ביצועי מודל O3 ניתן להעריך שהוא טוב יותר מ־99.99% מהמתכנתים.

את שאר המדדים לא היה ניתן להשוות – או כי הם ישנים וקלים מדי, או כי הם כה קשים כך ש-GPT-4 היה מקבל בהם קרוב ל־0%. כך או כך, העובדה הזו רק מחדדת את הפערים האדירים בין המודלים…

מדדים נוספים בצורה מסודרת

תסתכלו על מדד ההזיות

הנקודה השנייה אליה חשוב מאוד לשים לב היא מדד ההזיות. הזיות הם למעשה מקרים בהם מודלים משקרים בביטחון, ופשוט מספקים עובדות לא נכונות על דברים שהם לא יודעים. מדובר על אחת הבעיות המשמעותיות ביותר בתעשיית הבינה המלאכותית שמלווה את המודלים כבר שנים.

OpenAI הצליחה להפחית את ההזיות בשיעור מדהים של בין 45% ל-80%, והוכיחה שבעיית ההזיות מתקדמת לכיוון של פתרון.

לדעתי, זה אירוע דרמטי בסדר גודל, כי זה מאפשר להשתמש ב-AI גם בתעשיות הדורשות אמינות גבוהה, כמו רפואה למשל, או תחומים רגישים אחרים הכוללים סיכונים.

gpt-5-hallmarks-1.png

gpt-5-hallmarks-2.png

העשרה נוספת ומקורות


אם נסכם את הדברים - באופן אישי, כנראה שאמשיך להשתמש לרוב המשימות הקשות בג’מיני 2.5 פרו. אבל מה שבאמת חשוב זו המגמה הברורה של התקדמות עקבית של המודלים השונים. האם OpenAI, גוגל או xAI יהיו המובילות - זה לא ממש חשוב - כי בסוף כך או כך, הצרכן בקצה ירוויח ובגדול