האמת היא שזה הופך לאירוע כמעט משעמם וצפוי מראש. פעם בחודשיים-שלושה, גוגל, OpenAI, Anthropic או xAI מוציאות מודל חדש ורענן שעוקף את כל שאר המודלים והופך ל”טוב ביותר בעולם”, כפי שניסיתי לסכם בפוסט על מודל ה-AI הטוב ביותר לתכנות.

יש אפילו תרשים נחמד (מם בלע”ז) שמתפרסם מפעם לפעם ומייצג היטב את המצב:

ai-race-gork-now.png

ועדיין, כעוקב מושבע אחר התחום, אי אפשר להתעלם מהשחרור החדש של גרוק 4, שמציג קפיצות ביצועים מרשימות למדי במגוון מדדים – וזאת רק חמישה חודשים אחרי שחרור גרוק 3. (ואל תשכחו כמה זמן עבר בין GPT-3 ל-GPT-4… וכמה זמן עוד נצטרך לחכות ל-GPT-5.)

היום בבוקר, שחררה xAI את הגרסה החדשה כשתי מודלים, Grok 4 ו-Grok 4 Heavy. למי שלא מכיר, גרוק 4 הוא המודל של xAI, מבית X – החברה הפרטית של אילון מאסק.

המודל החדש זמין כרגע רק למנויים בתשלום, אך סביר להניח שמהר מאוד הוא יגיע לכולם.

וכעת, למדדים:

התוצאה המרשימה ביותר היא במבחן האחרון של האנושות (HLE), שבו גרוק מוביל בפער עצום עם 44.4%, לעומת Gemini 2.5 Pro שבמקום השני עם 26.9% “בלבד”.

grok4-1.webp

מדובר באוסף שאלות קשות ומורכבות להחריד מכל תחום אפשרי – מדע, משפט, רפואה, פילוסופיה, כלכלה – כשמו כן הוא: המבחן הקשה ביותר שיצרה האנושות עבור מודלי AI.

פריצה נוספת ומרשימה נרשמה במדד ARC-2 – מבחן חזותי מורכב. קלוד 4 אופוס (Claude 4 Opus) הוביל עד כה עם 8.6%, גרוק 4 מכפיל את התוצאה הזו ומגיע ל-15.9%!

grok4-2.webp

ולנתונים המשעממים יותר, שהפכו כבר לשגרה בכל שחרור מודל: שיפור כללי במדדים הקלאסיים – שכבר קרובים לגרד את ה-100%.

גרוק 4 מציג ביצועים חזקים גם כאן:

  • מדד AIME25100%
  • מדד GPQA88.9% ועוד…

grok4-3.webp

הנתונים האלו מתייחסים לגרסה החזקה ביותר של המודל – Groq 4 Heavy.

עד כאן העדכון לפעם – העדכון הבא כנראה בקרוב, עם מודל הקוד הפתוח הצפוי של OpenAI, GPT-5 וכל מה שחם בתעשייה…


העשרה נוספת: