מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל

האמת היא שזה הופך לאירוע כמעט משעמם וצפוי מראש. פעם בחודשיים-שלושה, גוגל, OpenAI, Anthropic או xAI מוציאות מודל חדש ורענן שעוקף את כל שאר המודלים והופך ל”טוב ביותר בעולם”, כפי שניסיתי לסכם בפוסט על מודל ה-AI הטוב ביותר לתכנות.

יש אפילו תרשים נחמד (מם בלע”ז) שמתפרסם מפעם לפעם ומייצג היטב את המצב, זה שמופיע בתחילת הפוסט.

ועדיין, כעוקב מושבע אחר התחום, אי אפשר להתעלם מהשחרור החדש של גרוק 4, שמציג קפיצות ביצועים מרשימות למדי במגוון מדדים – וזאת רק חמישה חודשים אחרי שחרור גרוק 3. (ואל תשכחו כמה זמן עבר בין GPT-3 ל-GPT-4… וכמה זמן עוד נצטרך לחכות ל-GPT-5.)

היום בבוקר, שחררה xAI את הגרסה החדשה כשתי מודלים, Grok 4 ו-Grok 4 Heavy. למי שלא מכיר, גרוק 4 הוא המודל של xAI, מבית X – החברה הפרטית של אילון מאסק.

המודל החדש זמין כרגע רק למנויים בתשלום, אך סביר להניח שמהר מאוד הוא יגיע לכולם.

וכעת, למדדים:

התוצאה המרשימה ביותר היא במבחן האחרון של האנושות (HLE), שבו גרוק מוביל בפער עצום עם 44.4%, לעומת Gemini 2.5 Pro שבמקום השני עם 26.9% “בלבד”.

מדובר באוסף שאלות קשות ומורכבות להחריד מכל תחום אפשרי – מדע, משפט, רפואה, פילוסופיה, כלכלה – כשמו כן הוא: המבחן הקשה ביותר שיצרה האנושות עבור מודלי AI.

פריצה נוספת ומרשימה נרשמה במדד ARC-2 – מבחן חזותי מורכב. קלוד 4 אופוס (Claude 4 Opus) הוביל עד כה עם 8.6%, גרוק 4 מכפיל את התוצאה הזו ומגיע ל-15.9%!

ולנתונים המשעממים יותר, שהפכו כבר לשגרה בכל שחרור מודל: שיפור כללי במדדים הקלאסיים – שכבר קרובים לגרד את ה-100%.

גרוק 4 מציג ביצועים חזקים גם כאן:

מדד AIME25 – 100%
מדד GPQA – 88.9% ועוד…

הנתונים האלו מתייחסים לגרסה החזקה ביותר של המודל – Groq 4 Heavy.

עד כאן העדכון לפעם – העדכון הבא כנראה בקרוב, עם מודל הקוד הפתוח הצפוי של OpenAI, GPT-5 וכל מה שחם בתעשייה…

העשרה נוספת:

פוסטים קשורים

מהו מודל ה-AI הטוב ביותר לתכנות?

ג'מיני 3.0 סוף סוף כאן - והמדדים? מטורפים!

GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת