מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל

האמת היא שזה הופך לאירוע כמעט משעמם וצפוי מראש. פעם בחודשיים-שלושה, גוגל, OpenAI, Anthropic או xAI מוציאות מודל חדש ורענן שעוקף את כל שאר המודלים והופך ל”טוב ביותר בעולם”, כפי שניסיתי לסכם בפוסט על מודל ה-AI הטוב ביותר לתכנות.
יש אפילו תרשים נחמד (מם בלע”ז) שמתפרסם מפעם לפעם ומייצג היטב את המצב:
ועדיין, כעוקב מושבע אחר התחום, אי אפשר להתעלם מהשחרור החדש של גרוק 4, שמציג קפיצות ביצועים מרשימות למדי במגוון מדדים – וזאת רק חמישה חודשים אחרי שחרור גרוק 3. (ואל תשכחו כמה זמן עבר בין GPT-3 ל-GPT-4… וכמה זמן עוד נצטרך לחכות ל-GPT-5.)
היום בבוקר, שחררה xAI את הגרסה החדשה כשתי מודלים, Grok 4 ו-Grok 4 Heavy. למי שלא מכיר, גרוק 4 הוא המודל של xAI, מבית X – החברה הפרטית של אילון מאסק.
המודל החדש זמין כרגע רק למנויים בתשלום, אך סביר להניח שמהר מאוד הוא יגיע לכולם.
וכעת, למדדים:
התוצאה המרשימה ביותר היא במבחן האחרון של האנושות (HLE), שבו גרוק מוביל בפער עצום עם 44.4%, לעומת Gemini 2.5 Pro שבמקום השני עם 26.9% “בלבד”.
מדובר באוסף שאלות קשות ומורכבות להחריד מכל תחום אפשרי – מדע, משפט, רפואה, פילוסופיה, כלכלה – כשמו כן הוא: המבחן הקשה ביותר שיצרה האנושות עבור מודלי AI.
פריצה נוספת ומרשימה נרשמה במדד ARC-2 – מבחן חזותי מורכב. קלוד 4 אופוס (Claude 4 Opus) הוביל עד כה עם 8.6%, גרוק 4 מכפיל את התוצאה הזו ומגיע ל-15.9%!
ולנתונים המשעממים יותר, שהפכו כבר לשגרה בכל שחרור מודל: שיפור כללי במדדים הקלאסיים – שכבר קרובים לגרד את ה-100%.
גרוק 4 מציג ביצועים חזקים גם כאן:
- מדד AIME25 – 100%
- מדד GPQA – 88.9% ועוד…
הנתונים האלו מתייחסים לגרסה החזקה ביותר של המודל – Groq 4 Heavy.
עד כאן העדכון לפעם – העדכון הבא כנראה בקרוב, עם מודל הקוד הפתוח הצפוי של OpenAI, GPT-5 וכל מה שחם בתעשייה…