Илон Маск анонсировал Grok 3 - новую версию нейронки, работающей в Твиттере (ака X). Стоит, как и все, около двадцатки в месяц.
Модель занимает лидирующие места во многих бенчмарках, но на это утп пока традиционно забиваем. Внутри и обычная и reasoning-функционал, голосовой режим, ДипРесёрч и агент для управления компом.
Самое приятное в анонсе -предыдущий Grok 2 уходит в открытый доступ. А это прекрасно - больше опенсорса, хорошего и разного.
Пока протестировать полноценно не получается, но Андрей Карпатый (сооснователь OpenAI) получил доступ пораньше и пишет, что Grok 3 c функцией Thinking вполне на уровне топовых ИИ, но с нюансами: справляется с математическими и исследовательскими задачами, но спотыкается на креативных и визуальных тестах. В целом - на уровне o1-pro ($200 в месяц, у Маска за 20) и чуть лучше DeepSeek-R1 и Gemini 2.0 Flash Thinking.
✅ Хорошо решает таски на мышление: создаёт сложные HTML-макеты, решает головоломки и оценивает вычислительные мощности нейросетей.
❌ Не справился с задачкой "Emoji mystery", зашифрованной в Unicode, где DeepSeek-R1 показал больше прогресса.
🤖 Пытается доказать гипотезу Римана — и не сдаётся, в отличие от OpenAI, Gemini и Claude, которые сразу отказываются.
🎭 С юмором у него всё ещё не очень: шутки стандартные, а «Thinking» даже ухудшает их.
🔹 В задачах на «глубокий поиск» (DeepSearch) он на уровне Perplexity, но слабее OpenAI — иногда выдаёт фейковые URL и странные факты.
🔹 Он умеет считать буквы в словах (e.g. 3 «r» в strawberry), но всё же ошибается в сложных визуальных задачах. И в слове LOLLAPALOOZA зафейлился с количеством "L".
🔹 В числах путается: считает, что 9.11 > 9.9, но в Thinking-режиме исправляется.
🔹 По сравнению с GPT-4o, DeepSeek-R1 и Gemini 2.0, он явно конкурентоспособен, но требует доработки.
💡 В отличие от OpenAI и Gemini, он не включает xAI (своего разработчика) в список «крупнейших LLM-компаний».