Рейтинг ведущих LLM
Сложно разобраться во всем этом зоопарке бесчисленных LLMs, выходящих в среднем раз в полмесяца. Даже отраслевые специалисты путаются в этом многообразии, что уж говорить про обычных людей? Следить за инновациями становится все сложнее, а тестировать – тем более.
Конкуренция феноменальная, а темпы инноваций – ошеломляющие. С апреля 2023 по сентябрь 2024 (1.5 года!) на рынке текстовых LLM не было значимых релизов и инноваций, только косметические модификации ChatGPT 4, все остальные лишь сокращали отставание от OpenAI.
Индустрия проснулась с сентября 2024, когда OpenAI внедрила рассуждающую o1, а взрывной рост начался с января 2025.
Напомню ротацию лидеров. С середины декабря самой мощной моделью на рынке была OpenAI o1, с 20 января 2025 достойную конкуренцию o1, а в некоторых задачах в лидеры выбивается DeepSeek R1 (в родной интеграции сломался с начала февраля и так не ожил), спустя 11 дней (с 31 января) в лидеры вновь выбивается OpenAI с моделью o3-mini, но продержался лишь о 18 февраля, когда вышел прорывной Grok 3, следующее обновление топовой LLM было 25 марта, когда вышел Gemini 2.5 Pro, а с 16 апреля OpenAI вновь навела порядок, выпустив o4-mini и o3 в общий доступ.
Таким образом, менее, чем за три месяца было пять (!) обновлений лидирующих LLM и еще две попытки приблизиться в ТОП со стороны Llama 4 и Claude Sonnet 3.7.
Кстати, следует отметить, что OpenAI o3 была доступна с 2 февраля, но за 200 долларов, которая заменила o1 Pro, будучи флагманской моделью в декабре-январе, а теперь o3 в общем доступе и она сильнее o1 Pro. Точнее правильнее отметить, что o3 была в составе Deep Research агентов, а не напрямую, а с 16 апреля доступна напрямую.
Другими словами, пользователи за обычную подписку всего за три месяца получили более мощную модель (o3), чем имели подписчики за 200 баксов (o1 Pro) – вот, что делает конкуренция.
Любопытное наблюдение, OpenAI за всю историю существования LLM упустила лидерство всего на 3 недели, когда доминировала Gemini 2.5 Pro, тогда как в середине января китайцы (DeepSeek R1) лишь приблизились к лидерству, но не сформировали преимущество и тем более отрыв, как и Claude 3.5 Sonnet в середине 2024 приблизился к ChatGPT 4o, но не закрепил лидерство.
Не будь релиза от Google, вероятно не было бы общем доступе ни o3, ни o4-mini, т.е. именно конкуренция заставляет Альтмана шевелиться.
Не получится сделать обзор на каждую LLM – слишком долго и сложно, тем более все меняется быстро и обзоры быстро устареют.
Приведу список лидирующих LLM на утро 20 апреля 2025 (завтра все опять может измениться): OpenAI o3 и рядом с ней o4-mini, на втором месте – Google Gemini 2.5 Pro, на третьем месте – Grok 3 Thinking, на четвертом месте – DeepSeek R1 и следом Claude 3.7 Sonnet Thinking.
Это все рассуждающие модели.
Среди» обычных» моделей: лидером является Gemini 2.5 Flash, второе место – ChatGPT 4.1, третье место – DeepSeek V3 (мартовское обновление), четвертое место – Grok 3, пятое место – Llama 4 Maverick и вместе с ним рядом Claude 3.7 Sonnet.
Кстати, распиаренный и самый дорогой в мире (кратно дороже конкурентов) ChatGPT 4.5 на уровне Grok 3 и даже слабее ChatGPT 4.1, а обновление в конце марта обычно ChatGPT 4o вывело его немного выше Claude 3.7 Sonnet.
Все остальные – не тянут, поэтому даже нет смысла рассматривать. Поэтому в уме нужно держать вот этот список ТОП-5 лучших моделей.
Разбор технических характеристик и преимуществ каждой из модели потребует серию материалов, но кратко выделю самое важное:
• Gemini 2.5 Flash – непревзойденное соотношение цены и качества, вне конкуренции.
• Llama 4- сверхбольшое (10 млн токенов) контекстное окно, что позволяет классифицировать и резюмировать большие массивы информации.
• OpenAI o3 – сильно прокаченное рассуждение в сложных задачах, полноценная работа с Python-интерпретатором, веб-поиском и файлами.
• OpenAI o4 mini – прокаченная мультимодальность, особенно со сложными изображениями и сценами.
• ChatGPT 4.1 – стабильность на широком контексте (1 млн токенов) и более точное следование инструкциям.