Всё, что вам нужно знать про «рассуждающие» модели (чтобы использовать их реже)
OpenAI в своё время совершили прорыв, создав и популяризировав «рассуждающую» языковую модель o1. Суть модели в том, что благодаря обучению на особом дата-сете она способна шаг за шагом решать сложные задачи, «имитируя» человеческое мышление. С тех пор все компании носятся с этими рассуждающими моделями. Но, во-первых, никакое мышление они не имитируют, а во-вторых – не всегда самый сложный инструмент оказывается лучшим выбором.
У рассуждающих моделей есть несколько проблем, и главная из них – избыточная сложность. Чтобы узнать, сколько будет 2+2, человек вряд ли станет запускать суперкомпьютер. То же происходит и с ИИ-моделями: когда нужно узнать столицу страны или перевести предложение, запуск механизма рассуждений становится пушечным выстрелом по воробьям.
Механизм цепочки рассуждений (CoT) создавался изначально с целью уменьшить шансы галлюцинаций в ответах и заставить ИИ перепроверять себя. Это особенно полезно в решении головоломок, математических и логических задач. Они разбивают проблему на шаги, выстраивают логические связи и демонстрируют весь процесс мышления. Возникает вопрос – как часто люди используют ИИ для этого?
Более того, за такое усложнение приходится платить – буквально. Такие модели требуют больше вычислительных ресурсов, потому что нуждаются в большем контекстном окне, работают медленнее и часто страдают от «многословия» – могут превратить простую задачу в зацикленный на себе самом философский трактат. Часто продвинутые модели совершают ошибки именно из-за своей сложности – логически выверенная цепочка рассуждений может привести к отлично аргументированному, но неверному выводу. То есть «рассуждение» не гарантирует, что ответ будет более правильным.
Поэтому, когда какую-то компанию ругают за отсутствие рассуждающего режима или его сырость – нужно задать вопрос «А зачем он вообще нужен?». Возможно, обычная LLM с доступом в Интернет решает задачи большинства пользователей гораздо быстрее и эффективнее. Равно как и в ситуации, когда компания активно продвигает «новую рассуждающую модель» – важно понимать, где реальное улучшение, а где просто маркетинг.
Что полезного можно для себя вынести? Использовать рассуждающие модели для фактических вопросов, суммирования, перевода и написания текста – не сильно рационально: тратится больше времени, ресурсов, а качество ответа может снизиться. Это понимают и крупные компании, создающие «гибридные» модели – которые в зависимости от сложности запроса принимают решение о том, сколько нужно «думать».