Так как завтра, согласно заверениям Илона Маска, будет выпущена нейросеть Grok 3 – ответ на китайскую DeepSeek, и мы станем свидетелями очередного витка компьютерной войны США и КНР, то стоило бы тезисно, пусть и с опозданием, обсудить некоторые интересные факты о китайской языковой модели.
Подобно буму доткомов 2000-ых, когда достаточно было зарегистрировать сайт (невероятная инновация!), и вот деньги инвесторов уже текли твоей компании рекой (спойлер – кончилось все быстро и печально), 2024 год стал годом бума больших языковых моделей (не совсем корректно именуемых ИИ), причем инвестиций в это было привлечено кратно больше, нежели 24 года назад.
Что оно делает и почему оно так дорого? Если в двух словах, то нам необходимо взять огромный (очень, очень большой) объем текстовой информации и прогнать его через огромный (и очень, очень дорогой) массив параллельных процессоров (в 99% используются видеокарты или специальные чипы от NVIDIA, что обусловило космический рост акций компании, превзошедшей стоимость всей саудовской нефти и русского газа) для того, чтобы построенная по вероятностным правилам модель научилась угадывать (в буквальном смысле!) то, что пользователь сочтет за осмысленный ответ на вопрос.
Очевидно, что с интеллектуальной точки зрения данное творение недалеко ушло от пресловутой машины Луллия, над которой иронизировал еще Свифт в своих «Путешествиях Гулливера». Дабы модель угадывала получше и давала более осмысленные ответы, нежели случайный подбор слов, требуется огромный объем данных, который позволяет сгенерировать самое ценное – нужные веса (грубо говоря – вероятностные коэффициенты) для различных сочетаний слов, которые она выдает.
Естественно, исходя из таких вводных, мы неизбежно получаем текущее состояние рынка: железо, нужное для обучения модели, стоит сотни миллионов, времени это занимает около года, сама модель настолько громоздка, что работает только в терминальном режиме, крутясь в датацентрах, модель довольно часто галлюцинирует (официальный термин), выдавая в ответ на вопрос какие-то причудливые, малоосмысленные и совершенно нерелевантные ответы.
Для преодоления последнего недостатка недавно была предпринята попытка обратится к т.н. Model-based reasoning – старой идее классического ИИ 1980-ых – попытаться добавить к вероятностному выводу набор правил логического вывода, соответствующих какой-либо онтологии (базе фактов и их отношений), что позволяет отсеять совсем уж бредовые ответы. Созданная таким образом o1 от OpenAI несколько месяцев назад поразила неокрепшие умы обозревателей, отвечая значительно лучше обыкновенных вероятностных моделей.
И тут на рынке появляется то, что разрывает все шаблоны – китайская модель DeepSeek. Она почти бесплатна (o1 стоит $200, DeepSeek R1 – это 50 вопросов в день), разработана в полной тайне и с большой скоростью буквально за год-полгода (OpenAI шла к o1 десять лет) – и все это в условиях жесточайшего эмбарго США на поставки мощных видеокарт NVIDIA в Китай. И она не отличается от o1 по качеству ответов, превосходя обычные версии ChatGPT.
Естественно, на фоне происходящего за был сделан самый тривиальный вывод из возможных: китайцы – это гении, способные с легкостью и за малые средства сделать то, что янки не могут создать за 10 лет и 100 миллиардов, причем еще и обучить модель едва ли не на кластере из телефонов Meizu.
За несколько часов после появления DeepSeek фондовый рынок США рухнул вниз на триллион долларов, из которых NVIDIA потеряла 600 миллиардов – крупнейший крах за всю историю капитализма.
Но, как говорил советский физик Ландау, прежде чем принимать на основе того, что вам сказали, какую-то невероятную теорию, опровергающую все, что вы знали, подумайте над более простым ответом – вам просто соврали. При ближайшем рассмотрении прорыв DeepSeek можно объяснить куда проще, нежели какой-то неземной технологией, на поколение превосходящей все, чего добились янки.
Китайцы поступили ровно так же, как поступали всегда (а до них японцы, корейцы и вообще все азиаты). Они взяли набор известных языковых моделей и улучшили его.
@atomiccherry 💯