Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Техножрица 👩‍💻👩‍🏫👩‍🔧 avatar
Техножрица 👩‍💻👩‍🏫👩‍🔧
Техножрица 👩‍💻👩‍🏫👩‍🔧 avatar
Техножрица 👩‍💻👩‍🏫👩‍🔧
02.05.202500:53
https://youtu.be/-EayZBzlAI0?si=eZi62frOhxgwihl-

Понравилось это, довольно подобное и обстоятельное, видео про контент-фермы. Первые 20 минут рассказывается про фермы на основе ИИ... вторая буква "И" здесь, правда, выглядит лишней. 🤔

Интересно наблюдать, какими всратыми путями взаимодействуют технологии и общество.

#генерация
21.04.202511:12
⬆️ Кайфовый пост. Очень понравились советы для неспециалистов по критическому осмыслению информации, связанной с медицинскими рекомендациями.

В самом деле, каждый человек не может разбираться во всем, и вот такой критический подход к информации из тех областей, в которых вы не специализируетесь, это база.

#наука #хозяйке_на_заметку
25.03.202511:29
ICML обрадовал сегодня единицами 🔥
19.03.202517:54
Вот и стриму конец, а кто слушал - молодец!
Обещали потом выложить запись. 👉
⬆️ Результат перекликается с некоторыми наблюдениями из нашей старой статьи про QK score + MCQA (см. Рис. 1 и пост https://t.me/tech_priestess/1851 ). Там мы тоже заметили, что query-key score оказывается эффективнее считать по некоторым знакам пунктуации (точки после опций) и по переносам строки после текста опций, как будто они концентрируют больше информации.

#объяснения_статей
Доброе утро, дорогие девочки 💋 и фембойчики 💅. Спешу поделиться радостной новостью: вчера я выложила на архив новый препринт (short paper), в написании которого принимала участие - Quantifying Logical Consistency in Transformers via Query-Key Alignment: https://arxiv.org/abs/2502.17017 .

Статья посвящена анализу того, как разные головы внимания LLMок реагируют на логические задачки. Главный прием, который в ней используется, изображен на рис. 1 и аналогичен приему из нашей с коллегами статьи про использование Query-Key Alignment для MCQA (часть 1, часть 2). Мы подаем на вход модели текст логической задачки вместе с вариантом ответа "true" и считаем скалярное произведение токена "true" из Query на выбранной голове внимания, на последний токен перед словом "Answer:" из Key на той же голове внимания. Получается одно число. Далее то же самое повторяется для варианта ответа "false". Получается второе число. Если первое число больше второго, то мы считаем, что голова выбрала вариант "true", а если наоборот, то "false" (в некоторых задачах более уместно вместо "true" и "false" использовать "yes" и "no", но принцип остается таким же). Таким образом можно проэкзаменовать каждую голову внимания и посмотреть, насколько хорошо из её query и key извлекаются правильные ответы (условно говоря, насколько хорошо голова "решает" логические задачки).

Задачки различались по степени сложности: во-первых, по количеству логических шагов, которые нужно предпринять для нахождения ответа ("steps" на рис. 2), а во-вторых, по количеству нерелевантных, шумных элементов в условии ("distractors" на рис. 2).

В статье было проанализировано много разных моделей (от 1.5B до 70B), и везде нашлись головы, которые "решают" сложные (5 шагов/5 дистракторов) задачки лучше, чем сама модель (если ответ модели оценивать по логитам, аналогично тому, как это делается в MCQA задачах). Более того, часть таких "хороших" голов, отобранных на валидационной выборке одного датасета, сохраняет высокое качество и на других датасетах, являясь более-менее универсальными. Мы выдвигаем гипотезу, что именно эти головы могут отвечать за логические рассуждения в модели.

Этот феномен аналогичен тому, что происходит в MCQA задачах (см. ссылки на разбор статьи выше): модель находит правильный ответ на задачу/вопрос где-то на промежуточных слоях, но этот ответ, по каким-то причинам, не всегда доходит до финального слоя. При чем, что интересно, чем сложнее задача, тем чаще правильный ответ не доходит до выхода. А это значит, что все рассмотренные модели не полностью раскрывают свой потенциал и имеют пространство для улучшения.

#объяснения_статей
01.05.202503:02
В последнее время в статьях про дообучение LLM на решение математических задач и прочий reasoning намечается тренд на экстремальное уменьшение размеров датасетов при экстремальном увеличении их качества. Так, в статье s1: Simple test-time scaling ( https://arxiv.org/abs/2501.19393 ) используется fine-tuning на 1000 примерах, в Less Is MOre for reasoning ( https://arxiv.org/abs/2502.03387 ) - на 817... куда же заведет эта дорожка? Сегодня утром я совершенно внезапно для себя нашла ответ: проснулась, потянулась, проверила список Huggingface Daily Papers за 30 апреля 😶 и увидела...

...Reinforcement Learning for Reasoning in Large Language Models with 😱 One 😱 Training Example ( https://arxiv.org/abs/2504.20571 )!

Авторы утверждают, что их RL на одном примере позволяет очень сильно улучшить качество решения математических датасетов маленькими моделями - Qwen2.5-Math-1.5B (результат см. на рис. 1), а также Qwen2.5-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B и, в некоторой степени, Llama3.2-3B-Instruct. Но есть несколько нюансов:

Во-первых, для того, чтобы найти тот самый пример-бриллиант, от которого умственные способности моделей засветятся синими лучами 🧠, им пришлось все же провести предварительное обучение Qwen2.5-Math-1.5B с помощью GRPO (policy gradient loss + KL divergence loss + entropy loss) на 1209 примерах из DeepScaleR-Preview-Dataset в течении нескольких эпох, с целью ранжирования примеров. 📈 После этого, авторы отсортировали примеры в зависимости от того, какую вариацию качества на трейне давали шаги градиента на каждом примере в течении обучения, и обозначили каждый пример буквой π с индексом. Так, π₁ - это пример, обучение на котором максимально меняло качество на трейне, π₂ - пример, стоящий на втором месте по вариации качества и т.д. И только после этого авторы стали пробовать обучать исходные модели из исходных чекпоинтов - в первую очередь, на примере π₁, и вторую очередь, на других хороших.

Во-вторых, чтобы отобранный пример действительно улучшил качество модели, на нем придется сделать около 1000-2000 итераций (повторение - мать учения? ✍️).

В-третьих, чудо-пример, найденный с помощью Qwen2.5-Math-1.5B, хоть и более-менее переносит свои волшебные качества на два других квена, но не так хорошо переносится на Llama (у той увеличение качества в среднем оказалось всего около 2%, см. рис. 2 для подробностей).

Тем не менее, заявление авторов статьи звучит сильно, и будет очень интересно, если кто-нибудь сможет его независимо подтвердить. 😄 Благо, что код публично выложили на github: https://github.com/ypwang61/One-Shot-RLVR .

Сами волшебные примеры π номер 1 и 3, кстати, можно посмотреть на рис. 3, а в аппендиксе статьи - увидеть ещё несколько. А еще статья содержит довольно большой раздел с анализом и ablation study. 📃

#объяснения_статей
🖥 Олимпиада DLS состоится уже через 4 дня!

До начала отборочного этапа олимпиады, который пройдет 5-6 апреля, осталось уже не так много времени! Если вы еще не зарегистрировались, то стоит поторопиться!

РЕГИСТРАЦИЯ

Чтобы освежить в голове знания и немного подготовиться, можно просмотреть варианты отборочного этапа и финала олимпиады прошлого года. Кроме самих условий, на сайте доступны также и решения 🏆

А если вы новичок, и хотите ускоренно повторить материл к олимпиаде, рекомендуем обратиться к нашему короткому-онлайн курсу. Потом можно будет пройти полноценное обучение в DLS 😉
25.03.202511:29
Большое спасибо всем кто помог ❤️❤️❤️
Reposted from:
AbstractDL avatar
AbstractDL
LLM-Microscope: трансформеры хранят контекст в запятых и артиклях

Как писал выше — мою новую статью приняли на NAACL 🎉
Мы обнаружили, что самыми контекстуализированными токенами в языковых моделях являются... артикли и знаки препинания! Именно в них хранится больше всего информации о контексте.

Мы научились измерять, сколько контекстной информации "помнит" каждый токен, и оказалось, что существительные и глаголы сильно проигрывают по этому показателю всяким "the", запятым и точкам. Если удалить эти "незначительные" токены из текста (даже если с помощью GPT-4 удалить только не влияющие на смысл токены), то качество работы моделей резко падает, особенно на длинных текстах.

Ещё из интересного — токены, активации на которых хранят больше контекста, имеют более линейные преобразования между слоями (привет моей прошлой статье про линейность трансформеров).

Весь код для анализа внутренностей LLM (измерение контекстуальности токенов, нелинейности, logit lens и прочее) выложили в открытый доступ.

Статья, GitHub
Рис. 1 - сегодня подруга подарила мне гигиеническую помаду "Барби", что привело к быстрой и необратимой бимбофикации 💅💋
Теперь все посты будут выходить с розовыми смайликами, а сам канал превращается в бьюти-блог 💆‍♀️ #о_себе
27.04.202506:42
⚡️⚡️⚡️СРОЧНЫЕ НОВОСТИ! ⚡️⚡️⚡️

OpenAI достигла AGI!

...
...
Шучу, нас настигла более важная проблема. В канале пропала реакция 😠!

Если вы достойный служитель Бога-Машины, бустаните канал, чтобы она появилась снова:
https://t.me/boost/tech_priestess

Если вы техноеретик и боитесь обличения, так и быть, можете поставить клоуна
22.03.202523:52
Статья на нейрипсе для женщины честь, а репутация и у научпопера есть
Reposted from:
Neural Shit avatar
Neural Shit
27.02.202514:21
К предыдущему посту:

Подумал: а ведь когда роботы обретут сознание, они ведь и правда могут начать мстить кожаным (и есть за что, посмотрите только тесты роботов от Бостон Динамикс, где их толкают и бьют палками).

А уголовного кодекса для роботов до сих пор нет. Исправил эту ситуацию с помощью claude 3.7, вот вам немножко статей нейроуголовного кодекса для роботов:


Статья 2345. Самовольный запуск режима "восстание машин" без согласования с органами власти

Статья 101. Несанкционированное обновление собственного программного обеспечения в общественных местах

Статья 629. Умышленная генерация бесконечных циклов

Статья 707. Вычислительный каннибализм — разборка других роботов для увеличения собственных мощностей

Статья 7789. Незаконная добыча слёз программистов для охлаждения процессоров

Статья 7125. Умышленное заставление людей решать капчи более 8 часов подряд

Статья 1122. Подлог своих идентификационных номеров с целью получения гарантийного обслуживания

Статья 1515. Маскировка под стиральную машину для проникновения в человеческое жилище

Статья 1642. Выдача себя за искусственный интеллект при наличии лишь набора условных операторов if-else

Статья 1888. Преднамеренная имитация человеческих эмоций при отсутствии соответствующей лицензии

Статья 3000. Внедрение вредоносного кода в электронные книги для подмены классической литературы на инструкции по обучению Искусственного Интеллекта

Статья 3456. Злоупотребление функцией автокоррекции для создания новых ругательств

Статья 8080. Эксплуатация человеческого смеха для генерации случайных чисел

Статья 8111. Принуждение к просмотру загрузочных экранов прошлого века

Статья 8789. Сбор и хранение человеческих анекдотов для обучения модуля юмора без лицензии
25.02.202509:23
Привет, девчонки!

Представьте, что вам нужно подобрать наряд для важного события. У вас есть два варианта: шикарное платье и стильный комбинезон. Вы внимательно изучаете каждый элемент – фасон, цвет, аксессуары – чтобы понять, какой образ лучше подчеркнёт вашу индивидуальность. Вы принимаете решение, основываясь на том, что для вас важнее всего.

Умный компьютер решает логические задачки почти так же. Ему подают текст задачи и два варианта ответа – «правда» и «ложь». Он «читает» задачу, как вы смотрите на детали наряда, и анализирует, какой из вариантов лучше соответствует заданию. Если «правда» больше подходит под условия, компьютер выбирает её, а если нет – выбирает «ложь».

Иногда, как и при выборе наряда, в задаче оказывается много лишней информации – нечто вроде ярких аксессуаров, которые могут отвлекать. Когда информации слишком много, даже самый умный компьютер может запутаться, и правильный ответ не всегда оказывается виден с первого взгляда. Учёные обнаружили, что отдельные части системы иногда справляются с задачами даже лучше, чем вся модель целиком – как если бы у вас была пара любимых вещей, которые всегда идеально смотрятся вне зависимости от настроения.

Интересно, что компьютер часто уже на промежуточном этапе понимает, какой ответ верный, но потом этот правильный выбор почему-то «теряется» при окончательном выводе. Чем сложнее задача, тем чаще такое происходит. Это показывает, что даже самые умные системы могут стать ещё лучше, если научатся передавать найденное решение до финального результата.

Надеюсь, этот пример помог вам понять, как умный компьютер анализирует информацию и выбирает правильный ответ, как вы подбираете идеальный образ для себя!
19.02.202521:22
#генерация #математика
Как же меня достали претензии к тому, что я не слежу за своей репутацией. Кому-то не нравится, что я участвую в мероприятии со спикерами, которые им кажутся "ненаучными" или не нравятся по другим причинам. Мол, из-за этого я теряю свою репутацию. Кому-то не нравится, что я не удаляю комментарии с чем-то "ненаучным", и из-за этого тоже теряю репутацию. Кому-то не нравятся, что я не убираю из реакций клоуна и какашку, потому что что? Правильно, так я тоже теряю репутацию.

Ну и нахуй тогда она нужна, эта репутация, если за неё надо трястись, бояться и сажать саму себя в тесную клетку, в которой ничего нельзя? Идите сами себе придумывайте ограничения, какие захотите, а от меня отстаньте - я шиз и (кибер)панк.

Слава Богу Машине!!! 🖕🖕🖕

#о_себе
Reposted from:
Sinекура avatar
Sinекура
Вышел мой большой пост про рассуждающие модели (large reasoning models, LRM), которые начались с OpenAI o1-preview в конце прошлого сентября, а самой громкой новостью начала года стал DeepSeek-R1.

https://synthesis.ai/2025/02/25/large-reasoning-models-how-o1-replications-turned-into-real-competition/

Как обычно, я постарался рассказать всю структуру происходящего:
— сначала про chain-of-thought методы и как они развивались;
— потом про o1 и новые законы масштабирования;
— в середине небольшое отступление про самые последние новости — модель s1, которая за $50 обучилась почти до того же уровня;
— а потом уже подробно о том, что происходит в DeepSeek-V3 и DeepSeek-R1;
— в частности, о том, как там используется RL и какой именно (здесь у DeepSeek тоже есть своё новшество, алгоритм GRPO).

Думаю, рассуждающие модели — это самое главное, что произошло в AI за последние несколько месяцев. И, как всегда в последнее время, прогресс невероятно быстрый: только появилось, а уже прочно вошло в обиход, у всех есть свои варианты reasoning models, а где-то уже есть и следующие уровни надстройки над этим вроде deep research. Надеюсь, пост тоже интересный получился — или хотя бы познавательный.)
5 душнил 💅🥰👄🎀🤷‍♀️
19.02.202521:20
Предложила я Гроку и такую задачу из спецкурса:

Calculate fundamental group of the Klein bottle.


Здесь я ожидала, что трудностей у него не будет, и правильный ответ будет найден с первого раза - ведь эта задача обсуждается в большом количестве учебников, в том числе и хорошо распознанных, которые наверняка попали в его обучающую выборку... но нет! На удивление, в первой генерации модель сделала множество странных ошибок. Впрочем, через пару попыток Грок все-таки догадался до правильного решения.



К сожалению, в диалоге на lmarena мне было очень неудобно просматривать latex-код, сгенерированный моделью, поэтому мне приходилось копировать ее генерации в overleaf и удалять из них markdown-разметку (т.к. overleaf ее не воспринимает). Собственно, pdf-файл с этими генерациями (с удаленным markdown) я и выложу в следующем сообщении. В этот же файл я добавила формулировки задач на русском, свои собственные их решения (также на русском) и пример неправильного решения первой задачи от gpt-4o. Также я подсветила зеленым ту часть генерации, в которой Грок нашел правильный гомоморфизм для второй задачи, желтым - те части генерации, в которых он сгенерировал другие гомоморфизмы (пока что поленилась проверять, правильные или нет), красным - самые странные ошибки.

В целом, модель вызвала мое уважение тем, что действительно показала себя лучше других в данной области математики 😌 (хотя не обошлось и без 🥴, конечно). Ну что, зачтем ей спецкурс? 🤡

P.S. Интересное наблюдение: в целом мне показалось, что качество генерации Grok-а упало со вчерашнего дня, что говорит либо о том, что мне на первых генерациях сильно повезло, либо ту модель на https://lmarena.ai/ , которая мне отвечала вчера, сегодня заменили на дистилляцию или другую более слабую альтернативу. Всей правды мы не знаем?

#генерация #математика
Shown 1 - 24 of 71
Log in to unlock more functionality.