epsilon correct - Telegram Channel Posts

Мир сегодня с "Юрий Подоляка"

View

Труха⚡️Україна

View

Николаевский Ванёк

View

Мир сегодня с "Юрий Подоляка"

View

Труха⚡️Україна

View

Николаевский Ванёк

View

epsilon correct

02.05.202505:45

И теперь постеры с ICLR, которые мне понравились

18.04.202513:46

по традиции, мой любимый livebench

26.03.202503:50

Добавил в свой сайтик по сравнению моделей. У Gemini 2.5 Pro получилось определить фразу big model smell и рассказать, где купить клюкву в сахаре в Москве. Получается, AGI?

07.03.202519:32

Выкатили Gemini Embeddings

Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.

Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.

04.02.202519:20

Харкорные инженеры из гугла опубликовали гайд про то, как мы думаем про оптимизацию LLMок под TPU с глубоким разбором того, как всё работает под капотом. Рассказывают про шардирование параметров, тренировку, трюки инференса доступно и с диаграммами. 10/10 чтиво на вечер 👍

02.10.202411:20

Последний раз я писал о себе чуть больше года назад. За последний год канал вырос больше, чем вдвое, я стал работать над совсем другими вещами, ну и вообще, пора закрепить новый пост.

Зовут меня всё ещё Антон. 👋 В 2021 я защитил PhD по машинному обучению в Германии, и с тех пор работаю исследователем в Google Research. Два года назад я перебрался в Нью-Йорк на постоянку, где теперь и обитаюсь. В гугле я устроился в команду, которая занимается алгоритмами на графах, оптимизацией, приватностью и рыночными механизмами. Вот тут можно прочитать пост с хайлайтами за 22 год.

Часть своего времени я работаю над графовыми нейросетями, эмбеддингами на огромных объёмах данных, и всякими около-графовыми штуками по мелочи. Публикую статьи и иногда внедряю нарисёрченное в прод. С этого года частично перекатился в LLMки и теперь занимаюсь данными для претрейна Gemini и Gemma, и парой более специализированных направлений, например, модельками, которые завоевали серебро на международной математической олимпиаде. Пока, вроде, получается неплохо.

Интересно, куда занесёт в следующем году. 🤔

01.05.202507:51

как обещал 📸

edit: спасибо товарищам подписчикам, перезалил без зашакаливания

17.04.202519:42

Запустили Gemini 2.5 Flash в превью, по ценам – в 10 раз дешевле o4-mini. Должно быть сносно для написания кода, где хочется подешевле, картинок и длинного контекста.

25.03.202517:34

Выпустили нашу большую Thinking модель Gemini 2.5 Pro

На 40 пунктов обходим всех на LLM Arena (30 с style control), хорошие результаты на всех бенчмарках, сильные улучшения в коде. И то ли ещё будет.

Тыкать можно в aistudio.google.com

06.03.202503:15

Сегодня без особых фанфар запустили специальную версию Gemini 2.0 для AI overviews в поиске и анонсировали новый продукт: AI Mode – что-то вроде агентного поиска. На меня ещё не раскатили, записаться можно вот тут.

Для AI Overviews я полировал модельку именно для поиска, под их <strike>всратые</strike> специфические эвалы и требования – такой настоящий продуктовый резёрч. Теперь миллиард+ человек будет этим пользоваться и постить мемы на реддит – интересные ощущения.

06.12.202420:51

Ладно, когда модель, в которую ты вложил недели усилий, занимает топ-1 по всем категориям включая контроль на стиль, это тоже супер 📈

Доступна на плейграунде и по апи (бесплатно!). Настойчиво рекомендую бежать пробовать. 🏃‍♂️

26.09.202413:01

Эту статью приняли на NeurIPS. Увидимся в Ванкувере! ✨

Также приняли ещё одну статью про бенчмарки GNN+LLM, о ней напишу как-нибудь позже.

29.04.202505:29

ICLR и Сингапур

Закончился ICLR (айклир) – одна из трёх крупнейших конференций по машинному обучению, проходила она в Сингапуре. На свежих щах бегу делиться впечатлениями с дорогими подпищеками, тем более, что страна очень интересная. Контента за поездку получилось на несколько постов – здесь напишу про общие впечатления от страны, потом разберу понравившиеся постеры, ну и на последок закидаю фотографиями, которые получилось сделать за пару свободных дней.

Сингапур больше всего известен своей историей выкарабкивания из бедности (см. график в комментариях), при этом никаких полезных ископаемых, драгоценных металлов, и огромного количества рабочей силы у крошечного Сингапуры просто нет. Что интересно, весь этот прорыв случился по сути из-за воли одного человека – Ли Куан Ю – (запоминаем для сочинения на тему "роль личности в истории"), в около-авторитарном режиме управления страной. Кстати, его сын показывал большие успехи в математике – Бела Боллобаш (которого читатели должны узнать по книгам про теорию графов) его называл "потенциально исследователем мирового уровня". С математикой, впрочем, не срослось – пришлось ехать домой помогать править страной – до прошлого года он был премьером Сингапура.

По приезду сразу замечаешь, насколько зелен и продуман город. Развитая система общественного транспорта, система городских парков, нестандартная архитектура с излишествами даже в дешёвых домах (застройку контролирует государство), обилие указателей и навигационных подсказок, космические тарифы на автомобили – урбанисты в экстазе. Всё это призвано бороться с экваториальным климатом – на улице почти круглый год +30 с тропическими дождями чуть ли не каждый день.

Также сразу в глаза бросается мультикультурализм, который менеджерится совсем не на западный толк. В Сингапуре малайцы, китайцы, индусы составляют существенную часть населения, и государство проводит политику их расселения по разным районам, чтобы избежать образования монокультурных гетто. Также бросается в глаза обилие чётко прописанных правил – не бросать мусор из окна, не плевать на пол, тут не лежать, тут не воровать – за всё – существенные штрафы или даже тюремный срок.

При всём этом сингапурцы не стесняются показывать своё богатство – по городу катается неприличное количество порше с феррари, небоскрёбы соревнуются друг с другом на самый красивый руфтоп (каждый с сиреной на случай внезапного грозового ливня), рестораны в моллах подают австралийский вагю, в городе полно люксового люкса. Довольно похоже на сильно более зелёный Дубай, сравните, например, грибочки в Marina Bay Sands в Сингапуре с островом bluewater в Дубае. Любят в Сингапуре и поесть. Hawker centers – национальных фудкорты с разнообразной дешёвой едой меня покорили примерно так же, как автоматы, выжимающие тебе холодный апельсиновый сок по запросу. В то же время из-за открытости к глобализации в городе присутствует много международной еды, от турецкого кебаба до сукияки. Всё, конечно, вагю.

Больше всего мне понравилась архитектура и природа – тропики, всё зеленеет и цветёт самыми разнообразными формами и цветами на фоне современных дизайнерских зданий не похожих одно на другое. Хоть из-за температуры, влажности, и сурового экваториального солнца мне было тяжеловато, городу – моё почтение.

16.04.202513:40

В Gemini подвезли генерацию видео через Veo для платных юзеров. Красивое, но не очень понятно, зачем. 🤷‍♂️

21.03.202515:07

Я тут себе каждый год желаю чего-то хорошего, на круглую циферку 👴 можно пожелать набираться мудрости и душевного спокойствия делать то, чего действие хочется.

На фото наша модель дорисовывает в мем шляпу. 😛

25.02.202511:54

Claude Code

Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.

Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.

За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.

Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.

31.10.202411:02

Начинается сезон стажировок, а это значит, что мне пару раз на дню пишут всякие талантливые товарищи с вопросами, можно ли в нашу команду устроиться стажёром. Развёрнуто отвечать на весь поток писем не всегда получается, но с дорогими подпищеками поделиться мудростью всё-таки хочется. 👴

Стажёры для компаний – это в первую очередь источник дешёвого труда. Выхлоп от самих стажёрских проектов чаще всего минимальный, но зато у компании появляется (а) ценная информация про то, какова продуктивность потенциального фулл-тайм сотрудника и (б) вероятная возможность нанять его дешевле, чем среднего выпускника: при вероятном найме люди перестают активно собеседоваться с конкурентами, снижая цену.

До ковида, когда деньги были дешёвыми, технологические компании росли, как на дрожжах. Нанимали десятки тысяч человек в год, так что все привыкли к большому потоку студентов. С резким повышением ключевой ставки, деньги стали дороже, компании стали даже увольнять людей, а количество мест для стажёров значительно сократилось. Из того, что я вижу, студенты ещё не до конца прочувствовали новую экономическую реальность, и особо не стараются с подачами. А зря.

Если среди подписчиков есть студенты, пара быстрых советов: подавайтесь широко, но прицельно. Составьте список из 10-20 наиболее близких по темам, релевантным вашему PhD, и пишите им персонализирвоанные сообщения напрямую. На копипаст или, того хуже, сгенерированные сообщения отвечать сил уже нет. Всем удачи!

25.09.202411:04

У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные <strike>энергетические</strike> блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓

25.04.202500:51

Сегодня на ICLR в Сингапуре буду представлять постер нашей статьи Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning (сама статья; про неё я писал в прошлом году).

Если вы случайно в Сингапуре – заходите на постер 214 с трёх до шести. Как обычно, после конференции покидаю постеры, что понравились, хоть их и меньше в этом году, чем обычно.

26.03.202515:51

Обновился также LiveBench.

12.03.202513:12

Gemma 3

Выкатили семейство очень добротных моделек, нацеленных на локальных юзеров. Размеры 1, 4, 12, 27B, но зато 4-27B модельки со зрением и 128к контекста! По MMMU обогнали Gemini 1.5 Flash и вплотную подобрались ко второму флешу.

По бенчмаркам не так сильно обогнали Gemma 2, но моделька сильно лучше разбирается в социальных науках, бизнесе, психологии. Особенно хороший прирост на европейских языках, но под шумок я долил и русского. 👉

Блогпост
Tech report
HuggingFace
Потыкать модель можно тут

20.02.202514:08

В комментариях к предыдущему посту уже раскопали, что с результатами Sakana всё нечисто – AI агент научился возвращать указатель на правильный результат в памяти, а сам заниматься без разницы чем. Environment hacking во всей красе.

Could not access
the media content

19.10.202411:27

Не зря, получается, постил про нобелевки – заманил в офис одного известного в узких кругах физика

24.09.202416:38

Апдейт моделей Gemini 1.5 Pro & Flash

Вышла в свет очередная вещь, над которой я работал летом – обновление основных моделей Gemini. Из хайлайтов: +8% MMLU Pro, +23% 👽 на Hendrycks MATH, +10% на GPQA Diamond для Flash модели.

Цена на Gemini 1.5 Pro порезана больше чем в два раза. Также добавили Gemini 1.5 Flash 8B в Gemini API и Google AI studio.

Shown 1 - 24 of 38

Citations

Citations