Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Data Secrets avatar

Data Secrets

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks
По вопросам сотрудничества: @veron_28
https://telega.in/c/data_secrets
Реестр РКН: clck.ru/3FY3GN
TGlist 评分
0
0
类型公开
验证
已验证
可信度
不可靠
位置Росія
语言其他
频道创建日期Feb 06, 2025
添加到 TGlist 的日期
May 28, 2024
关联群组

"Data Secrets" 群组最新帖子

Google предложили новую обобщенную архитектуру нейросетей, устроенную так, что трансформеры и RNN являются ее частными случаями

Основная проблема сегодняшних моделей – память. У нас есть трансформеры, но их сложно масштабировать на длинный контекст из-за квадратичной сложности операций. У нас есть RNN, но они не параллелятся и постоянно все забывают.

Так что в последнее время выходит все больше работ про все новые и новые подходы к моделированию памяти. И все они строятся на каких-то видах скрещивания: атеншена с линейностью, или гейтов забывания с трансформерами, или скалярной памяти с матричной, ну и тд и тп.

В Google заметили, что почти все эти методы можно описать единым набором правил. Свой фреймворк они назвали MIRAS, и его главная идея в том, что любое проектирование памяти нейросетей сводится к четырем основным выборам:

1. Выбор архитектуры памяти. Память может быть скаляром, как в RNN, матрицей, как в трансформерах, отдельной маленькой нейросетью, как в test-time-training подходах, ну или чем-то другим.

2. Выбор attentional bias. Это функция потерь, которую память будет оптимизировать при обновлении. Цель, по сути, всегда одна: точно сопоставлять ключи со значениями, то есть верно восстаналивать связи между словами. В трансформерах, например, attention bias – это непараметрический ℓ₂‑MSE.

3. Retention Gate. Это регуляризация, которая контролирует, как и когда мы избавляемся от ненужной информации. Другими словами, мера консервативности или забывания.

4. Выбор метода оптимизации. Это конкретный рецепт того, как перейти из прошлого состояния памяти в новое, учитывая все компоненты выше. Например, в трансформерах это просто вычисление softmax‑attention, но также это может быть градиентный спуск или его модификации.


Вот и все. Похоже на выбор гиперпараметров. Перебираем набор по рамке и получаем либо уже известную модель, либо новую, с нужными свойствами по стоимости/емкости/устойчивости. И да, трансформеры, RNN и всякие Mamba – тоже частные случаи MIRAS (картинка 2).

И главное: получается, по этому пространству параметров можно гулять и искать локальные минимумы. Google для примера показали три MIRAS инстанса: Moneta, Yaad, Memora. Moneta достигает 93.5% на иголке в стоге сена, при этом перплексия падает мягко и метрики вполне себе на уровне.

Красивая и стройная работа. Читаем полностью тут
Новое исследование от Anthropic: система, которая позволяет мониторить элаймент онлайн

Обычно все тестирования на безопасность проводятся до деплоя, а затем модель уже отдают пользователям. Но что, если (теоретически) что-то пойдет не так уже после того, как систему развернули?

Anthropic предложили фрейморк для анализа диалогов пользователей и выявления ценностей, которые транслирует в этих диалогах Claude. Ценность - это какое-то "соображение" модели, которое оказывает влияние на ответ (как в мультике Головоломка). Помните, как Anthropic выделяли темы диалогов студентов с ботом? Вот тут техника похожая.

По умолчанию в клода заложены ценности "ответственность", "критическое мышление", "полезность для пользователя". Однако статистика показывает, что иногда всплывают такие штуки, как "доминирование" или "аморальность". Это результат джейлбрейков.

То есть система позволяет не только поломки в элайменте находить, но и в реальном времени ловить попытки неэтического использования.

Еще, кстати, интересно, что Claude, хоть и обучен определенным ценностям, не всегда напрямую их продавливает (картинка 3). Например, если запрос связан с прихологической помощью, он пытается переосмыслять ценности пользователя, вместо того, чтобы просто впихивать свои.

Статья
Google снова тестирует новые модели

Одна из них под кодовым названием dayhush на днях появилась на webdev арене. Кажется, это какой-то новый ассистент для программирования. Попробовать можно тут.

Вторая модель, видимо, для генерации картинок. Ее начали тестировать только вчера.

Напоминаем, что в следующем месяце у Google пройдет их крупнейший ивент I/O. Будем ждать стоящих новинок
А ничего тот факт, что Сбер приглашает тебя на One Day Offer для DS/ML/DE специалистов? 😏

Ты будешь работать над рекомендательной платформой: масштабируемой, способной каждый день удивлять пользователей и предлагать им релевантные рекомендации.

Добавляй в свой календарь 26 апреля, регистрируйся по ссылке и готовься пройти отбор в команду мечты за один день!
Джеффри Хинтон: «Люди больше похожи на ИИ, чем мы думаем»

Принято считать, что люди умеют рационально последовательно рассуждать, а ИИ – пока нет.

Но Хинтон говорит, что по мере изучения мозга становится понятно, что мышление мало похоже на логику. Наоборот, это мысли на уровне ассоциаций.

«Мы не рассуждающие системы. Мы системы аналогий. На самом деле мы гораздо менее рациональны, чем кажется. Мы думаем резонансом, а не дедукцией»
Зацените аргумент, который Meta использует в судебных исках против авторов

Сейчас на Meta заведено более 10 дел за пиратское использование книг для обучения моделей. Это, к слову, не одна и не две книги, а порядка 7 миллионов.

Так вот, в ответах истцам юристы компании используют, внимание, такой ответ:

«Использование одной книги для претрейна повышает производительность модели менее чем на 0,06%. Поэтому, взятая отдельно, работа не имеет экономической ценности в качестве обучающих данных»


То есть «все равно», используют они эту книгу или нет. Это еще не все. Адвокаты пишут, что потенциальные переговоры о лицензировании – это пустая трата времени, потому что структура прав на книги «устроена слишком нелогично».

🚨
В детской книжке по философии была найдена жемчужина

А можно лучше на мозг Димы посмотреть?
Зумеры не пройдут: теперь в Инстаграме ИИ будет отлавливать профили несовершеннолетних и автоматически менять настройки их аккаунтов

Meta будет анализировать переписки, вовлеченность и, конечно, фото. Настройки можно будет вернуть обратно, но для этого нужно будет подтвердить возраст. С сегодняшнего дня функцию уже тестируют в США.
Помните пост про ML-модель для уборки мусора, которую студенты ШАДа сделали вместе с Yandex B2B Tech?

С её помощью ускорили очистку заказников, выложили код в опенсорс — и всё это ещё во время учёбы.

Если вы тогда задумались: «А как вообще попасть в ШАД и делать такое?» — вот подробный подкаст с Алексеем Толстиковым, руководителем Школы анализа данных Яндекса.

В выпуске:
— как устроен отбор (20 задач, олимпиада или экзамен, собес);
— что за люди туда поступают и как готовятся;
— зачем нужна такая система и как она помогает вырасти от джуна до специалиста, который делает значимые проекты.

Смотреть здесь
В конце той недели Meta FAIR выкатили целую пачку опенсорсных релизов, которые могут стать частью их будущего AMI (advanced machine intelligence). Краткий разбор:

1. Perception Encoder. Лидер FAIR Ян Лекун часто говорит о том, что просто понимания изображений и видео моделям недостаточно. Они должны понимать физический мир целиком, как мы. И вот этот Perception Encoder – это как раз обобщенный аналог vision энкодера. Perception – c английского "восприятие", то есть некоторое глобальное зрение. Цель была научить систему справляться с любыми визуальными задачами, но не посредством традиционных отдельных многозадачных схем, а через единый контрастивный лосс.

2. Perception Language Model. Тут целое семейство моделей от 1 до 8 млрд параметров. Аналогично, обобщенный аналог VLM. Вместо привычных энкодеров – PE. В целом превосходит QwenVL2.5, так что результаты довольно неплохие.

3. Meta Locate 3D. Новый state‑of‑the‑art на основных бенчмарках локализации объектов в 3D. Интересно, что модель научили оперировать напрямую с RGB‑D фреймами, то есть потоками от сенсоров. Это значит, что, например, при использовании в работотехнике системе даже не понадобятся дополнительные заглушки, все будет работать end‑to‑end.

4. Dynamic Byte Latent Transformer. Пытаются уйти от токенизации и заставляют модель обрабатывать сырые байты вместо токенов. В архитектуре такой же трансформер, только еще добавляется слой для сжатия/восстановления информации.

5. Collaborative Reasoner. Фреймворк для обучения LLM решать задачи через многошаговое взаимодействие агентов. Имитация дискуссии ну или, исходя из названия, коллективного рассуждения. В плане появления реальных способностей рассуждать Meta верит в такие брейнштормы агентов больше, чем в классический single‑agent chain‑of‑thought.

Общая идея понятная: обобщить то, что можно обобщить; уйти от ограничений типа токенизации; всеми способами повышать генерализацию и адаптивность модели. Посмотрим, приживется ли.

Все веса, датасеты и демо тут
Демис Хассабис (тот самый с обложки TIME): «Сейчас ИИ не обладает сознанием, но оно может возникнуть неявно»

По словам ученого, появление сознания в моделях не является целью как таковой, но оно может возникнуть само собой по мере их развития.

«Таким системам необходимо понимание себя, собеседника и других. И это может вырасти в что-то, напоминающее самосознание. Но оно будет отличаться от человеческого»


Примерно то же самое Демис говорит про любопытство, интуицию и воображение. Сейчас его нет, но через 5-10 лет появится, и тогда модели смогут по-настоящему генерировать гипотезы и заниматься наукой.

Полное интервью (идет час, вышло несколько часов назад)
Что лучше: получить 500 000 ₽ или пропуск в одно из крупнейших сообществ web3-энтузиастов и блокчейн-разработчиков? 😏

Победители блокчейн-хакатона DeFi Hack 2025 получат и то и другое. Для этого нужно только решить реальную бизнес-задачу Сбера и предложить лучшее инновационное решение.

🏆 Призовой фонд хакатона в 1 000 000 ₽ разделят между собой 3 участника/команды: 500 000 ₽, 300 000 ₽ и 200 000 ₽.

Приём заявок продлится до 12 мая — успейте собрать команду до 5 человек или принять участие соло! 👌
В соцсетях пользователи ополчились на OpenAI за то, что результаты выпущенной o3 не соответствуют заявленным в декабре бенчмаркам. Разбираемся

Как мы помним, o3 анонсировали еще в декабре. Вот наш пост с показанными тогда метриками. Кратко: 25% на FrontierMath (против 2% у следующего конкурента) и 88% на ARC AGI.

И вот, наконец, o3 выпускают в паблик, и что мы видим? 10% на FrontierMath и 35-40 на ARC AGI.

Получается, OpenAI соврали? Не совсем так:

1. В анонсе были показаны, вероятно, результаты o3-pro, которая еще не вышла. Плюс, замеры были по верхней границе (сейчас настройки могут быть другие).

2. С декабря версии бенчмарков изменились. Если в декабре во FrontierMath было 180 задач, то теперь их 290 и они другие.

3. Выпущенная в паблик модель отличается от версий o3, которые были у OpenAI в декабре. Об этом разработчики говорили прямо на стриме: «Модель оптимизирована для реальных сценариев использования и более быстрых ответов». Ну и цена упала в несколько раз, судя по замерам ARC-AGI (картинка 3). Ожидаемо, что метрики у такой версии где-то просядут.

Ситуация, конечно, все равно спорная. Просто помним, что бенчмарки вещь тонкая, на слово верить им не стоит никогда. Сейчас это в основном инструмент маркетинга, а не адекватного эвала.
Отец обучения с подкреплением Ричард Саттон опубликовал очень интересное эссе под названием «Добро пожаловать в эру опыта»

О Ричарде мы писали вот тут. В 80-е он вместе с Эндрю Барто разработал основы RL, а в этом году они получили премию Тьюринга.

В эссе Саттон говорит о том, что эпоха контролируемого предобучения ИИ постепенно заканчивается. В будущем вместо привычной связки претрен + файнтюнинг + RL нас ждут агенты, которые будут самообучаться.

Конкретнее, агенты будут непрерывно действовать в реальном или смоделированном мире и генерировать в нем собственные данные для обучения посредством взаимодействия друг с другом. Среда, кстати, может быть какая угодно: компьютеры, игры, биржи, реальный мир для роботов или даже обычные умные часы.

Это будет похоже на тот же RL, только агенты будут оптимизировать вознаграждения, основанные именно на окружающей среде, а не только на человеческих предпочтениях. Получается, что это ближе к человекоподобному обучению на основе жизненного опыта.

Полностью почитать можно тут
Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube

记录

22.04.202523:59
57K订阅者
08.02.202510:20
400引用指数
17.03.202513:34
24.9K每帖平均覆盖率
19.03.202511:39
11.7K广告帖子的平均覆盖率
03.03.202515:06
9.57%ER
17.03.202513:34
45.37%ERR
订阅者
引用指数
每篇帖子的浏览量
每个广告帖子的浏览量
ER
ERR
JUL '24OCT '24JAN '25APR '25

Data Secrets 热门帖子

Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube
OpenAI выкатили 32-страничный практический гайд по разработке агентов

Его создавали сами инженеры из продуктовых команд стартапа.

Внутри теоретические основы, шаблоны проектирования, лучшие тактики для безопасного развертывания и мониторинга, а главное много-много примеров.

Забираем мастрид на выходные: cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
⚡️ Сэм Альтман купил DeepSeek

Сегодня ночью основатель OpenAI Сэм Альтман официально объявил о покупке стартапа DeepSeek и написал в своем Твиттере следующее:

«Мы очень ценим вклад DeepSeek в развитие open-source и обещаем сохранить традиции открытости. Поэтому теперь все их модели доступны в ChatGPT по нашей новой подписке Pro++ за 1500$ в месяц»


Также CEO пообещал в скором времени выпустить и другие модели, которые разрабатывались в DeepSeek: R1.5, R2, D2 и ☭2
🍯 Там AlphaXiv выпустили своего бесплатного агента Deep Research

Про проект AlphaXiv мы уже не раз рассказывали. Это arXiv на ИИ-стероидах. То есть хранилище открытых статей, но не простое. Там уже есть:

–> бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям
–> агент для анализа и работы с кодовой базой статьи
–> генератор конспектов

И вот сегодня завезли еще и Deep Research. Работает быстро: буквально за минуту вы получаете комплексный литературный обзор на любую научную тему.

Агент посоветует, что почитать, выделит тренды и емко расскажет о каждом ресурсе. Затем диалог можно продолжить: бот уточнит все нужные детали и ответит на любые вопросы.

Работает бесплатно, нужно только войти в аккаунт: www.alphaxiv.org/assistant
Там VSCode только что раскатили свой Agent Mode на всех пользователей

Теперь любому юзеру IDE доступен бесплатный Cursor (но не курсор). Внутри автономное редактирование кода, исправление багов в цикле, полноценный контекст всей кодовой базы и прикрученные MCP и расширения VSCode.

Как подключить:
1. Обновить VSCode
2. Открыть VSCode и перейти в режим Chat (кнопка справа)
3. Залогиниться через GitHub
4. Устновить chat.agent.enabled в настройках
5. Выбрать "Agent" в выпадающем списке в чате

Подробности тут
Ух ты: ученая из Университета Йювяскюля в Финляндии решила задачу, на которую математики не могли найти ответ 40 лет

Это настоящий прорыв в топологии. Задача касается классификации квазирегулярно эллиптических 4-многообразий, то есть понимания того, какие четырехмерные пространства могут быть образованы путем деформации стандартной четырехмерной евклидовой геометрии.

Проблему сформулировал еще в 1981 Михаил Громов. Больше 40 лет в ней не было почти никаких подвижек, пока на днях свою докторскую дисертацию не опубликовала Сусанна Хейккиля.

Девушка, кстати, любит вязание и говорит, что это самый простой способ понять и представить топологию на практике. На презентации этой работы она также объясняла свою идею с помощью вязаной сферы 🙂

Статья
Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027

В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.

Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.

Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.

Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:

⭐️ 2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.

⭐️ Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.

⭐️ Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.

⭐️ Конец 2026: массовые увольнения и перестройка рынка труда.

⭐️ Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.

⭐️ Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.

Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.

Что сказать. Сохраняйте, проверим через 3 года.
OpenAI официально запустили свою OpenAI Academy для всех

Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.

В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.

Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.

Стоит заглянуть, в общем: academy.openai.com
Вы должны это увидеть: Universal Pictures совместно с Boston Dynamics надели на робопса костюм Беззубика из мультика "Как приручить дракона" и получилось вот это 🙂

Кажется, малыша Blue от Nvidia подвинули в рейтинге самых милых роботов
Google сделали свою новую модель Gemini 2.5 Pro бесплатной

Теперь она доступна абсолютно всем юзерам. Все что нужно – аккаунт Google 🥳

Напоминаем, что сейчас Gemini 2.5 Pro занимает первое место во всех номинациях на арене (с отрывом), бьет на кодинге o1, o3-mini и Sonnet 3.7. А еще она мультимодальная и контекст у нее – миллион (!) токенов.

Пробуем: gemini.google.com
У Google вышло очень занятное исследование: они сравнили, как LLM и человеческий мозг обрабатывают язык

В качестве LM взяли Whisper, а нейронную активность человека записывали с помощью интракраниальных электродов во время спонтанных разговоров. Затем векторы эмбеддингов модельки наложили на векторы паттернов мозга и оценили линейную зависимость. Вот что получилось:

Соответствие удивительно четкое и геометрия эмбеддингов в LLM (то есть отношения между словами в embedding-пространстве) соотносится с представлениями в мозге.

➖ Во время слушания Speech-эмбеддинги явно коррелируют с активностью в слуховой коре (верхняя височная извилина), затем language-эмбеддинги коррелируют с активностью в зоне Брока (нижняя лобная извилина).

➖ Во время говорения – наоборот. Language-эмбеддинги сначала "активируются" в зоне Брока (планирование высказывания), затем speech-эмбеддинги активируются в моторной коре (непосредственно говорение), и в конце снова в слуховой коре при восприятии собственной речи.

Это удивительно, потому что технически мозг и LLM используют разные подходы. Да, и там и там нейроны, но в науке принято считать, что мозг "использует" символьный подход, то есть полагается на четкие семанические структуры, синтаксис и иерархию слов. В модельках такого нет, они понимают язык статистически.

И все-таки получается, что обычный next token prediction оказывается очень похож на реальный нейронный код, и мы неожиданно близко подобрались к моделированию мозга.

research.google/blog/deciphering-language-processing-in-the-human-brain-through-llm-representations/
Google предложили новую обобщенную архитектуру нейросетей, устроенную так, что трансформеры и RNN являются ее частными случаями

Основная проблема сегодняшних моделей – память. У нас есть трансформеры, но их сложно масштабировать на длинный контекст из-за квадратичной сложности операций. У нас есть RNN, но они не параллелятся и постоянно все забывают.

Так что в последнее время выходит все больше работ про все новые и новые подходы к моделированию памяти. И все они строятся на каких-то видах скрещивания: атеншена с линейностью, или гейтов забывания с трансформерами, или скалярной памяти с матричной, ну и тд и тп.

В Google заметили, что почти все эти методы можно описать единым набором правил. Свой фреймворк они назвали MIRAS, и его главная идея в том, что любое проектирование памяти нейросетей сводится к четырем основным выборам:

1. Выбор архитектуры памяти. Память может быть скаляром, как в RNN, матрицей, как в трансформерах, отдельной маленькой нейросетью, как в test-time-training подходах, ну или чем-то другим.

2. Выбор attentional bias. Это функция потерь, которую память будет оптимизировать при обновлении. Цель, по сути, всегда одна: точно сопоставлять ключи со значениями, то есть верно восстаналивать связи между словами. В трансформерах, например, attention bias – это непараметрический ℓ₂‑MSE.

3. Retention Gate. Это регуляризация, которая контролирует, как и когда мы избавляемся от ненужной информации. Другими словами, мера консервативности или забывания.

4. Выбор метода оптимизации. Это конкретный рецепт того, как перейти из прошлого состояния памяти в новое, учитывая все компоненты выше. Например, в трансформерах это просто вычисление softmax‑attention, но также это может быть градиентный спуск или его модификации.


Вот и все. Похоже на выбор гиперпараметров. Перебираем набор по рамке и получаем либо уже известную модель, либо новую, с нужными свойствами по стоимости/емкости/устойчивости. И да, трансформеры, RNN и всякие Mamba – тоже частные случаи MIRAS (картинка 2).

И главное: получается, по этому пространству параметров можно гулять и искать локальные минимумы. Google для примера показали три MIRAS инстанса: Moneta, Yaad, Memora. Moneta достигает 93.5% на иголке в стоге сена, при этом перплексия падает мягко и метрики вполне себе на уровне.

Красивая и стройная работа. Читаем полностью тут
🍯 Hugging Face совместно с Unsloth AI выпустили гайд по тому, как быстро научить любую модельку ризонить

Недавно Hugging Face добавили в свой NLP курс раздел "Build Reasoning Models". Внутри – подробнейшие наглядные объяснения, как работает обучение с подкреплением, ризонинг, GRPO и почему все это так бустит модельки.

А сегодня туда докатили еще и колаб-ноутбуки с практическими туториалами. Это буквально пошаговая end-to-end инструкция по тому, как завезти GRPO для любой модельки и заставить ее думать.

Вот ссылка на тетрадку с примером на gemma-3-1b, а вот теория к ней. Есть еще вариант с SmolLM-135M-Instruct. Для первого знакомства – идеально.
26.03.202509:25
AlphaXiv становится все прикольнее и прикольнее: теперь в него завезли анализ кодовой базы статьи

Представьте: вы читаете какую-то статью, у вас появляется вопрос и вы задаете его встроенному ассистенту. А тот, отвечая на него, анализирует не только текст статьи, но и репозиторий к ней (если такой имеется). Таким образом, ответы получаются более технически точными и без додумок, если в тексте что-то описано нечетко.

Также можно попросить бота объяснить кусочки кода или даже адаптировать его под ваш проект.

Итого, в AlphaXiv теперь есть: бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям, анализ кода и генератор конспектов 🍯
Конспекты по ML в стиле Ghibli

Все соцсети заполнены генерациями новой GPT-4o в стиле японской анимационной студии Ghibli. Мы тоже решили не отставать и нагенерировали вам... ML-конспектов 🤓

Получился определено плюс вайб. Пишите в комментарии, какие еще ML-темы порисовать
登录以解锁更多功能。