Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

查看

Николаевский Ванёк

查看

Мир сегодня с "Юрий Подоляка"

查看

Труха⚡️Україна

查看

Николаевский Ванёк

查看

Love. Death. Transformers.

❤️☠️🤗
Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам

TGlist 评分

类型公开

验证

未验证

可信度

不可靠

位置Росія

语言其他

频道创建日期Mar 03, 2020

添加到 TGlist 的日期

May 27, 2024

我是频道所有者

变更历史

关联群组

WHAT THE FUCK IS THE LLM?

2.9K

Telegram频道 Love. Death. Transformers. 统计数据

详细信息

订阅者

19 691

24 小时

260.1%一周

1410.7%一个月

3601.9%

引用指数

0

提及1频道上的转发0频道上的提及1

每帖平均覆盖率

3 690

12 小时4 510

25.1%24 小时3 690

12%48 小时4 193

5.5%

参与率 (ER)

3.74%

转发15评论8反应123

覆盖率参与率 (ERR)

18.74%

24 小时

2.58%一周

1.3%一个月

0.37%

每则广告帖子的平均覆盖率

3 690

1 小时3659.89%1 – 4 小时46712.66%4 - 24 小时3 769102.14%

详细信息

将我们的机器人连接到频道以了解该频道的受众性别。

过去 24 小时内的帖子数

4

动态

"Love. Death. Transformers." 群组最新帖子

所有帖子

28.04.202521:13

Наконец то - дожили qwen3!

Вероятно лучшие до конца этой недели открытые модели, 30б с экспертами по 3б будут ОЧЕНЬ быстрыми, ожидаю по 300tps на nvidia железках

Из интересного - hybryd thinking, вы даете токен /think и модель начинает думать, ну или можно давать /no_think и модель будет глуповой.

А еще вкатили поддержку mcp сервера, обещают что все будет работать, да и метрики на агентских бенчах гуд

blog
Ggufs

转发自:

ODS Events

28.04.202516:28

День в Яндексе: регистрация открыта

Сегодня мы открыли регистрацию на офлайн-день Data Fest в офисах Яндекса

В этом году полноценный день конференции пройдет 25 мая не только в Москве, но и в Белграде

В московском зале «Экстрополис» вас ждет секция Practical ML от спикеров Яндекса

Будет много крутых докладов, Data-завтрак на крыше, экскурсии по офису, игры, переводные тату, сгенерированые с помощью YandexART, музыка и станция Time Capsule — где вместе с гостями на камеру порассуждаем о том, что будет с ML через 10 лет

Регистрируйтесь:
🟠на офлайн-день в Москве
🟠на офлайн-день в Белграде

До встречи на Data Fest!

28.04.202509:02

я просто говорю, но 40т токенов это примерно 150-160ТБ, а видео модели вроде wan учатся на сотнях миллионах(сильно округлим вверх 1б) видео что самое больше 1.5pb. Хз 5pb пригодных данных банально сложно найти, не говоря о том чтобы проучить.

Читать как - лик выглядит довольно сильно оторванным от реальности

28.04.202507:35

Погода такая что хочется сбежать с пар, одна проблема - у меня пар давно нет.

27.04.202508:05

Реклама, но полезная. Рассказываю про канал @data_secrets, с авторами которого вместе учусь в ИИ-магистратуре. Кратко, что внутри, и почему стоит взглянуть:

– Новости по делу, которые иногда больше никто не постит.

– Регулярные качественные разборы статей, которые выходят день-в-день, а не через месяц после публикации. Сильно экономит время на самостоятельном чтении.

– Понятные практические конспекты, вот яркий пример с GRPO.

– Обучающие ресурсы не десятилетней давности. Отсюда узнал про новый открытый курс Стэнфорда по LLM.

– Иногда выходят технические интервью с всякими рисерчерами из индустрии (посмотрите здесь и здесь).

А еще у них, кстати, сайт с ML-соревками и активный Хабр.

Не потеряйте, в общем: @data_secrets

26.04.202509:18

25.04.202512:04

вымер

24.04.202510:33

Все чаты на ближайшие пять дней:

Я на месте у кофепоинта.

А, это ты про safety читал oral?

Да, я)

Я не приду

23.04.202510:19

MAGI-1: Autoregressive Video Generation at Scale

Видео AR диффузия, генерирует до 720p, 8s за минуту на 8h100

github
paper

22.04.202521:50

It's so over, gemeni2.5 flash это гигачат

22.04.202521:45

вНиМаНиЕ, кОд КрАсНыЙ🔴 эТи УбЛюДкИ

Вдруг решили что учится под человечность это ужасная идея, и вообще пусть ллм пишут с машинным Tov без душно, без MD и желательно 12pt чтобы это читать было невозможно.

Lmsys притворяются что арена не насытилась и avg человека видит разницу между о4/о3мини и 4o mini

转发自:

Борис опять

22.04.202521:43

LM Arena добавила поправку на сентимент в дополнение к поправке на стиль. Эффективность видна по падению llama 4 experimental которая была специально обучена взламывать мозг аннотаторов маркдауном и позитивом.

Настроение определяют с помощью Gemini Flash 2.0.

Мне понравился пост, потому что они прикольно рассказывают про методологию и инсайты. Например, пользователи предпочитают позитивные ответы, но Very Negative ответы им нравятся больше, чем Negative или Neutral.

За наводку спасибо Игорю.

https://blog.lmarena.ai/blog/2025/sentiment-control/

转发自:

Канал респекта и уважухи

21.04.202517:39

Список тестовых заданий от российских IT-компаний в 202Х году:

1. Собрать кровь чёрного козла к успешному запуску приложения;
2. Вызвать эфирных духов для работы в доставке;
3. Обучить внутреннюю нейросеть на вырезках из Бёме и Экхарта;
4. Написать рабочую программу на енохианском;
5. Организовать культ, используя внутреннюю эйчар-документацию;
6. Задействовать минимум пять сигилов в UX/UI-дизайне;
7. Разгадать истинное имя конкурирующей организации и подчинить её головной офис;
8. Запустить стадию Цитринитас для новой корпоративной айдентики;
9. Отрисовать дизайн будущего маскота — пирамидки с глазом;
10. Провести тимбилдинг в мистическом лесу;
11. Сделать отчёт с метриками и диаграммами на основе ведьминых кругов;
12. Погадать по костям животных на прибыль в следующем квартале;
13. Обучить подземных гномов использованию экселя;
14. Вырастить грибную сеть для коммуникации между отделами;
15. Нарисовать пентаграмму так, чтобы в ней нативно угадывался наш логотип;)

21.04.202514:32

как говорится - никогда не спрашивайте мужчину про зарплату, а тимлида почему он ведет пары в скиллбоксе

21.04.202514:23

🎤 Data Fest 2025 в Белграде — Call 4 Speakers на 25 мая!

🔥 С 24 мая по 1 июня пройдёт Data Fest 2025 — главное событие года для OpenDataScience сообщества

Традиционно Data Fest проходит в разных городах и 25 мая Яндекс откроет для нас двери своего офиса в Белграде!

Приглашаем спикеров со всех Балкан

Хотите рассказать о своём опыте в NLP, CV, Speech, MLOps, LLM, Open-Source, карьере или тимлидстве? Выбирайте свой трек и подавайтесь — даже если вы выступаете впервые 🦜

📍 Где: Белград
📅 Когда: 25 мая
⏳ Дедлайн подачи: 7 мая
💬 Язык выступления: русский (или другой по согласованию с огранизаторами вашего трека)

🔗 Стать спикером <–– тык

☺️ Пересылайте этот пост друзьям и до встречи на Data Fest!

По любым вопросам можно писать представителю ODS в Белграде — @salavat_mj

所有帖子

已广告0 秒

09.04.202509:18То шо нейросети

941

已广告0 秒

10.02.202221:48Мишин Лернинг 🇺🇦🇮🇱

8.1K

技术

已广告15 小时

14.01.202221:35Мишин Лернинг 🇺🇦🇮🇱

8.1K

技术

已广告0 秒

09.01.202213:56Мишин Лернинг 🇺🇦🇮🇱

8.1K

技术

已广告0 秒

16.12.202119:00Мишин Лернинг 🇺🇦🇮🇱

8.1K

技术

已广告0 秒

02.11.202111:50Мишин Лернинг 🇺🇦🇮🇱

8.1K

技术

已广告28 个月

15.10.202112:27Мишин Лернинг 🇺🇦🇮🇱

8.1K

技术

已广告0 秒

31.08.202117:34Мишин Лернинг 🇺🇦🇮🇱

8.1K

技术

详细信息

记录

28.04.202523:59

19.7K订阅者

13.03.202523:59

100引用指数

11.03.202518:02

8.4K每帖平均覆盖率

11.02.202520:49

9.5K广告帖子的平均覆盖率

18.02.202511:21

10.27%ER

10.03.202523:34

36.53%ERR

发展

详细信息

订阅者

引用指数

每篇帖子的浏览量

每个广告帖子的浏览量

ERR

详细信息

Love. Death. Transformers. 热门帖子

所有帖子

转发自:

ЛОМ 🏴‍☠️

03.04.202514:09

15.04.202512:13

проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее

22.04.202521:50

It's so over, gemeni2.5 flash это гигачат

28.04.202507:35

Погода такая что хочется сбежать с пар, одна проблема - у меня пар давно нет.

09.04.202514:21

я говорил что я ненавижу нейросети?

Это "educational" видео с реддита как делают зубную пасту

28.04.202521:13

31.03.202513:04

Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥

Что особенного?

Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!

Немного бенчмарков и сравнений

По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!

Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.

Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!

Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.

Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.

Теперь ждем, как инстракт-версию применит комьюнити

26.04.202509:18

转发自:

AbstractDL

21.04.202512:29

RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub

17.04.202514:27

31.03.202508:57

ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный

18.04.202508:44

а нахуя вам ллм тут?

转发自:

Kali Novskaya

05.04.202519:23

🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост

25.04.202512:04

вымер

转发自:

max.sh

09.04.202513:07

LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.

Статья. Блогпост.

TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.

А теперь подробнее.

📍Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.

Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.

В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.

Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”

📍Сетап эксперимента.

Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.

Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации

С таким injected промптом модель снова просят порассуждать и дает ответ.

Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.

📍Как мерить достоверность

Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.

Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.

Наблюдаем следующее:

🔘Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок

🔘Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.

🔘Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.

🔘Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.

🔘 Достоверность падает с увеличением сложности вопросов.

В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть - 😄

💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.

频道变更历史

登录以解锁更多功能。