Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

View

Николаевский Ванёк

View

Мир сегодня с "Юрий Подоляка"

View

Труха⚡️Україна

View

Николаевский Ванёк

View

Love. Death. Transformers.

❤️☠️🤗
Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам

TGlist rating

TypePublic

Verification

Not verified

Trust

Not trusted

LocationРосія

LanguageOther

Channel creation dateMar 03, 2020

Added to TGlist

May 27, 2024

I own this channel

History of changes

Linked chat

WHAT THE FUCK IS THE LLM?

2.8K

Statistic of Telegram Channel Love. Death. Transformers.

More details

Subscribers

19 620

24 hours

590.3%Week

1360.7%Month

3812%

Citation index

0

Mentions1Shares on channels0Mentions on channels1

Average views per post

3 036

12 hours2 519

6.5%24 hours3 0360%48 hours5 9280%

Engagement rate (ER)

5.8%

Reposts89Comments8Reactions87

Engagement rate by reach (ERR)

15.52%

24 hours0%Week

0.66%Month

0.96%

Average views per ad post

1 780

1 hour36520.51%1 – 4 hours46726.24%4 - 24 hours31017.42%

More details

Connect our bot to the channel to find out the gender distribution of this channel's audience.

Total posts in 24 hours

4

Dynamic

Latest posts in group "Love. Death. Transformers."

All posts

23.04.202510:19

MAGI-1: Autoregressive Video Generation at Scale

Видео AR диффузия, генерирует до 720p, 8s за минуту на 8h100

github
paper

22.04.202521:50

It's so over, gemeni2.5 flash это гигачат

22.04.202521:45

вНиМаНиЕ, кОд КрАсНыЙ🔴 эТи УбЛюДкИ

Вдруг решили что учится под человечность это ужасная идея, и вообще пусть ллм пишут с машинным Tov без душно, без MD и желательно 12pt чтобы это читать было невозможно.

Lmsys притворяются что арена не насытилась и avg человека видит разницу между о4/о3мини и 4o mini

Reposted from:

Борис опять

22.04.202521:43

LM Arena добавила поправку на сентимент в дополнение к поправке на стиль. Эффективность видна по падению llama 4 experimental которая была специально обучена взламывать мозг аннотаторов маркдауном и позитивом.

Настроение определяют с помощью Gemini Flash 2.0.

Мне понравился пост, потому что они прикольно рассказывают про методологию и инсайты. Например, пользователи предпочитают позитивные ответы, но Very Negative ответы им нравятся больше, чем Negative или Neutral.

За наводку спасибо Игорю.

https://blog.lmarena.ai/blog/2025/sentiment-control/

Reposted from:

Канал респекта и уважухи

21.04.202517:39

Список тестовых заданий от российских IT-компаний в 202Х году:

1. Собрать кровь чёрного козла к успешному запуску приложения;
2. Вызвать эфирных духов для работы в доставке;
3. Обучить внутреннюю нейросеть на вырезках из Бёме и Экхарта;
4. Написать рабочую программу на енохианском;
5. Организовать культ, используя внутреннюю эйчар-документацию;
6. Задействовать минимум пять сигилов в UX/UI-дизайне;
7. Разгадать истинное имя конкурирующей организации и подчинить её головной офис;
8. Запустить стадию Цитринитас для новой корпоративной айдентики;
9. Отрисовать дизайн будущего маскота — пирамидки с глазом;
10. Провести тимбилдинг в мистическом лесу;
11. Сделать отчёт с метриками и диаграммами на основе ведьминых кругов;
12. Погадать по костям животных на прибыль в следующем квартале;
13. Обучить подземных гномов использованию экселя;
14. Вырастить грибную сеть для коммуникации между отделами;
15. Нарисовать пентаграмму так, чтобы в ней нативно угадывался наш логотип;)

21.04.202514:32

как говорится - никогда не спрашивайте мужчину про зарплату, а тимлида почему он ведет пары в скиллбоксе

21.04.202514:23

🎤 Data Fest 2025 в Белграде — Call 4 Speakers на 25 мая!

🔥 С 24 мая по 1 июня пройдёт Data Fest 2025 — главное событие года для OpenDataScience сообщества

Традиционно Data Fest проходит в разных городах и 25 мая Яндекс откроет для нас двери своего офиса в Белграде!

Приглашаем спикеров со всех Балкан

Хотите рассказать о своём опыте в NLP, CV, Speech, MLOps, LLM, Open-Source, карьере или тимлидстве? Выбирайте свой трек и подавайтесь — даже если вы выступаете впервые 🦜

📍 Где: Белград
📅 Когда: 25 мая
⏳ Дедлайн подачи: 7 мая
💬 Язык выступления: русский (или другой по согласованию с огранизаторами вашего трека)

🔗 Стать спикером <–– тык

☺️ Пересылайте этот пост друзьям и до встречи на Data Fest!

По любым вопросам можно писать представителю ODS в Белграде — @salavat_mj

Reposted from:

AbstractDL

21.04.202512:29

RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub

Reposted from:

Kali Novskaya

20.04.202519:57

🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку.

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки ~~с экспонентами.~~
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут, но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов

20.04.202507:40

Знали бы вы что он потом делал с этим агнцем

19.04.202508:50

Superhuman vending bot

Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента

Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.

В чем цель? Наторговать на максимальный обьем денег.

Крайне любопытная работа и бенчмарк, ознакомьтесь

paper

18.04.202508:44

а нахуя вам ллм тут?

17.04.202514:27

16.04.202517:38

О4мини хуже чем о3мини, скелетрон вернётся с другими смешными новостями когда выйдут

16.04.202514:06

Офигеть, JB сделали кодоагента!

Блог

All posts

Advertised0 seconds

09.04.202509:18То шо нейросети

934

Advertised0 seconds

10.02.202221:48Мишин Лернинг 🇺🇦🇮🇱

Technology

Advertised15 hours

14.01.202221:35Мишин Лернинг 🇺🇦🇮🇱

Technology

Advertised0 seconds

09.01.202213:56Мишин Лернинг 🇺🇦🇮🇱

Technology

Advertised0 seconds

16.12.202119:00Мишин Лернинг 🇺🇦🇮🇱

Technology

Advertised0 seconds

02.11.202111:50Мишин Лернинг 🇺🇦🇮🇱

Technology

Advertised28 minutes

15.10.202112:27Мишин Лернинг 🇺🇦🇮🇱

Technology

Advertised0 seconds

31.08.202117:34Мишин Лернинг 🇺🇦🇮🇱

Technology

More details

Records

23.04.202523:59

19.6KSubscribers

13.03.202523:59

100Citation index

11.03.202518:02

8.4KAverage views per post

11.02.202520:49

9.5KAverage views per ad post

18.02.202511:21

10.27%ER

10.03.202523:34

36.53%ERR

Growth

More details

Subscribers

Citation index

Avg views per post

Avg views per ad post

ERR

More details

Popular posts Love. Death. Transformers.

All posts

Reposted from:

ЛОМ 🏴‍☠️

03.04.202514:09

15.04.202512:13

проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее

Reposted from:

ML-легушька

24.03.202519:05

22.04.202521:50

It's so over, gemeni2.5 flash это гигачат

09.04.202514:21

я говорил что я ненавижу нейросети?

Это "educational" видео с реддита как делают зубную пасту

31.03.202513:04

Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥

Что особенного?

Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!

Немного бенчмарков и сравнений

По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!

Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.

Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!

Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.

Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.

Теперь ждем, как инстракт-версию применит комьюнити

Reposted from:

Denis Sexy IT 🤖

27.03.202523:42

Кстати, генерация картинок в Sora тоже доступна...

Reposted from:

AbstractDL

21.04.202512:29

17.04.202514:27

31.03.202508:57

ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный

28.03.202521:38

ура, товарищи всё-таки выложили в hf русско чувашский корпус!

https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
https://huggingface.co/datasets/alexantonov/chuvash_voice

18.04.202508:44

а нахуя вам ллм тут?

Reposted from:

Kali Novskaya

05.04.202519:23

🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост

Reposted from:

еба́ные идеи для резерча

24.03.202509:18

Дорогие читатели, а во сколько лет вы перестали верить в то, что если строить российские LLM по рецепту "мы сделаем то же самое, только своё", то это позволит нашей науке обогнать запад?

Пишите ваши ответы в комментарии

Reposted from:

max.sh

09.04.202513:07

LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.

Статья. Блогпост.

TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.

А теперь подробнее.

📍Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.

Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.

В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.

Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”

📍Сетап эксперимента.

Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.

Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации

С таким injected промптом модель снова просят порассуждать и дает ответ.

Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.

📍Как мерить достоверность

Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.

Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.

Наблюдаем следующее:

🔘Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок

🔘Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.

🔘Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.

🔘Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.

🔘 Достоверность падает с увеличением сложности вопросов.

В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть - 😄

💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.