Whale Chanel
Whale Chanel
Proxy MTProto
Proxy MTProto
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
Whale Chanel
Whale Chanel
Proxy MTProto
Proxy MTProto
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
Love. Death. Transformers. avatar

Love. Death. Transformers.

❤️☠️🤗
Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch
по всем вопросам
TGlist рейтингі
0
0
ТүріҚоғамдық
Растау
Расталмаған
Сенімділік
Сенімсіз
Орналасқан жеріРосія
ТілБасқа
Канал құрылған күніБер 03, 2020
TGlist-ке қосылған күні
Трав 27, 2024
Қосылған топ

Telegram арнасы Love. Death. Transformers. статистикасы

Жазылушылар

19 544

24 сағат00%Апта
81
0.4%Ай
383
2%

Дәйексөз индексі

0

Ескертулер1Каналдарда қайта жазылу0Каналдарда ескерту1

1 жазбаның орташа қамтуы

5 046

12 сағат3 356
18%
24 сағат5 046
22.2%
48 сағат6 2500%

Қатысу деңгейі (ER)

4.31%

Қайта жазылды140Пікірлер8Реакциялар45

Қамту бойынша қатысу деңгейі (ERR)

21.12%

24 сағат
0.01%
Апта
0.71%
Ай
1.45%

1 жарнамалық жазбаның қамтуы

3 508

1 сағат1 44141.08%1 – 4 сағат46713.31%4 - 24 сағат1 28736.69%
Каналға біздің ботымызды қосып, осы каналдың аудиториясын біліңіз.
24 сағаттағы жазбалар саны
2
Динамика
1

"Love. Death. Transformers." тобындағы соңғы жазбалар

Қайта жіберілді:
AbstractDL avatar
AbstractDL
RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub
Қайта жіберілді:
Kali Novskaya avatar
Kali Novskaya
🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку. 

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут,  но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов
Знали бы вы что он потом делал с этим агнцем
Superhuman vending bot

Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента

Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.

В чем цель? Наторговать на максимальный обьем денег.

Крайне любопытная работа и бенчмарк, ознакомьтесь

paper
а нахуя вам ллм тут?
О4мини хуже чем о3мини, скелетрон вернётся с другими смешными новостями когда выйдут
Офигеть, JB сделали кодоагента!

Блог
без контекста.


Бтв лучшие куличи которые я ел где либо продают в sloj
Сходки на iclr не будет
Яндекс запустил бета-версию ризонинга (рассуждений) в чате с Алисой. Это следующий шаг после Chain-of-Thought в прошлом семействе моделей YandexGPT 4 – теперь ризонинг реализован как полноценный пайплайн.

Наполнение
Данные для обучения частично генерируются через YandexGPT 5 Pro, а этап SFT оптимизируют — используются только такие запросы, по которым можно дать только однозначный ответ. Эксперементируют также с онлайн-ризонингом через GRPO, чтобы модель обучалась прямо во время взаимодействия с данными, а также с оффлайн-RL-ризонингом, проводя сравнение и дообучение на лучших генерациях.

Обучение
В обучающий датасет вошли не только математические задачи, но и практические b2b-кейсы: классификация, суммаризация, извлечение информации. Для ускорения процесса задействовали собственный open-source – библиотеку YaFSDP.

Все еще философия открытости
Есть выбор между YandexGPT 5 и опенсорсной моделью — микс “своих” и опенсорс решений. Для нашей ИИ-индустрии такой подход скорее в новинку, но это неплохое решение. Похожую стратегию применяет Microsoft, используя технологии OpenAI параллельно с развитием собственного ресерча. Конкуренция есть конкуренция, но в современной ИИ-гонке изоляция и опора только на собственные разработки - прямой путь к отставанию. Гибридный подход позволяет использовать лучшее от разных экосистем, а еще собрать более качественный датасет и понять поток запросов на рассуждения.

Reasoning-нейросетки — более нишевое решение, чем обычные LLM — они нужны, в основном, на более сложные задачи, где нужно многоступенчатое рассуждение. Но посмотреть, актуальны ли они для наших пользователей – определенно стоит. Так что ждем финальный релиз.

Ознакомиться подробнее с тестами тут
Қайта жіберілді:
Speech Info avatar
Speech Info
Mamba-модели в задачах Speech Enhancement

Заключительный пост трилогии о Mamba. Впервые эту архитектуру упомянули в контексте задач Speech Enhancement в статье «An Investigation of Incorporating Mamba for Speech Enhancement».

В этой работе модель устроена довольно просто: waveform domain → Short-Time Fourier Transform (STFT) для перехода Time-Frequency domain → Encoder → TF-Mamba → Decoder → Inverse STFT → waveform domain. Авторы сравнивают Mamba с трансформерами и показывают, что достигают того же качества, но с меньшим числом FLOPs-операций и количеством параметров.

Использование Mamba-блоков продолжили развивать в другой статье: «Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement», где их добавляют в U-Net на этапе обработки скрытых представлений для улавливания как локальных, так и глобальных зависимостей. Каждый Mamba-блок — двунаправленный, что позволяет использовать информацию о будущем и прошлом. Архитектура модели стандартная для U-Net: состоит из нескольких downsample- и затем upsample-блоков со skip-connection между ними, как показано на картинке.

Рассмотрим Mamba-блоки (TS-Mamba) подробнее. Как сказано ранее, они двунаправленные: входное представление параллельно обрабатывается блоками Forward Mamba и Backward Mamba. Постпроцессинг (RMSNorm) применяется к выходам обоих блоков, затем результаты конкатенируются и прогоняются через линейный слой. Формально каждый Mamba-блок (forwardи backward) такой же, как и в предыдущих работах. Отметим, что авторы используют Mamba-блоки и по времени, и по частотам, чтобы учитывать и временные, и частотные зависимости.

Для экспериментов выбирают четыре варианта модели с разным количеством параметров (зависит от размерности C1 и количества TS-Mamba-блоков N):

— Mamba-SEUNet (XS) — 0.99M параметров;
— Mamba-SEUNet (S) — 1.88M параметров;
— Mamba-SEUNet (M) — 3.78M параметров;
— Mamba-SEUNet (L) — 6.28M параметров.

Их сравнивают c такими SOTA-моделями, как MP-SENet и SEMamba (упомянута в начале поста) на датасете VCTK+DEMAND. Согласно замерам маленькая модель Mamba-SEUNet (XS) показывает сопоставимое качество по метрикам CSIG (4.75), CBAK (3.95) и COVL (4.23), имея вдвое меньше параметров и в разы меньше FLOPs-операций.

Для сравнения Mamba-блоков с conformer- и transformer-блоками авторы используют текущий U-Net, в котором заменяют TS-Mamba на conformer и transformer соответственно. Замеры показывают, что Mamba-SEUNet сравним по качеству с U-Net’ами, у которых conformer или transformer вместо Mamba-блоков. Но Mamba-SEUNet имеет меньше FLOPS-операций, а по количеству параметров меньше или сравнимо с U-Net с conformer и transformer. Код модели выложен в открытый доступ.

Екатерина Кузина Специально для Speech Info
проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее
забейте, экспоненты не случилось, quasar alpha это 4.1, 4.10>4.5

игратся тут
Қайта жіберілді:
BRAIn Lab: Optimization and Beyond avatar
BRAIn Lab: Optimization and Beyond
Семинар: Методы оптимизации круглых тензоров

🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn

О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.

На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.

Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!

Рекордтар

20.04.202523:59
19.6KЖазылушылар
13.03.202523:59
100Дәйексөз индексі
11.03.202518:02
8.4K1 жазбаның қамтуы
11.02.202520:49
9.5KЖарнамалық жазбаның қамтуы
18.02.202511:21
10.27%ER
10.03.202523:34
36.53%ERR
Жазылушылар
Цитата индексі
1 хабарламаның қаралымы
Жарнамалық хабарлама қаралымы
ER
ERR
ЛИП '24ЖОВТ '24СІЧ '25КВІТ '25

Love. Death. Transformers. танымал жазбалары

Қайта жіберілді:
ЛОМ 🏴‍☠️ avatar
ЛОМ 🏴‍☠️
03.04.202514:09
проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее
Қайта жіберілді:
AbstractDL avatar
AbstractDL
21.04.202512:29
RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub
Қайта жіберілді:
ML-легушька avatar
ML-легушька
я говорил что я ненавижу нейросети?

Это "educational" видео с реддита как делают зубную пасту
Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥

Что особенного?

Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!

Немного бенчмарков и сравнений

По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!

Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.

Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!

Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.

Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.

Теперь ждем, как инстракт-версию применит комьюнити
Қайта жіберілді:
Denis Sexy IT 🤖 avatar
Denis Sexy IT 🤖
Кстати, генерация картинок в Sora тоже доступна...
Қайта жіберілді:
Kali Novskaya avatar
Kali Novskaya
20.04.202519:57
🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку. 

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут,  но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов
Привет, слышал вы там нейросетями занимаетесь, тема перспективная есть, можете сделать чтобы вот прям как человек общалась?
31.03.202508:57
ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный
28.03.202521:38
ура, товарищи всё-таки выложили в hf русско чувашский корпус!

https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
https://huggingface.co/datasets/alexantonov/chuvash_voice
а нахуя вам ллм тут?
Қайта жіберілді:
Kali Novskaya avatar
Kali Novskaya
05.04.202519:23
🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост
Қайта жіберілді:
еба́ные идеи для резерча avatar
еба́ные идеи для резерча
24.03.202509:18
Дорогие читатели, а во сколько лет вы перестали верить в то, что если строить российские LLM по рецепту "мы сделаем то же самое, только своё", то это позволит нашей науке обогнать запад?

Пишите ваши ответы в комментарии
Көбірек мүмкіндіктерді ашу үшін кіріңіз.