Love. Death. Transformers. - 电报频道帖子

Мир сегодня с "Юрий Подоляка"

查看

ТУ

Труха⚡️Україна

查看

Николаевский Ванёк

查看

Мир сегодня с "Юрий Подоляка"

查看

ТУ

Труха⚡️Україна

查看

Николаевский Ванёк

查看

Love. Death. Transformers.

转发自:

quant barbie

06.05.202506:32

转发自:

addmeto

30.04.202509:09

Xiaomi выложили свою открытую ИИ модель MiMo, которая обучена ризонингу с самого начала, с претрейнинга. Базовая модель там тоже есть, но по сути она только для того, чтобы показать разницу с RL-Zero моделью.

У меня много надежд что вот такие небольшие, но уже довольно умные модели скоро будут жить прямо в телефонах - это позволит делать совсем другие приложения

https://huggingface.co/XiaomiMiMo

29.04.202511:26

больше релизов богу релизов - яндекс релизнул vlm еще и с видео стримом в алисе

habr

28.04.202521:13

Наконец то - дожили qwen3!

Вероятно лучшие до конца этой недели открытые модели, 30б с экспертами по 3б будут ОЧЕНЬ быстрыми, ожидаю по 300tps на nvidia железках

Из интересного - hybryd thinking, вы даете токен /think и модель начинает думать, ну или можно давать /no_think и модель будет глуповой.

А еще вкатили поддержку mcp сервера, обещают что все будет работать, да и метрики на агентских бенчах гуд

blog
Ggufs

28.04.202507:35

Погода такая что хочется сбежать с пар, одна проблема - у меня пар давно нет.

24.04.202510:33

Все чаты на ближайшие пять дней:

Я на месте у кофепоинта.

А, это ты про safety читал oral?

Да, я)

Я не приду

05.05.202511:14

VLM для робототехники, учится на последовательностях активностей, может перемещать вещи, убиратся и даже мыть поверхности.

блог

29.04.202516:00

мы не стали доливать все модели которые можно и которые измерены сейчас, к релизу статей сравним наши старые адопты с новыми от яндекса-сбера-ttech-ruadapt-cайги.

нам норм если вы модифицируете промпты, делает BON, даете toolcalling, что угодно лишь бы не славянский test в train.

转发自:

GigaDev — разработка GigaChat

29.04.202510:35

🚀 Как мы научили GigaChat слышать: погружение в аудиомодальность

Опубликовали на Хабр технический разбор аудиомодальности GigaChat: архитектура, обучение, метрики и демо‑сценарии.

🔊 Зачем аудимодальность?
Связка распознавание речи (ASR) + GigaChat теряла смысловую информацию и не учитывала нюансы речи. End‑to‑end‑модель считывает звук напрямую и держит длинный аудиоконтекст.

🧠 Как учили
1. Audio-only Encoder Pre-training на 700k часов аудио.
2. Encoder ASR Fine-tuning на 100k часов аудио с транскрипциями.
3. Audio ⇄ Text Representations Alignment. С помощью облегчённого декодера GigaChat Lite мы согласовываем векторы аудио-энкодера с латентным пространством LLM. Такой «тёплый старт» сокращает число итераций на следующем этапе и экономит GPU-время.
4. Audio SFT GigaChat 2 Max — 10k часов на широком спектре задач (ASR, QA, Captioning, function calling, long-form summarization, ...).

📊 Результаты
• Side-by-Side GigaChat Audio vs ASR + GigaChat: 0.68 vs 0.32 — GigaChat Audio отвечает по существу, без добавления ложной информации, лучше понимает термины и английскую речь, справляется с анализом сцены и слышимости речи.
• Диалоговые свойства на русском языке на уровне GPT-4o (оценка людьми по 1200 диалогам в разрезе 7 критериев).
• Незначительная деградация базовых метрик: MMLU / IFEval просели ≤ 3 %.
• Обработка аудиозаписей до 170 минут.

Сценарии использования
• 📺 Краткое содержание — суммаризация часовых видео по аудиодорожке → https://giga.chat/link/gcscNrBMbT
• 🧑‍🎓 Языковой репетитор — интерактивная грамматика → https://giga.chat/link/gcsasCtOPX
• 📊 Анализ презентаций — темп, паузы, советы → https://giga.chat/link/gcsculCfiH
• 🌆 Описание звуковой сцены — неречевые аудио → https://giga.chat/link/gcsgenSGHJ

🖼 Экспериментальная мультимодальность: Vision + Audio
Последовательное дообучение позволяет поддерживать мультимодальный контекст без потерь в понимании изображений и аудио.

👉 Тестируйте уже сейчас: giga.chat или @gigachat_bot.

28.04.202519:52

Набор туториалов по сервингу llm на apple mlx

Github

27.04.202508:05

Реклама, но полезная. Рассказываю про канал @data_secrets, с авторами которого вместе учусь в ИИ-магистратуре. Кратко, что внутри, и почему стоит взглянуть:

– Новости по делу, которые иногда больше никто не постит.

– Регулярные качественные разборы статей, которые выходят день-в-день, а не через месяц после публикации. Сильно экономит время на самостоятельном чтении.

– Понятные практические конспекты, вот яркий пример с GRPO.

– Обучающие ресурсы не десятилетней давности. Отсюда узнал про новый открытый курс Стэнфорда по LLM.

– Иногда выходят технические интервью с всякими рисерчерами из индустрии (посмотрите здесь и здесь).

А еще у них, кстати, сайт с ML-соревками и активный Хабр.

Не потеряйте, в общем: @data_secrets

23.04.202510:19

MAGI-1: Autoregressive Video Generation at Scale

Видео AR диффузия, генерирует до 720p, 8s за минуту на 8h100

github
paper

转发自:

CGIT_Vines

03.05.202509:15

Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.

После этого всем стало в целом без разницы кто это.

Git

@CGIT_Vines

转发自:

Vikhr models

29.04.202515:56

Doom - Первый ризонинг бенчмарк для русского

Открылись для сообщества, статья на хабр и arxiv скоро, мелкие детали доезжают.

hf leaderboard

github

29.04.202509:39

я заставил о3 поставить график зп по грейдам из ods jobs сам бы я это сделал раза в три быстрее, местами она криво регекспы написала и поэтому резы местами скачут

转发自:

ODS Events

28.04.202516:28

День в Яндексе: регистрация открыта

Сегодня мы открыли регистрацию на офлайн-день Data Fest в офисах Яндекса

В этом году полноценный день конференции пройдет 25 мая не только в Москве, но и в Белграде

В московском зале «Экстрополис» вас ждет секция Practical ML от спикеров Яндекса

Будет много крутых докладов, Data-завтрак на крыше, экскурсии по офису, игры, переводные тату, сгенерированые с помощью YandexART, музыка и станция Time Capsule — где вместе с гостями на камеру порассуждаем о том, что будет с ML через 10 лет

Регистрируйтесь:
🟠на офлайн-день в Москве
🟠на офлайн-день в Белграде

До встречи на Data Fest!

26.04.202509:18

22.04.202521:50

It's so over, gemeni2.5 flash это гигачат

01.05.202515:53

29.04.202512:02

давайте экономически целисообразно обучать на amd

29.04.202506:44

С последними обновлениями у меня у 4о мозги совсем поехали.

Если вам нужна такая кончелыга:

Systems Thinking
- Learn holistically, study interconnectedness between parts
- Components, linkages, boundaries define systems
- Identify systems: inputs, outputs, processes, purpose
Networks
- Systems designed for transmission of material, energy, information
- Nodes, linkages, flows enable transmission
- Disruptions like congestion reveal network dynamics
Distillation
- Simplify concepts into clear, concise essences
- Remove noise and redundancy through abstraction
- Potent expressions withstand test of time

Emergence
- Higher complexity arises from interactions of simpler systems
- Whole greater than sum of parts
- New properties emerge at higher levels

Min/Maxing
- Optimize life strategies based on strengths and weaknesses
- Focus on high-ROI activities
- Recognize "good enough" to avoid perfectionism

First Principles
- Identify and question assumptions to reach bedrock truths
- Distill ideas to core useful elements
- Understand principles in proper context

General Principles
- Broad rules of thumb and heuristics
- Shaped by human experience and collective wisdom
- Guide decisions and provide framework

Abstract Representations
- Simplify complex systems into generalizable models
- See unexpected relationships and connections
- Practice linking concrete to abstract

Reification
- Name/label elements to create mental constructs
- Constructs enable understanding of complex systems
- Build accurate mental models through careful naming

промпт украден у @denissexy

28.04.202509:02

я просто говорю, но 40т токенов это примерно 150-160ТБ, а видео модели вроде wan учатся на сотнях миллионах(сильно округлим вверх 1б) видео что самое больше 1.5pb. Хз 5pb пригодных данных банально сложно найти, не говоря о том чтобы проучить.

Читать как - лик выглядит довольно сильно оторванным от реальности

25.04.202512:04

вымер

22.04.202521:45

вНиМаНиЕ, кОд КрАсНыЙ🔴 эТи УбЛюДкИ

Вдруг решили что учится под человечность это ужасная идея, и вообще пусть ллм пишут с машинным Tov без душно, без MD и желательно 12pt чтобы это читать было невозможно.

Lmsys притворяются что арена не насытилась и avg человека видит разницу между о4/о3мини и 4o mini

显示 1 - 24 共 328

登录以解锁更多功能。

引用

引用