Reposted from:
CGIT_Vines

03.05.202509:15
Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.
После этого всем стало в целом без разницы кто это.
Git
@CGIT_Vines
После этого всем стало в целом без разницы кто это.
Git
@CGIT_Vines
Reposted from:
Vikhr models



29.04.202515:56
Doom - Первый ризонинг бенчмарк для русского
Открылись для сообщества, статья на хабр и arxiv скоро, мелкие детали доезжают.
hf leaderboard
github
Открылись для сообщества, статья на хабр и arxiv скоро, мелкие детали доезжают.
hf leaderboard
github


29.04.202509:39
я заставил о3 поставить график зп по грейдам из ods jobs сам бы я это сделал раза в три быстрее, местами она криво регекспы написала и поэтому резы местами скачут
Reposted from:
ODS Events



28.04.202516:28
День в Яндексе: регистрация открыта
Сегодня мы открыли регистрацию на офлайн-день Data Fest в офисах Яндекса
В этом году полноценный день конференции пройдет 25 мая не только в Москве, но и в Белграде
В московском зале «Экстрополис» вас ждет секция Practical ML от спикеров Яндекса
Будет много крутых докладов, Data-завтрак на крыше, экскурсии по офису, игры, переводные тату, сгенерированые с помощью YandexART, музыка и станция Time Capsule — где вместе с гостями на камеру порассуждаем о том, что будет с ML через 10 лет
Регистрируйтесь:
🟠на офлайн-день в Москве
🟠на офлайн-день в Белграде
До встречи на Data Fest!
Сегодня мы открыли регистрацию на офлайн-день Data Fest в офисах Яндекса
В этом году полноценный день конференции пройдет 25 мая не только в Москве, но и в Белграде
В московском зале «Экстрополис» вас ждет секция Practical ML от спикеров Яндекса
Будет много крутых докладов, Data-завтрак на крыше, экскурсии по офису, игры, переводные тату, сгенерированые с помощью YandexART, музыка и станция Time Capsule — где вместе с гостями на камеру порассуждаем о том, что будет с ML через 10 лет
Регистрируйтесь:
🟠на офлайн-день в Москве
🟠на офлайн-день в Белграде
До встречи на Data Fest!


26.04.202509:18


22.04.202521:50
It's so over, gemeni2.5 flash это гигачат


01.05.202515:53
29.04.202512:02
давайте экономически целисообразно обучать на amd


29.04.202506:44
С последними обновлениями у меня у 4о мозги совсем поехали.
Если вам нужна такая кончелыга:
Systems Thinking
- Learn holistically, study interconnectedness between parts
- Components, linkages, boundaries define systems
- Identify systems: inputs, outputs, processes, purpose
Networks
- Systems designed for transmission of material, energy, information
- Nodes, linkages, flows enable transmission
- Disruptions like congestion reveal network dynamics
Distillation
- Simplify concepts into clear, concise essences
- Remove noise and redundancy through abstraction
- Potent expressions withstand test of time
Emergence
- Higher complexity arises from interactions of simpler systems
- Whole greater than sum of parts
- New properties emerge at higher levels
Min/Maxing
- Optimize life strategies based on strengths and weaknesses
- Focus on high-ROI activities
- Recognize "good enough" to avoid perfectionism
First Principles
- Identify and question assumptions to reach bedrock truths
- Distill ideas to core useful elements
- Understand principles in proper context
General Principles
- Broad rules of thumb and heuristics
- Shaped by human experience and collective wisdom
- Guide decisions and provide framework
Abstract Representations
- Simplify complex systems into generalizable models
- See unexpected relationships and connections
- Practice linking concrete to abstract
Reification
- Name/label elements to create mental constructs
- Constructs enable understanding of complex systems
- Build accurate mental models through careful naming
промпт украден у @denissexy
Если вам нужна такая кончелыга:
Systems Thinking
- Learn holistically, study interconnectedness between parts
- Components, linkages, boundaries define systems
- Identify systems: inputs, outputs, processes, purpose
Networks
- Systems designed for transmission of material, energy, information
- Nodes, linkages, flows enable transmission
- Disruptions like congestion reveal network dynamics
Distillation
- Simplify concepts into clear, concise essences
- Remove noise and redundancy through abstraction
- Potent expressions withstand test of time
Emergence
- Higher complexity arises from interactions of simpler systems
- Whole greater than sum of parts
- New properties emerge at higher levels
Min/Maxing
- Optimize life strategies based on strengths and weaknesses
- Focus on high-ROI activities
- Recognize "good enough" to avoid perfectionism
First Principles
- Identify and question assumptions to reach bedrock truths
- Distill ideas to core useful elements
- Understand principles in proper context
General Principles
- Broad rules of thumb and heuristics
- Shaped by human experience and collective wisdom
- Guide decisions and provide framework
Abstract Representations
- Simplify complex systems into generalizable models
- See unexpected relationships and connections
- Practice linking concrete to abstract
Reification
- Name/label elements to create mental constructs
- Constructs enable understanding of complex systems
- Build accurate mental models through careful naming
промпт украден у @denissexy


28.04.202509:02
я просто говорю, но 40т токенов это примерно 150-160ТБ, а видео модели вроде wan учатся на сотнях миллионах(сильно округлим вверх 1б) видео что самое больше 1.5pb. Хз 5pb пригодных данных банально сложно найти, не говоря о том чтобы проучить.
Читать как - лик выглядит довольно сильно оторванным от реальности
Читать как - лик выглядит довольно сильно оторванным от реальности


25.04.202512:04
вымер
22.04.202521:45
вНиМаНиЕ, кОд КрАсНыЙ🔴 эТи УбЛюДкИ
Вдруг решили что учится под человечность это ужасная идея, и вообще пусть ллм пишут с машинным Tov без душно, без MD и желательно 12pt чтобы это читать было невозможно.
Lmsys притворяются что арена не насытилась и avg человека видит разницу между о4/о3мини и 4o mini
Вдруг решили что учится под человечность это ужасная идея, и вообще пусть ллм пишут с машинным Tov без душно, без MD и желательно 12pt чтобы это читать было невозможно.
Lmsys притворяются что арена не насытилась и avg человека видит разницу между о4/о3мини и 4o mini
Reposted from:
addmeto

30.04.202509:09
Xiaomi выложили свою открытую ИИ модель MiMo, которая обучена ризонингу с самого начала, с претрейнинга. Базовая модель там тоже есть, но по сути она только для того, чтобы показать разницу с RL-Zero моделью.
У меня много надежд что вот такие небольшие, но уже довольно умные модели скоро будут жить прямо в телефонах - это позволит делать совсем другие приложения
https://huggingface.co/XiaomiMiMo
У меня много надежд что вот такие небольшие, но уже довольно умные модели скоро будут жить прямо в телефонах - это позволит делать совсем другие приложения
https://huggingface.co/XiaomiMiMo


28.04.202521:13
Наконец то - дожили qwen3!
Вероятно лучшие до конца этой недели открытые модели, 30б с экспертами по 3б будут ОЧЕНЬ быстрыми, ожидаю по 300tps на nvidia железках
Из интересного - hybryd thinking, вы даете токен /think и модель начинает думать, ну или можно давать /no_think и модель будет глуповой.
А еще вкатили поддержку mcp сервера, обещают что все будет работать, да и метрики на агентских бенчах гуд
blog
Ggufs
Вероятно лучшие до конца этой недели открытые модели, 30б с экспертами по 3б будут ОЧЕНЬ быстрыми, ожидаю по 300tps на nvidia железках
Из интересного - hybryd thinking, вы даете токен /think и модель начинает думать, ну или можно давать /no_think и модель будет глуповой.
А еще вкатили поддержку mcp сервера, обещают что все будет работать, да и метрики на агентских бенчах гуд
blog
Ggufs


28.04.202507:35
Погода такая что хочется сбежать с пар, одна проблема - у меня пар давно нет.
24.04.202510:33
Все чаты на ближайшие пять дней:
Я на месте у кофепоинта.
А, это ты про safety читал oral?
Да, я)
Я не приду
Я на месте у кофепоинта.
А, это ты про safety читал oral?
Да, я)
Я не приду
Reposted from:
Борис опять



22.04.202521:43
LM Arena добавила поправку на сентимент в дополнение к поправке на стиль. Эффективность видна по падению llama 4 experimental которая была специально обучена взламывать мозг аннотаторов маркдауном и позитивом.
Настроение определяют с помощью Gemini Flash 2.0.
Мне понравился пост, потому что они прикольно рассказывают про методологию и инсайты. Например, пользователи предпочитают позитивные ответы, но Very Negative ответы им нравятся больше, чем Negative или Neutral.
За наводку спасибо Игорю.
https://blog.lmarena.ai/blog/2025/sentiment-control/
Настроение определяют с помощью Gemini Flash 2.0.
Мне понравился пост, потому что они прикольно рассказывают про методологию и инсайты. Например, пользователи предпочитают позитивные ответы, но Very Negative ответы им нравятся больше, чем Negative или Neutral.
За наводку спасибо Игорю.
https://blog.lmarena.ai/blog/2025/sentiment-control/
29.04.202516:00
мы не стали доливать все модели которые можно и которые измерены сейчас, к релизу статей сравним наши старые адопты с новыми от яндекса-сбера-ttech-ruadapt-cайги.
нам норм если вы модифицируете промпты, делает BON, даете toolcalling, что угодно лишь бы не славянский test в train.
нам норм если вы модифицируете промпты, делает BON, даете toolcalling, что угодно лишь бы не славянский test в train.
Reposted from:
GigaDev — разработка GigaChat



29.04.202510:35
🚀 Как мы научили GigaChat слышать: погружение в аудиомодальность
Опубликовали на Хабр технический разбор аудиомодальности GigaChat: архитектура, обучение, метрики и демо‑сценарии.
🔊 Зачем аудимодальность?
Связка распознавание речи (ASR) + GigaChat теряла смысловую информацию и не учитывала нюансы речи. End‑to‑end‑модель считывает звук напрямую и держит длинный аудиоконтекст.
🧠 Как учили
1. Audio-only Encoder Pre-training на 700k часов аудио.
2. Encoder ASR Fine-tuning на 100k часов аудио с транскрипциями.
3. Audio ⇄ Text Representations Alignment. С помощью облегчённого декодера
4. Audio SFT
📊 Результаты
• Side-by-Side
• Диалоговые свойства на русском языке на уровне GPT-4o (оценка людьми по 1200 диалогам в разрезе 7 критериев).
• Незначительная деградация базовых метрик: MMLU / IFEval просели ≤ 3 %.
• Обработка аудиозаписей до 170 минут.
Сценарии использования
• 📺 Краткое содержание — суммаризация часовых видео по аудиодорожке → https://giga.chat/link/gcscNrBMbT
• 🧑🎓 Языковой репетитор — интерактивная грамматика → https://giga.chat/link/gcsasCtOPX
• 📊 Анализ презентаций — темп, паузы, советы → https://giga.chat/link/gcsculCfiH
• 🌆 Описание звуковой сцены — неречевые аудио → https://giga.chat/link/gcsgenSGHJ
🖼 Экспериментальная мультимодальность: Vision + Audio
Последовательное дообучение позволяет поддерживать мультимодальный контекст без потерь в понимании изображений и аудио.
👉 Тестируйте уже сейчас: giga.chat или @gigachat_bot.
Опубликовали на Хабр технический разбор аудиомодальности GigaChat: архитектура, обучение, метрики и демо‑сценарии.
🔊 Зачем аудимодальность?
Связка распознавание речи (ASR) + GigaChat теряла смысловую информацию и не учитывала нюансы речи. End‑to‑end‑модель считывает звук напрямую и держит длинный аудиоконтекст.
🧠 Как учили
1. Audio-only Encoder Pre-training на 700k часов аудио.
2. Encoder ASR Fine-tuning на 100k часов аудио с транскрипциями.
3. Audio ⇄ Text Representations Alignment. С помощью облегчённого декодера
GigaChat Lite
мы согласовываем векторы аудио-энкодера с латентным пространством LLM. Такой «тёплый старт» сокращает число итераций на следующем этапе и экономит GPU-время.4. Audio SFT
GigaChat 2 Max
— 10k часов на широком спектре задач (ASR, QA, Captioning, function calling, long-form summarization, ...).📊 Результаты
• Side-by-Side
GigaChat Audio
vs ASR + GigaChat
: 0.68 vs 0.32 — GigaChat Audio отвечает по существу, без добавления ложной информации, лучше понимает термины и английскую речь, справляется с анализом сцены и слышимости речи.• Диалоговые свойства на русском языке на уровне GPT-4o (оценка людьми по 1200 диалогам в разрезе 7 критериев).
• Незначительная деградация базовых метрик: MMLU / IFEval просели ≤ 3 %.
• Обработка аудиозаписей до 170 минут.
Сценарии использования
• 📺 Краткое содержание — суммаризация часовых видео по аудиодорожке → https://giga.chat/link/gcscNrBMbT
• 🧑🎓 Языковой репетитор — интерактивная грамматика → https://giga.chat/link/gcsasCtOPX
• 📊 Анализ презентаций — темп, паузы, советы → https://giga.chat/link/gcsculCfiH
• 🌆 Описание звуковой сцены — неречевые аудио → https://giga.chat/link/gcsgenSGHJ
🖼 Экспериментальная мультимодальность: Vision + Audio
Последовательное дообучение позволяет поддерживать мультимодальный контекст без потерь в понимании изображений и аудио.
👉 Тестируйте уже сейчас: giga.chat или @gigachat_bot.
28.04.202519:52
Набор туториалов по сервингу llm на apple mlx
Github
Github
27.04.202508:05
Реклама, но полезная. Рассказываю про канал @data_secrets, с авторами которого вместе учусь в ИИ-магистратуре. Кратко, что внутри, и почему стоит взглянуть:
– Новости по делу, которые иногда больше никто не постит.
– Регулярные качественные разборы статей, которые выходят день-в-день, а не через месяц после публикации. Сильно экономит время на самостоятельном чтении.
– Понятные практические конспекты, вот яркий пример с GRPO.
– Обучающие ресурсы не десятилетней давности. Отсюда узнал про новый открытый курс Стэнфорда по LLM.
– Иногда выходят технические интервью с всякими рисерчерами из индустрии (посмотрите здесь и здесь).
А еще у них, кстати, сайт с ML-соревками и активный Хабр.
Не потеряйте, в общем: @data_secrets
– Новости по делу, которые иногда больше никто не постит.
– Регулярные качественные разборы статей, которые выходят день-в-день, а не через месяц после публикации. Сильно экономит время на самостоятельном чтении.
– Понятные практические конспекты, вот яркий пример с GRPO.
– Обучающие ресурсы не десятилетней давности. Отсюда узнал про новый открытый курс Стэнфорда по LLM.
– Иногда выходят технические интервью с всякими рисерчерами из индустрии (посмотрите здесь и здесь).
А еще у них, кстати, сайт с ML-соревками и активный Хабр.
Не потеряйте, в общем: @data_secrets
Reposted from:
Канал респекта и уважухи

21.04.202517:39
Список тестовых заданий от российских IT-компаний в 202Х году:
1. Собрать кровь чёрного козла к успешному запуску приложения;
2. Вызвать эфирных духов для работы в доставке;
3. Обучить внутреннюю нейросеть на вырезках из Бёме и Экхарта;
4. Написать рабочую программу на енохианском;
5. Организовать культ, используя внутреннюю эйчар-документацию;
6. Задействовать минимум пять сигилов в UX/UI-дизайне;
7. Разгадать истинное имя конкурирующей организации и подчинить её головной офис;
8. Запустить стадию Цитринитас для новой корпоративной айдентики;
9. Отрисовать дизайн будущего маскота — пирамидки с глазом;
10. Провести тимбилдинг в мистическом лесу;
11. Сделать отчёт с метриками и диаграммами на основе ведьминых кругов;
12. Погадать по костям животных на прибыль в следующем квартале;
13. Обучить подземных гномов использованию экселя;
14. Вырастить грибную сеть для коммуникации между отделами;
15. Нарисовать пентаграмму так, чтобы в ней нативно угадывался наш логотип;)
1. Собрать кровь чёрного козла к успешному запуску приложения;
2. Вызвать эфирных духов для работы в доставке;
3. Обучить внутреннюю нейросеть на вырезках из Бёме и Экхарта;
4. Написать рабочую программу на енохианском;
5. Организовать культ, используя внутреннюю эйчар-документацию;
6. Задействовать минимум пять сигилов в UX/UI-дизайне;
7. Разгадать истинное имя конкурирующей организации и подчинить её головной офис;
8. Запустить стадию Цитринитас для новой корпоративной айдентики;
9. Отрисовать дизайн будущего маскота — пирамидки с глазом;
10. Провести тимбилдинг в мистическом лесу;
11. Сделать отчёт с метриками и диаграммами на основе ведьминых кругов;
12. Погадать по костям животных на прибыль в следующем квартале;
13. Обучить подземных гномов использованию экселя;
14. Вырастить грибную сеть для коммуникации между отделами;
15. Нарисовать пентаграмму так, чтобы в ней нативно угадывался наш логотип;)
Shown 1 - 24 of 326
Log in to unlock more functionality.