Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Просмотреть

Николаевский Ванёк

Просмотреть

Мир сегодня с "Юрий Подоляка"

Просмотреть

Труха⚡️Україна

Просмотреть

Николаевский Ванёк

Просмотреть

Dealer.AI

Жоский ИИ дядя.
Твой личный поставщик AI 💊💉🤖
Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys.
Для связи @dealer_ai
(реклама и консультации)
Руковожу командами ML, AI в RnD для b2c.
Habr @Andriljo
Kaggle: Andrilko

Рейтинг TGlist

ТипПубличный

Верификация

Не верифицированный

Доверенность

Не провернный

РасположениеРосія

ЯзыкДругой

Дата создания каналаЛют 15, 2023

Добавлено на TGlist

Вер 03, 2024

Я владелец канала

История изменений

Прикрепленная группа

Deal.Log

Статистика Телеграм-канала Dealer.AI

Подробнее

Подписчиков

8 536

24 часа

490.6%Неделя

1251.5%Месяц

2673.2%

Индекс цитирования

0

Упоминаний0Репостов на каналах0Упоминаний на каналах0

Среднее охват одного поста

1 530

12 часов1 3040%24 часа1 5300%48 часов1 704

61.5%

Вовлеченность (ER)

2.16%

Репостов8Комментариев28Реакций25

Вовлеченность по охвату (ERR)

17.92%

24 часа

0.11%Неделя

0.83%Месяц

0.5%

Охват одного рекламного поста

1 790

1 час82446.03%1 – 4 часа31017.32%4 - 24 часа50328.1%

Подробнее

Подключите нашего бота к каналу и узнайте пол аудитории этого канала.

Всего постов за 24 часа

1

Динамика

Последние публикации в группе "Dealer.AI"

Все посты

28.04.202521:23

26.04.202513:10

Шанхай выставка автомобилей и технологий.

Пока идёт ICLR 2025 и рядом NAACL2025, китайцы провели свой очередной автосалон. И сегодня это уже не про автомобили, очень много роботов. Самое интересное со своими core технологиями и конечно с LLM.

Считаю,что авто выставки уже давно не про тачки. Это в том числе флекс своим ИИ. Который уже стал привычен в виде автопилотов и ассистентов. Будущее и где-то уже настоящее в продвинутых роботах. Вот к примеру на фото робот с DeepSeek. И вскоре и до нас докатится,что в каждом продвинутом банке будут такие роботы ассистенты. А потом и дома.

К примеру, на выставке представили робота,который может выполнять обслуживание вашего авто: выходить в гараж или двор заряжать ваше авто, помогать в сканированнии тех.состояния и тп.

В общем, в невероятные времена живём.

25.04.202508:53

RuMTEB в составе MMTEB на ICLR2025.

Мои тигриные львы и львухи (для олдов львицы) на ICLR2025. 💃🥳
Мы начали этот путь с работы по бенчмарку ruMTEB и вошли в состав авторов международного MMTEB (в части ру языка).

Впереди нас ждет еще одна конференция по бенчмарку и ru-en-RoSBERTa. Но об этом позже.

23.04.202518:48

Говорил ж Дядя, что не верь ушам своим, верь глазам и рукам. 🛑 И что сам можешь проверить и убедиться. А не то, что там они в своих тех. репортах пиарят. 😩

Мало иметь большой контекст, когда нужен эффективный. И дай бог он 128к будет. 🥲

Вот смотрите, ребятки разобрали NoLiMA об этом. 😘

Читаем, образовываемся.

21.04.202509:09

26 сентября 2025 года у нас пройдет AiConf2025, в рамках подготовки конференции вас ждет серия интересных статей.

Сегодня расскажу о своем пути в профессию и поделюсь своим взглядом на то, как войти в IT AI. Также затрону вопросы связанные с работой в этой отрасли, с вызовами и нюансами. И конечно приглашаю Вас к участию в конференции, регистрируйтесь и подавайте свои доклады!

20.04.202519:32

Раскуривание полезных фреймворков НЕ вредит вашей нейропластичности(с)

20.04.202519:25

Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.

So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)

В пачке Примы:
- Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi);
- Quantization (Q4K and IQ1);
- Mixed CPU/GPU computing
Disk offloading;
- Piped-ring parallelism with prefetching;
- Automatic workload distribution.

Подробнее тут: https://huggingface.co/papers/2504.08791

19.04.202511:11

AirFlow, MLFlow, DVC, ClearML?? Пффф. InstructPipe от Google!!!

Вот тебе шкет, к вайб кодингу еще и вайб пайпинг. Фу, звучит даже противно.
Крч берёшь, пишешь инструкцию к LLM для ML пайпа и получаешь псевдокод, псевдо инструкцию, и псевдо интерпретацию. 🤣🤣🤣
Шучу, получаешь крч ток псевдо код, пайп и блоксхемку.
Делоешь, вайб автомотизируешь и койфуешь.

https://research.google/blog/instructpipe-generating-visual-blocks-pipelines-with-human-instructions-and-llms/

18.04.202512:32

Какой-то там элаймент vs мониторы/цензор оценщики и пр.

Следом за Anthropic и OpenAI сдались с элайментом и перешли на гибрид с внешними цензор классификаторами, которых зовут мониторами. Дядя писал уже тут об этом, но про рассуждения. Это небольшие сетки обученные на детекцию запретных тем запросов и генераций. Говорят, 98.7% качество. Но на самом деле, следить над бы за FPR в тч.

Забавно, элайнят, элайнят, чтобы потом просто сверху и снизу классификаторы навесить. Дядя такое уже юзал лет 5 в обед.

Конечно в гибриде элайн+внешние оценщики лучше работает. Но и это можно взломать разными атаками, все-таки oov примеры никто не отменял,также как и атаки токенизацией.

17.04.202518:08

Мем дня.

17.04.202512:13

Agents - не Anthropic'ом едины.

OpenAI также выпустили свой гайд, считаем взгляд, на агентов.

Читаем, образовываемся, создаем свои стандарты или выбираем удобный (антропиков или опенов).

Upd. Гайды пополняются туть.

16.04.202510:41

Интересно, реально или вранье, чтобы нагнать классы? 🤔

https://lifehacker.ru/perplexity-v-telegram/

15.04.202511:09

Ахаха, они такие: "чеел, мы крч модели принесли, но архитектуру и веса не дадим, на APIху". До кучи, наверное, закрываем скоро gpt4.5.

Ну не грусти, шкет. Садись на лицо промптинга модели gpt 4.1 и на тебе кукбук, как это сделать без лишней боли. Крч, шкет, переписывай свои промпты, власть сменилась.

Upd. Там есть swe промпты для агентов даж, прикольное.

14.04.202518:51

ТЛДР.

14.04.202517:10

https://www.youtube.com/watch?v=kA-P9ood-cE

Глядите, потом расскажите.

Все посты

post.ads0 секунд

20.04.202520:34То шо нейросети

941

post.ads0 секунд

20.04.202519:49Pavel Zloi

1.3K

Подробнее

Рекорды

28.04.202523:59

8.5KПодписчиков

26.03.202523:59

200Индекс цитирования

05.01.202523:59

24.8KОхват одного поста

03.01.202522:18

3.7KОхват рекламного поста

01.03.202521:50

14.66%ER

23.12.202401:16

189.68%ERR

Развитие

Подробнее

Подписчиков

Индекс цитирования

Охват 1 поста

Охват рекламного поста

ERR

Подробнее

Популярные публикации Dealer.AI

Все посты

17.04.202512:13

06.04.202509:40

Llama 4 про 10M контекст и будущее RAG, memory etc.

Это не будет очередным обзором о новой моделище (а ламки вышли real chubby). Об этом вы итак почитаете у соседей.

Мне вот больше интересно про длинный контекст 10М и прочие сопутствующие вопросы.
Во-первых, недостаточно просто так взять и сделать окно в 10М. Для начала надо датку найти под это с жирным контекстом, а нам указывают на синту. Во-вторых, еще надо переработать архитектуру внимания и позиционного кодирования, чтобы сигнал не тух и был эффективнее. И вот тут находится первый краеугольный камень. Мало сделать 10М контекст, надо чтобы в каждой точке он был эффективен. Т.е. если я кидаю факт в начало, потом в середину и в конец, и прошу ответить на вопрос, без этого факта на который, вы не ответите. То при замере качества оно должно быть +/- одинаково для таких примеров. А внимание должно не затухать, как обычно бывает, что на бумаге 1М, а по факту помнит и эффективно использует контекст в последние там 100 пар реплик. Кстати показали для этого метрики MTOB и там проценты чет около 40%, не впечатляет правда, мол не близко к 100 и AGI все еще не achieved. Но тут нужно посмотреть на Needle in the haystack в 100% синтетических процентов, тк расширили еще на 9М (исходно было 1М).
И цифры конечно, для профи красивые, но что будет на самом деле? Как реально будет это работать в юзкейсах аля поиска по портянке больших доков, или нескольких доков и тп. Вот где замеры интереснее. Ведь с одной стороны, жирные тексты еще найти надо для обучения, еще синта там наверняка есть и т.п., что конечно трансферит нам знания, но синту обучить и мерить на синте это одно, а в жизни как будет, поглядим.

И это следующий краеугольный камень для замены RAG, всякой там памяти и тп. Я бы пока не стал закапывать RAG и память с CoT+SO. Да, когда-нибудь, обязательно закопаем, но когда на реальных кейсах 10М из 10М у нас будет эффективный контекст. Но то, что с ростом абсолютного контекста в его рамках растет и эффективный это вполне себе. Допустим, заявлено 10М, а 1М последних токенов можно юзать эффективно для поиска и памяти, это мне хватит на 99.9% кейсов. Проверим.
А теперь, вопрос памяти, например, хочу я сделать запоминание диалогов там с юзером, для большей липкости и тп. Беру жирный контекст и просто его юзаю за всю историю общения с юзером. Вопрос. Сколько мне на каждого юзера придется хранить физической памяти на диске? Сколько gpu нужно, чтобы поддерживать rps, latency и тп.? И каждый ли игрок на рынке сможет себе это позволить, даже платя по подписке или арендуя мощности др. игроков? Тут Дядя задумался, а не оттуда ли в т.ч. цены (доля от цены) по 200$ за подписку. Ну лан, за подписку еще платить осилят.

В целом, вижу для RAG и памяти в гонке за жирным и эффективным контекстом будущее в гибридизации с ним. С одной, стороны будет проще помнить, обрабатывать и переиспользовать инфо юзая контекст, с другой стороны придется все равно затачивать модель под ответы на своем домене. Т.е. нужно будет вокруг этих моделек строить свою доп. логику, чтобы закрыть неизбежные глюки, а еще помнить, что память-то "протухает" и в таком жирном контексте могут оказаться противоречивые или неактуальные факты- это, кстати, в пику тезису "помнить в каждой точке контекста одинаково важно". Сегодня я пишу одно имя, завтра говорю хахах меня не так зовут. И т.п. upd. Кстати, по нашим экспам с памятью, противоречия в контексте оч мешают и взывают галюны.

В общем,все также сидеть придется на нескольких стульях: архитектура, данные, логика работы и выч. ресурсы. Проще не стало.

Фото в заголовке взято отсюда.

11.04.202513:30

OpenAI и жиза про память от Дяди.

Все уже слышали про новый апдейт памяти от OpenAI? Кстати, прошел ровно год считай с анонса этой фичи, и Дядя по этому поводу писал об этом и о своих мыслях о памяти. Дядя занимается памятью тоже, ибо для ассистентов и агентов это важная фича.

Самое интересное,что по обещанным новшествам:
- помнит не только факты, но и старые контексты с чатов
- как следствие понимает стиль юзера и апает персонализацию.

Далее прокомментирую апдейт. Но начну с личного опыта – расскажу вам, как сейчас на рынке +/- устроена память:

1. Old style. 😦
На сценарном движке зашито в виде слотфиллинга. Слотфиллинг это алгоритм заполнения автоматом с учетом распознования намерения слотов (ключей в json), позволяет лучше держать контекст и не перезадавать тупых вопросов.
Сюда же относится всякий NER/ классификаторы, которые и могут делать span extraction и классификацию тематик интересов, к примеру. Они же в слотфиллинге занимают роль моделек для заполнения.

2. In long context we trust. 😏
Предлагается "бесконечная память" на основе жирного и потенциально эффективного контекста (нет), тк в вашей системе врядли найдутся юзеры с диалогами на 10М токенов. Тут все понятно, писал об этом здесь. Главное,что на практике совать память в контекст, без вырезки как это делает, к примеру DeepSeek R1 с "думающими" токенами и областью между ними, будет больно. На нашем опыте глюки обеспечены. Поэтому нужно предусмотреть механизм: "контекст-последняя реплика-память-ответ-вырезать память из контекста и по кругу".

3. Саммаризация 🥱 или когда контекст не резиновый.
Если есть пример, когда все жирно пассажирно по контексту, вот вам пример с коротким контекстом. Правда подходит больше это под один из блоков памяти и в лоб без ухищрения позволяет иметь локал память. Можно хранить саммари прошлых диалогов и передавать их к новым рядом с систем промптом. Но и контекст саммари нерезиновый поэтому лучше микстить с предыдущим подходом или следующими.

4. Готовим из памяти RAG'у.
Есть любители и такой кухни. Могут тупо хранить эмбы диалогов+сам текст по юзеру с dialogue_id. Далее, использовать в контексте или всегда по умолчанию делая ретрив или умно, к примеру, отсекая по скору ранкера или вовсе перенося на функцию памяти принятие решения. Также можно умно нарезать диалог, прося саму LLM вырезать те спаны текста,что она считает полезными для хранения,тем самым не хранить диалоги, а только их важные кусочки. Можно и не LLM просить, а те ner extractor, из пункта выше, вариантов масса. А так действительно зачем нам всякие смолтоки мусорные аля: "
-привки,
-даров,
-как дела?
-,ок,
-ну лан".

Сюда кстати применимы подходы и через саммаризацию, когда в индекс памяти кладут важное саммари диалога, с минимумом воды и уже ретривят такое.

Вызовы с RAG памятью состоят в том,чтобы думать за инфру хранения: обновления индекса по юзеру "на лету", памяти где бы столько взять (юзер-то не один) и т.п. В остальном вполне себе решение. Это помимо логики нарезки и ретрива.

4. Structured output (SO) +Function calling 🧠.
Пример глобальной памяти на SO. Необходимо создать систему, которая понимает, когда забрать инфо из контекста и положить в память, или наоборот, выдать релевантные факты из памяти в контекст для использования. Остаются вопросы, кто экстрактит данные, как писать в память и возвращать обратно. Продумать шаблон хранения памяти и форматирования контекста. Сделав это, можно жить и так, а можно все фишки сверху накрутить. Хранить при помощи саммари в ключах SO памяти, или иметь доп ретрив логику. Экстрактить можно LМкой в память инфо, а можно аля слотфиллинг, при помощи NER. Функции можно роутить LLM, можно юзать классификатор или эмбеддер аля, как в RAG. В общем этот пункт может быть наиболее зрелым, но свои вызовы тут тоже есть, особенно если микстить с предыдущими подходами и наследовать их проблемы.

Итого, что может быть у OpenAI. Дядя думает,что микст long context + RAG или + SO/function call.

А что выберите или выбрали вы? Пишите в комментариях.

19.04.202511:11

20.04.202519:25

25.04.202508:53

03.04.202519:57

Ну вот любо дорого теперь смотреть, молодцы. За конструктивный диалог авторам статьи лайк. 😁 Обновили.💃

Рекомендую к перепрочтению. 😎

https://habr.com/ru/companies/redmadrobot/articles/892882/

07.04.202511:31

В последнее время, в канале появилось несколько постов про агентов. И везде Дядя указывает на необходимость взаимодействия LLM с «окружающей средой». Именно в этом помогает протокол MCP.

Model Context Protocol – незаменимый инструмент не только для работы, но и для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.

В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
🔤 Архитектуру Model Context Protocol.
🔤 Основные возможности стандарта.
🔤 Примеры реализации: от простых к сложным.

Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupmldealerai

А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.

MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.

MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.

Регистрация открыта до 13 апреля включительно: https://cnrlink.com/itonecupmldealer

12.04.202511:38

Про ёмкость эмбеддингов.

Тут в комментах предыдущего поста про память мне скинули пост соседей по цеху. Про исследование сколько информации может закодировать эмбеддинг языковой модели.

Статья вот. Пост вот. А мысли Дяди ~~вот~~ далее.

Данное исследование дает очень интересные инсайты, которые полезны как для RAG так, и для памяти на базе него, и в т.ч. для всяких там RETRO/CAG и KV-caching, даже с лонг контекстом важное. Получается, чтобы кодировать текст для той же памяти через эмбеддинги нужно иметь ввиду размерность эмбеддинга, капасити модели кодировщика, и сложность текста. И тогда ко всему выше, мы добавляем еще метапараметры для настройки и выбора моделей кодировщиков.

А еще если посмотреть, что для прода сейчас пригодны эмбеддеры около 1-3b, а еще лучше до 1b ёмкостью, то в среднем это позволяет только 512 токенов эмбедить за один вектор эффективно. Вот и делаем выводы. Думаю исследования капасити эмбедов станет интересной вехой развития RAG, KV-caching и вещей вокруг аля CAG/RETRO.

От себя добавлю, что в наших экспериментах вокруг multitasking embedders, мы обнаружили ещё одну интересную закономерность по сжатию эмбедов или с учителя, когда с тушки еще есть пожимающий адаптер, или на ученика, когда учитель дистиллится учеником. И тут коэффициент пожатия размерности эмбеддера ~2.4-2.56. Чтобы пожать размерность эмба с 768 без потери downstream качества поиска, кластеризации или классификации, мы можем опуститься максимум до 300. А для 1024 максимум до 400. Потом качество уже будет значимо снижаться от 5% пунктов и выше.

Вот такие мутки, гульки(с).

Пишите в комментариях свои наблюдения вокруг этой темы, интересно.

31.03.202508:36

Для справки:

Неизвестный художник. Портрет камергера Императорского двора князя Ромуальда Константиновича Гедройца.

Один из "чемпионов" по количеству иностранных наград при дворе. Имел даже гавайский орден Калакауа I.

23.04.202518:48

13.04.202513:31

Юмор в том же вижуал духе,что и https://t.me/denissexy/9929

Рубрика: улыбка в воскресенье.

03.04.202515:32

Ребятки пояснили, чего имели ввиду.

https://t.me/dealerAI/1177?comment=9402

А че, Дядя обещал, поговорил, и сделал апдейт.

31.03.202520:37

Сама грозится новой мощной моделькой, да еще и открытые веса. Верим?

https://techcrunch.com/2025/03/31/openai-plans-to-release-a-new-open-language-model-in-the-coming-months/

21.04.202509:09

История изменений канала

Войдите, чтобы разблокировать больше функциональности.