Dealer.AI - Публікацыі Тэлеграм-канала

Whale Chanel

Паглядзець

Proxy MTProto

Паглядзець

Proxy MTProto | پروکسی

Паглядзець

Dealer.AI

25.04.202508:53

RuMTEB в составе MMTEB на ICLR2025.

Мои тигриные львы и львухи (для олдов львицы) на ICLR2025. 💃🥳
Мы начали этот путь с работы по бенчмарку ruMTEB и вошли в состав авторов международного MMTEB (в части ру языка).

Впереди нас ждет еще одна конференция по бенчмарку и ru-en-RoSBERTa. Но об этом позже.

20.04.202519:25

Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.

So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)

В пачке Примы:
- Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi);
- Quantization (Q4K and IQ1);
- Mixed CPU/GPU computing
Disk offloading;
- Piped-ring parallelism with prefetching;
- Automatic workload distribution.

Подробнее тут: https://huggingface.co/papers/2504.08791

17.04.202512:13

Agents - не Anthropic'ом едины.

OpenAI также выпустили свой гайд, считаем взгляд, на агентов.

Читаем, образовываемся, создаем свои стандарты или выбираем удобный (антропиков или опенов).

Upd. Гайды пополняются туть.

12.04.202511:38

Про ёмкость эмбеддингов.

Тут в комментах предыдущего поста про память мне скинули пост соседей по цеху. Про исследование сколько информации может закодировать эмбеддинг языковой модели.

Статья вот. Пост вот. А мысли Дяди ~~вот~~ далее.

Данное исследование дает очень интересные инсайты, которые полезны как для RAG так, и для памяти на базе него, и в т.ч. для всяких там RETRO/CAG и KV-caching, даже с лонг контекстом важное. Получается, чтобы кодировать текст для той же памяти через эмбеддинги нужно иметь ввиду размерность эмбеддинга, капасити модели кодировщика, и сложность текста. И тогда ко всему выше, мы добавляем еще метапараметры для настройки и выбора моделей кодировщиков.

А еще если посмотреть, что для прода сейчас пригодны эмбеддеры около 1-3b, а еще лучше до 1b ёмкостью, то в среднем это позволяет только 512 токенов эмбедить за один вектор эффективно. Вот и делаем выводы. Думаю исследования капасити эмбедов станет интересной вехой развития RAG, KV-caching и вещей вокруг аля CAG/RETRO.

От себя добавлю, что в наших экспериментах вокруг multitasking embedders, мы обнаружили ещё одну интересную закономерность по сжатию эмбедов или с учителя, когда с тушки еще есть пожимающий адаптер, или на ученика, когда учитель дистиллится учеником. И тут коэффициент пожатия размерности эмбеддера ~2.4-2.56. Чтобы пожать размерность эмба с 768 без потери downstream качества поиска, кластеризации или классификации, мы можем опуститься максимум до 300. А для 1024 максимум до 400. Потом качество уже будет значимо снижаться от 5% пунктов и выше.

Вот такие мутки, гульки(с).

Пишите в комментариях свои наблюдения вокруг этой темы, интересно.

06.04.202518:10

Когда тема с длинным контекстом снова актуальна, как и мем здесь 👆.

04.04.202514:49

Обещанного три года ждут(с)

23.04.202518:48

Говорил ж Дядя, что не верь ушам своим, верь глазам и рукам. 🛑 И что сам можешь проверить и убедиться. А не то, что там они в своих тех. репортах пиарят. 😩

Мало иметь большой контекст, когда нужен эффективный. И дай бог он 128к будет. 🥲

Вот смотрите, ребятки разобрали NoLiMA об этом. 😘

Читаем, образовываемся.

19.04.202511:11

AirFlow, MLFlow, DVC, ClearML?? Пффф. IstructPipe от Google!!!

Вот тебе шкет, к вайб кодингу еще и вайб пайпинг. Фу, звучит даже противно.
Крч берёшь, пишешь инструкцию к LLM для ML пайпа и получаешь псевдокод, псевдо инструкцию, и псевдо интерпретацию. 🤣🤣🤣
Шучу, получаешь крч ток псевдо код, пайп и блоксхемку.
Делоешь, вайб автомотизируешь и койфуешь.

https://research.google/blog/instructpipe-generating-visual-blocks-pipelines-with-human-instructions-and-llms/

14.04.202518:51

ТЛДР.

11.04.202513:30

OpenAI и жиза про память от Дяди.

Все уже слышали про новый апдейт памяти от OpenAI? Кстати, прошел ровно год считай с анонса этой фичи, и Дядя по этому поводу писал об этом и о своих мыслях о памяти. Дядя занимается памятью тоже, ибо для ассистентов и агентов это важная фича.

Самое интересное,что по обещанным новшествам:
- помнит не только факты, но и старые контексты с чатов
- как следствие понимает стиль юзера и апает персонализацию.

Далее прокомментирую апдейт. Но начну с личного опыта – расскажу вам, как сейчас на рынке +/- устроена память:

1. Old style. 😦
На сценарном движке зашито в виде слотфиллинга. Слотфиллинг это алгоритм заполнения автоматом с учетом распознования намерения слотов (ключей в json), позволяет лучше держать контекст и не перезадавать тупых вопросов.
Сюда же относится всякий NER/ классификаторы, которые и могут делать span extraction и классификацию тематик интересов, к примеру. Они же в слотфиллинге занимают роль моделек для заполнения.

2. In long context we trust. 😏
Предлагается "бесконечная память" на основе жирного и потенциально эффективного контекста (нет), тк в вашей системе врядли найдутся юзеры с диалогами на 10М токенов. Тут все понятно, писал об этом здесь. Главное,что на практике совать память в контекст, без вырезки как это делает, к примеру DeepSeek R1 с "думающими" токенами и областью между ними, будет больно. На нашем опыте глюки обеспечены. Поэтому нужно предусмотреть механизм: "контекст-последняя реплика-память-ответ-вырезать память из контекста и по кругу".

3. Саммаризация 🥱 или когда контекст не резиновый.
Если есть пример, когда все жирно пассажирно по контексту, вот вам пример с коротким контекстом. Правда подходит больше это под один из блоков памяти и в лоб без ухищрения позволяет иметь локал память. Можно хранить саммари прошлых диалогов и передавать их к новым рядом с систем промптом. Но и контекст саммари нерезиновый поэтому лучше микстить с предыдущим подходом или следующими.

4. Готовим из памяти RAG'у.
Есть любители и такой кухни. Могут тупо хранить эмбы диалогов+сам текст по юзеру с dialogue_id. Далее, использовать в контексте или всегда по умолчанию делая ретрив или умно, к примеру, отсекая по скору ранкера или вовсе перенося на функцию памяти принятие решения. Также можно умно нарезать диалог, прося саму LLM вырезать те спаны текста,что она считает полезными для хранения,тем самым не хранить диалоги, а только их важные кусочки. Можно и не LLM просить, а те ner extractor, из пункта выше, вариантов масса. А так действительно зачем нам всякие смолтоки мусорные аля: "
-привки,
-даров,
-как дела?
-,ок,
-ну лан".

Сюда кстати применимы подходы и через саммаризацию, когда в индекс памяти кладут важное саммари диалога, с минимумом воды и уже ретривят такое.

Вызовы с RAG памятью состоят в том,чтобы думать за инфру хранения: обновления индекса по юзеру "на лету", памяти где бы столько взять (юзер-то не один) и т.п. В остальном вполне себе решение. Это помимо логики нарезки и ретрива.

4. Structured output (SO) +Function calling 🧠.
Пример глобальной памяти на SO. Необходимо создать систему, которая понимает, когда забрать инфо из контекста и положить в память, или наоборот, выдать релевантные факты из памяти в контекст для использования. Остаются вопросы, кто экстрактит данные, как писать в память и возвращать обратно. Продумать шаблон хранения памяти и форматирования контекста. Сделав это, можно жить и так, а можно все фишки сверху накрутить. Хранить при помощи саммари в ключах SO памяти, или иметь доп ретрив логику. Экстрактить можно LМкой в память инфо, а можно аля слотфиллинг, при помощи NER. Функции можно роутить LLM, можно юзать классификатор или эмбеддер аля, как в RAG. В общем этот пункт может быть наиболее зрелым, но свои вызовы тут тоже есть, особенно если микстить с предыдущими подходами и наследовать их проблемы.

Итого, что может быть у OpenAI. Дядя думает,что микст long context + RAG или + SO/function call.

А что выберите или выбрали вы? Пишите в комментариях.

06.04.202509:40

Llama 4 про 10M контекст и будущее RAG, memory etc.

Это не будет очередным обзором о новой моделище (а ламки вышли real chubby). Об этом вы итак почитаете у соседей.

Мне вот больше интересно про длинный контекст 10М и прочие сопутствующие вопросы.
Во-первых, недостаточно просто так взять и сделать окно в 10М. Для начала надо датку найти под это с жирным контекстом, а нам указывают на синту. Во-вторых, еще надо переработать архитектуру внимания и позиционного кодирования, чтобы сигнал не тух и был эффективнее. И вот тут находится первый краеугольный камень. Мало сделать 10М контекст, надо чтобы в каждой точке он был эффективен. Т.е. если я кидаю факт в начало, потом в середину и в конец, и прошу ответить на вопрос, без этого факта на который, вы не ответите. То при замере качества оно должно быть +/- одинаково для таких примеров. А внимание должно не затухать, как обычно бывает, что на бумаге 1М, а по факту помнит и эффективно использует контекст в последние там 100 пар реплик. Кстати показали для этого метрики MTOB и там проценты чет около 40%, не впечатляет правда, мол не близко к 100 и AGI все еще не achieved. Но тут нужно посмотреть на Needle in the haystack в 100% синтетических процентов, тк расширили еще на 9М (исходно было 1М).
И цифры конечно, для профи красивые, но что будет на самом деле? Как реально будет это работать в юзкейсах аля поиска по портянке больших доков, или нескольких доков и тп. Вот где замеры интереснее. Ведь с одной стороны, жирные тексты еще найти надо для обучения, еще синта там наверняка есть и т.п., что конечно трансферит нам знания, но синту обучить и мерить на синте это одно, а в жизни как будет, поглядим.

И это следующий краеугольный камень для замены RAG, всякой там памяти и тп. Я бы пока не стал закапывать RAG и память с CoT+SO. Да, когда-нибудь, обязательно закопаем, но когда на реальных кейсах 10М из 10М у нас будет эффективный контекст. Но то, что с ростом абсолютного контекста в его рамках растет и эффективный это вполне себе. Допустим, заявлено 10М, а 1М последних токенов можно юзать эффективно для поиска и памяти, это мне хватит на 99.9% кейсов. Проверим.
А теперь, вопрос памяти, например, хочу я сделать запоминание диалогов там с юзером, для большей липкости и тп. Беру жирный контекст и просто его юзаю за всю историю общения с юзером. Вопрос. Сколько мне на каждого юзера придется хранить физической памяти на диске? Сколько gpu нужно, чтобы поддерживать rps, latency и тп.? И каждый ли игрок на рынке сможет себе это позволить, даже платя по подписке или арендуя мощности др. игроков? Тут Дядя задумался, а не оттуда ли в т.ч. цены (доля от цены) по 200$ за подписку. Ну лан, за подписку еще платить осилят.

В целом, вижу для RAG и памяти в гонке за жирным и эффективным контекстом будущее в гибридизации с ним. С одной, стороны будет проще помнить, обрабатывать и переиспользовать инфо юзая контекст, с другой стороны придется все равно затачивать модель под ответы на своем домене. Т.е. нужно будет вокруг этих моделек строить свою доп. логику, чтобы закрыть неизбежные глюки, а еще помнить, что память-то "протухает" и в таком жирном контексте могут оказаться противоречивые или неактуальные факты- это, кстати, в пику тезису "помнить в каждой точке контекста одинаково важно". Сегодня я пишу одно имя, завтра говорю хахах меня не так зовут. И т.п. upd. Кстати, по нашим экспам с памятью, противоречия в контексте оч мешают и взывают галюны.

В общем,все также сидеть придется на нескольких стульях: архитектура, данные, логика работы и выч. ресурсы. Проще не стало.

Фото в заголовке взято отсюда.

03.04.202519:57

Ну вот любо дорого теперь смотреть, молодцы. За конструктивный диалог авторам статьи лайк. 😁 Обновили.💃

Рекомендую к перепрочтению. 😎

https://habr.com/ru/companies/redmadrobot/articles/892882/

21.04.202509:09

26 сентября 2025 года у нас пройдет AiConf2025, в рамках подготовки конференции вас ждет серия интересных статей.

Сегодня расскажу о своем пути в профессию и поделюсь своим взглядом на то, как войти в IT AI. Также затрону вопросы связанные с работой в этой отрасли, с вызовами и нюансами. И конечно приглашаю Вас к участию в конференции, регистрируйтесь и подавайте свои доклады!

18.04.202512:32

Какой-то там элаймент vs мониторы/цензор оценщики и пр.

Следом за Anthropic и OpenAI сдались с элайментом и перешли на гибрид с внешними цензор классификаторами, которых зовут мониторами. Дядя писал уже тут об этом, но про рассуждения. Это небольшие сетки обученные на детекцию запретных тем запросов и генераций. Говорят, 98.7% качество. Но на самом деле, следить над бы за FPR в тч.

Забавно, элайнят, элайнят, чтобы потом просто сверху и снизу классификаторы навесить. Дядя такое уже юзал лет 5 в обед.

Конечно в гибриде элайн+внешние оценщики лучше работает. Но и это можно взломать разными атаками, все-таки oov примеры никто не отменял,также как и атаки токенизацией.

14.04.202517:10

https://www.youtube.com/watch?v=kA-P9ood-cE

Глядите, потом расскажите.

10.04.202510:19

Про инженерные платформы и AI.

Дядя очень радеет за технологическую зрелость data-driven решений и процессов, а что, если целый банк является примером data-driven компании?

Об этом, 23 апреля расскажет Т-Банк в рамках Platform Engineering Night. Приходите послушать, как AI помогает автоматизировать процессы, оптимизировать ресурсы и повысить продуктивность платформенных команд.

Что будет в программе:
— Доклады экспертов о применении AI в инженерных платформах.
— Зоны демонстрации AI-решений в платформах.
— Нетворкинг с инженерами и лидерами отрасли.

Где?
Встреча пройдет 23 апреля в 19:00 в T-Space по адресу Москва, Грузинский Вал, 7. Доклады можно послушать в онлайне.

Это бесплатно, успейте зарегистрироваться.

05.04.202510:09

Нинка 2 aka Nintendo Switch 2 выходит в предзаказ.

Пост выходного дня. Юмора на неделе хватало: от дня дурака до крестовых походов.
Поэтому будет сегодня про досуг.

В общем, у Дяди есть любовь к консольным играм, и конечно же имеется Nintendo switch первого поколения и тут объявили о скором выходе второго. Причем предзаказ стартует аж 08.04.2025.

Что из интересного для меня:
- FHD разрешение в портативном режиме и апскейл до 4к с приставкой при подключении к экрану ТВ, монитора или тп. Причем обещают 60-120fps.
- Увеличили экранчик на пару дюймов, при этом толщина та же. Размер выходит между старой нинкой и непотопляемым steamdeck.
- Памяти досыпали побольше 256gb встройки, правда формат sd карт только один.
- Обратная совместимость с играми первой серии,но логично,что игры от второй на первую не пойдут.
- Запилили более "удобный" режим стримминга (правда стримить в 14 fps такое себе), новые возможности для корпоративной игры, включая даже шеринг на старые устройства серии (нинка 2 будет как основная консоль).
- Более мощное железо, экран fhd, правда IPS, а не Oled (через два года ждем).

Раз все стало быстрее, выше, мощнее,то и игр отсыпали новых подстать. Помимо эксклюзивов, появится цива 7, киберпанк, elden ring, harry potter, border lands 4 и др.🤙

Интересно? Да, если бы не цены. Цена за версию с поддержкой ру языка будет около 450$. В Японии самая дешевая разумеется (чет около 350$), для Европы и USA подороже. Но Япов версия соло на их языке. Самое больное это картриджи, для любителей коллекционировать коробушки цены от 50 бачей обещают, а где-то будет даже 70-80$. 😳 Да конечно есть подписки всякие, где будет наверняка подешевле.

Крч, тут не знаешь, то ли радоваться, то ли плакать. 😔
Конечно, серия Нинтендо не про деньги, тут своя фанатская культура, экслюзивы и желаемая портативность/мобильность. Но, сидишь и думаешь, брать сейчас за +20% стоимости как эсклюзив или подождать Oled (и к тому моменту уже хацкеры подсуетятся) или подождать спада цен. Или за эти деньги взять себе ПК. Решать каждому.

А что вы думаете про это все?

03.04.202515:32

Ребятки пояснили, чего имели ввиду.

https://t.me/dealerAI/1177?comment=9402

А че, Дядя обещал, поговорил, и сделал апдейт.

20.04.202519:32

Раскуривание полезных фреймворков НЕ вредит вашей нейропластичности(с)

17.04.202518:08

Мем дня.

13.04.202513:31

Юмор в том же вижуал духе,что и https://t.me/denissexy/9929

Рубрика: улыбка в воскресенье.

07.04.202511:31

В последнее время, в канале появилось несколько постов про агентов. И везде Дядя указывает на необходимость взаимодействия LLM с «окружающей средой». Именно в этом помогает протокол MCP.

Model Context Protocol – незаменимый инструмент не только для работы, но и для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.

В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
🔤 Архитектуру Model Context Protocol.
🔤 Основные возможности стандарта.
🔤 Примеры реализации: от простых к сложным.

Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupmldealerai

А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.

MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.

MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.

Регистрация открыта до 13 апреля включительно: https://cnrlink.com/itonecupmldealer

Пераслаў з:

Tips AI | IT & AI

04.04.202514:49

У OpenAI изменились планы 😏

GPT-5 через несколько месяцев.

@tips_ai #news

31.03.202520:37

Сама грозится новой мощной моделькой, да еще и открытые веса. Верим?

https://techcrunch.com/2025/03/31/openai-plans-to-release-a-new-open-language-model-in-the-coming-months/

Паказана 1 - 24 з 90

Увайдзіце, каб разблакаваць больш функцый.

Цытаванні

Цытаванні