Просто шикарнейший туториал, на тему разобраться по-быстрому с деплоем, если до этого только рядом ходил. Без воды, все четко, поделу, на изолированном примере, hands on. Не все аспекты, конечно, охватываются, но дает отличный бейзлайн от которого можно плясать в детали.
Как LLM выучивают факты: новое исследование от Google DeepMind
LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?
В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.
Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:
➖ Сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще. Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов.
➖ Потом, внезапно, наступает долгий этап плато. Производительность стабилизируется, то есть кажется, что модель все еще не видит связей. Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой. Кстати, на этом же этапе начинают возникать галлюцинации.
➖ Ну и, наконец, фаза приобретения знаний. Тут происходит так называемый грокинг. Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты.
И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.
И вот сегодня завезли еще и Deep Research. Работает быстро: буквально за минуту вы получаете комплексный литературный обзор на любую научную тему.
Агент посоветует, что почитать, выделит тренды и емко расскажет о каждом ресурсе. Затем диалог можно продолжить: бот уточнит все нужные детали и ответит на любые вопросы.
Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio.
Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио. Работает через REST, всё максимально похоже на формат OpenAI /v1/audio/speech, так что можно просто подменить endpoint и не менять клиент.
✅ Что умеет: - Генерация речи на базе модели fish-speech-1.5 - Стилизация речи под голос из аудио - Кастомные параметры: top_p, temperature, max_new_tokens и др. - Работает в докере или вручную через Python 3.12
CEO Perplexity объявил, что моделью теперь можно пользоваться в Telegram через официального бота @askplexbot
Это бесплатно. Также бота можно добавить в любые чаты, тегать и спрашивать о чем угодно (как Grok в X).
В наш чат канала мы модельку уже добавили, так что можете играться
Kirishning iloji bo'lmadi media kontentga
02.04.202508:50
ComfyUI copilot
🔷 Interactive Q&A: Ask about models, nodes, and parameters with ease 🔷 Smart Node Search: Find the right nodes using natural language 🔷 Node Explorer: View explanations, usage tips, and best practices 🔷 Workflow Builder: Get AI-powered recommendations for building workflows faster 🔷 Model Finder: Quickly locate base models and LoRAs by prompt
Coming Soon: 🔷 Auto Parameter Tuning: ML-powered optimization for better results 🔷 Error Fix Assistant: Instant error detection with suggested solutions
Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.
So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)
В пачке Примы: - Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi); - Quantization (Q4K and IQ1); - Mixed CPU/GPU computing Disk offloading; - Piped-ring parallelism with prefetching; - Automatic workload distribution.
CSM (Conversational Speech Model) is a speech generation model from Sesame that generates RVQ audio codes from text and audio inputs. The model architecture employs a Llama backbone and a smaller audio decoder that produces Mimi audio codes.
Model Context Protocol server for allowing LLMs to autonomously reverse engineer applications. It exposes numerous tools from core Ghidra functionality to MCP clients.
@toshoseti
Ko'proq funksiyalarni ochish uchun tizimga kiring.
Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.
So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)
В пачке Примы: - Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi); - Quantization (Q4K and IQ1); - Mixed CPU/GPU computing Disk offloading; - Piped-ring parallelism with prefetching; - Automatic workload distribution.
Юра Куратов и Айдар Булатов были сегодня награждены премией "научный прорыв года в ИИ" на конференции DataFusion. Распирает гордость за ребят! C ребятами знакомы давно. Совместно делали различные эксперименты. Знаю не понаслышке, как много усилий ребята направляли на свои исследования. Ребята авторы многих работ, которые уже привычно цитирует google и другие (Recurrent Memory Transformer, Scaling Transformer to 1M tokens and beyond with RMT, BABILong и много других) Ребят вы крутые! Поздравляем! Ждем новых топовых работ!
16.04.202511:53
Гратз! Спасибо ребятам за возможность некогда с ними поресерчить!
Я тут подумал как минимизировать забывание, нежелательный дрифт и галлюцинации при файнтюне модели на новом срезе данных. Эмпирически подбираем пороговое значение Х к окну контекста N для того чтобы при файнтюне посчитать перплексию на последних N токенах во время тренировки, и если она ниже порогового Х то делаем клип лосса в ноль. То есть учим только сильно «удивительное». Наверное, хорошо работает для новых фактов типа «Нынешним президентом … является …».
Нужно будет калибровать на train. Хорошо бы строить гистограмму per-token perplexity на train датасете и брать, например, 75-й перцентиль. Еще наверное лучше считать среднюю perplexity по примеру или по фрагменту, иначе можно случайно клипать из-за артефактов в токенизации (например, редкие символы или опечатки). Не будет работать на обучении стилистике, конечно же. Можно еще попробовать довериться фатуму, и сделать обучаемые веса для порогового значения перплексии на токене (и его относительной позиции тоже, если памяти лопай попой).
Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio.
Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио. Работает через REST, всё максимально похоже на формат OpenAI /v1/audio/speech, так что можно просто подменить endpoint и не менять клиент.
✅ Что умеет: - Генерация речи на базе модели fish-speech-1.5 - Стилизация речи под голос из аудио - Кастомные параметры: top_p, temperature, max_new_tokens и др. - Работает в докере или вручную через Python 3.12
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
15.04.202512:38
Просто шикарнейший туториал, на тему разобраться по-быстрому с деплоем, если до этого только рядом ходил. Без воды, все четко, поделу, на изолированном примере, hands on. Не все аспекты, конечно, охватываются, но дает отличный бейзлайн от которого можно плясать в детали.