
Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мишин Лернинг 🇺🇦🇮🇱
技术
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
关联群组

🤖🎓 Мишин Лернинг Клуб
225
技术
05.04.202521:49
🦙 Meta представила Llama 4 — новую линейку MoE-моделей с рекордным качеством и контекстом до 10M токенов
Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).
Основные модели:
🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1
🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth
🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности
🔬 Техдетали:
• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)
🔗 Доступны для скачивания: llama.com и Hugging Face
Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).
Основные модели:
🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1
🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth
🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности
🔬 Техдетали:
• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)
🔗 Доступны для скачивания: llama.com и Hugging Face
16.04.202517:04
Стрим: Новые reasoning модели от OpenAI o3 и o4-mini
— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)
https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)
https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
登录以解锁更多功能。