Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мишин Лернинг 🇺🇦🇮🇱 avatar

Мишин Лернинг 🇺🇦🇮🇱

技术
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
TGlist 评分
0
0
类型公开
验证
未验证
可信度
不可靠
位置Україна
语言其他
频道创建日期Aug 13, 2024
添加到 TGlist 的日期
Jun 14, 2023
关联群组

Мишин Лернинг 🇺🇦🇮🇱 热门帖子

05.04.202521:49
🦙 Meta представила Llama 4 — новую линейку MoE-моделей с рекордным качеством и контекстом до 10M токенов

Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).

Основные модели:

🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1

🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth

🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности


🔬 Техдетали:

• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)


🔗 Доступны для скачивания: llama.com и Hugging Face
16.04.202517:04
Стрим: Новые reasoning модели от OpenAI o3 и o4-mini

— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)

https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
登录以解锁更多功能。