Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мишин Лернинг 🇺🇦🇮🇱 avatar

Мишин Лернинг 🇺🇦🇮🇱

Технологиялар
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
TGlist рейтингі
0
0
ТүріҚоғамдық
Растау
Расталмаған
Сенімділік
Сенімсіз
Орналасқан жеріУкраїна
ТілБасқа
Канал құрылған күніAug 13, 2024
TGlist-ке қосылған күні
Jun 14, 2023
Қосылған топ

"Мишин Лернинг 🇺🇦🇮🇱" тобындағы соңғы жазбалар

Стрим: Новые reasoning модели от OpenAI o3 и o4-mini

— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)

https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
🦙 Meta представила Llama 4 — новую линейку MoE-моделей с рекордным качеством и контекстом до 10M токенов

Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).

Основные модели:

🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1

🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth

🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности


🔬 Техдетали:

• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)


🔗 Доступны для скачивания: llama.com и Hugging Face
Подписчик пишет, что уже получил доступ к GPT-4.5 в подписке plus

https://chatgpt.com/?model=gpt-4-5
Трансляция GPT-4.5

Pro — скоро
Plus юзеры — следующая неделя

Основная мысль: очень много претрейна (на нескольких датацентрах), что дало возможность получить лучшую unsupervised модель, они уже прогнали supervised-fine-tune и rlfh, получив отличные результаты базовой нон-ризонинг модели, и намекнули, что потенциальная новая ризонинг модель на базе GPT-4.5 может быть еще лучше, что логично.

https://www.youtube.com/live/cfRYp0nItZ8?si=QdHB5-bcFJd7KLq3
📄 Вышла системная карточка GPT-4.5

https://cdn.openai.com/gpt-4-5-system-card.pdf

Если коротко, лучше 4o, хуже o3-mini
🤯 Я сейчас не шучу, Дональд Трамп сгенерировал видео и выложил на своей платформе Truth Social. Какая же это дичь..

https://truthsocial.com/@realDonaldTrump/posts/114068387897265338
✳️ Claude 3.7 Sonnet доступна всем!

Anthropic представили Claude 3.7 Sonnet (лучшую на этой неделе) LLM в их линейке, обладающий гибридным режимом рассуждения. Это означает, что модель может выдавать мгновенные ответы или работать в расширенном reasoning-режиме.

🖥 Claude Code – интеллектуальный агент для разработки

Anthropic также представили Claude Code – инструмент для автоматизации программирования прямо из командной строки. Он умеет:
🔹 Анализировать код и редактировать файлы
🔹 Запускать тесты и отлаживать программы
🔹 Автоматически коммитить и пушить изменения в GitHub
🔹 Использовать командную строку для выполнения сложных задач

Результаты раннего тестирования показывают, что Claude Code сокращает время на выполнение сложных задач с 45 минут до одного запроса (прям так и пишут, ок, цитирую).

Но самое крутое то, что модель доступна всем, даже бесплатным пользователям!

💻 Го тестить: https://claude.ai/
Deep Research от OpenAI

Автоматизация исследования. Наверняка помнишь себя, гуглящую, сидящую на форумах, пересматривающую видео в поисках ответа. Благодаря Deep Research можно делегировать это GPT.

По сути это эволюция медленного мышления (chain-of-thought), которое мы наблюдали в o1 и о3 с тюном (o3 fine-tune) в строну работы с поисковиком и экстракции и обработки найденой информации.



Трансляция началась:
https://youtu.be/jv-lpIsnLOo
2 нейронки от китайского режима подряд

Сначала deepseek, теперь qwen2.5-max. Холодная ии война
OpenAI запускают агента Operator

Упрощает рутину: от бронирования столика или покупки билетов в браузере до более сложного ассистирования.

🖥️ https://www.youtube.com/live/CSE77wAdDLg?si=-ZZQJ-zCByXW3NIB
NVIDIA / CES 2025
началось

https://www.youtube.com/live/k82RwXqZHY8?si=npSm8kNKuO2R8ANv
З Новим роком! שנה טובה С Новым годом! 🎄
Microsoft AI представили Phi-4 — Small Language Model 14 млрд

Так, результаты сопоставимы с гораздо более крупными моделями, такими как GPT-4 и Llama-3.

Ключевые особенности Phi-4:
Synthetic Data Generation: Используются подходы вроде chain-of-thought prompting для создания данных, стимулирующих системное мышление, завещание у нотариуса, кофе душистый
Post-Training Refinement: Direct Preference Optimization и rejection sampling для улучшения логической согласованности и точности ответов.
Extended Context Length: Увеличенная длина контекста до 16K токенов для сложных задач с длинными цепочками рассуждений.

Результаты:
GPQA: 56.1 (лучше GPT-4o с 40.9 и Llama-3 с 49.1).
MATH: 80.4

📝 Phi-4 Технический Репорт
Қайта жіберілді:
Denis Sexy IT 🤖 avatar
Denis Sexy IT 🤖
По Sora утекло новое видео, говорят показывают v2

* 1-минутные видео на выходе
* текст в видео
* текст+изображение в видео
* текст+видео в видео

Не долго мы жили без cam-rip в АИ видео ☕️
✨ Стрим от OpenAI, День 2

Напоминаю, что вчера открыли доступ к полноценной o1, и представили новую pro подписку. Что было:

— Файнтюн o1 модели (позволяют обучать типу рассуждений, что полезно в узкоспециализированных доменах: право, генетика, etc)

👉 https://youtu.be/fMJMhBFa_Gc

Рекордтар

15.06.202323:59
8.2KЖазылушылар
16.11.202023:59
0Дәйексөз индексі
22.07.202323:59
11.3K1 жазбаның қамтуы
26.09.202423:59
1.9KЖарнамалық жазбаның қамтуы
02.01.202523:59
9.68%ER
31.07.202323:59
137.94%ERR

Мишин Лернинг 🇺🇦🇮🇱 танымал жазбалары

05.04.202521:49
🦙 Meta представила Llama 4 — новую линейку MoE-моделей с рекордным качеством и контекстом до 10M токенов

Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).

Основные модели:

🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1

🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth

🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности


🔬 Техдетали:

• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)


🔗 Доступны для скачивания: llama.com и Hugging Face
16.04.202517:04
Стрим: Новые reasoning модели от OpenAI o3 и o4-mini

— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)

https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
Көбірек мүмкіндіктерді ашу үшін кіріңіз.