Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Data Secrets avatar

Data Secrets

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks
По вопросам сотрудничества: @veron_28
https://telega.in/c/data_secrets
Реестр РКН: clck.ru/3FY3GN
Рейтинг TGlist
0
0
ТипПубличный
Верификация
Верифицированный
Доверенность
Не провернный
РасположениеРосія
ЯзыкДругой
Дата создания каналаFeb 06, 2025
Добавлено на TGlist
May 28, 2024
Прикрепленная группа

Рекорды

20.04.202515:18
57KПодписчиков
08.02.202510:20
400Индекс цитирования
17.03.202513:34
24.9KОхват одного поста
19.03.202511:39
11.7KОхват рекламного поста
03.03.202515:06
9.57%ER
17.03.202513:34
45.37%ERR

Развитие

Подписчиков
Индекс цитирования
Охват 1 поста
Охват рекламного поста
ER
ERR
JUL '24OCT '24JAN '25APR '25

Популярные публикации Data Secrets

Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube
OpenAI выкатили 32-страничный практический гайд по разработке агентов

Его создавали сами инженеры из продуктовых команд стартапа.

Внутри теоретические основы, шаблоны проектирования, лучшие тактики для безопасного развертывания и мониторинга, а главное много-много примеров.

Забираем мастрид на выходные: cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
⚡️ Сэм Альтман купил DeepSeek

Сегодня ночью основатель OpenAI Сэм Альтман официально объявил о покупке стартапа DeepSeek и написал в своем Твиттере следующее:

«Мы очень ценим вклад DeepSeek в развитие open-source и обещаем сохранить традиции открытости. Поэтому теперь все их модели доступны в ChatGPT по нашей новой подписке Pro++ за 1500$ в месяц»


Также CEO пообещал в скором времени выпустить и другие модели, которые разрабатывались в DeepSeek: R1.5, R2, D2 и ☭2
🍯 Там AlphaXiv выпустили своего бесплатного агента Deep Research

Про проект AlphaXiv мы уже не раз рассказывали. Это arXiv на ИИ-стероидах. То есть хранилище открытых статей, но не простое. Там уже есть:

–> бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям
–> агент для анализа и работы с кодовой базой статьи
–> генератор конспектов

И вот сегодня завезли еще и Deep Research. Работает быстро: буквально за минуту вы получаете комплексный литературный обзор на любую научную тему.

Агент посоветует, что почитать, выделит тренды и емко расскажет о каждом ресурсе. Затем диалог можно продолжить: бот уточнит все нужные детали и ответит на любые вопросы.

Работает бесплатно, нужно только войти в аккаунт: www.alphaxiv.org/assistant
Там VSCode только что раскатили свой Agent Mode на всех пользователей

Теперь любому юзеру IDE доступен бесплатный Cursor (но не курсор). Внутри автономное редактирование кода, исправление багов в цикле, полноценный контекст всей кодовой базы и прикрученные MCP и расширения VSCode.

Как подключить:
1. Обновить VSCode
2. Открыть VSCode и перейти в режим Chat (кнопка справа)
3. Залогиниться через GitHub
4. Устновить chat.agent.enabled в настройках
5. Выбрать "Agent" в выпадающем списке в чате

Подробности тут
Ух ты: ученая из Университета Йювяскюля в Финляндии решила задачу, на которую математики не могли найти ответ 40 лет

Это настоящий прорыв в топологии. Задача касается классификации квазирегулярно эллиптических 4-многообразий, то есть понимания того, какие четырехмерные пространства могут быть образованы путем деформации стандартной четырехмерной евклидовой геометрии.

Проблему сформулировал еще в 1981 Михаил Громов. Больше 40 лет в ней не было почти никаких подвижек, пока на днях свою докторскую дисертацию не опубликовала Сусанна Хейккиля.

Девушка, кстати, любит вязание и говорит, что это самый простой способ понять и представить топологию на практике. На презентации этой работы она также объясняла свою идею с помощью вязаной сферы 🙂

Статья
Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027

В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.

Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.

Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.

Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:

⭐️ 2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.

⭐️ Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.

⭐️ Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.

⭐️ Конец 2026: массовые увольнения и перестройка рынка труда.

⭐️ Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.

⭐️ Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.

Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.

Что сказать. Сохраняйте, проверим через 3 года.
OpenAI официально запустили свою OpenAI Academy для всех

Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.

В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.

Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.

Стоит заглянуть, в общем: academy.openai.com
Вы должны это увидеть: Universal Pictures совместно с Boston Dynamics надели на робопса костюм Беззубика из мультика "Как приручить дракона" и получилось вот это 🙂

Кажется, малыша Blue от Nvidia подвинули в рейтинге самых милых роботов
Google сделали свою новую модель Gemini 2.5 Pro бесплатной

Теперь она доступна абсолютно всем юзерам. Все что нужно – аккаунт Google 🥳

Напоминаем, что сейчас Gemini 2.5 Pro занимает первое место во всех номинациях на арене (с отрывом), бьет на кодинге o1, o3-mini и Sonnet 3.7. А еще она мультимодальная и контекст у нее – миллион (!) токенов.

Пробуем: gemini.google.com
У Google вышло очень занятное исследование: они сравнили, как LLM и человеческий мозг обрабатывают язык

В качестве LM взяли Whisper, а нейронную активность человека записывали с помощью интракраниальных электродов во время спонтанных разговоров. Затем векторы эмбеддингов модельки наложили на векторы паттернов мозга и оценили линейную зависимость. Вот что получилось:

Соответствие удивительно четкое и геометрия эмбеддингов в LLM (то есть отношения между словами в embedding-пространстве) соотносится с представлениями в мозге.

➖ Во время слушания Speech-эмбеддинги явно коррелируют с активностью в слуховой коре (верхняя височная извилина), затем language-эмбеддинги коррелируют с активностью в зоне Брока (нижняя лобная извилина).

➖ Во время говорения – наоборот. Language-эмбеддинги сначала "активируются" в зоне Брока (планирование высказывания), затем speech-эмбеддинги активируются в моторной коре (непосредственно говорение), и в конце снова в слуховой коре при восприятии собственной речи.

Это удивительно, потому что технически мозг и LLM используют разные подходы. Да, и там и там нейроны, но в науке принято считать, что мозг "использует" символьный подход, то есть полагается на четкие семанические структуры, синтаксис и иерархию слов. В модельках такого нет, они понимают язык статистически.

И все-таки получается, что обычный next token prediction оказывается очень похож на реальный нейронный код, и мы неожиданно близко подобрались к моделированию мозга.

research.google/blog/deciphering-language-processing-in-the-human-brain-through-llm-representations/
🍯 Hugging Face совместно с Unsloth AI выпустили гайд по тому, как быстро научить любую модельку ризонить

Недавно Hugging Face добавили в свой NLP курс раздел "Build Reasoning Models". Внутри – подробнейшие наглядные объяснения, как работает обучение с подкреплением, ризонинг, GRPO и почему все это так бустит модельки.

А сегодня туда докатили еще и колаб-ноутбуки с практическими туториалами. Это буквально пошаговая end-to-end инструкция по тому, как завезти GRPO для любой модельки и заставить ее думать.

Вот ссылка на тетрадку с примером на gemma-3-1b, а вот теория к ней. Есть еще вариант с SmolLM-135M-Instruct. Для первого знакомства – идеально.
26.03.202509:25
AlphaXiv становится все прикольнее и прикольнее: теперь в него завезли анализ кодовой базы статьи

Представьте: вы читаете какую-то статью, у вас появляется вопрос и вы задаете его встроенному ассистенту. А тот, отвечая на него, анализирует не только текст статьи, но и репозиторий к ней (если такой имеется). Таким образом, ответы получаются более технически точными и без додумок, если в тексте что-то описано нечетко.

Также можно попросить бота объяснить кусочки кода или даже адаптировать его под ваш проект.

Итого, в AlphaXiv теперь есть: бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям, анализ кода и генератор конспектов 🍯
Конспекты по ML в стиле Ghibli

Все соцсети заполнены генерациями новой GPT-4o в стиле японской анимационной студии Ghibli. Мы тоже решили не отставать и нагенерировали вам... ML-конспектов 🤓

Получился определено плюс вайб. Пишите в комментарии, какие еще ML-темы порисовать
11.04.202515:11
Google раскатили в своем сервисе NotebookLM бесплатный Deep Research для поиска источников

1. Заходим на notebooklm.google
2. Задаем любую тему
3. Модель бодро найдет вам 10 и больше самых релевантных веб-источников и аннотирует каждый в соответствии с запросом
4. Дальше бота можно попросить построить по ним майндмэп, написать конспект, сделать подкаст, ну или просто задать доп.вопросы

Умный гугл от гугл 😎
Войдите, чтобы разблокировать больше функциональности.