Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Старший Авгур avatar

Старший Авгур

Сохраненки и шитпост про ML от @YallenGusev
Чат канала: @augur_chat
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваны
Надзейнасць
Не надзейны
Размяшчэнне
МоваІншая
Дата стварэння каналаFeb 03, 2024
Дадана ў TGlist
May 31, 2024
Прыкрепленая група

Рэкорды

21.04.202523:59
5.4KПадпісчыкаў
20.02.202523:59
100Індэкс цытавання
01.11.202423:59
16KАхоп 1 паста
30.11.202423:59
16KАхоп рэкламнага паста
20.03.202514:57
10.60%ER
01.11.202423:59
392.52%ERR

Папулярныя публікацыі Старший Авгур

03.04.202519:58
Я тут тоже решил попробовать этот ваш вайб-кодинг, поставил Курсор, взял один готовый фронтендерский проект и попробовал прикрутить к нему пару LLM-фичей. И знаете что?

Я давно не чувствовал себя настолько несчастным при программировании. Основной моей эмоцией было раздражение на эту "тупую фигню". С десяток раз я попадал в цикл дебага моделью, в которых она раз за разом делала неправильные исправления. В итоге мне всё равно приходилось вмешиваться и разбираться самому, уже потратив кучу времени и токенов. И как же я отвык от IDE... Я сейчас, наверное, прозвучу как старик, но все эти окошки, уведомления, менюшки и загрузки после чистого vim'а смотрятся абсолютно убого и сильно отвлекают.

Правда, в каких-то кейсах оно нормально работало. Например, когда мне понадобилось сделать сбоку маленький сервер с нуля. Вот там да, всё чисто, никаких проблем. Но правки в существующем большом проекте — это ад, потому что я привык понимать всё, а не делегировать понимание.
Всё, что нужно знать об умении людей предсказывать будущее.
Пераслаў з:
Kali Novskaya avatar
Kali Novskaya
20.04.202519:56
🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку. 

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут,  но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов
Что с лицом, Сбер? Моё почтение команде llmarena.ru, видимо им-то денег хватило на прогоны нормальных моделей на Мере.

P.S. Почему мне вообще есть дело до Меры? Посмотрите на эти пресс-релизы: https://t.me/rbc_news/108121, https://t.me/exploitex/23425
Вышли рецензии на ARR для ПингПонга, всё довольно плохо (1.5, 2, 2.5). Сейчас с ходу пишу ответы, есть конструктивные вещи по тексту, но к сожалению (или к счастью) не по методологии.

А ещё см. скриншот. Вот откуда рецензент узнал, что автор один? Double-blind, ага.
04.04.202514:11
На ARR в итоге из 3 рецензентов хоть что-то мне ответил только один! И то, вчера, в последний день дискуссии. И как-то так опять случилось, что ответил именно тот, кто поставил самую высокую оценку из них троих. По сравнению с ICLR конструктивных замечаний гораздо меньше, может и потому, что статья стала лучше. В итоге я сделал мелкие правки текста и один дополнительный эксперимент (проверка того, что сильнее влияет на результаты: выбор судьи или выбор допрашивающего).

Статью и без конференции уже начали цитировать (аж 3 раза пока), поэтому и фиг бы с ними. Я пока не очень понимаю, куда ещё раз подаваться, так далеко я не заглядывал. В текущем виде статья уже выглядит немного старенькой с точки зрения проверяемых и используемых моделей.

Материала и техник для 3 версии бенча я набрал довольно много, только не уверен, что хочу этим заниматься.
13.04.202514:14
Я регулярно просматриваю новые датасеты на HF. Вот подборка людей и организаций, которые мне попадаются довольно часто:

https://huggingface.co/nyuuzyou.
Про один из датасетов этого человека я уже постил тут. А всего на страничке больше 100 (!) разных датасетов, в основном структурированных дампов разных сайтов. Датасеты как текстовые, так и картиночные. Последний обновлённый датасет — дамп русских интернет-форумов.

https://huggingface.co/inkoziev
Датасеты Ильи Козиева, в основном про ударения и стихи, но не только. Илья много занимался генераторами стихов, что мне очень близко. Его ЖЖ, Гитхаб. Последний обновлённый датасет про ударения в омографах.

https://huggingface.co/Vikhrmodels
Разные вихрёвские SFT/RL датасеты для русского. Последний обновлённый датасет — сборник задач матетматических олимпиад разного уровня.

https://huggingface.co/mizinovmv
В основном русские переводные версии английских датасетов. У многих датасетов нет описания.

https://huggingface.co/attn-signs
SFT/RL датасеты для русского с фокусом на reasoning. По-моему маловато подробностей про их сбор, но всё равно может быть полезно.

https://huggingface.co/kristaller486
Переводные SFT датасеты для русского от подписчика. Его канал: @krists
Кстати, впервые открытая модель на первом месте в ПингПонге. Вероятно до тех пор, пока Gemini 2.5 Pro не оценен.
OpenAI, ты чего... 😂
08.04.202519:33
https://www.youtube.com/watch?v=_2C2CNmK7dQ

Позапрошлый пост был на моменте с 2:35. Совпадения пугающие, у меня даже те же самые наушники.
14.04.202507:41
Месяц я ждал, когда все грабли по тюну Геммы 3 будут собраны кем-то другим.
Но когда я вчера сунулся тюнить 12b, я пожрал столько дерьма...
- Понадобился апгрейд всего софта (что ожидаемо).
- apply_chat_template с нифига стал требовать [{"type": "text", "text": "..."}] вместо просто строк.
- apply_chat_template с нифига стал возвращать вложенный список.
- У Геммы сильно другая структура модулей, поэтому моё кастомное связывание эмбеддингов с ней не сработало.
- Валидационная часть обучения не работает из-за этого бага: https://github.com/huggingface/transformers/issues/36938. Если же обновить transformers до последней версии, разносит уже unsloth.

И я только где-то на середине дебага 🤔
12.04.202521:53
Сегодня и вчера чуть-чуть поработал над ботом (@saiga_igusev_bot). Список изменений:
- Добавил разных новых моделей (Grok 3, Llama 4, Gemini 2.5 Pro).
- Убрал старые нативные вызовы инструментов, заменил их на CodeAct из smolagents. Доступно не для всех моделей, включается через /tools.
- Заменил парсилку PDF на pypdf.
- Ну и всякого по мелочи, отрефакторил конфиги, например.

Всё жду, когда OpenAI новую генерилку картинок в API выложат, её тоже сразу воткну.
Увайдзіце, каб разблакаваць больш функцый.