से पुनः पोस्ट किया:
Зоопарк из слоновой кости

07.03.202506:08
#зоопарк_одобряет
У «Ъ-науки» вышло большое интервью о GENA и биоинформатике с Вениамином Фишманом, доктором биологических наук, ведущим научным сотрудником группы «Биоинформатика» Института AIRI и Института цитологии и генетики СО РАН.
Фишман подробно рассказывает о первой российской нейросетке, обученной обрабатывать длинные последовательности ДНК. Разработчики GENA обучили нейросетевую модель на полной сборке генома человека и выложили ее в открытом доступе. За это время GENA из одной модели стал «семейством», а в конце января ученые AIRI опубликовали статью о разработке в Nucleic Acids Research (IF 16.6).
GENA уже сейчас способна обрабатывать входные данные длиной до 36 000 пар оснований, и благодаря интеграции недавно разработанного механизма рекуррентной памяти этот показатель можно еще нарастить.
Для интересующихся разработкой уже открыт веб-сервис https://dnalm.airi.net, в который можно ввести последовательность ДНК и получить несколько типовых аннотаций, чтобы прикинуть, насколько такой инструмент может вам вообще пригодиться. Чтобы выжать максимум функционала, потребуются навыки программирования и биоинформатики, но в целом все модели максимально упрощены в использовании. Все необходимое лежит в репозиториях на платформах Hugging Face и GitHub.
Читать тут: https://www.kommersant.ru/doc/7550813
У «Ъ-науки» вышло большое интервью о GENA и биоинформатике с Вениамином Фишманом, доктором биологических наук, ведущим научным сотрудником группы «Биоинформатика» Института AIRI и Института цитологии и генетики СО РАН.
Фишман подробно рассказывает о первой российской нейросетке, обученной обрабатывать длинные последовательности ДНК. Разработчики GENA обучили нейросетевую модель на полной сборке генома человека и выложили ее в открытом доступе. За это время GENA из одной модели стал «семейством», а в конце января ученые AIRI опубликовали статью о разработке в Nucleic Acids Research (IF 16.6).
GENA уже сейчас способна обрабатывать входные данные длиной до 36 000 пар оснований, и благодаря интеграции недавно разработанного механизма рекуррентной памяти этот показатель можно еще нарастить.
Для интересующихся разработкой уже открыт веб-сервис https://dnalm.airi.net, в который можно ввести последовательность ДНК и получить несколько типовых аннотаций, чтобы прикинуть, насколько такой инструмент может вам вообще пригодиться. Чтобы выжать максимум функционала, потребуются навыки программирования и биоинформатики, но в целом все модели максимально упрощены в использовании. Все необходимое лежит в репозиториях на платформах Hugging Face и GitHub.
Читать тут: https://www.kommersant.ru/doc/7550813
से पुनः पोस्ट किया:
danjafish

24.02.202516:22
3️⃣Расскажи, чем ты занимаешься?
Работа в науке разнообразна и многогранна — за это я её и люблю. На разных уровнях и в зависимости от желания можно заниматься почти чем угодно.
Главное и первое, что делает учёный, — это читает статьи, ставит эксперименты и/или анализирует их результаты. Читаю я почти каждый день: иногда бегло просматриваю резюме статьи, а иногда (гораздо реже) вникаю в детали.
Эксперименты биологи делят на "сухие" — когда мы что-то обсчитываем на компьютере, и "мокрые" — когда работаем с пробирками в лаборатории. Как правило, есть чёткое разделение труда: "сухие" специалисты не занимаются "мокрыми" экспериментами и наоборот, хотя бывают исключения. Я сам уже давно не провожу "мокрые" эксперименты, но периодически занимаюсь анализом данных.
Самое интересное — это анализ, обсуждение и интерпретация результатов, а также планирование новых экспериментов. На это уходит примерно 40–50% моего времени.
Почему только 40–50%? Потому что суровая реальность требует от учёного заниматься не только научной работой. Организация современной науки во многом напоминает небольшой бизнес. Ты сам ищешь финансирование для своих исследований — а это значит, что мало придумать великую идею, нужно ещё изложить её в привлекательной для фондов форме и попытаться заинтересовать компании.
Если (когда) деньги получены, начинается управление проектом: подбор команды сотрудников и коллабораторов, контроль бюджета, закупка оборудования, решение проблем с ремонтом, валютными платежами контрагентам, юридическим оформлением договоров. Нужно разбираться в кадровых вопросах, учитывать налоги, заниматься отчётностью. В результате я неплохо знаю тексты нескольких федеральных законов, десятки медицинских нормативных актов, основы трудового кодекса и понимаю, чем ноу-хау отличается от патента. Конечно, в этих задачах помогают бэкофисы научных институтов, но они не погружены в специфику конкретного научного проекта, поэтому часто приходится вместе искать нестандартные решения.
А наука — это всегда про нестандартные задачи. Например, в больших организациях часто говорят: "Дайте нам список закупок на год вперёд в январе, мы всё организуем", или "Закупки закрываются 15 ноября и откроются только после Нового года". Но в науке так не работает! Сегодня ты получил результат, завтра у тебя появилась новая идея, а послезавтра тебе нужен реактив. Приходится искать легальные (и, чего греха таить, иногда и полулегальные) пути решения.
Сначала мне было интересно разбираться в бухгалтерии, юриспруденции, кадровых вопросах, но со временем эта работа стала утомлять.
Другая "ненаучная" часть работы — организация команды и проектная деятельность. Когда группа расширяется до 3–4 человек, неизбежно приходится выстраивать менеджмент. В IT-компаниях все привыкли к таск-трекерам, синкам, мессенджерам, собеседованиям, дедлайнам, корпоративной этике, но в науке с этим полный хаос.
Отдельный вопрос — нужны ли в науке большие группы или эффективнее работать микроколлективами, сфокусированными на своей проблеме. Мне кажется, что для решения определённых задач крупные коллективы полезны, но научный менеджмент нужно развивать — сейчас он в ужасном состоянии. Однако копирование бизнес-моделей не всегда работает. Например, в первые месяцы работы в лаборатории Сбера нам ставили задачу так: "Распишите в таск-менеджере действия на полгода, которые приведут к публикации в Nature". Но научный поиск не строится по такому плану: попробовал — посмотрел результат — дальше возможны десятки направлений, которые невозможно распланировать заранее.
Тем не менее, базовые вещи, такие как регулярные синки, назначение ответственных за задачи, обратная связь сотрудникам, контроль зарплат — точно не помешают ни одной лаборатории.
Менеджмент в группе мне всё ещё интересен. Я придумал (или, скорее, подсмотрел) много идей, которые пробую внедрять, и считаю, что руководитель в науке должен заниматься этим.
Работа в науке разнообразна и многогранна — за это я её и люблю. На разных уровнях и в зависимости от желания можно заниматься почти чем угодно.
Главное и первое, что делает учёный, — это читает статьи, ставит эксперименты и/или анализирует их результаты. Читаю я почти каждый день: иногда бегло просматриваю резюме статьи, а иногда (гораздо реже) вникаю в детали.
Эксперименты биологи делят на "сухие" — когда мы что-то обсчитываем на компьютере, и "мокрые" — когда работаем с пробирками в лаборатории. Как правило, есть чёткое разделение труда: "сухие" специалисты не занимаются "мокрыми" экспериментами и наоборот, хотя бывают исключения. Я сам уже давно не провожу "мокрые" эксперименты, но периодически занимаюсь анализом данных.
Самое интересное — это анализ, обсуждение и интерпретация результатов, а также планирование новых экспериментов. На это уходит примерно 40–50% моего времени.
Почему только 40–50%? Потому что суровая реальность требует от учёного заниматься не только научной работой. Организация современной науки во многом напоминает небольшой бизнес. Ты сам ищешь финансирование для своих исследований — а это значит, что мало придумать великую идею, нужно ещё изложить её в привлекательной для фондов форме и попытаться заинтересовать компании.
Если (когда) деньги получены, начинается управление проектом: подбор команды сотрудников и коллабораторов, контроль бюджета, закупка оборудования, решение проблем с ремонтом, валютными платежами контрагентам, юридическим оформлением договоров. Нужно разбираться в кадровых вопросах, учитывать налоги, заниматься отчётностью. В результате я неплохо знаю тексты нескольких федеральных законов, десятки медицинских нормативных актов, основы трудового кодекса и понимаю, чем ноу-хау отличается от патента. Конечно, в этих задачах помогают бэкофисы научных институтов, но они не погружены в специфику конкретного научного проекта, поэтому часто приходится вместе искать нестандартные решения.
А наука — это всегда про нестандартные задачи. Например, в больших организациях часто говорят: "Дайте нам список закупок на год вперёд в январе, мы всё организуем", или "Закупки закрываются 15 ноября и откроются только после Нового года". Но в науке так не работает! Сегодня ты получил результат, завтра у тебя появилась новая идея, а послезавтра тебе нужен реактив. Приходится искать легальные (и, чего греха таить, иногда и полулегальные) пути решения.
Сначала мне было интересно разбираться в бухгалтерии, юриспруденции, кадровых вопросах, но со временем эта работа стала утомлять.
Другая "ненаучная" часть работы — организация команды и проектная деятельность. Когда группа расширяется до 3–4 человек, неизбежно приходится выстраивать менеджмент. В IT-компаниях все привыкли к таск-трекерам, синкам, мессенджерам, собеседованиям, дедлайнам, корпоративной этике, но в науке с этим полный хаос.
Отдельный вопрос — нужны ли в науке большие группы или эффективнее работать микроколлективами, сфокусированными на своей проблеме. Мне кажется, что для решения определённых задач крупные коллективы полезны, но научный менеджмент нужно развивать — сейчас он в ужасном состоянии. Однако копирование бизнес-моделей не всегда работает. Например, в первые месяцы работы в лаборатории Сбера нам ставили задачу так: "Распишите в таск-менеджере действия на полгода, которые приведут к публикации в Nature". Но научный поиск не строится по такому плану: попробовал — посмотрел результат — дальше возможны десятки направлений, которые невозможно распланировать заранее.
Тем не менее, базовые вещи, такие как регулярные синки, назначение ответственных за задачи, обратная связь сотрудникам, контроль зарплат — точно не помешают ни одной лаборатории.
Менеджмент в группе мне всё ещё интересен. Я придумал (или, скорее, подсмотрел) много идей, которые пробую внедрять, и считаю, что руководитель в науке должен заниматься этим.
20.02.202515:36
А вот альтернативное мнение о новой моделе Evo от моего коллеги, большого специалиста в применении искусственного интеллекта в геномике. Там у него в канале есть ещё комментарии с разборами отдельных моментов, если интересно — приходите почитать.
06.03.202516:04
Раньше в этом канале я не раз писал о языковых моделях ДНК и наших наработках в этой области. Больше у спасибо журналистам коммерсанта и коллегам из AIRI, которые помогли сформировать основные вопросы в этой области простым и понятным языком.
24.02.202516:22
Мой брат развлекается тем, что берёт интервью у людей разных профессий - и вот добрался до меня. Большинство читателей канала, как я понимаю, сами работают в науке. Но остальным может быть любопытно, как проходит день научного сотрудника. Публикую тут одну запись из этого интервью. Целиком оно получилось длинным - записывали его больше чем несколько месяцев, в основном во время долгих перелётов. Прочитать полную версию можно тут.
से पुनः पोस्ट किया:
Задумчивая крыса

20.02.202515:34
Про Evo1 я уже писал. Вчера вышла Evo2. Претензии те же самые, авторы никак на них не ответили во второй работе.
Нужно ли детально разбирать а в чем новые проблемы? Мое имхо — хватает и старых. Разбирать подробно где обжулили дополнительно к первой работе — влом. Потому кратко.
В новых "применениях" авторы настойчиво
1) не комментируют ситуации, когда их модель не лучше простых подходов 10летней давности
2) исключают очевидные сравнения и соты в задаче (в сплайсинге не приводят качество той же spliceai, а там разрыв кратный)
3) исключают некоторые очевидные задачи (нет датасета кирхера о влиянии мутаций. Который удобнее для анализа чем клинвар и чище)
4) вся часть с генерацией является самосбывающиеся пророчеством. Мы генерим тексты и они похожи на обучающую выборку — amazing. На альфафолде, который известен тем, что для похожих последовательностей предсказывает похожие структуры несмотря на биологию — показываем, что на наших сгенерированных генах (похожих на трейн) он предсказывает похожие на трейн структуры
5) особо (для меня) смешное с генерацией региона с открытым хроматином — используют Enformer, который известен тем, что на последовательностях отличных от генома предсказывает плохо. А на посл. из генома предскажет то же, что было в геноме. Причем предскажет картинк "в среднем" по клеточным линиям.
Особо доставляет, что у авторов скейлинг модели (увеличение числа параметров) работает примерно никак. Иногда даже хуже качество выходит. Но — 40B параметров же зато. Мда.
В самой статье интересна (не для биологии или мл в биологии) только архитектура и способ интерпретации. Для биологии он им тупо вытащил частые кмеры, которые они нашли в базе мотивов тф (удивительно для человека, если он ничего не знает про эволюцию тф и их участков связывания, и/или был в коме/на острове без доступа к высокоимпактным журналам годиков этак 10).
Не хотел бы писать резко, но коль некоторые каналы позволяют себе писать волчьи цитаты, что "пока одни сомневаются, другие двигают frontier", напишу.
Любой, кто скажет, что Evo2 — хорошая статья и какой-то там breakthrough:
1) свидетель прихода ДНК-моделей. Не учёный, а верующий. У всех есть право вероисповедания, но это не наука
2) не читал дальше абстракта и/или твиттер треда
3) банально некомпетентен
4) комбинация трёх первых пунктов
Нужно ли детально разбирать а в чем новые проблемы? Мое имхо — хватает и старых. Разбирать подробно где обжулили дополнительно к первой работе — влом. Потому кратко.
В новых "применениях" авторы настойчиво
1) не комментируют ситуации, когда их модель не лучше простых подходов 10летней давности
2) исключают очевидные сравнения и соты в задаче (в сплайсинге не приводят качество той же spliceai, а там разрыв кратный)
3) исключают некоторые очевидные задачи (нет датасета кирхера о влиянии мутаций. Который удобнее для анализа чем клинвар и чище)
4) вся часть с генерацией является самосбывающиеся пророчеством. Мы генерим тексты и они похожи на обучающую выборку — amazing. На альфафолде, который известен тем, что для похожих последовательностей предсказывает похожие структуры несмотря на биологию — показываем, что на наших сгенерированных генах (похожих на трейн) он предсказывает похожие на трейн структуры
5) особо (для меня) смешное с генерацией региона с открытым хроматином — используют Enformer, который известен тем, что на последовательностях отличных от генома предсказывает плохо. А на посл. из генома предскажет то же, что было в геноме. Причем предскажет картинк "в среднем" по клеточным линиям.
Особо доставляет, что у авторов скейлинг модели (увеличение числа параметров) работает примерно никак. Иногда даже хуже качество выходит. Но — 40B параметров же зато. Мда.
В самой статье интересна (не для биологии или мл в биологии) только архитектура и способ интерпретации. Для биологии он им тупо вытащил частые кмеры, которые они нашли в базе мотивов тф (удивительно для человека, если он ничего не знает про эволюцию тф и их участков связывания, и/или был в коме/на острове без доступа к высокоимпактным журналам годиков этак 10).
Не хотел бы писать резко, но коль некоторые каналы позволяют себе писать волчьи цитаты, что "пока одни сомневаются, другие двигают frontier", напишу.
Любой, кто скажет, что Evo2 — хорошая статья и какой-то там breakthrough:
1) свидетель прихода ДНК-моделей. Не учёный, а верующий. У всех есть право вероисповедания, но это не наука
2) не читал дальше абстракта и/или твиттер треда
3) банально некомпетентен
4) комбинация трёх первых пунктов
से पुनः पोस्ट किया:
AIRI Institute



06.03.202515:57
Об особенностях первой российской ИИ-модели для ДНК GENA_LM — в новом интервью Вениамина Фишмана изданию «Коммерсантъ Наука» ⤵
Доктор биологических наук, ведущий научный сотрудник группы «Биоинформатика» AIRI и ИЦиГ СО РАН Вениамин Фишман рассказал о расшифровке генома и том, как команда российских ученых конкурирует со Стэнфордом и NVIDIA.
📎Читайте материал по ссылке.
Доктор биологических наук, ведущий научный сотрудник группы «Биоинформатика» AIRI и ИЦиГ СО РАН Вениамин Фишман рассказал о расшифровке генома и том, как команда российских ученых конкурирует со Стэнфордом и NVIDIA.
📎Читайте материал по ссылке.
23.02.202508:03
Я уже пару раз тут восхищался, насколько упрощает разработку кода ChatGPT. Кажется, уже проще некуда. Так я думал, пока не попробовал сегодня поставить курсор...
В общем теперь у меня одна проблема - я просто не успеваю запоминать переменные с такой скоростью, с которой код пишется )) оказывается, пока я писал хотя бы первые буквы их названия, мозг запоминал их.
В общем теперь у меня одна проблема - я просто не успеваю запоминать переменные с такой скоростью, с которой код пишется )) оказывается, пока я писал хотя бы первые буквы их названия, мозг запоминал их.
20.02.202504:35
Пока одни группы рассуждают, почему претренировка языковых моделей ДНК бесполезна, другие совершенствуют модели, показывают их эффективность в разных областях биологии и публикуются в Science.
Genome modeling and design across all domains of life with Evo 2
https://arcinstitute.org/manuscripts/Evo2
"We trained two versions of Evo 2 at 7B and 40B parameters, leveraging over 9.3T tokens at single-nucleotide resolution."
Молодцы. По моим оценкам 9.3T tokens - это весь NCBI genome dataset. 7...40В - сравнимо с языковыми моделями (Lama 7B).
Плюс котекст 1М букв, разрешение в одну букву.
Небольшой разбор в комментах.
Genome modeling and design across all domains of life with Evo 2
https://arcinstitute.org/manuscripts/Evo2
"We trained two versions of Evo 2 at 7B and 40B parameters, leveraging over 9.3T tokens at single-nucleotide resolution."
Молодцы. По моим оценкам 9.3T tokens - это весь NCBI genome dataset. 7...40В - сравнимо с языковыми моделями (Lama 7B).
Плюс котекст 1М букв, разрешение в одну букву.
Небольшой разбор в комментах.
03.03.202503:05
Заполняю планы по публикациям для институтской отчетности. В этом году мы переходим на "белый список журналов" - для тех, кто не в курсе, это РАН совместно с Минобром отрейтинговало все журналы, чтобы не использовать данные из зарубежных систем цитирования (вроде WOS/Scoupus).
Посмотрел рейтинги журналов, в которых мы публикуемся. Для высокоимпактных журналов все логично, они все относятся к 1ой категории. А вот с более низким уровнем что-то странное, например
NAR Genomics & Bioinformatics, Scopus Q1, IF~4 - во 2ой категории
При этом ВОГиС - Scopus Q2, IF<0.5 - в 1ой категории.
Ну ладно, можно предположить, что мы поддерживаем отечественные журналы. Но тогда почему Биохимия, самый высокоимпактный Российский журнал по биологии (Scopus Q2 и IF~2.5) - относится ко 2ой категории?
Upd: в комментариях объяснили логику. У Биохимии издатель зарубежный, так что ее рейтингуют как зарубежный журнал, а у ВОГиС - Российский издатель, его рейтингуют в сравнении с журналами РФ
Посмотрел рейтинги журналов, в которых мы публикуемся. Для высокоимпактных журналов все логично, они все относятся к 1ой категории. А вот с более низким уровнем что-то странное, например
NAR Genomics & Bioinformatics, Scopus Q1, IF~4 - во 2ой категории
При этом ВОГиС - Scopus Q2, IF<0.5 - в 1ой категории.
Ну ладно, можно предположить, что мы поддерживаем отечественные журналы. Но тогда почему Биохимия, самый высокоимпактный Российский журнал по биологии (Scopus Q2 и IF~2.5) - относится ко 2ой категории?
Upd: в комментариях объяснили логику. У Биохимии издатель зарубежный, так что ее рейтингуют как зарубежный журнал, а у ВОГиС - Российский издатель, его рейтингуют в сравнении с журналами РФ
21.02.202504:21
Прочитав бурю комментариев в разных каналах, твиттерах и прочих платформах о Evo-2, попробую ещё раз сформулировать взвешенную позицию.
Если кто-то рассматривает эту работу как решение всех проблем биологии (что можно заключить из заголовка), то, безусловно, будет разочарован. Из-за того, что в современной науке принято писать статьи и заявки на гранты в стиле "вот смотрите, сейчас мы спасем человечество", у людей не погруженных в область может возникнуть завышенное ожидание . Градус ожиданий нужно снизить.
Что, тем не менее, важно:
1) модели совершенствуются, и это хорошо видно по бенчмаркам, приведенным в статье
2) unsupervised модели (в биологическом контексте - обученные без какой-либо разметки, только на последовательностях букв) могут выучивать биологические закономерности, для открытия которых человечеству понадобились десятилетия, и которые до сих пор требуют "supervised" (т.е. специально подготовленных или экспериментально-размеченных) данных. Это очень важно.
3) в отдельных областях модели дают state-of-the-art качество.
Как относится к этим достижениям - дело вкуса. Лично меня они вдохновляют. Темп огромный - от первых DNABERT и пяти лет не прошло, апдейты выходят каждый месяц. Глядишь - и выучим что-то, что раньше не знали.
И меня скорее радует, что текущие модели ещё далеки от совершенства - есть поле и для наших исследований. Я не знаю - возможно и вовсе не языковые модели ДНК, а какой-то другой вариант анализа данных совершит большой прорыв в биологии. Но развитие всегда идет поступательно, мы пробуем и ошибаемся. Каждый шаг на этом пути имеет большую ценность.
Если кто-то рассматривает эту работу как решение всех проблем биологии (что можно заключить из заголовка), то, безусловно, будет разочарован. Из-за того, что в современной науке принято писать статьи и заявки на гранты в стиле "вот смотрите, сейчас мы спасем человечество", у людей не погруженных в область может возникнуть завышенное ожидание . Градус ожиданий нужно снизить.
Что, тем не менее, важно:
1) модели совершенствуются, и это хорошо видно по бенчмаркам, приведенным в статье
2) unsupervised модели (в биологическом контексте - обученные без какой-либо разметки, только на последовательностях букв) могут выучивать биологические закономерности, для открытия которых человечеству понадобились десятилетия, и которые до сих пор требуют "supervised" (т.е. специально подготовленных или экспериментально-размеченных) данных. Это очень важно.
3) в отдельных областях модели дают state-of-the-art качество.
Как относится к этим достижениям - дело вкуса. Лично меня они вдохновляют. Темп огромный - от первых DNABERT и пяти лет не прошло, апдейты выходят каждый месяц. Глядишь - и выучим что-то, что раньше не знали.
И меня скорее радует, что текущие модели ещё далеки от совершенства - есть поле и для наших исследований. Я не знаю - возможно и вовсе не языковые модели ДНК, а какой-то другой вариант анализа данных совершит большой прорыв в биологии. Но развитие всегда идет поступательно, мы пробуем и ошибаемся. Каждый шаг на этом пути имеет большую ценность.
दिखाया गया 1 - 11 का 11
अधिक कार्यक्षमता अनलॉक करने के लिए लॉगिन करें।