Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Задумчивая крыса avatar

Задумчивая крыса

TGlist рейтинг
0
0
ТипАчык
Текшерүү
Текшерилбеген
Ишенимдүүлүк
Ишенимсиз
Орду
ТилиБашка
Канал түзүлгөн датаЖовт 29, 2024
TGlistке кошулган дата
Бер 07, 2025
Тиркелген топ

Задумчивая крыса популярдуу жазуулары

26.03.202511:05
https://www.nature.com/articles/s41592-024-02362-y

Хорошая обзорная статья по data leakage от коллеги. Хотелось бы конечно больше обозренных задач, ибо на самом деле правильное название "... in protein-related machine learning applications". Например, хоть и говорится, что персональные варианты запоминаются моделью и потому она на исходной популяции лучше предсказывает, чем на другой (где качество и до 0 может упасть), но ссылок нет — а ведь это главный тейк реггеномики сейчас.

Картинка 2 очень полезна для объяснения новичкам того, а в чем проблема при работе с биологическими данными. Респект.

Цитируется очень приятная формализующая всю историю работа Leakage and the Reproducibility Crisis in ML-based Science

Самое важно — в Nature наконец-то звучит правильное и корректное определение data leakage, до которого лично мне приходилось долго доходить. Ибо в биологии везде можно найти формальные лики в данных — вопрос, когда они действительно важны.
Performance scores for an ML-based predictor f are inflated due to data leakage if f uses illegitimate information to achieve the reported scores, that is, information in the training data that generalizes to the test data but not to the inference-time data.

Можно на этом моменте есмотреть картинку 2 и 90% задач статьи для науки выполнена. Ибо есть определение и есть примеры ситуаций, которые подходят под это определение. Сами ситуации между собой частично пересекаются, потому назвать уже их классификацией не получится. Некий чеклист, да.

Далее примеры ситуаций расшифровываются уже на конкретных кейсах на примере 4х задач из работы с белками. Не везде согласен, но в принципе да.

Важным упущением является то, что упоминается, как при работе с белками важно учитывать гомологию. Но не упоминается то, что во многих задачах нам важна похожесть именно доменов, порой только активных центров, а не всех белков. Показано, что те же решения задачи предсказания drug–target interactions очень уж любят запоминать именно карман. и втупую разбиения по гомологии пропустят эту историю.

Еще важный момент — указывается, что использование моделей типа ESM2 для получения эмбедингов может приводить к data leakage тоже. Ибо они-то видели и трейн ваш, и тест. А вот то, на чем будете предсказывать — не факт

Из плохих мест — критерий 2 (про несбалансированные данные формализован плохо.
Biological data often show class imbalance. For example, there may be more healthy samples than disease samples, more non-binding pairs of molecules than binding ones, or more major than minor subvariants of a phenotype. ML requires balanced training datasets or weighted losses. Otherwise, the model may perform well by predicting only the majority class. Unbalanced training datasets may require undersampling the majority or oversampling the underrepresented class(es). An uninformed sampling strategy can create new shortcuts in predicting the label distributions, for example, if the sampling is done uniformly at random, but the major class(es) follow a different distribution. The performance may seem impressive when the model is evaluated on a test set containing the same biases. However, when a minority class sample is seen at inference time, the performance may be poor as the shortcut is not applicable.


Нет, ML не "requires balanced training datasets or weighted losses". Нет, "predicting only majority class" моделью будет детектиться любой метрикой, которая не accuracy. Конечно, человек защищавшийся со мной в один день утверждал, что accuracy самая используемая метрика, но это проблема этого человека. Нет, undersampling или oversampling работают так себе in general. Это очень задаче-специфично (но ладно, там хоть may написано).

У вас распределение на другом классе по-определению должно отличаться от на своем, иначе какой смысл в ml. Проблема imbalanced datasets очень сильно перехайплена. И к data leakage она приводит примерно никак. У вас даже на тесте баланс классов может быть такой же несбалансированный и выучивание подобного априора может помочь модели. Можно Дьяконова про проблему дисбаланса почитать.
3 из 3
1. Я тут прочитал про нейросети и ща расскажу
2. Анальный секс имеет много общего с докингом в аллостерический сайт
3. "Настоящая" математика. Бедные машинлернеры, "жмущие на кнопки, не применяя формул". Другое дело "нормальный теорфизический аппарат"

Остальные тексты, к сожалению, такая же шиза.
28.03.202521:54
Вообще более полная версия дивно хороша, во-первых, вставками от организатора. Во-вторых, ответами на вопросы.

Ну и в третьих, можно по вопросам и словам организатора увидеть как не работает популяризация в составлении научной картины мира и "научного мышления". Какие-то факты он честно запомнил, но слушать нашу дичь на полном серьёзе ему это не мешает.

Чел, кстати, очень позитивный и приятный.
22.03.202509:59
Модель на 50к параметров бьёт днкмодели на бенчмарках ДНК же моделей.

https://arxiv.org/abs/2503.16351

Это опять про emergent abilities ДНК языковых моделей. Ну и ещё про одно.

ДНК языковые модели проверяются авторами этих моделей на бенчмарках, которые к биологии имеют откровенно мало отношения и/или просто плохо составлены.
И нормальных бейзлайнов не делают. Включая CNN простые. Есть только отдельные работы, где это делают, но чукча не читатель.

Потому мы даже не знаем, а действительно ли Lyra настолько хорошая, или же она просто бьёт убогие днкмодели.

Кода пока не выложено, будем ждать, чтоб самим потестить.
Көбүрөөк функцияларды ачуу үчүн кириңиз.