
Наука и данные
Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/
TGlist rating
0
0
TypePublic
Verification
Not verifiedTrust
Not trustedLocationРосія
LanguageOther
Channel creation dateJun 04, 2023
Added to TGlist
Oct 19, 2024Linked chat
Latest posts in group "Наука и данные"
20.04.202503:00
Information is Beautiful Awards 2024 🌟
Дорогие друзья, в первую очередь, поздравляю всех со светлым праздником Пасхи! 🌟
Information is Beautiful Awards - это награда, которая отмечает выдающиеся достижения и красоту в визуализации данных, инфографике, интерактивных технологиях и информационном искусстве. На награду каждый год подаются сотни, а порой и тысячи визуализаций, начиная с 2012 года.
Вчера был объявлен short list, в который вошли:
🔺 Дата-арт сообщество Цветы & Цифры (ЦиЦ) 🌹 под руководством прекрасной Натальи Киселевой! Я в восторге от этого уютного уголка, объединяющего увлеченных, по-настоящему талантливых людей, созданного для поддержки и общения, в котором и я тоже немножко участвую.
Также я очень рад за участников ЦиЦ:
🔺 Два замечательных 🔥 (просто фантастических!) проекта Надежды Андриановой: One Week in Sound + World in Tangible Fragments
🔺 Потрясающий проект, ❤️ который создала Nina Lindell: Цветы Беслана. Нина сделала из твердой бумаги 334 мака - по числу жертв теракта. Созданный в течение года кропотливой работы, это мемориал ручной работы, где каждый цветок служит «портретом данных», чтобы рассказать историю каждого человека - его возраст, пол и связь с другими (дети представлены в виде маленьких цветов, взрослые - в виде больших, на маковом поле цветы разместили так, чтобы люди из одной семьи были рядом).
Я всех сердечно поздравляю! 🎉
Дорогие друзья, в первую очередь, поздравляю всех со светлым праздником Пасхи! 🌟
Information is Beautiful Awards - это награда, которая отмечает выдающиеся достижения и красоту в визуализации данных, инфографике, интерактивных технологиях и информационном искусстве. На награду каждый год подаются сотни, а порой и тысячи визуализаций, начиная с 2012 года.
Вчера был объявлен short list, в который вошли:
🔺 Дата-арт сообщество Цветы & Цифры (ЦиЦ) 🌹 под руководством прекрасной Натальи Киселевой! Я в восторге от этого уютного уголка, объединяющего увлеченных, по-настоящему талантливых людей, созданного для поддержки и общения, в котором и я тоже немножко участвую.
Также я очень рад за участников ЦиЦ:
🔺 Два замечательных 🔥 (просто фантастических!) проекта Надежды Андриановой: One Week in Sound + World in Tangible Fragments
🔺 Потрясающий проект, ❤️ который создала Nina Lindell: Цветы Беслана. Нина сделала из твердой бумаги 334 мака - по числу жертв теракта. Созданный в течение года кропотливой работы, это мемориал ручной работы, где каждый цветок служит «портретом данных», чтобы рассказать историю каждого человека - его возраст, пол и связь с другими (дети представлены в виде маленьких цветов, взрослые - в виде больших, на маковом поле цветы разместили так, чтобы люди из одной семьи были рядом).
Я всех сердечно поздравляю! 🎉
18.04.202508:00
Всем хороших выходных! 👋


18.04.202507:00
Causality and Multiple Regression
Ben Rottman в рамках курса Open Source Research Methods for the Social Sciences сделал Shiny-приложение как инструмент, который поможет понять возможные взаимосвязи между переменными, включая различные эффекты в приложениях к причинно-следственным связям и множественной регрессией.
На приложение обратил внимание Joachim Schork, который ведет собственный YouTube-канал Statistics Globe по R (см. также обзор от H0H1: про HR-аналитику).
Ben Rottman в рамках курса Open Source Research Methods for the Social Sciences сделал Shiny-приложение как инструмент, который поможет понять возможные взаимосвязи между переменными, включая различные эффекты в приложениях к причинно-следственным связям и множественной регрессией.
На приложение обратил внимание Joachim Schork, который ведет собственный YouTube-канал Statistics Globe по R (см. также обзор от H0H1: про HR-аналитику).


17.04.202507:04
GRASS GIS + R 🌳
GRASS GIS — это мощный механизм геообработки, который объединяет более 500 инструментов для пространственного и временного анализа векторных, растровых, 3D-растровых и графических данных. GRASS был разработан для скорости и эффективности, что позволяет ему довольно просто масштабировать рабочие процессы с массивными наборами данных. В то же время R за годы разработки хорошо развивался в статистическом анализе, моделировании и визуализации пространственных данных.
Veronica Andreo на конференции useR! 2024 рассказала о взаимодействии R и GRASS через библиотеку {rgrass}. Например, вы боретесь с большими растровыми наборами данных в R или вам нужен какой-то конкретный инструмент, например, разграничение водоразделов для большой ЦМР высокого разрешения в GRASS, это описано в статье Вероники. Советую также обратить внимание на сайт GRASS, где описано взаимодействие и с Python и присутствуют большие интеерсные руководства.
GRASS GIS — это мощный механизм геообработки, который объединяет более 500 инструментов для пространственного и временного анализа векторных, растровых, 3D-растровых и графических данных. GRASS был разработан для скорости и эффективности, что позволяет ему довольно просто масштабировать рабочие процессы с массивными наборами данных. В то же время R за годы разработки хорошо развивался в статистическом анализе, моделировании и визуализации пространственных данных.
Veronica Andreo на конференции useR! 2024 рассказала о взаимодействии R и GRASS через библиотеку {rgrass}. Например, вы боретесь с большими растровыми наборами данных в R или вам нужен какой-то конкретный инструмент, например, разграничение водоразделов для большой ЦМР высокого разрешения в GRASS, это описано в статье Вероники. Советую также обратить внимание на сайт GRASS, где описано взаимодействие и с Python и присутствуют большие интеерсные руководства.


16.04.202507:02
An Inventory of Spatial Machine Learning Packages in R 👌
Данная страница содержит постер с перечнем библиотек для пространственного машинного обучения в R, представленный на конференции FOSSGIS 2025 в Мюнстере, ФРГ (авторы Nowosad J., Meyer H., Linnenbrink J., Ludwig M.).
Здесь представлено сравнение фреймворков машинного обучения {caret}, {mlr3} и {tidymodels} в R и их возможностей для задач пространственного машинного обучения (ML), а также сделан обзор других библиотек, которые можно использовать для пространственного ML в R.
Постер сопровождается примерами кода, которые демонстрируют, как использовать эти библиотеки для задач пространственного машинного обучения.
Напомню что взаимодействовать в R с ArcGIS можно с помощью {arcgislayers}, с QGIS в {qgisprocess} (см. также презентацию), про GRASS расскажем завтра.
Данная страница содержит постер с перечнем библиотек для пространственного машинного обучения в R, представленный на конференции FOSSGIS 2025 в Мюнстере, ФРГ (авторы Nowosad J., Meyer H., Linnenbrink J., Ludwig M.).
Здесь представлено сравнение фреймворков машинного обучения {caret}, {mlr3} и {tidymodels} в R и их возможностей для задач пространственного машинного обучения (ML), а также сделан обзор других библиотек, которые можно использовать для пространственного ML в R.
Постер сопровождается примерами кода, которые демонстрируют, как использовать эти библиотеки для задач пространственного машинного обучения.
Напомню что взаимодействовать в R с ArcGIS можно с помощью {arcgislayers}, с QGIS в {qgisprocess} (см. также презентацию), про GRASS расскажем завтра.


15.04.202507:30
{boxview} 📦
Экспериментальная библиотека {boxview} содержит всего одну функцию
Экспериментальная библиотека {boxview} содержит всего одну функцию
boxview::boxview()
для отображения кода функции во вложенных блоках, это немного упрощает просмотр кода по сравнению с традиционным способом.pak::pak("cynkra/boxview")


15.04.202507:02
Model to Meaning (How to Interpret Statistical Models with marginaleffects for R and Python)
Представьте, что вы хотите узнать, как увеличение дохода на 1 000 рублей влияет на вероятность того, что человек купит страховку. Маргинальные эффекты - это способ понять, как изменение одного фактора влияет на результат в статистической моделии, при условии, что все остальные факторы остаются неизменными. Маргинальные эффекты помогают рассчитать «усредненное» влияние для всех наблюдений или для конкретной группы.
Есть хороший повод напомнить про книгу Model to Meaning по библиотеке marginaleffects, которая, по словам автора (Vincent Arel-Bundock) представляет простую, но мощную концептуальную структуру, помогающую аналитикам понимать сложные модели. Дело в том, что теперь книга доступна не только для пользователей R, но и Python и ее манускрипт отправляется в печать.
Это единая точка входа для интерпретации результатов более 100 различных типов статистических моделей и моделей машинного обучения в R и Python.
Представьте, что вы хотите узнать, как увеличение дохода на 1 000 рублей влияет на вероятность того, что человек купит страховку. Маргинальные эффекты - это способ понять, как изменение одного фактора влияет на результат в статистической моделии, при условии, что все остальные факторы остаются неизменными. Маргинальные эффекты помогают рассчитать «усредненное» влияние для всех наблюдений или для конкретной группы.
Есть хороший повод напомнить про книгу Model to Meaning по библиотеке marginaleffects, которая, по словам автора (Vincent Arel-Bundock) представляет простую, но мощную концептуальную структуру, помогающую аналитикам понимать сложные модели. Дело в том, что теперь книга доступна не только для пользователей R, но и Python и ее манускрипт отправляется в печать.
Это единая точка входа для интерпретации результатов более 100 различных типов статистических моделей и моделей машинного обучения в R и Python.


15.04.202506:01
Уважаемые коллеги!
Красноярский математический центр рад принять у себя участников V Конференции математических центров России, которая пройдет с 11 по 16 августа 2025 г. в г. Красноярске на базе Сибирского федерального университета.
К участию в конференции приглашаются представители российской и мировой математической общественности: аспиранты, студенты, сотрудники математических центров, научные и педагогические работники. Формат работы конференции очный, будут представлены пленарные, секционные и постерные доклады по актуальным направлениям развития и современным достижениям математической науки.
В качестве финансовой поддержки молодых исследователей организаторы конференции предоставят бесплатное проживание ограниченному числу участников по рекомендации руководителей секций.
Подробная информация о мероприятии находится на официальном сайте конференции: https://kmc.sfu-kras.ru/conf2025/
По всем возникающим вопросам следует обращаться на почту оргкомитета по адресу: konf-mc@sfu-kras.ru.
Красноярский математический центр рад принять у себя участников V Конференции математических центров России, которая пройдет с 11 по 16 августа 2025 г. в г. Красноярске на базе Сибирского федерального университета.
К участию в конференции приглашаются представители российской и мировой математической общественности: аспиранты, студенты, сотрудники математических центров, научные и педагогические работники. Формат работы конференции очный, будут представлены пленарные, секционные и постерные доклады по актуальным направлениям развития и современным достижениям математической науки.
В качестве финансовой поддержки молодых исследователей организаторы конференции предоставят бесплатное проживание ограниченному числу участников по рекомендации руководителей секций.
Подробная информация о мероприятии находится на официальном сайте конференции: https://kmc.sfu-kras.ru/conf2025/
По всем возникающим вопросам следует обращаться на почту оргкомитета по адресу: konf-mc@sfu-kras.ru.


14.04.202507:01
Forecasting: Principles and Practice, the Pythonic Way 🐍🔥
Мы прекрасно знаем, что одна из лучших книг по работе с временными рядами с использованием языка R - Forecasting: Principles and Practice, авторы которой Rob J Hyndman и George Athanasopoulos. Новая книга Forecasting: Principles and Practice, the Pythonic Way призвана предоставить всестороннее введение в методы прогнозирования на Python. Предполагается что здесь не дается подробное обсуждение теоретических деталей, но читатели знакомы с вводным курсом статистики.
Самым важным изменением в этом издании книги является то, что авторы используют nixtlaverse в Python - это коллекция библиотек, разработанная Nixtla, которая предоставляет комплексный инструментарий для прогнозирования временных рядов. Также в новое издание включены две главы по искусственным нейронным сетям и их применениям к задачам временных рядов.
Удачного прогнозирования! 💙
Мы прекрасно знаем, что одна из лучших книг по работе с временными рядами с использованием языка R - Forecasting: Principles and Practice, авторы которой Rob J Hyndman и George Athanasopoulos. Новая книга Forecasting: Principles and Practice, the Pythonic Way призвана предоставить всестороннее введение в методы прогнозирования на Python. Предполагается что здесь не дается подробное обсуждение теоретических деталей, но читатели знакомы с вводным курсом статистики.
Самым важным изменением в этом издании книги является то, что авторы используют nixtlaverse в Python - это коллекция библиотек, разработанная Nixtla, которая предоставляет комплексный инструментарий для прогнозирования временных рядов. Также в новое издание включены две главы по искусственным нейронным сетям и их применениям к задачам временных рядов.
Удачного прогнозирования! 💙


11.04.202508:00
Сегодня выходит R 4.5.0. 🎉
Нововведения можно посмотреть у Jumping Rivers. Пингвины точно будут! 🐧
Хорошего всем обновления! 👋
Нововведения можно посмотреть у Jumping Rivers. Пингвины точно будут! 🐧
Хорошего всем обновления! 👋


11.04.202507:03
R Development Guide
В base R входит, по сути, всего 14 библиотек (Eyayaw Beze сделал небольшой обзор), которые можно посмотреть, например, с помощью
Руководство по разработке R - это всеобъемлющий ресурс для внесения для тех, кто хочет внести вклад в base R, охватывающее множесвто вопросов, начиная от отслеживания проблем, создания патчей, документирования, до тестирования предварительных версий и дополнительных вопросов.
В base R входит, по сути, всего 14 библиотек (Eyayaw Beze сделал небольшой обзор), которые можно посмотреть, например, с помощью
Руководство по разработке R - это всеобъемлющий ресурс для внесения для тех, кто хочет внести вклад в base R, охватывающее множесвто вопросов, начиная от отслеживания проблем, создания патчей, документирования, до тестирования предварительных версий и дополнительных вопросов.


10.04.202507:05
A course on Spatial Data Science 🐍 🗺️
Мы уже рассказывали про записки курса Spatial Data Science for Social Geography, который в 2023 году проводился в Charles University, Prague. Курс знакомит с основными принципами программирования и современными вычислительными инструментами с открытым исходным кодом, написанными на языке Python в области науки о пространственных данных. Материалы содержат Jupyter ноутбуки, которые можно запустить локально и отличаются проработанностью. Содержание курса близко к книге Geographic Data Science with Python.
Помимо указанного курса, в Charles University ежегодно выходит и его "облегченная версия", записки которого также доступны.
Напомню про то, что источники по геопространственному анализу можно посмотреть на странице Rесурсы, а всевозможные материалы курсов на соответствующей странице по тегу GeoData.
Мы уже рассказывали про записки курса Spatial Data Science for Social Geography, который в 2023 году проводился в Charles University, Prague. Курс знакомит с основными принципами программирования и современными вычислительными инструментами с открытым исходным кодом, написанными на языке Python в области науки о пространственных данных. Материалы содержат Jupyter ноутбуки, которые можно запустить локально и отличаются проработанностью. Содержание курса близко к книге Geographic Data Science with Python.
Помимо указанного курса, в Charles University ежегодно выходит и его "облегченная версия", записки которого также доступны.
Напомню про то, что источники по геопространственному анализу можно посмотреть на странице Rесурсы, а всевозможные материалы курсов на соответствующей странице по тегу GeoData.


09.04.202507:03
{equatiomatic} - создание уравнений моделей
Как автоматически отобразить уравнение модели в Quarto / RMarkdown? Один из способов отображения уравнения модели - это использование библиотеки {equatiomatic}. Достаточно создать модель, которая поддерживается библиотекой {broom} (линейная регрессия, логистическая регрессия, и т. д.) и воспользоваться функцией
Я узнал об этой библиотеке из статьи замечательного блога, автор которого - Филипп Массикотт. Обратите также внимание на библиотеку {xdvir} для отображения LaTeX в графиках.
Как автоматически отобразить уравнение модели в Quarto / RMarkdown? Один из способов отображения уравнения модели - это использование библиотеки {equatiomatic}. Достаточно создать модель, которая поддерживается библиотекой {broom} (линейная регрессия, логистическая регрессия, и т. д.) и воспользоваться функцией
extract_eq()
, которая сформирует LaTeX-уравнение.
$$
\operatorname{mpg} = \alpha + \beta_{1}(\operatorname{drat}) + \beta_{2}(\operatorname{wt}) + \beta_{3}(\operatorname{qsec}) + \epsilon
$$
Я узнал об этой библиотеке из статьи замечательного блога, автор которого - Филипп Массикотт. Обратите также внимание на библиотеку {xdvir} для отображения LaTeX в графиках.


08.04.202507:00
Pointblank - валидация данных в R / Python
Качество данных - один из главных залогов успеха в Data Science. Библиотека Pointblank - настоящая находка, она служит настройки конвейеров проверки данных и может помочь обнаружить и устранить такие распространенные ошибки, как дублирование или повреждение данных. Создается агент, которому предоставляется набор функций проверки для определения шагов проверки. Отчетность сделана на очень высоком уровне. При этом библиотека также позволяет указывать правила в отдельном файле YAML, что может дополнительно повысить переносимость между проектами. Пример работы можно посмотреть в блоге Эмили Ридерер.
Теперь Pointblank доступен и на Python в PyPI как библиотека, примеры валидации данных можно посмотреть на сайте.
Качество данных - один из главных залогов успеха в Data Science. Библиотека Pointblank - настоящая находка, она служит настройки конвейеров проверки данных и может помочь обнаружить и устранить такие распространенные ошибки, как дублирование или повреждение данных. Создается агент, которому предоставляется набор функций проверки для определения шагов проверки. Отчетность сделана на очень высоком уровне. При этом библиотека также позволяет указывать правила в отдельном файле YAML, что может дополнительно повысить переносимость между проектами. Пример работы можно посмотреть в блоге Эмили Ридерер.
Теперь Pointblank доступен и на Python в PyPI как библиотека, примеры валидации данных можно посмотреть на сайте.


07.04.202507:00
{gt} 1.0.0 🔥
Обновилась до версии 1.0.0 библиотека {gt}, которая не нуждается в особом представлении - это, пожалуй, лучшая библиотека для создания статических таблиц, обладающая той же философией, что и {ggplot2} - послойного построения компонентов таблиц. Большой анонс еще, видимо, будет, а пока можно почитать:
🔘 огромное количество статей по {gt} в блоге Posit
🔘 статьи по {gt} и {gtExtras}, которые написал Tom Mock в своем блоге
🔘 книгу Creating beautiful tables in R with {gt}, автор которой Albert Rapp
Библиотека так полюбилась многим пользователям, что авторы {gt} сделали аналогичную библиотеку Great Table для Python (см. видеообзор: видео 1 + видео 2 + видео 3), так и пишут - Absolutely Delightful Table-making in Python. 🐍
Must have! 🌟
ожидаем на этой неделе еще один большой релиз!
Обновилась до версии 1.0.0 библиотека {gt}, которая не нуждается в особом представлении - это, пожалуй, лучшая библиотека для создания статических таблиц, обладающая той же философией, что и {ggplot2} - послойного построения компонентов таблиц. Большой анонс еще, видимо, будет, а пока можно почитать:
🔘 огромное количество статей по {gt} в блоге Posit
🔘 статьи по {gt} и {gtExtras}, которые написал Tom Mock в своем блоге
🔘 книгу Creating beautiful tables in R with {gt}, автор которой Albert Rapp
Библиотека так полюбилась многим пользователям, что авторы {gt} сделали аналогичную библиотеку Great Table для Python (см. видеообзор: видео 1 + видео 2 + видео 3), так и пишут - Absolutely Delightful Table-making in Python. 🐍
Must have! 🌟
ожидаем на этой неделе еще один большой релиз!


Records
20.04.202523:59
1.8KSubscribers19.10.202423:59
100Citation index14.04.202507:36
723Average views per post16.04.202502:29
658Average views per ad post18.12.202423:59
10.89%ER26.12.202423:59
41.31%ERRGrowth
Subscribers
Citation index
Avg views per post
Avg views per ad post
ER
ERR
Log in to unlock more functionality.