
Ivan Begtin
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.
Founder of Dateno https://dateno.io
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Founder of Dateno https://dateno.io
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
TGlist रेटिंग
0
0
प्रकारसार्वजनिक
सत्यापन
असत्यापितविश्वसनीयता
अविश्वसनीयस्थानРосія
भाषाअन्य
चैनल निर्माण की तिथिСіч 16, 2016
TGlist में जोड़ा गया
Жовт 11, 2023संलग्न समूह
समूह "Ivan Begtin" में नवीनतम पोस्ट
15.04.202505:58
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.
Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf
#opendata #data #dataengineering #readings #ai #dataquality #geodata
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.
Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf
#opendata #data #dataengineering #readings #ai #dataquality #geodata
07.04.202515:57
Кстати, вот такой вопрос. А какие есть хорошие инструменты и, желательно, кейсы открытых или недорогих инструментов для совместной работы аналитиков? Причём желательно для тех кто умеет Excel и не умеет SQL.
Есть JupyterLab, но он про тех кто умеет в Python и всё что касается больших данных там, всё равно, про SQL. То же самое с RStudio и RStudio совсем не про совместную работу.
И, не на облачных платформах, а так чтобы можно было развернуть локально.
Примерно с такими требованиями:
1. Подключением к наиболее популярным базам данных: PostgreSQL, Clickhouse,
2. Совместные пространства для работы от 2 до 10 человек
3. Возможность получения данных интерактивными запросами и SQL
4. Возможность экспорта данных в Excel
5. Возможность сохранять и делиться результатами внутри пространств: файлы, таблицы, дашборды (желательно)
6. Гибкое управление доступом к пространствам и ресурсам: публичные и закрытые пространства.
7. Желательно с поддержкой Jupyter Notebooks.
Что-то из этого могут инструменты вроде Yandex Datalens (есть open source версия) и SuperSet, но так чтобы всё это вместе - такого не знаю.
Поделитесь личным опытом.
#questions #dataanalytics
Есть JupyterLab, но он про тех кто умеет в Python и всё что касается больших данных там, всё равно, про SQL. То же самое с RStudio и RStudio совсем не про совместную работу.
И, не на облачных платформах, а так чтобы можно было развернуть локально.
Примерно с такими требованиями:
1. Подключением к наиболее популярным базам данных: PostgreSQL, Clickhouse,
2. Совместные пространства для работы от 2 до 10 человек
3. Возможность получения данных интерактивными запросами и SQL
4. Возможность экспорта данных в Excel
5. Возможность сохранять и делиться результатами внутри пространств: файлы, таблицы, дашборды (желательно)
6. Гибкое управление доступом к пространствам и ресурсам: публичные и закрытые пространства.
7. Желательно с поддержкой Jupyter Notebooks.
Что-то из этого могут инструменты вроде Yandex Datalens (есть open source версия) и SuperSet, но так чтобы всё это вместе - такого не знаю.
Поделитесь личным опытом.
#questions #dataanalytics
04.04.202515:43
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.
Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.
Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
#openknowledge #opendata #ai #aibots
Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.
Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
#openknowledge #opendata #ai #aibots
03.04.202515:40
Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]
1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.
#opendata #thoughts
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]
1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.
#opendata #thoughts
26.03.202508:31
Для тех кто пользуется или планирует пользоваться DuckDB я закинул в рассылку подборку ограничений и особенностей применения из личного опыта.
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
26.03.202505:41
У Benn Stancil очередная замечательная заметка Most graduate degrees in analytics are scams [1] на более чем актуальную тему - многочисленных магистерских программ по аналитике (применительно к данным) в колледжах и университетах. Он сам и ему в комментариях там набрасывают немало инсайтов почему эти магистерские дипломы никак не влияют на привлекательность человека на рынке или влияют в обратную сторону и являются "красным флажком".
Ключевое в его посыле в том что академические программы по дата аналитике учат тому как работать сложными методами с очень простыми и лёгкими данными в том время как в реальной жизни всё наоборот, ты работаешь очень простыми методами с очень сложными данными. Сложными во всех смыслах: собрать, связать, очистить, ощутить неполноту не поддающуюся исправлениям и тд. Причём сложная математика, за очень и очень редким исключением, возникает только в data science, а сложные методы почти вообще никогда.
И там же у него о том почему стартапы ищут тех кто поступил в Гарвард или Стенфорд, но их не волнует учился ли там человек далее, потому что экзамен в эти университеты - это как IQ тест, говорит о человеке больше чем готовность учиться далее.
И наконец, как правильно пишет один из комментаторов, слишком часто люди отучившиеся по магистерским программам по аналитике теряют профессиональное любопытство. Это нормально для некоторых профессий, но не в IT, и не в аналитике в частности где всё довольно быстро меняется.
У Benn'а много хороших текстов и это один из них, стоит почитать хотя бы чтобы просто подумать над этой темой.
Что я могу добавить так это то что хуже чем магистерские программы - это многочисленные курсы по аналитике продаваемые под соусом "увеличь свою зарплату в 4 раза". В них есть худшее от обоих миров, это про обучение как работать с очень простыми данными очень простыми методами. Чем более массовыми такие курсы являются, тем больше они являются красными флажками для любого профессионального работодателя.
Потому что их прохождение говорит следующее:
1. Вас можно обмануть заманухой о быстром повышении зарплаты через явный скам.
2. Вы готовы потратить много времени на курс по которому можно было бы учиться самостоятельно, открытых материалов множество
У Benn'а есть совет в том что важнее взять данные которые реально вам интересны и сделать самостоятельную аналитику на их основе, копаясь в них до тех пока пока не найдётся нечто реально интересное.
Я к этому совету готов присоединится и усилить. Индустриальный опыт и любопытство в работе с данными в резюме и собеседовании значительно превосходят почти любое образование и курсы.
Ссылки:
[1] https://benn.substack.com/p/most-graduate-degrees-in-analytics
#it #dataanalytics #data #thoughts
Ключевое в его посыле в том что академические программы по дата аналитике учат тому как работать сложными методами с очень простыми и лёгкими данными в том время как в реальной жизни всё наоборот, ты работаешь очень простыми методами с очень сложными данными. Сложными во всех смыслах: собрать, связать, очистить, ощутить неполноту не поддающуюся исправлениям и тд. Причём сложная математика, за очень и очень редким исключением, возникает только в data science, а сложные методы почти вообще никогда.
И там же у него о том почему стартапы ищут тех кто поступил в Гарвард или Стенфорд, но их не волнует учился ли там человек далее, потому что экзамен в эти университеты - это как IQ тест, говорит о человеке больше чем готовность учиться далее.
И наконец, как правильно пишет один из комментаторов, слишком часто люди отучившиеся по магистерским программам по аналитике теряют профессиональное любопытство. Это нормально для некоторых профессий, но не в IT, и не в аналитике в частности где всё довольно быстро меняется.
У Benn'а много хороших текстов и это один из них, стоит почитать хотя бы чтобы просто подумать над этой темой.
Что я могу добавить так это то что хуже чем магистерские программы - это многочисленные курсы по аналитике продаваемые под соусом "увеличь свою зарплату в 4 раза". В них есть худшее от обоих миров, это про обучение как работать с очень простыми данными очень простыми методами. Чем более массовыми такие курсы являются, тем больше они являются красными флажками для любого профессионального работодателя.
Потому что их прохождение говорит следующее:
1. Вас можно обмануть заманухой о быстром повышении зарплаты через явный скам.
2. Вы готовы потратить много времени на курс по которому можно было бы учиться самостоятельно, открытых материалов множество
У Benn'а есть совет в том что важнее взять данные которые реально вам интересны и сделать самостоятельную аналитику на их основе, копаясь в них до тех пока пока не найдётся нечто реально интересное.
Я к этому совету готов присоединится и усилить. Индустриальный опыт и любопытство в работе с данными в резюме и собеседовании значительно превосходят почти любое образование и курсы.
Ссылки:
[1] https://benn.substack.com/p/most-graduate-degrees-in-analytics
#it #dataanalytics #data #thoughts
25.03.202516:43
В 404media статья [1] за пэйволом и подскаст [2] о том что иммиграционная служба США наняла подрядчика ShadowDragon который занимается OSINT по паре сотен сайтов социальных сетей, шоппинга и тд. для идентификации активности мигрантов. В фонде Mozilla уже объявили кампанию [3] сбора подписей против такой слежки и приводят список из этих 200+ сайтов [4].
Про ShadowDragon [5] мне лично мало что известно, на их сайте есть краткое, нетехническое описание их продуктов которые, в основном, про кибербезопасность и OSINT в глобальных расследованиях.
В целом же новость такая что сложно быть безучастным. В том что правоохранительные органы имеют возможность формировать профили пользователей давно нет сомнений, в том что массовая слежка присутствует тоже общеизвестно, но привлечение OSINT компании и сбор данных из коммерческих сервисов - это не то чтобы новое, но нечасто выплывает наружу.
Ссылки:
[1] https://www.404media.co/the-200-sites-an-ice-surveillance-contractor-is-monitoring/
[2] https://www.404media.co/podcast-the-websites-an-ice-contractor-is-monitoring/
[3] https://foundation.mozilla.org/en/campaigns/no-data-for-surveillance-tech/
[4] https://docs.google.com/spreadsheets/d/1VyAaJaWCutyJyMiTXuDH4D_HHefoYxnbGL9l02kyCus/edit?ref=404media.co&gid=0#gid=0
[5] https://shadowdragon.io/
#privacy #osint #usa #immigration #masssurveillance
Про ShadowDragon [5] мне лично мало что известно, на их сайте есть краткое, нетехническое описание их продуктов которые, в основном, про кибербезопасность и OSINT в глобальных расследованиях.
В целом же новость такая что сложно быть безучастным. В том что правоохранительные органы имеют возможность формировать профили пользователей давно нет сомнений, в том что массовая слежка присутствует тоже общеизвестно, но привлечение OSINT компании и сбор данных из коммерческих сервисов - это не то чтобы новое, но нечасто выплывает наружу.
Ссылки:
[1] https://www.404media.co/the-200-sites-an-ice-surveillance-contractor-is-monitoring/
[2] https://www.404media.co/podcast-the-websites-an-ice-contractor-is-monitoring/
[3] https://foundation.mozilla.org/en/campaigns/no-data-for-surveillance-tech/
[4] https://docs.google.com/spreadsheets/d/1VyAaJaWCutyJyMiTXuDH4D_HHefoYxnbGL9l02kyCus/edit?ref=404media.co&gid=0#gid=0
[5] https://shadowdragon.io/
#privacy #osint #usa #immigration #masssurveillance
25.03.202506:13
Marimo [1] альтернатива Jupyter Notebook по созданию аналитических и научных тетрадок. Среди многих альтернатив отличается наличием открытого кода под лицензией Apache 2.0. Даёт некоторое число фич которых нет у Jupyter, например, встраивание UI элементов, ячейки с SQL, визуализации и ряд других фич.
Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.
Ссылки:
[1] https://marimo.io
#opensource #datascience #data #datatools
Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.
Ссылки:
[1] https://marimo.io
#opensource #datascience #data #datatools


24.03.202517:51
Победители конкурса Open Data Armenia рассказывают о своём проекте [1]. Мне как организатору приятно что хорошие проекты подаются к нам на конкурс и побеждают и приятно что историей Армении интересуются не только армяне 🇦🇲
Я лично всё время ощущаю себя одновременно армянином, но с чувством что я недостаточно много делаю для своей второй родины.
Ощущаю свой вклад через такие конкурсы и то что создали и развиваем Open Data Armenia (@opendataam).
Ссылки:
[1] https://www.linkedin.com/posts/karasu_armenia-during-tigranes-the-great-activity-7302251419477168129-Zf2K/
#opendata #armenia #digitalhumanities
Я лично всё время ощущаю себя одновременно армянином, но с чувством что я недостаточно много делаю для своей второй родины.
Ощущаю свой вклад через такие конкурсы и то что создали и развиваем Open Data Armenia (@opendataam).
Ссылки:
[1] https://www.linkedin.com/posts/karasu_armenia-during-tigranes-the-great-activity-7302251419477168129-Zf2K/
#opendata #armenia #digitalhumanities


से पुनः पोस्ट किया:
Национальный цифровой архив

24.03.202516:14
Вот уже какое-то время недоступен портал Исторические материалы (istmat.org), последняя его сохранённая версия есть в Интернет Архиве на февраль 2025 года [1] и видно что ничего нового не публиковалось с ноября 2024 года.
ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.
Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту ibegtin@infoculture.ru). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.
P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.
Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/
#digitalpreservation #archives #history
ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.
Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту ibegtin@infoculture.ru). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.
P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.
Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/
#digitalpreservation #archives #history


24.03.202507:50
По поводу новости о Национальной базе генетической информации [1] и о том как она будет устроена. Я вот ещё на первых новостях о её появлении пытался найти хотя бы страницу с описанием этого проекта и хотя бы один документ, но ничего кроме постановления Пр-ва не нашёл, на сайте Курчатовского института тоже ничего не находится или ну очень глубоко спрятано, хотя казалось бы...
Поэтому вместо рассуждений о несделанном напомню про Китайский национальный центр по биоинформатики в котором хранится национальный банк генетических данных Китая. Чуть менее чем год назад там было геномных данных на 53 петабайта [2], сейчас на 68.7 петабайт [3].
Ссылки:
[1] https://www.rbc.ru/technology_and_media/24/03/2025/67dda55f9a79470f47baa7f0
[2] https://t.me/begtin/5954
[3] https://www.cncb.ac.cn/
#opendata #russia #china #genomics #bioinformatics
Поэтому вместо рассуждений о несделанном напомню про Китайский национальный центр по биоинформатики в котором хранится национальный банк генетических данных Китая. Чуть менее чем год назад там было геномных данных на 53 петабайта [2], сейчас на 68.7 петабайт [3].
Ссылки:
[1] https://www.rbc.ru/technology_and_media/24/03/2025/67dda55f9a79470f47baa7f0
[2] https://t.me/begtin/5954
[3] https://www.cncb.ac.cn/
#opendata #russia #china #genomics #bioinformatics


24.03.202506:17
Полезные ссылки про данные, технологии и не только:
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
22.03.202508:28
В рубрике как это устроено у них publiccode.yml [1] [2] стандарт публикации открытого кода созданного за счёт государственного или местных бюджетов (public software). Изначально разработан итальянскими госразработчиками, потом преобразованный в международный стандарт.
Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а
Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.
Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.
Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml
#opensource #government #standards
Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а
Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.
Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.
Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml
#opensource #government #standards
21.03.202517:18
Свежее полезное чтение Governing in the Age of AI: Building Britain’s National Data Library [1] от британского института Тони Блэра про то как строить Британскую Национальную Библиотеку данных.
Это особенно длинный лонгрид со многими фундаментальными вопросами, но ключевое можно выделить что де-факто это:
- платформа для академических исследований в экономике
- платформа для коммерческого R&D
- среда для подготовки решений основанных на данных (для регуляторов)
Кроме британцев там авторы из Google и статслужбы Новой Зеландии. А также активно ссылаются на эстонский опыт с X-Road.
Всё это чем-то похоже на Data Spaces в Евросоюзе, но они вводят новый термин Data Biomes как развитие идеи экосистемы работы с данными. При этом на инициативы ЕС вообще нигде не ссылаются, придумывают собственный фундамент.
Я этот документ ещё буду перечитывать чтобы разобрать его подробнее. В любом случае он будет полезен всем кто думает о том как это устроено у них, там много отсылок на существующие дата платформы Великобритании.
Ссылки:
[1] https://institute.global/insights/tech-and-digitalisation/governing-in-the-age-of-ai-building-britains-national-data-library
#opendata #policies #uk #regulation #readings
Это особенно длинный лонгрид со многими фундаментальными вопросами, но ключевое можно выделить что де-факто это:
- платформа для академических исследований в экономике
- платформа для коммерческого R&D
- среда для подготовки решений основанных на данных (для регуляторов)
Кроме британцев там авторы из Google и статслужбы Новой Зеландии. А также активно ссылаются на эстонский опыт с X-Road.
Всё это чем-то похоже на Data Spaces в Евросоюзе, но они вводят новый термин Data Biomes как развитие идеи экосистемы работы с данными. При этом на инициативы ЕС вообще нигде не ссылаются, придумывают собственный фундамент.
Я этот документ ещё буду перечитывать чтобы разобрать его подробнее. В любом случае он будет полезен всем кто думает о том как это устроено у них, там много отсылок на существующие дата платформы Великобритании.
Ссылки:
[1] https://institute.global/insights/tech-and-digitalisation/governing-in-the-age-of-ai-building-britains-national-data-library
#opendata #policies #uk #regulation #readings
21.03.202516:57
В рубрике закрытых данных в РФ последнее обновление статистических сборников Минздрава РФ было за 2018 год [1] и там не то чтобы открытые данные, а просто таблицы внутри файлов MS Word (.doc), спасибо что хотя бы не PDF документы и что хотя бы там таблицы, а не просто графики.
Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].
Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8
#opendata #closeddata #datasets #data
Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].
Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8
#opendata #closeddata #datasets #data


रिकॉर्ड
15.04.202523:59
9.3Kसदस्य04.04.202523:59
300उद्धरण सूचकांक06.04.202510:17
1.5Kप्रति पोस्ट औसत दृश्य07.04.202510:17
1.5Kप्रति विज्ञापन पोस्ट औसत दृश्य29.01.202523:59
7.08%ER05.04.202523:59
16.49%ERRअधिक कार्यक्षमता अनलॉक करने के लिए लॉगिन करें।