Реальна Війна
Реальна Війна
NOTMEME Agent News
NOTMEME Agent News
І.ШО? | Новини
І.ШО? | Новини
Реальна Війна
Реальна Війна
NOTMEME Agent News
NOTMEME Agent News
І.ШО? | Новини
І.ШО? | Новини
Ivan Begtin avatar

Ivan Begtin

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.
Founder of Dateno https://dateno.io
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
TGlist рейтингі
0
0
ТүріҚоғамдық
Растау
Расталмаған
Сенімділік
Сенімсіз
Орналасқан жеріРосія
ТілБасқа
Канал құрылған күніСіч 16, 2016
TGlist-ке қосылған күні
Жовт 11, 2023
Қосылған топ

Рекордтар

06.04.202523:59
9.3KЖазылушылар
04.04.202523:59
300Дәйексөз индексі
06.04.202510:17
1.5K1 жазбаның қамтуы
07.04.202510:17
1.5KЖарнамалық жазбаның қамтуы
29.01.202523:59
7.08%ER
06.04.202510:17
16.47%ERR
Жазылушылар
Цитата индексі
1 хабарламаның қаралымы
Жарнамалық хабарлама қаралымы
ER
ERR
ЛЮТ '25БЕР '25КВІТ '25

Ivan Begtin танымал жазбалары

Marimo [1] альтернатива Jupyter Notebook по созданию аналитических и научных тетрадок. Среди многих альтернатив отличается наличием открытого кода под лицензией Apache 2.0. Даёт некоторое число фич которых нет у Jupyter, например, встраивание UI элементов, ячейки с SQL, визуализации и ряд других фич.

Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.

Ссылки:
[1] https://marimo.io

#opensource #datascience #data #datatools
26.03.202505:41
У Benn Stancil очередная замечательная заметка Most graduate degrees in analytics are scams [1] на более чем актуальную тему - многочисленных магистерских программ по аналитике (применительно к данным) в колледжах и университетах. Он сам и ему в комментариях там набрасывают немало инсайтов почему эти магистерские дипломы никак не влияют на привлекательность человека на рынке или влияют в обратную сторону и являются "красным флажком".

Ключевое в его посыле в том что академические программы по дата аналитике учат тому как работать сложными методами с очень простыми и лёгкими данными в том время как в реальной жизни всё наоборот, ты работаешь очень простыми методами с очень сложными данными. Сложными во всех смыслах: собрать, связать, очистить, ощутить неполноту не поддающуюся исправлениям и тд. Причём сложная математика, за очень и очень редким исключением, возникает только в data science, а сложные методы почти вообще никогда.

И там же у него о том почему стартапы ищут тех кто поступил в Гарвард или Стенфорд, но их не волнует учился ли там человек далее, потому что экзамен в эти университеты - это как IQ тест, говорит о человеке больше чем готовность учиться далее.

И наконец, как правильно пишет один из комментаторов, слишком часто люди отучившиеся по магистерским программам по аналитике теряют профессиональное любопытство. Это нормально для некоторых профессий, но не в IT, и не в аналитике в частности где всё довольно быстро меняется.

У Benn'а много хороших текстов и это один из них, стоит почитать хотя бы чтобы просто подумать над этой темой.

Что я могу добавить так это то что хуже чем магистерские программы - это многочисленные курсы по аналитике продаваемые под соусом "увеличь свою зарплату в 4 раза". В них есть худшее от обоих миров, это про обучение как работать с очень простыми данными очень простыми методами. Чем более массовыми такие курсы являются, тем больше они являются красными флажками для любого профессионального работодателя.
Потому что их прохождение говорит следующее:
1. Вас можно обмануть заманухой о быстром повышении зарплаты через явный скам.
2. Вы готовы потратить много времени на курс по которому можно было бы учиться самостоятельно, открытых материалов множество

У Benn'а есть совет в том что важнее взять данные которые реально вам интересны и сделать самостоятельную аналитику на их основе, копаясь в них до тех пока пока не найдётся нечто реально интересное.

Я к этому совету готов присоединится и усилить. Индустриальный опыт и любопытство в работе с данными в резюме и собеседовании значительно превосходят почти любое образование и курсы.

Ссылки:
[1] https://benn.substack.com/p/most-graduate-degrees-in-analytics

#it #dataanalytics #data #thoughts
03.04.202515:40
Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]

1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.


#opendata #thoughts
24.03.202506:17
Полезные ссылки про данные, технологии и не только:

AI & Science

- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.

Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.

Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).

Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/

#opendata #opensource #openaccess #ai #science #government #data
20.03.202515:42
Культура документов Amazon

По моему отличный текст [1] от Джастина Гаррисона о том как устроена работа с документами в Amazon и том как они связаны с совещаниями. Если кратко то документы лежат в основе совещаний и часть совещания от 10 до 30 минут тратится на чтение документа. Если документа нет, то совещание не проводится.

Мне сама идея и подход нравятся, полезен и сам текст и описываемая в нём практика.

Ссылки:
[1] https://justingarrison.com/blog/2021-03-15-the-document-culture-of-amazon/

#culture #howto #ideas #management #documents
04.04.202515:43
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.

Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.

Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/

#openknowledge #opendata #ai #aibots
25.03.202516:43
В 404media статья [1] за пэйволом и подскаст [2] о том что иммиграционная служба США наняла подрядчика ShadowDragon который занимается OSINT по паре сотен сайтов социальных сетей, шоппинга и тд. для идентификации активности мигрантов. В фонде Mozilla уже объявили кампанию [3] сбора подписей против такой слежки и приводят список из этих 200+ сайтов [4].

Про ShadowDragon [5] мне лично мало что известно, на их сайте есть краткое, нетехническое описание их продуктов которые, в основном, про кибербезопасность и OSINT в глобальных расследованиях.

В целом же новость такая что сложно быть безучастным. В том что правоохранительные органы имеют возможность формировать профили пользователей давно нет сомнений, в том что массовая слежка присутствует тоже общеизвестно, но привлечение OSINT компании и сбор данных из коммерческих сервисов - это не то чтобы новое, но нечасто выплывает наружу.

Ссылки:
[1] https://www.404media.co/the-200-sites-an-ice-surveillance-contractor-is-monitoring/
[2] https://www.404media.co/podcast-the-websites-an-ice-contractor-is-monitoring/
[3] https://foundation.mozilla.org/en/campaigns/no-data-for-surveillance-tech/
[4] https://docs.google.com/spreadsheets/d/1VyAaJaWCutyJyMiTXuDH4D_HHefoYxnbGL9l02kyCus/edit?ref=404media.co&gid=0#gid=0
[5] https://shadowdragon.io/

#privacy #osint #usa #immigration #masssurveillance
19.03.202506:25
В рубрике как это устроено у них Docs [1] альтернатива Notion и Outline с открытым кодом, годится для совместного написания документов и командной работы над ними. Распространяется под лицензией MIT.

У проекта много фич и он хорошо и быстро развивается, но интересно не только это.

Проект является совместной инициативой DINUM (Межминистерского цифрового директората во Франции) и ZenDiS (Zentrum Digitale Souveränität), Центр Цифрового Суверенитета при Министерстве цифры Германии.

Иначе говоря - это совместный государственный франко-германский проект по созданию аналога Notion, а также сейчас у них идет онбординг цифровой команды пр-ва Нидерландов.

У ZenDIS ещё есть продукт OpenDesk [2] по замене офисного ПО для проектной и офисной работы. И внутри него совместное написание документов как раз основано на Docs.

OpenDesk довольно новый продукт, анонсированный в октябре 2024 года, но весьма активный и его код также общедоступен [3]

И, заодно, стоит добавить что сообщество пользователей продукта они строят не как все в Slack или Discord, а в Matrix [4]. Скажу честно, куда менее удобный мессенжер, но зато не относящийся к Big tech.

Ссылки:
[1] https://github.com/suitenumerique/docs
[2] https://opendesk.eu/
[3] https://gitlab.opencode.de/bmi/opendesk/info
[4] https://matrix.to/#/#docs-official:matrix.org

#opensource #documentation #notion
Вот уже какое-то время недоступен портал Исторические материалы (istmat.org), последняя его сохранённая версия есть в Интернет Архиве на февраль 2025 года [1] и видно что ничего нового не публиковалось с ноября 2024 года.

ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.

Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту ibegtin@infoculture.ru). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.

P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.

Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/

#digitalpreservation #archives #history
17.03.202516:59
Полезные ссылки про данные, технологии и не только:
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund

Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/

#opendata #opensource #startups #ai #books #readings
Национальный архив США начал публиковать материалы рассекречивания дела по убийству Президента Кеннеди [1]. Материалы эти в виде сканов и оцифрованных аналоговых аудиозаписей, уже опубликовано 61400 страниц, это более чем 2000 PDF документов и это только за 18 марта. Ждём пополнения коллекции.

Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025

#digitalpreservation #archives #usa #kennedy
Ещё один необычный каталог данных OpenForest [1] является каталогом датасетов для машинного обучения с данными связанными с лесом.

Необычность в том что у него нет интерфейса и сам каталог представлен в виде репозитория на Github с перечнем датасетов в CSV файле.

Это не первый на моей памяти пример использования Github/Gitlab/Git для публикации датасетов и дата каталогов, другой пример - это каталоги на базе движка JKAN, но там это скорее материалы статитических сайтов каталогов, а интерфейс, всё же присутствует.

Ссылки:
[1] https://github.com/RolnickLab/OpenForest

#opendata #datacatalogs #datasets
Для тех кто ещё не столкнулся, но скоро столкнётся с "атаками" AI скрейпботов на сайты, Anubis [1] [2] открытый код который помогает отбиваться от некоторых поисковых систем препятствуя любому индексированию сайта.

Почему это важно? Потому что несколько AI ботов уже нюкнули множество проектов с открытым кодом [3] и те отбиваются от них Анубисом и пытаются ещё и добиться компенсации за DDoS атаки.

Ссылки:
[1] https://github.com/TecharoHQ/anubis
[2] https://anubis.techaro.lol/
[3] https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/

#opensource #ai #scraping
26.03.202508:31
Для тех кто пользуется или планирует пользоваться DuckDB я закинул в рассылку подборку ограничений и особенностей применения из личного опыта.

На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.

#duckdb #rdbms #datatools
Я, кстати, поначалу не обратил внимание, а на сайте Пр-ва РФ то есть появилась в феврале страница Основные показатели и мероприятия национального проекта «Экономика данных и цифровая трансформация государства» [1] и там, собственно, показатели и есть.

Показателей много, разных, какие-то мне лично нравятся, какие-то категорически не нравятся. Но об этом как-нибудь в другой раз. А вот показатель доступности 500 датасетов вызывает, честно говоря, смех.

Число 500 актуально только если это так называемые high-value datasets, термин есть в законах Евросоюза, но нет ничего в российских НПА. Это когда данные особо ценные, когда известно какие это данные и дорожная карта по их публикации. Хорошая штука, когда осмысленна.

А просто 500 наборов я лично могу собрать из разного мусора за день, а из хороших данных за месяц.

На закрытом портале data.gov.ru было около 20 тысяч датасетов (хреновых, но количество же тут), на портале открытых данных Москвы около 800 датасетов и так далее.

В общем это даже не низковисящие плоды, а не пойми что.

И тут, в который раз, не могу не отметить значительную закрытость этого Пр-ва по сравнению с предыдущими. Причём это вопрос не 2022 года, а гораздо более ранний. Года с 2020 если не раньше. Почти по всем нац проектам материалы доступны в пресс релизах, выступлениях и, с огромными задержками или совсем недоступны, содержательные документы.

У меня уже много лет нет рабочей необходимости копаться в структуре госрасходов, мероприятиях и контрактах и показателях результативности гос-ва. Но не отмечать очевидное тут сложно.

Ссылки:
[1] http://government.ru/info/54314/

#opendata #government #russia #spending
Көбірек мүмкіндіктерді ашу үшін кіріңіз.