Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]
1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.
#opendata #thoughts