Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.
Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.
Ровно год назад мы запустили новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). За этот год мы стремились сохранить и сделать доступными исторические документы о госфинансах и госуправлении и, на наш взгляд, нам это удалось:
- количество документов на сайте Архива превысило 8 тысяч. Мы агрегировали новые источники документов: книги из личного архива А.Л. Кудрина (@AlekseiKudrin) по истории госфинансов, Архив Егора Гайдара и Национальную электронную библиотеку;
- распознали 500 сканов и подготовили 100 новых наборов данных, в основном связанных с государственными бюджетами СССР. Стремимся к созданию временных рядов;
- обогатили метаданными 1500 документов из библиотеки Минфина России и разработали три новых классификатора;
- собрали бюджеты за 1866-1990-е годы и оформили их в виде интерактивного таймлайна (https://finlibrary.ru/s/finarchive/page/timeline). Данные за 12 лет мы пока не нашли и находимся в активном поиске :D (можете нам с этим помочь);
- также в 2024 году мы активно помогали Комитету финансов Санкт-Петербурга (@comfinspb) оцифровать и опубликовать 100 тысяч образов о финансах Санкт-Петербурга за 100 лет, и надеемся, что скоро эти данные будут опубликованы (несмотря на перенос сроков);
- в этом году мы планируем больше взаимодействовать с нашими пользователями - вести телеграм-канал, организовывать конкурс для студентов и взаимодействовать с владельцами документов.
01.03.202507:48
Добрый день, друзья! Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.
27.02.202513:27
Программа Дня открытых данных 2025: открытые данные для науки, цифровой архив госфинансов, визуализации данных по внешней торговле и многое другое. 🗓 Дата и время: 1 марта, 11:00-15:30 💻 Формат: онлайн-трансляция
Опубликована программа российского Дня открытых данных. Темы выступлений:
1. Российская база бухгалтерской отчетности. Спикер Дмитрий Скугаревский, Ассоциированный профессор по эмпирико-правовым исследованиям им С.А. Муромцева Европейского университета в Санкт-Петербурге. 2. Поиск по данным с помощью Dateno. Спикер Иван Бегтин, Директор АНО «Инфокультура», Основатель Dateno. 3. Фрагментарность открытых данных об образовании и их диспропорция. Спикер Ирина Дворецкая, PhD, научный сотрудник, Институт образования НИУ ВШЭ. 4. Цифровой архив госфинансов: от выцветших страниц до машиночитаемых данных. Спикер Ольга Пархимович, руководитель проекта «Госзатраты». 5. Современные подходы к визуализации данных по внешней торговле. Спикер Алина Владимирова, Руководитель направления сетевого анализа, Институт востоковедения РАН. 6. Жизненный цикл открытых данных, создаваемых архивными волонтерами и генеалогами, или как не оказаться в цифровой могиле. Спикер Татьяна Максимова, MBA, автор телеграм-канала «Клуб генеаголиков», популяризатор архивного волонтерства. 7. Музейные данные: реализация просветительской функции. Спикер Мария Сысоева, Управление стратегического планирования (направление цифровизации), ГМИИ им. А.С.Пушкина. 8. От сырых данных к визуализации. Как превратить данные о 50 млн госконтрактов в понятные дашборды. Спикер Орлова Ксения, аналитик данных.
📍Регистрируйтесь на мероприятие и добавляйте его себе в календарь. Подробности на сайте: opendataday.ru/msk
Организатором Дня открытых данных в России выступает АНО «Информационная культура».
Присоединяйтесь ко Дню открытых данных 2025 — #ODD2025
01.03.2025, 11:00-16:00 (GMT +3), День открытых данных 2025 (https://opendataday.ru/msk) — это ежегодное международное мероприятие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества.
Мероприятие пройдет в онлайн формате.
Мы подготовили для аудитории сессии докладов, презентации кейсов и мастер-классы по актуальным вопросам различных направлений открытости и отдельных проектов. Приглашаем исследователей, дата инженеров, аналитиков, урбанистов, разработчиков, ИТ-специалистов, дата-журналистов и других участников российского движения открытости и любителей данных во всех их формах.
В ближайшие дни я в Москве и довольно неожиданно, а на самом деле давно были планы, читаю лекцию про работу с большими исследовательскими датасетами и об использовании DuckDB и Parquet в этих целях. Будет и в части теории и рассказа про современный инструменты и в части демонстрации на живых данных. Для тех исследователей кто хотя бы немного владеет Python, R и/ли SQL всё будет довольно понятно.
А вот и сам анонс;) — Приглашаем поучаствовать в семинаре на тему особенностей работы с современными форматами больших данных.
Поговорим о ключевых преимуществах формата Parquet для оптимизации хранения и обработки данных, а также о возможностях аналитической СУБД DuckDB.
Семинар может быть интересен тем, кто занимается обработкой и анализом больших данных, а также тем, кто ищет эффективные и производительные решения для работы с массивами данных в современных аналитических экосистемах.
Дата проведения: 21 января 2025 г. (вторник), с 16:30 до 18:00 Формат: гибридный Место проведения: Институт востоковедения РАН (г. Москва, ул. Рождественка, 12), аудитория 222
В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.
Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.
В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.
И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉
И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.
Для тех кто хочет поработать с данными из OS Places по России, на Хаб открытых данных выложен датасет в формате parquet на 3 096 012 точек [1] и общим объёмом 309 мегабайт.
Ожидаемо, у тех точек где есть привязка к региону, более всего точек у Москвы и Санкт-Петербурга. А вообще датасет можно использовать и для проверки алгоритмов повышения качества данных потому что у более чем половины точек, к примеру, нет указания региона, города и адреса, только координаты.
Датасет большой, идей по его применению может быть очень много