
Национальный цифровой архив
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваныНадзейнасць
Не надзейныРазмяшчэннеРосія
МоваІншая
Дата стварэння каналаMar 03, 2022
Дадана ў TGlist
Sep 16, 2023Прыкрепленая група
Апошнія публікацыі ў групе "Национальный цифровой архив"
18.04.202517:54
Internet Archive разместили петицию на Change.org с призывом отменить $700 миллионный иск звукозаписывающих компаний который угрожает существованию Интернет архива. За сутки они собрали уже более 17 тысяч подписей. Иску угрожает полностью обанкротить Интернет архив и лишить пользователей не только звукового архива, но и архива сайтов и иных оцифрованных и цифровых коллекций.
Коллекции Интернет архива бесценны - это сайты, видео, аудио, книги, данные и многое другое. Потерять его будет большой катастрофой.
#internetarchive
Коллекции Интернет архива бесценны - это сайты, видео, аудио, книги, данные и многое другое. Потерять его будет большой катастрофой.
#internetarchive


Пераслаў з:
Ivan Begtin

04.04.202515:46
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.
Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.
Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
#openknowledge #opendata #ai #aibots
Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.
Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
#openknowledge #opendata #ai #aibots
24.03.202516:12
Вот уже какое-то время недоступен портал Исторические материалы (istmat.org), последняя его сохранённая версия есть в Интернет Архиве на февраль 2025 года [1] и видно что ничего нового не публиковалось с ноября 2024 года.
ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.
Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту ibegtin@infoculture.ru). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.
P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.
Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/
#digitalpreservation #archives #history
ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.
Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту ibegtin@infoculture.ru). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.
P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.
Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/
#digitalpreservation #archives #history


10.10.202404:35
У Интернет-архива (archive.org) произошла крупнейшая утечка данных базы из 31 миллиона их пользователей [1]. Пока неизвестно украдены ли ещё какие-либо данные. Известно только что долгое время Интернет-архив был под DDoS атакой и регулярно был недоступен.
В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.
Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/
#security #internetarchive #databreach
В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.
Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/
#security #internetarchive #databreach
07.10.202411:04
Судя по тому что пишут в СМИ Правительство определилось с будущим Большой российской энциклопедии [1], её материалы собираются передать в проект РуВики.
Если это действительно так то единственным плюсом может перевод материалов БРЭ под лицензию Creative Commons 4.0. В остальном про РуВики пока невозможно сказать что-либо хорошее кроме того что она клонирует русскоязычную Википедию и цензурирует статьи под российское законодательство.
В любом случае этот сценарий, похоже, ведёт к тому что сайт bigenc.ru будет закрыт и архивация материалов была небесполезна, поскольку то в каком виде материалы БРЭ будут в РуВики непонятно.
Ссылки:
[1] https://www.rbc.ru/politics/04/10/2024/6620c8f79a7947fd050a0da0
#bigenc #webarchives #encycplopedies
Если это действительно так то единственным плюсом может перевод материалов БРЭ под лицензию Creative Commons 4.0. В остальном про РуВики пока невозможно сказать что-либо хорошее кроме того что она клонирует русскоязычную Википедию и цензурирует статьи под российское законодательство.
В любом случае этот сценарий, похоже, ведёт к тому что сайт bigenc.ru будет закрыт и архивация материалов была небесполезна, поскольку то в каком виде материалы БРЭ будут в РуВики непонятно.
Ссылки:
[1] https://www.rbc.ru/politics/04/10/2024/6620c8f79a7947fd050a0da0
#bigenc #webarchives #encycplopedies
24.09.202404:41
19.09.202417:16
10.09.202409:36
07.08.202416:10
Несколько часов назад Фонд "Нужна помощь" объявил о том что начинает процедуру ликвидации в связи с признанием его иноагентом и невозможностью продолжать деятельность.
Это был довольно большой и заметный некоммерческий фонд в РФ и им было создано множество цифровых ресурсов.
В ближайшее время мы начнём архивацию цифровых ресурсов Фонда и надеемся что успеем сохранить их в насколько возможно полном объёме.
Задачи в которых можно помочь:
1. Составить список ресурсов (сайты и социальные сети) созданных Фондом, желательно оформить их в виде списка: название, ссылка, тип (соцсеть, сайт и т.д.)
2. Если у Вас есть прямой выход, связаться с сотрудниками Фонда и узнать готовы ли они передать слепки их цифровых ресурсов для долгосрочной архивации. А возможно фонд сохранит самостоятельно хотя бы их часть в Интернет архиве
3. Заархивировать и выложить куда-то видеоматериалы фонда, если они есть и доступны. Это самый тяжёлый контент, он публиковался точно на Youtube, но может где-то ещё.
4. Мы начнём веб архивацию сайтов завтра с утра, 8 августа. Хочется надеяться что тут не будет как во многих подобных случаях и материалы не начнут исчезать моментально после анонса.
5. Напишите если будут ещё какие-то идеи что и как можно сохранить
Если готовы как-то помочь по списку выше, пожалуйста, напишите в чат @ruarxivechat
#webarchives #archives
Это был довольно большой и заметный некоммерческий фонд в РФ и им было создано множество цифровых ресурсов.
В ближайшее время мы начнём архивацию цифровых ресурсов Фонда и надеемся что успеем сохранить их в насколько возможно полном объёме.
Задачи в которых можно помочь:
1. Составить список ресурсов (сайты и социальные сети) созданных Фондом, желательно оформить их в виде списка: название, ссылка, тип (соцсеть, сайт и т.д.)
2. Если у Вас есть прямой выход, связаться с сотрудниками Фонда и узнать готовы ли они передать слепки их цифровых ресурсов для долгосрочной архивации. А возможно фонд сохранит самостоятельно хотя бы их часть в Интернет архиве
3. Заархивировать и выложить куда-то видеоматериалы фонда, если они есть и доступны. Это самый тяжёлый контент, он публиковался точно на Youtube, но может где-то ещё.
4. Мы начнём веб архивацию сайтов завтра с утра, 8 августа. Хочется надеяться что тут не будет как во многих подобных случаях и материалы не начнут исчезать моментально после анонса.
5. Напишите если будут ещё какие-то идеи что и как можно сохранить
Если готовы как-то помочь по списку выше, пожалуйста, напишите в чат @ruarxivechat
#webarchives #archives
21.07.202409:25
28.06.202417:22
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве
Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.
Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.
Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump
#opendata #webarchives #archives #bigenc
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве
Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.
Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.
Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump
#opendata #webarchives #archives #bigenc
18.06.202411:52
Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).
На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.
Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.
Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).
#webarchival #digitalpreservation #bigenc
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).
На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.
Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.
Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).
#webarchival #digitalpreservation #bigenc
14.06.202419:13
Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
Рэкорды
20.10.202423:59
2.4KПадпісчыкаў14.06.202423:59
0Індэкс цытавання15.06.202423:59
8.7KАхоп 1 паста31.03.202523:59
1KАхоп рэкламнага паста06.04.202510:16
9.03%ER20.03.202520:14
44.47%ERRРазвіццё
Падпісчыкаў
Індэкс цытавання
Ахоп 1 паста
Ахоп рэкламнага паста
ER
ERR
Увайдзіце, каб разблакаваць больш функцый.