⬆️ контента.
Common Corpus соответствует положениям AI Act и предоставляет возможность обучения моделей, совместимых с принципами открытого ИИ и может быть использован в коммерческих и некоммерческих целях.
📌Набор данных структурирован в виде 6 коллекций:
🟢OpenCulture - материалы, находящиеся в общественном достоянии, архивные газетные публикации и ресурсы проектов Wikisource и Gutenberg (886 млрд. токенов);
🟢OpenGovernment - финансовая и юридическая документациия из SEC, WTO, Europarl и Caselaw Access Project (406 млрд. токенов);
🟢OpenSource - программный код из репозиториев GitHub, прошедший отбор с использованием системы ArmoRM (283 млрд. токенов);
🟢OpenScience - академические материалы из баз данных Open Alex и других открытых научных хранилищ (281 млрд токенов);
🟢OpenWeb - данные из Wikipedia, YouTube Commons и платформы Stack Exchange (73 млрд. токенов);
🟢Open Semantic - семантические данные из Wikidata, обработанные при участии Wikidata и Wikimedia Germany (67 млрд. токенов).
📌Каждый документ в Common Corpus сопровождается метаданными:
identifier
- уникальный идентификатор текстового документа;
collection
- название коллекции, к которой относится документ;
license
- информация о лицензии;
date
- дата создания документа;
title
- заголовок документа;
creator
- автор или источник публикации;
language
- язык документа;
word_count
, token_count
- количественные показатели: число слов и токенов;
text
- текстовое содержание документа.
@ai_machinelearning_big_data
#AI #ML #Dataset #PlelAs #CommonCorpus