04.02.202514:07
«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо
Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.
Кратко: о чем не-интервью?
План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Литературоведение (я не уставал это повторять) есть такая же “наука о жизни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».
Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?
Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «литературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.
Какие примеры статистических и экспериментальных исследований приводит Ярхо?
Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.
При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.
Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.
🤖 «Системный Блокъ» @sysblok
Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.
Кратко: о чем не-интервью?
План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Литературоведение (я не уставал это повторять) есть такая же “наука о жизни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».
Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?
Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «литературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.
Какие примеры статистических и экспериментальных исследований приводит Ярхо?
Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.
При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.
Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.
🤖 «Системный Блокъ» @sysblok
16.01.202515:23
Цифровой гербарий МГУ в цифрах
9 миллионов просмотров, 16 тысяч книг и 284 волонтера. Доктор биологических наук Алексей Серегин рассказывает о Цифровом гербарии МГУ в новом тексте своего блога. Кстати, недавно мы уже писали о Гербарии МГУ, изучая особенности гражданской науки.
🌿 1 347 746 образцов
Число образцов – это число записей в базе данных. Больше всего оцифрованных образцов происходит собственно из Гербария Московского университета (международный акроним MW) – 1 084 952. На втором месте – Гербарий Главного ботанического сада РАН (акроним MHA), где полная оцифровка фондов продолжается. Гербарный образец – это лист плотной бумаги примерно формата A3 с прикреплённым к нему растением (или частью крупного растения, или несколькими мелкими экземплярами) и сопроводительной текстовой информацией на этикетке.
👁️ 9 650 126 просмотров
Сюда включены только заходы пользователей в полные паспорта образцов. Это та зона портала, куда невозможен доступ поисковых роботов, поэтому точно известно, что с момента запуска портала осенью 2016 года в среднем набегает 5 623 просмотра в день (или 234 просмотра в час, или 3,9 просмотра в минуту).
🤝 1 062 143 ответов в «Помогаторе»
Платформа «Помогатор» позволяет волонтерам участвовать в оцифровке метаданных образцов Цифрового гербария МГУ. Это и игровой модуль, и полезный инструмент в повседневной гербарной работе. Здесь любой желающий может помочь с вводом простых данных, которые есть на сканах – оцифрованных изображениях гербарных образцов. Например, названия страны или области, даты сбора или коллектора. Модуль запущен в конце октября 2022 года. За два года участники отправили свыше миллиона ответов, т.е. в среднем по 1–1,5 тыс. ответов в день.
📚 16 437 книг
Это сканы из библиотеки «Флора и фауна», которая перекочевала в Цифровой гербарий МГУ после смерти ее автора А.Б. Шипунова. С ноября 2022 года она не обновлялась, но добавление новых источников скоро начнётся.
🙋♂️ 284 помощника
Это число участников, которые, зарегистрировавшись в «Помогаторе», способствуют наполнению базы данных Цифрового гербария МГУ. Это и студенты, которым нужно отработать практикум по «Гербарному делу», и волонтёры, и сотрудники.
Еще больше о Цифрового гербарии МГУ можно узнать из версии текста на сайте. Там вы найдете, например, информацию о том, сколько геопривязок можно найти на сайте проекта и как они распределились по стране и миру.
🤖 «Системный Блокъ» @sysblok
9 миллионов просмотров, 16 тысяч книг и 284 волонтера. Доктор биологических наук Алексей Серегин рассказывает о Цифровом гербарии МГУ в новом тексте своего блога. Кстати, недавно мы уже писали о Гербарии МГУ, изучая особенности гражданской науки.
🌿 1 347 746 образцов
Число образцов – это число записей в базе данных. Больше всего оцифрованных образцов происходит собственно из Гербария Московского университета (международный акроним MW) – 1 084 952. На втором месте – Гербарий Главного ботанического сада РАН (акроним MHA), где полная оцифровка фондов продолжается. Гербарный образец – это лист плотной бумаги примерно формата A3 с прикреплённым к нему растением (или частью крупного растения, или несколькими мелкими экземплярами) и сопроводительной текстовой информацией на этикетке.
👁️ 9 650 126 просмотров
Сюда включены только заходы пользователей в полные паспорта образцов. Это та зона портала, куда невозможен доступ поисковых роботов, поэтому точно известно, что с момента запуска портала осенью 2016 года в среднем набегает 5 623 просмотра в день (или 234 просмотра в час, или 3,9 просмотра в минуту).
🤝 1 062 143 ответов в «Помогаторе»
Платформа «Помогатор» позволяет волонтерам участвовать в оцифровке метаданных образцов Цифрового гербария МГУ. Это и игровой модуль, и полезный инструмент в повседневной гербарной работе. Здесь любой желающий может помочь с вводом простых данных, которые есть на сканах – оцифрованных изображениях гербарных образцов. Например, названия страны или области, даты сбора или коллектора. Модуль запущен в конце октября 2022 года. За два года участники отправили свыше миллиона ответов, т.е. в среднем по 1–1,5 тыс. ответов в день.
📚 16 437 книг
Это сканы из библиотеки «Флора и фауна», которая перекочевала в Цифровой гербарий МГУ после смерти ее автора А.Б. Шипунова. С ноября 2022 года она не обновлялась, но добавление новых источников скоро начнётся.
🙋♂️ 284 помощника
Это число участников, которые, зарегистрировавшись в «Помогаторе», способствуют наполнению базы данных Цифрового гербария МГУ. Это и студенты, которым нужно отработать практикум по «Гербарному делу», и волонтёры, и сотрудники.
Еще больше о Цифрового гербарии МГУ можно узнать из версии текста на сайте. Там вы найдете, например, информацию о том, сколько геопривязок можно найти на сайте проекта и как они распределились по стране и миру.
🤖 «Системный Блокъ» @sysblok
09.01.202515:06
Думать или делать: исследуем глаголы в английской литературе
Что помогает нам лучше узнать персонажа – речь или действия? Что, если действия персонажа могут говорить даже больше, чем его слова и мысли, обычно находящиеся в центре повествования? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании глаголов в художественной литературе, которое дает ответы на эти (и не только) вопросы.
Кратко: что за исследование?
Недавно канадский профессор в области литературоведения и Digital Humanities Эндрю Пайпер решил изучить, чем заняты персонажи книг и как их действия помогают в создании цельного образа. Для этого он взял два датасета: CONLIT, состоящий из 2 754 текстов английской прозы (художественной и нехудожественной) в двенадцати разных жанрах, и HATHI1M, который содержит коллекцию из 1 671 370 случайно отобранных страниц английских текстов, опубликованных между 1800 и 2000 годами.
В качестве основного рабочего инструмента использовался инструмент BookNLP, который может находить упоминания персонажей, включая разные формы имени героев и связанные с ними местоимения.
Как обнаружилось, самые частые глаголы в характеристиках персонажей относятся к актам коммуникации, за ними следуют движение и познание. Причем в нехудожественных текстах больше когнитивных действий, а в художественных – физически воплощенных, телесных. Более того, тенденция к выражению личной агентности именно через тело (а не через сознание, как привычно считать) усиливается с течением времени.
Узнать, как глаголы распределены по текстам разных жанров, как это исследование связано с Theory of Mind (теорией сознания) и понятием агентонсти, и каким еще выводам пришел Пайпер, можно из полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
Что помогает нам лучше узнать персонажа – речь или действия? Что, если действия персонажа могут говорить даже больше, чем его слова и мысли, обычно находящиеся в центре повествования? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании глаголов в художественной литературе, которое дает ответы на эти (и не только) вопросы.
Кратко: что за исследование?
Недавно канадский профессор в области литературоведения и Digital Humanities Эндрю Пайпер решил изучить, чем заняты персонажи книг и как их действия помогают в создании цельного образа. Для этого он взял два датасета: CONLIT, состоящий из 2 754 текстов английской прозы (художественной и нехудожественной) в двенадцати разных жанрах, и HATHI1M, который содержит коллекцию из 1 671 370 случайно отобранных страниц английских текстов, опубликованных между 1800 и 2000 годами.
В качестве основного рабочего инструмента использовался инструмент BookNLP, который может находить упоминания персонажей, включая разные формы имени героев и связанные с ними местоимения.
Как обнаружилось, самые частые глаголы в характеристиках персонажей относятся к актам коммуникации, за ними следуют движение и познание. Причем в нехудожественных текстах больше когнитивных действий, а в художественных – физически воплощенных, телесных. Более того, тенденция к выражению личной агентности именно через тело (а не через сознание, как привычно считать) усиливается с течением времени.
Узнать, как глаголы распределены по текстам разных жанров, как это исследование связано с Theory of Mind (теорией сознания) и понятием агентонсти, и каким еще выводам пришел Пайпер, можно из полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
05.12.202415:02
Ресурсы для цифровых стиховедов: поэтические корпуса
Сегодня двойной поэтический день рождения: 5 декабря с разницей в 17 лет родились два выдающихся русских поэта — сначала Фёдор Тютчев в 1803 году, а затем Афанасий Фет в 1820-м. В связи с такой важной для поэзии датой предлагаем вспомнить, какие поэтические корпуса будут полезны тем, кто хочетотличать Фета от Тютчева исследовать поэтическое наследие — русское и не только.
Поэтический подкорпус НКРЯ
Первый в истории поэтический корпус, доступный с 2006 года, сегодня он насчитывает 101 521 текст. В стихотворениях размечены метр, строфика и другие параметры, указаны автор, дата создания и жанры. По всем этим признакам можно искать информацию и задавать подкорпус.
Башкирский поэтический корпус
Вторым поэтическим корпусом в мире стал Башкирский, созданный в октябре 2013 года Борисом Ореховым. Коллекция текстов корпуса состоит из произведений 103 башкирских поэтов XX и начала XXI века. Благодаря нему можно узнать не только о башкирском стихе, но и о башкирском языке в целом. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам.
Персидский поэтический корпус
Персидский поэтический корпус был опубликован весной 2020 года. Он содержит тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии).
Мультиязычный корпус поэзии PoeTree
Проект PoeTree, опубликованный в 2023 году, включает более 330 000 стихотворений на десяти языках (чешский, английский, французский, немецкий, венгерский, итальянский, португальский, русский, словенский и испанский). Каждый корпус был очищен от дубликатов, снабжен морфосинтаксической разметкой в формате Universal Dependencies и снабжен метаданными. Тексты и метаднные доступны в виде унифицированных JSON-файлов.
Поэтические корпуса — это культурное достояние и важный источник, содержащий информацию о национальной поэзии и языке конкретного временного периода. Если вы использовали для своих исследований (или других целей?) эти и другие поэтические корпуса, пожалуйста, расскажите о них в комментариях!
🤖 «Системный Блокъ» @sysblok
Сегодня двойной поэтический день рождения: 5 декабря с разницей в 17 лет родились два выдающихся русских поэта — сначала Фёдор Тютчев в 1803 году, а затем Афанасий Фет в 1820-м. В связи с такой важной для поэзии датой предлагаем вспомнить, какие поэтические корпуса будут полезны тем, кто хочет
Поэтический подкорпус НКРЯ
Первый в истории поэтический корпус, доступный с 2006 года, сегодня он насчитывает 101 521 текст. В стихотворениях размечены метр, строфика и другие параметры, указаны автор, дата создания и жанры. По всем этим признакам можно искать информацию и задавать подкорпус.
Башкирский поэтический корпус
Вторым поэтическим корпусом в мире стал Башкирский, созданный в октябре 2013 года Борисом Ореховым. Коллекция текстов корпуса состоит из произведений 103 башкирских поэтов XX и начала XXI века. Благодаря нему можно узнать не только о башкирском стихе, но и о башкирском языке в целом. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам.
Персидский поэтический корпус
Персидский поэтический корпус был опубликован весной 2020 года. Он содержит тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии).
Мультиязычный корпус поэзии PoeTree
Проект PoeTree, опубликованный в 2023 году, включает более 330 000 стихотворений на десяти языках (чешский, английский, французский, немецкий, венгерский, итальянский, португальский, русский, словенский и испанский). Каждый корпус был очищен от дубликатов, снабжен морфосинтаксической разметкой в формате Universal Dependencies и снабжен метаданными. Тексты и метаднные доступны в виде унифицированных JSON-файлов.
Поэтические корпуса — это культурное достояние и важный источник, содержащий информацию о национальной поэзии и языке конкретного временного периода. Если вы использовали для своих исследований (или других целей?) эти и другие поэтические корпуса, пожалуйста, расскажите о них в комментариях!
🤖 «Системный Блокъ» @sysblok
01.11.202418:41
Михаил Гельфанд возвращается в РАН
Известного биоинформатика и борца с фальшивыми диссертациями Михаила Гельфанда, уволенного из Института проблем передачи информации РАН после прихода туда нового начальства, восстановили в должности по суду. Мы поздравляем Михаила Гельфанда и вспоминаем интервью, которое «Системный Блокъ» взял у ученого в 2023 году. Из него вы узнаете, как работают фабрики по производству диссертаций, можно ли отловить купленные научные работы и в каких научных дисциплинах больше всего фальсификаций.
🤖 «Системный Блокъ» @sysblok
Известного биоинформатика и борца с фальшивыми диссертациями Михаила Гельфанда, уволенного из Института проблем передачи информации РАН после прихода туда нового начальства, восстановили в должности по суду. Мы поздравляем Михаила Гельфанда и вспоминаем интервью, которое «Системный Блокъ» взял у ученого в 2023 году. Из него вы узнаете, как работают фабрики по производству диссертаций, можно ли отловить купленные научные работы и в каких научных дисциплинах больше всего фальсификаций.
🤖 «Системный Блокъ» @sysblok
27.10.202407:54
Две правды и одна ложь: изучаем DH-портал
Digital Humanities (Цифровые методы в гуманитарных науках) — одна из главных тем для «Системного Блока». Мы часто рассказываем о том, как цифровые инструменты помогают в изучении истории, литературы и искусства.
Чтобы вы могли узнать об этом больше и быстрее ориентироваться в гуманитарных исследованиях, в которых используются количественные методы, мы создали точку входа в DH.
Там вы найдете блоги, глоссарий, наши статьи по теме и информацию о том, где можно обучаться DH. А ещё — ответ на вопрос ниже. Впрочем, можете, конечно, попробовать не искать, а просто угадать, какое из трех утверждений в викторине — ложное.
🤖 «Системный Блокъ» @sysblok
Digital Humanities (Цифровые методы в гуманитарных науках) — одна из главных тем для «Системного Блока». Мы часто рассказываем о том, как цифровые инструменты помогают в изучении истории, литературы и искусства.
Чтобы вы могли узнать об этом больше и быстрее ориентироваться в гуманитарных исследованиях, в которых используются количественные методы, мы создали точку входа в DH.
Там вы найдете блоги, глоссарий, наши статьи по теме и информацию о том, где можно обучаться DH. А ещё — ответ на вопрос ниже. Впрочем, можете, конечно, попробовать не искать, а просто угадать, какое из трех утверждений в викторине — ложное.
🤖 «Системный Блокъ» @sysblok
25.01.202510:10
Театры и школы в текстах: анализируем именованные сущности
Один из методов Digital Humanities — анализ именованных сущностей. Он позволяет сделать интересные и порой неожиданные выводы о текстах с помощью выделения определенных слов. Например, людей, мест и других важных деталей. Чтобы изучить текст таким образом, нужна специальная разметка.
В одном из стандартов разметки — СONLL/OntoNotes — к категории PER (от слова person) принадлежат имена людей, а CHAR используется для характеристик человека, включая его звание, должность и так далее. Изучая таким образом дневники Перестройки, можно обнаружить, что три самые частые характеристики в документах этой эпохи – ребенок, женщина и президент, а топ-3 для категории PER — Горбачев, Борис и Ельцин.
Чтобы узнать об этом и других методах анализа текста с помощью DH и выяснить, о чем люди чаще писали во время Перестройки: школах, театрах или библиотеках, переходите к нашей странице Точки входа в DH.
🤖 «Системный Блокъ» @sysblok
Один из методов Digital Humanities — анализ именованных сущностей. Он позволяет сделать интересные и порой неожиданные выводы о текстах с помощью выделения определенных слов. Например, людей, мест и других важных деталей. Чтобы изучить текст таким образом, нужна специальная разметка.
В одном из стандартов разметки — СONLL/OntoNotes — к категории PER (от слова person) принадлежат имена людей, а CHAR используется для характеристик человека, включая его звание, должность и так далее. Изучая таким образом дневники Перестройки, можно обнаружить, что три самые частые характеристики в документах этой эпохи – ребенок, женщина и президент, а топ-3 для категории PER — Горбачев, Борис и Ельцин.
Чтобы узнать об этом и других методах анализа текста с помощью DH и выяснить, о чем люди чаще писали во время Перестройки: школах, театрах или библиотеках, переходите к нашей странице Точки входа в DH.
🤖 «Системный Блокъ» @sysblok
15.01.202514:37
Больше, чем энциклопедия: Википедии 24 года!
Почему Википедия — сообщество с иерархией? У кого она стала ассоциироваться с либеральными идеями? И в каких отношениях «свободная энциклопедия» находится с большими корпорациями? Вспоминаем материал «Системного Блока» к Дню рождения Википедии.
🖥️ Утопия и реальность
В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.
⌨️ Три уровня свободы
Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.
👨🏻💻 Ресурс для больших корпораций
Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель GPT-3 частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.
О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.
Время чтения: 15 минут.
🤖 «Системный Блокъ» @sysblok
Почему Википедия — сообщество с иерархией? У кого она стала ассоциироваться с либеральными идеями? И в каких отношениях «свободная энциклопедия» находится с большими корпорациями? Вспоминаем материал «Системного Блока» к Дню рождения Википедии.
🖥️ Утопия и реальность
В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.
⌨️ Три уровня свободы
Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.
👨🏻💻 Ресурс для больших корпораций
Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель GPT-3 частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.
О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.
Время чтения: 15 минут.
🤖 «Системный Блокъ» @sysblok
07.01.202513:02
Что такое гражданская наука?
Гражданская наука (Citizen science), или научное волонтёрство, — это направление, где непрофессионалы активно участвуют в научных исследованиях и помогают ученым собирать и анализировать данные. И хотя само понятие появилось сравнительно недавно, идея участия общественности в научной деятельности не нова. Рассказываем о прошлом, настоящем и будущем гражданской науки.
Первые энтузиасты
C началом великих географических открытий моряки могли исследовать новую для них флору и фауну, а с появлением телескопов (1609 год) астрономы-любители начали активно менять научную картину мира.
Например, ещё во времена кругосветных плаваний Джеймса Кука (1768–1771 годы), английский рыцарь и натуралист-любитель Джозеф Бэнкс сделал первое научное описание бугенвиллеи (лат. Bougainvillea). А археолог-самоучка Генрих Шлиман проводил раскопки на месте античной Трои и стал первооткрывателем микенской культуры.
Цели и тенденции
Цель гражданской науки — привлечение широкого круга людей для сбора научно полезной информации. Главные задачи гражданской науки сегодня — мониторинг биоразнообразия, сбор информации об экологической обстановке и поддержка научных баз данных.
Примеры проектов
Международные платформы, такие как iNaturalist и eBird, объединяют миллионы людей, которые делятся снимками животных, растений и грибов, помогая ученым собирать ценные данные о природе. А Гербарий МГУ — поддерживает цифровую платформу для сбора и оцифровки данных о растениях с помощью волонтеров.
Совсем другой пример – цифровой корпус почтовых открыток «Пишу тебе» @pishuteberu. Его участники собрали, оцифровали и разметили уже 70 000 открыток. Помимо этого волонтеры проекта занимаются обучением нейросетей для автоматической разметки и расшифровки открыток, а также программированием инструментов для работы с базой. Присоединиться к «Пишу тебе» может любой желающий, заполнив анкету.
Другие примеры гражданских научных проектов, которые позволяют превратить наблюдения за птицами в научные данные или поучаствовать в мониторинге загрязнения воздуха, найдете в полной версии материала. Там же мы рассказали о том, как стать гражданским ученым (спойлер: очень просто!)
Время чтения: 5,5 минут
🤖 «Системный Блокъ» @sysblok
Гражданская наука (Citizen science), или научное волонтёрство, — это направление, где непрофессионалы активно участвуют в научных исследованиях и помогают ученым собирать и анализировать данные. И хотя само понятие появилось сравнительно недавно, идея участия общественности в научной деятельности не нова. Рассказываем о прошлом, настоящем и будущем гражданской науки.
Первые энтузиасты
C началом великих географических открытий моряки могли исследовать новую для них флору и фауну, а с появлением телескопов (1609 год) астрономы-любители начали активно менять научную картину мира.
Например, ещё во времена кругосветных плаваний Джеймса Кука (1768–1771 годы), английский рыцарь и натуралист-любитель Джозеф Бэнкс сделал первое научное описание бугенвиллеи (лат. Bougainvillea). А археолог-самоучка Генрих Шлиман проводил раскопки на месте античной Трои и стал первооткрывателем микенской культуры.
Цели и тенденции
Цель гражданской науки — привлечение широкого круга людей для сбора научно полезной информации. Главные задачи гражданской науки сегодня — мониторинг биоразнообразия, сбор информации об экологической обстановке и поддержка научных баз данных.
Примеры проектов
Международные платформы, такие как iNaturalist и eBird, объединяют миллионы людей, которые делятся снимками животных, растений и грибов, помогая ученым собирать ценные данные о природе. А Гербарий МГУ — поддерживает цифровую платформу для сбора и оцифровки данных о растениях с помощью волонтеров.
Совсем другой пример – цифровой корпус почтовых открыток «Пишу тебе» @pishuteberu. Его участники собрали, оцифровали и разметили уже 70 000 открыток. Помимо этого волонтеры проекта занимаются обучением нейросетей для автоматической разметки и расшифровки открыток, а также программированием инструментов для работы с базой. Присоединиться к «Пишу тебе» может любой желающий, заполнив анкету.
Другие примеры гражданских научных проектов, которые позволяют превратить наблюдения за птицами в научные данные или поучаствовать в мониторинге загрязнения воздуха, найдете в полной версии материала. Там же мы рассказали о том, как стать гражданским ученым (спойлер: очень просто!)
Время чтения: 5,5 минут
🤖 «Системный Блокъ» @sysblok
27.11.202417:50
Антипапа, телеграф и RAR-архив: долгая жизнь кодовых книг
Как связан «Великий шифр» 17 века и формат архивирования RAR? Кодовые книги — инструмент преобразования информации, который появился еще в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации. Разбираемся с алгоритмами и кодовыми книгами вместе с Музеем криптографии.
📕 Как устроена кодовая книга?
Кодовая книга — своеобразный словарь, в котором собраны часто встречающиеся или тематически важные слова и выражения, а также отдельные буквы, цифры и символы. При шифровании все или часть слов сообщения заменяются на соответствующие им в книге кодовые слова или группы. Вместо книг могли использоваться кодовые таблицы — меньшие по объему и содержащие обозначения ключевых имен собственных (политических фигур, городов и т.п.).
📗 Какие кодовые книги были в средневековье?
Самый ранний известный пример — система, разработанная Габриэлем де Лавинде для Антипапы Клемента VII в 1379 году, а самый известный – «Великий шифр» Антуана Россиньоля. В нём было порядка шестисот кодовых групп для обозначения отдельных букв и слогов, а также слов и имен собственных. Он использовался вплоть до начала XIX века и считался невзламываемым до 1893 года.
📘 Что изменил телеграф?
С появлением телеграфа криптография перестала служить только целям секретности — чтобы хранить государственные, военные и коммерческие тайны. Теперь она понадобилась простым гражданам — для приватности. Правда, телеграфные кодовые книги обычно печатались большими тиражами и были доступны в широкой продаже и иногда использование шифрования жестко контролировалось государством. Но у этого шифра была и другая функция — сжатие объёма сообщений. Позже правила использования кодовых книг и тарификации закодированных и зашифрованных сообщений обсуждались и принимались на отдельных Телеграфных конференциях.
📙 Что стало с кодовыми книгами?
С развитием систем телекоммуникации телеграфная связь подешевела, и кодовые книги потеряли свою актуальность. А для защиты приватности появились более надежные механические и электромеханические шифраторы. Однако у кодовых книг осталось огромное наследие. Например, метод сжатия RAR. Данные разбиваются на небольшие блоки — «слова», и для наиболее частотных «слов» назначаются более короткие кодовые обозначения.
Узнать о связи «Великого шифра» с «Человеком в железной маске», взломе телеграммы, повлиявшем на ход мировой истории, и послании про семьдесят обезьян можно из полной версии текста.
🤖 «Системный Блокъ» @sysblok
Как связан «Великий шифр» 17 века и формат архивирования RAR? Кодовые книги — инструмент преобразования информации, который появился еще в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации. Разбираемся с алгоритмами и кодовыми книгами вместе с Музеем криптографии.
📕 Как устроена кодовая книга?
Кодовая книга — своеобразный словарь, в котором собраны часто встречающиеся или тематически важные слова и выражения, а также отдельные буквы, цифры и символы. При шифровании все или часть слов сообщения заменяются на соответствующие им в книге кодовые слова или группы. Вместо книг могли использоваться кодовые таблицы — меньшие по объему и содержащие обозначения ключевых имен собственных (политических фигур, городов и т.п.).
📗 Какие кодовые книги были в средневековье?
Самый ранний известный пример — система, разработанная Габриэлем де Лавинде для Антипапы Клемента VII в 1379 году, а самый известный – «Великий шифр» Антуана Россиньоля. В нём было порядка шестисот кодовых групп для обозначения отдельных букв и слогов, а также слов и имен собственных. Он использовался вплоть до начала XIX века и считался невзламываемым до 1893 года.
📘 Что изменил телеграф?
С появлением телеграфа криптография перестала служить только целям секретности — чтобы хранить государственные, военные и коммерческие тайны. Теперь она понадобилась простым гражданам — для приватности. Правда, телеграфные кодовые книги обычно печатались большими тиражами и были доступны в широкой продаже и иногда использование шифрования жестко контролировалось государством. Но у этого шифра была и другая функция — сжатие объёма сообщений. Позже правила использования кодовых книг и тарификации закодированных и зашифрованных сообщений обсуждались и принимались на отдельных Телеграфных конференциях.
📙 Что стало с кодовыми книгами?
С развитием систем телекоммуникации телеграфная связь подешевела, и кодовые книги потеряли свою актуальность. А для защиты приватности появились более надежные механические и электромеханические шифраторы. Однако у кодовых книг осталось огромное наследие. Например, метод сжатия RAR. Данные разбиваются на небольшие блоки — «слова», и для наиболее частотных «слов» назначаются более короткие кодовые обозначения.
Узнать о связи «Великого шифра» с «Человеком в железной маске», взломе телеграммы, повлиявшем на ход мировой истории, и послании про семьдесят обезьян можно из полной версии текста.
🤖 «Системный Блокъ» @sysblok
01.11.202416:02
Машинное обучение и японская уличная мода: как возникают и распространяются стили
Как женский костюм отражает экономическое состояние страны? Можно ли изучить моду отдельной улицы? И как в этом помогает кластеризация? На примере японского цифрового архива моды CAT STREET рассказываем об исследованиях на стыке антропологии и машинного обучения.
👒 Зачем ученым мода?
Модные тренды интересуют не только стилистов. Собирая базы данных, ученые разрабатывают алгоритмы, которые могли бы предсказывать будущие тенденции, и изучают моду как социальное явление. При этом можно изучать не только отдельные эпохи, но и отдельные… территории. Ведь иногда в разных кварталах города группируются сообщества, которые имеют свои характерные стили.
👗 Что такое CAT STREET?
База CAT STREET (в открытом доступе её, увы, нет) работает именно с этим феноменом, концентрируясь на моде торговых улиц Токио. Сегодня в ней собрано 14 688 изображений, отражающих повседневную моду женщин с 1970 и 2017 год. Чтобы изучить её эффективнее, ученые применили модель кластеризации, которую уже проверяли на другой базе – FashionStyle14. Это помогло создать список наиболее характерных стилей.
👜 Что мы узнали благодаря базе?
Теперь CAT STREET стал удобным инструментом для изучения моды. Например, благодаря нему ученые выявили, что женщины чаще выбирают стиль консервативный стиль в одежде, когда экономика растет. А еще – что стили на знаковых торговых улицах Харадзюку и Сибуя заметно отличаются, хоть улицы и находятся поблизости. Более того, на одной из них стиль мог появиться и вскоре исчезнуть, а на другой – сохраниться.
Узнать подробнее об этих и других исследованиях моды с применением цифровых технологий, а также о стилях Gal, Fairy и Kawaii-kei можно из полной версии статьи.
Время чтения: 18 минут.
🤖 «Системный Блокъ» @sysblok
Как женский костюм отражает экономическое состояние страны? Можно ли изучить моду отдельной улицы? И как в этом помогает кластеризация? На примере японского цифрового архива моды CAT STREET рассказываем об исследованиях на стыке антропологии и машинного обучения.
👒 Зачем ученым мода?
Модные тренды интересуют не только стилистов. Собирая базы данных, ученые разрабатывают алгоритмы, которые могли бы предсказывать будущие тенденции, и изучают моду как социальное явление. При этом можно изучать не только отдельные эпохи, но и отдельные… территории. Ведь иногда в разных кварталах города группируются сообщества, которые имеют свои характерные стили.
👗 Что такое CAT STREET?
База CAT STREET (в открытом доступе её, увы, нет) работает именно с этим феноменом, концентрируясь на моде торговых улиц Токио. Сегодня в ней собрано 14 688 изображений, отражающих повседневную моду женщин с 1970 и 2017 год. Чтобы изучить её эффективнее, ученые применили модель кластеризации, которую уже проверяли на другой базе – FashionStyle14. Это помогло создать список наиболее характерных стилей.
👜 Что мы узнали благодаря базе?
Теперь CAT STREET стал удобным инструментом для изучения моды. Например, благодаря нему ученые выявили, что женщины чаще выбирают стиль консервативный стиль в одежде, когда экономика растет. А еще – что стили на знаковых торговых улицах Харадзюку и Сибуя заметно отличаются, хоть улицы и находятся поблизости. Более того, на одной из них стиль мог появиться и вскоре исчезнуть, а на другой – сохраниться.
Узнать подробнее об этих и других исследованиях моды с применением цифровых технологий, а также о стилях Gal, Fairy и Kawaii-kei можно из полной версии статьи.
Время чтения: 18 минут.
🤖 «Системный Блокъ» @sysblok
26.10.202417:31
Анализ и визуализация данных: отслеживаем мировую историю
История, записанная в текстовом формате или при помощи обычных карт, может быть трудна для восприятия. «Системный Блокъ» рассказывает, как масштабный анализ архивных документов и инструменты визуализации помогают исследовать историю международных конгрессов — предшественников ключевых мировых организаций.
Кратко: о чем статья?
Международные конгрессы — движение, начавшееся еще в 1840-х, которое предшествовало ключевым международным организациям — Лиге Наций, ООН и ВТО. Вокруг съездов и конгрессов со временем сформировались контролирующие их деятельность организации, например, Союз Международных Ассоциаций (СМА). Целью проекта «Mapping a century of International Congresses» стала визуализация огромного количества информации о более чем 8000 международных конгрессах 1840-1960 годов на основе ежегодных данных и документации СМА.
Анализ документации СМА позволил составить несколько важных визуализаций. Например, гистограммы (столбчатые диаграммы) распределения конгрессов по городам позволили выделить 12 ведущих стран, в разное время принимавших конгрессы. Для более простой визуализации информации был также выбран вариант, близкий к тепловым картам, где значения документации отображаются при помощи цвета или тона. Так, «тепловая карта» позволяет оценить расположение конгрессов по городам — это, например, «космополитический треугольник» Париж, Лондон, Брюссель, где конгрессмены собирались чаще всего.
Более подробно о том, как анализ и визуализация данных помогли выяснить, почему конгрессы больше всего распространялись на европейском континенте, а также о том, как тепловые карты помогли определить «периферийные столицы», читайте в полной версии статьи.
Время чтения: 5,5 минут
🤖 «Системный Блокъ» @sysblok
История, записанная в текстовом формате или при помощи обычных карт, может быть трудна для восприятия. «Системный Блокъ» рассказывает, как масштабный анализ архивных документов и инструменты визуализации помогают исследовать историю международных конгрессов — предшественников ключевых мировых организаций.
Кратко: о чем статья?
Международные конгрессы — движение, начавшееся еще в 1840-х, которое предшествовало ключевым международным организациям — Лиге Наций, ООН и ВТО. Вокруг съездов и конгрессов со временем сформировались контролирующие их деятельность организации, например, Союз Международных Ассоциаций (СМА). Целью проекта «Mapping a century of International Congresses» стала визуализация огромного количества информации о более чем 8000 международных конгрессах 1840-1960 годов на основе ежегодных данных и документации СМА.
Анализ документации СМА позволил составить несколько важных визуализаций. Например, гистограммы (столбчатые диаграммы) распределения конгрессов по городам позволили выделить 12 ведущих стран, в разное время принимавших конгрессы. Для более простой визуализации информации был также выбран вариант, близкий к тепловым картам, где значения документации отображаются при помощи цвета или тона. Так, «тепловая карта» позволяет оценить расположение конгрессов по городам — это, например, «космополитический треугольник» Париж, Лондон, Брюссель, где конгрессмены собирались чаще всего.
Более подробно о том, как анализ и визуализация данных помогли выяснить, почему конгрессы больше всего распространялись на европейском континенте, а также о том, как тепловые карты помогли определить «периферийные столицы», читайте в полной версии статьи.
Время чтения: 5,5 минут
🤖 «Системный Блокъ» @sysblok
23.01.202513:05
Прогулка по древней Москве: виртуальная реконструкция Белого города
Как реконструировать исторический облик города, который постоянно меняется? Гуляем по Белому городу Москвы XVI–XVIII веков вместе с проектом исторического и механико-математического факультетов МГУ.
Что такое Белый город?
Белым городом называют территорию современного центра Москвы, от Кремля и Китай-города с одной стороны до Бульварного кольца с другой. Проект фокусируется на его восточной части, сейчас это район улиц Маросейка, Покровка, Покровский бульвар и Лубянский проезд.
Как проходила реконструкция?
Сначала нужно было реконструировать рельеф местности. В этом помогли программные средства геоинформационных систем (ГИС): MAG, SAGA и QGIS. Они позволили создать цифровые модели рельефа, отражающие состояние местности на XVI–XVIII века.
Затем нужно было воссоздать застройку на разных этапах жизни города. Для этого команда проекта обращалась к историческим планам Москвы, данным археологических раскопок и другим источникам. В некоторых случаях удалось реконструировать не только утраченный общий вид построек, но и элементы их декора.
Основным программным средством создания моделей стал ArchiCAD. Натурные съёмки современного состояния проводились с помощью дрона, а в некоторых случаях — лазерного сканирования в комбинации с аэрофотосъёмкой.
Что получилось в итоге?
Результатом проекта стал инструмент, который предлагает новый способ взаимодействия с историей — виртуальный тур по Белому городу. За счёт возможности изучить источники этот инструмент может быть интересен специалистам и студентам, исследующим историю архитектуры. А иммерсивный формат взаимодействия с реконструкцией и реалистичный рендеринг отдельных объектов делают виртуальный тур по Белому городу доступным для любого человека, имеющего опыт игры в видеоигры.
Узнать о разных этапах работы над проектом подробнее и посмотреть на конкретные примеры реконструированных зданий можно, перейдя к полной версии статьи. А совершить виртуальную экскурсию по исторической Москве можно здесь.
Время чтения: 6,5 минут
🤖 «Системный Блокъ» @sysblok
Как реконструировать исторический облик города, который постоянно меняется? Гуляем по Белому городу Москвы XVI–XVIII веков вместе с проектом исторического и механико-математического факультетов МГУ.
Что такое Белый город?
Белым городом называют территорию современного центра Москвы, от Кремля и Китай-города с одной стороны до Бульварного кольца с другой. Проект фокусируется на его восточной части, сейчас это район улиц Маросейка, Покровка, Покровский бульвар и Лубянский проезд.
Как проходила реконструкция?
Сначала нужно было реконструировать рельеф местности. В этом помогли программные средства геоинформационных систем (ГИС): MAG, SAGA и QGIS. Они позволили создать цифровые модели рельефа, отражающие состояние местности на XVI–XVIII века.
Затем нужно было воссоздать застройку на разных этапах жизни города. Для этого команда проекта обращалась к историческим планам Москвы, данным археологических раскопок и другим источникам. В некоторых случаях удалось реконструировать не только утраченный общий вид построек, но и элементы их декора.
Основным программным средством создания моделей стал ArchiCAD. Натурные съёмки современного состояния проводились с помощью дрона, а в некоторых случаях — лазерного сканирования в комбинации с аэрофотосъёмкой.
Что получилось в итоге?
Результатом проекта стал инструмент, который предлагает новый способ взаимодействия с историей — виртуальный тур по Белому городу. За счёт возможности изучить источники этот инструмент может быть интересен специалистам и студентам, исследующим историю архитектуры. А иммерсивный формат взаимодействия с реконструкцией и реалистичный рендеринг отдельных объектов делают виртуальный тур по Белому городу доступным для любого человека, имеющего опыт игры в видеоигры.
Узнать о разных этапах работы над проектом подробнее и посмотреть на конкретные примеры реконструированных зданий можно, перейдя к полной версии статьи. А совершить виртуальную экскурсию по исторической Москве можно здесь.
Время чтения: 6,5 минут
🤖 «Системный Блокъ» @sysblok
14.01.202516:38
Играем по-серьёзному: как Serious Games меняют подход к обучению
Идея геймификации образования восходит ещё к эпохе Ренессанса, однако совершенно новым подходом стали серьёзные игры. Их основная цель— решение конкретных задач из реальной жизни, а также обучение или развитие навыков, а не развлечение или веселье. Рассказываем об особенностях такого подхода к образованию и его эффективности.
Что за серьезные игры?
Внешне Serious Games напоминают классические: с соревновательностью, аналогичным игровым процессом и интерфейсом. Но при этом в них вшиты образовательные цели, которые как бы скрыты от пользователя. Кроме того, серьёзные игры отличаются научной обоснованностью: рецензируемый научный журнал The International Journal of Serious Games ежеквартально выпускает статьи, посвящённые теоретическим, экспериментальным и прикладным аспектам разработки, внедрения и оценки таких игр.
Серьёзные игры во многом эффективны потому, что их механика, нарратив и дизайн включают в себя конкретные задачи — обучать, вдохновлять и приводить к образовательным результатам. Кроме того, они позволяют моделировать ситуации, которые в реальной жизни требуют значительных ресурсов или времени.
Duolingo
Один из самых известных примеров таких игр — Duolingo. Чтобы мотивировать пользователей учить языки, приложение использует игровые механики: дерево навыков, очки опыта и виртуальную валюту.
Foldit
Foldit — игра-головоломка, которая предсказывает структуру белков. Это одна из самых сложных задач в биологии. Созданная Центром игровых наук и кафедрой биохимии Университета Вашингтона, игра привлекла внимание широкой публики благодаря своей инновационной концепции: исследователи анализируют полученные игроками лучшие решения и применяют их для изучения болезней, разработки новых лекарств и биологических технологий.
Evolution of Trust
Ещё один пример — The Evolution of Trust, созданная педагогом и гейм-дизайнером Ники Кейзом. Эта игра объясняет, как возникают и разрушаются доверительные отношения, а также почему это важно для общества и как мы можем «изменить правила игры» для улучшения взаимодействий. The Evolution of Trust моделирует простую ситуацию: два игрока принимают решения в рамках вариации дилеммы заключённого. Весь процесс прохождения занимает около 30 минут, что идеально подходит для образовательных целей или кратких тренингов.
Ещё больше примеров серьезных игр в сферах экономики, менеджмента, культуры, политики и даже генетики, найдете в полной версии статьи. Из нее же можно узнать больше о преимуществах и недостатках этого метода обучения.
Время чтения: 17 минут
🤖 «Системный Блокъ» @sysblok
Идея геймификации образования восходит ещё к эпохе Ренессанса, однако совершенно новым подходом стали серьёзные игры. Их основная цель— решение конкретных задач из реальной жизни, а также обучение или развитие навыков, а не развлечение или веселье. Рассказываем об особенностях такого подхода к образованию и его эффективности.
Что за серьезные игры?
Внешне Serious Games напоминают классические: с соревновательностью, аналогичным игровым процессом и интерфейсом. Но при этом в них вшиты образовательные цели, которые как бы скрыты от пользователя. Кроме того, серьёзные игры отличаются научной обоснованностью: рецензируемый научный журнал The International Journal of Serious Games ежеквартально выпускает статьи, посвящённые теоретическим, экспериментальным и прикладным аспектам разработки, внедрения и оценки таких игр.
Серьёзные игры во многом эффективны потому, что их механика, нарратив и дизайн включают в себя конкретные задачи — обучать, вдохновлять и приводить к образовательным результатам. Кроме того, они позволяют моделировать ситуации, которые в реальной жизни требуют значительных ресурсов или времени.
Duolingo
Один из самых известных примеров таких игр — Duolingo. Чтобы мотивировать пользователей учить языки, приложение использует игровые механики: дерево навыков, очки опыта и виртуальную валюту.
Foldit
Foldit — игра-головоломка, которая предсказывает структуру белков. Это одна из самых сложных задач в биологии. Созданная Центром игровых наук и кафедрой биохимии Университета Вашингтона, игра привлекла внимание широкой публики благодаря своей инновационной концепции: исследователи анализируют полученные игроками лучшие решения и применяют их для изучения болезней, разработки новых лекарств и биологических технологий.
Evolution of Trust
Ещё один пример — The Evolution of Trust, созданная педагогом и гейм-дизайнером Ники Кейзом. Эта игра объясняет, как возникают и разрушаются доверительные отношения, а также почему это важно для общества и как мы можем «изменить правила игры» для улучшения взаимодействий. The Evolution of Trust моделирует простую ситуацию: два игрока принимают решения в рамках вариации дилеммы заключённого. Весь процесс прохождения занимает около 30 минут, что идеально подходит для образовательных целей или кратких тренингов.
Ещё больше примеров серьезных игр в сферах экономики, менеджмента, культуры, политики и даже генетики, найдете в полной версии статьи. Из нее же можно узнать больше о преимуществах и недостатках этого метода обучения.
Время чтения: 17 минут
🤖 «Системный Блокъ» @sysblok
28.12.202408:31
Визуализируя воспоминания: как AR и VR-технологии погружают в прошлое
История памяти изучает, как в обществе возникают, живут и передаются знания о прошлом. История памяти — не о фактах и датах, а о восприятии и образах событий прошлого, бытовавших у людей. Сегодня изучать их помогают цифровые технологии, включая элементы виртуальной реальности. Рассказываем подробнее в новой статье.
Монологи «детей войны»
Пример такого использования AR (augmented reality, дополненная реальность) – немецкий проект 2018 года War Children: Using AR in a Documentary Context. Его создатели разработали приложение, которое знакомило пользователей с личными историями трех женщин из разных стран — России, Великобритании, Германии. Контент, дополненный различными визуальными элементами (искрами, снегом, дымом, самолетами), был привязан к среде пользователя. Повествование также дополнялось архивными фото и видеоматериалами.
Память о Холокосте
Одна из постоянных экспозиций Иллинойского музея Холокоста (США), The Journey Back, использует технологии виртуальной реальности (VR). Помимо VR-фильмов, рассказывающих истории переживших холокост, в музее действует голографический театр. Посетителей встречают голограммы, которые могут вести диалог с аудиторией, создавая эффект живого общения благодаря технологии распознавания голоса.
Узнать об этих проектах больше можно из полной версии статьи.
Время чтения: 7 минут
История памяти изучает, как в обществе возникают, живут и передаются знания о прошлом. История памяти — не о фактах и датах, а о восприятии и образах событий прошлого, бытовавших у людей. Сегодня изучать их помогают цифровые технологии, включая элементы виртуальной реальности. Рассказываем подробнее в новой статье.
Монологи «детей войны»
Пример такого использования AR (augmented reality, дополненная реальность) – немецкий проект 2018 года War Children: Using AR in a Documentary Context. Его создатели разработали приложение, которое знакомило пользователей с личными историями трех женщин из разных стран — России, Великобритании, Германии. Контент, дополненный различными визуальными элементами (искрами, снегом, дымом, самолетами), был привязан к среде пользователя. Повествование также дополнялось архивными фото и видеоматериалами.
Память о Холокосте
Одна из постоянных экспозиций Иллинойского музея Холокоста (США), The Journey Back, использует технологии виртуальной реальности (VR). Помимо VR-фильмов, рассказывающих истории переживших холокост, в музее действует голографический театр. Посетителей встречают голограммы, которые могут вести диалог с аудиторией, создавая эффект живого общения благодаря технологии распознавания голоса.
Узнать об этих проектах больше можно из полной версии статьи.
Время чтения: 7 минут
11.11.202416:46
Достоевский и цифровые технологии
Сегодня День рождения Федора Михайловича Достоевского. В этот день мы предлагаем вспомнить три материала «Системного Блока»: о судьбе Достоевского в школьных списках чтения, о том, как мы обучали нейросеть генерировать тексты в его стиле и о самых частых словах в его произведениях.
Достоевский и школьная программа
Недавно мы рассказывали, что только 16 произведений встречались в 90% всех советских и современных программ. Ни одного текста Достоевского среди них нет.
Хотя сегодня представить список чтения без «Преступления и наказания» может быть сложно, несколько поколений советских школьников его творчество не изучали. Из-за резко консервативных антиреволюционных взглядов (вспомните роман «Бесы» или публицистический цикл «Дневник писателя») Достоевского исключили из программы в конце 1930-х и вернули только в 1967.
Подробнее о Достоевском и других писателях в школьной программе узнаете из нашего спецпроекта.
Достоевский и языковая модель
Для туторила по fine-tuning (способу улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок) мы выбрали маленькую версию русскоязычной модели ruGPT3 и готовый корпус произведений Достоевского. Подстраиваясь под стиль писателя, модель сгенерировала, например, фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…».
Узнать о дообучении нейросетей и этом эксперименте больше, можно здесь.
Достоевский, Россия, женщины и дети
Не обошелся без Достоевского и двухчастный гайд «Системного Блока» по Voyant Tools. Этот инструмент помогает, например, с поиском коллокаций (слов, которые чаще всего встречаются рядом с заданным). По корпусу Достоевского, например, мы определили, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики. А ещё выяснили, кто встречается в текстах писателя чаще — ребенок, женщина или старик (спойлер: ребенок!).
🤖 «Системный Блокъ» @sysblok
Сегодня День рождения Федора Михайловича Достоевского. В этот день мы предлагаем вспомнить три материала «Системного Блока»: о судьбе Достоевского в школьных списках чтения, о том, как мы обучали нейросеть генерировать тексты в его стиле и о самых частых словах в его произведениях.
Достоевский и школьная программа
Недавно мы рассказывали, что только 16 произведений встречались в 90% всех советских и современных программ. Ни одного текста Достоевского среди них нет.
Хотя сегодня представить список чтения без «Преступления и наказания» может быть сложно, несколько поколений советских школьников его творчество не изучали. Из-за резко консервативных антиреволюционных взглядов (вспомните роман «Бесы» или публицистический цикл «Дневник писателя») Достоевского исключили из программы в конце 1930-х и вернули только в 1967.
Подробнее о Достоевском и других писателях в школьной программе узнаете из нашего спецпроекта.
Достоевский и языковая модель
Для туторила по fine-tuning (способу улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок) мы выбрали маленькую версию русскоязычной модели ruGPT3 и готовый корпус произведений Достоевского. Подстраиваясь под стиль писателя, модель сгенерировала, например, фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…».
Узнать о дообучении нейросетей и этом эксперименте больше, можно здесь.
Достоевский, Россия, женщины и дети
Не обошелся без Достоевского и двухчастный гайд «Системного Блока» по Voyant Tools. Этот инструмент помогает, например, с поиском коллокаций (слов, которые чаще всего встречаются рядом с заданным). По корпусу Достоевского, например, мы определили, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики. А ещё выяснили, кто встречается в текстах писателя чаще — ребенок, женщина или старик (спойлер: ребенок!).
🤖 «Системный Блокъ» @sysblok
30.10.202413:02
Большие данные Большого террора
Сегодня день памяти жертв политических репрессий. Репрессивная система СССР опиралась на массивную бюрократию, поэтому память о жертвах репрессий хранят расстрельные списки, архивы с уголовными делами, посмертные справки о реабилитации. Теперь эта память стала цифровой — и открытой для исследований. Вспоминаем, какие базы жертв репрессий существуют.
Жертвы политического террора
Сбором и оцифровкой данных о репрессиях занимается «Международный Мемориал»*: cегодня их база содержит более 3 миллионов записей с информацией о дате и месте рождения, месте проживания и работы, дате ареста и приговоре.
Это прямо здесь
География репрессий волнует многих исследователей, поэтому на основе данных «Мемориала» созданы несколько ресурсов с геопривязкой. Самый известный — московский «Это прямо здесь». Здесь можно обнаружить места массовых расстрелов, здания тюрем, лагерей и лагпунктов, захоронения расстрелянных. Всего — свыше 830 объектов.
Не только жертвы, не только репрессий
Информация есть не только о жертвах системы, но и о тех, кто в ней работал – в отдельной базе данных собрано почти 50 тысяч имен сотрудников органов государственной безопасности СССР с 1935 по 1939 годы.
Еще одна крупная база посвящена остарбайтерам — жителям оккупированных территорий СССР, перемещенных для работы в Германию и возвратившихся после войны.
Узнать подробнее об этих базах данных и о том, какие сложности возникают при их создании и дальнейшей стандартизацией информации, можно из полной версии статьи. А если вы знаете о других проектах и базах данных, которые помогают изучать тему Большого террора — расскажите о них в комментариях.
🤖 «Системный Блокъ» @sysblok
*Международный Мемориал ликвидирован решением ВС РФ 28 февраля 2022 года
Сегодня день памяти жертв политических репрессий. Репрессивная система СССР опиралась на массивную бюрократию, поэтому память о жертвах репрессий хранят расстрельные списки, архивы с уголовными делами, посмертные справки о реабилитации. Теперь эта память стала цифровой — и открытой для исследований. Вспоминаем, какие базы жертв репрессий существуют.
Жертвы политического террора
Сбором и оцифровкой данных о репрессиях занимается «Международный Мемориал»*: cегодня их база содержит более 3 миллионов записей с информацией о дате и месте рождения, месте проживания и работы, дате ареста и приговоре.
Это прямо здесь
География репрессий волнует многих исследователей, поэтому на основе данных «Мемориала» созданы несколько ресурсов с геопривязкой. Самый известный — московский «Это прямо здесь». Здесь можно обнаружить места массовых расстрелов, здания тюрем, лагерей и лагпунктов, захоронения расстрелянных. Всего — свыше 830 объектов.
Не только жертвы, не только репрессий
Информация есть не только о жертвах системы, но и о тех, кто в ней работал – в отдельной базе данных собрано почти 50 тысяч имен сотрудников органов государственной безопасности СССР с 1935 по 1939 годы.
Еще одна крупная база посвящена остарбайтерам — жителям оккупированных территорий СССР, перемещенных для работы в Германию и возвратившихся после войны.
Узнать подробнее об этих базах данных и о том, какие сложности возникают при их создании и дальнейшей стандартизацией информации, можно из полной версии статьи. А если вы знаете о других проектах и базах данных, которые помогают изучать тему Большого террора — расскажите о них в комментариях.
🤖 «Системный Блокъ» @sysblok
*Международный Мемориал ликвидирован решением ВС РФ 28 февраля 2022 года
25.10.202414:31
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более глубокой истории. Закат ABBYY — это фиксация проигрыша последней битвы лингвистов за автоматическую обработку языка. Мир Data Science победил. Главный редактор «Системного Блока» Даниил Скоринкин, работавший ABBYY в 2013–2017, подводит итоги и пытается сформулировать уроки из этой истории.
Что за ABBYY и при чем тут лингвисты и NLP?
История ABBYY началась в 1989 году, когда студент МФТИ Давид Ян решил сделать электронный словарь для подготовки к экзамену. Так появились Lingvo, а затем — система распознавания символов FineReader. Продукты ABBYY развивались, и компания стала глобальным лидером оптического распознавания в 1990-е и 2000-е. Затем ABBYY двинулась покорять машинный перевод.
На вооружение они взяли идеи известных лингвистов — в первую очередь Модели «Смысл ⇔ Текст» (прочитать о ней можно в нашем интервью с И. А. Мельчуком). Амбиция была в том, чтобы разобрать человеческие языки как формальные структуры на базе семантической иерархии. Но естественный язык устроен противоречиво и постоянно изменяется, подход оказался негибким и немасштабируемым
Что пошло не так?
В 2006-м появилась первая версия Google Translate. Она была несовершенной, но главное, что в ней был другой — статистический — подход. И масштабируемость. Для её улучшения не нужны были сотни лингвистов, только еще больше примеров перевода. В 2010-х стало ясно, что никаких шансов тягаться с Google Translate у ABBYY не было. С перевода ABBYY переключилась на задачи информационного поиска и извлечения информации из текста, но и там столкнулась с теми же проблемами: описания языка на базе лингвистической теории оказались немасштабируемыми, а решения уступали подходам на основе чистого машинного обучения.
C новой проблемой компания столкнулась весной 2022 – им пришлось выехать из России, чтобы сохранить зарубежных клиентов. Следующим ударом стали большие языковые модели, который научились выполнять те же задачи, что и классические системы распознавания от ABBYY. Сейчас от компании осталась только вывеска, действующие продукты и небольшое количество менеджеров и специалистов по продажам.
Какие уроки мы извлекаем?
За 70 лет исследований ИИ стало ясно, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных. А желание ABBYY сделать универсальную NLP-систему с опорой на лингвистическую теорию оказалось утопией.
И всё-таки ABBYY успела сделать много важного: открывала кафедры на Физтехе и в РГГУ, оцифровывала наследия Льва Толстого и архива Большого театра. А еще благодаря ей появился «Системный Блокъ», ведь сооснователи издания познакомились именно там. И именно там вы сможете прочитать полную версию поста с мемами, фотографиями и более детальным описанием цифровой «Вавилонской башни», которую пыталась строить ABBYY.
🤖 «Системный Блокъ» @sysblok
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более глубокой истории. Закат ABBYY — это фиксация проигрыша последней битвы лингвистов за автоматическую обработку языка. Мир Data Science победил. Главный редактор «Системного Блока» Даниил Скоринкин, работавший ABBYY в 2013–2017, подводит итоги и пытается сформулировать уроки из этой истории.
Что за ABBYY и при чем тут лингвисты и NLP?
История ABBYY началась в 1989 году, когда студент МФТИ Давид Ян решил сделать электронный словарь для подготовки к экзамену. Так появились Lingvo, а затем — система распознавания символов FineReader. Продукты ABBYY развивались, и компания стала глобальным лидером оптического распознавания в 1990-е и 2000-е. Затем ABBYY двинулась покорять машинный перевод.
На вооружение они взяли идеи известных лингвистов — в первую очередь Модели «Смысл ⇔ Текст» (прочитать о ней можно в нашем интервью с И. А. Мельчуком). Амбиция была в том, чтобы разобрать человеческие языки как формальные структуры на базе семантической иерархии. Но естественный язык устроен противоречиво и постоянно изменяется, подход оказался негибким и немасштабируемым
Что пошло не так?
В 2006-м появилась первая версия Google Translate. Она была несовершенной, но главное, что в ней был другой — статистический — подход. И масштабируемость. Для её улучшения не нужны были сотни лингвистов, только еще больше примеров перевода. В 2010-х стало ясно, что никаких шансов тягаться с Google Translate у ABBYY не было. С перевода ABBYY переключилась на задачи информационного поиска и извлечения информации из текста, но и там столкнулась с теми же проблемами: описания языка на базе лингвистической теории оказались немасштабируемыми, а решения уступали подходам на основе чистого машинного обучения.
C новой проблемой компания столкнулась весной 2022 – им пришлось выехать из России, чтобы сохранить зарубежных клиентов. Следующим ударом стали большие языковые модели, который научились выполнять те же задачи, что и классические системы распознавания от ABBYY. Сейчас от компании осталась только вывеска, действующие продукты и небольшое количество менеджеров и специалистов по продажам.
Какие уроки мы извлекаем?
За 70 лет исследований ИИ стало ясно, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных. А желание ABBYY сделать универсальную NLP-систему с опорой на лингвистическую теорию оказалось утопией.
И всё-таки ABBYY успела сделать много важного: открывала кафедры на Физтехе и в РГГУ, оцифровывала наследия Льва Толстого и архива Большого театра. А еще благодаря ей появился «Системный Блокъ», ведь сооснователи издания познакомились именно там. И именно там вы сможете прочитать полную версию поста с мемами, фотографиями и более детальным описанием цифровой «Вавилонской башни», которую пыталась строить ABBYY.
🤖 «Системный Блокъ» @sysblok
22.01.202519:28
Взламывая шифр Зодиака: как энтузиасты разгадали послание серийного убийцы
31 июля 1969 года в офисы нескольких американских газет поступили письма с примерно одинаковым содержанием. Анонимный автор писал, что берёт на себя ответственность за серию убийств, и угрожал продолжить убивать, если приложенные материалы не будут опубликованы. К каждому из писем прилагался лист со 136 символами.
Так начинается история о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, почему тексты Зодиака не могли дешифровать на протяжении 50 лет, как криптографам всё-таки удалось его раскусить и какие вообще бывают шифры.
Как расшифровали первый текст?
После публикации зашифрованных писем в газетах супруги Дональд и Бетти Харден расшифровали криптограмму, которая станет известна как Z408 (по первой букве имени Zodiac и количеству использованных знаков). Убийца использовал один из шифров подстановки: каждой букве соответствовал один или несколько использованных в шифровке символов.
Что за подстановка?
Все способы симметричного шифрования (где для шифрования и расшифровывания используется один и тот же ключ) строятся на двух принципах: подстановке и перестановке. В шифрах подстановки элементы исходного текста в соответствии с неким правилом заменяются на другие, шифрующие, элементы.
Почему не поймали Зодиака?
Следующие тексты убийцы расшифровать так же быстро не получилось. После ряда безуспешных попыток дешифровки криптографы заметили странность: в Z340 частота встречаемости биграмм практически соответствовала случайному распределению, в отличие от Z408. Это натолкнуло исследователей на мысль о возможном использовании перестановки.
А что за перестановка?
В шифрах перестановки элементы текста остаются неизменными, но переставляются в порядке, отличном от исходного. К таким можно отнести, например, анаграммы, в которых буквы исходного слова перемешиваются, образуя другое слово, — правда, без строгого следования какому-то алгоритму.
И что было дальше?
Затем в дело вступили цифровые технологии. В 2006 году группа программистов создала софт ZKDecrypto, способный автоматически дешифровать Z408. На его основе Ян Ван Эйке в 2014 году создал AZdecrypt, решающий до двухсот подобных шифров в секунду.
AZdecrypt эффективно справлялся с решением шифров подстановки, позволяя быстро находить слова в последовательностях символов. Однако оставалась задача определения правильного порядка расположения этих символов. Решить её удалось только в 2020 году.
Исследователи отмечают, что шифр оставался неразгаданным столь долго из-за множества преднамеренных усложнений, внесённых Зодиаком. Среди них — разделение текста на секции и сложные перестановки с нарушением последовательности. Зодиак успешно применил принцип «безопасность через неясность» (security through obscurity), предполагающий, что сама трудность выявления метода шифрования служит его защитой.
Прочитать примерный перевод сообщения Зодиака, написанного с помощью Z430, узнать о шифрах Цезаря и Бофора, а также о том, почему Z13 и Z32, вероятно, никогда не будут расшифрованы, можно из полной версии статьи.
Время чтения: 16 минут
🤖 «Системный Блокъ» @sysblok
31 июля 1969 года в офисы нескольких американских газет поступили письма с примерно одинаковым содержанием. Анонимный автор писал, что берёт на себя ответственность за серию убийств, и угрожал продолжить убивать, если приложенные материалы не будут опубликованы. К каждому из писем прилагался лист со 136 символами.
Так начинается история о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, почему тексты Зодиака не могли дешифровать на протяжении 50 лет, как криптографам всё-таки удалось его раскусить и какие вообще бывают шифры.
Как расшифровали первый текст?
После публикации зашифрованных писем в газетах супруги Дональд и Бетти Харден расшифровали криптограмму, которая станет известна как Z408 (по первой букве имени Zodiac и количеству использованных знаков). Убийца использовал один из шифров подстановки: каждой букве соответствовал один или несколько использованных в шифровке символов.
Что за подстановка?
Все способы симметричного шифрования (где для шифрования и расшифровывания используется один и тот же ключ) строятся на двух принципах: подстановке и перестановке. В шифрах подстановки элементы исходного текста в соответствии с неким правилом заменяются на другие, шифрующие, элементы.
Почему не поймали Зодиака?
Следующие тексты убийцы расшифровать так же быстро не получилось. После ряда безуспешных попыток дешифровки криптографы заметили странность: в Z340 частота встречаемости биграмм практически соответствовала случайному распределению, в отличие от Z408. Это натолкнуло исследователей на мысль о возможном использовании перестановки.
А что за перестановка?
В шифрах перестановки элементы текста остаются неизменными, но переставляются в порядке, отличном от исходного. К таким можно отнести, например, анаграммы, в которых буквы исходного слова перемешиваются, образуя другое слово, — правда, без строгого следования какому-то алгоритму.
И что было дальше?
Затем в дело вступили цифровые технологии. В 2006 году группа программистов создала софт ZKDecrypto, способный автоматически дешифровать Z408. На его основе Ян Ван Эйке в 2014 году создал AZdecrypt, решающий до двухсот подобных шифров в секунду.
AZdecrypt эффективно справлялся с решением шифров подстановки, позволяя быстро находить слова в последовательностях символов. Однако оставалась задача определения правильного порядка расположения этих символов. Решить её удалось только в 2020 году.
Исследователи отмечают, что шифр оставался неразгаданным столь долго из-за множества преднамеренных усложнений, внесённых Зодиаком. Среди них — разделение текста на секции и сложные перестановки с нарушением последовательности. Зодиак успешно применил принцип «безопасность через неясность» (security through obscurity), предполагающий, что сама трудность выявления метода шифрования служит его защитой.
Прочитать примерный перевод сообщения Зодиака, написанного с помощью Z430, узнать о шифрах Цезаря и Бофора, а также о том, почему Z13 и Z32, вероятно, никогда не будут расшифрованы, можно из полной версии статьи.
Время чтения: 16 минут
🤖 «Системный Блокъ» @sysblok
12.01.202511:36
История диалоговых систем
Мы взаимодействуем с диалоговыми системами повсюду: когда бронируем столик в кафе, записываемся к врачу или звоним в поддержку. Все более похожие на человека чат-боты приобретают голос и эмоции, приносят пользу бизнесу и обычным пользователям. «Системный Блокъ» рассказывает, когда чат-боты стали повсеместными, как они учились и как воспроизводят естественный разговор.
Кратко: о чем статья?
Дизайн диалоговых интерфейсов — это индустрия создания систем, имитирующих человеческое общение. Одна из основных ее задач — сделать общение с ботом естественным, эффективным и не трудозатратным. Диалоговые системы понимают и устную, и письменную речь, а успешность их работы и распознавания напрямую зависит от доступных технологий.
История чат-ботов началась в 1952 году, когда американская корпорация создала Audrey — голосовой интерфейс, способный превратить голос в текст. Машина могла распознавать только цифры от 0 до 9 и заходила в тупик, слыша новый голос.
Создание в 1960-х годах в Массачусетском технологическом институте чат-бота ELIZA стало историческим. Она как бы исполняла роль психотерапевта, задавая вопросы из заранее составленного списка в ответ на текстовое сообщение. Например, если собеседник говорил, что ему грустно, Элиза уточняла: «Почему тебе грустно?»
В 1995 году была создана ALICE, вдохновленная Элизой. Она научилась делать логические выводы из текста пользователя, учитывать грамматику предложений и контекст предыдущего разговора.
Большой прорыв в диалоговых системах случился в 2011 году, когда Apple разработали Siri, в которой объединились голосовые команды и чат-бот-система. Siri стала первым виртуальным ассистентом, который можно взять с собой куда угодно, а список ее возможностей для своего времени был внушительным: найти ответ в Интернете, начать звонок, подсказать дорогу, отправить сообщение и т. д.
Хотя сегодня возможности диалоговых достигли небывалых высот, им есть куда стремиться. Чат-боты все еще вынуждают пользователей подстраиваться под себя, а многие диалоговые системы говорят только на английском.
Более подробно об истории создания чат-ботов и грани между людьми и говорящими машинами, читайте в полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
Мы взаимодействуем с диалоговыми системами повсюду: когда бронируем столик в кафе, записываемся к врачу или звоним в поддержку. Все более похожие на человека чат-боты приобретают голос и эмоции, приносят пользу бизнесу и обычным пользователям. «Системный Блокъ» рассказывает, когда чат-боты стали повсеместными, как они учились и как воспроизводят естественный разговор.
Кратко: о чем статья?
Дизайн диалоговых интерфейсов — это индустрия создания систем, имитирующих человеческое общение. Одна из основных ее задач — сделать общение с ботом естественным, эффективным и не трудозатратным. Диалоговые системы понимают и устную, и письменную речь, а успешность их работы и распознавания напрямую зависит от доступных технологий.
История чат-ботов началась в 1952 году, когда американская корпорация создала Audrey — голосовой интерфейс, способный превратить голос в текст. Машина могла распознавать только цифры от 0 до 9 и заходила в тупик, слыша новый голос.
Создание в 1960-х годах в Массачусетском технологическом институте чат-бота ELIZA стало историческим. Она как бы исполняла роль психотерапевта, задавая вопросы из заранее составленного списка в ответ на текстовое сообщение. Например, если собеседник говорил, что ему грустно, Элиза уточняла: «Почему тебе грустно?»
В 1995 году была создана ALICE, вдохновленная Элизой. Она научилась делать логические выводы из текста пользователя, учитывать грамматику предложений и контекст предыдущего разговора.
Большой прорыв в диалоговых системах случился в 2011 году, когда Apple разработали Siri, в которой объединились голосовые команды и чат-бот-система. Siri стала первым виртуальным ассистентом, который можно взять с собой куда угодно, а список ее возможностей для своего времени был внушительным: найти ответ в Интернете, начать звонок, подсказать дорогу, отправить сообщение и т. д.
Хотя сегодня возможности диалоговых достигли небывалых высот, им есть куда стремиться. Чат-боты все еще вынуждают пользователей подстраиваться под себя, а многие диалоговые системы говорят только на английском.
Более подробно об истории создания чат-ботов и грани между людьми и говорящими машинами, читайте в полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
23.12.202415:02
Нейросети и доисторические рисунки: как исследовать петроглифы с оленями
Петроглифы — небольшие древние наскальные изображения — часто сложно датировать и атрибутировать. Помимо интерпретации сюжетов, дающих нам представление о быте и поверьях северных охотников, о способах ловли оленей и медведей, ученых интересует атрибуция: когда и какими культурами были оставлены эти изображения. Рассказываем, как можно классифицировать произведения древних людей при помощи нейросети.
Кратко: о чем статья?
Признаки доисторических изображений делят на содержательные, отвечающие на вопрос «что изображено?», и стилистические — «как изображено?». Именно стиль позволяет объединять изображения по «манере», «школе» и атрибутировать их.
Особенно удобно изучать особенности стиля, сравнивая, как нарисованы одни и те же объекты. Например, Н.Н. Диков в 1971-м году предложил целую классификацию для сотен оленей, высеченных на скалах у чукотской реки Пегтымель древними жителями этих берегов (обязательно на них взгляните!). Диков выделял более реалистичных и схематичных оленей по пропорциям и стилю изображения
Сегодня на помощь исследователям приходят нейросети. В 2017 году Йельский центр Digital Humanities создал открытый инструмент Pixplot для классификации и визуализации больших массивов изображений. А в 2020-2021 студенты магистратуры Digital Humanities в Вышке кластеризовали с его помощью петроглифы с чукотскими оленями.
Полученная благодаря нейросетям визуализация отразила распределение петроглифов по технике исполнения: грубая и редкая или плавная и полная. Этот признак был связан с инструментом нанесения рисунка. Изображения, выполненные камнем, отличаются грубым исполнением, а сделанные с помощью металлического орудия — более четкими очертаниями. Причем и те, и другие кластеры изображений включали в себя как реалистичные, так и схематичные рисунки, так что деление, предложенное в 1970-е оказалось скорее субъективным и потому не вполне актуальным.
Узнать больше о кластеризации петроглифов и о том, какие промежуточные этапы предполагало исследование, сможете благодаря полной версии статьи.
Время чтения: 15 минут
🤖 «Системный Блокъ» @sysblok
Петроглифы — небольшие древние наскальные изображения — часто сложно датировать и атрибутировать. Помимо интерпретации сюжетов, дающих нам представление о быте и поверьях северных охотников, о способах ловли оленей и медведей, ученых интересует атрибуция: когда и какими культурами были оставлены эти изображения. Рассказываем, как можно классифицировать произведения древних людей при помощи нейросети.
Кратко: о чем статья?
Признаки доисторических изображений делят на содержательные, отвечающие на вопрос «что изображено?», и стилистические — «как изображено?». Именно стиль позволяет объединять изображения по «манере», «школе» и атрибутировать их.
Особенно удобно изучать особенности стиля, сравнивая, как нарисованы одни и те же объекты. Например, Н.Н. Диков в 1971-м году предложил целую классификацию для сотен оленей, высеченных на скалах у чукотской реки Пегтымель древними жителями этих берегов (обязательно на них взгляните!). Диков выделял более реалистичных и схематичных оленей по пропорциям и стилю изображения
Сегодня на помощь исследователям приходят нейросети. В 2017 году Йельский центр Digital Humanities создал открытый инструмент Pixplot для классификации и визуализации больших массивов изображений. А в 2020-2021 студенты магистратуры Digital Humanities в Вышке кластеризовали с его помощью петроглифы с чукотскими оленями.
Полученная благодаря нейросетям визуализация отразила распределение петроглифов по технике исполнения: грубая и редкая или плавная и полная. Этот признак был связан с инструментом нанесения рисунка. Изображения, выполненные камнем, отличаются грубым исполнением, а сделанные с помощью металлического орудия — более четкими очертаниями. Причем и те, и другие кластеры изображений включали в себя как реалистичные, так и схематичные рисунки, так что деление, предложенное в 1970-е оказалось скорее субъективным и потому не вполне актуальным.
Узнать больше о кластеризации петроглифов и о том, какие промежуточные этапы предполагало исследование, сможете благодаря полной версии статьи.
Время чтения: 15 минут
🤖 «Системный Блокъ» @sysblok
10.11.202412:01
Как анализ данных предсказывает успех художника?
Портрет «Мужчина в золотом шлеме», который считался считался жемчужиной Берлинской картинной галереи, долгое время приписывали Рембрандту. Когда выяснилось, что он написан кем-то другим, стоимость картины снизилась в разы — как и поток туристов, желающих на нее посмотреть.
Это показательная история о том, что на ценность картины влияют факторы, не связанные с ее художественными достоинствами напрямую. Например, имя автора. Или престиж художественного направления, в котором этот автор работал. Или даже просто попадание в престижный музей.
На основе данных о 767 473 выставках и 127 208 аукционах исследователи построили сеть из 16002 галерей и 7568 музеев и выявили большое и плотно связанное сообщество музеев, которые имеют доступ к богатейшим коллекциями и активно обмениваются ими друг с другом. Изучив данные из 143 стран за 36 лет, ученые выдвинули гипотезу о том, что предопределяет успех художника.
Анализ данных показал, например, что попадание в престижный музей на раннем этапе карьеры с большой вероятностью определит дальнейшую карьеру творца. Работы тех авторов, которые с самого начала выставлялись в престижных местах, продаются в среднем в 4.7 раз чаще и стоят в 5.2 раз дороже, чем у тех, кто изначально оказался в непрестижных музеях и галереях. Более того, из тех художников, кто начинал выставляться в малопрестижных местах, лишь чуть больше 10% пробились в престижные музеи к концу жизни.
Подробнее об исследовании можете прочитать в нашей статье, а в комментариях предлагаем вам поделиться мнениями о том, где здесь причина, а где – следствие. Это престижные музеи хорошо умеют отбирать талантливых художников? Или талантливыми признаются те художники, которые были отобраны престижными музеями?
🤖 «Системный Блокъ» @sysblok
Портрет «Мужчина в золотом шлеме», который считался считался жемчужиной Берлинской картинной галереи, долгое время приписывали Рембрандту. Когда выяснилось, что он написан кем-то другим, стоимость картины снизилась в разы — как и поток туристов, желающих на нее посмотреть.
Это показательная история о том, что на ценность картины влияют факторы, не связанные с ее художественными достоинствами напрямую. Например, имя автора. Или престиж художественного направления, в котором этот автор работал. Или даже просто попадание в престижный музей.
На основе данных о 767 473 выставках и 127 208 аукционах исследователи построили сеть из 16002 галерей и 7568 музеев и выявили большое и плотно связанное сообщество музеев, которые имеют доступ к богатейшим коллекциями и активно обмениваются ими друг с другом. Изучив данные из 143 стран за 36 лет, ученые выдвинули гипотезу о том, что предопределяет успех художника.
Анализ данных показал, например, что попадание в престижный музей на раннем этапе карьеры с большой вероятностью определит дальнейшую карьеру творца. Работы тех авторов, которые с самого начала выставлялись в престижных местах, продаются в среднем в 4.7 раз чаще и стоят в 5.2 раз дороже, чем у тех, кто изначально оказался в непрестижных музеях и галереях. Более того, из тех художников, кто начинал выставляться в малопрестижных местах, лишь чуть больше 10% пробились в престижные музеи к концу жизни.
Подробнее об исследовании можете прочитать в нашей статье, а в комментариях предлагаем вам поделиться мнениями о том, где здесь причина, а где – следствие. Это престижные музеи хорошо умеют отбирать талантливых художников? Или талантливыми признаются те художники, которые были отобраны престижными музеями?
🤖 «Системный Блокъ» @sysblok
转发自:Kali Novskaya
KN
28.10.202415:32
🌸Про ABBYY и будущее лингвистики🌸
#nlp #про_nlp
По тг разошёлся текст Системного Блока про ABBYY, да и правда, после истории массовых увольнений очень хотелось подвести какую-то черту. Напишу свои 5 копеек, потому что можно сказать, что вокруг ABBYY начиналась моя карьера.
ABBYY долгое время считалась самой лучшей компанией, куда мог бы устроиться лингвист.
Когда я только поступала на ОТиПЛ, туда шли работать лучшие выпускники. При этом ходило мнение, что вот, дескать, интеллектуальная эксплуатация — забирают лучших выпускников, которые могли бы быть успешными учёными, и фуллтайм заставляют писать правила на Compreno. (Ну и правда, в 2012 году там 40-60к платили, а в академии меньше.)
Помимо прочего, ABBYY оранизовывала самую большую NLP конференцию — Диалог, а также создала интернет-корпус русского языка, спонсировала кучу NLP-соревнований и shared tasks, которые распаляли многих проверить свои гипотезы на практике.
🟣Что же теперь делать лингвистике?
Лингвистика разберётся!
Я думаю, текущий вызов даже не самый серьёзный за историю существования кафедры. Да, последние годы приходилось работать под давлением общественного мнения, хайпом LLM...ну так он пройдёт.
Аналитическая, теоретическая лингвистика нужна самой себе и другим наукам:
— как понять и описать происхождение языка,
— как определить биологические ограничения, повлиявшие на язык
— как язык влияет на мышление и обратно,
— как смоделировать максимально общую теоретическую модель языка, описывающую процессы в языках мира,
— как проверить и описать, что находится в корпусе.
Все эти вопросы остаются нужны, и остаются ключевыми вопросами лингвистики.
А языковые модели и NLP потихоньку поглощают уже другие науки:
— OpenAI нанимает филдсевских лауреатов в т ч для составления SFT датасета по математике
— они же нанимают PhD в разных дисциплинах для разметки и валидации данных.
Так что в жернова ИИ пойдут уже выпускники других специальностей. А лингвистика будет заниматься делом.
#nlp #про_nlp
По тг разошёлся текст Системного Блока про ABBYY, да и правда, после истории массовых увольнений очень хотелось подвести какую-то черту. Напишу свои 5 копеек, потому что можно сказать, что вокруг ABBYY начиналась моя карьера.
ABBYY долгое время считалась самой лучшей компанией, куда мог бы устроиться лингвист.
Когда я только поступала на ОТиПЛ, туда шли работать лучшие выпускники. При этом ходило мнение, что вот, дескать, интеллектуальная эксплуатация — забирают лучших выпускников, которые могли бы быть успешными учёными, и фуллтайм заставляют писать правила на Compreno. (Ну и правда, в 2012 году там 40-60к платили, а в академии меньше.)
Помимо прочего, ABBYY оранизовывала самую большую NLP конференцию — Диалог, а также создала интернет-корпус русского языка, спонсировала кучу NLP-соревнований и shared tasks, которые распаляли многих проверить свои гипотезы на практике.
🟣Что же теперь делать лингвистике?
Лингвистика разберётся!
Я думаю, текущий вызов даже не самый серьёзный за историю существования кафедры. Да, последние годы приходилось работать под давлением общественного мнения, хайпом LLM...ну так он пройдёт.
Аналитическая, теоретическая лингвистика нужна самой себе и другим наукам:
— как понять и описать происхождение языка,
— как определить биологические ограничения, повлиявшие на язык
— как язык влияет на мышление и обратно,
— как смоделировать максимально общую теоретическую модель языка, описывающую процессы в языках мира,
— как проверить и описать, что находится в корпусе.
Все эти вопросы остаются нужны, и остаются ключевыми вопросами лингвистики.
А языковые модели и NLP потихоньку поглощают уже другие науки:
— OpenAI нанимает филдсевских лауреатов в т ч для составления SFT датасета по математике
— они же нанимают PhD в разных дисциплинах для разметки и валидации данных.
Так что в жернова ИИ пойдут уже выпускники других специальностей. А лингвистика будет заниматься делом.
24.10.202411:02
«Системный Блокъ» объявляет осенний набор участников!
«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.
Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!
В посте — неполный перечень ролей, которые сейчас открыты, а в статье — подробное описание задач и пожеланий к участникам.
1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 4 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!
🤖 «Системный Блокъ» @sysblok
«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.
Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!
В посте — неполный перечень ролей, которые сейчас открыты, а в статье — подробное описание задач и пожеланий к участникам.
1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 4 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!
🤖 «Системный Блокъ» @sysblok
显示 1 - 24 共 38
登录以解锁更多功能。