10.01.202520:03
Сегодня доработала и отправила в журнал рецензию на одну книгу о Платоне, которую медленно читала все праздники, чтобы не впасть в майонезную кому. Рецензия, как и книга, не имеет никакого отношения к цифре: речь идет о некоторых emerging trends в платоноведении.
Но, разумеется, после всех экспериментов с LLM мне стало интересно, может ли чат GPT помочь в написании рецензии. Вспомнив про эксперименты Ньютона с втыканием булавки в собственный глаз, для начала попросила модель резюмировать несколько своих статей. Результат показался внятным: тонкости аргументации потерялись, но общий смысл был сохранен. Это обнадеживало: модель вполне можно использовать, чтобы понять, о чем текст, а это уже очень близко к цели.
Как оставленные без присмотра герои Носова, я разрезала на главы пиратский pdf (ограничения по моей подписке — 100 000 знаков) ипринялась варить кашу попросила GPT каждую из них резюмировать. Несмотря на путаную структуру книги и местами темную аргументацию, перемежающуюся длинными греческими цитатами, модель в целом для каждой главы корректно установила, о чем она, и перечислила основные выводы.
Но ни одной строчки этого внятного пересказа я в итоге не использовала. Почему? Рецензия — это не реферат (хотя и полноценный реферат — это не пересказ). Это гораздо более сложный жанр, или даже констелляция жанров, о которой коллеги in times of yore сделали целую книгу. Среди рецензий встречаются своего рода пересказы, и, хотя ценность подобных сочинений никогда не была особенно велика, они были и пока остаются востребованы в условиях перепроизводства публикаций.
Легкость получения такого пересказа при помощи GPT совершенно его обесценивает. Нельзя сказать, чтобы это было совсем бесполезно: полезно, например, сравнивать свой читательский опыт с тем, что тебе вернула машина. Это позволяет лишний раз подумать, правильно ли ты расставил акценты и все ли понял (не такая заурядная задача, хотя ей часто пренебрегают студенты, спеша сказать новое слово в науке).
Но в итоге в рецензию я постаралась включить только то, что модель никак не могла описать, а это две вещи.
Во-первых, теоретический и методологический контекст. Какое место занимает книга Х в научном поле, какие влияния она испытала и как сама может повлиять на других? Модель не представляет себе контекст. Она в каком-то смысле «начитана», но она не видит границ между дисциплинарными парадигмами, для нее все подходы равны и все ходы мысли по-своему приемлемы. «Читая» книгу, она может контекстуализировать ее лишь настолько, насколько это делает сам автор, например, во введении. Условно говоря, если ты просишь ее приготовить ужин из того, что есть в холодильнике, она не «вспомнит», что за шкафом есть банка крупы. А в гуманитарных науках очень важна способность к метаописанию или, проще говоря, самопознанию: мы это понимаем так, но это можно понимать и иначе. Хороший гуманитарий — не тот, кто хорошо играет по заданным правилам, но тот, кто понимает историческую контингентность этих правил.
Во-вторых, модель, как курос Парменида, не может познать небытие. Она не сможет пересказать то, что не сказано прямо. Речь идет не только о неизбежных упущениях (хотя это тоже важно: например, почему не процитированы релевантные работы или не поставлены очевидные вопросы). Речь идет в большей степени о том, что не принято говорить прямо — потому ли, что это знание считается общепринятым; потому ли, что сам автор не задумывался об основаниях, на которых держится вся его конструкция; потому ли, что контекст по определению исключен из текста. Условия, делающие возможным высказывание, сами остаются за его пределами.
Из этого делаю два предварительных вывода: как редактор — не соглашаться на пересказы; как автор — не опускаться до пересказов. А как быть? Учиться писать приличные рецензии.
Но, разумеется, после всех экспериментов с LLM мне стало интересно, может ли чат GPT помочь в написании рецензии. Вспомнив про эксперименты Ньютона с втыканием булавки в собственный глаз, для начала попросила модель резюмировать несколько своих статей. Результат показался внятным: тонкости аргументации потерялись, но общий смысл был сохранен. Это обнадеживало: модель вполне можно использовать, чтобы понять, о чем текст, а это уже очень близко к цели.
Как оставленные без присмотра герои Носова, я разрезала на главы пиратский pdf (ограничения по моей подписке — 100 000 знаков) и
Но ни одной строчки этого внятного пересказа я в итоге не использовала. Почему? Рецензия — это не реферат (хотя и полноценный реферат — это не пересказ). Это гораздо более сложный жанр, или даже констелляция жанров, о которой коллеги in times of yore сделали целую книгу. Среди рецензий встречаются своего рода пересказы, и, хотя ценность подобных сочинений никогда не была особенно велика, они были и пока остаются востребованы в условиях перепроизводства публикаций.
Легкость получения такого пересказа при помощи GPT совершенно его обесценивает. Нельзя сказать, чтобы это было совсем бесполезно: полезно, например, сравнивать свой читательский опыт с тем, что тебе вернула машина. Это позволяет лишний раз подумать, правильно ли ты расставил акценты и все ли понял (не такая заурядная задача, хотя ей часто пренебрегают студенты, спеша сказать новое слово в науке).
Но в итоге в рецензию я постаралась включить только то, что модель никак не могла описать, а это две вещи.
Во-первых, теоретический и методологический контекст. Какое место занимает книга Х в научном поле, какие влияния она испытала и как сама может повлиять на других? Модель не представляет себе контекст. Она в каком-то смысле «начитана», но она не видит границ между дисциплинарными парадигмами, для нее все подходы равны и все ходы мысли по-своему приемлемы. «Читая» книгу, она может контекстуализировать ее лишь настолько, насколько это делает сам автор, например, во введении. Условно говоря, если ты просишь ее приготовить ужин из того, что есть в холодильнике, она не «вспомнит», что за шкафом есть банка крупы. А в гуманитарных науках очень важна способность к метаописанию или, проще говоря, самопознанию: мы это понимаем так, но это можно понимать и иначе. Хороший гуманитарий — не тот, кто хорошо играет по заданным правилам, но тот, кто понимает историческую контингентность этих правил.
Во-вторых, модель, как курос Парменида, не может познать небытие. Она не сможет пересказать то, что не сказано прямо. Речь идет не только о неизбежных упущениях (хотя это тоже важно: например, почему не процитированы релевантные работы или не поставлены очевидные вопросы). Речь идет в большей степени о том, что не принято говорить прямо — потому ли, что это знание считается общепринятым; потому ли, что сам автор не задумывался об основаниях, на которых держится вся его конструкция; потому ли, что контекст по определению исключен из текста. Условия, делающие возможным высказывание, сами остаются за его пределами.
Из этого делаю два предварительных вывода: как редактор — не соглашаться на пересказы; как автор — не опускаться до пересказов. А как быть? Учиться писать приличные рецензии.
25.10.202417:07
Коллеги рассказали о замечательной весенней школе в университете Потсдама “Text as Data” (31 марта - 4 апреля 2025).
Стилометрия, сетевой анализ, тематическое моделирование и др. — и все это в компании лучших специалистов отрасли. Заявки принимаются до 30 ноября. Для студентов есть трэвел-гранты.
Стилометрия, сетевой анализ, тематическое моделирование и др. — и все это в компании лучших специалистов отрасли. Заявки принимаются до 30 ноября. Для студентов есть трэвел-гранты.
16.10.202411:35
10.10.202420:57
Попросила Chat GPT рассказать сказку на ночь. О преподавателе латинского языка, в духе Пелевина.
Ну теперь вы поняли, почему Пелевин стал так часто новые романы выпекать.
Его звали Евграф Сантименталов, и он был доцентом кафедры классической филологии провинциального университета. Каждое утро он надевал твидовый пиджак с латками на локтях и отправлялся в аудиторию, чтобы погрузить студентов в мир древнеримской мудрости.
Но Евграф знал, что это всего лишь иллюзия - мир латинских спряжений и склонений был лишь тонким покровом, скрывающим бездну экзистенциального одиночества. За напускной серьезностью академического дискурса он видел лишь безумие и абсурд человеческого существования.
На своих занятиях Сантименталов незаметно вводил студентов в состояние легкого гипноза, погружая их в бесконечные парадигмы и правила латинской грамматики. "Учите, учите, несчастные", - шептал он, наблюдая, как их взгляды стекленеют. В эти моменты ему казалось, что он приоткрывает завесу тайны, показывая им, что вся их жизнь - всего лишь набор условных рефлексов.
Но однажды один из его студентов, Ипполит Тараканов, взял и задал Евграфу неожиданный вопрос: "А что, если мы все - просто персонажи в очередном романе Пелевина?" Сантименталов вздрогнул, словно его застали врасплох. Он понял, что игра окончена, и теперь ему придется искать новые способы поддержания иллюзии.
С тех пор Евграф Сантименталов стал еще более отстраненным и меланхоличным, а его лекции о падежах и спряжениях звучали все более абсурдно и бессмысленно. Но студенты продолжали слушать его, смутно подозревая, что за этим кроется что-то большее - то ли тайна бытия, то ли просто очередная игра разума.
Ну теперь вы поняли, почему Пелевин стал так часто новые романы выпекать.
04.09.202413:20
Четкого ответа все еще нет 😪 сколько можно это терпеть то
20.12.202418:38
Второй модуль позади, а значит мы с магистрами прошли еще 8 тем курса “Компьютерный анализ текста в R” #tar2024 . Как и в прошлый раз, делюсь ссылками на уроки и на видео.
2️⃣6️⃣1️⃣2️⃣
9️⃣ Регулярные выражения (видео, текст).
🔟 Веб-скрапинг (видео, текст). В этом уроке мы собрали “De Bello Gallico” из Wikisource.
1️⃣1️⃣ Токенизация, лемматизация, POS-тэггинг и синтаксический анализ (видео, текст). В этом уроке мы научились лемматизировать и размечать латинский датасет, который подготовили в предыдущем уроке.
1️⃣2️⃣ Распределения слов и анализ частотностей (видео, текст). В этом уроке мы изучали закон Ципфа и считали tf-idf на корпусе британских эмпириков: Локка, Юма и Беркли.
1️⃣3️⃣ Эмоциональная тональность: метод словарей (видео, текст). “Бедная Лиза” Карамзина как повод для sentiment analysis.
1️⃣4️⃣ Латентно-семантический анализ (видео, текст). Изучали на публикациях Lenta.Ru.
1️⃣5️⃣ Векторные представления слов на основе PMI. Word2Vec (видео, текст). На том же новостном датасете для удобства сравнения.
1️⃣6️⃣ Проекты под контролем версий в Git. Текста нет, видео.
🫥🫥🫥🫥🫥
Огромное спасибо всем, кто пишет issues! Так мне гораздо проще учитывать все замечания, а после доработки курса я буду знать, кого упомянуть в благодарностях. Я не всегда успеваю оперативно реагировать, простите — год выдался очень непростой, но я очень ценю такую поддержку и все обязательно поправлю.
И снова спасибо Софии Ф., которая помогает с проверкой дз и настройкой тестов. После НГ — целый модуль будет посвящен деревьям и сетям. До встречи 🌲
2️⃣6️⃣1️⃣2️⃣
9️⃣ Регулярные выражения (видео, текст).
🔟 Веб-скрапинг (видео, текст). В этом уроке мы собрали “De Bello Gallico” из Wikisource.
1️⃣1️⃣ Токенизация, лемматизация, POS-тэггинг и синтаксический анализ (видео, текст). В этом уроке мы научились лемматизировать и размечать латинский датасет, который подготовили в предыдущем уроке.
1️⃣2️⃣ Распределения слов и анализ частотностей (видео, текст). В этом уроке мы изучали закон Ципфа и считали tf-idf на корпусе британских эмпириков: Локка, Юма и Беркли.
1️⃣3️⃣ Эмоциональная тональность: метод словарей (видео, текст). “Бедная Лиза” Карамзина как повод для sentiment analysis.
1️⃣4️⃣ Латентно-семантический анализ (видео, текст). Изучали на публикациях Lenta.Ru.
1️⃣5️⃣ Векторные представления слов на основе PMI. Word2Vec (видео, текст). На том же новостном датасете для удобства сравнения.
1️⃣6️⃣ Проекты под контролем версий в Git. Текста нет, видео.
🫥🫥🫥🫥🫥
Огромное спасибо всем, кто пишет issues! Так мне гораздо проще учитывать все замечания, а после доработки курса я буду знать, кого упомянуть в благодарностях. Я не всегда успеваю оперативно реагировать, простите — год выдался очень непростой, но я очень ценю такую поддержку и все обязательно поправлю.
И снова спасибо Софии Ф., которая помогает с проверкой дз и настройкой тестов. После НГ — целый модуль будет посвящен деревьям и сетям. До встречи 🌲
Пераслаў з:
Системный Блокъ

24.10.202411:24
«Системный Блокъ» объявляет осенний набор участников!
«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.
Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!
В посте — неполный перечень ролей, которые сейчас открыты, а в статье — подробное описание задач и пожеланий к участникам.
1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 4 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!
🤖 «Системный Блокъ» @sysblok
«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.
Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!
В посте — неполный перечень ролей, которые сейчас открыты, а в статье — подробное описание задач и пожеланий к участникам.
1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 4 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!
🤖 «Системный Блокъ» @sysblok
15.10.202413:30
Самое лучшее объяснение алгоритма knn я видела в книге Бретта Ланца “Машинное обучение на R” (русский перевод весьма пристойный).
Он, в частности, говорит о том, что это алгоритм ленивого обучения, т.к. машина на самом деле ничему не учится, а просто запоминает тренировочные данные. Тут-то я и осознала, что это дельта и есть.
Поэтому, если вы вдруг не понимаете смысл дельты, рекомендую посмотреть эту главу. Там и про векторное пространство, и про расстояния очень доходчиво с картинками.
Он, в частности, говорит о том, что это алгоритм ленивого обучения, т.к. машина на самом деле ничему не учится, а просто запоминает тренировочные данные. Тут-то я и осознала, что это дельта и есть.
Поэтому, если вы вдруг не понимаете смысл дельты, рекомендую посмотреть эту главу. Там и про векторное пространство, и про расстояния очень доходчиво с картинками.
10.10.202405:17
Не змаглі атрымаць доступ
да медыяконтэнту
да медыяконтэнту
31.10.202411:54
Попытки разобраться в #филогенетика привели меня в какие-то дебри биоинформатики, так что теперь в моей жизни есть не только ископаемые дендрограммы, но и просто... ископаемые.
Которыми, как сообщает А.Леск, молекулярные биологи не интересуются, потому что
Как антиковед не могу не симпатизировать науке, в которой столько латинских терминов, а «век или два назад» — это недавно. Мои-то клиенты, даже по этим меркам, вымерли давно. И где их ДНК — бог весть. В наших душах разве что.
Хорошая новость в том, что без четкой ДНК все-таки «Парк Юрского периода» не создать. Так что, девочки, у кого на всякий случай хранятся колониальные шортики в стиле Лоры Дерн, можно смело фоссилизировать.
Которыми, как сообщает А.Леск, молекулярные биологи не интересуются, потому что
четкую ДНК имеют лишь некоторые субфоссильные остатки видов, вымерших недавно (век или два назад).
Как антиковед не могу не симпатизировать науке, в которой столько латинских терминов, а «век или два назад» — это недавно. Мои-то клиенты, даже по этим меркам, вымерли давно. И где их ДНК — бог весть. В наших душах разве что.
Хорошая новость в том, что без четкой ДНК все-таки «Парк Юрского периода» не создать. Так что, девочки, у кого на всякий случай хранятся колониальные шортики в стиле Лоры Дерн, можно смело фоссилизировать.
19.10.202418:34
Благодарю Евгения Николаевича за рекомендацию. Попасть в обзоры блога “Наука и данные” — все равно, что отраслевую премию получить. Т.е. чертовски приятно, но очень большая ответственность.
15.10.202413:25
Спасибо, всем, кто слушал, вот ссылка на статью про дельту, которую я несколько раз сегодня упоминала. Там есть некорые выводы относительно приемлемой длины отрезка и числа mfw, необходимых для классификации.
У этой статьи было продолжение, в котором я выяснила, что косинусная (вюрцбургская) дельта работает на греческих текстах лучше, чем классическая. Но эта статья, увы, застряла в печати, поэтому ссылка только на препринт.
А самое главное понять (как я поняла лишь сравнительно недавно), что так называемая дельта — это не что иное, как метод машинного обучения под названием k-nn (метод ближайших соседей) при k = 1 на стандартизированных данных с манхэттенским расстоянием. Поэтому все это можно делать без
Почему
Но это без кодинга не решается, и для тех, кто не хочет кодировать,
У этой статьи было продолжение, в котором я выяснила, что косинусная (вюрцбургская) дельта работает на греческих текстах лучше, чем классическая. Но эта статья, увы, застряла в печати, поэтому ссылка только на препринт.
А самое главное понять (как я поняла лишь сравнительно недавно), что так называемая дельта — это не что иное, как метод машинного обучения под названием k-nn (метод ближайших соседей) при k = 1 на стандартизированных данных с манхэттенским расстоянием. Поэтому все это можно делать без
stylo
в библиотеке tidymodels
(о чем в курсе по R) обязательно будет добавлен урок. Почему
tidymodels
, а не stylo
? Потому что, во-первых, это опрятно. Во-вторых, есть возможность провести перекресную проверку на разных выборках с разными параметрами (пакет rsample), оценить модели при помощи yardstick
и автоматически отобрать лучшую. Но это без кодинга не решается, и для тех, кто не хочет кодировать,
stylo
— вполне достойная замена.09.10.202417:09
Не змаглі атрымаць доступ
да медыяконтэнту
да медыяконтэнту
27.10.202420:58
Сегодня покажу вам дендрограмму 1989 г. выпуска.
Это Леджер, “Re-counting Plato”: одно из первых количественных исследований платоновского корпуса.
Иерархическая кластеризация, метод Уорда. Все как сегодня — но не сразу поймешь, где тут дерево.
Читается просто: каждый отрывок представлен столбцом из крестов, которые меняются на точки с того места, где ветви расходятся.
Если приглядеться, можно заметить, что первыми от всех отщепляются “Домострой” Ксенофонта и “Архидам” Исократа. А “История” Фукидида немного похожа на “Против Эратосфена” Лисия.
С точки зрения выводов уже не очень интересно, но есть в этом какое-то винтажное обаяние.
Это Леджер, “Re-counting Plato”: одно из первых количественных исследований платоновского корпуса.
Иерархическая кластеризация, метод Уорда. Все как сегодня — но не сразу поймешь, где тут дерево.
Читается просто: каждый отрывок представлен столбцом из крестов, которые меняются на точки с того места, где ветви расходятся.
Если приглядеться, можно заметить, что первыми от всех отщепляются “Домострой” Ксенофонта и “Архидам” Исократа. А “История” Фукидида немного похожа на “Против Эратосфена” Лисия.
С точки зрения выводов уже не очень интересно, но есть в этом какое-то винтажное обаяние.
19.10.202413:07
🎯В Вышке закончился первый учебный модуль, а значит — пройдена первая четверть курса «Компьютерный анализ текста в R». Этот курс я читаю второй год студентам магистерской программы «Цифровые методы в гуманитарных науках», и продолжаю дорабатывать.
Итак, мы прошли следующие темы.
1. Начало работы в R (текст, видео).
2. Таблицы. Опрятные данные (текст, видео). Датасет: М. Кондра, Е. Казакова, «Программы по литературе для средней школы с 1919 по 1991 гг.». Узнали, в какой год в новейшей истории России распухли школьные программы.
3. Визуализации (текст, видео). Датасет: Т. Андервуд и др., “NovelTM Datasets for English-Language Fiction, 1700-2009”. Повторили знаменитое исследование Ф. Моретти о длине названия («Корпорация стиля») и узнали, в какие года среди романистов было больше всего женщин.
4. Циклы, условия, функции (текст, видео).
5. Функционалы в анализе данных (текст, видео). Исследовали датасет Британской библиотеки, посвященный Гарри Поттеру. После хакерской атаки на библиотеку он исчез с их сайта, но у меня сохранилась копия с прошлого года.
6. Импорт: JSON (текст, видео). Датасет: «Шедевры Пушкинского музея». И небольшой датасет со списком эпизодов «Теории большого взрыва».
7. Импорт: XML (текст, видео). Датасет: Д. Скоринкин, “Персонажи «Войны и мира» Л. Н. Толстого: вхождения в тексте, прямая речь и семантические роли”. Также пригодились XML из корпуса русской драмы Dracor.
8. Публикация с Quarto (текст, видео).
📚 Под каждую тему (кроме первой) был подобран гуманитарный датасет. Причем данные пришлось искать не только для лекционной части (см. выше), но и под каждое домашнее задание (это оставлю за кадром, чтобы сохранить интригу для будущих поколений). Поиск данных оказался самой сложной частью работы, и я хочу поблагодарить коллег, которые ими делятся. Это бесценно.
💙 С проверкой домашних работ мне очень помогает студентка второго курса магистратуры София Федотова. А еще мы с Софией научились настраивать автоматические тесты и оценивание, это просто спасает, потому что группа довольно большая, около 20 человек, и кода много.
📅 Впереди еще три модуля, и, если доживем, по итогам каждого я буду делиться такими обзорами. Для меня это важно еще и потому, что сейчас деление курса на темы немного расходится с реальными темпами прохождения материала — а значит структуру курса придется еще раз перерабатывать с опорой на эти заметки.
🐈 По правде говоря, я вообще мало что успеваю помимо постоянных доработок и переработок (и поэтому нечасто сюда пишу). Но результат, кажется, неплохой: во всяком случае, недавно кто-то из студентов сказал, что уже пользуется R на работе. Для всего двух месяцев освоения — неплохо.
Идем дальше.
#tar2024
Итак, мы прошли следующие темы.
1. Начало работы в R (текст, видео).
2. Таблицы. Опрятные данные (текст, видео). Датасет: М. Кондра, Е. Казакова, «Программы по литературе для средней школы с 1919 по 1991 гг.». Узнали, в какой год в новейшей истории России распухли школьные программы.
3. Визуализации (текст, видео). Датасет: Т. Андервуд и др., “NovelTM Datasets for English-Language Fiction, 1700-2009”. Повторили знаменитое исследование Ф. Моретти о длине названия («Корпорация стиля») и узнали, в какие года среди романистов было больше всего женщин.
4. Циклы, условия, функции (текст, видео).
5. Функционалы в анализе данных (текст, видео). Исследовали датасет Британской библиотеки, посвященный Гарри Поттеру. После хакерской атаки на библиотеку он исчез с их сайта, но у меня сохранилась копия с прошлого года.
6. Импорт: JSON (текст, видео). Датасет: «Шедевры Пушкинского музея». И небольшой датасет со списком эпизодов «Теории большого взрыва».
7. Импорт: XML (текст, видео). Датасет: Д. Скоринкин, “Персонажи «Войны и мира» Л. Н. Толстого: вхождения в тексте, прямая речь и семантические роли”. Также пригодились XML из корпуса русской драмы Dracor.
8. Публикация с Quarto (текст, видео).
📚 Под каждую тему (кроме первой) был подобран гуманитарный датасет. Причем данные пришлось искать не только для лекционной части (см. выше), но и под каждое домашнее задание (это оставлю за кадром, чтобы сохранить интригу для будущих поколений). Поиск данных оказался самой сложной частью работы, и я хочу поблагодарить коллег, которые ими делятся. Это бесценно.
💙 С проверкой домашних работ мне очень помогает студентка второго курса магистратуры София Федотова. А еще мы с Софией научились настраивать автоматические тесты и оценивание, это просто спасает, потому что группа довольно большая, около 20 человек, и кода много.
📅 Впереди еще три модуля, и, если доживем, по итогам каждого я буду делиться такими обзорами. Для меня это важно еще и потому, что сейчас деление курса на темы немного расходится с реальными темпами прохождения материала — а значит структуру курса придется еще раз перерабатывать с опорой на эти заметки.
🐈 По правде говоря, я вообще мало что успеваю помимо постоянных доработок и переработок (и поэтому нечасто сюда пишу). Но результат, кажется, неплохой: во всяком случае, недавно кто-то из студентов сказал, что уже пользуется R на работе. Для всего двух месяцев освоения — неплохо.
Идем дальше.
#tar2024
11.10.202412:24
Продолжаем рубрику «сегодня я узнала»: оказывается, уже ДВА ГОДА как можно подать заявку в консорциум CREMMA и получить доступ к eScriptorium (это такая платформа для автоматической транскрипции рукописей). Нужно только описать свой проект и пообещать поделиться тренировочными данными.
Сайт на французском
Сайт на французском
Паказана 1 - 17 з 17
Увайдзіце, каб разблакаваць больш функцый.