Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
доказательный ⎵ пробел avatar
доказательный ⎵ пробел
доказательный ⎵ пробел avatar
доказательный ⎵ пробел
11.04.202506:38
💬 Как делать причинные выводы, если ваши данные — это текст?

Жалобы, интервью, посты, открытые ответы в анкетах — всё это тексты, которые всё чаще становятся объектом анализа в социальных науках (Gentzkow et al., 2019)

📝 Тексты могут играть разные роли в моделях, оценивающих причинно-следственные связи (Feder et al., 2022):
🟤Воздействие (treatment): как формулировка влияет на поведение?
🟤Исход (outcome): как воздействие повлияло на текст? (результат интервенции — это тон, содержание или тема высказывания)
🟤Общая причина (confounder): текст влияет и на воздействие, и на исход

Недавно мы писали о подходе к оценке эффектов воздействия на качественных данных, а как оценить эффект воздействия, если переменная — это текст, а не число?

📍Извлечение переменных из текста и смещение выводов

Авторы работы (Egami et al., 2022) считают, что ключевая проблема идентификации, которая возникает, когда текст нужно агрегировать в интерпретируемую переменную (например, "наличие темы", "эмоциональный тон") — это фундаментальная проблема причинного вывода при наличии скрытых переменных (Fundamental Problem of Causal Inference with Latent Variables)

Если вы извлекли интерпретируемую переменную из текста на тех же данных, где оцениваете её эффект, то:
🟤возникает переобучение
🟤результат зависит от конкретной рандомизации
🟤нарушается условие условной независимости (ignorability)

Чтобы получить валидные оценки, авторы предлагают разделение выборки (sample splitting):
🟤На обучающей выборке (train) извлекать некоторую функцию кодирования текста g (например, topic model)
🟤На тестовой выборке (test) — применить g, оценить эффект (например, разность средних, регрессию)

📍Как реализовать оценку на практике?

В свежей работе (Modarressi et al., 2025) авторы реализуют идеи (Egami et al., 2022) в полноценном алгоритме, когда исход представлен в форме текста

Алгоритм оценки включает три шага:
🟤Тест на наличие эффекта (reverse prediction): можно ли по тексту определить, к тестовой группе или контрольной он относится?
🟤Выделение причинных тем (causal themes): LLM предлагает интерпретируемые шкалы различий между группами (например, «упоминание причинной идентификации»). Темы валидируются экспертами (человеческая разметка) на независимой подвыборке
🟤Оценка полноты (completeness): насколько хорошо эти темы объясняют разницу между группами (аналог коэффициента детерминации)

📍А что, так уже делают? А что? А где?
В недавней статье в Nature исследователи используют причинную модель на текстовых данных и показывают, что негативно окрашенные слова в заголовке новости на 2,3% увеличивали число кликов по ней (Robertson et al., 2023)

А какие посты чаще читаете вы? С положительными словами в заголовке или отрицательными?

#канал_обозревает
@causal_channel
📚 Свежий курс, посвященный методам причинно-следственного анализа (causal inference) в социальных науках от Факультета политических наук Калифорнийского университета. На лекциях поприсутствовать не удастся, но презентации и практикумы доступны.

Примеры прикладных кейсов

🔘 Эффект запрета курения в Калифорнии (Abadie et al., 2010), последствия Brexit (Born et al., 2019).
🔘 Влияние минимальной зарплаты на занятость (Card & Krueger, 1993), эффекты локдауна в период COVID-19 (Friedson et al., 2020)
🔘 Влияние образования на доходы (Acemoglu et al., 2001), роль СМИ в авторитарных режимах (Kern & Hainmueller, 2009)

@evidencespace
09.02.202506:54
Недавно рассказывала о собранной коллегами базе бухгалтерской отчетности российских компаний. В четверг в рамках нашего Городского экономического семинара пройдет ее презентация.

13 февраля в 18:00 Дмитрий Скугаревский (ЕУСПб) представит доклад "Российская база бухгалтерской отчетности: коллекция финансовой отчетности всех российских компаний".

Аннотация: Представляем вам Российскую базу бухгалтерской отчетности (РББО, RFSD) — первую открытую альтернативу СПАРК-Интерфакс, Ruslana, Контур.Фокус и СБИС. До сих пор исследователям приходилось покупать доступ к данным, формировать выгрузку и импортировать данные в статистический пакет. База собрана из официальных источников — ЕГРЮЛ ФНС, архивных данных Росстата и отчетностей, полученных через Государственный информационный ресурс бухгалтерских отчетностей (ГИР БО). Сейчас РББО охватывает 2011–2023 годы и содержит 56,6 млн наблюдений. В докладе мы рассмотрим процесс создания РББО и ее применения в исследованиях: оценка процентных расходов российских компаний, оценка производственной функции предприятий обрабатывающей промышленности, а также новый способ оценить пространственное распределение ВВП России. РББО свободно доступна по адресу http://github.com/irlcode/RFSD

Мы приглашаем посетить семинар очно - заседание пройдет в Гагаринском зале ЕУСПб (адрес: Гагаринская, 6, вход с улицы Гагаринская). Но есть также возможность подключиться к семинару онлайн. В любом случае зарегистрируйтесь, пожалуйста, тут
24.01.202508:46
🟡 Часть про статистику невероятно хороша. Рассчитана на гуманитариев, так как основная аудитория лекций — сотрудники НКО. Основные блоки — про необходимый, но критически важный минимум проверки гипотез: ЦПТ, понятия точности и надежности, ошибки первого и второго рода. Уровень объяснения очень высокий, одновременно подробно и емко, на все основные статистические определения приводятся примеры применения из жизни. Много анимированных чартов с растущими колоколами, сдвигающимися распределениями.

🟡 Помогают вопросы из аудитории с последующими ответами и английский — на чужом языке нет вредной иллюзии понимания псевдо-легких концепций, поневоле замедляешься и до конца перевариваешь каждую формулу и высказывание.

🟡 Главным в контенте мне показалось описание опыта работы лаборатории по дизайну экспериментов, формированию групп и последующей работе с ними в процессе эксперимента и при оценке. Основное направление работы J-PAL — рандомизированные исследования. Подробно разбираются проблемы работы с группами: убывания участников, эффекты утечек информации, обмена групп участниками. Особенно хороши дизайны экспериментов с учетом взросления детей, растянутого входа в эксперимент с использованием новых групп как контрольных, есть отдельный блок про финансовую оценку воздействия.

🟡 Очень классные примеры про поиск респондентов через 5-10 лет после эксперимента, в других городах и странах. Подробно разбирают подход, при котором рандомизация и оценка происходят на разных уровнях, как считать и пересчитывать для таких случаев статические показатели. Все это с примерами и довольно подробно, но с учетом уровня лекторов, иногда, конечно, вспоминается анекдот про «отсюда, очевидно, следует...» в курсе лекций Ландау по физике.

«Ну, тут интуитивно понятно влияние размера вашей выборки на мощность» — говорит лектор. Мне кажется, что такая «интуиция» свойственна не всем людям. Несмотря на предыдущий блок статистики, для понимания многих рассуждений все-таки нужна не вводная, а довольно крепкая статистическая база.

Мне не хватило лекции про то, на чем, собственно, они замеряют эффекты — как будто предполагается, что это всегда параметрический анализ, но почему, не говорится.


Не знаю, насколько все это полезно для профессионалов в доказательной политике и социальных науках, но было очень интересно.

Подписывайтесь на канал Юлии: @conspect_labs
30.10.202415:56
👉 Новые данные: База показателей рождаемости россиянок

База содержит показатели рождаемости в России для календарного периода с 1946 по 2022 годов и для реальных когорт женщин, родившихся в 1932–1988 годов. Показатели рассчитаны на основе данных, полученных от Росстата. Данные представлены в формате *.xlsx.

Показатели рождаемости для календарного периода с 1946 по 2022 гг.:

• Возрастные коэффициенты рождаемости по однолетним группам возраста и порядку рождения
• СКР по порядку рождения
• Cредний возраст матери при рождении ребенка и средний возраст матери при рождении ребенка по порядку рождения

Показатели рождаемости для поколений женщин с 1932 года рождения:

• Возрастные коэффициенты рождаемости по однолетним группам возраста для женских когорт 1932-1988 г.р. для всех рождений и по очередности рождений
накопленные коэффициенты рождаемости к возрасту x по однолетним группам возраста для женских когорт 1932-1988 г.р. для всех рождений и по очередности рождений
• Накопленные коэффициенты рождаемости к возрастам 40, 45 и 50 лет для женских когорт 1932-1984 г.р. для всех рождений и по очередности рождений
• Средний возраст матери при рождении ребенка к возрастам 40, 45 и 50 лет для женских когорт 1932-1983 г.р. для всех рождений и по очередности рождений
• Таблицы рождаемости для женских когорт 1932-1988 г.р.
• Вероятности рождения ребенка следующей очередности к возрастам 40, 45 и 50 лет для женских когорт 1932-1984 г.р.
распределение женщин по итоговому числу детей к возрастам 40, 45 и 50 лет для женских когорт 1932-1984 г.р.

@evidencespace
09.04.202505:39
Экономисты все чаще используют в исследованиях спутниковые данные – создают прокси экономической активности, изучают распределение дохода, эффективность программ государственной поддержки в беднейших странах, воссоздают исторические ряды данных, которые не получить другими методами. Ниже – небольшая подборка ресурсов с информацией со спутников по ссылкам из статей (сюда же отношу и систему идентификации судов). На полноту не претендую, но возможно, кому-то будет полезно. Дополнения приветствуются!

World Meteorological Organization’s OSCAR database (список спутников, доступных данных и областей применения)

Landsat (городская застройка, пляжи, леса, залежи полезных ископаемых)

MODIS (загрязнение воздуха, отслеживание передвижения рыбы)

Ночная светимость (оценка дохода, развития, использование электричества)
Агрегирование данных по ночной светимости по регионам (ссылка 1, ссылка 2)

SRTM (относительная высота, доступность территорий)

EROS (данные о типе покрытия земной поверхности)

Open Street Map (вспомогательный источник информации на основе данных пользователей, дополняет спутниковые снимки)

Google Earth Engine (каталог спутниковых снимков и геопространственных данных)

Copernicus Open Access Hub (инициатива ЕС по предоставлению данных – со спутников и не только)

PortWatch (отслеживание природных катастроф и симуляции последствий для мировой торговли; включают данные AIS – Automatic Identification System)

#в_помощь_исследователю #подборка_данные
27.03.202513:58
30.01.202512:58
5-7 июня 2025 года — третья конференция «New Advances in the Political Economy of Development in Eurasia», Алматы, Казахстан.
Рабочий язык - английский.
Тематика:
--Социальный капитал, доверие и культурные нормы
--Человеческий капитал и экономическое развитие
--Медиа и общественне мнение
--Конликты и их решение
--Коллективные дейсвтия и общественные блага
--Политические элиты и управление
--Сравнительная политика
--Проблема колеи
--Экономическая политика и общественное благосостояние

Ключевые докладчики: Дженнифер Ганди (Йельский Университет) и Рубен Ениколопов (Университет Поммеу Фабра)

Заявки до 28 февраля 2025 года: полные тексты статей или аннотации до 250 слов и резюме.
Результаты отбора заявок — 31 марта 2025 года.
Полные тексты статей от приглашённых атворов заявок — до16 мая 2025 года.
Подробности:

https://sites.google.com/view/polecon/call-for-papers
24.01.202508:46
Наша подписчица прошла курс Evaluating Social Programs от J-PAL, о котором мы рассказывали раньше. Вот её отзыв

J-PAL (The Abdul Latif Jameel Poverty Action Lab) — крупнейшая мировая лаборатория исследований бедности и оценки эффективности социальных программ. В курсе Evaluating Social Programs излагаются основные теоретические посылки, на которых строится работа лаборатории (модель оценки воздействия, статистика, планирование эксперимента) и приводятся примеры проектов. Наша подписчица Юлия Апухтина (@conspect_labs) делится своим впечатлением от курса.

◽️Где проводится курс

🟡 На платформе MITx. Курс синхронный — каждый запуск имеет срок начала и конца. Это примерно 10 недель. Нужно прослушать 30 часов видеолекций, постоянно перемежаемых заданиями и вопросами, и прорешать несколько кейсов. Чтобы получить сертификат (стоит 99 долларов, бывают скидки) нужно набрать 65% баллов в ассесментах, если баллов не хватает — сдать дополнительный экзамен (доступ к нему появляется после оплаты сертификата). Уровень заданий далеко не низкий, рекомендую очень тщательно вчитываться в тексты кейсов и вообще не торопиться с ответами.

◽️Как устроен курс

🟡 Курс сформирован из лекций, записанных в большей части на живых лекциях для сотрудников НКО из разных стран (каких, неизвестно, но акценты в студии были в основном африканские). Лекции в зале записаны в 2010-2020 годах с профессорами (и в разное время директорами) MIT/J-PAL — Benjamin Olken и Rachel Glennerster. С этими спикерами есть и другие лекции на Yuotube. Оба очень живые, я рекомендую посмотреть все, что найдется. Коммуникационно это «Harvard style», когда лектор каждые две-три минуты требует от аудитории вопросов или реакции. Причем обращается с аудиторией невероятно нежно — любой вопрос получает похвалу и одобрение спикера.

◽️Какие в нем части

🟡 Содержательно курс состоит из теории воздействия (как их планировать), статистики и практических примеров «из жизни», в которых важны не только сами истории, но и большое количество оговорок и деталей:

«Вице-губернатор будет просить вас включить в программу его родную деревню - не надо ему отказывать! Потом просто в оценку эту деревню не включите, и все»


🟡 Но это анекдоты, а реально самое ценное — сплав, какой-то что ли гибкости в подходах к эксперименту с очень жесткой статистической базой и, соответственно, очень трезвым подходом к результатам. Этот подход настоятельно рекомендуется использовать при общении с фаундерами и заказчиками на самых ранних этапах планирования программ и экспериментов.
Reposted from:
SocioLogos.ru avatar
SocioLogos.ru
Вебинар «Пульса науки» о нейросетевых инструментах в арсенале исследователя

📅 8 апреля 2025 года в 11.00 состоится вебинар компании «Пульс науки», где сотрудники Российского научно-исследовательского института экономики, политики и права в научно-технической сфере расскажут о том, как сделать исследовательскую работу продуктивнее с помощью генеративного искусственного интеллекта.

🤖 На вебинаре слушатели узнают о практических сценариях использования последних «рассуждающих» версий ChatGPT o1 (OpenAI) и DeepSeek R1 и других инструментов, а также о том, как их использование упрощает рутинные задачи исследователя. Будут разобраны и реальные примеры: как искать и отбирать релевантную литературу, суммаризировать и структурировать знания, обрабатывать и анализировать данные, использовать нейросетевые инструменты в процессе подготовки рукописей.

👉 Требуется предварительная регистрация. Подробную информацию о можно найти здесь.
Reposted from:
НЭ
Ну Экон
11.02.202518:45
Отличный подкаст с Дмитрием Архангельским https://causalinf.substack.com/p/s4e15-dmitry-arkhangelsky-econometrics
29.01.202518:07
🌎 Возможно, нашим читателям уже знаком. Но в процессе своих исследований натолкнулись на отличный лонг-лист инструментов геопространственного анализа от географа Эдуардо Ласерда. Делимся: ссылка на лонг-лист

@evidencespace
23.01.202511:23
Новый бесплатный курс от MIT (о других совместных с J-PAL курсах рассказывали здесь и здесь): «Анализ данных для социологов».

Курс дает возможность узнать о методах использования данных для ответов на вопросы, представляющие культурный, социальный, экономический и политический интерес. На протяжении всего курса у вас будет возможность работать с реальными данными и применять изученные статистические методы с помощью статистического пакета R. Курс длится около 11 недель.

@evidencespace
В феврале этого года ОЭСР обновила свои рекомендации по оценке программ и политик для стран участниц в части использования гайда, принятого Советом по оценке госполитики в 2022 году.

В приложении к рекомендациям - репозиторий всех документов, принятых странами ОЭСР по оценке - фактически существующий на сегодня ландшафт институтов в этой области. Рекомендации в принципе интересны с позиции институционализации и внедрения практик оценки на уровне государств. Так, например, появляются весьма достойные кейсы оценки в органах аудита Испании: оценка влияния мер по повышению устойчивости пенсионной системы; Швеции: оценка результативности международной помощи; и другие.

@evidencespace
10.02.202506:55
🟩 Неделя любви к данным… и благодарности их создателям!❤️

В честь недели любви к данным (Love Data Week 2025) мы решили сделать для вас подборку с обзором некоторых отраслевых данных, которые лежат в нашем «хранилище всего интересного» -- да-да, у нас такое есть) 🛒

🌻 Наши коллеги из ИПП ЕУ выложили в открытый доступ несколько интересных наборов данных и алгоритмов:
🧡Недавно ребята выложили данные бухгалтерской отчетности -- если у вас нет доступа к СПАРКу или вы хотите использовать его альтернативу, то вам сюда. А подробнее об этом наборе данных можно будет послушать на семинаре в ближайший четверг
🧡Если вы увлекаетесь исследованиями в области экономики права или давно искали корпус текстов для освоения NLP, то вам может быть интересно поработать с корпусом текстов российского законодательства
🧡Для тех, кто вынужден работать с запутанными структурами владения компаний, коллеги из ЕУ и Сколтеха разработали алгоритм для определения контролирующих владельцев

⚫️➕✅ Как же в признании в любви не рассказать, как можно объединить два прекрасных проекта? - Никак. Поэтому расскажем вам про Если быть точным и Сбериндекс:
🧡Если быть точным обрабатывает данные муниципальной статистики, которые уже можно использовать - там данные аж до 2024 года! Присмотритесь и к другим датасетам проекта, там много интересного
🧡Но границы муниципальных образований изменяются -- тут вам поможет версионный справочник СберИндекса, в котором есть данные по муниципальным образованиям и пространственный слой с границами муниципалитетов

♥️ Любовь к миру рождается из любви к себе ❤️❤️, поэтому расскажем вам и о тех данных, которые собраны нашими ручками и бережно положены в гитхаб:
🧡С дорогими коллегами собрали и обработали данные о ковидных ограничениях и заявках на пособия по безработице (за данные по пособиям отдельно благодарим ЦПУР) -- настоящий кладезь, который при объединении с другими датасетами может дать неиссякаемый источник работ
🧡Два года назад мы собрали и обработали данные о сделках с российскими стартапами -- с ними можно сделать много всего интересного (особенно если вы дополните ее ИНН)

И, конечно, не забывайте ссылаться на авторов, когда используете их данные -- это не просто часть концепции воспроизводимости исследований, форма поддержки авторов и возможность сделать им приятно, но и способ узнать о данных для кого-то еще. Это действительно важно, и даже тема недели любви к данным в этом году - Whose Data Is It, Anyway? 👍

#канал_рекомендует
@causal_channel
28.01.202516:28
Большой образовательный проект CORE-Econ (Curriculum Open-access Resources in Economics), который объединяет экономистов из разных стран и публикует много материалов по экономической теории, разместил курс лекций по экономике с разбором кейсов на данных «Doing Economics: empirical projects». Работа с данными разобрана на примере excel, google sheets, R и python (очень разносторонний набор инструментов).

Среди тем кейсов:
🔘 Оценка влияния налога на сахар в США с использованием DiD
🔘 Анализ управленческих практик в коммерческих компаниях стран мира
🔘 Оценка рисков банковских систем
🔘 Оценка влияния государственной политики на неравенство доходов

В библиотеке CORE также много интересного материала по анализу и оценке прошедших кризисов, исследованиям различных форм неравенства и подборок бесплатных обучающих курсов.

@evidencespace
23.01.202507:06
🎯 Почему взаимосвязи не равны причинности? Разбираем "лестницу причинности" Джудеа Перла 🔍

Вы наверняка слышали об иерархии доказательств (hierarchy of evidence), однако это не единственная попытка систематизировать оценки. Менее известной, но оттого не менее важной является иерархия причинности Джудеа Перла (Pearl, 2009), на которую мы уже ссылались в одном из постов

Когда мы смотрим на данные, возникает главный вопрос: что за ними стоит? Простых наблюдений недостаточно, чтобы находить причины и предсказывать последствия

1️⃣ уровень: взаимосвязь (association)
"X связан с Y?"
Вы заметили, что люди, гуляющие по торговому центру в дождливую погоду, чаще заходят в кафе

🔴Понимаем, какие переменные связаны (корреляция)
🔴Не отвечает на вопросы, связанные с причинными изменениями
🔴Источник данных -- наблюдаемые данные
🔴Этот уровень -- основа, но он недостаточен для принятия решений

2️⃣ уровень: воздействие (intervention)
"Что произойдёт, если я сделаю X?"
Вы решили предложить скидку на горячий шоколад и хотите узнать, увеличит ли это продажи

🔴Изучаем, как одно изменение влияет на другое (причина)
🔴Не позволяет ответить на ретроспективные и контрфактические вопросы
🔴Источник данных -- рандомизированные эксперименты или причинные байесовские сети

3️⃣ уровень: контрфакты (counterfactuals)
"Что бы произошло, если бы X было другим?"
Произошёл бы сбой на производстве, если бы мы установили другой тип оборудования?

🔴Можем рассматривать гипотетические сценарии и делать выводы о том, что было бы, если бы условия изменились
🔴Требует наличия функциональных моделей или структурных уравнений
🔴Это самый сложный, но и самый мощный уровень

Почему это важно? Без понимания причинности вы рискуете 🥲
🔴Делать выводы на основе ложных причинно-следственных связей (корреляций)
🔴Реагировать на краткосрочные эффекты, не видя общей картины (интервенция)
🔴Не понимать, что именно привело к успеху или провалу (контрфакты)

Направленность и связность иерархии
🔴Взаимосвязи помогают увидеть паттерны в данных
🔴Интервенции позволяют менять реальность и измерять эффект
🔴Контрфакты дают понимание, почему всё произошло и что можно было бы улучшить
❗️Информация с уровня контрфактов (counterfactuals) может быть использована для ответа на вопросы взаимосвязи (association) и воздействия (intervention)
❗️Однако вопросы воздействия (intervention) невозможно решить только на основе информации о взаимосвязях (association), а контрфакты (counterfactuals) нельзя полностью вывести из данных о воздействии (intervention)

Иерархия причинности помогает структурировать вопросы и выбрать подходящие инструменты анализа -- от простых наблюдений до сложных моделей для контрфактических сценариев

📖 Коротко с концепцией можно ознакомиться в ноутбуке от PyMC Labs* или записке UCLA, но мы, конечно, рекомендуем обратиться к первоисточнику (Pearl, 2009; Pearl, Mackenzie, 2018) или лекции Джудеа Перла

Автор мема Kareem Carr

*Ребята делают много хорошего про байесовость. Если вы хотите впервые познакомиться с байесовостью, то можно начать с лекции выпускника ЭФ МГУ Максима Кочурова, разработчика PyMC тут

#канал_обозревает
@causal_channel
Shown 1 - 17 of 17
Log in to unlock more functionality.