Как снизить вероятность ошибки первого рода при оценке доверительных интервалов для 3 групп и более?
При оценке различий 3+ групп с помощью p-значения одним из распространенных методов является поправка Бонферрони. В классическом варианте она заключается в уменьшении порога вероятности ошибки I рода α (альфа), с которым сопоставляется p, путем деления на число выполняемых сравнений между группами (обозначим его как k).
Например, у нас 3 группы исследуемых, и мы хотим сравнить их все попарно: 1 с 2, 1 с 3, 2 с 3. Получается, всего будет 3 попарных сравнения, k=3. Значит, если мы хотим оценивать различия групп с вероятностью ошибки I рода, не превышающей 5% (α=0.05), полученные p нужно будет сопоставлять не с 0.05, а с 0.05/3 = 0.017. Если p<0.017 - различия статистически значимы. Если p>0.017 - различия статистически незначимы.
А если мы оцениваем статистическую значимость различий не с помощью p, а с помощью доверительных интервалов (ДИ)? Нужно ли их корректировать?
Да! Причем для этого также подойдет поправка Бонферрони.
Например, мы рассчитываем для разности средних 95% ДИ, который соответствует α = 0.05, или 5%. Поправка Бонферрони применяется к α, которая также делится на k. Так, если мы выполняем 3 парных сравнения, 5%/3 = 1.7%. И для каждой разности средних нужно будет рассчитывать не 95% ДИ, а (100-1.7)% = 98.3% ДИ.
ДИ, скорректированные по Бонферрони, конечно, будут шире, чем исходные. Поэтому будет сложнее получить ситуацию, когда ДИ не пересечет границу нулевой значимости, и тем сложнее будет совершить ошибку I рода - ошибочно выявить различия, которых на самом деле нет. А значит, выводы станут более точными.
Есть ли примеры такой коррекции ДИ?
Сколько угодно! К этому посту подобрали 2 примера из научных статей:
1️⃣ В статье D.P.Bui et al. Veterans at High Risk for Post–COVID-19 Suicide Attempts or Other Self-Directed Violence (JAMA Netw Open. 2025;8(3):e250061. doi:10.1001/jamanetworkopen.2025.0061) авторы сопоставляли риски самоповреждающего поведения между 5 группами исследуемых. Все группы сравнивались попарно, поэтому k=10. Вместо 95% ДИ для отношения рисков рассчитывались (100-5/10) = 99.5% ДИ.
2️⃣ В статье R.Croop et al. Zavegepant nasal spray for the acute treatment of migraine… (Headache, 2022. 62(9):1153-1163. doi: 10.1111/head.14389) авторы сравнивали 3 экспериментальные группы пациентов, принимавших разные дозы препарата, с группой плацебо-контроля. Получилось всего 3 сравнения. Вместо 95% ДИ для частоты достижения конечных точек рассчитывались 98.3% ДИ.
Вначале кажется, что все правильно, однако на самом деле к этому примеру есть вопросы. Для оценки различий между группами здесь использовались p, а не ДИ. Зачем в таком случае корректировать ДИ - непонятно. Поправка применяется только для оценок значимости различий.
Например, в первом исследовании тоже рассчитывались частоты событий в каждой из групп, но при этом использовались обычные 95% ДИ.
Выводы:
🔹 При определении ДИ для оценок различий между 3 и более группами, сравниваемых попарно, применяем поправку Бонферрони: рассчитываем (100-α/k)% ДИ.
🔹 Поправку Бонферрони применяем к ДИ для оценок эффекта: относительного риска, отношений шансов, разницы средних, разницы рисков и т.д.
🔹 К ДИ для описательных данных: средних значений показателя, частот события в каждой группе - поправку не применяем.