Москва
24 июля ‘19
Среда

Статистики вычислили нарушение закона в итогах иранских выборов

Первые официальные итоги выборов в Иране заставили ученых усомниться в справедливости обработки результатов голосования. Распределение цифр не следует закону Бенфорда, хотя, по мнению статистиков, он должен выполняться. Впрочем, даже исправление ошибок не может лишить Ахмадинежада победы.

Пока в Тегеране и некоторых других иранских городах продолжаются выступления с требованием признать итоги президентских выборов подтасованными, в официальные данные о результатах голосования вгляделись специалисты по статистике. Картина, которую они там увидели, выглядит подозрительно. Цифры, составляющие числа в отчетах о результатах выборов, ведут себя не так, как предписывает статистика.

Не все цифры одинаково равны

Главным математическим основанием для подозрений стал так называемый закон Бенфорда о распределении первых цифр случайных массивов чисел. На первый взгляд вопреки здравому смыслу распределение их неоднородно – единица в качестве первой цифры встречается здесь чаще всего, в 30% случаев, а девятка – в шесть с половиной раз реже.

Цифры и числаЧисла -- абстрактные характеристики количества. Изначально для счета предметов возникли числа, которые сейчас называют натуральными (1, 2 и так далее). Современная математическая теория существенно обобщает эти понятия. Цифрами называют знаки, которыми записывают числа. В позиционных системах счисления числа изображаются набором цифр. Принятая сейчас в большинстве стран система исчисления использует десять так называемых арабских цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9.
На деле понять закон немудрено. Стандартный пример, который приводят для его объяснения, – номера домов на улице. Если их ровно 100, то первые цифры будут распределены почти равномерно – 12 единичек (1, 10-19, 100), и по 11 двоек (2, 20-29), троек (3, 30-39), четверок и так далее до девяток. А вот если их 200, то к числу единичек надо добавить еще 99 чисел (101-199), а к двойкам – только число 200. Остальным цифрам вообще ничего не достанется. То есть распределение становится резко смещенным в сторону единичек в качестве первых цифр.

Понятно, что число стоящих первыми цифр равно друг другу только в том случае, если число домов равно 10n-1, где n = 1, 2, 3 и так далее. Любое отклонение от этих чисел приводит к возрастанию доли меньших цифр в качестве начальных. Можно доказать, что в случае однородного распределения чисел на неограниченном интервале их первые цифры распределяются по четко определенному закону. Это и есть закон Бенфорда; по сути, он выражает, как распределены первые цифры чисел, логарифм которых распределен равномерно. В трактовке самого Бенфорда закон выглядит так: вероятность того, что случайная десятичная дробь начинается с цифры Р, равна lg(Р+1) – lgР.

В конце XIX века этот закон открыл американский астроном Саймон Ньюкомб, а спустя полвека, когда его работа была благополучно забыта, переоткрыл американский же инженер Фрэнк Бенфорд. По легенде и Ньюкомб, и Бенфорд заподозрили неладное, заметив, что первые страницы сборников логарифмических таблиц в библиотеках куда сильнее замаслены пальцами ученых, искавших логарифмы результатов своих измерений. Сейчас действенность этого закона проверили на распределении первых цифр физических констант, а также множества статистических данных и финансовых отчетов.

Запахло жареным

В начале 1970-х годов американский экономист Хэл Варион предложил проверять данные таких отчетов на предмет искусственных манипуляций по тому, соблюдается ли закон Бенфорда. Он также рассчитал, с какой вероятностью закон может нарушаться в зависимости от размера массива данных и выявленных отклонений. Говорят, американское налоговое ведомство, которое не в состоянии проводить полномасштабную проверку всех поступающих в его адрес налоговых отчетов, именно таким способом отбирает кандидатов на подробный анализ.

Голландский астрофизик Баудевейн Раукема из Торуньского астрономического центра при польском университете имени Николая Коперника попробовал проверить законом Бенфорда набор данных о результатах последних выборах президента Ирана. Результаты голосования в 366 избирательных округах Ирана были опубликованы министерством внутренних дел страны.

Раукема учел, что распределение совсем не обязано следовать точному, «идеализированному» закону Бенфорда. Например, если бы Иран разделялся на избирательные округа, где жили бы ровно по 99 999 избирателей, то никакой закон Бенфорда не работал бы (см. выше). Но в реальности численность избирательных округов примерно следовала равномерному в логарифме распределению (в диапазоне от примерно 10 тыс. избирателей в самых маленьких округах до миллиона в самых больших). Ее отличия от этого идеала Раукема закодировал в функции, которую обозвал «эмпирическим законом».

Дальше Раукема построил графики распределения первых цифр числа проголосовавших для четырех кандидатов – действующего президента Махмуда Ахмадинежада, его основного соперника Мир-Хоссейна Мусави и двух «малых кандидатов» – Мохсена Резаи и Мехди Каруби. Здесь-то и вскрылись странности. Работа польско-голландского астрофизика доступна в архиве электронных препринтов Корнельского университета.

Несчастливая семерка

[v2]В целом распределение первых цифр числа голосов, поданных за каждого из кандидатов в каждом из проанализированных 366 округов, примерно следовало закону Бенфорда. Лучше всего это было видно для Ахмадинежада и Мусави, получивших львиную долю голосов, а потому менее подверженных статистическому шуму недостаточно больших чисел.

Некоторым поводом для беспокойства могло бы служить чрезмерное количество двоек, поставленных Ахмадинежаду при недостатке единиц, в сравнении что с идеальным, что с «эмпирическим» законами. У Мусави ситуация прямо противоположная – единичек слишком много, а двоек недостает.

Но самым подозрительным Раукеме показались результаты Мехди Каруби. Число протоколов, где против имени Каруби стояло число, начинающееся с семерки, вдвое превышало ожидаемое. По словам ученого, эта разница более чем втрое превышает стандартное отклонение, допустимое статистикой. Вероятность, что такой выброс произойдет случайно хотя бы для одной цифры, хотя бы у одного кандидата, менее 0,7%. При этом именно семерки наблюдаются в половине округов с самым большим числом избирателей, где отклонений от статистических законов точно быть не должно.

Полмиллиона туда – полмиллиона сюда

[v3] Конечно, отсюда нельзя делать вывод, что с вероятностью более 99,3% выборы были подтасованы. В конце концов, утверждение «закон Бенфорда должен выполняться и выборы не были подтасованы» может оказаться ложным в случае ложности не только второй, но и первой части. И хотя Раукема уверен, что закон Бенфорда должен работать, никаких обвинений, как и положено сдержанному ученому, он не выдвигает.

Кроме того, даже если предположить, что выборы в трех из шести самых многолюдных округов были подтасованы в пользу Ахмадинежада, попытка «скорректировать» эту часть результатов лишит его максимум полумиллиона голосов. Для более чем 11-миллионного преимущества Ахмадинежада над Мусави, которое утверждают официальные итоги выборов, это не решающая величина.

Мы рекомендуем

Полная версия