Выборы президента РФ 18 марта 2018 года прошли при официальной явке избирателей (доля избирателей, получивших бюллетени, от всех зарегистрированных избирателей) 67,54%. Результат победителя — В. Путина — составил 76,69%; официально за него проголосовали 51,77% от общего числа зарегистрированных избирателей. Но о чем нам говорит анализ электоральной статистики?
Нынешняя выборная кампания была во многом уникальной. На фоне предшествовавших думских выборов 2016 года, отмеченных беспрецедентно низкой явкой и чрезвычайно странным распределением голосов (см. [1]), были предприняты беспрецедентные усилия по привлечению избирателей на участки — от массированной агитации за участие в выборах до внедрения новой системы голосования по месту пребывания. Эта новация, с одной стороны, облегчила такое голосование для избирателей, а с другой, по всей видимости, облегчила и административный контроль за голосованием со стороны работодателей (в первую очередь бюджетных организаций) и других заинтересованных в высокой явке сторон.
Эти усилия принесли плоды — официальная явка превысила показатели 2004 и 2012 годов, результат победителя превысил рекорд 2004 года, а абсолютное число проголосовавших за победителя — прежний рекорд 2008 года.
Опубликованный автором ранее анализ подробных данных прошлых федеральных выборов в России [2] показал, что существенный вклад в явку и результат победителя вносят избирательные участки с аномальными показателями голосования, заставляющими подозревать наличие фальсификаций.
В последние годы благодаря широкому развитию наблюдательского движения и появлению видеонаблюдения на избирательных участках появилось множество свидетельств того, что эти подозрения имеют материальную основу. Например, масштабное исследование видеозаписей выборов в Госдуму 2016 года на избирательных участках г. Казани, проведенное Ассоциацией наблюдателей Татарстана, показало, что реальная явка на участках города на десяток процентных пунктов ниже официальной и близка к явке в других крупных городах, включая Москву и Санкт-Петербург [3].
Аналогичный анализ видеозаписей голосования на президентских выборах 2012 года в татарстанском райцентре Нурлат показал, что, вопреки официальным данным (по которым провинциальный Татарстан традиционно голосует с явкой и результатом главного кандидата, близкими к 100%), фактическая явка избирателей на избирательных участках этого города была близка к московской или петербургской [4].
Используемые данные
На момент подготовки этой статьи (20 апреля 2018 года) на официальном сайте www.izbirkom.ru опубликованы данные голосования на 97 969 избирательных участках с общим количеством зарегистрированных избирателей 109 008 428 человек. Это количество и другие сводные суммы по участкам соответствуют итоговым данным выборов, опубликованным на странице ЦИК РФ.
Во всех расчетах этой статьи используются эти данные по 97 699 участкам, хотя, по имеющимся сообщениям, на нескольких десятках (возможно сотнях) участков страны еще возможна отмена результатов голосования на основании проводимых ЦИК и региональными избиркомами процедурных проверок.
Для начала рассмотрим коротко историю российских президентских выборов по доступным в настоящее время данным.
На рис. 1 показаны (в виде графиков) гистограммы распределения количества проголосовавших избирателей по итоговой явке на избирательных участках на федеральных выборах в России 1996–2018 годов. Кривые для 2012 и 2018 годов намеренно помещены на один график, чтобы подчеркнуть их примечательное сходство (посмотреть рисунок 1 в полном размере) .
На рис. 2 показаны аналогичные гистограммы для нескольких общенациональных выборов в зарубежных странах (посмотреть рис. 2 в полном размере).
При сравнении двух рисунков хорошо видна известная характерная особенность российских федеральных выборов — несимметричное распределение явки с «тяжелым хвостом»: необычно большое количество избирательных участков (и соответственно проголосовавших на них избирателей) с явками, приближающимися к 100%. В других странах «тяжелых хвостов» распределения, доходящих до 100% явки, нет — кроме разве что Турции, но и там этот хвост существенно уступает российским образцам.
Наблюдаемая на зарубежных выборах простая колоколообразная форма распределения голосов по явке является в некотором смысле наиболее естественной для величины, на значение которой влияет большое количество независимых факторов.
Так, в случае явки на выборах, это, например, демографические характеристики и политические предпочтения населения конкретного участка, активность агитации в данном районе, погода в день голосования, расстояние до места голосования и т. д. Это происходит просто в силу того, что количество комбинаций факторов с разнонаправленными отклонениями от среднего (которые вносят вклад в центральную часть распределения) больше, чем количество комбинаций с сонаправленными отклонениями (которые образуют «хвосты»).
Соответственно наличие большого одностороннего «хвоста» на российских выборах наводит на мысль, что существует некий одиночный фактор (назовем его фактором X), воздействующий на явку в сторону ее увеличения и зачастую превосходящий по силе воздействия суммарное действие остальных факторов.
На графиках для российских выборов хорошо заметна и вторая особенность: необычное поведение распределения на «красивых» процентных значениях явки. Впервые эта особенность проявляется на президентских выборах 2004 года, причем сразу в двух местах: в виде характерной «гребенки» с шагом 5% на правом хвосте распределения и в виде не столь заметной, но четко выраженной «ступеньки» в распределении между явкой 49% и явкой 50%.
Напомним, что в 2004 году еще действовал закон о пороге явки на президентских выборах (выборы президента считались состоявшимися лишь при явке избирателей не менее 50%). И хотя порог был установлен для всей страны в целом, а не для отдельных участков, возникает ощущение, что на довольно большом числе участков приложили специальные усилия к тому, чтобы явка составила не 49 с небольшим процентов, а перетянула за 50%.
На аналогичные мысли наводит и гребенка на правом хвосте распределения с пиками на значениях явки 75%, 80%, 85%, 90%, 95%: поскольку в протоколах избирательных участков присутствуют только целые числа, необходимо приложить специальные усилия, чтобы достичь «красивой» явки — и эти усилия были приложены на статистически значимом количестве участков в стране — настолько значимом, что результат проявился на общестрановой гистограмме.
Раз возникнув в 2004 году, гребенка распределения с пиками на красивых процентах (т. н. «пила Чурова») не исчезает и на последующих выборах (как президентских, так и на не показанных здесь парламентских), достигая максимума в 2008 году одновременно с максимальным размером правого «хвоста» распределения.
В статье [5] было показано, что пики распределения на целых процентах являются статистически значимыми и не могут быть объяснены естественными факторами: (случайностью, эффектами целочисленного деления и т. д. (см. также статью [6], посвященную эволюции «пилы Чурова» на выборах 2016 и 2018 годы). Остается предположить, что природа этих пиков обусловлена ручным вмешательством в протоколы голосования.
Более того, наличие пиков именно на «красивых» числах заставляет предполагать, что явка является предметом некоторой административной отчетности — и это наводит на мысль, что отрастающий параллельно с «пилой Чурова» хвост распределения со стороны высоких явок — тоже продукт ручного вмешательства в угоду административной отчетности. В этом случае естественно предположить, что и упомянутый выше фактор X, порождающий хвост, — это именно административное воздействие на выборы.
Чтобы проиллюстрировать, как действует фактор X на результаты конкретных кандидатов, построим распределение по явке голосов за каждого кандидата аналогично тому, как это делалось в [2]. Соответствующие графики приведены на рис. 3 слева. Как и на аналогичных графиках для выборов прошлых лет, при низких явках распределения голосов за всех кандидатов похожи между собой, а при более высоких (в данном случае начиная примерно с участков с явкой 68%) гистограмма голосов за административно поддерживаемого кандидата (В. Путина) начинает отклоняться вверх от голосов за прочих кандидатов (различие в форме распределений показано штриховкой).
Каким образом это происходит, видно из правой диаграммы, где точками разного цвета показаны результаты кандидатов на всех избирательных участках в координатах «явка-результат». При низких явках точки образуют компактные кластеры, соответствующие главному пику распределения слева, а при более высоких явках формируют «хвост кометы», который у кандидата Путина идет вверх, а у остальных кандидатов — вниз.
Такое поведение согласуется с предположением о том, что «хвост» образуется в результате добавления голосов нужному кандидату, что одновременно ведет и к повышению явки. При этом в «хвосте» кометы хорошо просматривается характерный «клетчатый» рисунок, обусловленный аномальной концентрацией избирательных участков на «красивых» значениях явки и результата «главного» кандидата (еще один аргумент в пользу того, что «хвост» — плод ручного вмешательства в результаты, а не естественное образование). На уровне отдельных регионов картина голосования выглядит очень по-разному (см. рис. 4.).
Рис. 4. Примеры распределения голосов за кандидатов по явке в разных регионах
Все регионы России можно разделить по характеру распределения голосов на три группы.
- (Пример: Архангельская область.) На диаграмме рассеяния результаты всех участков образуют компактный кластер, «хвост кометы» отсутствует. Распределения голосов за всех кандидатов по явке имеют одинаковую колоколообразную форму, формы распределений голосов за В. Путина и остальных кандидатов одинаковы.
- (Пример: Республика Мордовия.) Часть участков образует кластер на тех же значениях явки и результата, что и в других регионах страны, а часть — «хвост». В пределах основного кластера распределения голосов за всех кандидатов пропорциональны, в «хвосте» доля голосов за В. Путина сильно повышена.
- (Пример: Карачаево-Черкесская Республика.) В области основного кластера участков всей страны находятся лишь единичные участки, а большая часть образует «хвост». Судя по сообщениям физических и видеонаблюдателей из регионов такого рода, реальная явка и реальные результаты соответствуют как раз единичным участкам с явкой около области основного кластера (а на многих участках явка намного ниже средней по стране). На рис. 5 показаны распределения голосов за кандидатов по явке, построенные отдельно для этих трех групп регионов.
Рис. 5. Распределение голосов за кандидатов по явке в трех группах регионов.
Группа 1: Алтайский край, Амурская область, Архангельская область, Владимирская область, Вологодская область, Забайкальский край, Ивановская область, Иркутская область, Калининградская область, Калужская область, Камчатский край, Кировская область, Костромская область, Красноярский край, Курганская область, Ленинградская область, Магаданская область, Московская область, Мурманская область, Ненецкий автономный округ, Нижегородская область, Новгородская область, Новосибирская область, Омская область, Оренбургская область, Пермский край, Приморский край, Псковская область, Республика Карелия, Республика Коми, Республика Крым, Республика Марий Эл, Республика Саха (Якутия), Республика Хакасия, Самарская область, Сахалинская область, Свердловская область, Смоленская область, Тверская область, Томская область, Тульская область, Удмуртская Республика, Хабаровский край, Ханты-Мансийский автономный округ — Югра, Челябинская область, Ярославская область, город Москва, город Санкт-Петербург, город Севастополь, зарубежные участки
Группа 2: Астраханская область, Белгородская область, Брянская область, Волгоградская область, Воронежская область, Еврейская автономная область, Краснодарский край, Курская область, Липецкая область, Орловская область, Пензенская область, Республика Адыгея (Адыгея), Республика Алтай, Республика Башкортостан, Республика Бурятия, Республика Калмыкия, Республика Мордовия, Республика Татарстан (Татарстан), Ростовская область, Рязанская область, Саратовская область, Ставропольский край, Тамбовская область, Тюменская область, Ульяновская область, Чувашская Республика — Чувашия, Чукотский автономный округ
Группа 3: Кабардино-Балкарская Республика, Карачаево-Черкесская Республика, Кемеровская область, Республика Дагестан, Республика Ингушетия, Республика Северная Осетия — Алания, Республика Тыва, Чеченская Республика, Ямало-Ненецкий автономный округ
В группе 1 (49 регионов плюс зарубежные участки, 68,6 млн зарегистрированных избирателей) распределение имеет вполне «европейский» вид, если пренебречь небольшим хвостом на высоких явках и небольшими зубчиками на явках 70%, 80% и 90% — видимо, даже в условиях в целом честного подсчета некоторые избирательные комиссии не смогли удержаться от соблазна подогнать явку под красивые значения. (Как это было сделано — вопрос, один из возможных вариантов — манипуляции со списочной численностью избирателей).
В группе 2 (28 регионов, 33,9 млн зарегистрированных избирателей) распределение голосов за кандидатов напоминает распределение по всей стране на президентских выборах 2008 года (см. [2]). Наличествует мощная «пила Чурова» — пики на всех кратных 5 процентах явки, начиная с 70%. При этом начальная часть распределения находится примерно на том же месте, что и в группе 1 — т. е. понятно, что, по всей видимости, регионы группы 2 — это такие же регионы, как в группе 1, но подвергшиеся значительным манипуляциям при подсчете голосов.
Наконец, в группе 3 (9 регионов, 6,45 млн зарегистрированных избирателей) результаты выборов, по-видимому, сфальсифицированы тотально (или почти тотально). Если присмотреться, на диаграмме рассеяния можно рассмотреть бледную тень на том месте, где на общероссийской диаграмме находится основной кластер (явка около 62%, результат Путина около 72%). Также примечательно наличие некоторого количества участков с очень низкой — от 23% — явкой. О таких явках в республиках Северного Кавказа действительно сообщали как наблюдатели на местах, так и волонтеры, занимающиеся просмотром видеозаписей.
Примечательно, что в регионах третьей группы «пила Чурова» отсутствует. Судя по всему, здесь, в отличие от регионов второй группы, ценится не столько «красивый», сколько высокий результат.
В связи с делением регионов на категории хочется отметить беспрецедентно большое для выборов последних лет количество «чистых» регионов. В группу 1 вернулись Республика Марий Эл, Саха-Якутия, Тульская область. В группу 2 из третьей переехали Башкортостан и Татарстан и даже Мордовия, которая в последний раз была там в 2000 году.
Количественная оценка уровня фальсификаций
Если фальсификации при подсчете производятся исключительно методом добавления (вброса или приписывания) голосов за нужного кандидата, то заштрихованная площадь (10,37 млн голосов) на левом графике рис. 3 дает значение количества вброшенных голосов. Эта оценка вбросов получается при довольно общих предположениях о характере исходного распределения голосов (без значительной корреляции между долями голосов за кандидатов и явкой) и характере фальсификаций (предполагается, что они применяются равномерно по всему спектру исходных участков) [2].
Однако предположение о вбросе 10,37 млн голосов приводит к выводу, что реальная явка на рассматриваемых выборах составила 58,1%, что явно не соответствует положению главного пика (кластера) на рис. 3, визуально находящегося примерно на явке 61,5%.
Между тем список возможных вариантов фальсификаций при подсчете не ограничивается вбросом/припиской голосов. По накопленному наблюдателями опыту (в частности, по итогам сравнения выданных наблюдателям протоколов с официальными результатами, см., например, [7]) мы знаем, что помимо приписывания голосов встречается также переписывание голосов от «прочих» кандидатов «правильному» — как без изменения явки, так и с одновременным добавлением голосов и увеличением явки. Манипуляции первого рода практиковали на выборах прошлых лет, например, некоторые избирательные комиссии Санкт-Петербурга.
Отметим, что манипуляции первого рода (переписывание голосов без изменения явки) не влияют на положение избирательного участка по оси явки и потому не вносят прямого вклада в заштрихованную площадь на рис. 3. Они косвенно снижают оценку избыточного числа голосов, меняя в пользу административного кандидата соотношение голосов в основном пике распределения, которое используется в качестве базового при расчете количества аномальных голосов в «хвосте».
При манипуляциях второго рода (с одновременным увеличением явки) при перекладывании 2 * A голосов голосов в пользу административного кандидата заштрихованная площадь увеличивается на A * (1 + alpha) голосов, где alpha — коэффициент масштабирования, совмещающий распределения голосов за прочих кандидатов и административного кандидата на начальном участке. Дополнительное преимущество в 2 * A голосов над остальными у административного кандидата появляется благодаря тому, что у прочих кандидатов отбирается A голосов, а административному кандидату добавляется A голосов.
В данном случае, как указано на рис. 3, alpha = 2,686, поэтому перекладывание A голосов от других кандидатов административному кандидату вносит в заштрихованную площадь вклад 3,686 * A. Предполагая, что имели место как переброс, так и добавление голосов, и обозначая неизвестные количества переброшенных и вброшенных голосов A и B соответственно, получаем уравнение A + 3,686 * B = 10,37 млн.
Одного линейного уравнения недостаточно, чтобы найти два неизвестных. В качестве дополнительной информации можно использовать положение основного кластера избирательных участков на диаграмме рассеяния в правой панели. Центр наиболее плотного кластера (по методу [8]), охватывающего 50% зарегистрированных избирателей, соответствует явке 61,58% и результату В. Путина 73,60%.
Требование совпадения скорректированной явки и результата с этим центром дает еще два дополнительных уравнения для двух величин A и B, т. е. система становится переопределенной. Минимизируя в качестве невязки евклидово расстояние от скорректированных явки и результата до центра основного кластера, получаем такие решения наших уравнений: A = 1,05 млн голосов, B = 6,5 млн голосов. Скорректированные значения явки и результата при этих значениях A и B составляют 61,58% и 72,87%, что очень близко к центру главного кластера на диаграмме рассеяния и подтверждает самосогласованность подхода.
Резюме
Какие же выводы можно сделать из анализа электоральной статистики президентских выборов 2018 года?
1. Картина голосования на выборах 2018 года получилась очень похожей на выборы 2012 года. В 49 из 85 регионов страны, охватывающих более 60% населения, статистически заметных массовых фальсификаций не было практически совсем (хотя это не значит, что не было других, менее заметных и не массовых). Кроме того, в ряде регионов 2-й группы они могли остаться за пределами региональных центров и пройти незамеченными.
2. Наблюдаемое распределение голосов соответствует добавлению за кандидата Путина дополнительных 6,5 млн голосов и перебрасыванию от других кандидатов еще 1,05 млн. В итоге дополнительное преимущество кандидата Путина над другими кандидатами за счет административного вмешательства в ход голосования составило 6,5 + 2 * 1,05 = 8,6 млн голосов.
3. Дальнейшего изучения требует фактор влияния на явку и результаты голосования нового механизма голосования по месту жительства. Кроме того, большую пользу может принести изучение оставшихся в распоряжении наблюдательского сообщества видеозаписей выборов.
Сергей Шпилькин
- Шпилькин C. Двугорбая Россия. ТрВ-Наука. № 214 от 4 октября 2016 года.
- Шпилькин C. Статистическое исследование результатов российских выборов 2007–2009 гг. ТрВ-Наука. № 40 от 27 октября 2009 года.
- Ассоциация наблюдателей Татарстана. Таблица фальсификаций.
- Габдульвалеев А. Нурлатский феномен, или оболваненный город.
- Kobak D., Shpilkin S., Pshenichnikov M. S. Integer percentages as electoral falsification fingerprints. Ann. Appl. Stat. 10 (2016). No. 1, 54–73, doi: 10.1214/16-AOAS904, см. также arxiv.org/abs/1410.6059
- Kobak D., Shpilkin S., Pshenichnikov M. S. Putin’s peaks. Russian election data revisited, Significance, to be published (2018).
- Как переписывали протоколы на президентских выборах.
- Hubert M., Debruyne M. Minimum covariance determinant // Wiley Interdisciplinary Reviews. Computational Statistics. Volume 2, Issue 1 (January/February 2010).
Видели? http://newsland.com/community/8232/content/kak-preumnozhit-sredniuiu-zarplatu-aktivnost-andronov-i-iavku-na-vybory/6322670
1. На сайте «Голоса» https://www.golosinfo.org/ru/articles/280
наткнулся на анонс:
О базе электоральной статистики
Благодаря справочной базе «Голоса» с электоральной статистикой граждане
получили удобный инструмент для скачивания файлов с результатами выборов (в
формате CSV), которые можно использовать в Microsoft Excel. Представленная
в таком виде информация, в отличие от множественных таблиц на сайтах
избиркомов, более удобна для восприятия и анализа. В базу нового сайта вошли
официальные результаты более чем 55 тысяч выборов всех уровней,
опубликованные на сайтах избиркомов начиная с 2003 года.
Зайдите в «Календарь выборов», найдите необходимые выборы и на
открывшейся странице по ссылке скачайте архив zip с результатами.
2. Одна беда — попытки что-либо скачать оказались безуспешными.
3. Зато нашёл пример как бы решения задачи Чурова и Арлазарова.
http://st.golos.org.s3-eu-west-1.amazonaws.com/images/docs/000/000/029/29/29-large.jpg?1390607222
Это что, всерьёз показано, как эксперты «Голоса» идентифицируют смеси распределений явки разных категорий избирателей, не смущаясь отрицательностью частоты?
4. Вот две вводные из Википедии про смеси.
https://en.wikipedia.org/wiki/Mixture_distribution
https://en.wikipedia.org/wiki/Mixture_model
Только учтите, что для явки нужно смешивать распределения, сосредоченные на интервале от 0 до 1 (100%). Гауссианы по физическому смыслу не годятся! Посмешивайте для начала бета-распределения. Но не надейтесь отыскать готовый универсальный софт.
Вот вот «Гауссианы по физическому смыслу не годятся! Посмешивайте для начала бета-распределения.» — Уж как я намямикал (мягко говоря) тов. Шпилькину про строгость терминологии (да и «физики») Он всё про Гаусса твердит… ;-(
Иван (если вы тот же Иван, что в теме о мусорных публикациях, и тот же Иван, что защищал Лысенко), а вы вообще по какой науке специалист? Это так и осталось для всех большой загадкой.
Так здесь вообще полно иванов, не помнящих аккаунта. Это не тот, который не этот.
Прикололо: st.golos.org.s3-eu-west-1…e.jpg?1390607222 — да вот, такая «квалификация»! Логарифмы в помощь!
Судя по тому, что никто не заметил того, что в формуле A + 3,686 * B = 10,37 перепутаны буквы, выкладок по существу никто не проверял. Проблема здесь даже не в том, что из требования самосогласованности получился самосогласованный результат, что рассматривается как подтверждение его правильности, а в двойном счёте. При определении коэффициента alpha используются официальные данные голосования за невласть, уменьшенные перебросом голосов, из-за чего найденное alpha завышается, а потом через это завышенное значение изымается заметная часть оценки вброса.
Если A – переброс, а B – вброс, то B+(1+α)•A=S, где S – площадь заштрихованной области (10,37 млн голосов). Из того, что никто не заметил, что в статье в этой формуле были перепутаны буквы A и B, я заключаю, что выкладок тоже никто не проверял. А зря, поскольку там кроме опечатки имеется и фундаментальная ошибка.
Пусть x(t) и y(t) – количества голосов, официально отданных за оппозицию и за власть соответственно на участках с официальной явкой t. При её умеренных значениях y(t)=α•x(t).
Рассмотрим крайний случай, когда переброс голосов вообще никак не связан с их вбросом и измеряется просто некой долей голосов ε, подданных за оппозицию, т.е. при истинном числе голосов x0(t) и y0(t) официальные результаты будут x=x0•(1–ε) и y=y0+x0•ε. Считая, что y0(t)=α0•x0(t), получаем α0=α•(1–ε)–ε, т.е. истинный коэффициент масштабирования графиков зависит от размера вброса, что никак не учитывается автором.
Перейдём к интегральным характеристикам. Поскольку официальные и реальные результаты оппозиции связаны формулой X=X0•(1–ε), общее число участников выборов (1+α0)•X0=(1+α)•X оказывается не зависящим от масштабов переброса голосов. Соответственно, вброс голосов равен S. Замечу, что близкая цифра (9,7 млн голосов) получается и на основе анализа доли недействительных бюллетеней.
Разумеется, описанная схема не учитывает определённой корреляции между вбросом и перебросом, возникающей при выдумывании результатов. Однако она не учитывает и обратного фактора искажений, когда за счёт резкого накручивания явки придуманное количество голосов за оппозицию оказывается больше реального (хотя процент, разумеется, сильно меньше), из-за чего нижняя граница заштрихованной области идёт выше чем должна. Мы либо пренебрегаем всеми вторичными факторами искажений, либо учитываем их тоже все.
И наконец, по поводу положения ядра. Особо полагаться на него не стоит. Если вброс осуществляется физические, то он – небольшой (почти не ловится интегральными методами), но массовый (немножко сдвигает пик графиков вправо). Если вброс осуществляется виртуально, то он более сильно затрагивает левый склон графиков, поскольку там эффект от рисования гигантских цифр весомее (уж если мухлевать, то – по-крупному).