Твиты, опубликованные в состоянии алкогольного опьянения, могут быть вычислены автоматически, а данные о местоположении пьянеющих пользователей помогут улучшить систему здравоохранения.
Распространение информации в Интернете часто сравнивают с распространением инфекций: «вирусное видео», «вирусный маркетинг», «медиа-вирусы». Но и самые настоящие физические заболевания тоже оставляют следы в социальных сетях. Область эпидемиологических исследований, использующих открытые интернет-данные, обретает всё большую популярность и даже получила отдельное название — инфодемиология.
Среди последних достижений инфодемиологии — определение послеродовой депрессии по изменению активности в Facebook [1] и предсказание того, когда пользователь заразится гриппом, основывающееся на анализе твитов его друзей и соседей [2]. Исследователи из Рочестер-ского университета применили методы инфодемиологии к процессу употребления алкоголя и представили ряд любопытных наблюдений [3].
В качестве исходных данных были взяты все посты соцсети Twitter за год, имеющие привязку к карте в Нью-Йорке или в округе Монро. Исследователям требовалось решить две основные задачи: выделить твиты, связанные с употреблением алкоголя, и определить, где именно пользователь употребляет — дома или нет, а если нет, то на каком расстоянии от дома.
Чтобы исключить абстрактные размышления об алкоголе, наблюдения за окружающими, воспоминания и планы на будущее, релевантные твиты определяли в три этапа. На первом этапе определялись записи, имеющие хоть какое-то отношение к алкоголю, дальше из них выбирались те, где речь идет об употреблении алкоголя непосредственно самим пользователем, и на третьей стадии из уже отобранных выбирались твиты, где употребление описывается в настоящем времени.
На каждой из стадий использовался один и тот же алгоритм машинного обучения — метод опорных векторов. Обучающие и тестовые выборки состояли из записей, проанализированных вручную, а в качестве параметров учитывалось, какие слова и смайлики содержит запись. Опечатки в анализе не учитывались — слово, написанное с ошибкой, засчитывалось так же, как и корректно написанное. Чувствительность и точность полученного автоматического метода оказались достаточно высокими — и то и другое было больше 82% на каждой из стадий.
Для решения второй задачи — определения, отправлен ли твит из дома, — также было использовано несколько соображений. Алгоритм машинного обучения учитывал, как часто пользователь пишет твиты из этого места, в какое время написан твит и не содержит ли он слов вроде «дом», «диван», «телевизор», «ванна» и т. п. Согласно оценкам, всё это позволило довольно точно оценить местоположение авторов твитов, в 80% случаев погрешность составила не более чем 100 м.
Далее на основе полученных данных составлялась тепловая карта плотности твитов о возлияниях и на той же карте отмечались точки продажи алкоголя. Выяснилось, что доля пользователей Twitter, пьющих дома, в городе выше, чем в пригороде. Это несмотря на то, что плотность баров в рассматриваемом городе Нью-Йорк значительно выше, чем в рассматриваемом пригороде — округе Монро. Там, если верить исследованию, значительная часть пользователей пьют на расстоянии больше километра от дома. В целом, доля пьющих пользователей в городе выше, и чем больше точек продажи алкоголя, тем выше плотность «пьяных» твитов на прилежащих территориях.
Соотношение полученных результатов с реальностью остается под большим вопросом. Во-первых, выборка — пользователи Twitter — сильно нерепрезентативна, известны перекосы по возрасту и социальному статусу. Во-вторых, непонятно направление причинно-следственных связей: много пьют, потому что много баров, или много баров, потому что много пьют. Работа имеет большую методическую ценность: из общедоступных данных при помощи методов машинного обучения, оказывается, можно получить правдоподобные оценки даже для такого нетривиального процесса, как употребление алкоголя. Использование уже готовых открытых данных значительно удешевляет исследование.
Авторы предполагают, что разработанный подход может быть использован для изучения социальных составляющих алкоголизма, а выясненные закономерности могут быть использованы для его предотвращения, — в тексте статьи даже упоминается Общество анонимных алкоголиков как пример организации, работающей с социальными факторами. Кроме того, авторы считают, что при помощи подобного подхода можно изучать распространение любых других скрытых состояний и выявлять «тифозных мэри» — скрытых носителей определенных заболеваний. Или убеждений. Все-таки идеи в чем-то подобны вирусам.