Новое исследование показывает, что поведение в Twitter может предсказать уровень доходов пользователей

Лингвисты давно увлеклись этим понятием, связывая слова человека с возрастом, полом и даже социально-экономическим статусом. Теперь компьютерные ученые из Пенсильванского и других университетов сделали еще один шаг, связав онлайн-поведение более 5000 пользователей Twitter с их уровнем дохода.

Они опубликовали свои результаты в журнале PLOS ONE.Даниэль Преотюк-Пьетро, ​​научный сотрудник Центра позитивной психологии Пенна в Школе искусств Science возглавили исследование, сотрудничая со Светланой Волковой из Университета Джона Хопкинса, Василиосом Лампосом и Николаосом Алетрасом из Университетского колледжа Лондона и Йорамом Бахрахом из Microsoft Research.Команда придерживалась противоположного подхода к тому, что исторически делали психологи и лингвисты: вместо того, чтобы задавать прямые вопросы, ученые смотрели на сообщения участников в социальных сетях, часто полные интимных подробностей, несмотря на отсутствие конфиденциальности, которую эти СМИ предоставляют. Исследователи из Проекта Пенна «Мировое благополучие», частью которого является Преотюк-Пьетро, ​​интересуются социальными сетями как исследовательским инструментом, который может поддержать или даже заменить дорогостоящие, ограниченные и потенциально предвзятые исследования.

Для этого эксперимента исследователи начали с изучения профессий пользователей Twitter.В Соединенном Королевстве система кодов должностей разделяет профессии на девять классов. Используя эту иерархию, исследователи определили средний доход для каждого кода, а затем запросили репрезентативную выборку для каждого кода. После ручного удаления неоднозначных профилей — например, списков со ссылкой на фильм «Дочь шахтера», сгруппированных как «шахтер» по профессии — команда получила 5 191 пользователя Twitter и более 10 миллионов твитов для анализа.

«Это крупнейший в своем роде набор данных для такого рода исследований», — сказал Преотюк-Пьетро. «Набор данных позволил нам сделать то, чего еще никто не делал».Исходя из этого, они создали алгоритм статистической обработки естественного языка, который извлекал слова, которые люди в каждом классе кода четко используют.

Большинство людей склонны использовать одни и те же или похожие слова, поэтому задача алгоритма заключалась в том, чтобы «понять», какие из них наиболее предсказуемы для каждого класса. Люди проанализировали эти группы и присвоили им качественные признаки.Некоторые из результатов подтвердили то, что уже известно, например, что слова человека могут указывать на возраст и пол, и что они связаны с доходом.

Но Преотюк-Пьетро сказал, что были и некоторые сюрпризы; например, те, кто зарабатывает больше, обычно выражают больше страха и гнева в Твиттере. Предполагаемые оптимисты имеют более низкий средний доход. Текст из тех, кто находится в скобках с более низким доходом, содержит больше нецензурных слов, тогда как те, кто находится в более высоких скобках, чаще обсуждают политику, корпорации и некоммерческий мир.

Aletras отметила общую картину использования Twitter.«Пользователи с низкими доходами или с более низким социально-экономическим статусом используют Twitter больше как средство общения между собой», — сказал он. «Люди с высоким доходом используют его больше для распространения новостей, и они используют его более профессионально, чем лично».

Подобные сильные корреляции между тем, что исследователи называют онлайн-самовыражением и офлайн-демографией, например, группировкой профессий или уровнем дохода, также оказались интригующими, добавил Лампос. «Эта работа пытается выделить некоторые из потенциальных причинных факторов в этих отношениях».Такие результаты послужат основой для будущей работы, некоторые из которых будут исследовать, как восприятие доходов пользователей согласуется с реальностью.