Большие данные и социология: где вместе, а где порознь?
13 марта в рамках серии семинаров «Социология рынков» с докладом "Возможности и проблемы работы с big data: исследование конкурсов на бирже удаленной работы" выступили старшие научные сотрудники Лаборатории экономико-социологических исследований НИУ ВШЭ Денис Стребков, Андрей Шевчук и студент магистерской программы «Прикладные методы социального анализа рынков» Алексей Тюлюпо и студентки магистерской программы Сравнительные социальные исследования Анастасия Лукина и Екатерина Мелианова.
Целью докладчиков было рассказать аудитории о собственном первом опыте работы с большими данными в своих исследовательских и, что наиболее важно, социологических проектах, и подвергнуть его рефлексии.
Феномен big data, несмотря на относительно недавнее появление, активно вторгается и изменяет без преувеличения все сферы человеческой жизни. Наука не остаётся в стороне. Постепенно анализ больших данных начинает применяться и в социальных науках. Проект авторов – первый в своём роде в Лаборатории экономико-социологических исследований.
Целью авторов было выявление связи между различными характеристиками фрилансера (социально-демографическими, указанным местом проживания, заполненностью учётной записи, стажем и т.д.) и вероятностью его победы в конкурсе на выполнение заказа. Для решения использовались открытые данные крупнейшей русскоязычной биржи удалённой работы FL.ru (более 1,5 млн зарегистрированных пользователей). С помощью парсинга сайта (последовательный синтаксический анализ информации, размещённой на интернет-страницах) были получены данные анкет огромного количества фрилансеров.
В результате анализа больших данных исследователи пришли к следующим выводам: проживание в дальнем зарубежье, заполненность профиля и стаж повышают шансы фрилансера на победу, возраст 14-24 лет – понижает, а пол и опыт участия в конкурсах не сказываются никаким образом. Коммуникация же между фрилансером и заказчиком в процессе конкурса значимо повышает шансы на победу. Однако основной задачей обсуждения были не полученные результаты, а проблемы работы с большими данными, с которыми столкнулись авторы.
Первой и наиболее существенной трудностью оказалась неприспособленность больших данных для работы в парадигме theory-driven approach (исследовательской традиции, обосновывающей выбор тех или иных данных иметодов работы с ними, исходя из теории). Большие данные предназначены для работы преимущественно в русле обратной парадигмы: первым делом исследователи собирают данные, а затем пытаются их теоретизировать (data-driven approach). Одной из основных предпосылок данного подхода является признание того факта, что большие данные позволяют владеть информацией о каждом элементе генеральной совокупности и нивелируют релевантность любых выборок.
Как заметила команда авторов, данные предшествуют исследовательским вопросам, учёный не контролирует процесс изначального автоматического считывания больших данных – они генерируются не для конкретной исследовательской работы, а в силу постоянного функционирования алгоритмов. Исследователи же могут поймать, выгрузить (в данном случае с помощью парсинга сайта) постоянно обновляющуюся информационную картинку в разные моменты времени. Отсюда возникает ещё одна проблема – возможная социологическая (или другая предметная) бедность данных.
Докладчики познакомили публику и с технико-методологическими проблемами обработки и анализа больших данных, среди которых: важность тщательного отбора и выделения конкретных переменных из массивов данных, затруднённый контроль описательных статистик переменных, сложности оценки валидности динамически меняющихся параметров и т.д. Отдельного внимания заслуживает пропуск значений, который в ситуации с большими данными становится отправной точки для поиска социологических смыслов: так, может быть, фрилансер умышленно не заполняет информацию о своей стране проживания и не указывает пол, чтобы никого из потенциальных заказчиков это не смутило.
Важным аспектом является этически-правовой статус работы с большими данными. Полученная исследователями информация хоть и не имеет сензитивного характера, но тем не менее является персональной. К тому же, путём агрегирования автоматически собранных переменных авторы смогли создать новые: например, умножая оплату фрилансера на количество конкурсов, в которых он участвовал, можно получить его приблизительный доход от этой деятельности, который напрямую в анкете не указан. Однако данные, с которыми работали авторы проекта, отсутствуют в списке веб-страниц, которые не рекомендуется парсить (в основном в этот список включена информация, несущая сензитивный характер). Именно поэтому исследователи считают, что их проект не нарушает никаких моральных и этических границ. Тем не менее, заведующий Лабораторией экономико-социологических исследований Вадим Радаев посоветовал получить официальное подтверждение Комиссии по внутриуниверситетским опросам и этической оценке эмпирических исследовательских проектов НИУ ВШЭ, чтобы иметь его как дополнительный актив, значительно увеличивающий вероятность опубликоваться в самых престижных научных журналах.
Семинар завершили выступления трёх дискуссантов. Студент магистерской программы «Прикладные методы социального анализа рынков» и советник Управления организации мониторинга Аналитического центра при Правительстве РФ Станислав Пашков, возвращаясь к вопросу этичности и приватности собираемых данных, указал на разнообразные типы парсинга, которые могут отказываться от сбора информации, отмеченной как личная, тем самым снимая этические противоречия. Однако вопрос, какую информацию следует защищать, где границы приватности, по мнению дискуссанта, остаётся открытым.
Доцент кафедры методов сбора и анализа социологической информации НИУ ВШЭ Алексей Ротмистров отметил, что подход, отталкивающийся от данных (data-driven), и тесно связанная с ним отрасль машинного обучения не являются панацеей и имеют собственные проблемы. Чтобы их минимизировать, дискуссант предложил комбинировать разнообразные статистические методы.
Заведующий Международной лабораторией прикладного сетевого анализа НИУ ВШЭ Валентина Кускова поддержала амбициозные попытки социологов работать с большими данными и указала на неожиданное отсутствие связи между полом фрилансера и выбором заказчика в условиях довольно патриархального российского общества. В качестве практических рекомендаций Валентина Кускова посоветовала перейти от используемой авторами логистической регрессии на одном временном отрезке к анализу темпоральных рядов; чтобы более точно выявить причинность и эффективность (характеристик фрилансера при выборе в конкурсе), обратиться к моделированию структурными уравнениями и одному из популярных методов в теории принятия решений (decision sciences) – оболочечному анализу данных.