«Следуй за белым кроликом… Обсуждение книги Salganik M. Bit by Bit: Social Research in the Digital Age» (2017, PrincetonUniversityPress ). Репортаж с выступления Зои Котельниковой, Станислава Пашкова и Алексея Тюлюпо
10 декабря 2019 года в рамках серии семинаров «Социология рынков» с обсуждением книги Salganik M. Bit by Bit: Social Research in the Digital Age (2017, Princeton University Press) выступили доцент кафедры экономической социологии, заместитель заведующего Лабораторией экономико-социологических исследований Зоя Котельникова, аспирант и преподаватель кафедры экономической социологии Станислав Пашков и студент магистерской программы «Прикладные методы социального анализа рынков» НИУ ВШЭ Алексей Тюлюпо. В рамках текстологического семинара были продемонстрированы основные возможности и ограничения работы с большими данными, а также основные стратегии по встраиванию больших данных в социальные исследования.
Перед началом доклада с вводным словом выступил заведующий Лабораторией экономико-социологических исследований В.В. Радаев, отметив, что, хотя книга Мэттью Салганика «Bit by Bit» вышла относительно недавно, работа получила значительное внимание со стороны профессионального сообщества.
Data science VS Social science
Представив автора книги Мэтью Салганика – профессора социологии Принстонского университета, Зоя Котельникова начала свое выступление с определения термина «bit». «Bit» – это минимальная единица измерения информации, введённая в научный оборот в 1948 году американским математиком Джоном Тьюки, стоявшим у истоков формирования науки о данных – data science. С тех пор данное направление заметно эволюционировало, превратившись в мощнейшую практическую деятельность и профессию. Наблюдаемый сегодня ажиотаж вокруг науки о данных заставил социологов задуматься о будущих перспективах.
Однако, Зоя Котельникова отмечает, что книга М. Салганика «носит терапевтический характер и снимает все страхи». Читая книгу, мы погружаемся в «другой мир». В книге описываются два мира: сообщество data scientists и social scientists. В своей книге Салганик пытается социальным ученым раскрыть возможности больших данных, а представителям науки о данных объяснить, что такое исследование в социальных науках.
«Большие» и «традиционные» данные
Зоя Котельникова также акцентирует наше внимание на определении больших данных и того, чему они противопоставляются. Как мы можем называть все то, что не относится к большим данным? Зоя Котельникова отмечает, что большие данные скорее противопоставляются традиционным данным. В качестве критерия, по которому разделяют большие данные и традиционные выступает не размер, а способ их производства. Традиционные данные – это данные, специально созданные для исследований, которые изначально собираются, чтобы ответить на поставленный вопрос. М. Салганик проводит аналогию со статуей Давида, которая является результатом работы таланта Микеланджело. Большие данные – это те, которые изначально созданы не в целях исследования, с ними нужно провести предварительную работу по их позиционированию, дабы они превратились в исследовательские данные. Подобно фонтану М. Дюшана, который изначально был фонтаном, но в результате всех манипуляций Дюшана он становится произведением искусства.
«Большие данные – это данные, которые принадлежат компаниям и государству, которые созданы с иными целями, нежели исследования, и, которые производятся, хранятся и оказываются доступными благодаря цифровым технологиям»
Bigdata : каковы их возможности и ограничения?
Безусловно, большие данные обладают своими сильными и слабыми сторонами. Но сам М. Салганик видит в big data больше ограничений, нежели достоинств. В качестве достоинств он выделяет их размер, актуальность и нереактивность. Говоря о недостатках, указываются неполнота данных, нерепрезентативность, сенситивность, изменчивость, алгоритмизированность, наличие грязных данных, труднодоступность. Для наиболее эффективного анализа больших данных Салганик предлагает несколько стратегий по их встраиванию в социальные исследования: найти интересный исследовательский вопрос, строить прогнозы текущего положения дел и выявлять причинно-следственные связи на основе неэкспериментальных данных.
Салганик уверен, что, чем больше будет спрос на большие данные, тем больше будет спрос на традиционные данные. Объясняет он это через неполноту больших данных, восполнить которую возможно путем традиционных методов исследования – опросов и экспериментов.
Взгляд с другой стороны
Во второй части семинара выступили дискуссанты – Станислав Пашков и Алексей Тюлюпо. Так как Зоя Котельникова представила версию прочтения книги с точки зрения social scientist, делая акцент на будущем социологических исследований, коллеги предложили рассмотреть книгу М. Салганика с перспектив data scientists, опираясь на важность математических и алгоритмических методов.
Так, Станислав Пашков, аспирант и преподаватель кафедры экономической социологии, предлагает взгляд с точки зрения data scientists. Дискуссант однозначно согласился с тем, что книга Мэтью Салганика довольно продуктивна, ведь она написана в формате, который позволяет любому незнакомому читателю, в частности читателю с бэкграундом в социальной науке, понять основные тенденции. Однако, Станислав выражает альтернативное видение проблемы. М. Салганик упускает тезисы об изменении способов мышления социального исследователя. По мнению Станислава, основная проблема заключается в том, что для того, чтобы проникнуться технологиями и соприкоснуться с большими данными, социологу придется переключать свое мышление с интерпретации в сторону математического мышления. То есть для того, чтобы изучать новый тип данных, необходимо изучать также и новые методы, новое понимание подходов, которые встроены в любую науку о данных.
«Обычному социологу, который привык полагаться на SPSS или Excel будет трудно работать с этим типом данных [ bigdata ]. Он отчасти потеряется в этом потоке. Ведь ошибочно считать большими данными исключительно большие массивы, терабайты информации. Большие данные – это и данные в течение суток, измеренные поминутно или посекундно. Это и картинки, голоса, лайки, репосты… Все, что порождается действиями самих изучаемых людей. И для того, чтобы все это анализировать, необходимо проводить чистку информации. Поэтому социологам, безусловно, нужно трансформировать как мышление, так и свои аналитические способности в более математический вид» (Станислав Пашков)
Станислав Пашков уверен, чтобы войти в поле анализа больших данных, нужно заниматься математико-ориентированными исследованиями, в которых доля знаний, связанных с математикой, программированием или алгоритмизацией, должна быть не менее значима, чем сама социологическая интерпретация. В качестве одного из решений данной проблемы Станислав предлагает обратиться к computational social science.
Алексей Тюлюпо, студент магистерской программы «Прикладные методы социального анализа рынков» и стажер-исследователь Лаборатории экономико-социологических исследований, в своем выступлении также обращается к критике книги М. Салганика. Алексей отмечает, что книга, по большей части, носит мотивационный характер, так как М. Салганик буквально подталкивает читателей к тому, чтобы начать осваивать новые методы анализа данных. Но дискуссант обращает наше внимание на то, что освоение новых методов, безусловно, имеет свои издержки. Алексей Тюлюпо отмечает, что на протяжении всей книги автор систематически преувеличивает возможности больших данных, пытаясь заретушировать недостатки. Одним из наиболее весомых аргументов является тот факт, что статьи, из которых Салганик черпал вдохновение, были написаны в середине и конце 2000х годов, в период, когда коммерческие сайты размещали информацию в открытом доступе, и ее можно было беспрепятственно собирать. Сейчас же ситуация изменилась. Сайты стали предотвращать сбор данных, появилась более серьезная защита данных, что заметно снижает шансы социологов по продвижению в работе с этими данными.
Кому будет полезна книга?
В заключении семинара докладчики подытожили, что, несмотря на все ограничения, книга универсальна. Работа Мэтью Салганика носит весьма прикладной характер, объясняя читателям на довольно простом языке особенности методологии социологических исследований, с одной стороны, а с другой – принципы работы с большими данными.
«Она может быть полезна студентам, поскольку в ней представлена хорошая попытка систематизировано изложить, чем занимаются одни [ data scientists ], а чем другие [ social scientists ], и где их точки сопряжения. Для того чтобы понять, что тебе ближе или как коммуницировать друг с другом, книга, безусловно, очень полезна» (Зоя Котельникова)
Стажер-исследователь
Лаборатории социально-экономических исследований