Цифровой журнал «Компьютерра» 2013 № 21 (174) (Журнал «Компьютерра») - страница 49

Виктория Стодден считает опасным безудержное доверие к Big Data. На волне шумихи методы Big Data начинают применять в самых разных областях, в том числе и в тех, которые совершенно не готовы к этому. Отношение к выводам, полученным в результате изучения статистики, особое: принято считать, что цифры не врут и спорить с ними бесполезно. Проблема в том, что это не так. Цифры могут врать. Ошибки могут быть случайно или преднамеренно внесены на любой стадии, однако никто не ищет их, потому что критическое отношение к данным пока не вошло в обычай за пределами научного сообщества.

Злоупотребления Big Data в последнее время привлекают всё больше внимания. Погоня за модой до добра не доводит, и мода на данные не исключение. Понимание того, что количество данных не так важно, как их качество, начинает появляться лишь сейчас.

Поисковики решают за нас

Дэнни Хиллис, основатель компании Applied Minds и фонда Long Now, создатель суперкомпьютера Connection Machine:

«В прошлом смысл определяли только люди. Теперь его определяют ещё и технические средства, которые приносят нам информацию. Отныне у поисковых систем имеется собственный взгляд на вещи, и результаты поиска отражают его. Игнорировать допущения, лежащие в основе результатов поиска, больше нельзя».

Задача поисковых систем — не только находить, но и фильтровать данные. Именно это происходит, когда алгоритм решает, как интерпретировать запрос и как отсортировать найденные документы. Многие его решения неизбежно будут двусмысленными. Хиллис приводит пример запроса, на который заведомо нет однозначного ответа: «провинции Китая». Поисковику волей-неволей придётся встать либо на сторону Китая, считающего Тайвань своей двадцать третьей провинцией, либо на сторону Тайваня, полагающего себя независимой державой. Само по себе это не беда. Плохо то, что пользователи далеко не всегда осознают, сколько таких решений скрыто за каждым результатом. В известном смысле наблюдения Хиллиса перекликаются с тем, что пишет Виктория Стодден о Big Data: и в том и в другом случае проблема заключается в непонимании того, как был сделан вывод.

В теории, таким образом поисковики могли бы влиять на общественное мнение, но на практике происходит обратное: они изо всех сил пытаются угодить пользователю, подстраиваясь под его вкусы и пряча всю неугодную ему информацию. В результате получается, что увидеть альтернативные точки зрения становится всё труднее. Эту проблему уже окрестили «фильтрационный пузырь», и у неё те же корни: неявные решения, которые принимает поисковая система.