Читатели, которые пользовались интернетом в 1990-х гг., знакомы со словом «аватар» – довольно безобидное изображение, которое мы выбирали для представления себя на онлайн-форумах. Сегодня термин «аватар» используется для описания чего-то гораздо более широкого. Теперь он означает нашего неосязаемого двойника в виртуальном мире, массив данных о нас, составленный на основе наших заданных поисков, выбора и покупок, которые мы делаем в интернете, и всего, что мы публикуем в Сети, от текста до изображений. Такие данные являются потенциальным золотым дном, неиссякаемым источником информации для кредитных агентств и компаний-агрегаторов, которые затем могут использовать эти сведения для продажи другим.
Ввиду развития науки о данных встают вопросы этики и безопасности, касающиеся проницаемости, искажения и захвата данных (а этика – это область, которую мы рассмотрим в главе 5 «Подготовка данных»). У нас есть очень веские основания беспокоиться о доступах, которые открывает наука о данных, и о том, что она не делает различий в том, кто – или что – обращается к этой информации. Хотя переход от бумажного к цифровому документообороту позитивно сказался на практике ведения дел в компаниях, данные все еще могут пропадать или приходить в негодность, а также на них может существенно повлиять человек (это касается неверной информации, потери баз данных и шпионажа), что будет иметь разрушительные последствия.
Кейс: The Heartbleed Bug
На мой взгляд, Heartbleed Bug[9] представляет собой самое радикальное нарушение конфиденциальности в мире на сегодняшний день. Ошибка в программе позволила хакерам применить уязвимость в исходном коде, используемом в интернете, и украсть защищенные иным образом данные, отправленные через безопасные соединения Secure Sockets Layer (SSL). Эта лазейка предоставила доступ к конфиденциальной информации о торговых сайтах за много лет, прежде чем стало известно о ее масштабах.
В 2014 г. группа безопасности Google обнаружила эту проблему в исходном коде SSL во время регулярного критического просмотра своих сервисов. Оказалось, что около 800 000 веб-сайтов во всем мире имели эту ошибку в своем исходном коде, что обеспечивало доступ к их информации ворам и хакерам, знавшим об этой уязвимости. Но в течение двух лет ошибка оставалась незамеченной, что позволило украсть потенциально бесчисленное количество данных. По иронии, как сайты с поддержкой SSL (те, что начинаются с «https») они должны быть более безопасными, чем те, у которых обычные URL-адреса «http».
Даже если проигнорировать распространенное в то время мнение, что ошибка сохранялась с ведома правительственных или фиктивных организаций, факт остается фактом: Heartbleed Bug представлял собой фундаментальное нарушение конфиденциальности.