).
Средствами техники текстового анализа и алгоритмов Джонатан и Джулия создали метод, который позволяет демонстрировать кластеры ключевых слов, содержащихся в тысячах отчетов американских властей по Иракской войне, которые подверглись утечке благодаря WikiLeaks, в визуальной форме.
Хотя у представленных методов есть ограничения, и подход носит экспериментальный характер, он представляет собой инновационный подход. Вместо того, чтобы пытаться прочитать все файлы или просматривать записи о войне с предвзятым мнением о том, что там можно найти, вводя определенные ключевые слова и анализируя полученный на выходе результат, эта техника подсчитывает и визуализирует темы/ключевые слова, имеющие особое значение.
В условиях увеличивающихся объемов данных – как текстовых (сообщения электронной почты, отчеты), так и цифровых, оказывающихся в распоряжении общественности, поиск путей для выделения ключевых областей интересов будет становиться все более и более важным – это великолепная подобласть журналистики данных.
—
Синтия О'Мурчу, Financial Times
Рис 8.
Тайны убийств(Scripps Howard News Service)
Одним из моих любимых примеров журналистики данных является проект
«Тайны убийств»Тома Харгроува (Tom Hargrove) из Scripps Howard News Service (
Рис 8). На основе правительственных данных и запросов на получение данных из открытых источников он составил демографически детализованную базу данных из более чем 185 тысяч нераскрытых убийств, а потом сконструировал алгоритм для поиска по ней образцов, позволяющих объединять те или иные дела на основании предположений о наличии серийных убийц. В этом проекте есть все: упорный труд по сбору данных и составлению базы лучше, чем правительственная, мудрый анализ с использованием техники социальной науки, и интерактивное представление данных в режиме онлайн таким образом, чтобы читатели могли сами в этой базе работать.
—
Стив Дойг, Школа журналистики Уолтера Кронкайта, Университет штата Аризона
Машина текстовых сообщений (Message Machine)
Рис 9.
Message Machine(ProPublica)
Мне нравится проект ProPublica под названием «Машина текстовых сообщений» (
Message Machine) и
поств блоге (
Рис 9). Все это началось тогда, когда несколько пользователей твиттера выразили любопытство по поводу получения разных сообщений электронной почты во время проведения избирательной кампании Обамы. Ребята в ProPublica заметили это и попросили читателей форвардить им любые e–mail–ы, которые они получают от деятелей избирательной кампании. Представление этих данных весьма элегантно, а визуализация выгодно отличается от обычных сообщений электронной почты, которые обычно отправляешь вечерами. Этот проект классный, потому что они собрали свою собственную информацию (хотя, признаем, и небольшую по объему, но достаточную для того, чтобы рассказать историю). Но что еще более здорово, так это то, что они рассказывают историю развивающегося явления, повествуют о масштабных данных, используемых в политических кампаниях с целью целевой рассылки сообщений конкретным лицам. Это лишь первое знакомство, позволяющее попробовать на вкус то, что грядет.