Значит, у данных есть потенциал. Это делает их столь захватывающими. Они всегда сообщают нам что-то, будь эта информация новой или нет. Они дают шанс продолжать изучать возможности и тем самым получать различные результаты – а для этого надо задавать различные вопросы о данных, преобразовывать их с помощью различных методов и применять к ним различные алгоритмы.
Процесс анализа и обработки данных
Из-за огромного потенциала данных доступ к ним может быть затруднен, особенно если это большой массив, который содержит различные виды данных, или если компания, для которой вы работаете, просто не знает, какие данные у них собраны. Именно здесь требуется анализ данных. Он предлагает надежную и здравую технологию для любого типа проекта, связанного с данными, независимо от объема и вида доступных сведений, и призван помочь вам выстроить свой проект от его концепции до формы представления заказчику. Первый разработанный Джо Блицштайном и Ганспетером Пфистером процесс анализа данных ведет нас через каждый этап проекта, с момента, когда мы впервые размышляем, как подойти к данным, до оформления результатов ясным и эффективным образом.
Процесс состоит из пяти этапов:
1. Сформулируйте вопрос.
2. Подготовьте данные.
3. Проанализируйте данные.
4. Визуализируйте выводы.
5. Представьте выводы.
Каждый из этапов добавляет к вашему массиву данных то, что мне нравится называть «слой интереса». Хотя к некоторым из этих этапов можно возвращаться в ходе процесса, прохождение их в линейном порядке уменьшит вероятность ошибки на более позднем этапе проекта и поможет определить, на каком шаге произошел сбой.
Поскольку этот процесс является неотъемлемой частью каждого проекта в области науки о данных и поскольку каждый этап требует различных навыков, мы будем рассматривать этапы раздельно во второй и третьей частях книги. Вторая часть посвящена первым трем этапам. Эти первые три шага позволят нам: 1) сформулировать обоснованный вопрос или серию вопросов, на которые необходимо ответить с помощью данных; 2) собрать массив данных таким образом, чтобы он отвечал на поставленные вопросы, и 3) получить ответ из массива данных путем анализа или прогнозирования. На мой взгляд, эти этапы потребуют от вас наибольшего вклада. Если вы проделаете всю предварительную работу, то визуализировать и представить выводы будет просто, потому что вы уже достигнете целей вашего проекта.
Аналитик данных, частный детектив
Сегодня в нашем распоряжении невероятное количество данных. Подумайте о количестве комбинаций, которые можно получить с помощью колоды из 52 игральных карт. Просто перетасуйте колоду – крайне маловероятно, чтобы кто-то еще на протяжении человеческой истории получил такой же порядок карт. Начало работы с данными похоже на то, как если бы вам вручили колоду игральных карт, – возможностей для вариаций, с которыми можно работать, иногда больше, а иногда меньше, но их всегда множество. Как только вы установили некоторые основные правила (для карт это означает игру, для науки о данных – гипотезу и алгоритм), вы действительно можете начинать работу. Определение вопроса помогает построить и спланировать подход к данным, гарантирующий, что мы получим наиболее релевантные результаты.