Работа с данными в любой сфере (Еременко) - страница 45

Значит, у данных есть потенциал. Это делает их столь захватывающими. Они всегда сообщают нам что-то, будь эта информация новой или нет. Они дают шанс продолжать изучать возможности и тем самым получать различные результаты – а для этого надо задавать различные вопросы о данных, преобразовывать их с помощью различных методов и применять к ним различные алгоритмы.

Процесс анализа и обработки данных

Из-за огромного потенциала данных доступ к ним может быть затруднен, особенно если это большой массив, который содержит различные виды данных, или если компания, для которой вы работаете, просто не знает, какие данные у них собраны. Именно здесь требуется анализ данных. Он предлагает надежную и здравую технологию для любого типа проекта, связанного с данными, независимо от объема и вида доступных сведений, и призван помочь вам выстроить свой проект от его концепции до формы представления заказчику. Первый разработанный Джо Блицштайном и Ганспетером Пфистером процесс анализа данных ведет нас через каждый этап проекта, с момента, когда мы впервые размышляем, как подойти к данным, до оформления результатов ясным и эффективным образом.

Процесс состоит из пяти этапов:

1. Сформулируйте вопрос.

2. Подготовьте данные.

3. Проанализируйте данные.

4. Визуализируйте выводы.

5. Представьте выводы.


Каждый из этапов добавляет к вашему массиву данных то, что мне нравится называть «слой интереса». Хотя к некоторым из этих этапов можно возвращаться в ходе процесса, прохождение их в линейном порядке уменьшит вероятность ошибки на более позднем этапе проекта и поможет определить, на каком шаге произошел сбой.

Поскольку этот процесс является неотъемлемой частью каждого проекта в области науки о данных и поскольку каждый этап требует различных навыков, мы будем рассматривать этапы раздельно во второй и третьей частях книги. Вторая часть посвящена первым трем этапам. Эти первые три шага позволят нам: 1) сформулировать обоснованный вопрос или серию вопросов, на которые необходимо ответить с помощью данных; 2) собрать массив данных таким образом, чтобы он отвечал на поставленные вопросы, и 3) получить ответ из массива данных путем анализа или прогнозирования. На мой взгляд, эти этапы потребуют от вас наибольшего вклада. Если вы проделаете всю предварительную работу, то визуализировать и представить выводы будет просто, потому что вы уже достигнете целей вашего проекта.

Аналитик данных, частный детектив

Сегодня в нашем распоряжении невероятное количество данных. Подумайте о количестве комбинаций, которые можно получить с помощью колоды из 52 игральных карт. Просто перетасуйте колоду – крайне маловероятно, чтобы кто-то еще на протяжении человеческой истории получил такой же порядок карт. Начало работы с данными похоже на то, как если бы вам вручили колоду игральных карт, – возможностей для вариаций, с которыми можно работать, иногда больше, а иногда меньше, но их всегда множество. Как только вы установили некоторые основные правила (для карт это означает игру, для науки о данных – гипотезу и алгоритм), вы действительно можете начинать работу. Определение вопроса помогает построить и спланировать подход к данным, гарантирующий, что мы получим наиболее релевантные результаты.