Работа с данными в любой сфере (Еременко) - страница 48

• Million Song Dataset. Сборник метаданных и аудиозаписей популярной музыки.

• The CIA World Factbook. Всемирный справочник ЦРУ – массивы данных из 267 стран по темам от истории до инфраструктуры.

• National Climatic Data Center. Национальный центр климатических данных – сведения об окружающей среде США.


Программное обеспечение

Новичку в науке о данных необходимо понять, что данные не имеют своего собственного «языка» и что они могут «говорить» с нами только через машину или элемент программного обеспечения. Под «языком» данных я здесь подразумеваю способ, которым машина передает данные специалисту. О скорости автомобиля, цикле цветения растений, температуре наружного воздуха и количестве жителей в городе данные просто есть. Это ряд компонентов, но отношения, которые мы устанавливаем между ними, – дело человека или компьютера. Если продолжить аналогию с языком, я бы сказал, что данные можно сравнить с отдельными буквами, которые ждут, когда кто-то расставит их в соответствующем порядке, чтобы сформировать слова и предложения. Таким образом, от нас зависит (через инструменты, которые мы применяем), чтобы наши данные работали.

Наличие доступа к программному обеспечению не является обязательным требованием для тех, кто изучает данные с помощью этой книги, поскольку она сосредоточена на практическом применении, а не на кодировании. Но если вы хотите попробовать использовать некоторые из приведенных здесь примеров, я рекомендовал бы либо R, либо Python – оба этих языка представляют собой программные средства анализа данных и доступны для бесплатной загрузки в Windows, Linux/Unix и Mac ОС X. В настоящее время это два самых распространенных в отрасли инструмента с открытым исходным кодом.

04

Сформулируйте вопрос

Я часто слышу, как другие аналитики данных сетуют на то, что данных слишком много и что сама идея разобраться с таким количеством информации для ответа на бизнес-вопрос ошеломляет. С учетом почти постоянного потока «выхлопных данных» как мы можем надеяться управлять собранной информацией таким образом, чтобы это способствовало ее рассмотрению? Мы не можем просто прогнать все имеющиеся у нас сведения через некий алгоритм и скрестить пальцы в надежде получить нужные нам результаты.

Прежде чем мы сможем подготовить и проанализировать данные, мы должны знать, сведения какого рода нам нужны. А для этого необходима небольшая тонкая настройка вопросов нашего проекта.

Руководители часто ставят проблему перед аналитиком данных и ожидают, что тот сразу же погрузится прямо в базу данных. Но сначала поставленный вопрос нужно понять, разобрать, проанализировать. Мы должны знать, о чем нас спрашивают; если мы не ответим должным образом на этот вопрос, результаты проекта будут бесполезны. Рассмотрим процесс написания школьной работы: действие наобум, попытка ответить на вопрос, как только вам его задали, приведет (если только вы не суперсчастливчик) к тому, что вы просто дадите кучу громоздкой, неструктурированной информации. Только если вы найдете время, чтобы сделать шаг назад и подумать о картине в целом – рассмотреть ее многочисленные компоненты и контекст, – можно будет говорить об убедительности и логичности ваших аргументов.