Одним из замечательных аспектов науки о данных является то, что существует множество бесплатных материалов с открытым исходным кодом, которые позволяют легко продолжать практиковаться. Новички в какой-либо дисциплине склонны месяц за месяцем изучать теорию вместо того, чтобы настроить свое мышление на применение полученных знаний на практике. В качестве упражнения просто введите в поисковике слова «бесплатные массивы данных» / «free datasets» – и найдете множество сайтов, которые позволяют скачать их CSV-файлы (файлы для хранения табличных данных), готовые для анализа. Учитывая огромное количество и диапазон данных, от космических исследований NASA до комментариев Reddit или даже спортивных данных (баскетбол, футбол, бейсбол), я уверен, что вы найдете что-то ценное и интересное[21].
Аналитика неструктурированных данных
Неструктурированная аналитика работает, как вы уже догадались, с неструктурированными данными, которые составляют большую часть информации в мире. Давая определение неструктурированным данным, проще сказать, что это все, что не относится к структурированным данным (числовой информации). Это может быть текст, аудио, видео или изображения. Название объясняется тем, что этот вид данных нельзя непосредственно преобразовать в массив данных – их необходимо сначала подготовить, а поскольку неструктурированные данные зачастую нельзя автоматически перевести в исчисляемые, то в их анализе неизбежна некоторая степень субъективности. В связи с этим неструктурированная аналитика крайне важна для любого исследователя данных.
Классическим примером неструктурированной аналитики является работа с качественными опросами, которые дают данные в текстовом или ином нечисловом формате. В прошлом эти данные должны были быть преобразованы в числовую форму, прежде чем их можно было понять с помощью аналитических инструментов. Это означало, что любые вопросы, которые не предполагали множественного выбора или одного ответа – и поэтому не могли быть легко перенесены в числовой формат, – требовали от аналитика данных вручную производить численную классификацию каждого ответа.
Например, на вопрос о том, чем наслаждался посетитель Йеллоустонского национального парка во время своего пребывания в нем, можно было получить ряд ответов, включая «полевые цветы», «пикники», «занятия живописью», «наблюдение за птицами», «греблю на каяке», «отличный отель с завтраком» и т. д. Аналитик данных должен был бы прочитать все эти результаты, а затем вручную сгруппировать их в категории, которые, по его мнению, были значимыми, такие как «природа», «деятельность», «экскурсии» и «отдых». Не всегда легко сгруппировать ответы по категориям, так как здесь не исключен субъективный подход.