Игра в действии
Для анализа современных данных не требуется такой же уровень осторожности, как на предыдущих двух этапах. Если вы нашли время на формулирование правильного вопроса и подготовку своих данных для того, чтобы уяснить, что от них требуется, вы можете позволить себе поэкспериментировать с анализом. Прелесть работы с массивами данных заключается в том, что вы можете дублировать их, поэтому работа с одним типом алгоритма на массиве данных не исключает возможности применения к нему и другого алгоритма. Этим хороша цифровая информация – ее можно использовать, отбирать, реструктурировать и извлекать, но вы все равно можете вернуться к более ранней версии, как только закончите работу, и начать снова.
Итак, вы потратили время на создание лесов для вашего проекта и обеспечение того, чтобы они не рухнули под тяжестью вопросов, которые вы задаете, так что теперь пришло время исследования. В главах 6 и 7 приведены решения для типов анализов, которые вы можете выполнять, а также краткий перечень их преимуществ и ограничений, чтобы повысить вашу уверенность в выборе алгоритма, оптимального для целей конкретного проекта.
Начало работы
Хотя эта часть в основном теоретическая, она имеет практическое значение, и поэтому я настоятельно рекомендую рассмотреть возможность применения каждого из пяти этапов, описанных выше, к вашему собственному проекту параллельно с чтением книги. Тогда вы освоите некоторые из необходимых инструментов, прежде чем начать изучение этой части.
Массив данных
Если у вас еще нет собственного массива данных, с которым вы можете работать, не волнуйтесь. Существует множество общедоступных массивов данных – вы можете бесплатно использовать их в собственных экспериментах. Большим преимуществом является то, что вы сразу же погрузитесь в использование реальных массивов данных, а не тех, что были специально созданы для обучения. По моему опыту, реальные массивы данных позволят вам испытать чувство победы в результате извлечения идей из реальной информации, и добавят вес утверждению, что наука о данных имеет важное значение для будущего развития огромного количества дисциплин.
Действительно интересных и разнообразных массивов данных, доступных в интернете для загрузки и использования, очень много, однако выбор за вами. Вот только несколько для начала:
• World Bank Data. Данные Всемирного банка – ценный ресурс глобальных данных о развитии.
• European Union Open Data Portal. Портал открытых данных Европейского союза – правительственные данные государств – членов ЕС.