Цепляться за БА может быть заманчиво, когда вы или ваша компания работали таким образом в течение многих лет, но наука о данных предлагает гораздо более впечатляющий набор инструментов – образно и буквально – для анализа. Благодаря ей разрабатываются и применяются различные аналитические программы и формируется процветающее онлайн-сообщество аналитиков данных, работающих с открытыми исходными кодами для того, чтобы усовершенствовать процесс и поделиться своими достижениями. Возможность использования этих инструментов избавляет человека от необходимости искать информацию вручную, позволяя сосредоточиться на преодолении узких мест, раскрытии возможностей продаж и оценке работоспособности бизнес-подразделения. К сожалению, традиционная зависимость БА от Excel может научить вас плохим привычкам.
Все, что, как вам кажется, вы знаете, – неверно
Все мы рано или поздно сталкиваемся с Excel. Она стала одной из самых важных программ для корпораций, и большинство таблиц существуют в формате XLSX. Тем не менее для Excel характерна тенденция чрезмерного упрощения, и поэтому у вас может сложиться искаженное впечатление о данных. Если вам знакомо только представление данных в Excel, вы должны быть готовы изменить свое восприятие аналитики.
Мы подробно рассмотрим трудности с Excel в главе 5 «Подготовка данных», а здесь лишь отметим: в программном обеспечении, возможно, нет типов данных. Мы, конечно, не имеем дело с ними напрямую, а это означает, что в электронной таблице неподготовленного человека строки, формулы и визуальные эффекты окажутся перепутаны. Несмотря на то что Excel выглядит как таблица, мы можем вставлять числа, слова, ссылки и дроби в одни и те же колонки, тем самым смешивая все типы данных без разбора. Ни один инструмент науки о данных не позволит вам смешивать данные и логику – проблема, которую мы рассмотрим в главе 5. В любой системе управления базами данных логика и данные должны рассматриваться отдельно.
Будьте готовы использовать программу, которая не является Excel. На мой взгляд, одни из лучших программ для анализа массивов данных – R и Python.