Работа с данными в любой сфере (Еременко) - страница 115

На первую страницу

Это одна из особенностей, составляющих преимущество выборки Томпсона: нам не нужно обновлять алгоритм данными каждый раз, когда мы играем раунд. Это не важно в случае игровых автоматов, потому что если мы будем манипулировать рычагами, то сыграем немного раундов и соберем небольшой объем данных. Если, однако, мы используем этот алгоритм для сайтов и рекламных объявлений – где могли бы получать тысячи кликов в день и где работать со всеми этими данными было бы затруднительно, – отсутствие необходимости обновлять алгоритм после каждого раунда является плюсом. Таким образом, выборка Томпсона позволяет обрабатывать данные партиями, а не каждый раз, когда появляются новые данные. В случае с сайтами это означает, что мы можем подождать до тех пор, пока не наберем определенное количество кликов, и только потом обновить алгоритм с этой информацией. Это называется пакетной выборкой.

Конец теста A/B

В начале этой главы мы коснулись часто критикуемого теста A/B. Теперь, когда вы знаете о верхних доверительных границах и алгоритмах выборки Томпсона, я надеюсь, вы видите, что для проведения подобных исследований доступны гораздо более мощные (и простые) инструменты.

Тесты A/B фокусируются на исследовании и имеют минимальную значимость для использования. Тестирование всех вариантов проводится одинаково, поэтому использование оптимального варианта возможно лишь в ограниченной степени. Однако ВДГ и выборка Томпсона ориентированы на использование. Они разработаны так, что производят только самые необходимые исследования и больше всего будут заняты лишь одним оптимальным вариантом.

Я считаю, что для небольших специальных исследований вы все равно можете применить тестирование A/B, если это вам удобно. Но в случае серьезных бизнес-проектов, особенно при значительном финансировании, ВДГ и выборка Томпсона работают гораздо более эффективно.

Будущее анализа данных

Мы хорошо потрудились, чтобы достичь конца этого раздела; самая сложная часть позади. Если вы прочитали эти две части про анализ данных, то теперь хорошо подготовлены для того, чтобы интуитивно понимать, какой тип алгоритма – от классификации и кластеризации до обучения с подкреплением – нужно использовать, чтобы наилучшим образом решить поставленную задачу.

Теперь сделаем передышку, прежде чем переходить к заключительной части; вы ее заслужили. Подготовка и анализ данных на сегодняшний день являются, безусловно, самыми техническими стадиями анализа и обработки данных, но если вы завершите их, то подойдете к двум последним этапам процесса во всеоружии.

Следующая страница

Перейти на страницу