Алгоритмы для жизни: Простые способы принимать верные решения (Гриффитс, Кристиан) - страница 139

Перекрестная проверка также предлагает отличное решение для сотрудников военных и правоохранительных органов, желающих выработать правильные рефлексы, которые не помешают им в реальной работе. Таким же образом, как эссе или письменный экзамен могут перепроверить результаты по стандартизированным тестам, так же может применяться и внезапная новая «перекрестная тренировка» для оценки времени реагирования и точности стрельбы в рамках незнакомого задания. Но если показатели перекрестной тренировки низки, то это послужит сигналом о необходимости изменения системы тренировок. И, хотя никакие тренировки не могут на самом деле подготовить нас к настоящему сражению, подобные упражнения могут хотя бы предупредить образование шрамов тренировок.

Как бороться с переподгонкой: санкции на сложность

Если вы не можете объяснить доступно, значит, вы сами недостаточно хорошо это понимаете.

Аноним

Мы видели ряд случаев, когда переподгонка может вступить в игру, и рассмотрели некоторые методы ее выявления и измерения силы ее действия. Но что мы можем сделать, чтобы смягчить ее эффект?

С точки зрения статистики переподгонка – симптом чрезмерной чувствительности к тем реальным данным, которые мы видели. В этом случае есть простое и ясное решение: мы должны придерживаться баланса между нашим стремлением к идеальной подгонке и сложностью используемых нами для этого моделей.

Один из принципов, помогающих выбрать среди нескольких альтернативных моделей, – принцип бритвы Оккама. Он гласит: при прочих равных условиях самая простая из возможных гипотез с большой долей вероятности является единственно правильной. Разумеется, все условия редко бывают абсолютно равными, поэтому не сразу становится понятно, как применить подобный принцип в математическом контексте. Пытаясь решить эту задачу, в 60-е годы прошлого века русский математик Андрей Тихонов предложил свой вариант ответа: нужно ввести в ваши расчеты дополнительное условие, которое отсекает более сложные решения.

Если мы назначим такое своеобразное наказание за сложность, тогда сложным моделям придется не просто хорошо потрудиться, а показать значительно более высокие результаты при разъяснении данных, чтобы оправдать свое устройство. Специалисты в области компьютерных технологий называют этот принцип – в основе которого лежит применение определенных ограничений сложности моделей – регуляризацией.

Так как же выглядят эти ограничения сложности? Один из таких алгоритмов, разработанный в 1996 году специалистом по биостатистике Робертом Тибширани, называется LASSO