Перекрестная проверка также предлагает отличное решение для сотрудников военных и правоохранительных органов, желающих выработать правильные рефлексы, которые не помешают им в реальной работе. Таким же образом, как эссе или письменный экзамен могут перепроверить результаты по стандартизированным тестам, так же может применяться и внезапная новая «перекрестная тренировка» для оценки времени реагирования и точности стрельбы в рамках незнакомого задания. Но если показатели перекрестной тренировки низки, то это послужит сигналом о необходимости изменения системы тренировок. И, хотя никакие тренировки не могут на самом деле подготовить нас к настоящему сражению, подобные упражнения могут хотя бы предупредить образование шрамов тренировок.
Как бороться с переподгонкой: санкции на сложность
Если вы не можете объяснить доступно, значит, вы сами недостаточно хорошо это понимаете.
Аноним
Мы видели ряд случаев, когда переподгонка может вступить в игру, и рассмотрели некоторые методы ее выявления и измерения силы ее действия. Но что мы можем сделать, чтобы смягчить ее эффект?
С точки зрения статистики переподгонка – симптом чрезмерной чувствительности к тем реальным данным, которые мы видели. В этом случае есть простое и ясное решение: мы должны придерживаться баланса между нашим стремлением к идеальной подгонке и сложностью используемых нами для этого моделей.
Один из принципов, помогающих выбрать среди нескольких альтернативных моделей, – принцип бритвы Оккама. Он гласит: при прочих равных условиях самая простая из возможных гипотез с большой долей вероятности является единственно правильной. Разумеется, все условия редко бывают абсолютно равными, поэтому не сразу становится понятно, как применить подобный принцип в математическом контексте. Пытаясь решить эту задачу, в 60-е годы прошлого века русский математик Андрей Тихонов предложил свой вариант ответа: нужно ввести в ваши расчеты дополнительное условие, которое отсекает более сложные решения.
Если мы назначим такое своеобразное наказание за сложность, тогда сложным моделям придется не просто хорошо потрудиться, а показать значительно более высокие результаты при разъяснении данных, чтобы оправдать свое устройство. Специалисты в области компьютерных технологий называют этот принцип – в основе которого лежит применение определенных ограничений сложности моделей – регуляризацией.
Так как же выглядят эти ограничения сложности? Один из таких алгоритмов, разработанный в 1996 году специалистом по биостатистике Робертом Тибширани, называется LASSO