Алгоритмы для жизни: Простые способы принимать верные решения (Гриффитс, Кристиан) - страница 138

.

Говоря простым языком, перекрестная проверка означает оценку не только того, насколько хорошо модель подходит для заданной информации, но и того, насколько успешно она может обобщить те данные, которыми не располагает. Парадоксально, но это может побудить нас использовать меньше данных. В случае с решением в пользу или против брака мы могли бы убрать два любых пункта и подстроить наши модели лишь под оставшиеся восемь. Тогда мы могли бы взять эти два пункта и использовать их, чтобы измерить, как хорошо наши функции обобщают информацию за рамками восьми «тренировочных» пунктов, которые были им заданы. Два «отложенных» пункта служили бы нам тревожным звоночком: если сложная модель попадает точно в цель, используя восемь тренировочных пунктов, но при этом ей все же отчаянно не хватает двух тестовых факторов, то велик шанс, что сюда вмешалась переподгонка.

Помимо этого, можно протестировать модель на данных, полученных полностью из какой-либо другой системы оценки. Как мы видели, использование систем показателей – например, вкуса как показателя питательности – тоже может привести к переподгонке. В этих случаях нам необходимо провести перекрестную проверку первоначального измерения, которое мы использовали, относительно других возможных измерений.

Например, в школах использование стандартизированных тестов несет массу преимуществ, включая экономию с точки зрения шкалы оценок: их можно оценивать тысячами, просто и быстро. Тем не менее наряду с такими тестами школы могли бы произвольно оценивать студентов небольшими группами, используя другой метод оценки, – возможно, написание эссе или устный экзамен. (Поскольку таким образом можно проверить знания лишь нескольких студентов за раз, иметь этот способ оценки в качестве запасного не представляется необходимым.) Стандартизированные тесты позволят получить незамедлительный результат оценки знаний студентов (вы можете устраивать короткий экзамен на компьютере каждую неделю и отслеживать успехи класса практически в режиме реального времени, например), в то время как вторичные точки данных послужат для перекрестной проверки. Вы сможете удостовериться, что студенты действительно овладели теми знаниями, которые должен был оценить стандартизированный тест, а не просто научились лучше решать тестовые задания. Если оценки по стандартизированным тестам улучшились, а «нестандартизированная» активность движется в противоположном направлении, это должно послужить предупредительным сигналом для администрации учебного заведения: знания и навыки учеников начали превосходить механику самого теста.