деревья решений(классификаций) classification tree using R

Аватар автора
Кодовый Опыт
Многим неясно зачем нужен параметр сложности(Ср) и мне пишут с этим вопросом. Значит, для тех еще раз для тех, кто в танке, он нужен для управления размером дерева решений и выбора оптимального размера дерева. Если затраты на добавление другой переменной к дереву решений из текущего узла выше значения cp, то построение дерева не продолжается. Иными словами построение дерева не может продолжаться, если это не уменьшает общую нехватку подгонки на данный параметр сложности, если совсем просто, то СР определяет количество разбиений в дереве. Если какое-либо разделение не увеличивает общий R^2 модели, смысла в этом разделении нет. Почему так. СР- Это сумма, на которую расщепление этого узла улучшило относительную ошибку. Допустим у нас rel error выглядит так 0 1.0 1.0.6 Это значит, что разделение исходного корневого узла(0) снижает ошибку на 0,4 поэтому Параметр сложности выглядит так 1.0.4 2.0.01 Т.е. параметр сложности корневого узла равен 0,4, ну а следующего уже 0.01 (это предел по умолчанию для принятия решения о том, когда следует рассматривать расщепления). Таким образом, расщепление этого узла привело только к увеличению на 0,01, поэтому строительство дерева остановилось. Т.е. уже разветвлять нечего уже:)) Я надеюсь теперь это понятно. Ведь это очевидно из самого графика. Но учтите слишком маленький параметр СР приводить к переобучению, а слишком большой к недообучению. более подробно почему так описано в хелпе

0/0


0/0

0/0

0/0