Шпаргалка с советами и приемами машинного обучения Afshine Amidi и Shervine Amidi; Alexandr Parkhomenko и Труш Георгий (Georgy Trush)
Метрики классификации
В контексте бинарной классификации вот основные метрики, которые важно отслеживать, чтобы оценить качество модели.
Матрица ошибок Матрица ошибок используется для получения более полной картины при оценке качества модели. Она определяется следующим образом:
Прогнозируемый класс | |||
+ | - | ||
Фактический класс | + | TP True Positives |
FN False Negatives Type II error |
- | FP False Positives Type I error |
TN True Negatives |
Основные метрики Для оценки эффективности моделей классификации обычно используются следующие показатели:
Метрика | Формула | Интерпретация |
Доля правильных ответов (accuracy) | $\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$ | Эффективность работы модели |
Точность (precision) | $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$ | Насколько точны положительные прогнозы |
Recall Sensitivity |
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ | Полнота показывает, какая часть положительных образцов была выделена классификатором |
Specificity | $\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$ | Спецификация показывает, какая часть отрицательных наблюдений была выделена классификатором |
F1 мера | $\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$ | Гибридная метрика полезна для несбалансированных классов |
Receiver Operating (characteristic) Curve Кривая рабочей характеристики приемника, также обозначаемая как ROC, представляет собой график зависимости TPR от FPR при изменении порога. Эти показатели приведены в таблице ниже:
Метрика | Формула | Эквивалент |
True Positive Rate TPR |
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ | Recall, sensitivity |
False Positive Rate FPR |
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$ | 1-specificity |
Area Under ROC Curve (AUC) Площадь под ROC кривой, также обозначаемая как AUC или AUROC, является областью под ROC, как показано на следующем рисунке:

Метрики регрессии
Базовые метрики Дана регрессионная модель $f$, для оценки качества модели обычно используются следующие метрики:
Cумма квадратов общая (total) | Сумма квадратов объясненная (regression) | Сумма квадратов разностей (residual) |
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$ | $\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$ | $\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$ |
Коэффициент детерминации Коэффициент детерминации, часто обозначаемый как $R^2$ или $r^2$, обеспечивает меру того, насколько хорошо наблюдаемые результаты воспроизводятся моделью, и определяется следующим образом:
\[\boxed{R^2=1-\frac{\textrm{SS}_\textrm{res}}{\textrm{SS}_\textrm{tot}}}\]Основные метрики Следующие метрики обычно используются для оценки эффективности регрессионных моделей с учетом количества переменных $n$, которые они принимают во внимание:
Mallow's Cp | AIC | BIC | Adjusted $R^2$ |
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$ | $\displaystyle2\Big[(n+2)-\log(L)\Big]$ | $\displaystyle\log(m)(n+2)-2\log(L)$ | $\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$ |
где $L$ - правдоподобие, а $\widehat{\sigma}^2$ - оценка дисперсии, связанной с каждым ответом.
Выбор модели
Словарь При выборе модели мы выделяем 3 разные части имеющихся у нас данных:
Обучающий набор | Контрольный набор | Тестовый набор |
• Модель обучена • Обычно 80% набора данных |
• Модель оценена • Обычно 20% набора данных • Также называется набором для удержания или развития |
• Модель дает прогнозы • Ранее невиданные данные |
Как только модель выбрана, она обучается на всем наборе данных и тестируется на невиданном тестовом наборе. Они представлены на рисунке ниже:

Кросс-валидация (CV) Перекрестная проверка - это метод, который используется для выбора модели, которая не слишком полагается на исходный обучающий набор. Различные типы суммированы в таблице ниже:
k-fold | Leave-p-out |
• Тренировка на $k−1$ частях и оценка на оставшейся • Обычно $k=5$ или $10$ |
• Обучение на $n−p$ наблюдениях и оценка на $p$ оставшихся • Случай $p=1$ называется исключение-разовое (leave-one-out) |
Наиболее часто используемый метод называется $k$-кратной перекрестной проверкой и разбивает обучающие данные на $k$ частей, чтобы проверить модель на одной выборке, одновременно обучая модель на $k-1$ других выборках, все это $k$ раз. Затем ошибка усредняется по $k$ результатам и называется ошибкой перекрестной проверки.

Регуляризация Процедура регуляризации направлена на то, чтобы модель не переобучалась на данных, и, таким образом, решает проблемы, связанные с высокой дисперсией. В следующей таблице суммированы различные типы широко используемых методов регуляризации:
LASSO | Ridge | Elastic Net |
• Уменьшает коэффициенты до 0 • Подходит для выбора переменных |
Делает коэффициенты меньше | Компромисс между выбором переменных и небольшими коэффициентами |
![]() |
![]() |
![]() |
$...+\lambda||\theta||_1$ $\lambda\in\mathbb{R}$ |
$...+\lambda||\theta||_2^2$ $\lambda\in\mathbb{R}$ |
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$ $\lambda\in\mathbb{R},\alpha\in[0,1]$ |
Диагностика
Смещение (Bias) Смещение модели - это разница между ожидаемым прогнозом и правильной моделью, которую мы пытаемся предсказать для заданных точек данных.
Дисперсия (Variance) Дисперсия модели - это изменчивость прогноза модели для заданных точек данных.
Компромисс смещения/дисперсии Чем проще модель, тем выше смещение, а чем сложнее модель, тем выше дисперсия.
Недообучение | Правильно | Переобучение | |
Симптомы | • Высокая ошибка обучения • Ошибка обучения близка к ошибке теста • Высокое смещение |
• Ошибка обучения немного ниже ошибки теста | • Очень низкая ошибка обучения • Ошибка обучения намного ниже ошибка теста • Высокая дисперсия |
Иллюстрация регрессии | ![]() |
![]() |
![]() |
Иллюстрация классификации | ![]() |
![]() |
![]() |
Иллюстрация глубокого обучения | ![]() |
![]() |
![]() |
Возможные исправления | • Усложнить модель • Добавить больше параметров • Тренировать дольше |
• Выполнить регуляризацию • Собрать больше данных |
Анализ ошибок Анализ ошибок - это анализ основной причины разницы в качестве между текущей и идеальной моделями.
Абляционный анализ Абляционный анализ анализирует первопричину разницы в качестве между текущей и базовой моделями.