Шпаргалка с советами и приемами машинного обучения
Star

Afshine Amidi и Shervine Amidi; Alexandr Parkhomenko и Труш Георгий (Georgy Trush)

Метрики классификации

В контексте бинарной классификации вот основные метрики, которые важно отслеживать, чтобы оценить качество модели.

Матрица ошибок Матрица ошибок используется для получения более полной картины при оценке качества модели. Она определяется следующим образом:

Прогнозируемый класс
+ -
Фактический класс + TP
True Positives
FN
False Negatives
Type II error
- FP
False Positives
Type I error
TN
True Negatives

Основные метрики Для оценки эффективности моделей классификации обычно используются следующие показатели:

Метрика Формула Интерпретация
Доля правильных ответов (accuracy) $\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$ Эффективность работы модели
Точность (precision) $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$ Насколько точны положительные прогнозы
Recall
Sensitivity
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ Полнота показывает, какая часть положительных образцов была выделена классификатором
Specificity $\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$ Спецификация показывает, какая часть отрицательных наблюдений была выделена классификатором
F1 мера $\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$ Гибридная метрика полезна для несбалансированных классов

Receiver Operating (characteristic) Curve Кривая рабочей характеристики приемника, также обозначаемая как ROC, представляет собой график зависимости TPR от FPR при изменении порога. Эти показатели приведены в таблице ниже:

Метрика Формула Эквивалент
True Positive Rate
TPR
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ Recall, sensitivity
False Positive Rate
FPR
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$ 1-specificity

Area Under ROC Curve (AUC) Площадь под ROC кривой, также обозначаемая как AUC или AUROC, является областью под ROC, как показано на следующем рисунке:


ROC AUC

Метрики регрессии

Базовые метрики Дана регрессионная модель $f$, для оценки качества модели обычно используются следующие метрики:

Cумма квадратов общая (total) Сумма квадратов объясненная (regression) Сумма квадратов разностей (residual)
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$ $\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$ $\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$

Коэффициент детерминации Коэффициент детерминации, часто обозначаемый как $R^2$ или $r^2$, обеспечивает меру того, насколько хорошо наблюдаемые результаты воспроизводятся моделью, и определяется следующим образом:

\[\boxed{R^2=1-\frac{\textrm{SS}_\textrm{res}}{\textrm{SS}_\textrm{tot}}}\]

Основные метрики Следующие метрики обычно используются для оценки эффективности регрессионных моделей с учетом количества переменных $n$, которые они принимают во внимание:

Mallow's Cp AIC BIC Adjusted $R^2$
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$ $\displaystyle2\Big[(n+2)-\log(L)\Big]$ $\displaystyle\log(m)(n+2)-2\log(L)$ $\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$

где $L$ - правдоподобие, а $\widehat{\sigma}^2$ - оценка дисперсии, связанной с каждым ответом.


Выбор модели

Словарь При выборе модели мы выделяем 3 разные части имеющихся у нас данных:

Обучающий набор Контрольный набор Тестовый набор
• Модель обучена
• Обычно 80% набора данных
• Модель оценена
• Обычно 20% набора данных
• Также называется набором для удержания или развития
• Модель дает прогнозы
• Ранее невиданные данные

Как только модель выбрана, она обучается на всем наборе данных и тестируется на невиданном тестовом наборе. Они представлены на рисунке ниже:

Partition of the dataset

Кросс-валидация (CV) Перекрестная проверка - это метод, который используется для выбора модели, которая не слишком полагается на исходный обучающий набор. Различные типы суммированы в таблице ниже:

k-fold Leave-p-out
• Тренировка на $k−1$ частях и оценка на оставшейся
• Обычно $k=5$ или $10$
• Обучение на $n−p$ наблюдениях и оценка на $p$ оставшихся
• Случай $p=1$ называется исключение-разовое (leave-one-out)

Наиболее часто используемый метод называется $k$-кратной перекрестной проверкой и разбивает обучающие данные на $k$ частей, чтобы проверить модель на одной выборке, одновременно обучая модель на $k-1$ других выборках, все это $k$ раз. Затем ошибка усредняется по $k$ результатам и называется ошибкой перекрестной проверки.

Cross-validation

Регуляризация Процедура регуляризации направлена на то, чтобы модель не переобучалась на данных, и, таким образом, решает проблемы, связанные с высокой дисперсией. В следующей таблице суммированы различные типы широко используемых методов регуляризации:

LASSO Ridge Elastic Net
• Уменьшает коэффициенты до 0
• Подходит для выбора переменных
Делает коэффициенты меньше Компромисс между выбором переменных и небольшими коэффициентами
Lasso Ridge Elastic Net
$...+\lambda||\theta||_1$
$\lambda\in\mathbb{R}$
$...+\lambda||\theta||_2^2$
$\lambda\in\mathbb{R}$
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$
$\lambda\in\mathbb{R},\alpha\in[0,1]$

Диагностика

Смещение (Bias) Смещение модели - это разница между ожидаемым прогнозом и правильной моделью, которую мы пытаемся предсказать для заданных точек данных.


Дисперсия (Variance) Дисперсия модели - это изменчивость прогноза модели для заданных точек данных.


Компромисс смещения/дисперсии Чем проще модель, тем выше смещение, а чем сложнее модель, тем выше дисперсия.


Недообучение Правильно Переобучение
Симптомы • Высокая ошибка обучения
• Ошибка обучения близка к ошибке теста
• Высокое смещение
• Ошибка обучения немного ниже ошибки теста • Очень низкая ошибка обучения
• Ошибка обучения намного ниже ошибка теста
• Высокая дисперсия
Иллюстрация регрессии Underfit in regression Right fit in regression Overfit in regression
Иллюстрация классификации Underfit in classification Right fit in classification Overfit in classification
Иллюстрация глубокого обучения Underfit in deep learning Right fit in deep learning Overfit in deep learning
Возможные исправления • Усложнить модель
• Добавить больше параметров
• Тренировать дольше
• Выполнить регуляризацию
• Собрать больше данных

Анализ ошибок Анализ ошибок - это анализ основной причины разницы в качестве между текущей и идеальной моделями.


Абляционный анализ Абляционный анализ анализирует первопричину разницы в качестве между текущей и базовой моделями.