En realidad, todas las métricas de evaluación basan sus cálculos en cuatro variables:
- Positivos verdaderos (True Positives: TP) Los positivos verdaderos son el número de casos en que el modelo predice la clase de interés (o clase positiva) y acierta.
- Negativos verdaderos (True Negatives: TN ) Los negativos verdaderos son el número de casos en que el modelo predice las clases distintas de la de interés (o clases negativas) y acierta.
- Falsos positivos (False Positives: FP) Los falsos positivos son los casos en que el modelo predice la clase positiva erróneamente.
- Falsos negativos (False Negatives: FN ) Los falsos negativos son los casos en que el modelo predice las clases negativas erróneamente.
Dichas cantidades pueden presentarse en forma de tabla y forman la matriz de confusión. La pantalla de evaluación de nuestro ejemplo nos permite ver la matriz de confusión para el modelo de diabetes que habíamos construido. En la Figura 3.15 podemos ver como las filas contienen las instancias que tienen un cierto valor del campo diabetes y las columnas contienen las que se predicen con ese valor. Por ejemplo, vemos que los casos de pacientes diabéticos que son predichos como tal (TP) son once, mientras que los pacientes que no son diabéticos pero el modelo predice que los son (FP) son diez. Igualmente, se muestran los doce aciertos para los pacientes que no son diabéticos (TN) y los siete errores para este tipo de pacientes (FN).
La mejor evaluación posible para saber si un modelo de Machine Learning es útil para solucionar nuestro problema es asignar un coste y un beneficio a cada una de estas cuatro cantidades (TP, TN, FP, FN). Eso es lo que se conoce como matriz de coste. Lógicamente, el coste y beneficio serán totalmente dependientes del ámbito de aplicación del modelo de Machine Learning. Los costes asociados a un error en la predicción cuando el modelo intenta diagnosticar una enfermedad grave son distintos de los que tendremos si intenta predecir el comportamiento del mercado de valores y deben ser asignados por el especialista en el dominio de aplicación del modelo. Sólo mediante este análisis podremos saber si realmente un modelo concreto nos será de más o menos utilidad.