APRENDIZAJE SUPERVISADO
Son aquellos problemas de Machine Learning en que la máquina aprende de un conjunto de casos o instancias previamente etiquetados por un experto o de forma semi-automática basándose en los datos, y por lo tanto necesitan de una supervisión. En este tipo de aprendizaje, el objetivo es que la máquina aprenda de los ejemplos proporcionados las reglas que nos permitirán predecir esa etiqueta para los nuevos casos que aparezcan. En el Dataset asociado a estos problemas, tendrá que haber un campo especial que almacene esta etiqueta. Será el campo objetivo (objective field).
El usuario deberá definir cuál es el campo objetivo a determinar en el momento de crear el modelo. En su defecto, se usará como objetivo el último campo categórico o numérico del Dataset. Los problemas de aprendizaje supervisado son básicamente la clasificación y la regresión. Se diferencian porque en la clasificación el campo objetivo es categórico y en la regresión numérico. En la clasificación se pretende predecir qué categoría le corresponde a una instancia dentro de una enumeración de posibles categorías. Como ejemplo de clasificación, veremos el caso de un estudio de pacientes que pueden o no tener diabetes. Usaremos un conjunto de pacientes ya diagnosticados y sus características, como sus analíticas, historia clínica y enfermedades previas, para predecir si un nuevo paciente pertenece a la clase de los que son diabéticos a la de los que no lo son. En los problemas de regresión se quiere saber qué cantidad de alguna propiedad le corresponde a una nueva instancia. Como caso de regresión en el sector inmobiliario, podríamos querer estimar el precio de venta de una vivienda dadas sus características, como los metros cuadrados, número de habitaciones, ubicación, etc. Ambos problemas se pueden tratar con distintos modelos.
Los árboles de decisión permiten resolver ambos. Hay combinaciones de árboles de decisión, como los ensembles (bagging y random decision forests) que pueden mejorar los resultados obtenidos. Para el problema de clasificación también se pueden usar otro tipo de modelo llamado regresión logística . En todos los casos, el objetivo del algoritmo es encontrar una función capaz de predecir para los nuevos casos. Es decir, que dadas la propiedades de un caso del que no conocemos el valor del campo objetivo, sea capaz de predecirlo lo más correctamente posible. La diferencia entre los distintos algoritmos está en la manera de generar dichas funciones y eso a veces conlleva la capacidad de obtener más o menos información de ellas. En la próxima sección explicaremos cómo funciona un árbol de decisión y qué informaciones nos aporta.
El resto de modelos de clasificación y regresión mencionados quedan fuera del alcance de este curso. Por su naturaleza, los modelos de aprendizaje supervisado pueden ser evaluados para saber qué nivel de acierto consiguen con sus predicciones. Estas evaluaciones se pueden hacer partiendo el conjunto de datos inicial en dos datasets (típicamente del 80 %-20 %). El modelo se entrena usando el 80 % de los datos y se usa el 20 % restante para predecir con él y ver en cuántas ocasiones la predicción coincide con el valor real.