MACHINE LEARNING - TIPO DE DATOS Y SU FORMATO - Just Learn

DESTACADO

martes, 11 de agosto de 2020

MACHINE LEARNING - TIPO DE DATOS Y SU FORMATO

 ¿ESTÁN NUESTROS DATOS PREPARADOS?

Nuestros datos se almacenan en bases de datos, logs de acceso, hojas de cálculo, sistemas CRM, etc. Pongamos un ejemplo. En el caso de tener datos sobre pacientes, algunos de ellos, como la edad y su peso, pueden estar almacenados en su historial, mientras que los resultados de analíticas pueden obtenerse de un registro externo y el diagnóstico o las observaciones pueden ser introducidas en una hoja de cálculo. Incluso en el caso de que todos los datos disponibles sobre un tema estén almacenados en un solo entorno, como una base de datos, normalmente estarán separados en varias tablas relacionales. Ese proceso de separación, llamado normalización, es una práctica conveniente para optimizar el almacenamiento de los datos y asegurar su mantenimiento, pero no es el adecuado como formato de entrada para los algoritmos de Machine Learning. En este módulo veremos qué estructura necesitamos dar a nuestros datos para que estén preparados para el Machine Learning y qué formatos se soportan.




 TIPOS DE DATOS ÚTILES Y SU FORMATO

 El primer paso para abordar un problema de Machine Learning es, sin duda, hacer una definición clara que nos permita plantear una solución a partir de los datos. 


¿CÓMO DEFINIR UN PROBLEMA DE MACHINE LEARNING? 

 Saber qué datos podemos usar para el aprendizaje y cómo prepararlos requiere antes que nada responder a dos preguntas. 


¿CUÁL ES EL SUJETO DEL PROBLEMA A RESOLVER?

 Supongamos que queremos saber qué usuarios de un servicio son susceptibles de querer darse de baja en el próximo mes. En este caso, el sujeto será el usuario. Si en cambio queremos saber qué contratos pueden ser ampliados en el próximo mes, el sujeto de nuestro estudio será el contrato, dado que cada usuario puede tener más de un contrato y cada uno puede ser ampliado o no independientemente. La segunda pregunta es: 


¿CÚALES SON LAS PROPIEDADES DE ESE SUJETO QUE PENSAMOS QUE PUEDEN INFLUIR EN LA SOLUCIÓN ? 

Analicemos el sector de los seguros de salud. Podemos pensar que los usuarios que amplían sus prestaciones tienen propiedades en común. Es fácil imaginar que para predecir quién puede estar interesado en una ampliación será útil disponer de datos como la edad de la persona, los antecedentes médicos, el número de consultas telefónicas realizadas los últimos meses, el número de visitas a especialistas, las enfermedades conocidas, si hace ejercicio regular, etc. En cambio, no nos interesarán otros datos como su música preferida o el número de libros comprados en los últimos meses. Además, tendremos que determinar si disponemos de acceso a un histórico de dichos datos. Este histórico es el que proporcionaremos al servicio de Machine Learning para que pueda basar su aprendizaje en ellos. 


Si también queremos que nuestro aprendizaje se pueda repetir cada cierto tiempo para asegurar que el modelo se vaya ajustando a los posibles cambios de los datos, también deberemos asegurarnos de que los datos actualizados estén disponibles periódicamente. 

Así pues, tendremos que seleccionar las propiedades posiblemente relevantes, asegurar la disponibilidad de datos históricos de dichas propiedades y la periodicidad en la actualización de dichos datos. 


En principio, será interesante añadir todos aquellos datos que puedan tener una relación con lo que queremos averiguar. No obstante, habrá que tener en cuenta que cada nueva propiedad añadida tendrá un coste asociado a su adquisición, almacenaje y transformación. Por eso, cuando el modelo de Machine Learning nos informe de si esa propiedad es útil o no en el aprendizaje podremos replantearnos su uso en función del análisis de coste-beneficio.

Veremos que para el caso específico de los problemas de aprendizaje supervisado , como la clasificación y la regresión, existe una propiedad de la cual conocemos el valor en algunos casos y queremos predecirla para los demás. Esta propiedad concreta será lo que llamaremos el campo objetivo u objective field.


 Los casos en que conocemos su valor serán usados como base de aprendizaje, por lo que es especialmente importante que la definición de esta propiedad sea la correcta. En algunas ocasiones puede pasar que esta propiedad no sea exactamente uno de los campos de nuestro fichero sino que tengamos que obtenerla mediante transformaciones sobre los datos existentes.  

Post Bottom Ad

Responsive Ads Here

Pages