MACHINE LEARNING - DEL PROBLEMA A LA ESTRUCTURA DE DATOS - Just Learn

DESTACADO

martes, 15 de septiembre de 2020

MACHINE LEARNING - DEL PROBLEMA A LA ESTRUCTURA DE DATOS

 PASAR DE LA DEFINICIÒN DEL PROBLEMA A LA ESTRUCTURA DE LOS DATOS

 Una vez tengamos la respuesta a estas dos preguntas podremos crear la estructura básica que necesitaremos para aplicar el Machine Learning a nuestro problema. Consistirá en una tabla, donde cada fila contendrá la información de uno de nuestros sujetos (una instancia) y cada columna los valores de una de sus propiedades, susceptibles de ser útiles en el aprendizaje. Por ejemplo, en el caso de ampliación o no de contratos de servicios, cada fila contendrá toda la información sobre un contrato determinado y cada columna uno de los atributos conocidos, como el número de consultas relacionadas con ese contrato, la categoría del contrato, si ha habido reclamaciones vinculadas, etc. A menudo, si las propiedades de nuestros datos provienen de diferentes fuentes, será necesario aplicar ciertos procesos previos para lograr esta estructura. En concreto:

 NORMALIZACIÒN

 Las distintas propiedades de un mismo sujeto pueden estar guardadas en varias tablas relacionales. En ese caso deberemos deshacer el proceso de normalización para unirlas de nuevo en una sola tabla. En la Figura 2.1 podemos ver un ejemplo típico de la estructura de tablas relacionales que correspondería a una lista de reproducciones de canciones. Vemos que las propiedades de la canción están en una tabla separada así como las de los álbumes y autores.



AGREGACION

Cuando los datos que disponemos son muy detallados y presentan màs de una instancia por cada sujeto de nuestro problema, como por ejemplo en los logs de un servicio web, podemos necesitar agruparlos usando funciones como contrar, minimo, màximo, media, etc. El fichero preparado para el aprendizaje contendrà entonces una sola fila por sujeto y sus propiedades seràn dichos agregados. En la figura 2.3 podemos ver un ejemplo de un fichero de datos que requerirìa algùn tipo de agregaciòn.



Usando las funciones de agregación, podremos construir el fichero que vemos en la Figura 2.4. En este fichero hay una fila por cada usuario y la información detallada se ha agrupado para formar propiedades, como el número de reproducciones y las primera y última fecha de reproducción. Esta estructura estará preparada para resolver problemas como predecir el número de reproducciones para un usuario.


PIVOTING

Similarmente a lo que vimos en el caso de la agregación, existen casos en que la información detallada incluye algún campo que nos interesaría usar también como propiedad. La Figura 2.5 muestra un ejemplo de lista de reproducciones de canciones donde el detalle incluye información sobre el soporte usado en la reproducción.





Para aprovechar esta información en el aprendizaje, deberemos incluir el detalle de cada tipo de soporte usándolo como una propiedad más en el fichero que usaremos para aprender. El proceso a realizar es transformar grupos de filas en columnas. Así, además de la columna que almacena el total de reproducciones, dispondremos de otras columnas que nos informarán del total de reproducciones por tipo de soporte.



 VENTANAS TEMPORALES

 Cuando el problema de Machine Learning puede tener dependencias en la evolución temporal de nuestros datos, necesitaremos que esa información temporal se convierta también en propiedades de nuestro fichero. La manera de convertir una evolución temporal en propiedades de una tabla es crear ventanas temporales. Creamos una ventana temporal cuando resumimos en un período de tiempo el valor de nuestras propiedades. Dependiendo del intervalo temporal en que se muevan los datos, podremos definir ventanas con diferentes periodicidades: semanal, mensual, anual, etc.

Usando como ejemplo el mismo fichero representado en la Figura 2.5, podríamos crear propiedades como el total de reproducciones por año. El resultado final sería el que vemos en la Figura 2.7, donde se ha añadido una nueva propiedad por cada año documentado en nuestro fichero.




Post Bottom Ad

Responsive Ads Here

Pages