PASAR DE LA DEFINICIÒN DEL PROBLEMA A LA ESTRUCTURA DE LOS DATOS
Una vez tengamos la respuesta a estas dos preguntas podremos crear la estructura básica que necesitaremos para aplicar el Machine Learning a nuestro problema. Consistirá en una tabla, donde cada fila contendrá la información de uno de nuestros sujetos (una instancia) y cada columna los valores de una de sus propiedades, susceptibles de ser útiles en el aprendizaje. Por ejemplo, en el caso de ampliación o no de contratos de servicios, cada fila contendrá toda la información sobre un contrato determinado y cada columna uno de los atributos conocidos, como el número de consultas relacionadas con ese contrato, la categoría del contrato, si ha habido reclamaciones vinculadas, etc. A menudo, si las propiedades de nuestros datos provienen de diferentes fuentes, será necesario aplicar ciertos procesos previos para lograr esta estructura. En concreto:
NORMALIZACIÒN
Las distintas propiedades de un mismo sujeto pueden estar guardadas en varias tablas relacionales. En ese caso deberemos deshacer el proceso de normalización para unirlas de nuevo en una sola tabla. En la Figura 2.1 podemos ver un ejemplo típico de la estructura de tablas relacionales que correspondería a una lista de reproducciones de canciones. Vemos que las propiedades de la canción están en una tabla separada así como las de los álbumes y autores.
AGREGACION
Cuando los datos que disponemos son muy detallados y presentan màs de una instancia por cada sujeto de nuestro problema, como por ejemplo en los logs de un servicio web, podemos necesitar agruparlos usando funciones como contrar, minimo, màximo, media, etc. El fichero preparado para el aprendizaje contendrà entonces una sola fila por sujeto y sus propiedades seràn dichos agregados. En la figura 2.3 podemos ver un ejemplo de un fichero de datos que requerirìa algùn tipo de agregaciòn.
Usando las funciones de agregación, podremos construir el fichero que vemos en la Figura 2.4. En este fichero hay una fila por cada usuario y la información detallada se ha agrupado para formar propiedades, como el número de reproducciones y las primera y última fecha de reproducción. Esta estructura estará preparada para resolver problemas como predecir el número de reproducciones para un usuario.