Relacionado con el concepto de Big Data hay dos ejes de actuación importantes. El primero, maneja y almacena los datos de manera masiva; y el segundo la parte analítica, que tiene como objetivo extraer conocimiento de los datos, lo cual permite una toma de decisión basada en datos. El manejo de los datos masivos se ha ido viendo a lo largo del documento, así que a continuación se explicará la parte analítica.
Análisis de datos: La analítica avanzada está muy unida al estudio de los datos y a una rama de la inteligencia artificial, el aprendizaje automático (Machine Learning). Esta consiste en la suma del tratamiento masivo de información conjunto con la aplicación de algoritmos de aprendizaje automático de las máquinas. La idea está clara, una vez que hemos solucionado los inconvenientes de infraestructura, podemos analizar los datos de forma masiva con el fin de encontrar patrones, definir modelos y responder preguntas.
Business Intelligence vs Big Data: Una de las diferencias más importantes entre Business Intelligence (BI) y Big Data es que en BI preguntamos a los datos qué ha pasado y buscamos en ellos el por qué, algo parecido a un estudio forense que explique qué ocurrió y por qué. Estos datos, por ejemplo, nos sirven para la elaboración de informes. En el caso de Big Data, preguntamos a los datos qué es lo que va a ocurrir con mayor probabilidad. Es decir, aplicamos técnicas de gestión y almacenamiento de los datos para tomar mejores decisiones y movimientos estratégicos de negocio para intentar anticiparnos al futuro.
El Data Scientist: El perfil del científico de datos o Data Scientist es el responsable de analizar y cuestionar el gran volumen de datos obtenidos. Es la persona que limpia y asimila los datos para extraer su Valor mediante la aplicación de técnicas matemáticas, estadísticas y de aprendizaje automático. Este perfil es el que contestará a las preguntas de los directivos de una empresa, incluso a aquellas preguntas que no sabían que tenían. Lo importante, es definir qué pregunta le quiero hacer a mis datos, para que los científicos de datos faciliten la respuesta.
EL PAPEL DEL CIENTIFICO DE DATOS
Los científicos de datos han aumentado su popularidad en los últimos tiempos, siendo considerado incluso el trabajo más sexy del siglo XXI en el artículo de la Harvard Business Review.
Este profesional dedica su tiempo a tareas de análisis estadístico más tradicional, a encontrar patrones de comportamiento aplicando algoritmos de minería de datos y a construir modelos predictivos aplicando técnicas de aprendizaje automático.
Su objetivo principal es la extracción de conocimiento generalizable a partir de los datos. Asimismo, incorporar las técnicas y métodos del trabajo de la investigación científica, es intensiva en procesamiento estadístico, reconocimiento de patrones, visualización y modelización de la incertidumbre, entre otras técnicas.
Bajo estas premisas un científico de datos debe tener tres habilidades que son importantes, y que lo convierten en un profesional completo y competente:
Algunas de las tareas que realiza un científico de datos son:
Visualizan datos e informes para buscar patrones en los datos, esto es muy similar a BI. La diferencia es que los científicos de datos buscan algoritmos que expliquen y generalicen estos patrones mediante la creación de modelos, por eso es importante tener conocimientos profundos de estadísticas y aprendizaje automático.
Responden a preguntas y modelan que es lo que va a ocurrir, basándose en los datos pasados.
Demuestran mediante la confrontación de hipótesis.
Por otra parte, las actividades que hace un científico de datos son:
1. Definición de la pregunta a contestar o caso de negocio (Negocio).
2. Identificación de las fuentes de datos.
3. Entender los datos.
4. Extraer los datos relevantes.
5. Construir los conjuntos de datos en los que basarse.
6. Limpiar los datos.
7. Estudios estadísticos.
8. Modelado.
9. Iteración, es difícil acertar a la primera. Un científico de datos se encuentra con que el primer modelo no cumple con las expectativas y debe entender por qué y que pasos debe seguir, el científico de datos debe poder contestar a las siguientes preguntas para entrar en el modelo iterativo:
• ¿Tenemos los datos que necesitamos? es decir, necesitamos más variables, o necesitamos menos, qué nuevas variables incorporamos o quitamos.
• ¿Son las variables independientes?
• ¿Tienen la escala adecuada?
• ¿Tengo suficientes datos o necesito más?
• ¿Es mi hipótesis la adecuada para contestar a la pregunta definida?
• ¿Estoy usando las técnicas adecuadas?
Es significativo tener personas de soporte en la organización que ayuden al científico de datos para obtener la máxima productividad. En la organización ¿tenemos expertos en ETL, en bases de datos y expertos integradores de la información? Es importante asignar cada actividad al experto correspondiente para poder tener la mayor productividad posible.