INTRODUCCION A BIG DATA - LAS V'S QUE DEFINEN BIG DATA - Just Learn

DESTACADO

domingo, 13 de diciembre de 2020

INTRODUCCION A BIG DATA - LAS V'S QUE DEFINEN BIG DATA

 


La clave del Big Data es dar respuesta a las tres grandes V. Doug Laney fue el primero que definió el reto de las tres V: Volumen, Velocidad y Variedad. 

  • VOLUMEN: Este concepto está directamente relacionado con el Big Data y hace referencia a la cantidad de datos que tenemos que manejar. Para hacernos una idea del incremento de data disponible en los últimos años veamos las siguientes cifraras:


En 2008, entre todas las CPU del mundo se procesaron 9,57 zettabytes de información, lo que significan 9.570.000.000.000 gigabytes (9,57 billones de gigabytes). 

En 2009, la compañía McKinsey es la autora de “La próxima frontera para la innovación y productividad”, en la que cifra que una compañía americana de aproximadamente 1000 empleados almacenará aproximadamente 200 terabytes de información al año.

 En 2010, en una conferencia expuesta por Eric Schmidt, Google, se aportó el impresionante dato de que la cantidad de datos generados en la actualidad en dos días es mayor que la generada por toda la civilización hasta el 2003. Esto significa que la cantidad de información crece exponencialmente conforme avanza la tecnología. Además, todo lo que nos rodea (móviles, redes sociales, así como la imparable digitalización) generan un proceso ya imparable de digitalización, donde los datos no pararán de crecer

. Para ver el proceso y la magnitud, veamos qué sucede en Internet en un sólo minuto. Referencia año 2019.

Estos datos nos servirán también para presentar las siguientes dos V’s. 
  • VELOCIDAD: La velocidad es otra característica fundamental. Y es que debemos ser capaces de conocer la información a la velocidad a la que se genera y lo más relevante, tratar y procesarla durante el periodo que sea válida para tener el producto actualizado y obtener así su máximo provecho. Un ejemplo claro de esto sería si un usuario sube una foto a una red social y esta no está disponible para el resto de los usuarios hasta varias horas después. Seguramente este sistema no resultará interesante para los usuarios aunque permita volumen, pero no tiene velocidad de respuesta. 
  • VARIEDAD: En Big Data es habitual trabajar con un número amplio de fuentes de información, que pueden ser fuentes estructuradas, semiestructuradas o no estructuradas, teniendo cada una diversos formatos de tipos de datos. Por ejemplo texto, voz, vídeo, etc. 

La información puede clasificarse en diferentes tipos de datos:



Aunque estas son las tres primeras V’s según ha pasado el tiempo se han aceptado otras igualmente relevantes: 
  • VERACIDAD: Cuando operamos con muchas fuentes que generan gran cantidad de datos a gran velocidad, es lógico asegurar el grado de veracidad que tienen para así conseguir una maximización de los beneficios en su explotación. Es decir, no tiene mucho sentido tratar datos obtenidos a través de 5G y que la información no sea veraz por tener una gran distorsión. Esto nos daría como resultado un producto que no cumple con las expectativas. Por esta razón, es necesario:
1. Realizar una limpieza de los datos. 
2. Asegurar la fiabilidad de las fuentes de información. La fiabilidad es más o menos importante en función del negocio, pasando de ser crítica a no vital en función de qué aplicación concreta estemos analizando. 
  • VALOR: La última “V” es el valor. A pesar de ser un software Open Source, poner en marcha toda esta infraestructura resulta bastante caro. Por ello, hay que asegurar que el proyecto genera valor para la compañía. Un proceso para certificar esto es medirlo. Dependerá de cada caso concreto, considerándose indispensable generar un caso de negocio (Business case) antes de iniciar un nuevo proyecto de Big Data. Si no, existe el riego de que las expectativas nunca se cumplan. “Es imposible cumplir con lo que no se conoce”.






Post Bottom Ad

Responsive Ads Here

Pages