La guía para principiantes sobre Big Data

Big data vs. datos tradicionales

Big data les ofrece a las empresas inmensas oportunidades, incluida información más significativa en cuanto al comportamiento del cliente, predicciones más precisas en cuanto a la actividad del mercado y mejor eficiencia general.

Las personas y las empresas están generando anualmente más y más datos. Según un informe IDC, el mundo creó 1.2 zettabytes (1.2 billones de gigabytes) de nuevos datos en 2010. Para el 2025, podría aumentar a 175 zettabytes (175 billones de gigabytes) o más1.

A medida que las empresas tengan acceso a este recurso próspero a través del análisis predictivo y la minería de datos, el mercado de big data también aumentará. La investigación de Statista predice que el mercado de big data se duplicará entre 2018 y 2027 de un valor de $169 mil millones a $274 mil millones.

Pero ¿cuáles son las diferencias clave entre big data y los datos tradicionales? ¿Y qué implicancias tienen en el almacenamiento de datos, procesamiento y tecnología de análisis actual? Aquí, explicaremos los diferentes propósitos de cada tipo de datos, a la vez que enfatizaremos la importancia de una estrategia que planifica el éxito tanto con big data como con datos tradicionales.

 

¿Qué son los datos tradicionales?

Los datos tradicionales son datos estructurados y relacionales que las organizaciones han almacenado y procesado por décadas. Los datos tradicionales siguen representando la mayor parte de datos del mundo.

Las empresas pueden usar datos tradicionales para realizar un seguimiento de las ventas o administrar las relaciones o flujos de trabajo del cliente. Los datos tradicionales por lo general son más fáciles de manipular y pueden administrarse con un software de procesamiento de datos convencional. Sin embargo, por lo general ofrecen información menos sofisticada y beneficios más limitados que big data.

 

¿Qué es Big data?

Big data puede hacer referencia tanto a un conjunto de datos grandes como complejos, así como los métodos usados para procesar este tipo de datos. Big data tiene cuatro características principales, por lo general conocidas como “las cuatro V”:

  • Volumen: Big data es… grande. Aunque big data no solo es distinguible por su tamaño, también tiene un gran volumen por naturaleza.
  • Variedad: Un conjunto de big data generalmente contiene datos estructurados, semiestructurados y no estructurados.
  • Velocidad: Los Big data se generan rápidamente y por lo general se procesan en tiempo real.
  • Veracidad: Los Big data no son intrínsecamente de mejor calidad que los datos tradicionales, pero su veracidad (precisión) es extremadamente importante. Las anomalías, los sesgos y los ruidos pueden impactar de forma significativa en la calidad de big data.

 

Diferencias entre big data y datos tradicionales

Se usan para varias características para distinguir entre big data y datos tradicionales. Entre ellas se incluyen:

  • El tamaño de los datos.
  • Cómo se organizan los datos.
  • La arquitectura requerida para administrar los datos.
  • Las fuentes desde las cuales derivan los datos.
  • Los métodos utilizados para analizar los datos.

Tamaño

Los conjuntos de datos tradicionales suelen medirse en gigabytes y terabytes. Como resultado, su tamaño puede permitir el almacenamiento centralizado, incluso en un servidor.

Big data se distingue no solo por su tamaño sino por su volumen. Big data generalmente se mide en petabytes, zettabytes o exabytes. El tamaño cada vez mayor de big data es uno de los mayores generadores detrás de la demanda de soluciones de almacenamiento de datos basado en la nube, moderno y de alta capacidad.

Organización

Los datos tradicionales por lo general son datos estructurados que se organizan en registros, archivos y tablas. Los campos en los conjuntos de datos tradicionales son relacionales para que sea posible calcular la relación y manipular los datos según corresponda. Las bases de datos tradicionales, como SQL, Oracle DB y MySQL, usan un esquema fijo que es estático y preconfigurado.

Big data usa un esquema dinámico. En almacenamiento, big data está sin procesar ni estructurar. Cuando se accede a big data, el esquema dinámico se aplica a los datos sin procesar. Las bases de datos no relacionales o NoSQL, como Cassandra y MongoDB, son ideales para datos no estructurados, debido a la forma en que almacenan datos en archivos.

Arquitectura

Los datos tradicionales por lo general se administran usando una arquitectura centralizada, que puede ser más rentable y segura para conjuntos de datos más pequeños y estructurados.

En general, un sistema centralizado consiste en uno o más nodos de clientes (por ejemplo, computadoras o dispositivos móviles) conectados a un nodo central (por ejemplo, un servidor). El servidor central controla la red y monitorea su seguridad.

A causa de su escala y complejidad, no es posible administrar big data de forma centralizada. Requiere de una arquitectura distribuida.

Los sistemas distribuidos vinculan varios servidores o computadoras a través de una red, y funcionan como nodos coiguales. La arquitectura se puede escalar de forma horizontal (escalabilidad horizontal) y continuará funcionando incluso si fallara un nodo individual. Los sistemas distribuidos pueden aprovechar la computación de productos básicos para reducir costos.

Origen

Los datos tradicionales generalmente derivan de la planificación de recursos empresariales (ERP), la administración de la relación con el cliente (CRM), transacciones en línea y otros datos empresariales.

Big data deriva de una gama más amplia de datos a nivel empresarial y no empresarial, que pueden incluir información obtenida de redes sociales, datos de dispositivos y sensores, y datos audiovisuales. Estos tipos de orígenes son dinámicos, evolucionan y crecen cada día.

Los orígenes de los datos no estructurados también incluyen archivos de texto, video, imagen y audio. Aprovechar este tipo de datos no es posible usando las columnas y filas de las bases de datos tradicionales. Debido a que una cantidad significativa cada vez más grande de datos son no estructurados y provienen de varias fuentes, se requieren los métodos de análisis de Big Data para extraer valor de ellos.

Análisis

El análisis de datos tradicionales se da de forma creciente: Se presenta un evento, se generan datos y se lleva a cabo el análisis de esos datos después del evento. El análisis de datos tradicionales puede ayudar a las empresas a comprender los impactos de estrategias o cambios determinados sobre un rango limitado de métricas en un periodo especifico.

El análisis de big data puede darse en tiempo real. Debido a que los big data se generan segundo a segundo, el análisis se puede dar a medida que se recopilan los datos. El análisis de big data les ofrece a las empresas una comprensión más dinámica y holística de sus necesidades y estrategias.

Por ejemplo, supongamos que una empresa haya invertido en un programa de capacitación para su personal y desea medir su impacto.

Bajo un modelo tradicional de análisis de datos, la empresa debe disponerse a determinar el impacto del programa de capacitación en un área particular de sus operaciones, como ventas. La empresa tiene en cuenta el volumen de ventas antes y después de la capacitación y excluye cualquier factor externo. Puede, en teoría, ver en qué porcentaje aumentaron las ventas como resultado de la capacitación.

Bajo un modelo de análisis de big data, la empresa puede dejar a un lado las preguntas en cuanto a cómo impactó el programa de capacitación en cualquier aspecto particular de sus operaciones. En su lugar, al analizar una masa de datos recopilados en tiempo real en toda la empresa, puede identificar las áreas específicas en las que hubo impacto, como ventas, servicio al cliente, relaciones públicas y más.

 

Big Data frente a datos tradicionales: Consideraciones importantes para el futuro

Big data y datos tradicionales cumplen diferentes propósitos, aunque relacionados. Aunque parecería que los big data tienen mayores beneficios potenciales, no resultan apropiados (o necesarios) en todas las circunstancias. Big data:

  • Pueden ofrecer un análisis más detallado de las tendencias del mercado y el comportamiento de los consumidores. El análisis de datos tradicionales puede ser más reducido y muy restringido para ofrecer la información significativa que big data puede proporcionar.
  • Ofrece información de forma más rápida. Las organizaciones pueden aprender de big data en tiempo real. En el contexto de análisis de big data, esto puede proporcionar una ventaja competitiva.
  • Es más eficiente. La naturaleza cada vez más digital de nuestra sociedad implica que varias personas y empresas estén generando grandes cantidades de datos cada día, e incluso cada minuto. Big data nos permite aprovechar estos datos e interpretarlos de forma significativa.
  • Requiere una preparación avanzada. Para aprovechar estos beneficios, las organizaciones deben prepararse para big data a través de nuevos protocolos de seguridad, pasos de configuración y aumentos en el poder de procesamiento disponible.

El aumento de big data no implica que los datos tradicionales sean descartados. Datos tradicionales:

  • Se conserven seguros de forma más fácil, esto puede ser una mejor opción para datos muy sensibles, personales o confidenciales. Debido a que los datos tradicionales son más pequeños, no requieren de arquitectura distribuida y es menos probable que se requiera almacenamiento de terceros.
  • Se pueden procesar usando un software de procesamiento de datos convencionales y una configuración de sistema normal. El procesamiento de big data generalmente requiere ajustes de configuración superior, lo que puede aumentar sin necesidad el uso de recursos y costos, en casos en que los métodos de datos tradicionales son suficientes.
  • Son más fáciles de manipular e interpretar. Debido a que los datos tradicionales son más simples y relacionales por naturaleza, pueden ser procesados usando las funciones normales, e incluso pueden ser accesibles para quienes no son expertos.

Finalmente, esta no es una cuestión de elegir entre big data y datos tradicionales. Dado que cada vez más empresas generan datos grandes, no estructurados y necesitarán las herramientas adecuadas. Comprender cómo usar y realizar soporte a ambos modelos es una parte necesaria de actualizar su estrategia para que esté lista para un futuro de big data.

 

Capítulos adicionales de la Guía de Big Data

  1. Datos estructurados frente a datos no estructurados
  2. 5 formas en que big data ayuda a las empresas a avanzar
  3. La relación entre IoT y big data

1https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020-and-the-coming-decade/?sh=44e375c74fc3

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387