La guía para principiantes sobre Big Data

Datos estructurados frente a datos no estructurados

En la última década, nuestra definición y comprensión sobre los datos ha cambiado radicalmente, impulsado en parte por el crecimiento de disponibilidad de nuevas herramientas para leer, almacenar y analizar datos no estructurados.

En el pasado, los datos no estructurados por lo general eran subutilizados, dado que era difícil interpretarlos. Estas nuevas tecnologías facilitaron, no solo comprender los datos no estructurados sino también buscar resultados valiosos a partir de este tesoro de información.

Según IDC, el volumen total de datos creados, capturados, copiados y consumidos a nivel mundial para el 2024 superará los 149 zettabytes por año, y la mayor parte de los datos serán no estructurados. Cada organización se beneficiará al desarrollar funcionalidades de análisis de datos no estructurados. El primer paso en este camino es simplemente comprender qué son los datos estructurados frente a los no estructurados.

Aquí encontrará un resumen rápido sobre la diferencia entre los dos, con explicaciones más detalladas:

Característica

Datos estructurados

Datos no estructurados

Naturaleza de los datos

Usualmente cuantitativo

Usualmente cualitativo

Modelo de datos

Predefinido; una vez que es definido y con algunos datos almacenados, es difícil cambiar el modelo.

No se incluye un esquema particular en los datos no estructurados, el modelo de datos es muy flexible.

Formato de datos

Hay una cantidad limitada de formatos de datos disponibles.

Hay una gran variedad de formatos de datos disponibles para los datos no estructurados.

Base de datos

Se usan bases de datos relacionales basadas en SQL.

Se usan bases de datos NoSQL sin esquemas específicos.

Búsqueda

Muy fácil de buscar y encontrar datos dentro de la base de datos o el conjunto de datos.

Muy difícil buscar datos particulares debido a su naturaleza no estructurada.

Análisis

Muy fácil de analizar, dada la naturaleza cuantitativa de los datos.

Muy difícil de analizar, incluso con las herramientas de software existentes.

Método de almacenamiento

Se usan almacenamientos de datos para los datos estructurados.

Se usan data lakes para almacenar datos no estructurados.

¿Qué son los datos estructurados?

Los datos estructurados tienen un esquema bien definido para la información que contienen. Para ofrecer una definición extremadamente simple, cualquier dato que se pueda presentar en un programa de hoja de cálculo como Google Sheets o Microsoft Excel pertenece al grupo de datos estructurados.

En este ejemplo, los datos pueden ser representados como filas y columnas. Cada columna representa un atributo diferente, mientras que cada fila tendrá los datos asociados con el atributo para una instancia única. Las filas y columnas forman una tabla a la que se puede hacer referencia de forma fácil.

Las diferentes tablas pueden estar conectadas, es decir que se pueden tomar como relacionadas por la columna común presente en ambas tablas.

Si varias tablas están relacionadas en sucesión y combinación, esto crea una base de datos relacional. Por ejemplo, los datos de clientes, ventas e inventario de un centro comercial pueden considerarse datos estructurados almacenados como base de datos relacional.

  • Cada cliente tendrá un ID de cliente, así como campos para su nombre, número de contacto, información de tarjeta de crédito, dirección, etc.
  • La base de datos de los clientes puede conectarse a la base de datos de ventas, con atributos que incluyen tiempo de venta, códigos de los productos comprados, monto total gastado, ID del cliente, etc. Ambas tablas estarán conectadas con el atributo común del ID del cliente.
  • Por último, la base de datos de ventas puede estar conectada a la base de datos de inventario y utiliza el atributo común del código del producto, e interconecta de forma efectiva las tres tablas en una base de datos relacional.

Los datos estructurados como estos, por lo general, se almacenan en sistemas de administración de bases de datos relacionales (RDBMSes). Las bases de datos pueden ser escritas, leídas y manipuladas a través del uso del lenguaje de consulta estructurado (SQL, Structured Query Language), un lenguaje desarrollado por IBM en los años 70 para dar soporte a las bases de datos mainframe (aunque fue conocida inicialmente como lenguaje de consulta en inglés estructurado o SEQUEL). Se denominó así debido a que se lee de forma similar al inglés. SQL en su formato actual fue popularizado por Relational Software, Inc. (ahora Oracle).

¿Qué son los datos no estructurados?

Cada dato que no sea estructurado puede clasificarse como dato no estructurado. Se espera que para el 2025, el 80 % de los datos con que nos crucemos serán datos no estructurados en formato de texto, audio, imagen o video1.

En conclusión, los datos no estructurados son datos modernos. Por lo general:

  • Nacieron digitales e impredecibles.
  • Siempre creados y en movimiento.
  • Combinados, multimodales e interoperables.
  • Distribuidos geográficamente para una mejor protección.

Los datos no estructurados pueden tener ciertos metadatos asociados que pueden, en ocasiones, tener una estructura. Por ejemplo, un video puede tener metadatos de resolución de videos, tasa de bits, marcos por segundo (FPS), propietario del video, etc. Pero el video en sí es no estructurado. Cuando hay metadatos estructurados asociados con los datos no estructurados, por lo general se conocen como datos semiestructurados.

Si miramos más de cerca los ejemplos de los videos de YouTube, algunos metadatos están presentes, como el tiempo de carga, la fecha de carga, el número de vistas (parcial o total), el número de me gusta y no me gusta, etc. Pero el contenido dentro del título del video, la descripción del video y el video en sí son datos no estructurados. Tiene un aspecto cualitativo que no puede ser capturado estrictamente por números.

La base de datos que más se usa para datos no estructurados es NoSQL. NoSQL significa “not only SQL”, que indica que la base de datos puede admitir una variedad de datos más allá de las funcionalidades de las bases de datos de SQL. No hay esquema o estructura tabular para las bases de datos NoSQL; es simplemente una colección de datos agrupados de forma conjunta.

 

Almacenamiento de datos no estructurados con UFFO

Dicho esto, a pesar de que es posible que los datos no estructurados puedan ofrecer información significativa con un enorme potencial transformativo, representan un desafío. La solución avanzada de almacenamiento UFFO de Pure, Pure Storage® FlashBlade®, ofrece la velocidad asociada con la tecnología de almacenamiento flash, así como la posibilidad de escalar cualquier arquitectura de forma ágil. ¿Quiere un análisis más detallado? Pure ofrece una prueba gratuita de Pure FlashBlade para que pueda probar la solución sin compromisos.

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387