En la última década, nuestra definición y comprensión sobre los datos ha cambiado radicalmente, impulsado en parte por el crecimiento de disponibilidad de nuevas herramientas para leer, almacenar y analizar datos no estructurados.
En el pasado, los datos no estructurados por lo general eran subutilizados, dado que era difícil interpretarlos. Estas nuevas tecnologías facilitaron, no solo comprender los datos no estructurados sino también buscar resultados valiosos a partir de este tesoro de información.
Según IDC, el volumen total de datos creados, capturados, copiados y consumidos a nivel mundial para el 2024 superará los 149 zettabytes por año, y la mayor parte de los datos serán no estructurados. Cada organización se beneficiará al desarrollar funcionalidades de análisis de datos no estructurados. El primer paso en este camino es simplemente comprender qué son los datos estructurados frente a los no estructurados.
Aquí encontrará un resumen rápido sobre la diferencia entre los dos, con explicaciones más detalladas:
Característica |
Datos estructurados |
Datos no estructurados |
Naturaleza de los datos |
Usualmente cuantitativo |
Usualmente cualitativo |
Modelo de datos |
Predefinido; una vez que es definido y con algunos datos almacenados, es difícil cambiar el modelo. |
No se incluye un esquema particular en los datos no estructurados, el modelo de datos es muy flexible. |
Formato de datos |
Hay una cantidad limitada de formatos de datos disponibles. |
Hay una gran variedad de formatos de datos disponibles para los datos no estructurados. |
Base de datos |
Se usan bases de datos relacionales basadas en SQL. |
Se usan bases de datos NoSQL sin esquemas específicos. |
Búsqueda |
Muy fácil de buscar y encontrar datos dentro de la base de datos o el conjunto de datos. |
Muy difícil buscar datos particulares debido a su naturaleza no estructurada. |
Análisis |
Muy fácil de analizar, dada la naturaleza cuantitativa de los datos. |
Muy difícil de analizar, incluso con las herramientas de software existentes. |
Método de almacenamiento |
Se usan almacenamientos de datos para los datos estructurados. |
Se usan data lakes para almacenar datos no estructurados. |
Los datos estructurados tienen un esquema bien definido para la información que contienen. Para ofrecer una definición extremadamente simple, cualquier dato que se pueda presentar en un programa de hoja de cálculo como Google Sheets o Microsoft Excel pertenece al grupo de datos estructurados.
En este ejemplo, los datos pueden ser representados como filas y columnas. Cada columna representa un atributo diferente, mientras que cada fila tendrá los datos asociados con el atributo para una instancia única. Las filas y columnas forman una tabla a la que se puede hacer referencia de forma fácil.
Las diferentes tablas pueden estar conectadas, es decir que se pueden tomar como relacionadas por la columna común presente en ambas tablas.
Si varias tablas están relacionadas en sucesión y combinación, esto crea una base de datos relacional. Por ejemplo, los datos de clientes, ventas e inventario de un centro comercial pueden considerarse datos estructurados almacenados como base de datos relacional.
Los datos estructurados como estos, por lo general, se almacenan en sistemas de administración de bases de datos relacionales (RDBMSes). Las bases de datos pueden ser escritas, leídas y manipuladas a través del uso del lenguaje de consulta estructurado (SQL, Structured Query Language), un lenguaje desarrollado por IBM en los años 70 para dar soporte a las bases de datos mainframe (aunque fue conocida inicialmente como lenguaje de consulta en inglés estructurado o SEQUEL). Se denominó así debido a que se lee de forma similar al inglés. SQL en su formato actual fue popularizado por Relational Software, Inc. (ahora Oracle).
Cada dato que no sea estructurado puede clasificarse como dato no estructurado. Se espera que para el 2025, el 80 % de los datos con que nos crucemos serán datos no estructurados en formato de texto, audio, imagen o video1.
En conclusión, los datos no estructurados son datos modernos. Por lo general:
Los datos no estructurados pueden tener ciertos metadatos asociados que pueden, en ocasiones, tener una estructura. Por ejemplo, un video puede tener metadatos de resolución de videos, tasa de bits, marcos por segundo (FPS), propietario del video, etc. Pero el video en sí es no estructurado. Cuando hay metadatos estructurados asociados con los datos no estructurados, por lo general se conocen como datos semiestructurados.
Si miramos más de cerca los ejemplos de los videos de YouTube, algunos metadatos están presentes, como el tiempo de carga, la fecha de carga, el número de vistas (parcial o total), el número de me gusta y no me gusta, etc. Pero el contenido dentro del título del video, la descripción del video y el video en sí son datos no estructurados. Tiene un aspecto cualitativo que no puede ser capturado estrictamente por números.
La base de datos que más se usa para datos no estructurados es NoSQL. NoSQL significa “not only SQL”, que indica que la base de datos puede admitir una variedad de datos más allá de las funcionalidades de las bases de datos de SQL. No hay esquema o estructura tabular para las bases de datos NoSQL; es simplemente una colección de datos agrupados de forma conjunta.
Dicho esto, a pesar de que es posible que los datos no estructurados puedan ofrecer información significativa con un enorme potencial transformativo, representan un desafío. La solución avanzada de almacenamiento UFFO de Pure, Pure Storage® FlashBlade®, ofrece la velocidad asociada con la tecnología de almacenamiento flash, así como la posibilidad de escalar cualquier arquitectura de forma ágil. ¿Quiere un análisis más detallado? Pure ofrece una prueba gratuita de Pure FlashBlade para que pueda probar la solución sin compromisos.
1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html
¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure? Estamos aquí para ayudar.
Programe una demostración en vivo y compruebe usted mismo cómo Pure puede ayudarlo a transformar sus datos en potentes resultados.
Llámenos: 800-976-6494
Medios de comunicación: pr@purestorage.com
Sede central de Pure Storage
650 Castro St #400
Mountain View, CA 94041
800-379-7873 (información general)