Na última década, nossa definição e compreensão do que são dados mudaram radicalmente, orientadas em parte pela crescente disponibilidade de novas ferramentas para leitura, armazenamento e análise de dados não estruturados.
Antigamente, os dados não estruturados muitas vezes eram subutilizados em razão da dificuldade associada à interpretação deles. No entanto, as novas tecnologias não só facilitaram o entendimento dos dados não estruturados, como também a extração de valiosos insights dessa mina de ouro de informações.
De acordo com a IDC, o volume total de dados criados, capturados, copiados e consumidos no mundo todo até 2024 passará dos 149 zettabytes por ano, e grande parte deles será não estruturada. Todas as organizações serão beneficiadas com a criação de recursos de análise de dados não estruturados. A primeira parte desse caminho é simplesmente entender o que são dados estruturados e dados não estruturados.
Veja a seguir um breve resumo da diferença entre os dois tipos, com explicações mais detalhadas:
Característica |
Dados estruturados |
Dados não estruturados |
Natureza dos dados |
Normalmente quantitativa |
Normalmente qualitativa |
Modelo de dados |
Predefinido; assim que é definido e alguns dados são armazenados; é difícil alterar o modelo |
Nenhum esquema particular é envolvido nos dados não estruturados; o modelo de dados é muito flexível |
Formato de dados |
Um número limitado de formatos de dados está disponível |
Uma enorme variedade de formatos de dados está disponível para os dados não estruturados |
Banco de dados |
São usados bancos de dados relacionais baseados em SQL |
São usados bancos de dados NoSQL sem esquema específico |
Pesquisa |
É muito fácil pesquisar e localizar dados no banco de dados ou no conjunto de dados |
É muito difícil procurar dados específicos devido à sua natureza não estruturada |
Análise |
Análise bem fácil devido à natureza quantitativa dos dados |
Análise bem difícil, mesmo com as ferramentas de software disponíveis |
Método de armazenamento |
Data warehouses são usados para dados estruturados |
Data lakes são usados para armazenar dados não estruturados |
Os dados estruturados têm um esquema claramente definido para as informações que contêm. Simplificando a definição, quaisquer dados que possam ser apresentados em um programa de planilha, como o Planilhas Google ou Microsoft Excel, são dados estruturados.
Neste exemplo, os dados podem ser representados como linhas e colunas. Cada coluna representa um atributo diferente, enquanto cada linha terá os dados associados ao atributo de uma única instância. Linhas e colunas compõem uma tabela que pode ser facilmente usada como referência.
Tabelas diferentes podem ser conectadas, isto é, elas podem ser consideradas relacionadas pela coluna em comum presente em ambas as tabelas.
Várias tabelas relacionadas em sucessão e combinação criam um banco de dados relacional. Por exemplo, o cliente, as vendas e os dados do inventário de uma loja de departamento podem ser considerados dados estruturados armazenados como um banco de dados relacional.
Dados estruturados como esses geralmente são armazenados em sistemas de gerenciamento de banco de dados relacional (RDBMSes, Relational Database Management Systems). Os bancos de dados podem ser gravados, lidos e manipulados usando linguagem de consulta estruturada (SQL, Structured Query Language), uma linguagem que foi desenvolvida pela IBM na década de 70 para dar suporte a seus bancos de dados de mainframe (apesar de ter sido inicialmente conhecida como linguagem de consulta em inglês sequencial ou SEQUEL). Esse nome se deve à sua leitura ser muito parecida com o inglês. O SQL em sua forma atual foi popularizado pela Relational Software, Inc. (atual Oracle).
Tudo que não é dado estruturado pode ser classificado como dado não estruturado. Estima-se que até 2025, 80% dos dados que encontrarmos serão dados não estruturados na forma de texto, áudio, imagem ou vídeo1.
Resumindo, dados não estruturados são dados modernos. Normalmente, esses dados:
Os dados não estruturados podem ter metadados associados que, por sua vez, podem ter uma estrutura. Por exemplo, um vídeo pode ter metadados de resolução de vídeo, taxas de bits, quadros por segundo (FPS, Frames per Second), proprietário do vídeo, etc. Mas o vídeo em si não é estruturado. Quando há alguns metadados estruturados associados aos dados não estruturados, eles ocasionalmente são mencionados como dados semiestruturados.
Observando mais detalhadamente o exemplo de um vídeo do YouTube, alguns metadados estão presentes, como a hora do upload, a data do upload, o número de visualizações (parciais ou completas), o número de cliques em Gostei e Não gostei, etc. Mas o conteúdo dentro do título do vídeo, a descrição do vídeo e o vídeo em si não são estruturados. Eles têm um aspecto qualitativo que simplesmente não pode ser capturado pelos números.
O banco de dados mais frequentemente usado para dados não estruturados é o NoSQL. NoSQL significa “não somente SQL”, indicando que o banco de dados pode lidar com uma gama mais ampla de dados além dos recursos dos bancos de dados SQL. Não há esquema nem estrutura tabular para bancos de dados NoSQL; é apenas um conjunto de dados reunidos.
Isto posto, embora os dados não estruturados possam fornecer insights significativos com enorme potencial transformador, há desafios a serem vencidos. A solução de armazenamento avançada UFFO da Pure, o Pure Storage® FlashBlade®, oferece a velocidade associada à tecnologia de armazenamento flash, bem como a capacidade de escalar qualquer arquitetura rapidamente. Quer saber mais detalhes? A Pure oferece uma versão de avaliação gratuita do Pure FlashBlade para que você possa fazer um test drive da solução sem taxa de consumo.
1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html
Tem dúvidas ou comentários sobre produtos ou certificações da Pure? Estamos aqui para ajudar.
Agende uma demonstração ao vivo e veja você mesmo como a Pure pode ajudar a transformar seus dados em resultados poderosos.
Telefone: 55-11-2844-8366
Imprensa: pr@purestorage.com
Sede da Pure Storage
Av. Juscelino Kubitschek, 2041
Torre B, 5º andar - Vila Olímpia
São Paulo, SP
04543-011 Brasil