Guia do Big Data para iniciantes

Big Data x dados tradicionais

O Big Data fornece às empresas imensas oportunidades, incluindo insights mais significativos sobre o comportamento do cliente, previsões mais precisas sobre a atividade do mercado e eficiência geral aprimorada.

As pessoas e as empresas estão gerando cada vez mais dados todos os anos. De acordo com um relatório da IDC, o mundo criou apenas 1,2 zettabytes (1,2 trilhões de gigabytes) de novos dados em 2010. Até 2025, esse número aumentará para 175 zettabytes (175 trilhões de gigabytes) ou mais1.

À medida que as empresas exploram esse próspero recurso por meio de análise preditiva e mineração de dados, o mercado do Big Data também cresce. A pesquisa da Statista prevê que o mercado do Big Data duplicará entre 2018 e 2027, passando de US$ 169 bilhões para US$ 274 bilhões.

Mas quais são as principais diferenças entre Big Data e os dados tradicionais? E quais implicações eles têm sobre a tecnologia atual de processamento, análise e armazenamento de dados? Aqui, explicaremos as diferentes finalidades de cada tipo de dado, bem como enfatizaremos a importância de uma estratégia que é planejada para o sucesso, tanto com o Big Data quanto com os dados tradicionais.

 

O que são dados tradicionais?

Os dados tradicionais são estruturados, dados relacionais que as organizações vêm armazenando e processando há décadas. Os dados tradicionais ainda representam a maior parte dos dados do mundo todo.

As empresas podem usar esses dados tradicionais para acompanhar vendas, ou gerenciar fluxos de trabalho ou relações com os clientes. Normalmente, os dados tradicionais são mais fáceis de manipular e podem ser gerenciados com software convencional de processamento de dados. No entanto, geralmente eles fornecem insights menos sofisticados e benefícios mais limitados do que o Big Data.

 

O que é Big Data?

O Big Data pode se referir a um conjunto de dados grande e complexo, bem como aos métodos usados para processar esse tipo de dado. O Big Data tem quatro características principais, muitas vezes conhecidas como “os quatro Vs”:

  • Volume: o Big Data é… grande. Embora o Big Data não seja diferenciado apenas pelo seu tamanho, geralmente seu volume é bem grande por natureza.
  • Variedade: um conjunto de Big Data normalmente contém dados estruturados, semiestruturados e não estruturados.
  • Velocidade: o Big Data é gerado rapidamente e muitas vezes processado em tempo real.
  • Veracidade: a qualidade do Big Data não é inerentemente melhor do que a dos dados tradicionais, mas sua veracidade (precisão) é extremamente importante. Anomalias, desvios e ruídos podem afetar consideravelmente a qualidade do Big Data.

 

As diferenças entre o Big Data e os dados tradicionais

Várias características são usadas para diferenciar o Big Data dos dados tradicionais. Entre elas:

  • O tamanho dos dados
  • Como os dados são organizados
  • A arquitetura necessária para gerenciar os dados
  • As fontes de onde derivam os dados
  • Os métodos usados para analisar os dados

Tamanho

Os conjuntos de dados tradicionais tendem a ser medidos em gigabytes e terabytes. Consequentemente, o tamanho deles pode permitir o armazenamento centralizado, mesmo em um servidor.

O Big Data é diferenciado não somente pelo seu tamanho, mas também pelo seu volume. O Big Data normalmente é medido em petabytes, zettabytes ou exabytes. O tamanho cada vez maior dos conjuntos de Big Data é um dos principais propulsores por trás da demanda por soluções mais modernas de armazenamento de dados, baseadas em nuvem e de alta capacidade.

Organização

Os dados tradicionais normalmente são dados estruturados que são organizados em registros, arquivos e tabelas. Os campos nos conjuntos de dados tradicionais são relacionais, de modo que é possível trabalhar as respectivas relações e manipular os dados adequadamente. Os bancos de dados tradicionais, como SQL, Oracle DB e MySQL, usam um esquema fixo que é estático e pré-configurado.

O Big Data usa um esquema dinâmico. No armazenamento, o Big Data é bruto e não estruturado. Quando o Big Data é acessado, o esquema dinâmico é aplicado aos dados brutos. Os bancos de dados modernos não relacionais ou NoSQL, como Cassandra e MongoDB, são perfeitos para dados não estruturados, devido ao modo como os dados são armazenados nos arquivos.

Arquitetura

Os dados tradicionais geralmente são gerenciados por meio de uma arquitetura centralizada, que pode ser mais econômica e mais segura para conjuntos de dados menores e estruturados.

De modo geral, um sistema centralizado consiste em um ou mais nós de cliente (por exemplo, computadores ou dispositivos móveis) conectados a um nó central (por ex.: um servidor). O servidor central controla a rede e monitora sua segurança.

Devido à escala e complexidade, não é possível gerenciar o Big Data centralmente. Ele exige uma arquitetura distribuída.

Os sistemas distribuídos vinculam vários servidores ou computadores por uma rede, operando como nós coiguais. A arquitetura pode ser expandida horizontalmente e continuará funcionando mesmo se um nó individual falhar. Os sistemas distribuídos podem aproveitar o hardware padrão para reduzir custos.

Origens

Normalmente, os dados tradicionais são derivados do planejamento de recursos corporativos (ERP, Enterprise Resource Planning), do gerenciamento de relacionamento com o cliente (CRM, Customer Relationship Management), de transações online e outros dados de nível empresarial.

O Big Data deriva de uma variedade maior de dados de nível empresarial e não empresarial, que podem incluir informações retiradas de mídias sociais, dados de dispositivos e sensores, além de dados audiovisuais. Esses tipos de fonte são dinâmicos, evolutivos e estão aumentando a cada dia.

As fontes de dados não estruturados também podem incluir arquivos de áudio, imagem e vídeo. Aproveitar esse tipo de dado não é possível usando as colunas e linhas dos bancos de dados tradicionais. Devido a uma quantidade cada vez mais significativa de dados não estruturados provenientes de várias fontes, os métodos da análise de Big Data são obrigatórios para extrair valor deles.

Análise

A análise de dados tradicionais ocorre de modo incremental: um evento ocorre, os dados são gerados e a análise desses dados ocorre depois do evento. A análise de dados tradicionais pode ajudar as empresas a entender os impactos de determinadas estratégias ou alterações em um intervalo limitado de métricas por um período específico.

A análise de Big Data pode ocorrer em tempo real. Como o Big Data é gerado segundo a segundo, a análise pode ocorrer enquanto os dados estiverem sendo coletados. A análise de Big Data oferece às empresas um entendimento mais dinâmico e holístico das necessidades e estratégias.

Por exemplo, suponha que uma empresa tenha investido em um programa de treinamento para sua equipe e queira avaliar seu impacto.

Com um modelo tradicional de análise de dados, a empresa pretende determinar o impacto do programa de treinamento em uma área específica de suas operações, como vendas. A empresa anota o volume de vendas antes e depois do treinamento e exclui todos os fatores irrelevantes. Ela pode, na teoria, ver o quanto as vendas aumentaram em consequência do treinamento.

Com um modelo de análise de big data, a empresa pode separar as questões relacionadas a como o programa de treinamento afetou qualquer aspecto específico de suas operações. Ao analisar uma enorme quantidade de dados coletados em tempo real em toda a empresa, é possível identificar as áreas específicas que foram afetadas, como vendas, serviço de atendimento ao consumidor, relações públicas, etc.

 

Big Data x dados tradicionais: considerações importantes para o futuro

O Big Data e os dados tradicionais têm finalidades diferentes, mas relacionadas. Embora possa parecer que o Big Data tenha benefícios potencialmente melhores, ele não é adequado (ou necessário) em todas as circunstâncias. O Big Data:

  • Pode fornecer uma análise mais detalhada das tendências do mercado e do comportamento do consumidor. A análise dos dados tradicionais pode ser mais limitada e bastante restrita para fornecer os insights significativos que o Big Data pode fornecer.
  • Fornece insights com mais rapidez. As organizações podem aprender com o Big Data em tempo real. No contexto da análise de Big Data, essa pode ser uma vantagem competitiva.
  • É mais eficiente. A natureza cada vez mais digital da nossa sociedade significa que as pessoas e empresas estão gerando gigantescas quantidades de dados todos os dias – até mesmo a cada minuto. O Big Data nos permite explorar esses dados e interpretá-los de maneira significativa.
  • Exige preparação avançada. Para aproveitar esses benefícios, as organizações precisam se preparar para o Big Data por meio de novos protocolos de segurança, etapas de configuração e aumentos na potência de processamento disponível.

A ascensão do Big Data não significa que os dados tradicionais estão saindo de cena. Os dados tradicionais:

  • Podem ser mais fáceis de proteger, o que os tornam preferíveis para conjuntos de dados altamente confidenciais ou pessoais. Como os dados tradicionais são menores, eles não exigem arquitetura distribuída e é menos provável que exijam armazenamento de terceiros.
  • Podem ser processados usando software convencional de processamento de dados e uma configuração comum de sistema. O processamento de Big Data normalmente requer uma instalação de configuração mais alta, o que pode aumentar o uso e o custo de recursos desnecessariamente, quando os métodos de dados tradicionais dão conta do recado.
  • São fáceis de manipular e interpretar. Como os dados tradicionais são mais simples e relacionais por natureza, eles podem ser processados usando funções comuns, podendo até ser acessíveis a pessoas inexperientes.

Por fim, não se trata de escolher entre o Big Data e os dados tradicionais. À medida que mais e mais empresas geram grandes conjuntos de dados não estruturados, elas precisam das ferramentas certas para manipulá-los. Entender como usar e dar suporte a ambos os modelos é uma parte necessária da atualização da estratégia para estar pronto para um Big Data futuro.

 

Capítulos adicionais do Guia do Big Data

  1. Dados estruturados x dados não estruturados
  2. Cinco maneiras de atingir o sucesso com a ajuda do Big Data
  3. A relação entre o Big Data e a IoT

1https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020-and-the-coming-decade/?sh=44e375c74fc3

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387