Guia

Guia do Big Data para iniciantes

Table of Contents

O que é Big Data? Os três Vs do Big Data Qual é a origem do Big Data? Tipos de Big Data: estruturados x não estruturados Como é o ciclo de vida do Big Data? O que as empresas podem fazer com o Big Data? Como o Big Data é armazenado? Como a computação de borda está impulsionando a demanda do Big Data Armazenamento de dados totalmente flash escalável para todas as suas necessidades de Big Data Por que escolher a Pure Storage® para suas necessidades de Big Data?

O que é Big Data e como funciona? Junte-se a nós e veja informações detalhadas sobre Big Data e as tecnologias necessárias para extrair insights úteis para sua empresa.

O que é Big Data?

Atualmente, as empresas coletam um grande volume de dados de diversas fontes que, frequentemente, devem ser analisados em tempo real. Big Data refere-se a um volume de dados muito grande, muito rápido ou muito complexo a ser processado usando técnicas tradicionais. Porém, nesse âmbito também podem ser incluídas diversas tecnologias e estratégias que o Big Data está tornando possível, como os campos de geração de inteligência, por exemplo, análise preditiva, a Internet das coisas, inteligência artificial, entre outros.

De acordo com a Research and Markets, a estimativa é de que o mercado global do Big Data atinja US$ 156 bilhões até 2026 – e que as empresas tenham excelentes motivos para entrar nesse mercado. Veja a seguir uma explicação do que é o Big Data, qual é a origem dele, para que ele pode ser usado e como as empresas podem preparar suas infraestruturas de TI para ter sucesso com o Big Data.

Artigo do blog

Infraestrutura de análise de Big Data

Artigo do blog

Por que a maturidade da análise de dados importa

Artigo do blog

Cluster de Big Data no SQL Server

Os três Vs do Big Data

Embora o conceito de Big Data já exista há muito tempo, o analista do setor Doug Laney foi o primeiro a definir os três Vs do Big Data em 2001. Os três Vs são:

Volume: a quantidade de dados que deve ser processada (geralmente gigabytes, exabytes ou mais)
Variedade: a grande variedade de dados, estruturados e não estruturados, transmitidos de muitas fontes distintas
Velocidade: a velocidade na qual novos dados estão sendo transmitidos para o sistema

Alguns especialistas em dados ampliam a definição para quatro, cinco ou mais Vs. O quarto e o quinto V são:

Veracidade: a qualidade dos dados em relação à sua exatidão, precisão e confiabilidade
Valor: o valor que os dados fornecem; o quanto valem para sua empresa

Embora a lista possa ter até42 Vs, esses cinco são os mais usados para definir o Big Data.

Também existem dois tipos diferentes de Big Data, cujas diferenças estão em como eles são processados e nos tipos de pergunta e consulta que eles podem ajudar a responder.

Processamento em lote geralmente é usado com grandes quantidades de dados históricos armazenados para informar estratégias de longo prazo ou responder a perguntas importantes. Pense em quantidades gigantescas de dados com análise profunda e complexa.
Dados de transmissão é menos sobre responder a grandes perguntas e mais sobre obter informações imediatas e em tempo real dinamicamente; por exemplo, para manter a precisão de um processo de manufatura. Esse tipo geralmente é usado com grandes quantidade de dados que se movem em um ritmo acelerado. Pense em quantidades gigantescas de dados em alta velocidade com análise menos complexa, mas extremamente rápida.

Saiba mais sobre a diferença entre Big Data e dados tradicionais.

Qual é a origem do Big Data?

O Big Data descreve de fato todos os dados modernos e não estruturados coletados hoje e como eles são usados para inteligência e insights em profundidade. Normalmente, as fontes incluem:

A Internet das coisas e os dados de bilhões de dispositivos e sensores
Dados de log gerados por máquina usados para análise de log
Software, plataformas e aplicativos corporativos
Seres humanos: mídia social, transações, cliques online, prontuários médicos, consumo de recursos naturais, etc.
Dados de pesquisa da comunidade científica e outras organizações

Tipos de Big Data: estruturados x não estruturados

Diferentes tipos de dados exigem diferentes tipos de armazenamento. Esse é o caso com dados estruturados e não estruturados, que exigem diferentes tipos de banco de dados, processamento, armazenamento e análise.

Dados estruturados são dados tradicionais que se encaixam perfeitamente em tabelas. Os dados estruturados muitas vezes são facilmente categorizados e formatados em entradas de valores padrão, como preços, datas, horas, etc.

Dados não estruturados são dados modernos que não são tão simples ou fáceis de colocar em uma tabela. Os dados não estruturados normalmente são sinônimo de Big Data nos dias hoje e farão parte dos 80% dos dados estimados nos próximos anos. Eles englobam todos os dados gerados por mídia social, IoT, criadores de conteúdo, vigilância e muito mais. Podem incluir textos, imagens, sons e vídeos. São a força motriz por trás das novas categorias de armazenamento, como o armazenamento unificado e rápido de arquivos e objetos (UFFO, Unified Fast File and Object) do FlashBlade®. Para usar dados não estruturados, as empresas precisam de mais armazenamento, mais potência de processamento e melhor consolidação de diversos tipos de dados.

Saiba mais sobre dados estruturados x dados não estruturados.

Como é o ciclo de vida do Big Data?

O ciclo de vida do Big Data pode incluir as seguintes etapas, entre outras:

Os dados são extraídos e coletados. Os dados podem ter a origem em várias fontes, incluindo sistemas de planejamento de recursos corporativos, sensores IoT, software, como aplicativos de marketing ou de ponto de venda, dados de streaming via APIs e muito mais. A saída desses dados irá variar, o que torna a entrada uma próxima etapa importante. Por exemplo, os dados originados no mercado de ações serão totalmente diferentes dos dados do log de sistemas internos.
Os dados são ingeridos. Os fluxos de troca-transformação-carregamento (ETL, Exchange-Transform-Load) colocam os dados no formato certo. Não importa se o destino é um banco de dados SQL ou uma ferramenta de virtualização, os dados precisam ser transformados em um formato que a ferramenta possa entender. Por exemplo, os nomes podem estar em formatos inconsistentes. Nessa fase, os dados estão prontos para análise.
Os dados são carregados no armazenamento para processamento. Em seguida, os dados são armazenados em algum lugar, seja em um data warehouse baseado em nuvem, seja em um armazenamento local. Isso pode acontecer de diferentes maneiras, que será determinada pelo modo de carregamento dos dados: em lotes ou por transmissão baseada em evento que ocorre o dia todo, por exemplo. (Observação: essa etapa pode acontecer antes da etapa de transformação, dependendo das necessidades dos negócios.)

Saiba mais: O que é um data warehouse?
Os dados são consultados e analisados. As ferramentas modernas de computação baseada em nuvem, processamento e armazenamento estão sofrendo um grande impacto na evolução do ciclo de vida do Big Data. (Observação: determinadas ferramentas modernas, como o Amazon Redshift, podem ignorar os processos de ETL e permitir que você consulte os dados com muito mais rapidez.)
Os dados são arquivados. Às vezes, eles são armazenados por longo período em armazenamento de dados inativos ou são mantidos “ao alcance” em um armazenamento mais acessível; o fato é que os dados que são pontuais e já cumpriram sua missão vão parar no armazenamento. Se o acesso imediato não for mais necessário, o armazenamento de dados inativos é um meio financeiramente acessível e compacto de guardar dados, principalmente se for para atender aos requisitos de conformidade ou informar a tomada de decisão estratégica de longo prazo. Ele também reduz os impactos sobre o desempenho quando é preciso manter petabytes de dados inativos em um servidor que também hospeda dados ativos.

O que as empresas podem fazer com o Big Data?

Há muitos usos interessantes e eficazes para o Big Data. Seu valor está na inovação dos negócios que os insights do Big Data podem ajudar a impulsionar. As metas e aplicações para o Big Data muitas vezes incluem:

Insights em tempo real e inteligência dinâmica da análise dos dados de streaming para acionar alertas e identificar anomalias
Análise preditiva
Business intelligence
Aprendizado de máquina
Análise de risco para ajudar a evitar fraudes e violações de dados e reduzir riscos à segurança
Inteligência artificial, incluindo reconhecimento de imagem, processamento de linguagem natural e redes neurais
Aprimoramento da experiência do usuário e interações do cliente por meio de mecanismos de recomendação e suporte preditivo
Redução de custo e ineficiências em processos (internos, na manufatura, etc.)
Marketing e comunicação orientados por dados, com análise de milhões de pontos de dados de mídia social, consumidor e propaganda digital criados em tempo real

Veja mais casos de uso e aplicações do Big Data específicos do setor.

Como o Big Data é armazenado?

O Big Data tem demandas exclusivas, principalmente em termos de armazenamento de dados. Ele quase sempre é gravado em um banco de dados (como é o caso dos dados de streaming em tempo real) e, frequentemente, contém uma enorme variedade de formatos. Consequentemente, o Big Data muitas vezes é mais bem armazenado em ambientes sem esquemas (não estruturados) para serem iniciados em um sistema de arquivos distribuídos, de modo que o processamento possa acontecer paralelamente nos conjuntos de dados massivos. Isso o torna uma excelente opção para uma plataforma de armazenamento não estruturado que pode unificar dados de objetos e arquivos.

Saiba mais sobre a diferença entre um data hub e um data lake.

Como a computação de borda está impulsionando a demanda do Big Data

A ascensão da Internet das coisas (IoT, Internet of Things) gerou um aumento no volume dos dados que devem ser gerenciados em todas as frotas de dispositivos distribuídos.

Em vez de aguardar que os dados IoT sejam transferidos e processados remotamente em um local centralizado, como o datacenter, a computação de borda é uma topologia de computação distribuída onde as informações são processadas localmente na “borda”: a interseção entre pessoas e dispositivos onde os novos dados são criados.

Além de poupar dinheiro e largura de banda das empresas, a computação de borda também permite que elas desenvolvam aplicativos mais eficientes e em tempo real que proporcionam uma experiência do usuário superior a seus clientes. Essa tendência só vai acelerar nos próximos anos com o lançamento de novas tecnologias sem fio, como a 5G.

Quanto mais dispositivos forem conectados à Internet, maior será o volume de dados que devem ser processados em tempo real e na borda. Sendo assim, como você fornece armazenamento de dados que seja distribuído e ágil o suficiente para atender às crescentes demandas de armazenamento de dados da computação de borda? Resposta rápida: armazenamento de dados nativo de contêiner.

Quando nos atentamos às plataformas de borda que já existem, como AWS Snowball, Microsoft Azure Stack e Google Anthos, vemos que todas elas se baseiam em Kubernetes, uma plataforma popular de orquestração de contêineres. O Kubernetes permite que esses ambientes executem cargas de trabalho para entrada de dados, armazenamento, processamento, análise e aprendizado de máquina na borda.

Um cluster Kubernetes de vários nós em execução na borda precisa de um mecanismo de armazenamento nativo de contêiner eficiente que satisfaça às necessidades específicas das cargas de trabalho centradas em dados. Em outras palavras, os aplicativos em contêineres em execução na borda exigem gerenciamento de armazenamento granular de contêiner. Portworx® é uma plataforma de serviços de dados que fornece uma malha stateful para gerenciamento de volumes de dados que reconhecem o SLA do contêiner.

Saiba mais sobre a relação entre o Big Data e a IoT.

Armazenamento de dados totalmente flash escalável para todas as suas necessidades de Big Data

Veja os benefícios de hospedar o Big Data em arrays totalmente flash:

Velocidades mais altas (55 a 180 IOPS para HDDs contra 3 mil a 40 mil IOPS com SSDs)
Paralelismo em massa com mais de 64 mil filas para operações de E/S
Confiabilidade e desempenho do NVMe

Por que escolher a Pure Storage® para suas necessidades de Big Data?

O volume, a variedade e a velocidade relativos do Big Data estão em constante mudança. Se você precisa lidar com grandes quantidades de dados com velocidade, invista em tecnologias de armazenamento mais recentes. Os avanços da memória flash permitem fornecer soluções personalizadas de armazenamento totalmente flash para todas as camadas de dados. Veja como a Pure pode ajudar a melhorar o fluxo de análise de Big Data:

Todos os benefícios dos arrays totalmente flash
Consolidação em um data hub unificado e de alto desempenho que pode lidar com transmissão de dados com alta taxa de transferência e de uma variedade de fontes
Upgrades não disruptivos do programa Evergreen™ Storage sem tempo de inatividade nem migração de dados
Um sistema de gerenciamento de dados simplificado que combina a economia da nuvem com a eficiência e o controle locais

Armazenamento flash com expansão horizontal rápido e eficiente com o FlashBlade