Atualmente, as empresas coletam um grande volume de dados de diversas fontes que, frequentemente, devem ser analisados em tempo real. Big Data refere-se a um volume de dados muito grande, muito rápido ou muito complexo a ser processado usando técnicas tradicionais. Porém, nesse âmbito também podem ser incluídas diversas tecnologias e estratégias que o Big Data está tornando possível, como os campos de geração de inteligência, por exemplo, análise preditiva, a Internet das coisas, inteligência artificial, entre outros.
De acordo com a Research and Markets, a estimativa é de que o mercado global do Big Data atinja US$ 156 bilhões até 2026 – e que as empresas tenham excelentes motivos para entrar nesse mercado. Veja a seguir uma explicação do que é o Big Data, qual é a origem dele, para que ele pode ser usado e como as empresas podem preparar suas infraestruturas de TI para ter sucesso com o Big Data.
Embora o conceito de Big Data já exista há muito tempo, o analista do setor Doug Laney foi o primeiro a definir os três Vs do Big Data em 2001. Os três Vs são:
Alguns especialistas em dados ampliam a definição para quatro, cinco ou mais Vs. O quarto e o quinto V são:
Embora a lista possa ter até42 Vs, esses cinco são os mais usados para definir o Big Data.
Também existem dois tipos diferentes de Big Data, cujas diferenças estão em como eles são processados e nos tipos de pergunta e consulta que eles podem ajudar a responder.
Saiba mais sobre a diferença entre Big Data e dados tradicionais.
O Big Data descreve de fato todos os dados modernos e não estruturados coletados hoje e como eles são usados para inteligência e insights em profundidade. Normalmente, as fontes incluem:
Diferentes tipos de dados exigem diferentes tipos de armazenamento. Esse é o caso com dados estruturados e não estruturados, que exigem diferentes tipos de banco de dados, processamento, armazenamento e análise.
Dados estruturados são dados tradicionais que se encaixam perfeitamente em tabelas. Os dados estruturados muitas vezes são facilmente categorizados e formatados em entradas de valores padrão, como preços, datas, horas, etc.
Dados não estruturados são dados modernos que não são tão simples ou fáceis de colocar em uma tabela. Os dados não estruturados normalmente são sinônimo de Big Data nos dias hoje e farão parte dos 80% dos dados estimados nos próximos anos. Eles englobam todos os dados gerados por mídia social, IoT, criadores de conteúdo, vigilância e muito mais. Podem incluir textos, imagens, sons e vídeos. São a força motriz por trás das novas categorias de armazenamento, como o armazenamento unificado e rápido de arquivos e objetos (UFFO, Unified Fast File and Object) do FlashBlade®. Para usar dados não estruturados, as empresas precisam de mais armazenamento, mais potência de processamento e melhor consolidação de diversos tipos de dados.
Saiba mais sobre dados estruturados x dados não estruturados.
O ciclo de vida do Big Data pode incluir as seguintes etapas, entre outras:
Há muitos usos interessantes e eficazes para o Big Data. Seu valor está na inovação dos negócios que os insights do Big Data podem ajudar a impulsionar. As metas e aplicações para o Big Data muitas vezes incluem:
Veja mais casos de uso e aplicações do Big Data específicos do setor.
O Big Data tem demandas exclusivas, principalmente em termos de armazenamento de dados. Ele quase sempre é gravado em um banco de dados (como é o caso dos dados de streaming em tempo real) e, frequentemente, contém uma enorme variedade de formatos. Consequentemente, o Big Data muitas vezes é mais bem armazenado em ambientes sem esquemas (não estruturados) para serem iniciados em um sistema de arquivos distribuídos, de modo que o processamento possa acontecer paralelamente nos conjuntos de dados massivos. Isso o torna uma excelente opção para uma plataforma de armazenamento não estruturado que pode unificar dados de objetos e arquivos.
Saiba mais sobre a diferença entre um data hub e um data lake.
A ascensão da Internet das coisas (IoT, Internet of Things) gerou um aumento no volume dos dados que devem ser gerenciados em todas as frotas de dispositivos distribuídos.
Em vez de aguardar que os dados IoT sejam transferidos e processados remotamente em um local centralizado, como o datacenter, a computação de borda é uma topologia de computação distribuída onde as informações são processadas localmente na “borda”: a interseção entre pessoas e dispositivos onde os novos dados são criados.
Além de poupar dinheiro e largura de banda das empresas, a computação de borda também permite que elas desenvolvam aplicativos mais eficientes e em tempo real que proporcionam uma experiência do usuário superior a seus clientes. Essa tendência só vai acelerar nos próximos anos com o lançamento de novas tecnologias sem fio, como a 5G.
Quanto mais dispositivos forem conectados à Internet, maior será o volume de dados que devem ser processados em tempo real e na borda. Sendo assim, como você fornece armazenamento de dados que seja distribuído e ágil o suficiente para atender às crescentes demandas de armazenamento de dados da computação de borda? Resposta rápida: armazenamento de dados nativo de contêiner.
Quando nos atentamos às plataformas de borda que já existem, como AWS Snowball, Microsoft Azure Stack e Google Anthos, vemos que todas elas se baseiam em Kubernetes, uma plataforma popular de orquestração de contêineres. O Kubernetes permite que esses ambientes executem cargas de trabalho para entrada de dados, armazenamento, processamento, análise e aprendizado de máquina na borda.
Um cluster Kubernetes de vários nós em execução na borda precisa de um mecanismo de armazenamento nativo de contêiner eficiente que satisfaça às necessidades específicas das cargas de trabalho centradas em dados. Em outras palavras, os aplicativos em contêineres em execução na borda exigem gerenciamento de armazenamento granular de contêiner. Portworx® é uma plataforma de serviços de dados que fornece uma malha stateful para gerenciamento de volumes de dados que reconhecem o SLA do contêiner.
Veja os benefícios de hospedar o Big Data em arrays totalmente flash:
O volume, a variedade e a velocidade relativos do Big Data estão em constante mudança. Se você precisa lidar com grandes quantidades de dados com velocidade, invista em tecnologias de armazenamento mais recentes. Os avanços da memória flash permitem fornecer soluções personalizadas de armazenamento totalmente flash para todas as camadas de dados. Veja como a Pure pode ajudar a melhorar o fluxo de análise de Big Data:
Armazenamento flash com expansão horizontal rápido e eficiente com o FlashBlade
Tem dúvidas ou comentários sobre produtos ou certificações da Pure? Estamos aqui para ajudar.
Agende uma demonstração ao vivo e veja você mesmo como a Pure pode ajudar a transformar seus dados em resultados poderosos.
Telefone: 55-11-2844-8366
Imprensa: pr@purestorage.com
Sede da Pure Storage
Av. Juscelino Kubitschek, 2041
Torre B, 5º andar - Vila Olímpia
São Paulo, SP
04543-011 Brasil