Gids

De Beginnersgids voor Big Data

Table of Contents

Wat is Big Data? De drie V's van Big Data Waar komt big data vandaan? Soorten big data: Structured tov Unstructured Hoe ziet de Big Data Lifecycle eruit? Wat kunnen bedrijven doen met big data? Hoe wordt big data opgeslagen? Hoe edge computing de vraag naar big data verder omhoogstuwt. Schaalbare All-Flash dataopslag voor al uw big data-behoeften Waarom voor Pure Storage kiezen voor uw Big Data-behoeften?

Wat is big data en hoe werkt het? Ga met ons mee in onze deep dive in big data en de technologieën die u nodig hebt om bruikbare inzichten voor uw organisatie te verkrijgen.

Wat is Big Data?

De bedrijven van vandaag verzamelen enorme hoeveelheden data uit verschillende bronnen die vaak in realtime moeten worden geanalyseerd. Big data verwijst naar data die te groot, te snel of te complex is om met traditionele technieken te verwerken. Maar het omhelst ook meerdere soorten technologie en strategieën die door Big Data mogelijk worden gemaakt zoals zogenaamde intelligence-generating fields, voorspellende analytics, the internet of things, kunstmatige intelligentie enzovoorts.

Research and Markets meldt dat de wereldwijde big data-markt naar verwachting $156 miljard in 2026 zal behelzen — en bedrijven hebben veel goede redenen om dan ook aan boord te zijn. Dit is een overzicht van wat big data precies is, waar het vandaan komt, waar het voor kan worden gebruikt en hoe bedrijven hun IT-infrastructuur gereed maken om big data een succes te maken.

Blog-artikel

Big Data Analytics Infrastructuur

Blog-artikel

Waarom Data Analytics Maturity belangrijk is

Blog-artikel

SQL Server Big Data Cluster

De drie V's van Big Data

Terwijl het concept van Big Data al lang bestaat, was industrie-analist Doug Laney in 2001 de eerste om de drie V's van Big Data te benoemen: De drie V’s zijn:

Volume: Volume: De hoeveelheid data die verwerkt moet worden (meestal een heleboel gigabytes, exabytes of meer)
Variety: Variety: De uiteenlopende soorten data, zowel gestructureerde als ongestructureerde, streaming uit vele verschillende bronnen.
Velocity: Velocity: De snelheid waarmee nieuwe data in uw systeem wordt ingevoerd

Sommige data-experts breiden de definitie uit tot vier, vijf of meer V's. De vierde en vijfde V zijn:

Veracity: Veracity: De kwaliteit van de data met betrekking tot de nauwkeurigheid, precisie en betrouwbaarheid ervan
Value: Value: De waarde van de data - wat is het waard voor uw bedrijf?

Hoewel de lijst tot42 V’s kan gaan, worden deze vijf het meest gebruikt om Big Data te definiëren.

Er zijn ook twee soorten big data, die verschillen in de manier ze worden verwerkt en welke vragen en vraagstukken ze normaliter beantwoorden.

Batch processing wordt normaliter gebruikt met grote hoeveelheden opgeslagen data om langetermijnstrategieën te bepalen en grote vraagstukken te beantwoorden. Denk aan grote hoeveelheden data met complexe, in-depth analyses.
Streaming data gaat veel minder over het beantwoorden van grote vraagstukken als wel om het onmiddellijk verkrijgen van realtime informatie voor acute doelstellingen, zoals het accuraat houden van een fabricatieproces. Het wordt standaard gebruikt met grote hoeveelheden data die met grote snelheid verplaatsen. Denk aan grote hoeveelheden data met minder complexiteit maar bijzonder snelle analyses.

Lees meer over het verschil tussen big data en traditional data.

Waar komt big data vandaan?

Big data wordt gebruikt om alle ongestructureerde, moderne data die wordt verzameld vandaag de dag te beschrijven, evenals hoe het wordt gebruikt voor in-depth kennis en inzichten. Deze bronnen bevatten vaak:

Het internet of things en data van miljarden apparaten en sensoren.
Machinegegenereerde log data gebruikt voor loganalytics
Software, platformen en enterprise-apps
Mensen: social media, bankbetalingen, online kliks, mediche gegevens, verbruik van natuurlijke bronnen, etc
Onderzoeksdata van de wetenschappelijke gemeenschap en andere organisaties

Soorten big data: Structured tov Unstructured

Verschillende soorten data vereisen verschillende soorten opslag. Dit is ook van toepassing op structured en unstructured data, die verschillende database-types, verwerking, opslag en analyse vereisen

Structured data is eigenlijk de traditional data dat netjes in een tabel past Structured data is vaak gemakkelijk te categoriseren en op te maken in entries in standaard waarden zoals prijzen, data, tijden etc.

Unstructured data is moderne data die niet zo gemakkelijk of snel in een tabel te plaatsen is Unstructured data is tegenwoordig vaan synoniem voor big data en zal de komende jaren waarschijnlijk 80% van alle data vertegenwoordigen. Het omvat alle data gegenereerd door social media, IoT, contentcreators, bewaking en meer. Het kan tekst, afbeeldingen, geluid en video bevatten. Het is de drijvende kracht achter nieuwe storagecategorieën zoals FlashBlade®, unified fast file and object (UFFO). Om gebruik te kunnen maken van unstructured data, hebben bedrijven meer storage, meer rekenkracht en betere consolidatie van verschillende datatypes nodig.

Lees meer over structured data tov unstructured data.

Hoe ziet de Big Data Lifecycle eruit?

De big data lifecycle kan het volgende bevatten, onder andere:

Data wordt geëxtraheerd en verzameld. Data kan uit verschillende bronnen komen, zoals enterprise resource planningssystemen, IoT-sensoren, software als marketing- of verkoopsapps, streaming data via API’s en nog meer. De output van deze data zal verschillen, wat inname een belangrijke volgende stap maakt. Zo verschilt data afkomstig van de beurs grotendeels van log data van interne systemen.
Data wordt ingenomen. Exchange-transform-load (ETL) pipelines transformeren data in het juiste formaat. Of het nu naar een SQL-database of een data visualization tool gaat: data moet worden omgezet in een formaat dat de tool kan begrijpen. Zo zijn namen soms in conconsistende formaten. Op dit punt zijn data klaar voor analyse.
Data wordt in de storage geladen voor verwerking ervan. Vervolgens wordt de data ergens opgeslagen, of dat nu in een Cloud-gebaseerd datawarehouse is of op een locatie bij het bedrijf. Dit kan op verschillende manieren gebeuren, afhankelijk van of de data in batches wordt geladen of dat de event-based streaming voortdurend gebeurt. (Let op: deze stap kan plaatsvinden voor de transformatiestap, afhankelijk van de businessbehoeften.)

Meer lezen. Wat is een Datawarehouse?
Data wordt opgevraagd en geanalyseerd. Moderne, Cloud-gebaseerde rekenkracht, verwerking en opslagtools hebben veel impact op de evolutie van de big data llifecycle. (Let op: bepaalde moderne tools zoals Amazon Redshift kunnen ETL-processen omzeilen en zou zo in staat stellen om data veel sneller op te vragen.)
Data wordt gearchiveerd. Of het nu voor de lange termijn in cold storage wordt opgeslagen of ‚warm’ wordt gehouden in een meer toegankelijkere vorm van opslag, tijdgevoelige data die zijn nut heeft gehad wordt opgeslagen in storage. Als onmiddelijke toegang niet meer nodig is, wordt cold storage een betaalbare en ruimte-efficiënte manier om data op te slaan, vooral als het bedoeld is om te voldoen aan specifieke eisen of om te informeren over langetermijnbeslissingen. Het beperkt ook de impact op prestaties wanneer vele pentabytes cold sata op dezelfde server blijft staan als waar hot data staat.

Wat kunnen bedrijven doen met big data?

Er zijn vele efficiënte en veelbelovende mogelijkheden voor big data. De kracht ligt in het vinden en benutten van zakelijke doorbraken die big data inzichten kunnen bewerkstelligen. Doelen en toepassingen van big data bevatten vaak:

Realtime inzichten en intelligence wanneer je maar wil door de analyse van streaming data om alerts op te wekken en onregelmatigheden op te sporen.
Voorspellende analytics
Business intelligence
Machine learning
Risicoanalyse om fraude en databreuken te ontdekken en beveiligingsrisico’s kunnen verminderen
Artificiële intelligentie, waaronder afbeeldingsherkenning, taalverwerking en neurale netwerken
Verbeteren van gebruikerservaring en klantcontact door middel van aanbevelingsengines en voorspellende support
Kostenbesparing en vermindering van inefficiënte processen (intern, fabricage enz).
Datagestuurde marketing en communicatie, met analyse van miljoenen social media-, klanten- en digitale advertentie-datapoints, die in realtime worden gecreëerd

Bekijk meer specifieke big-data-gebruikerscases en -applicaties voor jouw branche.

Hoe wordt big data opgeslagen?

Big data heeft specifieke vereisten, vooral op het gebied van data-opslag. Het wordt bijna constant naar een database geschreven (net als met realtime streaming data) en bevat vaak een grote verscheidenheid aan formaten. Daardoor wordt big data meestal het best opgeslagen in schemaloze (unstructured) omgevingen op een gedistribueerd bestandssysteem, zodat verwerking ervan parallel kan worden uitgevoerd met grote datasets. Dat maakt het een perfecte omgeving voor een unstructured storageplatform dan bestanden en objectdata uniform kan maken.

Lees meer over het verschil tussen een data hub en een data lake.

Hoe edge computing de vraag naar big data verder omhoogstuwt.

De opmars van de internet of things (IoT) heeft ervoor gezorgd dat de data die over verschillende apparaten moet worden beheerd, enorm is toegenomen

In plaats van te wachten tot IoT-data op afstand verplaatst en verwerkt wordt in een gecentraliseerde locatie zoals een datacenter, is edge computing een distributed topologie waarbij informatie lokaal wordt verwerkt ‚at the edge’: de grens tussen mensen en apparaten waar nieuwe data wordt gecreëerd.

Edge computing bespaart bedrijven niet alleen geld en bandbreedte: het stelt ze ook in staat om efficiëntere realtime apps te ontwikkelen die een superieure gebruikerservaring bezorgen aan hun klanten. Deze trend zal alleen nog maar meer een vlucht nemen met de introductie van nieuwe draadloze technologie als 5G.

Doordat steeds meer apparaten verbonden zijn met het internet, zal ook de hoeveelheid data die realtime en ‚on the edge’ moet worden verwerkt verder toenemen. Dus hoe verzorg je dataopslag die wordt verspreid en bovendien agile genoeg is om aan de toenemende eisen voor dataopslag van edge computing kunnen voldoen? Het korte antwoord: container-native dataopslag.

Als we kijken naar de bestanden edge-platformen zoals AWS Snowball, Microsoft Azure Stack en Google Anthos, zien we de dat ze allemaal gebaseerd zijn op Kubernetes, een populair orchestarion-platform. Kubernetes stelt deze omgevingen in staat om workloads voor data-inname, opslag, verwerking, analyse en machine-learning in the edge te draaien.

Een multi-node Kubernetes cluster dat draait in de edge heeft een efficiënte, container-native opslagengine nodig die kan voldoen aan de specifieke behoefte van datacentic workloads. In andere woorden: containergecontaineriseerde apps die on de edge draaien hebben container-granular opslagmanagement nodig. Portworx® is een dataservicesplatform dat een stateful product levert om datavolumes te beheren die ook nog container-SLA-bewust zijn.

Lees meer over het verband tussen Big Data en IoT.

Schaalbare All-Flash dataopslag voor al uw big data-behoeften

De voordelen van het hosten van Big Data op All-Flash Arrays:

Hogere snelheden (55-180 IOPS voor HDD's vs. 3K-40K IOPS met SSD's)
Massief parallellisme met meer dan 64K wachtrijen voor I/O-bewerkingen
NVMe-prestaties en -betrouwbaarheid

Waarom voor Pure Storage kiezen voor uw Big Data-behoeften?

Het relatieve volume, de variëteit en de snelheid van Big Data verandert voortdurend. Als u wilt dat uw data groot en snel blijft, wilt u er zeker van zijn dat u consequent investeert in de nieuwste dataopslagtechnologieën. De vooruitgang op het gebied van flash-geheugen heeft het mogelijk gemaakt om op maat gemaakte all-flash opslagoplossingen te leveren voor al uw data-tiers. Dit is hoe Pure Storage® u kan helpen bij het aandrijven van uw Big Data Analyticspijplijn:

Alle voordelen van All-flash arrays
Consolidatie tot een verenigde, performante datahub die een hoge verwerkingscapaciteit uit verschillende bronnen kan verwerken
Echt non-disruptieve Evergreen™-upgrades met zero downtime of datamigraties
Een vereenvoudigd datamanagementsysteem dat een combinatie is van cloud-economie en controle en efficiëntie op locatie.

Snelle en efficiënte scale-out flash storage met FlashBlade