Waarom traditionele opslagsystemen er niet in slagen Big Data te ondersteunen

3 Big Data-uitdagingen (en hoe ze te overwinnen)

Big data hebben veel eigenschappen: ze zijn ongestructureerd, dynamisch en complex. Maar, misschien wel het belangrijkste: Big data zijn groot. Mensen en IoT-sensoren produceren jaarlijks triljoenen gigabytes aan data. Maar dit zijn niet de data van gisteren, maar moderne data, in een steeds diverser scala van formaten en uit een steeds grotere verscheidenheid van bronnen.

Dit leidt tot een kloof tussen de data van vandaag en de systemen van gisteren. De enorme omvang en schaal, samen met de snelheid en complexiteit ervan, zetten traditionele dataopslagsystemen onder een nieuw soort druk. Velen zijn gewoon slecht toegerust, en organisaties die gebruik willen maken van deze goudmijn aan data stuiten op hindernissen.

Waarom gebeurt dit? Wat zijn de belangrijkste big data-uitdagingen om te weten? Als u de kracht van big data wilt benutten, zijn uw opslagoplossingen dan voldoende?

1. Big Data is te groot voor traditionele opslag

De meest voor de hand liggende uitdaging voor big data is wellicht de enorme schaal. We meten het meestal in petabytes (dat is dus 1.024 terabytes of 1.048.576 gigabytes).

Om u een idee te geven van hoe big data kunnen worden, volgt hier een voorbeeld: Facebook-gebruikers uploaden minstens 14,58 miljoen foto's per uur. Bij elke foto worden interacties opgeslagen, zoals likes en commentaren. Gebruikers hebben minstens een triljoen berichten, commentaren en andere datapunten "geliked".

Maar het zijn niet alleen techreuzen als Facebook die enorme hoeveelheden data opslaan en analyseren. Zelfs een klein bedrijf dat een stukje van de informatie uit de sociale media neemt - bijvoorbeeld om te zien wat mensen over zijn merk zeggen - heeft een krachtige dataopslagarchitectuur nodig.

Traditionele dataopslagsystemen kunnen in theorie grote hoeveelheden data aan. Maar wanneer ze de efficiëntie en inzichten moeten leveren die we nodig hebben, kunnen velen de eisen van moderne data gewoon niet bijhouden.

Het raadsel van de relationele database

Relationele SQL-databases zijn vertrouwde, aloude methoden om data te bewaren, te lezen en te schrijven. Maar deze databases kunnen moeite hebben om efficiënt te werken, zelfs voordat ze hun maximale capaciteit hebben bereikt. Een relationele database met grote hoeveelheden data kan om vele redenen traag worden. Telkens wanneer u bijvoorbeeld een record invoegt in een relationele database, moet de index zichzelf bijwerken. Deze operatie duurt langer naarmate het aantal records toeneemt. Het invoegen, bijwerken, verwijderen en uitvoeren van andere bewerkingen kan langer duren, afhankelijk van het aantal relaties met andere tabellen.

Simpel gezegd: Hoe meer data er in een relationele database staan, hoe langer elke bewerking duurt.

Scale-up vs. Scale-out

Het is ook mogelijk om traditionele dataopslagsystemen te schalen om de prestaties te verbeteren. Maar omdat traditionele dataopslagsystemen gecentraliseerd zijn, moet u eerder gaan voor scale “up” dan voor scale “out”.

Scaling up is minder efficiënt dan scaling out, omdat u dan nieuwe systemen moet toevoegen, data moet migreren en de belasting over meerdere systemen moet beheren. De traditionele dataopslagarchitectuur wordt al snel te omvangrijk en te log om goed te kunnen beheren.

Pogingen om traditionele opslagarchitectuur te gebruiken voor big data zijn gedoemd te mislukken, deels omdat de hoeveelheid data het onrealistisch maakt om voldoende op te schalen. Dit maakt schaalvergroting de enige realistische optie. Met een gedistribueerde opslagarchitectuur kunt u nieuwe knooppunten toevoegen aan een cluster zodra u een bepaalde capaciteit bereikt, en dat kunt u vrijwel onbeperkt doen.

2. Big Data is te complex voor traditionele opslag

Een andere grote uitdaging voor traditionele opslag bij big data? De complexiteit van datastijlen. Traditionele data zijn "gestructureerd". U kunt ze organiseren in tabellen met rijen en kolommen die een duidelijke relatie tot elkaar hebben.

Een relationele database - het type database waarin traditionele data worden opgeslagen - bestaat uit records met duidelijk gedefinieerde velden. U kunt dit type database benaderen met een relationeel databasemanagementsysteem (RDBMS) zoals MySQL, Oracle DB of SQL Server.

Een relationele database kan relatief groot en complex zijn: Deze kan bestaan uit duizenden rijen en kolommen. Maar cruciaal is dat u in een relationele database toegang heeft tot een stukje data door te verwijzen naar de relatie met een ander stukje data.

Big data passen niet altijd netjes in de relationele rijen en kolommen van een traditioneel dataopslagsysteem. Het is grotendeels ongestructureerd, bestaat uit talloze bestandstypen en omvat vaak afbeeldingen, video's, audio en inhoud van sociale media. Daarom zijn traditionele opslagoplossingen ongeschikt voor het werken met big data: Ze kunnen het niet goed categoriseren.

Moderne gecontaineriseerde toepassingen creëren ook nieuwe opslaguitdagingen. Kubernetes-toepassingen zijn bijvoorbeeld complexer dan traditionele toepassingen. Deze toepassingen bevatten veel onderdelen - zoals pods, volumes en configmaps - en moeten regelmatig worden bijgewerkt. Traditionele opslag kan niet de nodige functionaliteit bieden om Kubernetes effectief te draaien.

Met een niet-relationele (NoSQL) database zoals MongoDB, Cassandra of Redis kunt u waardevolle inzichten krijgen in complexe en gevarieerde sets ongestructureerde data.

3. Big Data is te snel voor traditionele opslag

Traditionele dataopslagsystemen zijn bedoeld om data gestaag te bewaren. U kunt regelmatig meer data toevoegen en vervolgens analyses uitvoeren op de nieuwe dataset. Maar big data groeien vrijwel onmiddellijk, en analyse moet vaak in realtime gebeuren. Een RDBMS is niet ontworpen voor snelle fluctuaties.

Neem bijvoorbeeld sensordata. Internet of things (IoT)-apparaten moeten grote hoeveelheden sensordata verwerken met een minimale latentie. Sensoren verzenden data uit de "echte wereld" met een bijna constante snelheid. Traditionele opslagsystemen hebben moeite met het opslaan en analyseren van data die zo snel binnenkomen.

Of een ander voorbeeld: cyberbeveiliging. IT-afdelingen moeten elk datapakket dat via de firewall van een bedrijf binnenkomt, inspecteren om na te gaan of het verdachte code bevat. Elke dag kunnen vele gigabytes door het netwerk gaan. Om niet het slachtoffer te worden van cybercriminaliteit, moet de analyse onmiddellijk plaatsvinden - alle data in een tabel opslaan tot het einde van de dag is geen optie.

De hoge snelheid van big data is niet vriendelijk voor traditionele opslagsystemen, wat een hoofdoorzaak kan zijn voor het mislukken van projecten of het niet realiseren van ROI.

4. Uitdagingen voor big data vereisen moderne opslagoplossingen

Traditionele opslagarchitecturen zijn geschikt voor het werken met gestructureerde data. Maar als het gaat om de enorme, complexe en snelle aard van ongestructureerde big data, moeten bedrijven alternatieve oplossingen vinden om de resultaten te krijgen die ze zoeken.

Gedistribueerde, schaalbare, niet-relationele opslagsystemen kunnen grote hoeveelheden complexe data in realtime verwerken. Deze aanpak kan organisaties helpen om de uitdagingen van big data moeiteloos te overwinnen en baanbrekende inzichten te vergaren.

Als uw opslagarchitectuur moeite heeft uw bedrijfsbehoeften bij te houden - of als u het concurrentievoordeel van een datamature bedrijf wilt verwerven - kan een upgrade naar een moderne opslagoplossing die de kracht van big data kan benutten, zinvol zijn.

Pure biedt een reeks eenvoudige, betrouwbare storage-as-a-service (STaaS)-oplossingen die schaalbaar zijn voor elke bedrijfsomvang en geschikt voor alle use cases. Lees meer of ga vandaag nog aan de slag.