Beheer van ongestructureerde data is het verzamelen, opslaan, onderhouden, controleren en verwerken van data die niet vooraf gedefinieerd zijn en niet gemakkelijk in databasetabellen zoals een Excel-spreadsheet kunnen worden opgeslagen.
Veel van de huidige data - volgens deskundigen zelfs tot 90% van de bedrijfsdata - zijn ongestructureerd, wat betekent dat ze niet voldoen aan een traditioneel datamodel of -schema, zoals een typische relationele database (denk aan de georganiseerde kolommen en rijen van een Excel-spreadsheet).
Ongestructureerde data kunnen worden gegenereerd door menselijke activiteiten of door machines, en omvatten tekst in Word-documenten, e-mailinhoud, beeld- en videobestanden, inhoud van sociale media, PowerPoint-presentaties, satellietbeelden, datalogs van mobiele telefoons en opgenomen gesprekken, enzovoort.
Gestructureerde data kunnen worden georganiseerd in nette en overzichtelijke spreadsheets en zijn historisch gezien veel gemakkelijker te beheren dan ongestructureerde data. Het omvat informatie zoals klantenbestanden, inventarislijsten, boekhoudkundige data en reisreserveringen.
Ongestructureerde data verschillen, zoals eerder genoemd, van gestructureerde data in hun formaat, maar ze verschillen ook van gestructureerde data in de manier waarop ze worden gebruikt. Ze zijn meer kwalitatief dan kwantitatief en geven eerder ideeën, gedachten en gevoelens weer dan eenvoudige relationele getallen en waarden.
Hoewel ze moeilijker te beheren zijn dan gestructureerde data, bevatten ongestructureerde data een overvloed aan waardevolle inzichten. Stelt u zich eens voor dat u ongestructureerde data kunt bekijken en de beste tijden van de dag kunt bepalen om klanten aan te trekken in winkelgebieden, of dat u realtime verkeersdata en weersinformatie samen kunt analyseren om te bepalen hoe, wanneer en waarom het stadsverkeer vastloopt. Of wat als u de inhoud van sociale media zou kunnen bekijken om te zien hoe uw klanten reageren op een recente productlancering of hoe de reputatie van uw merk fluctueert als gevolg van een terugroepactie? Dat is de kracht van ongestructureerde data.
Ongestructureerde data zijn de meest voorkomende data die organisaties tegenwoordig willen analyseren. Zoals in de bovenstaande voorbeelden kan het analyseren van ongestructureerde data met behulp van data-analysesystemen die serieuze rekenkracht en AI- en machine learning-functies bieden, leiden tot ongelooflijke inzichten die een mens niet zo snel of helemaal niet had kunnen ontdekken. Toepassingen voor data-analyse kunnen meerdere stromen van niet-verbonden data bekijken, zoals verkoopcijfers van het afgelopen jaar, weerdata, sociale media-activiteit, recente nieuwsgebeurtenissen, en nog veel meer, om patronen en correlaties te vinden die nooit eerder zijn overwogen. Met inzicht in deze patronen kunnen organisaties effectievere manieren vinden om consumentenervaringen aan te passen, betere en efficiëntere diensten te leveren, nieuwe inkomstenstromen te creëren, sneller te reageren op klant- en markttrends en veranderende eisen, en nog veel meer.
Hoewel het opslaan, beheren, analyseren en verwerken van ongestructureerde data ingewikkelder is dan van gestructureerde data, bestaan er tegenwoordig veel tools en toepassingen om organisaties te helpen hun ongestructureerde data te beheren en de verborgen waarde ervan te extraheren. Laten we eens beter kijken naar de hulpmiddelen voor data-analyse en -beheer en de databases die ongestructureerde data minder complex maken.
De beste tools voor data-analytics voor ongestructureerde data bevatten doorgaans functies op basis van AI en machine learning. Ze zijn ook vaak uitgerust met natural language processing (NLP), een soort artificiële intelligentie die ongestructureerde informatie zonder traditioneel gedefinieerd formaat kan analyseren en ontleden. Deze tools kunnen de inhoud van e-mails, sociale media, klantenservicedossiers en nog veel meer analyseren om de context en het belang van de informatie te begrijpen. Andere functies zijn text mining, forensische analyse van inhoud, auteursanalyse en tekststylometrie.
Enkele van de populairste tools voor data-analyse voor ongestructureerde data zijn:
Zoals eerder aangegeven voldoen ongestructureerde data niet aan de traditionele relationele databases, die meestal gebruik maken van Structured Query Language (SQL). Daarom gebruiken de meeste organisaties NoSQL-databases voor ongestructureerde data. NoSQL staat voor "not only SQL" en verwijst naar een niet-relationele database. Het splitst data niet op in aparte tabellen zoals relationele databases doen, dus het is niet "tabulair". In plaats daarvan zijn er vier verschillende soorten NoSQL-databases, waaronder documentgebaseerde databases, key-value stores, brede kolomgeoriënteerde databases en grafiekdatabases.
Enkele van de beste NoSQL-databases voor de opslag van ongestructureerde data zijn:
Bij het vinden van de beste managementtools voor ongestructureerde data zijn er een paar dingen waar u rekening mee moet houden. U hebt tools nodig waarmee u het volgende kunt doen:
We hebben al gezegd hoe gestructureerde data verschillen van ongestructureerde data in het algemeen, maar laten we nu eens nader bekijken hoe ook het beheer ervan verschilt.
Het voordeel van gestructureerde data is dat ze gemakkelijk te parseren zijn door toepassingen voor machine learning. De georganiseerde aard ervan maakt het eenvoudig te manipuleren en te bevragen. Gestructureerde data zijn ook gebruiksvriendelijker voor mensen die geen datawetenschapper zijn, en er zijn tegenwoordig veel volwassen, goed gecontroleerde oplossingen voor het analyseren, doorzoeken en verwerken ervan.
Hoewel gestructureerde data goed passen in relationele databases, kan het ingewikkeld zijn om ze op te zetten en de georganiseerde configuratie van data kan het moeilijk maken om ze later te veranderen. Omdat zij voldoen aan een vooraf bepaalde structuur, kan die informatie gewoonlijk alleen worden gebruikt voor het oorspronkelijk beoogde doel. Bovendien worden gestructureerde data doorgaans opgeslagen in data warehouses, die rigide en sterk gedefinieerd zijn. Dat maakt het duur in termen van tijd en moeite wanneer een organisatie die gestructureerde data anders wil gebruiken.
Ongestructureerde data worden daarentegen niet opgeslagen in een vooraf gedefinieerd format. Omdat ze worden opgeslagen in het eigen format, kunnen ze heel flexibel worden gebruikt voor een breed scala aan toepassingen en behoeften. Bovendien is het verzamelen van ongestructureerde data doorgaans snel en gemakkelijk, omdat ze niet vooraf zijn gedefinieerd. Ze worden meestal opgeslagen in data lakes, in tegenstelling tot data warehouses, en deze lakes zijn zeer schaalbaar en kunnen enorme hoeveelheden data aan.
Het nadeel van ongestructureerde data is echter dat het over het algemeen ingewikkelder en complexer is om ze voor te bereiden en te analyseren. Dit vereist getrainde datawetenschappers die weten hoe de data moeten worden opgeschoond en gebruikt - en ook begrijpen hoe verschillende datasets aan elkaar gerelateerd zijn. Ongestructureerde data vereisen ook meer gespecialiseerde instrumenten om te parseren en te analyseren. Hoewel de oplossingen nu volwassen worden, zijn ze nog steeds "jonger" dan analysetools voor gestructureerde data en hebben ze nog een weg te gaan om de mogelijkheden te evenaren die de industrie gewend is voor de manipulatie en analyse van gestructureerde data.
Ongestructureerde data zijn moeilijker te beheren, omdat ze ongestructureerd zijn. Dat leidt tot een hele reeks problemen die we al in eerdere delen hebben genoemd. Ze zijn moeilijker te organiseren, te analyseren, te verwerken, op te slaan en terug te vinden. Het opvragen, of zoeken, van data is ook moeilijker dan bij gestructureerde data vanwege het ontbreken van vaste of vooraf gedefinieerde formats en de grote verscheidenheid aan datatypes die ze omvatten.
Schaalbaarheid kan ook een probleem zijn bij ongestructureerde data, omdat traditionele opslagsystemen vereisen dat organisaties meer schijven of opslagnodes aan het systeem toevoegen om op te schalen. Dat opschalingsmodel is niet oneindig en kan na verloop van tijd ook duur worden.
Ongestructureerde data vereisen opslag die efficiënt en kosteneffectief kan worden opgeschaald. Veel opslagoplossingen voor ongestructureerde data zijn objectopslagoplossingen, omdat objectopslag gedetailleerde metadata en een unieke ID bevat om de toegang tot en het ophalen van data te vergemakkelijken. De opslag van ongestructureerde data moet ook flexibel zijn om een reeks datatypes mogelijk te maken en de toegang tot gearchiveerde data te vereenvoudigen.
Hoewel ongestructureerde data doorgaans nog steeds moeilijker te beheren en te gebruiken zijn dan gestructureerde data, is de extra inspanning de moeite waard. Ongestructureerde data zijn rijk aan verborgen patronen en inzichten die uw organisatie nieuwe en innovatieve manieren kunnen bieden om te concurreren en succesvol te zijn in de steeds fellere markt van vandaag.
Hebt u een vraag of opmerking over Pure-producten of certificeringen? Wij zijn er om te helpen.
Plan een livedemo in en zie zelf hoe Pure kan helpen om jouw data in krachtige resultaten om te zetten.
Bel ons: 31 (0) 20-201-49-65
Media: pr@purestorage.com
Pure Storage
Herikerbergweg 292
1101 CT . Amsterdam Zuidoost
The Netherlands