За последнее десятилетие наше определение данных и наши представления о них значительно изменились. Отчасти это было вызвано все большей доступностью новых инструментов для чтения, хранения и анализа неструктурированных данных.
В прошлом неструктурированные данные часто недостаточно использовались из-за трудностей, связанных с их интерпретацией. Новые технологии облегчили не только понимание неструктурированных данных, но и извлечение ценных важных сведений из этой сокровищницы информации.
Согласно IDC, общий объем данных, создаваемых, фиксируемых, копируемых и потребляемых во всем мире, к 2024 году превысит 149 зеттабайт в год. Основная часть этих данных будет неструктурированной. Каждая организация выиграет от появившихся возможностей анализа неструктурированных данных. Первый шаг на этом пути — просто понять, что такое структурированные и неструктурированные данные.
Ниже приведено краткое описание разницы между этими двумя категориями, а далее можно будет ознакомиться с более подробными объяснениями.
Структурированные данные имеют четко определенную схему для хранящейся в них информации. Если дать предельно простое определение, то любые данные, которые могут быть представлены в табличном редакторе, например Google Таблицы или Microsoft Excel, являются структурированными.
В этом примере данные могут быть представлены в виде строк и столбцов. Каждый столбец представляет отдельный атрибут, а каждая строка содержит данные, связанные с атрибутом для одного экземпляра. Строки и столбцы образуют таблицу, на которую можно легко ссылаться.
Разные таблицы можно связать между собой посредством общего столбца, присутствующего в обеих таблицах.
Если последовательно и комбинированно связать несколько таблиц, будет создана реляционная база данных. Например, данные о клиентах, продажах и товарно-материальных запасах в универсальном магазине можно рассматривать как структурированные данных, хранящиеся в реляционной базе данных.
Структурированные данные такого рода обычно хранятся в реляционных системах управления базами данных (РСУБД). Базы данных можно записывать, читать и манипулировать ими с помощью языка структурированных запросов (SQL), разработанного компанией IBM в 1970-х гг. для поддержки баз данных своих центральных компьютеров. Хотя изначально он был известен как английский язык для последовательных запросов (Sequence English Query Language, SEQUEL). Такое название обусловлено тем, что язык был весьма похож на английский. SQL в его нынешней форме был популяризирован компанией Relational Software, Inc. (сейчас называется Oracle).
Любой неструктурированный фрагмент данных может быть классифицирован как неструктурированные данные. По оценкам, к 2025 году 80 % данных, с которыми мы сталкиваемся, будут неструктурированными — в виде текста, аудио, изображений или видео1.
Если говорить вкратце, то неструктурированные данные — это современные данные. Они часто:
С неструктурированными данными могут быть связаны уже структурированные метаданные. Например, видео может содержать метаданные о разрешении, битрейте, количестве кадров в секунду (FPS), владельце и т. д. Но само видео является неструктурированным. Неструктурированные данные, с которыми связаны структурированные метаданные, иногда называют полуструктурированными.
Если внимательно рассмотреть пример видео на YouTube, можно увидеть некоторые метаданные, такие как время загрузки, дата загрузки, количество просмотров (частичных или полных), количество отметок «нравится» и «не нравится» и др. Но контент в названии видео, его описании и самом видео является неструктурированным. Он имеет качественный аспект, который невозможно передать только цифрами.
Наиболее часто используемой базой данных для неструктурированных данных является NoSQL. NoSQL означает «не только SQL», указывая на то, что база данных может обрабатывать более широкий спектр данных, выходящий за рамки возможностей баз данных SQL. Для баз данных NoSQL не существует схемы или табличной структуры. Это просто набор данных, сгруппированных вместе.
Хотя неструктурированные данные могут обеспечить значительные важные сведения и огромный трансформационный потенциал, их обработка сопряжена с определенными проблемами. Передовое решение по хранению UFFO от Pure, Pure Storage® FlashBlade®, отличается высокой скоростью за счет технологии флэш-памяти, а также возможностью гибкого масштабирования любой архитектуры. Давайте рассмотрим подробнее. Pure предлагает бесплатную пробную версию Pure FlashBlade, чтобы вы могли протестировать решение без каких-либо обязательств.
1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html