Руководство по большим данным для начинающих

Структурированные данные в сравнении с неструктурированными

За последнее десятилетие наше определение данных и наши представления о них значительно изменились. Отчасти это было вызвано все большей доступностью новых инструментов для чтения, хранения и анализа неструктурированных данных.

В прошлом неструктурированные данные часто недостаточно использовались из-за трудностей, связанных с их интерпретацией. Новые технологии облегчили не только понимание неструктурированных данных, но и извлечение ценных важных сведений из этой сокровищницы информации.

Согласно IDC, общий объем данных, создаваемых, фиксируемых, копируемых и потребляемых во всем мире, к 2024 году превысит 149 зеттабайт в год. Основная часть этих данных будет неструктурированной. Каждая организация выиграет от появившихся возможностей анализа неструктурированных данных. Первый шаг на этом пути — просто понять, что такое структурированные и неструктурированные данные.

Ниже приведено краткое описание разницы между этими двумя категориями, а далее можно будет ознакомиться с более подробными объяснениями.

Характеристики

Структурированные данные

Неструктурированные данные

Характер данных

Обычно количественные

Обычно качественные

Модель данных

Предварительно определены; после определения модели и сохранения некоторых данных трудно изменить модель

В неструктурированных данных нет определенной схемы; модель данных очень гибкая

Формат данных

Доступно ограниченное количество форматов данных

Для неструктурированных данных существует огромное количество форматов

Базы данных

Используются реляционные базы данных на основе SQL

Используются базы данных NoSQL без определенной схемы

Поиск

Очень простой поиск и нахождение данных в базе данных или наборе данных

Очень трудно искать конкретные данные, поскольку они неструктурированы

Анализ

Очень легко анализировать данные, поскольку они количественные

Очень трудно анализировать, даже с помощью существующих программных средств

Метод хранения

Для структурированных данных используются хранилища

Для хранения неструктурированных данных используются озера

Что такое структурированные данные?

Структурированные данные имеют четко определенную схему для хранящейся в них информации. Если дать предельно простое определение, то любые данные, которые могут быть представлены в табличном редакторе, например Google Таблицы или Microsoft Excel, являются структурированными.

В этом примере данные могут быть представлены в виде строк и столбцов. Каждый столбец представляет отдельный атрибут, а каждая строка содержит данные, связанные с атрибутом для одного экземпляра. Строки и столбцы образуют таблицу, на которую можно легко ссылаться.

Разные таблицы можно связать между собой посредством общего столбца, присутствующего в обеих таблицах.

Если последовательно и комбинированно связать несколько таблиц, будет создана реляционная база данных. Например, данные о клиентах, продажах и товарно-материальных запасах в универсальном магазине можно рассматривать как структурированные данных, хранящиеся в реляционной базе данных.

  • У каждого клиент будет свой идентификатор, а также поля для имени, контактного номера, информации о кредитной карте, адреса и т. д.
  • База данных клиентов может быть подключена к базе данных о продажах, с атрибутами, включающими время покупки, коды приобретенных товаров, общую потраченную сумму, идентификатор клиента и т. д. Обе таблицы будут связаны общим атрибутом идентификатора клиента.
  • Наконец, базу данных о продажах можно подключить к базе данных о товарно-материальных запасах с помощью общего атрибута кода товара, эффективно объединив все три таблицы в реляционную базу данных.

Структурированные данные такого рода обычно хранятся в реляционных системах управления базами данных (РСУБД). Базы данных можно записывать, читать и манипулировать ими с помощью языка структурированных запросов (SQL), разработанного компанией IBM в 1970-х гг. для поддержки баз данных своих центральных компьютеров. Хотя изначально он был известен как английский язык для последовательных запросов (Sequence English Query Language, SEQUEL). Такое название обусловлено тем, что язык был весьма похож на английский. SQL в его нынешней форме был популяризирован компанией Relational Software, Inc. (сейчас называется Oracle).

Что такое неструктурированные данные?

Любой неструктурированный фрагмент данных может быть классифицирован как неструктурированные данные. По оценкам, к 2025 году 80 % данных, с которыми мы сталкиваемся, будут неструктурированными — в виде текста, аудио, изображений или видео1.

Если говорить вкратце, то неструктурированные данные — это современные данные. Они часто:

  • Рождаются в цифровой среде и непредсказуемы
  • Постоянно создаются и перемещаются
  • Смешанные, многорежимные и совместимые
  • Территориально распределены для усиления защиты

С неструктурированными данными могут быть связаны уже структурированные метаданные. Например, видео может содержать метаданные о разрешении, битрейте, количестве кадров в секунду (FPS), владельце и т. д. Но само видео является неструктурированным. Неструктурированные данные, с которыми связаны структурированные метаданные, иногда называют полуструктурированными.

Если внимательно рассмотреть пример видео на YouTube, можно увидеть некоторые метаданные, такие как время загрузки, дата загрузки, количество просмотров (частичных или полных), количество отметок «нравится» и «не нравится» и др. Но контент в названии видео, его описании и самом видео является неструктурированным. Он имеет качественный аспект, который невозможно передать только цифрами.

Наиболее часто используемой базой данных для неструктурированных данных является NoSQL. NoSQL означает «не только SQL», указывая на то, что база данных может обрабатывать более широкий спектр данных, выходящий за рамки возможностей баз данных SQL. Для баз данных NoSQL не существует схемы или табличной структуры. Это просто набор данных, сгруппированных вместе.

 

Хранение неструктурированных данных с помощью UFFO

Хотя неструктурированные данные могут обеспечить значительные важные сведения и огромный трансформационный потенциал, их обработка сопряжена с определенными проблемами. Передовое решение по хранению UFFO от Pure, Pure Storage® FlashBlade®, отличается высокой скоростью за счет технологии флэш-памяти, а также возможностью гибкого масштабирования любой архитектуры. Давайте рассмотрим подробнее. Pure предлагает бесплатную пробную версию Pure FlashBlade, чтобы вы могли протестировать решение без каких-либо обязательств.

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387