Руководство

Руководство по большим данным для начинающих

Что такое большие данные?

Современные компании собирают огромные объемы данных из различных источников, и такие данные часто необходимо анализировать в реальном времени. Большими называются данные, которые слишком большие, слишком быстрые или слишком сложные, чтобы их можно было обрабатывать с помощью традиционных технологий. Но они также включают в себя многочисленные технологии и стратегии, которые можно реализовать с помощью больших данных, например: области генерирования аналитических данных, такие как прогнозная аналитика, Интернет вещей, искусственный интеллект и многое другое.

В отчете Research and Markets говорится, что мировой рынок больших данных достигнет к 2026 году 156 млрд долл. США, и у компаний могут быть самые разные причины оказаться в числе участников такого рынка. В этой статье в общих чертах рассказано, что такое большие данные, откуда они поступают, для чего их можно использовать и как компании могут подготовить свои ИТ-инфраструктуры для успешной работы с большими данными.

Три «V» больших данных

Хотя концепция больших данных была сформулирована относительно давно, отраслевой аналитик Даг Лейни (Doug Laney) первым озвучил идею «трех V» больших данных в 2001 году. Три «V»:

  • Объем (Volume): количество данных, подлежащих обработке (обычно очень значительное, измеряемое в гигабайтах, экзабайтах и более крупных единицах)
  • Разнообразие (Variety): самые разные типы данных, структурированных и нет, поступающие в формате потоковой передачи из множества различных источников
  • Скорость (Velocity): скорость потоковой передачи новых данных в систему

Некоторые эксперты по данным расширяют определение, добавляя четвертые, пятые и другие «V». Четвертые и пятые «V»:

  • Достоверность (Veracity): точность, прецизионность и надежность данных
  • Ценность (Value): какова ценность данных для бизнеса?

Хотя список можно расширить до 42 «V», именно эти пять факторов чаще всего упоминаются для определения больших данных.

Существуют также два вида больших данных, которые различаются по способу их обработки, вопросам и запросам, для ответов на которые они используются.

  • Пакетная обработка обычно используется с большими объемами архивных данных для обоснования долгосрочных стратегий или ответов на важные вопросы. Представьте себе огромные объемы данных со сложным, глубоким анализом.
  • Данные потоковой передачи — это не столько ответы на серьезные вопросы, сколько получение информации в реальном времени для оперативных целей, например для постоянного обеспечения точности производственного процесса. Обычно они используются при работе с большими объемами данных, которые передаются на высокой скорости. Представьте себе огромные объемы данных, которые передаются на высокой скорости, с менее сложным, но чрезвычайно быстрым анализом.

Узнайте больше о разнице между большими и традиционными данными.

 

Откуда поступают большие данные?

Фактически термином «большие данные» обозначают все неструктурированные современные данные, собираемые сегодня, и методы их использования для глубокого анализа и извлечения важной информации. Основные источники:

  • Интернет вещей и данные, получаемые от миллиардов устройств и датчиков
  • Генерируемые компьютерами данные журналов, используемые для аналитики журналов
  • Программное обеспечение, платформы и приложения корпоративного класса
  • Люди: социальные сети, транзакции, клики на сайтах, медицинские документы, потребление природных ресурсов и т. д.
  • Данные исследований, полученные от научных сообществ и других организаций

 

Тип больших данных: Структурированные и неструктурированные

Для разных типов данных нужны разные типы хранения. Это касается структурированных и неструктурированных данных, для которых требуются различные типы баз данных, обработки, хранения и анализа.

Структурированные данные являются традиционными, их можно аккуратно представить в виде таблиц. Структурированные данные часто легко классифицируются и форматируются с получением записей стандартных значений, к которым относятся цены, даты, время и т. д.

Неструктурированные данные — это современные данные, которые сложно организовать в табличном представлении. Сегодня неструктурированные данные часто являются синонимом больших данных, а в ближайшие годы, согласно оценкам, они будут составлять около 80 % данных. Сюда входят все данные, генерируемые социальными сетями, Интернетом вещей, создателями контента, системами наблюдения и т. д. Они могут включать текст, изображения, звук и видео. Это движущая сила, стоящая за новыми категориями хранения данных, такими как единое быстрое хранилище для файлов и объектов (UFFO) FlashBlade®. Для использования неструктурированных данных компаниям требуется больше СХД, больше вычислительной мощности и лучшая консолидация многочисленных типов данных.

Узнайте больше о том, чем структурированные данные отличаются от неструктурированных.

 

Как выглядит жизненный цикл больших данных?

Жизненный цикл может включать, в частности, следующее:

  1. Извлечение и сбор данных. Данные могут поступать из различных источников, включая системы планирования ресурсов предприятия, датчики Интернета вещей, программное обеспечение (например, маркетинговые приложения или приложения для точек продаж), данные потоковой передачи через API и т. д. Эти данные могут выводиться по-разному, поэтому важным следующим шагом является их прием. Например, данные, поступающие с фондового рынка, будут значительно отличаться от данных журналов внутренних систем.
  2. Прием данных. В ходе процесса извлечения, преобразования и загрузки (ETL) данные преобразуются в один из нужных форматов. Независимо от того, передаются они в базу данных SQL или средство визуализации, данные необходимо преобразовать в понятный инструментам формат. Например, имена могут быть в разных форматах. После этого процесса все данные будут готовы для анализа.
  3. Загрузка данных в СХД для обработки. После этого данные сохраняют в том или ином ресурсе: в облачном или локальном хранилище данных. Это можно сделать по-разному, в зависимости от того, загружаются данные по пакетам или же потоковая передача данных на основе событий происходит круглосуточно. (Примечание: этот шаг может выполняться до шага трансформации, в зависимости от бизнес-потребностей.)

    Узнать больше: Что такое хранилище данных?

  4. Запросы к данным и анализ данных. Современные облачные средства для вычислений, обработки и хранения данных в значительной степени определяют развитие жизненного цикла больших данных. (Примечание: некоторые современные инструменты, например Amazon Redshift, позволяют обойти процессы ETL и начать выполнять запросы к данным гораздо быстрее.) 
  5. Архивирование данных. Независимо от того, хранятся ли они в течение длительного времени в холодной СХД или же «в тепле», т.е. в более доступной СХД, чувствительные ко времени данные, выполнившие свое предназначение, перемещаются в хранилище. Если немедленный доступ больше не требуется, можно использовать холодную СХД — это доступный по цене и эффективный по занимаемому месту способ хранения данных, особенно если нужно выполнять нормативные требования или принимать долгосрочные стратегические решения на основе необходимой информации. Это также снижает влияние на производительность хранения петабайтов холодных данных на сервере, где также хранятся горячие данные.

 

Что могут сделать компании с большими данными?

Большие данные можно эффективно и продуктивно использовать различными способами. Их ценность заключается в прорывах в бизнесе, которые упрощаются за счет извлечения важной информации из больших данных. Цели и области применения больших данных часто включают следующее:

  • Получение важных данных и аналитики в реальном времени «на лету» за счет анализа потоковых данных для запуска оповещений и выявления аномалий
  • Прогнозная аналитика
  • Бизнес-анализ
  • Машинное обучение
  • Анализ рисков, помогающий предотвратить мошенничество и утечку данных, а также снизить угрозы для безопасности
  • Искусственный интеллект, включая распознавание изображений, обработку естественного языка и нейронные сети
  • Улучшение взаимодействия с пользователями и клиентами с помощью рекомендательных обработчиков и прогнозной поддержки
  • Снижение затрат и неэффективности процессов (внутренних, производственных и др.)
  • Маркетинг и коммуникации, основанные на данных, с анализом миллионов единиц информации из социальных сетей, от потребителей и из цифровой рекламы, создаваемых в режиме реального времени

Ознакомьтесь с другими примерами использования и областями применения больших данных в конкретных отраслях.

 

Как хранятся большие данные?

Для больших данных предъявляются уникальные требования, особенно в отношении хранения. Их почти постоянно записывают в базу данных (как в случае с потоковыми данными в реальном времени), они часто содержат огромное количество форматов. Поэтому большие данные часто лучше всего хранить в неструктурированных средах (без схем) для запуска в распределенной файловой системе, чтобы обработка массивных наборов данных могла происходить параллельно. Это отличный вариант для платформы неструктурированной СХД, которая может объединять файловые и объектные данные.

Узнайте больше о разнице между Data Hub и озером данных.

 

Как периферийные вычисления повышают спрос на большие данные

Развитие Интернета вещей (IoT) привело к увеличению объема данных, которыми необходимо управлять с помощью множества распределенных устройств. 

Вместо того чтобы ждать, пока данные Интернета вещей будут переданы и обработаны удаленно и централизованно, например в ЦОД, применяются периферийные вычисления. Это топология распределенных вычислений, в которой информация обрабатывается локально, на периферии, где взаимодействуют люди с устройствами и создаются новые данные. 

Периферийные вычисления не только экономят компаниям деньги и пропускную способность, но и позволяют разрабатывать более эффективные приложения, работающие в реальном времени и обеспечивающие превосходное взаимодействие с пользователем и клиентами. В ближайшие годы эта тенденция только усилится с внедрением таких новейших беспроводных технологий, как 5G.

По мере подключения все большего количества устройств к интернету будет расти и объем данных, обрабатываемых в реальном времени на периферии. Как же обеспечить распределенную и достаточно гибкую систему хранения данных, чтобы удовлетворить растущие требования к таким системам для периферийных вычислений? Краткий ответ: с помощью нативных контейнерных систем хранения данных. 

Если рассмотреть такие имеющиеся периферийные платформы, как AWS Snowball, Microsoft Azure Stack и Google Anthos, то можно увидеть, что все они основаны на Kubernetes — популярной платформе оркестрации контейнеров. С помощью Kubernetes можно запускать на периферии рабочие среды для приема, хранения и обработки данных, аналитики и машинного обучения. 

Для многоузлового кластера Kubernetes, работающего на периферии, нужен эффективный, нативный контейнерный обработчик СХД, соответствующий конкретным потребностям информационно-центрических рабочих сред. Иными словами, для контейнерных приложений, работающих на периферии, требуется управление хранением данных с детализацией на уровне контейнеров. Portworx® — это функциональная платформа, которая обеспечивает коммутационную матрицу с отслеживанием состояния для управления объемами данных с учетом контейнеров и соглашений об уровне обслуживания.

Узнайте больше о взаимосвязи между большими данными и Интернетом вещей.

 

Масштабируемая all-flash СХД для всех потребностей, связанных с большими данными

Преимущества размещения больших данных на all-flash массивах включают в себя следующее:

  • Более высокая скорость (55–180 IOPS для HDD по сравнению с 3000–40 000 IOPS для SSD)
  • Массовый параллелизм с возможностью использования более чем 64 000 очередей для операций ввода/вывода.
  • Производительность и надежность NVMe

 

Почему стоит выбрать Pure Storage® для удовлетворения потребностей, связанных с большими данными?

Объем, разнообразие и скорость больших данных относительны и постоянно меняются. Если вы хотите, чтобы ваши данные оставались большими и быстрыми, необходимо согласованно инвестировать в новейшие технологии хранения данных. Успехи в развитии флэш-памяти позволили создать специальные решения all-flash СХД для всех уровней данных. Вот как компания Pure может помочь усилить ваш канал для анализа больших данных:

  • Все преимущества all-flash массивов
  • Консолидация в единый производительный Data Hub, который может с высокой пропускной способностью обрабатывать данные, поступающие в режиме потоковой передачи из различных источников
  • Настоящая бесперебойная программа Evergreen™ обновляется без простоев и без переноса данных
  • Упрощенная система управления данными, сочетающая в себе облачную экономику с on-premise управлением и высокой эффективностью.

Быстрая и эффективная флэш-СХД с горизонтальным масштабированием и FlashBlade

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387