Руководство по большим данным для начинающих

Большие данные в сравнении с традиционными

Большие данные открывают перед компаниями огромные возможности, включая важные сведения о поведении клиентов, более точные прогнозы рыночной активности и повышение эффективности в целом.

С каждым годом люди и компании генерируют все больше и больше данных. Согласно отчету IDC, в 2010 году в мире было создано всего 1,2 зеттабайта (1,2 триллиона гигабайт) новых данных. К 2025 году этот показатель может увеличиться до 175 зеттабайт (175 триллионов гигабайт) и больше1.

По мере того как компании будут использовать этот процветающий ресурс с помощью прогнозной аналитики и извлечения данных, будет расти и рынок больших данных. Statista Research прогнозирует, что рынок больших данных удвоится в период с 2018 по 2027 гг. с 169 до 274 млрд долларов.

Но каковы основные различия между большими и традиционными данными? И какое влияние они оказывают на современные технологии хранения, обработки и анализа данных? В этой статье мы разъясним различные цели, которым служит каждый тип данных, и подчеркнем важность стратегии для планирования успешной работы как с большими, так и с традиционными данными.

 

Что такое традиционные данные?

Традиционные данные — это структурированные, реляционные данные, которые хранятся и обрабатываются в организациях на протяжении десятилетий. Бóльшая часть мировых данных по-прежнему остается традиционными.

Компании могут использовать традиционные данные для отслеживания продаж, управления отношениями с клиентами или рабочими процессами. Традиционными данными часто легче манипулировать, ими можно управлять с помощью обычного программного обеспечения для обработки данных. Но, как правило, из них можно извлечь меньше важных сведений и их преимущества более ограничены по сравнению с большими данными.

 

Что такое большие данные?

Термин «большие данные» может относиться как к большому и сложному набору данных, так и к методам, используемым для обработки таких данных. У больших данных есть четыре основные характеристики, часто известные как «четыре V»:

  • Объем (Volume): Большие данные… большие. Большие данные отличаются не только своим размером, они, как правило, очень большие по объему.
  • Разнообразие (Variety): В набор больших данных обычно входят структурированные, полуструктурированные и неструктурированные данные.
  • Скорость (Velocity): Большие данные генерируются быстро и часто обрабатываются в режиме реального времени.
  • Достоверность (Veracity): Большие данные не являются по своей сути более качественными, чем традиционные данные, но их достоверность (точность) чрезвычайно важна. Аномалии, смещения и помехи могут существенно повлиять на качество больших данных.

 

Различия между большими и традиционными данными

Провести разницу между большими и традиционными данными можно с помощью нескольких характеристик. К таким характеристикам относятся:

  • Размер данных
  • Способ организации данных
  • Необходимая архитектура для управления данными
  • Источники, из которых поступают данные
  • Методы анализа данных

Размер

Наборы традиционных данных обычно измеряются в гигабайтах и терабайтах. Такой размер позволяет использовать централизованную СХД, даже на одном сервере.

Большие данные отличаются не только размером, но и объемом. Большие данные обычно измеряются в петабайтах, зеттабайтах или экзабайтах. Наборы больших данных увеличиваются в размерах, это один из основных факторов, определяющих спрос на более современные облачные решения высокой емкости для хранения данных.

Организация

Традиционные данные обычно структурированы и организованы в виде записей, файлов и таблиц. Поля в традиционных наборах данных являются реляционными, поэтому можно выяснить их взаимосвязь и соответствующим образом манипулировать данными. В традиционных базах данных, таких как SQL, Oracle DB и MySQL, используется фиксированная схема, которая является статичной и предварительно настроенной.

Для больших данных используется динамическая схема. Большие данные в СХД необработанные и неструктурированные. При доступе к большим данным применяется динамическая схема к необработанным данным. Современные нереляционные или NoSQL базы данных, такие как Cassandra и MongoDB, идеально подходят для неструктурированных данных, если учесть способ хранения данных в файлах.

Архитектура

Традиционные данные обычно управляются с помощью централизованной архитектуры, которая может быть более экономически эффективной и безопасной для небольших структурированных наборов данных.

В общем случае централизованная система состоит из одного или нескольких клиентских узлов (например, компьютеров или мобильных устройств), подключенных к центральному узлу (например, серверу). Центральный сервер управляет сетью и следит за ее безопасностью.

Из-за масштаба и сложности больших данных невозможно управлять ими централизованно. Для них требуется распределенная архитектура.

Распределенные системы соединяют между собой множественные серверы или компьютеры в общую сеть, которые работают как одноранговые узлы. Архитектуру можно масштабировать горизонтально, она продолжит функционировать даже в случае выхода из строя отдельного узла. В распределенных системах можно использовать стандартное оборудование, снижая тем самым затраты.

Источники

Традиционные данные обычно поступают из систем планирования ресурсов предприятия (ERP), управления взаимоотношениями с клиентами (CRM), онлайн-транзакций и других данных корпоративного уровня.

Большие данные — это более широкий спектр данных корпоративного и не корпоративного уровня, они могут включать информацию из социальных сетей, данные устройств и датчиков, а также аудиовизуальные данные. Эти типы источников динамичны, развиваются и растут с каждым днем.

Источниками неструктурированных данных могут быть также текстовые, видео-, графические и аудиофайлы. Такого рода данные невозможно представить в виде столбцов и строк традиционных баз данных. Поскольку неструктурированные данные увеличиваются в объеме и поступают из множества источников, для извлечения из них пользы требуются методы анализа больших данных.

Анализ

Анализ традиционных данных осуществляется постепенно. Происходит событие, генерируются данные, а затем выполняется анализ соответствующих данных. С помощью анализ традиционных данных специалисты компаний могут понять, как определенные стратегии или изменения повлияли на ограниченный диапазон метрик за указанный период.

Анализ больших данных можно осуществлять в реальном времени. Поскольку большие данные генерируются ежесекундно, анализ можно выполнять по мере их сбора. С помощью анализа больших данных специалисты компаний могут получить более динамичное и цельное представление о своих потребностях и стратегиях.

Предположим, к примеру, что компания инвестировала средства в учебную программу для своего персонала и желает измерить результат.

Используя традиционную модель анализа данных, компания может определить результат программы обучения в конкретной области своей деятельности, например продажах. Компания записывает объем продаж до и после обучения, а также исключает все внешние факторы. Теоретически она может увидеть, насколько увеличились продажи в результате тренинга.

В рамках модели анализа больших данных компания может отложить вопросы о том, как программа обучения повлияла на тот или иной аспект ее деятельности. Вместо этого, анализируя массу данных, собранных в реального времени на всем предприятии, компания может определить конкретные затронутые области, например продажи, обслуживание клиентов, связи с общественностью и многое другое.

 

Большие данные в сравнении с традиционными: важные факторы для рассмотрения на будущее

Большие данные и традиционные данные служат разным, но связанным между собой целям. Хотя может показаться, что у больших данных больше потенциальных преимуществ, они не подходят (или не нужны) при определенных обстоятельствах. Большие данные:

  • Могут обеспечить более глубокий анализ тенденций рынка и поведения потребителей. Анализ традиционных данных может быть более узким и слишком ограниченным для получения значимых важных сведений, которые могут дать большие данные.
  • Позволяют быстрее получить важные сведения. Организации могут делать выводы на основании больших данных в реальном времени. В контексте анализа больших данных это может обеспечить конкурентное преимущество.
  • Более эффективны. Цифровизация общества продолжается, а это означает, что люди и компании генерируют огромное количество данных ежедневно — даже ежеминутно. С помощью больших данных мы можем использовать эту информацию и интерпретировать ее осмысленно.
  • Требуют дополнительной подготовки. Для использования упомянутых преимуществ организациям нужно подготовиться к работе с большими данными с помощью новых протоколов безопасности, выполнив определенные действия по настройке конфигураций и увеличив доступную мощность обработки.

Рост больших данных не означает, что традиционные данные уходят. Традиционные данные:

  • Проще защитить, поэтому предпочтительно использовать их для наборов высокочувствительных, личных и конфиденциальных данных. Поскольку традиционные данные меньшие по размеру, для них не требуется распределенная архитектура, и менее вероятно, что для них потребуется СХД сторонних поставщиков.
  • Можно обрабатывать с помощью традиционного программного обеспечения в системах с обычной конфигурацией. Для обработки больших данных обычно требуется более высокая настройка, что может привести к ненужному росту используемых ресурсов и затрат в тех случаях, когда достаточно методов обработки традиционных данных.
  • Проще в управлении и интерпретации. Поскольку традиционные данные более просты и по своей природе реляционные, их можно обрабатывать с помощью обычных функций, что доступно даже не экспертам.

В конечном итоге выбрать между большими и традиционными данными несложно. Поскольку все больше компаний генерируют большие наборы неструктурированных данных, возникает необходимость в наличии нужных инструментов. Для обновления стратегии и подготовке к будущим задачам, связанным с большими данными, нужно понимать, как использовать и поддерживать обе модели.

 

Другие главы Руководства по большим данным

  1. Структурированные данные в сравнении с неструктурированными
  2. 5 путей развития компаний с помощью больших данных
  3. Взаимосвязь между большими данными и Интернетом вещей

1https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020-and-the-coming-decade/?sh=44e375c74fc3

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387