Как хранилища данных способствуют бизнес-анализу

Что такое хранилище данных?

Что такое хранилище данных?

Хранилище данных — это система хранения данных, оптимизированная для хранения структурированных данных с целью выполнения высокоскоростных SQL-запросов, необходимых для своевременного бизнес-анализа (BI). В разных направлениях, от обработки высокоскоростных транзакций до прогнозной аналитики, хранилища данных используются уже десятилетиями и фактически стали стандартом СХД для бизнес-анализа на корпоративном уровне.

Преимущества хранилищ данных

Преимущества хранилищ данных:

  • Консолидация структурированных данных из множества разрозненных источников 
  • Быстрые аналитические запросы от реляционных баз данных
  • Специальное решение по хранению для снижения стоимости обработки запросов и ускорения получения отчетов

Проведите тест-драйв FlashBlade

Опробуйте инстанс Pure1® с самообслуживанием для управления Pure FlashBlade™, самого передового решения в отрасли, предоставляющего файловое хранилище и хранилище объектов с горизонтальным масштабированием.

Как работают хранилища данных

Логистика сбора данных из различных подразделений компаний для извлечения полезной информации может масштабироваться по мере роста бизнеса. С помощью хранилищ данных компании могут надежно консолидировать эту информацию в единую базу данных и модель данных, что позволит  аналитикам выполнять запросы. 

Вот как это работает:

  1. Извлечение: сбор необработанных данных из разрозненных источников в организации (например, ERP, CRM, отделы продаж и маркетинга) в промежуточные базы данных.
  2. Преобразование: данные передаются с промежуточного уровня на уровень интеграции, где они объединяются и преобразуются в хранилище операционных данных (ODS).
  3. Загрузка: данные перемещаются с уровня интеграции в хранилище данных с определением схемы, которую аналитики желают использовать для своих SQL-запросов, а затем записываются в реляционную базу данных (схема при записи). 

База данных, с которой взаимодействуют в хранилище данных, является реляционной, т. е. данные структурированы — хранятся в таблицах, состоящих из столбцов и строк. Такие таблицы организованы по схеме, которая была определена  во время записи. 

Когда этап преобразования обрабатывается хранилищем ODS, которое является внешним по отношению к хранилищу данных, он называется ETL (Extract, Transform, Load — извлечение, преобразование, загрузка). Когда преобразования обрабатываются внутри хранилища данных, это ELT (Extract, Load, Transform — извлечение, загрузка, преобразование). При использовании как ETL, так и ELT хранилищам данных требуются структурированные данные и схема при записи для работы с реляционными базами данных.

Для чего используются хранилища данных?

Распространенные сферы применения хранилищ данных:

  • Онлайновая обработка транзакций (OLTP): Хранилище данных можно оптимизировать для обеспечения целостности данных и высокой скорости запросов для обработки большого объема коротких транзакций с данными. В качестве примера можно привести транзакции, которые выполняются на платформе высокочастотного трейдинга. 
  • Онлайновая аналитическая обработка (OLAP): Можно оптимизировать хранилище данных для ускорения сложных запросов при относительно небольшом объеме транзакций. Обычно аналитики используют OLAP для создания отчетов бизнес-анализа.
  • Прогнозная аналитика: Систему OLAP можно оптимизировать для прогнозирования будущих событий и создания сценариев «что, если» для компании — во многих случаях с помощью алгоритмов машинного обучения.

Поскольку хранилища данных представляют собой схему при записи, важно выяснить, какие типы запросов будут выполняться, прежде чем добавлять схему в хранилище данных. Чтобы уменьшить сложность разрозненных источников данных, хранилище данных можно сегментировать на витрины данных, чтобы выделять аппаратные и программные ресурсы для определенных бизнес-функций, например CRM.

Сравнение хранилищ данных, озер данных и Data Hub

Хотя эти три концепции могут показаться взаимозаменяемыми, важно понимать различия между ними:

  • Хранилище данных: один репозиторий для интеграции и хранения структурированных данных, полученных из нескольких источников неструктурированных данных в организации.
  • Озеро данных: один неоптимизированный репозиторий всех структурированных и неструктурированных источников исходных данных в организации (включая хранилища данных). Для извлечения важных данных бизнес-анализа необходимо выполнять обработку данных. 
  • Data Hub: единый интерфейс, объединяющий все данные, как структурированные, так и неструктурированные, на центральном доступном уровне данных. Он отличается от хранилища данных тем, что также может обрабатывать операционные данные, и отличается от озера данных возможностью предоставлять данные в нескольких форматах. 

Data Hub обеспечивает управление данными, необходимое для рационализации совместного использования данных в разных совокупностях конечных точек. Таким образом, Data Hub консолидирует озера данных и хранилища данных в единый уровень доступа. Обработка данных абстрагирована от Data Hub, поэтому организации могут централизованно извлекать важные данные бизнес-анализа.

Почему стоит выбрать Pure Storage для удовлетворения потребности в хранилище данных?

Если вам необходимо добавить новый ресурс OLAP или OLTP к существующей инфраструктуре хранилища данных, возможно, пора рассмотреть инвестирование в более современное взаимодействие с данными — Modern Data Experience™ с решениями all-flash СХД от Pure Storage. 

 FlashBlade® от Pure Storage® — это первый в отрасли Data Hub, который не только может справиться с рабочими средами для аналитики и отчетов в хранилище данных, но и имеет важные характеристики, которые являются основой Data Hub:

  • Беспрепятственное совместное использование данных во всех конечных точках данных
  • Единое хранилище для файлов и объектов
  • Возможность обрабатывать операционные данные в реальном времени
  • Нативная архитектура, в которой предусмотрено горизонтальное масштабирование;
  • Предусмотренное проектом обеспечение многомерной производительности при работе с любыми данными
  • Массивная параллельность от ПО до оборудования
800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387