Wie Data Warehouses Business-Intelligence unterstützen

Was ist ein Data Warehouse?

Was ist ein Data Warehouse?

Ein Data Warehouse ist ein Storage-System, das dafür optimiert ist, strukturierte Daten zu speichern, um die Hochgeschwindigkeits-SQL-Abfragen durchzuführen, die zum schnellen Bereitstellen von Business-Intelligence nötig sind. Vom Verarbeiten von Hochgeschwindigkeits-Transaktionen hin zu vorausschauenden Analysen: Data Warehouses sind seit Jahrzehnten faktisch der Storage-Standard, den Unternehmen verwenden, um ihre BI zu unterstützen.

Die Vorteile von Data Warehouses

Data Warehouses haben unter anderem folgende Vorteile:

  • Konsolidierung strukturierter Daten aus mehreren verteilten Quellen 
  • schnelle analytische Abfragen von relationalen Datenbanken
  • eine dedizierte Storage-Lösung für günstigere Abfragen und schnellere Berichterstellung

FlashBlade selbst testen

Erleben Sie eine Self-Service-Instanz von Pure1® zum Verwalten von Pure FlashBlade™, der fortschrittlichsten Lösung der Branche, die nativen skalierbaren Datei- und Objekt-Storage liefert.

So funktionieren Data Warehouses

Die Logistik der Erfassung von Daten aus unterschiedlichen Teilen eines Unternehmens zum Extrahieren nützlicher Informationen kann in ihrer Komplexität mit Ihrem Unternehmen wachsen. Data Warehouses können Ihrem Unternehmen eine zuverlässige Möglichkeit bieten, diese Informationen in eine einzige Datenbank und ein Datenmodell zu konsolidieren, damit Analysten ihre Abfragen ausführen können. 

Und so funktioniert das Ganze:

  1. Extrahieren: Sammeln Sie Rohdaten aus den verteilten Ressourcen in Ihrem Unternehmen (z. B. ERP, CRM, Marketing) in Bereitstellungsdatenbanken.
  2. Transformieren: Daten aus der Bereitstellungsebene werden in eine Integrationsebene übertragen, in der Daten kombiniert und in einen ODS (Operational Data Store) umgewandelt werden.
  3. Laden: Daten werden aus der Integrationsebene in das Data Warehouse verschoben, indem das Schema definiert wird, das Ihre Analysten für ihre SQL-Abfragen verwenden möchten, bevor sie in eine relationale Datenbank geschrieben werden (Schema-on-Write). 

Die Datenbank, mit der Sie in einem Data Warehouse interagieren, ist relational, was bedeutet, dass Daten strukturiert sind, also in Tabellen aus Spalten und Zeilen gespeichert werden. Diese Tabellen werden entsprechend dem Schema organisiert, das während des Schreibvorgangs definiert wurde. 

Wenn der Transformationsschritt von einem ODS gehandhabt wird, der Data-Warehouse-extern ist, spricht man von „ETL“ (Extract, Transform, Load). Wenn das Data Warehouse die Transformationen intern bewältigt, spricht man von „ELT“ (Extract, Load, Transform). Unabhängig davon, ob Sie ETL oder ELT verwenden, erfordern Data Warehouses strukturierte Daten und Schema-on-Write, um mit relationalen Datenbanken arbeiten zu können.

Wozu werden Data Warehouses verwendet?

Data Warehouses werden beispielsweise in folgenden Fällen genutzt:

  • OLTP (Online Transaction Processing) Ein Data Warehouse kann für Datenintegrität und schnelle Abfragen optimiert werden, um eine große Menge an kurzen Datentransaktionen zu verarbeiten. Ein Beispiel hierfür sind Transaktionen, die auf einer Hochfrequenzhandelsplattform stattfinden. 
  • OLAP (Online Analytical Processing): Sie können ein Data Warehouse für schnellere komplexe Abfragen für ein relativ geringes Volumen an Transaktionen optimieren. Das ist im Grunde die Art von Data Warehouse, die ein Analyst verwendet, um BI-Berichte zu generieren.
  • Vorausschauende Analysen: Ein OLAP-System kann dafür optimiert werden, zukünftige Ereignisse zu prognostizieren und – häufig mithilfe von ML-Algorithmen – Was-wäre-wenn-Szenarios für Ihr Unternehmen zu generieren.

Da bei Data Warehouses Schema-on-Write zum Einsatz kommt, ist es wichtig, zu wissen, welche Art von Abfragen Sie durchführen möchten, bevor Sie ein Schema zu einem Data Warehouse hinzufügen. Um die Komplexität verteilter Datenquellen zu bewältigen, können Sie ein Data Warehouse in Data Marts segmentieren, um Hardware- und Software-Ressourcen für bestimmte Geschäftsfunktionen wie z. B. CRM zu reservieren.

Data Warehouse, Datenpool und Data Hub

Diese drei Konzepte mögen zwar wirken, als können sie gegeneinander ausgetauscht werden, aber es ist wichtig, ihre Unterschiede zu verstehen:

  • Data Warehouse: Ein einzelnes Repository zum Integrieren und Speichern strukturierter Daten aus mehreren unstrukturierten Datenquellen in Ihrer gesamten Organisation.
  • Datenpool: Ein einzelnes ungefiltertes Repository aus allen strukturierten und unstrukturierten Rohdatenquellen in einer Organisation (einschließlich Data Warehouses). Die Daten müssen erst noch verarbeitet werden, damit BI-Erkenntnisse extrahiert werden können. 
  • Data Hub: Eine einzelne Schnittstelle, die alle Daten – sowohl strukturierte als auch unstrukturierte Daten – in eine zentrale zugängliche Datenebene konsolidiert. Ein Data Hub unterscheidet sich darin von einem Data Warehouse, dass er auch Betriebsdaten verarbeiten kann, und unterscheidet sich darin von einem Datenpool, dass er in der Lage ist, Daten in mehreren Formaten bereitzustellen. 

Data Hubs bieten auch die Daten-Governance, die nötig ist, um das Teilen von Daten zwischen unterschiedlichen Endpunkten zu optimieren. Auf diese Weise konsolidieren Data Hubs Datenpools und Data Warehouses in einer einzigen Zugriffsebene. Die Datenverarbeitung erfolgt im Data Hub, wodurch Ihre Organisation einen zentralen Ort erhält, an dem BI-Erkenntnisse extrahiert werden.

Weshalb sollten Sie sich im Hinblick auf Ihre Data-Warehouse-Anforderungen für Pure Storage entscheiden?

Wenn Sie eine neue OLAP- oder OLTP-Pipeline zu Ihrer vorhandenen Data-Warehouse-Infrastruktur hinzufügen müssen, kann es an der Zeit sein, zu überlegen, ob Sie in eine Modern Data Experience™ mit den All-Flash-Lösungen von Pure Storage investieren sollten. 

Als der erste Data Hub der Branche kann Pure Storage®  FlashBlade®  nicht nur die Analyse- und Berichterstellungs-Workloads eines Data Warehouse verarbeiten, sondern liefert auch die wichtigsten Eigenschaften eines Data Hub:

  • nahtlose Datenfreigabe über alle Datenendpunkte hinweg
  • einheitlicher Datei- und Objekt-Storage
  • die Fähigkeit, Betriebsdaten in Echtzeit zu verarbeiten
  • nativ für die Skalierung ausgelegt
  • für die Bereitstellung multidimensionaler Performance für alle Datentypen entwickelt
  • massiv-parallel von der Software bis zur Hardware
800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387