Was ist eine Daten-Pipeline?

Was ist eine Daten-Pipeline?

Eine Daten-Pipeline ist das Mittel, mit dem Daten innerhalb des Tech-Stacks einer Organisation von einem Ort zum anderen transportiert werden. Sie kann jeden Baustein oder Verarbeitungsblock umfassen, der die Übertragung von Daten von einem Ende zum anderen unterstützt.

Daten-Pipelines bestehen in der Regel aus:

  • Quellen, wie SaaS-Anwendungen und Datenbanken.
  • Verarbeitung, d. h. was mit den Daten geschieht, während sie die Pipeline von einem Ort zum anderen durchlaufen, einschließlich Transformation (d. h. Standardisierung, Sortierung, Deduplizierung und Validierung), Überprüfung, Erweiterung, Filterung, Gruppierung und Aggregation.
  • Zielorte, bei denen es sich in der Regel um Datastores wie Data Warehouses und Data Lakes handelt.

Typische Anwendungsfälle für Daten-Pipelines sind:

  • Vorausschauende Analysen
  • Echtzeit-Dashboards und -Berichterstellung
  • Speichern, Anreichern, Verschieben oder Umwandeln von Daten

Daten-Pipelines können zwar intern erstellt werden, werden aber aufgrund der damit verbundenen Elastizität und Flexibilität immer häufiger in der Cloud erstellt.

Vorteile einer Daten-Pipeline

Eine Daten-Pipeline ermöglicht es Organisationen, ihre Daten zu optimieren und deren Wert zu maximieren, indem sie sie so bearbeiten, dass sie für die Organisation von Nutzen sind. Ein Unternehmen, das eine Anwendung zur Automatisierung von Ampeln in Großstädten entwickelt und vertreibt, könnte beispielsweise seine Daten-Pipeline nutzen, um Datensätze für maschinelles Lernen zu trainieren, damit die Anwendung dann optimal für die Städte funktioniert und die Ampeln für einen effizienten Verkehrsfluss auf den Straßen sorgen können. 

Die wichtigsten Vorteile einer Daten-Pipeline sind:

  • Datenanalyse: Daten-Pipelines ermöglichen es Organisationen, ihre Daten zu analysieren, indem sie Daten aus verschiedenen Quellen sammeln und an einem einzigen Ort zusammenführen. Im Idealfall findet diese Analyse in Echtzeit statt, um den größtmöglichen Nutzen aus den Daten zu ziehen.
  • Beseitigung von Engpässen: Daten-Pipelines sorgen für einen reibungslosen Datenfluss von einem Ort zum anderen, wodurch das Problem von Datensilos vermieden und Engpässe beseitigt werden, die dazu führen würden, dass Daten schnell ihren Wert verlieren oder auf irgendeine Weise beschädigt werden.
  • Bessere Geschäftsentscheidungen: Durch das Ermöglichen von Datenanalysen und das Beseitigen von Engpässen geben Daten-Pipelines Unternehmen die Möglichkeit, ihre Daten zu nutzen, um schnelle und aussagekräftige Geschäftseinblicke zu erhalten.

Die Bedeutung von Automatisierung und Orchestrierung für Daten-Pipelines

Automatisierung und Orchestrierung sind entscheidende Aspekte von Daten-Pipelines. Die Automatisierung von Daten-Pipelines ermöglicht es, alle Komponenten der Daten-Pipeline zu dem Zeitpunkt und in der Geschwindigkeit auszuführen, die Sie benötigen. Die Daten-Pipeline-Orchestrierung ist der Prozess, bei dem alle Komponenten auf koordinierte Weise ausgeführt werden. 

Die vollständige Automatisierung der Daten-Pipeline ermöglicht es Organisationen, Daten aus verschiedenen Quellen nahtlos zu integrieren, um Geschäftsanwendungen und Datenanalysen zu unterstützen, Echtzeitdaten schnell zu verarbeiten, um bessere Geschäftsentscheidungen zu treffen, und Cloud-basierte Lösungen einfach zu skalieren.

Orchestrierung ermöglicht es DataOps-Teams, die Verwaltung und Kontrolle von durchgängigen Daten-Pipelines zu zentralisieren. Es ermöglicht ihnen die Überwachung und Berichterstattung und sie erhalten proaktive Warnmeldungen. 

Daten-Pipelines versus ETL

Wie Daten-Pipelines bringen auch ETL-Systeme (Extract, Transform, Load), auch ETL-Pipelines genannt, Daten von einem Ort zum anderen. 

Im Gegensatz zu Daten-Pipelines gilt für ETL-Pipelines jedoch per Definition:

  • Es erfolgt immer eine Transformation der Daten, während bei einer Daten-Pipeline nicht unbedingt immer eine Transformation der Daten erfolgen muss.
  • Die Ausführung erfolgt in Batches, wobei Daten in Blöcken verschoben werden, während Daten-Pipelines in Echtzeit laufen.
  • Der Vorgang schließt mit dem Laden der Daten in eine Datenbank oder ein Data Warehouse ab, während eine Daten-Pipeline nicht immer mit dem Laden der Daten enden muss. Sie kann stattdessen mit der Aktivierung eines neuen Prozesses oder Ablaufs durch das Auslösen von Webhooks enden.

ETL-Systeme sind in der Regel, aber nicht immer, Teilmengen von Daten-Pipelines.

So machen Sie das Beste aus Ihrer Daten-Pipeline

Eine Daten-Pipeline ist nur so effizient und effektiv wie die einzelnen Bestandteile, aus denen sie besteht. Ein einziges schwaches oder defektes Glied kann Ihre gesamte Pipeline unterbrechen und zu großen Investitions- und Zeitverlusten führen.  

Deshalb suchen Unternehmen heute nach Lösungen, die ihnen helfen, das Beste aus ihren Daten herauszuholen, ohne dass dadurch erhebliche Kosten entstehen. 

Eine Daten-Storage-Lösung wie eine UFFO-Storage-Plattform (Unified Fast File and Object) konsolidiert alle Daten – sowohl strukturierte als auch unstrukturierte – in einer zentral zugänglichen Datenebene. Im Gegensatz zu einem Data Warehouse kann sie Betriebsdaten verarbeiten, und im Gegensatz zu einem Data Lake kann sie Daten in verschiedenen Formaten verarbeiten.

Eine UFFO-Storage-Plattform kann auch Data Lakes und Data Warehouses in einer einzigen Zugriffsebene konsolidieren und die Datenverwaltung bereitstellen, die für die Optimierung der Datenfreigabe zwischen einer Vielzahl von Endpunkten erforderlich ist. Mit einem Data Hub wird die Datenverarbeitung abstrahiert, sodass Ihre Organisation über einen zentralen Ort verfügt, von dem aus es BI-Einblicke (Business Intelligence) gewinnen kann.

Pure Storage® FlashBlade® ist die führende UFFO-Storage-Plattform der Branche. FlashBlade kann nicht nur die Analyse- und Berichterstattungs-Workloads eines Data Warehouse bewältigen, sondern auch Folgendes liefern:

  • nahtlose Datenfreigabe über alle Datenendpunkte hinweg
  • einheitlicher File- und Object-Storage
  • die Fähigkeit, Betriebsdaten in Echtzeit zu verarbeiten
  • Skalierbarkeit und Agilität
  • multidimensionale Performance für alle Datentypen
  • massive Parallelität von der Software bis zur Hardware


Erste Schritte mit FlashBlade.

FlashBlade testen

Keine Hardware, keine Einrichtung, keine Kosten – kein Problem. Erleben Sie eine Self-Service-Instanz von Pure1® zum Verwalten von Pure FlashBlade™ - der fortschrittlichsten Lösung der Branche, mit nativ skalierbarem File- und Object-Storage liefert.

Jetzt testen
800-379-7873 +44 2039741869 +43 720882474 +32 (0) 7 84 80 560 +33 1 83 76 42 54 +49 89 12089253 +353 1 485 4307 +39 02 9475 9422 +31 202457440 +46850541356 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 43 505 28 17 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387 +48 22 343 36 49
Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.