Data Streaming erklärt: Warum es jetzt unverzichtbar ist!
Stellen Sie sich vor, die Daten in Ihrem Unternehmen wären Goldmünzen, die tief unter der Erde verborgen liegen. Um sie zu bergen und ihren vollen Wert zu entfalten, benötigen Sie nicht nur die richtigen Werkzeuge, sondern auch eine klare Strategie, was Sie damit anfangen wollen. Während es bei Goldmünzen die richtigen Investitionsmöglichkeiten sind, liegt der Schlüssel zur effizienten Datennutzung, datengetriebenen Entscheidungen und zur Nutzung von künstlicher Intelligenz (KI) in der Verfügbarkeit aktueller und konsistenter Daten. Leider scheitern viele Unternehmen genau daran – die Datenqualität ist unzureichend oder die erforderlichen automatisierten Datenflüsse fehlen.
Genau dafür bietet Data Streaming eine Lösung. Doch was ist das überhaupt? Denken Sie an einen reissenden Fluss, der unaufhörlich frisches Wasser liefert. Ebenso sorgt Data Streaming dafür, dass Ihre Daten immer auf dem neuesten Stand und sofort verfügbar sind. Dies ist insofern zentral, als dass die Aktualität von Daten in vielen Bereichen eine entscheidende Rolle spielt. Ein anschauliches Beispiel sind Aktienkurse. Innerhalb weniger Sekunden können sie in die Höhe schiessen oder tief fallen. Alte Kursinformationen verlieren schnell ihren Wert, und nur aktuelle Daten ermöglichen präzise Entscheidungen.
Ein weiteres Beispiel für die die Verwendung sogenannter Echtzeitdaten ist der Besuch von Kundinnen oder Kunden auf einer Website. Um genau im richtigen Moment das passende Produkt zu empfehlen, müssen die Daten in Echtzeit analysiert werden. Data Streaming ermöglicht es, Kundinnen und Kunden genau dann zu erreichen, wenn sie für Angebote am empfänglichsten sind.
Echtzeitdaten werden Pflicht
Mit Data Streaming verfügen Unternehmen jedoch nicht nur das Werkzeug, um die verborgenen Schätze ihrer Daten zu bergen und in bares Gold zu verwandeln. Vielmehr hat sich durch die damit verbundenen modernen Technologien unsere gesamte Anspruchshaltung verändert. Gerade beim Surfen mit dem Smartphone möchten wir heutzutage sofortige Ergebnisse sehen – und zwar am liebsten, bevor wir die Anfrage gestellt haben. Dies geschieht durch personalisierte Insights in gesammelte Daten.
Ein anderes Beispiel sind Zahlungsvorgänge. Schliesslich will niemand warten, bis ein nächtlicher Batch-Job die Transaktionen verarbeitet hat, wie es in vielen Unternehmen immer noch üblich ist. Stattdessen verlangen Kundinnen und Kunden auch hier Echtzeit-Antworten und sofortige Verfügbarkeit von Saldi und Übersichten. Dies dürfte in der Schweiz jedoch spätestens ab August 2024 der Vergangenheit angehören: Die Einführung von Instant-Payments steht der Bankenwelt kurz bevor. Solche Instant-Zahlungen erfordern allerdings, dass alle Arten von Validierungen und Betrugserkennung (Fraud-Detection) in Echtzeit durchgeführt werden – ein perfekter Use Case für Data Streaming.
Aber nicht nur im Banking tut sich was: Die gesamte Welt bewegt sich kontinuierlich in Richtung Echtzeit-Verarbeitung. Das bedeutet, dass Daten genau in dem Moment verarbeitet werden, in dem das erfasste Ereignis eintritt. Die Zeiten, in denen Events gesammelt und später in Batches verarbeitet wurden, gehören der Vergangenheit an. Den Grundstein dazu legte vor etwa 15 Jahren LinkeIn mit der Open-Source-Lösung Apache Kafka. Diese gilt heute als de-facto Standard für Data Streaming und ermöglicht es, grosse Datenmengen nahezu in Echtzeit zu empfangen, zu speichern und zu verarbeiten. Inzwischen nutzen mehr als 90% der 500 grössten Unternehmen weltweit Apache Kafka. Auch in der Schweiz setzen Firmen aus verschiedenen Branchen – von Banken und Versicherungen über den Einzelhandel und Transport bis hin zur öffentlichen Verwaltung und Industrie – auf Apache Kafka.
Warum Kafka in jedem Unternehmen ein Muss ist!
Wer jetzt denkt, dass nur soziale Netzwerke wie LinkedIn oder Big-Tech-Unternehmen wie Apple, Google, Meta, Netflix und Uber aufgrund ihrer riesigen Datenmengen solche Lösungen benötigen, irrt sich. Auch Unternehmen, die nur wenig Daten verarbeiten, profitieren von Apache Kafka. Sie setzen Kafka vor allem als eine Art Datendrehscheibe oder Data Hub ein, um Daten zuverlässig, konsistent und kostengünstig zwischen unterschiedlichen Systemen auszutauschen und zu verteilen.
Dieses Vorgehen ist heutzutage für jedes Unternehmen unerlässlich, welches mehrere zentrale Applikationen im Einsatz oder sogar eigene Anwendungen entwickelt hat. Zu den typischen Beispielen solcher Kernapplikationen gehören Avaloq und Finnova im Banking, Syrius bei Krankenversicherungen sowie SAP und Abacus als verbreitete ERP-Systeme. Auch Salesforce und HubSpot als CRM-Lösungen gehören zu jenen Applikationen, aus welchen Unternehmen gerne Daten beziehen und kombinieren möchten.
Entkopplung schafft Ordnung im Datenchaos
Ein weiterer Grund, Kafka als Datendrehscheibe zu verwenden, besteht darin, die Produzenten und Konsumenten von Daten voneinander zu entkoppeln. Schwer wartbare Punkt-zu-Punkt-Verbindungen zwischen Applikationen werden so vermieden, was wiederum die Gesamteffizienz und Wartbarkeit des Systems verbessert. Dies kommt daher, da es eine solche Entkopplung ermöglicht, den gefürchteten "Big Ball of Mud" oder die "Spaghetti Integration" zu vermeiden – oder zumindest zu reduzieren. Spoiler: Es geht hier nicht ums Essen.
Stellen Sie sich vor, Ihr Unternehmen ist wie ein riesiger Teller Spaghetti, wo jeder Klumpen Daten eng mit dem anderen verflochten ist. Mit der Zeit breitet sich dieses Durcheinander aus und Anpassungen an einer Applikation haben plötzlich weitreichende und unerwartete Auswirkungen auf das gesamte Unternehmen. Es entsteht eine Art Dominoeffekt, bei dem eine kleine Änderung zu einem grossen Knall führt und plötzlich weitere Änderungen vorgenommen werden müssen. Ein echter Albtraum für IT-Abteilungen.
Mit Apache Kafka lässt sich dies weitgehend vermeiden. Dank des „Pull-Ansatzes“ von Kafka können die Anwendungen Daten in ihrem eigenen Tempo abrufen und verarbeiten. Es ist, als ob jede Maschine in einer weitläufigen Fabrik autonom arbeitet und ihre Aufgaben selbständig erledigt. Fällt eine Maschine aus oder hat sie ein Problem, lässt sie sich einfach neu starten und wieder in Betrieb nehmen, ohne dass dazu der gesamte Produktionsprozess gestoppt werden muss. Schliesslich bleiben die Rohstoffe und Zwischenprodukte, oder in unserem Fall die Daten, weiterhin verfügbar. Oder um die Spaghetti-Metapher wieder aufzugreifen: Die Sauce lässt sich problemlos warmhalten, bis die Spaghetti al dente sind.
Good to know!
Wichtige Daten bleiben oft in den bestehenden Silos der alten Altsysteme eines Unternehmens verborgen, beispielsweise in ERP- und CRM-Systemen oder den Kernsystemen einer Bank oder Versicherungsgesellschaft. Diese Daten werden oft mühsam manuell oder über nächtliche automatische ETL-Prozesse (Extract-Transform-Load) exportiert, verarbeitet und in ein zentrales Datenspeichersystem (Data Warehouse) übertragen.