Schnelle Daten: Der nächste Schritt nach Big Data

Die Art und Weise, wie große Datenmengen groß werden, geschieht durch einen konstanten Datenstrom. In Umgebungen mit hohem Datenaufkommen kommen diese Daten mit unglaublichen Raten an und müssen dennoch analysiert und gespeichert werden.

John Hugg, Softwarearchitekt bei VoltDB, schlägt vor, die Daten nicht einfach zu speichern, um später analysiert zu werden. Vielleicht haben wir den Punkt erreicht, an dem sie analysiert werden können, während sie extrem hohe Aufnahmequoten mit Tools wie Apache Kafka beibehalten.

- Paul Venezia

Vor weniger als einem Dutzend Jahren war es nahezu unmöglich, Petabyte historischer Daten mit Standardhardware zu analysieren. Heutzutage sind Hadoop-Cluster, die aus Tausenden von Knoten aufgebaut sind, fast alltäglich. Mithilfe von Open-Source-Technologien wie Hadoop wurde die effiziente Verarbeitung von Petabyte-Daten auf Petabyte-Daten mit Standardhardware und virtualisierter Hardware neu konzipiert, wodurch diese Funktion für Entwickler überall erschwinglich wird. Als Ergebnis entstand das Feld der Big Data.

Eine ähnliche Revolution findet mit so genannten schnellen Daten statt. Zuerst definieren wir schnelle Daten. Große Daten werden häufig durch Daten erzeugt, die mit unglaublicher Geschwindigkeit generiert werden, wie z. B. Click-Stream-Daten, Finanztickerdaten, Log-Aggregation oder Sensordaten. Oft treten diese Ereignisse Tausende bis Zehntausende Male pro Sekunde auf. Kein Wunder, dass diese Art von Daten üblicherweise als "Feuerwehrschlauch" bezeichnet wird.

Wenn wir in Big Data über Feuerlöschschläuche sprechen, messen wir nicht das Volumen in den typischen Gigabytes, Terabytes und Petabytes, die Data Warehouses kennen. Wir messen das Volumen in Bezug auf die Zeit: die Anzahl der Megabyte pro Sekunde, Gigabyte pro Stunde oder Terabyte pro Tag. Es geht sowohl um Geschwindigkeit als auch um Volumen, was den Unterschied zwischen Big Data und Data Warehouse ausmacht. Big Data ist nicht nur groß; es ist auch schnell.

Die Vorteile von Big Data gehen verloren, wenn frische, sich schnell bewegende Daten aus dem Feuerlöschschlauch in HDFS, ein analytisches RDBMS oder sogar in flache Dateien übertragen werden, weil sie agieren oder alarmieren können gerade jetzt, als die Dinge passieren, ist verloren. Der Feuerwehrschlauch repräsentiert aktive Daten, sofortigen Status oder Daten mit fortlaufendem Zweck. Das Data Warehouse dagegen ist eine Art, historische Daten zu betrachten, um die Vergangenheit zu verstehen und die Zukunft vorherzusagen.

Es ist als so teuer und unpraktisch angesehen worden, auf Daten zu reagieren, wenn sie eintreffen, insbesondere auf Standardhardware. Genau wie der Wert in Big Data wird der Wert in schnellen Daten durch die neu konzipierte Implementierung von Message Queues und Streaming-Systemen wie Open Source Kafka und Storm und die neu konzipierte Implementierung von Datenbanken mit der Einführung von Open Source NoSQL und NewSQL Angeboten freigeschaltet .

Wert in schnellen Daten erfassen
Der beste Weg, den Wert eingehender Daten zu erfassen, besteht darin, sofort darauf zu reagieren. Wenn Sie eingehende Daten stapelweise verarbeiten, haben Sie bereits Zeit und damit den Wert dieser Daten verloren.

Um Daten zu verarbeiten, die zwischen Zehntausenden und Millionen von Ereignissen pro Sekunde liegen, benötigen Sie zwei Technologien: Erstens ein Streaming-System, das in der Lage ist, Ereignisse so schnell wie möglich zu liefern. und zweitens ein Datenspeicher, der jeden Gegenstand so schnell wie er ankommt verarbeiten kann.

Liefert die schnellen Daten
Zwei populäre Streaming-Systeme sind in den letzten Jahren entstanden: Apache Storm und Apache Kafka. Ursprünglich vom technischen Team von Twitter entwickelt, kann Storm zuverlässig unbegrenzte Datenströme mit einer Geschwindigkeit von Millionen von Nachrichten pro Sekunde verarbeiten. Kafka, entwickelt vom Engineering-Team von LinkedIn, ist ein verteiltes Nachrichtenwarteschlangensystem mit hohem Durchsatz. Beide Streaming-Systeme adressieren die Notwendigkeit, schnelle Daten zu verarbeiten. Kafka steht jedoch abseits.

Kafka wurde entworfen, um eine Nachrichtenwarteschlange zu sein und die wahrgenommenen Probleme existierender Technologien zu lösen. Es ist eine Art Über-Warteschlange mit unbegrenzter Skalierbarkeit, verteilten Bereitstellungen, Multi-Tenancy und starker Persistenz. Eine Organisation könnte einen Kafka-Cluster bereitstellen, um alle Anforderungen an die Nachrichtenwarteschlange zu erfüllen. Im Kern liefert Kafka Nachrichten. Es unterstützt keine Verarbeitung oder Abfrage jeglicher Art.

Vorherige 1 2 Seite 2

Verarbeitung der schnellen Daten
Messaging ist nur ein Teil einer Lösung. Herkömmliche relationale Datenbanken sind in der Regel leistungsschwach. Einige sind möglicherweise in der Lage, Daten mit hohen Raten zu speichern, fallen jedoch um, wenn sie Daten validieren, anreichern oder auf sie reagieren sollen, wenn sie aufgenommen werden. NoSQL-Systeme haben sich Clustering und hohe Leistung zu eigen gemacht, opfern jedoch viel von der Leistung und Sicherheit, die herkömmliche SQL-basierte Systeme bieten. Für die grundlegende Verarbeitung von Feuerwehrschläuchen können NoSQL-Lösungen Ihre geschäftlichen Anforderungen erfüllen. Wenn Sie jedoch komplexe Abfragen und Geschäftslogikoperationen pro Ereignis ausführen, können In-Memory-NewSQL-Lösungen Ihre Anforderungen sowohl an die Leistung als auch an die Transaktionskomplexität erfüllen.

Wie Kafka sind einige NewSQL-Systeme auf Shared-Nothing-Clustering aufgebaut. Die Auslastung wird zur Leistung auf Clusterknoten verteilt. Daten werden für Sicherheit und Verfügbarkeit unter Clusterknoten repliziert. Um steigende Lasten zu bewältigen, können Knoten dem Cluster transparent hinzugefügt werden. Knoten können entfernt werden - oder fehlschlagen - und der Rest des Clusters wird weiterhin funktionieren. Sowohl die Datenbank als auch die Nachrichtenwarteschlange sind ohne einzelne Fehlerpunkte ausgelegt. Diese Merkmale kennzeichnen Systeme, die für die Skalierung ausgelegt sind.

Darüber hinaus können Kafka und einige NewSQL-Systeme Cluster und dynamische Topologien skalieren, ohne auf starke Garantien verzichten zu müssen. Kafka bietet Nachrichtenbestellgarantien, während einige In-Memory-Verarbeitungsmodule serialisierbare Konsistenz und ACID-Semantik bereitstellen. Beide Systeme verwenden clusterfähige Clients, um mehr Funktionen bereitzustellen oder die Konfiguration zu vereinfachen.Schließlich erreichen beide redundante Haltbarkeit durch Festplatten auf verschiedenen Maschinen statt RAID oder andere lokale Speicherschemata.

Big Data Klempner Toolkit
Was suchen Sie in einem System zur Verarbeitung des Big Data Feuerwehrschlauches?

  • Suchen Sie nach einem System mit den Vorteilen der Redundanz und Skalierbarkeit von systemeigenem Shared-Nothing-Clustering.
  • Suchen Sie nach einem System, das auf In-Memory-Speicher und -Verarbeitung ausgerichtet ist, um einen hohen Durchsatz pro Knoten zu erzielen.
  • Suchen Sie nach einem System, das Verarbeitung zur Einnahmezeit anbietet. Kann das System bedingte Logik ausführen? Kann es Gigabytes oder mehr des vorhandenen Zustands abfragen, um Entscheidungen zu treffen?
  • Suchen Sie nach einem System, das Operationen isoliert und starke Garantien für seine Operationen gibt. Dies ermöglicht Benutzern, einfacheren Code zu schreiben und sich auf geschäftliche Probleme zu konzentrieren, anstatt Probleme mit Nebenläufigkeit oder Datenabweichungen zu behandeln. Hüten Sie sich vor Systemen, die eine starke Konsistenz bieten, jedoch bei stark reduzierter Leistung.

Systeme mit diesen Eigenschaften kommen aus den NewSQL-, NoSQL- und Hadoop-Communities, aber unterschiedliche Systeme führen zu unterschiedlichen Kompromissen, oft basierend auf ihren Startannahmen. Für Organisationen, die in Echtzeit auf schnelle Daten reagieren möchten, können diese Tools einen Großteil der Komplexität beim Verständnis von Daten mit hoher Geschwindigkeit beseitigen.

Kafka bietet eine sichere und hochverfügbare Möglichkeit, Daten zwischen unzähligen Herstellern und Verbrauchern zu übertragen. Gleichzeitig bietet Kafka Leistung und Robustheit, um Administratoren die Arbeit zu erleichtern. Eine In-Memory-Datenbank kann eine vollständige relationale Engine mit leistungsstarker Transaktionslogik, -Zählung und -Aggregation bieten, die alle ausreichend skalierbar sind, um jede Auslastung zu bewältigen. Dieses System sollte nicht nur als relationale Datenbank fungieren, sondern auch als Verarbeitungsmaschine dienen, die die Messaging-Infrastruktur von Kafka ergänzt.

Unabhängig von den Anforderungen Ihres Unternehmens ist es wahrscheinlich, dass eine Kombination dieser Tools Ihnen dabei helfen kann, schneller zu arbeiten und mehr zu wissen, als Sie heute wissen, und dabei oft zerbrechlichere oder ungleiche Systeme ersetzen.

New Tech Forum bietet einen Ort, um aufstrebende Unternehmenstechnologie in beispielloser Tiefe und Breite zu erkunden und zu diskutieren. Die Auswahl ist subjektiv, basierend auf unserer Auswahl der Technologien, die wir für wichtig und von größtem Interesse für Leser von InfoWorld halten. InfoWorld akzeptiert keine Marketing-Sicherheit für die Veröffentlichung und behält sich das Recht vor, alle eingebrachten Inhalte zu bearbeiten. Senden Sie alle Anfragen an newtechforum@infoworld.com.

Dieser Artikel "Schnelle Daten: Der nächste Schritt nach Big Data" wurde ursprünglich auf InfoWorld.com veröffentlicht. Für die neuesten Business-Technologie Nachrichten, folgen Sie InfoWorld.com auf Twitter.

Schnelle Daten: Der nächste Schritt nach Big Data

In seinem jüngsten Bericht "Vorhersagen 2018: Ein Jahr der Abrechnung" prognostiziert Forrester, dass 80% der von der DSGVO betroffenen Unternehmen die Verordnung nicht bis Mai 2018 einhalten werden. Von diesen nichtkonformen Unternehmen werden 50% absichtlich nicht entsprechen.

Compliance muss nicht so schwierig sein! Was ist, wenn Sie die Möglichkeit haben, die Einhaltung der DSGVO durch eine ausgereifte Technologie und erhebliche Kostensenkungen zu erleichtern? Die Datenvirtualisierung ist eine ausgereifte, kosteneffektive Technologie, die eine datenschutzgerechte Gestaltung ermöglicht, um die Einhaltung der DSGVO zu erleichtern.

Besuchen Sie diese Sitzung, um zu lernen:

  • Wie Datenvirtualisierung eine Compliance-Grundlage mit Datenkatalog, Auditing und Datensicherheit bietet
  • Wie Sie einzelne unternehmensweite Datenzugriffsebenen mit Guardrails aktivieren können
  • Warum Datenvirtualisierung eine Must-Have-Fähigkeit für Compliance-Anwendungsfälle ist
  • Wie Denodos Kunden die Compliance erleichtert haben

Auf Anfrage anzeigen


4.1
Durchschnittliche Bewertung: 29
5
10
4
1
3
3
2
1
1
0