Streaming auf Azure Databricks
Sie können Azure Databricks verwenden, um nahezu in Echtzeit Daten zu erfassen und zu verarbeiten sowie maschinelles Lernen und KI für Streamingdaten zu nutzen.
Azure Databricks bietet zahlreiche Optimierungen für das Streaming und die inkrementelle Verarbeitung, darunter folgende:
- DLT stellt eine deklarative Syntax für die inkrementelle Verarbeitung bereit. Siehe Was ist DLT?.
- Auto Loader vereinfacht die inkrementelle Erfassung aus dem Cloud-Objektspeicher. Weitere Informationen finden Sie unter Automatisches Laden.
- Unity Catalog erweitert Streaming-Workloads um Daten-Governance. Weitere Informationen finden Sie unter Verwenden von Unity Catalog mit strukturiertem Streaming.
Delta Lake stellt die Speicherebene für diese Integrationen bereit. Siehe Delta-Tabelle: Streaming für Lese- und Schreibvorgänge.
Informationen zum Bereitstellen von Echtzeitmodellen finden Sie unter Bereitstellen von Modellen mit Mosaik AI Model Serving.
- Tutorial
- Konzepte
- Zustandsbehaftetes Streaming
- Benutzerdefinierte zustandsbehaftete Anwendungen
- Überlegungen zur Produktion
- Überwachen von Streams
- Unity Catalog-Integration
- Streaming mit Delta
- Beispiele
Azure Databricks verfügt über spezielle Features zum Arbeiten mit halbstrukturierten Datenfeldern, die in Avro, Protokollpuffern und JSON-Datennutzlasten enthalten sind. Weitere Informationen finden Sie unter:
- Lesen und Schreiben von Avro-Streamingdaten
- Lesen und Schreiben von Protokollpuffern
- Abfragen von JSON-Zeichenfolgen
Zusätzliche Ressourcen
Apache Spark bietet ein Programmierhandbuch zu strukturiertem Streaming mit weiteren Informationen zum strukturierten Streaming.
Für Referenzinformationen zum strukturierten Streaming empfiehlt Databricks die folgende Apache Spark API-Referenzen: