Snowflake Architektur: Ein technischer Tiefflug ins Cloud Data Warehousing

Erkunde die dreischichtige Architektur von Snowflake, das Data Warehouse Design und die erweiterten Funktionen. Erfahre, wie Storage, Compute und Services zusammenarbeiten.

Aktualisierte 27. Feb. 2025 · 12 Min. Lesezeit

Snowflake ist eine cloudbasierte Datenplattform, die die grundlegenden Herausforderungen des modernen Datenmanagements angeht. Sie wurde 2014 eingeführt und bietet Unternehmen eine zentrale Lösung für die Speicherung und Verarbeitung großer Datenmengen.

Herkömmliche Datenmanagementsysteme stellen Unternehmen oft vor erhebliche Einschränkungen. Bei diesen Systemen müssen die Unternehmen in der Regel zwischen Abfrageleistung, gleichzeitigem Benutzerzugriff und Kosteneffizienz wählen. Die Architektur von Snowflake wurde entwickelt, um diese Einschränkungen durch ihren Ansatz zur Datenspeicherung und -berechnung zu beseitigen.

In diesem Leitfaden werden der architektonische Rahmen und die operativen Mechanismen von Snowflake untersucht. Obwohl die Plattform komplexe Technologien beinhaltet, konzentriert sich diese Erklärung darauf, diese Konzepte für Leser mit einem grundlegenden Verständnis von Datensystemen zugänglich zu machen.

Der Leitfaden behandelt:

Die Grundprinzipien des Datenspeichersystems von Snowflake
Die architektonischen Komponenten, die seine Infrastruktur bilden
Der Ansatz der Plattform für gleichzeitigen Datenzugriff
Die technischen Vorteile, die seine Einführung vorantreiben

Diese Analyse vermittelt dir ein grundlegendes Verständnis dafür, wie Snowflake in einer modernen Dateninfrastruktur funktioniert.

Für Leser, die Snowflake noch nicht kennen, ist die Einführung in Snowflake für Einsteiger vermittelt wichtiges Hintergrundwissen.

Kernkonzepte der Snowflake-Architektur

Die Architektur von Snowflake unterscheidet sich von traditionellen Data Warehouse durch die Nutzung moderner Cloud-Prinzipien zur Lösung von Skalierbarkeits- und Leistungsproblemen. Die Architektur implementiert einen mehrschichtigen Ansatz, der Speicher, Rechenleistung und Dienste in separate, aber miteinander verbundene Komponenten aufteilt.

Snowflake Architektur Schichten

Quelle: Snowflake Dokumentation

Die Architektur von Snowflake basiert auf einem einzigartigen Drei-Schichten-Design, das die Kernfunktionen voneinander trennt und gleichzeitig eine nahtlose Integration ermöglicht. Schauen wir uns jede Ebene im Detail an:

1. Speicherschicht

Die Speicherebene von Snowflake stützt sich auf Cloud Object Storage (Amazon S3, Azure Blob Storageoder Google Cloud Storage) und organisiert die Daten in unveränderlichen Mikropartitionen (50-500 MB) in einem komprimierten Spaltenformat. Diese Mikropartitionen speichern Metadaten wie Min/Max-Spaltenwerte und ermöglichen so ein effizientes Abfragepruning.

Diese Schicht ist selbstoptimierend und erfordert keine manuelle Wartung. Sie wählt auf intelligente Weise den besten Komprimierungsalgorithmus pro Spalte auf der Grundlage von Datentyp und -mustern aus und sorgt so für hohe Komprimierungsraten und schnelle analytische Abfragen, indem sie nur die notwendigen Spalten liest.

2. Compute-Schicht

Die Rechenschicht besteht aus virtuellen Lagern - unabhängigen MPP-Clustern, die SQL-Abfragen und DML-Operationen ausführen. Jedes Lagerhaus betreibt mehrere Knotenpunkte parallel und arbeitet völlig isoliert, um Leistungsstörungen zu vermeiden.

Diese zustandslosen Ressourcen können gestartet, gestoppt, in der Größe verändert oder geklont werden, ohne dass die Daten davon betroffen sind. Durch die Größenanpassung wird die Arbeitslast automatisch umverteilt, während die Funktion zur automatischen Unterbrechung inaktive Lager pausiert und bei Bedarf innerhalb von Sekunden wieder aufnimmt.

3. Dienstleistungsebene

Die Serviceschicht orchestriert den Betrieb von Snowflake und verwaltet einen verteilten Metadatenspeicher, der Tabellen, Ansichten, Sicherheitsrichtlinien und Abfragen verfolgt. Der Query Optimizer nutzt diese Metadaten, um effiziente Ausführungspläne auf der Grundlage der Datenverteilung, der Rechenressourcen und der Zugriffsmuster zu erstellen.

Sie gewährleistet ACID-Konformität mit fortschrittlicher Gleichzeitigkeitskontrolle, während die Authentifizierung über SSO, MFA und rollenbasierte Zugriffskontrolle auf allen Ebenen erfolgt. Diese Schicht verwaltet auch die Sitzungsverwaltung und die Durchsetzung der Sicherheit.

Wie die Schichten zusammenarbeiten

Die Interaktion zwischen den Snowflake-Schichten ermöglicht leistungsstarke Funktionen wie sichere Datenfreigabe, Multi-Cluster-Computing und dynamische Skalierbarkeit. Die gemeinsame Nutzung von Daten ist metadatengesteuert - es werden nur Zeiger ausgetauscht, während der Zugriff mit feinkörnigen Sicherheitsrichtlinien kontrolliert wird. Verbraucher können gemeinsam genutzte Daten mit ihren eigenen Rechenressourcen abfragen, ohne sie zu duplizieren.

Multicluster-Computing ermöglicht es unabhängigen Rechenclustern, auf dieselbe Speicherebene zuzugreifen und gleichzeitig getrennte Caches zu unterhalten und die Konsistenz zu gewährleisten. Workloads können isoliert werden, indem Warehouses für ETL, BI oder Data Science reserviert werden. Die Architektur von Snowflake unterstützt auch dynamische Skalierbarkeit, so dass Speicher und Rechenleistung unabhängig voneinander skaliert werden können, während die Dienstebene die Ressourcenzuweisung und die Abfrageleistung optimiert.

Wenn du tiefer in diese Konzepte und mehr eintauchen möchtest, kannst du dir den Kurs Einführung in Snowflake.

Snowflake's Data Warehouse Architektur

Die Data-Warehouse-Architektur von Snowflake basiert auf einem dreischichtigen Design, das eine flexible Datenmodellierung und eine effiziente Abfrageverarbeitung ermöglicht. Sie unterstützt strukturierte und halbstrukturierte Daten, optimiert die Leistung und vereinfacht die Verwaltung.

Datenmodell

Snowflake verarbeitet strukturierte Daten mit Hilfe von relationalen Datenbankkonzepten und unterstützt SQL-Datentypen, Constraints und Beziehungen durch Primär- und Fremdschlüssel. Sensible Informationen profitieren von der Verschlüsselung auf Spaltenebene. Für semi-strukturierte Daten verarbeitet Snowflake nativ JSON, XML, Parquet und Avro mit dem Datentyp VARIANT, leitet automatisch Schemata ab und ermöglicht effiziente Abfragen mit speziellen Funktionen wie FLATTEN und PARSE_JSON.

Auf der Speicherebene werden die Daten automatisch in 50-500 MB große Mikropartitionen unterteilt, die jeweils Metadaten wie Min/Max-Spaltenwerte und Nullhäufigkeiten speichern. Snowflake verfolgt die natürliche Clusterbildung und reorganisiert die Daten regelmäßig, um die Abfrageeffizienz zu verbessern, sodass eine manuelle Partitionsverwaltung überflüssig wird.

Architektur der Abfrageverarbeitung

Snowflake verarbeitet Abfragen durch mehrere koordinierte Schichten, die die Ausführung optimieren. Der Query Optimizer wandelt SQL-Abfragen in logische Ausführungspläne um und wertet mehrere physische Pläne auf der Grundlage von Tabellengröße, Indizierung und Caching aus. Mithilfe eines Kostenmodells wählt es den effizientesten Ansatz aus und bestimmt Join-Algorithmen, Sortiermethoden und Datenverschiebungsstrategien.

Die Ausführungsmaschine verteilt die Abfragen auf parallele Verarbeitungsknoten. Durch die Nutzung von Metadaten werden unnötige Partitionen entfernt und nur relevante Spalten im Snowflake-Spaltenformat gelesen, was die Effizienz erhöht. Ein 24-Stunden-Ergebnis-Cache verbessert die Leistung weiter, indem er bereits berechnete Abfrageergebnisse wiederverwendet, wenn die zugrunde liegenden Daten unverändert bleiben.

Die Architektur von Snowflake ermöglicht effiziente Datenzugriffsmuster. Das Null-Kopie-Klonen ermöglicht die sofortige Duplizierung von Tabellen, ohne dass Daten kopiert werden müssen, während die Zeitreise historische Versionen für Point-in-Time-Abfragen bewahrt. Die Multi-Versions-Concurrency-Control (MVCC) sorgt für die Konsistenz der Transaktionen und ermöglicht so Workloads mit hoher Parallelität ohne Sperrkonflikte. Diese Optimierungen in Kombination mit intelligentem Caching und Partition Pruning ermöglichen es Snowflake, skalierbare, leistungsstarke Analysen mit minimalen manuellen Eingriffen zu liefern.

Erweiterte Snowflake-Funktionen

Snowflake bietet fortschrittliche Funktionen in den Bereichen Ressourcenmanagement, Sicherheit, Integration und Überwachung, um die Möglichkeiten des Unternehmens zu verbessern.

Ressourcenmanagement

Das dynamische Ressourcenmanagement umfasst die Planung von Lagern und die automatische Skalierung, wobei inaktive Lager automatisch pausiert und die Rechenressourcen an die Arbeitslast angepasst werden. Administratoren können automatische Start-/Stopp-Zeitpläne festlegen und detaillierte Ressourcenmetriken nutzen, um Kosten und Leistung zu optimieren.

Query Governance

Die Query-Governance-Funktionen bieten eine präzise Kontrolle über den Ressourcenverbrauch, einschließlich dynamischer Limits, intelligenter Warteschlangen und benutzerdefinierter Abfrageweiterleitung, um ein effizientes Workload-Management zu gewährleisten.

Unternehmensintegration

Für die Unternehmensintegration unterstützt Snowflake gespeicherte Prozeduren in JavaScript und Java, so dass Entwickler komplexe Geschäftslogik über SQL hinaus implementieren können.

Die Versionskontrolle ermöglicht ein einfaches Rollback, während die Fehlerbehandlung eine reibungslose Ausführung mit detaillierter Protokollierung gewährleistet. Der sichere Datenaustausch der Plattform ermöglicht es Organisationen, Datensätze über private Datenmarktplätze zu teilen und zu vermarkten.

Unternehmen können den Zugang kontrollieren, die Nutzung nachverfolgen und eine automatische Abrechnung einführen, um neue Einnahmequellen zu erschließen und gleichzeitig die Einhaltung von Vorschriften und die Sicherheit zu gewährleisten.

Diese Funktionen stärken die Position von Snowflake als umfassende Datenplattform, die Skalierbarkeit, Automatisierung und Sicherheit bietet. Mit intelligentem Workload-Management, nahtlosen Integrationen und robusten Governance-Tools können Unternehmen ihre Leistung optimieren, Kosten senken und sicher mit ihren Datenbeständen zusammenarbeiten.

Architektur-Vergleiche

Vergleichen wir die Architektur von Snowflake mit traditionellen Data Warehouses und modernen Wettbewerbern, um sein einzigartiges Leistungsversprechen zu verstehen.

Traditionelle Data Warehouses

Die wichtigsten architektonischen Unterschiede:

Traditionelle Systeme koppeln Speicher und Rechner eng miteinander
Physische Datenpartitionierung erfordert manuelle Pflege
Hardware-Kapazitätsplanung für Arbeitsspitzen erforderlich
Begrenzte Fähigkeit, halbstrukturierte Daten zu verarbeiten

Vergleich der Kostenmodelle:

Traditionell erfordert eine Vorabinvestition in Hardware
Kapazität muss zukünftiges Wachstum berücksichtigen
Wartungskosten umfassen Hardware und Einrichtungen
Lizenzkosten basieren in der Regel auf Prozessorkernen

Leistungsmerkmale:

Begrenzt durch physische Hardware-Einschränkungen
Skalierung für gleichzeitige Benutzer erfordert Hardware-Upgrades
Die Abfrageleistung nimmt mit der Anzahl der Nutzer ab
Ressourcenkonkurrenz zwischen Arbeitslasten

Moderne Wettbewerber

1. Amazon Redshift

Architektur: Clusterbasiert; manuelle Absaugvorgänge; verwendet Zonenkarten
Kosten: Knotenbasierte Stundensätze; beschränkt auf das AWS-Ökosystem

2. Google BigQuery

Architektur: Serverlos mit Slot-basierter Preisgestaltung; automatische Zwischenspeicherung von Abfragen (24 Stunden Speicherung)
Kosten: Pay-per-byte gescannt; begrenzte Kontrolle über die Datenverarbeitung

3. Azure Synapse

Architektur: Hybrid (serverlose & dedizierte Pools); komplexe Ressourcenverwaltung; unterstützt sowohl Rowstore als auch Columnstore
Kosten: DTU- oder vCore-basierte Preisgestaltung; Integration mit Azure-Diensten

Zusätzliche Leistungsüberlegungen:

1. Abfrageoptimierung

BigQuery: Automatische Optimierung, begrenzte Benutzerkontrolle
Redshift: Manuelles Saugen und Analysieren
Synapse: Erfordert Statistikaktualisierungen und Indexierung

2. Handhabung der Gleichzeitigkeit

BigQuery: System der Slot-Zuweisung
Redshift: Warteschlangenbasiertes Workload-Management
Synapse: Ressourcenklassenzuweisungen

3. Speicherarchitektur

BigQuery: Säulenspeicher mit automatischem Sharding
Redshift: Knotenbasierte Verteilung mit Slice Management
Synapse: Rowstore und columnstore Optionen

4. Unterschiede in der Kostenstruktur

BigQuery: Bezahlung pro gescanntem Byte
Redshift: Knotenbasierte Stundensätze
Synapse: DTU- oder vCore-basierte Preisgestaltung

5. Integrationsfähigkeit

BigQuery: Native GCP-Dienstintegration
Redshift: Integration in das AWS-Ökosystem
Synapse: Azure Plattform Dienste

Diese architektonischen Unterschiede wirken sich aus:

Operative Komplexität
Ressourcenmanagement
Vorhersehbarkeit der Kosten
Leistungsoptimierung
Ökosystem-Integration

Einen strukturierten Ansatz zur Beherrschung dieser Konzepte findest du im umfassenden Snowflake Lernleitfaden.

Hier ist eine Tabelle, die diese Unterschiede zusammenfasst:

Aspekt	BigQuery	Redshift	Synapse	Snowflake
Architektur	Serverlos	Cluster-basiert	Hybrid (serverlos & dediziert)	Multi-Cluster, gemeinsame Daten
Lagerung	Säulenförmig mit automatischer Aufteilung	Knotenbasierte Verteilung	Rowstore & columnstore	Mikro-gegliederte Säulen
Abfrage-Optimierung	Automatische, begrenzte Kontrolle	Manuelles Saugen/Analysieren	Manuelle Indexierung & Statistiken	Automatische Optimierung
Gleichzeitigkeit	Slot-basierte Zuweisung	Warteschlangenbasiertes WLM	Ressourcen-Klassen	Skalierung des virtuellen Lagers
Preismodell	Pro gescanntem Byte	Knotenbasiert stündlich	DTU/vCore-based	Pro-Sekunde-Lagernutzung
Integration	GCP-eigene Dienste	AWS-Ökosystem	Azure-Plattform	Multi-Cloud-Unterstützung
Ressourcenmanagement	Automatisiert	Manuelle Knotenverwaltung	Komplexe Poolverwaltung	Automatisiert mit manueller Steuerung
Datentyp-Unterstützung	Stark halbstrukturiert	Begrenzte halb-strukturierte	Begrenzte halb-strukturierte	Native halbstrukturiert
Wartung	Minimal	Regelmäßiges Vakuum erforderlich	Indexpflege erforderlich	Null Wartung
Caching	24-Stunden-Automatik	Benutzerverwaltetes	Begrenzt eingebaut	Automatisches Zwischenspeichern von Ergebnissen

Fazit

Snowflake hat die Art und Weise, wie Unternehmen mit Daten in der Cloud arbeiten, verändert, weil es einfacher und effizienter ist als ältere Systeme. Snowflake ist so aufgebaut, dass die Unternehmen ihre Daten getrennt speichern und verarbeiten können, was ihnen hilft, Geld zu sparen und trotzdem schnelle Ergebnisse zu erzielen. Dank der starken Sicherheitsfunktionen von Snowflake können Unternehmen sicher sein, dass ihre Daten geschützt sind. Das System funktioniert reibungslos über verschiedene Cloud-Anbieter hinweg und gibt Unternehmen mehr Flexibilität, wo sie ihre Daten aufbewahren.

Für alle, die mehr über Snowflake erfahren möchten, gibt es auf DataCamp viele hilfreiche Ressourcen und Schulungsmaterialien.

Die Plattform wächst weiter mit neuen Funktionen wie künstlicher Intelligenz, die sie für Unternehmen noch leistungsfähiger machen. Unternehmen, die Snowflake nutzen, können sich schnell anpassen, wenn sich ihr Datenbedarf im Laufe der Zeit ändert. Die Zukunft von Snowflake sieht rosig aus, denn immer mehr Unternehmen entscheiden sich für diese Plattform für die Datenverwaltung.

Wodurch unterscheidet sich die Architektur von Snowflake von herkömmlichen Data Warehouses?

Wie handhabt Snowflake den gleichzeitigen Benutzerzugriff?

Was ist die Medaillon-Architektur in Snowflake?

Wie funktioniert das Speichersystem von Snowflake?

Wie schneidet Snowflake im Vergleich zu anderen Cloud Data Warehouses ab?

Author

Bex Tuychiev

Ich bin ein Data Science Content Creator mit über 2 Jahren Erfahrung und einem der größten Follower auf Medium. Ich schreibe gerne ausführliche Artikel über KI und ML mit einem etwas sarkastischen Stil, denn man muss etwas tun, damit sie nicht so langweilig sind. Ich habe mehr als 130 Artikel verfasst und einen DataCamp-Kurs gemacht, ein weiterer ist in Vorbereitung. Meine Inhalte wurden von über 5 Millionen Augenpaaren gesehen, von denen 20.000 zu Followern auf Medium und LinkedIn wurden.

Themen

Cloud

Snowflake

Top DataCamp Kurse

Lernpfad

Associate Data Engineer in SQL

0 Min.

Lerne die Grundlagen des Data Engineering: Datenbankdesign und Data Warehousing, die Arbeit mit Technologien wie PostgreSQL und Snowflake!

Siehe Details

Kurs starten

Kurs

Einführung in Snowflake SQL

2 Std.

36.9K

Dieser Kurs führt dich von der grundlegenden Snowflake-Architektur bis hin zu fortgeschrittenen SnowSQL-Techniken.

Siehe Details

Kurs starten

Kurs

Introduction to Data Modeling in Snowflake

4 Std.

7.7K

Step right into the dynamic world of data modeling with Snowflake!

Siehe Details

Kurs starten

Verwandt

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.

Hesam Sheikh Hassani

15 Min.

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Mehr anzeigen Mehr anzeigen

Kernkonzepte der Snowflake-Architektur

Snowflake Architektur Schichten

1. Speicherschicht

2. Compute-Schicht

3. Dienstleistungsebene

Wie die Schichten zusammenarbeiten

Snowflake's Data Warehouse Architektur

Datenmodell

Architektur der Abfrageverarbeitung

Erweiterte Snowflake-Funktionen

Ressourcenmanagement

Query Governance

Unternehmensintegration

Architektur-Vergleiche

Traditionelle Data Warehouses

Moderne Wettbewerber

1. Abfrageoptimierung

2. Handhabung der Gleichzeitigkeit

3. Speicherarchitektur

4. Unterschiede in der Kostenstruktur

5. Integrationsfähigkeit

Fazit

Snowflake Architektur FAQs

Was ist die Medaillon-Architektur in Snowflake?

Wie funktioniert das Speichersystem von Snowflake?

Wie schneidet Snowflake im Vergleich zu anderen Cloud Data Warehouses ab?

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Top 30 Generative KI Interview Fragen und Antworten für 2024

2022-2023 DataCamp Classrooms Jahresbericht

Q2 2023 DataCamp Donates Digest

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Associate Data Engineer in SQL

Einführung in Snowflake SQL

Introduction to Data Modeling in Snowflake

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Top 30 Generative KI Interview Fragen und Antworten für 2024

2022-2023 DataCamp Classrooms Jahresbericht

Q2 2023 DataCamp Donates Digest

Associate Data Engineer in SQL