Erfahren Sie, was BigQuery ist, wie es funktioniert, welche Unterschiede es zu herkömmlichen Datenbanken gibt und wie Sie mit der BigQuery-Konsole öffentliche Datensätze von Google abfragen.
Ich kam vor über 10 Jahren als Softwareentwickler im Ad-Tech-Bereich zum ersten Mal mit Big Data in Berührung. Damals begannen Datensätze schnell zu wachsen und ihre Größe explodierte.
Dies war zugleich eine große Chance, aber auch eine Herausforderung.
Abfragen zur Beantwortung grundlegender, aber kritischer Berichtsfragen dauerten plötzlich Stunden. Als Reaktion darauf begann ich 2013, spaltenorientierte Datenbanken wie BigQuery zu nutzen.
Diese Cloud-basierten Datenbanken ermöglichten es uns, analytische Lasten leistungsstark und kostengünstig auszuführen und Ressourcen bei Bedarf zu skalieren.
In den letzten Jahren habe ich ein großes Team von Dateningenieuren geleitet, das ein über 10 PB großes BigQuery-Data Warehouse erstellt hat, um mit einem schnell wachsenden Katalog von Haushaltswarenprodukten und den steigenden Analyseanforderungen Schritt zu halten.
Als CTO von DataCamp leite ich nun verschiedene Engineering- und Content-Teams, um unseren Benutzern genau diese Fähigkeiten (neben vielen anderen) beizubringen und sie darin zu unterstützen, sie zu erlernen und zu üben. Ich bin davon überzeugt, dass Cloud-Data Warehouses wie BigQuery viele Arbeitsabläufe deutlich effizienter und robuster machen können. Deshalb möchte ich in diesem Tutorial meine Erfahrungen mit Ihnen teilen.
In diesem Handbuch erfahren Sie, was BigQuery ist, wie es funktioniert und welche Unterschiede es zu herkömmlichen Datenbanken gibt. Sie lernen, wie Sie mit der BigQuery-Konsole öffentliche Datensätze abfragen, die von Google bereitgestellt werden. Außerdem erhalten Sie ein praktisches Beispiel für die Abfrage von Google Trends, um mehr über beliebte Themen zu erfahren.
Was ist BigQuery?
BigQuery ist ein vollständig verwaltetes Data Warehouse, das von Google entwickelt wurde und bei der Verwaltung und Analyse von Daten hilft. Die serverlose Architektur des Tools ermöglicht es Unternehmen, Einblicke in ihr Geschäft zu erhalten und Fragen schnell zu beantworten. Mit der skalierbaren und verteilten Analyse-Engine von BigQuery können Benutzer außerdem Petabyte an Daten mit SQL abfragen .
Zu den BigQuery-Schnittstellen gehören die Google Cloud-Konsolenschnittstelle und das BigQuery-Befehlszeilentool. Darüber hinaus bietet es Entwicklern Client-Bibliotheken für gängige Sprachen wie C#, Go, Java, Node.js, PHP, Python und Ruby.
BigQuery bietet integrierte Funktionen für maschinelles Lernen und ermöglicht die Verwendung extern trainierter Modelle in Google Cloud Platform (GCP) VertexAI und sogar den Import benutzerdefinierter Modelle, die außerhalb von BigQuery trainiert wurden.
Dieses Tutorial ist für Datenanalysten, Dateningenieure und Data Warehouse-Administratoren als Einführung in BigQuery geeignet. Wenn Sie nach diesem Tutorial tiefer in BigQuery einsteigen möchten, ist unser Einführungskurs in BigQuery ein guter Ausgangspunkt.
Traditionelles Data Warehouse vs. Cloud-Data-Warehouse
Ein herkömmliches Data Warehouse wird vor Ort bereitgestellt und erfordert in der Regel hohe Vorlaufkosten, ein qualifiziertes Team für die Verwaltung und eine entsprechende Planung, um der steigenden Nachfrage gerecht zu werden, da die Skalierung der Ressourcen herkömmlicher Rechenzentren starr ist.
Eine Cloud-Data-Warehouse-Lösung hingegen wird von einem Cloud-Dienstanbieter verwaltet und gehostet.
Vorteile von Cloud-Data-Warehouses
Normalerweise bietet ein Cloud-Data-Warehouse gegenüber herkömmlichen Data Warehouses mehrere Vorteile:
- Sie sind auf Skalierbarkeit ausgelegt und nutzen die Flexibilität der Cloud-Umgebung
- Sie haben Geschwindigkeit und Leistung verbessert
- Flexible Preise und eine Cloud-Umgebung ermöglichen Kostenoptimierung (z. B. Reduzierung in Zeiten geringer Nachfrage)
- Sie können vollständig oder teilweise verwaltet werden, was die Betriebskosten senkt.
Zeilen- vs. spaltenorientierte Datenbanken
Zeilenorientierte Datenbanken eignen sich gut für Workloads mit vollständigen Zeilensuchen, Einfügen neuer Datensätze und Manipulationen. Umgekehrt sind sie daher für analytische Workloads weniger geeignet. Wenn Sie beispielsweise einige Spalten aus einer Tabelle mit Dutzenden von Spalten abfragen, würden Sie eine große Menge unnötiger Daten lesen (dies kommt häufig bei analytischen Workloads vor, beispielsweise bei Produktprognosen, Ad-hoc-Analysen usw.).
Zeilenorientierte Datenbanken eignen sich typischerweise gut für die Online-Transaktionsverarbeitung (OLTP) und spaltenorientierte Datenbanken für die Online-Analyseverarbeitung (OLAP).
OLTP vs. OLAP
- OLTP ist ein Datenbanksystemtyp, der in transaktionsorientierten Anwendungen verwendet wird. „Online“ bedeutet, dass von solchen Systemen erwartet wird, dass sie auf Benutzeranforderungen reagieren und diese in Echtzeit verarbeiten (d. h. Transaktionen verarbeiten).
- Der Begriff steht im Gegensatz zum Online Analytical Processing (OLAP), bei dem der Schwerpunkt stattdessen auf der Datenanalyse liegt.
Zusammenfassung des Vergleichs:
Wie funktioniert BigQuery?
Eines der Hauptmerkmale von BigQuery ist die Trennung von Rechenleistung und Speicher, sodass beide je nach Bedarf und Bedarf separat skaliert werden können. Auf diese Weise können Benutzer Terabyte an Daten in Sekunden und Petabyte in Minuten abfragen.
Wenn BigQuery eine Abfrage ausführt, verteilt die Abfrage-Engine die Arbeit parallel, scannt die relevanten Tabellen im Speicher, führt die Ergebnisse zusammen und gibt den endgültigen Datensatz zurück.
Erste Schritte mit BigQuery
In diesem Abschnitt erfahren Sie, wie Sie auf BigQuery zugreifen und die BigQuery-Sandbox verwenden. Normalerweise ist eine Sandbox eine isolierte Testumgebung, in der Sie problemlos experimentieren können. Mit der BigQuery-Sandbox können Sie BigQuery ausprobieren, ohne eine Kreditkarte angeben oder ein Abrechnungskonto für Ihr Projekt erstellen zu müssen.
Auf BigQuery kann über die Google Cloud Console zugegriffen werden . Sie müssen sich mit einem Gsuite-E-Mail-Konto anmelden (oder eines erstellen). Nach der Anmeldung sollte ein Willkommensbildschirm angezeigt werden:
Sie finden BigQuery in der linken Menüleiste. Wenn Sie darauf klicken, gelangen Sie zum folgenden Bildschirm:
Verwenden der BigQuery-Sandbox
Um die BigQuery-Sandbox zu verwenden, erstellen Sie zunächst ein Projekt, indem Sie auf „Projekt auswählen“ klicken.
Klicken Sie anschließend auf „Neues Projekt“:
Sie müssen einen Projektnamen angeben. Für diese Anleitung verwenden wirdatacamp-guide-project
Auf der BigQuery-Seite wird jetzt ein Sandbox-Hinweis angezeigt, der besagt, dass Sie die BigQuery-Sandbox erfolgreich aktiviert haben.
Wenn die BigQuery-Sandbox jetzt aktiviert ist, können Sie mit Ihrem neuen Projekt Daten laden und abfragen sowie öffentliche Google-Datensätze abfragen.
Erstellen eines Datasets und einer Tabelle
Bevor Sie eine Tabelle erstellen, müssen Sie in Ihrem neuen Projekt einen Datensatz erstellen. Ein Datensatz ist ein Container der obersten Ebene, der zum Organisieren und Steuern des Zugriffs auf eine Reihe von Tabellen und Ansichten verwendet wird. Um einen Datensatz zu erstellen, klicken Sie auf das Symbol „Aktionen“ des Projekts:
Für die Zwecke dieses Handbuchs füllen wir „Dataset-ID“ mit „main“ aus.
Sie können eine Tabelle mit SQL erstellen. BigQuery verwendet GoogleSQL , das ANSI-kompatibel ist.
Hinweis : In einer Sandbox-Umgebung ist es nicht möglich, Daten einzufügen. Wenn Sie das Einfügen von Daten ausprobieren möchten, müssen Sie die kostenlose Testversion aktivieren. Die nächsten Abschnitte konzentrieren sich auf die Abfrage öffentlicher Datensätze, die als Teil von Google Cloud bereitgestellt werden.
Abfragen eines öffentlichen Datensatzes mithilfe der BigQuerys-Konsole
Um einen öffentlichen Datensatz abzufragen, führen Sie die folgenden Schritte aus:
1. Klicken Sie neben Explorer auf „Hinzufügen“.
2. Wählen Sie dann einen Datensatz aus.
3. Suchen Sie nach „Google Trends“, wählen Sie „Google Trends“ und klicken Sie anschließend auf die Schaltfläche „Datensatz anzeigen“.
4. bigquery-public-data wird mit einer langen Liste von Datensätzen angezeigt. Markieren Sie bigquery-public-data mit einem Stern, damit es im Explorer „fest“ bleibt Film Still.
Ein praktisches Beispiel mit dem Google Trends-Datensatz
Wir werden die Tabelle nutzen top_terms:
Klicken Sie auf die top_termsTabelle, um sie zu öffnen, und prüfen Sie die Details und die Vorschautabelle, um mehr über top_termsdie Daten zu erfahren.
Sie können den Datensatz (siehe unten) abfragen, um Begriffe abzurufen, die in den letzten zwei Wochen an erster Stelle rangierten:
Ergebnisse (können variieren):
Nächste Schritte
Jetzt können Sie mit der Nutzung von BigQuery beginnen. Google Cloud bietet eine kostenlose Testversion für 300 $ an. BigQuery bietet verschiedene Zahlungsoptionen. Für Abfragen erhalten Sie 1 TB pro Monat kostenlos, darüber hinaus kostet es 6,25 $ pro TB. Weitere Preisinformationen finden Sie auf der Preisseite .
Für alle, die sich für ein umfassendes Verständnis des Data Engineering interessieren, einschließlich der Arbeit mit Cloud-basierten Data Warehouses wie BigQuery, bietet DataCamp einen Data Engineer Learning Track , der alles von den Grundlagen bis hin zu fortgeschrittenen Themen abdeckt.
Sie können sich auch unseren Spickzettel für einen Vergleich von AWS, Azure und Google Cloud Platform ansehen, um weitere Einblicke in die verfügbaren Tools zu erhalten.