Rechtschreibkorrektur

This commit is contained in:
Henrik Mertens 2022-06-29 17:06:39 +02:00
parent 5b367adae6
commit 888c74e482
9 changed files with 83 additions and 64 deletions

View file

@ -35,7 +35,7 @@
"metadata": {},
"source": [
"Im nächsten Schritt müssen die Verbindungsdaten angegeben werden. Ein API Token kann im InfluxDB Webinterface angelegt werden. Der Bucket wird automatisch erstellt. Es kann allerdings auch ein eigener Bucket verwendet werden.\n",
"Als URL muss darauf geachtet werden, die URL des Doker Containers zu nutzen, in dem die Datenbank ausgeführt wird. "
"Als URL muss darauf geachtet werden, die URL des Docker Containers zu nutzen, in dem die Datenbank ausgeführt wird. "
]
},
{

View file

@ -23,13 +23,13 @@
"id": "7abd6877-b35f-4604-ba57-399234b97281",
"metadata": {},
"source": [
"Als erstes werden Vorbereitungen dafür getroffen, die Daten zu importieren. Dazu werden die benötigten Bibliotehken importiert und einige Variablen gesetzt.\n",
"Als erstes werden Vorbereitungen dafür getroffen, die Daten zu importieren. Dazu werden die benötigten Bibliotheken importiert und einige Variablen gesetzt.\n",
"Außerdem wird ein Ordner angelget, in dem die heruntergeladenen Daten gespeichert werden können."
]
},
{
"cell_type": "code",
"execution_count": 15,
"execution_count": 9,
"id": "c87fe05a-63e3-4748-a01a-d46cb12e9b05",
"metadata": {
"tags": []
@ -82,7 +82,7 @@
},
{
"cell_type": "code",
"execution_count": 16,
"execution_count": 10,
"id": "b9acf473-2f26-40c6-9c48-1a4ec159bd3d",
"metadata": {},
"outputs": [
@ -121,7 +121,7 @@
},
{
"cell_type": "code",
"execution_count": 17,
"execution_count": 11,
"id": "90f1eb08-b4dd-4743-ad38-492bfd742fec",
"metadata": {},
"outputs": [
@ -154,12 +154,12 @@
"id": "ac3c644a-cac2-41b5-9be0-f01bcb9a40cc",
"metadata": {},
"source": [
"Die so gefilterten Links werden dann in dieser Schleife heruntergeladen und gespeichert. Der Pfad für die Stationsbeschreibungsdatei wird in eine extra Variable geschrieben, um später die Daten der Stationen zu bekommen."
"Die so gefilterten Links werden dann in dieser Schleife heruntergeladen und gespeichert. Der Pfad für die Stationsbeschreibungsdatei wird in eine extra Variable geschrieben, um später an die Daten der Stationen zu gelangen."
]
},
{
"cell_type": "code",
"execution_count": 18,
"execution_count": 12,
"id": "2524986b-9c26-42d5-8d76-f4e228d0eb48",
"metadata": {
"tags": []
@ -207,14 +207,14 @@
"id": "14b90ff2-1473-4e44-9c6b-fdd2d6c20773",
"metadata": {},
"source": [
"Zunächst werden die Wetterstationen in die Klasse Station eingelesen. Aus den Klassen wird ein Dictionary erstellt, in welchem mittels der Stations_id gesucht werden kann. Weil die Stationsdaten nicht als CSV gespeichert sind, musste eine eigene Technik entwickelt werden, um die Daten auszulesen.\n",
"Zunächst werden die Wetterstationen in die Klasse Station eingelesen. Aus den Klassen wird ein dictionary erstellt, in welchem mittels der \"Stations_id\" gesucht werden kann. Weil die Stationsdaten nicht als CSV gespeichert sind, musste eine eigene Technik entwickelt werden, um die Daten auszulesen.\n",
"\n",
"Als erstes wird so lange gelesen bis kein Leerzeichen mehr erkannt wird. Danach wird gelesen bis wieder ein Leerzeichen erkannt wird. Dadurch können die Felder nacheinander eingelesen werden. "
]
},
{
"cell_type": "code",
"execution_count": 23,
"execution_count": 13,
"id": "430041d7-21fa-47d8-8df9-7933a8749f82",
"metadata": {},
"outputs": [
@ -230,7 +230,7 @@
"source": [
"\n",
"class Station:\n",
" def __init__(self, Stations_id, Stationshoehe,geoBreite, geoLaenge, Stationsname, Bundesland):\n",
" def __init__(self, Stations_id, Stationshoehe, geoBreite, geoLaenge, Stationsname, Bundesland):\n",
" self.Stations_id = Stations_id\n",
" self.Stationshoehe = Stationshoehe\n",
" self.geoBreite = geoBreite\n",
@ -240,7 +240,7 @@
"\n",
"def read_station_file():\n",
" \n",
" def get_value(i,line, empty_spaces):\n",
" def get_value(i, line, empty_spaces):\n",
" value = \"\"\n",
" while(line[i] == ' '):\n",
" i += 1\n",
@ -309,16 +309,24 @@
"id": "81bbb42e-3bd9-4b29-a6e3-11e1d1593307",
"metadata": {},
"source": [
"Um an die Messwerte in den Dateien zu kommen, müssen diese entpackt werden. \n",
"Das kann einige Zeit in Anspruch nehmen. Es wird immer die Station angezeigt, die gerade importiert wird."
"Um an die Messwerte in den Dateien zu gelangen, müssen diese entpackt werden. \n",
"Dies kann einige Zeit in Anspruch nehmen. Es wird immer die Station angezeigt, die gerade importiert wird."
]
},
{
"cell_type": "code",
"execution_count": null,
"execution_count": 14,
"id": "27966795-ee46-4af1-b63c-0f728333ec79",
"metadata": {},
"outputs": [],
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Import durchgeführt \r"
]
}
],
"source": [
"def import_data(df):\n",
" client = InfluxDBClient(url=influx_url, token=token, org=org)\n",
@ -408,12 +416,12 @@
"id": "dacfcc8e-a74b-4067-8f55-ac4063294dec",
"metadata": {},
"source": [
"Als erstes müssen die Daten der letzen 24 Stunden aus der Datenbank abgerufen werden. Dazu wird mithilfe des Query Clients ein Flux Query ausgeführt, der nach den gewünschten Daten filtert."
"Als erstes müssen die Daten der letzten 24 Stunden aus der Datenbank abgerufen werden. Dazu wird mithilfe des Query Clients ein Flux Query ausgeführt, der nach den gewünschten Daten filtert."
]
},
{
"cell_type": "code",
"execution_count": 7,
"execution_count": 15,
"id": "a3e48dfa-eeca-4a3c-a8c7-7b65c223b6c6",
"metadata": {},
"outputs": [],
@ -433,7 +441,7 @@
"id": "711e5ab4-c5c0-4e03-bc49-fd2f2d0946ed",
"metadata": {},
"source": [
"Als nächstes werden einige Variablen definiert um den Höchst- und Tiefstwert zu erhalten.\n",
"Als nächstes werden einige Variablen definiert, um den Höchst- und Tiefstwert zu erhalten.\n",
"Für den Höchstwert nehmen wir standardmäßig einen sehr niedrigen und für den Tiefstwert einen sehr hohen Wert.\n",
"\n",
"Außerdem wird für den Durschnittswert ein Zähler und eine Summen Variable definiert."
@ -441,7 +449,7 @@
},
{
"cell_type": "code",
"execution_count": null,
"execution_count": 16,
"id": "053593fb-1fad-4280-b519-a163b89daa7f",
"metadata": {},
"outputs": [],
@ -455,7 +463,7 @@
},
{
"cell_type": "code",
"execution_count": 9,
"execution_count": 17,
"id": "94441229-f809-4942-908f-9c0397461245",
"metadata": {},
"outputs": [
@ -463,8 +471,8 @@
"name": "stdout",
"output_type": "stream",
"text": [
"Der Tageshöchstwert der letzen 24h liegt bei: 18.9\n",
"Der Tagestiefstwert der letzen 24h liegt bei: 15.4\n"
"Der Tageshöchstwert der letzen 24h liegt bei: -254\n",
"Der Tagestiefstwert der letzen 24h liegt bei: 254\n"
]
}
],
@ -488,15 +496,27 @@
"id": "8a9d2fd8-08ac-4b32-83b0-df03285dda93",
"metadata": {},
"source": [
"Um den Durchschnittswert auszurechnen, muss nur noch die Summe aller Werte, also die Variable sum, durch die Anzahl der Werte i geteilt werden."
"Um den Durchschnittswert auszurechnen, muss nur noch die Summe aller Werte, also die Variable sum, durch die Anzahl der Werte \"i\" geteilt werden."
]
},
{
"cell_type": "code",
"execution_count": null,
"execution_count": 18,
"id": "6cf90047-ba7b-42fc-b012-aa9647d60191",
"metadata": {},
"outputs": [],
"outputs": [
{
"ename": "ZeroDivisionError",
"evalue": "division by zero",
"output_type": "error",
"traceback": [
"\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
"\u001b[0;31mZeroDivisionError\u001b[0m Traceback (most recent call last)",
"Input \u001b[0;32mIn [18]\u001b[0m, in \u001b[0;36m<cell line: 1>\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0m average \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43msum\u001b[39;49m\u001b[43m \u001b[49m\u001b[38;5;241;43m/\u001b[39;49m\u001b[43m \u001b[49m\u001b[43mi\u001b[49m\n\u001b[1;32m 2\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mDie Durchschnittstemperatur der letzten 24h liegt bei: \u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;241m+\u001b[39m \u001b[38;5;28mstr\u001b[39m(average))\n",
"\u001b[0;31mZeroDivisionError\u001b[0m: division by zero"
]
}
],
"source": [
"average = sum / i\n",
"print(\"Die Durchschnittstemperatur der letzten 24h liegt bei: \"+ str(average))"
@ -520,7 +540,7 @@
},
{
"cell_type": "code",
"execution_count": 11,
"execution_count": null,
"id": "4cf4e14f-37f7-4d67-98dd-55c53a5235d7",
"metadata": {},
"outputs": [],
@ -544,7 +564,7 @@
},
{
"cell_type": "code",
"execution_count": 12,
"execution_count": null,
"id": "6fd12713-48ed-4624-8436-b3f3e23d7612",
"metadata": {},
"outputs": [],

Binary file not shown.

View file

@ -4,7 +4,7 @@
%% Parameter - Hier auf die eigene Arbeit anpassen
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newcommand{\dokumententyp}{Studienarbeit}
\newcommand{\dokumententyp}{Seminararbeit}
\newcommand{\abgabedatum}{\today}
\newcommand{\ort}{Paderborn}
\newcommand{\koorperationsunternehmen}{FHDW}

View file

@ -16,7 +16,7 @@ erklärt.
Im nächsten Kapitel wird gezeigt, wie mit InfluxDB gearbeitet werden kann. Dazu wird das für InfluxDB
wichtige Line Protokoll vorgestellt. Außerdem wird gezeigt, wie die abgerufenen Daten mit InfluxDB
visualisiert werden können. Als Daten werden die Wetterdaten das \gls{DWD} genutzt, welche auch in diesem
visualisiert werden können. Als Daten werden die Wetterdaten des \gls{DWD}s genutzt, welche auch in diesem
Kapitel erklärt und vorgestellt werden.
Im letzten Kapitel folgt eine kurze Zusammenfassung der Arbeit und der wichtigsten Informationen

View file

@ -3,7 +3,7 @@
In diesem Kapitel werden die Grundlagen von \gls{TSDB} und Time Series Data erklärt.
\gls{TSDB} gehört zu den \gls{NoSQL} Datenbanken und ist besonders darauf optimiert, mit Time Series Data zu
arbeiten. Dadurch können sie große Mengen an Time Series Data verarbeiten, durchsuchen und speichern.\footnote{\cite[vgl.][]{ComputerWeekly}}
arbeiten. Dadurch kann sie große Mengen an Time Series Data verarbeiten, durchsuchen und speichern.\footnote{\cite[vgl.][]{ComputerWeekly}}
\subsection{Time Series Data}
@ -16,7 +16,7 @@ Time Series Data können gut daran erkannt werden, dass die Zeit eine wichtige A
Manchmal ist es nicht notwendig, alle Daten zu erfassen. Zum Beispiel wird in vielen Anwendungen nur der letzte Login gespeichert.
Mehr ist auch für die Funktion nicht notwendig. Allerdings können zusätzliche Informationen gewonnen werden, wenn nicht
nur der letzte Datenpunkt, sondern die Veränderung über einen Zeitraum aufgezeichnet wird.
So kann zum Beispiel festgestellt werden, wie oft und wann sich der Kunde einloggt hat und ob es dabei ein Muster gibt. Anhand dieser Daten können Kunden
So kann zum Beispiel festgestellt werden, wie oft und wann sich der Kunde eingeloggt hat und ob es dabei ein Muster gibt. Anhand dieser Daten können Kunden
dann kategorisiert werden.\footnote{\cite[vgl.][]{DataScienceTeam2020}}
Eine weitere Besonderheit von Time Series Data ist, dass sie sich nicht verändern. Wenn die Daten einmal erfasst wurden, wird an ihnen nichts mehr verändert.
@ -24,17 +24,17 @@ Es werden nur neue Daten hinzugefügt.\footnote{\cite[vgl.][]{SamFangman2019}}
\subsection{{Aufbau von Time Series Datenbanken}}
\gls{TSDB} ist darauf ausgelegt, Key Value Paare zu speichern. Der Key in einem Key Value Datensatz ist ein
\gls{TSDB} sind darauf ausgelegt, Key Value Paare zu speichern. Der Key in einem Key Value Datensatz ist ein
Wert, über den die Value referenziert wird. Im Value Teil werden die Daten zum dazugehörigen Key gespeichert.
Der Wert des Value kann ein primitiver Datentyp sein oder auch ein Objekt, das in einen primitiven Datentyp
umgewandelt worden ist.
\footnote{\cite[vgl.][]{Key-Value}}
Ein Datenpunkt in einer Time Series Database besteht aus mehreren Key Value Paaren. Einige dieser Key Value Paare sind sogenannte Tags.
Diese Tags sind Werte, die sich zwischen den Datenpunkten nicht ändern, wie zum Beispiel die Position eines Sensors oder die Kundenummer
Diese Tags sind Werte, die sich zwischen den Datenpunkten nicht verändern, wie zum Beispiel die Position eines Sensors oder die Kundenummer
eines Kunden, der sich gerade eingeloggt hat. Anhand dieser Tags können die Datenpunkte durchsucht werden. Die eigentlichen Messwerte
des Sensors oder andere Daten, die erfasst werden sollen, werden auch als Key Value Paar gespeichert. Zum Beispiel wird als Name
\glqq Temperatur\grqq{} und als Wert \glqq 25,2\grqq{} angeben. Ein Datenpunkt kann mehrere Messwerte haben. Außerdem wird jeder Datenpunkt mit einem Timestamp
\glqq Temperatur\grqq{} und als Wert \glqq 25,2\grqq{} angegeben. Ein Datenpunkt kann mehrere Messwerte haben. Außerdem wird jeder Datenpunkt mit einem Timestamp
versehen, nach welchem er indexiert wird.\footnote{\cite[vgl.][]{hazelcast}} Eine gute Veranschaulichung, wie die Daten in einer \gls{TSDB} aufgebaut sind, zeigt das InfluxDB
Line Protokoll in \cref{list:lineproto}.
%https://hazelcast.com/glossary/time-series-database/
@ -65,7 +65,7 @@ So können Datenbanken wie MongoDB, Redis, Teradata und Couchbase mit Time Serie
auf Platz 29.\footnote{\cite[vgl.][]{dbranking}}
Allerdings haben Datenbanken, die nur auf das Verarbeiten von Time Series Data ausgelegt sind, deutliche Performance Vorteile
gegenüber Multi Model Datenbanken. In einem Vergleich von InfluxDB und MongoDB, hat InfluxDB eine 2,4 mal bessere
gegenüber Multi-Model Datenbanken. In einem Vergleich von InfluxDB und MongoDB, hat InfluxDB eine 2,4 mal bessere
Schreibperformance als MongoDB und ist beim Lesen sogar 5,7 mal schneller. InfluxDB benötigt außerdem 20 mal weniger
Speicherplatz auf der Festplatte, um die gleiche Menge an Daten zu speichern.\footnote{\cite[vgl.][]{InfluxDBvsMongo}}
@ -85,7 +85,7 @@ Speicherplatz auf der Festplatte, um die gleiche Menge an Daten zu speichern.\fo
\subsection{{Entwicklungsumgebung}}
Um mit InfluxDB zu arbeiten, wird eine Umgebung zum Ausführen von Docker Containern benötigt, in welchen InfluxDB und Jupyter Notebooks betrieben werden können.
Um mit InfluxDB zu arbeiten, wird eine Umgebung zum Ausführen von Docker Containern benötigt, in welcher InfluxDB und Jupyter Notebooks betrieben werden können.
Der eigentliche Code wird dann in Jupyter Notebooks mit Python entwickelt. Die Grundlagen über die eingesetzten Tools und Techniken werden in diesem Kapitel grob
erläutert.

View file

@ -1,15 +1,14 @@
\section{{InfluxDB}}
InfluxDB ist eine in Go geschriebene Open-Source \gls{TSDB}, die darauf ausgelegt ist, mit einer großen Menge an Time Series Data zu arbeiten.\footnote{\cite[vgl.][]{dbranking}}
Im weiteren Verlauf dieses Kapitels, wird am Beispiel von Wetterdaten gezeigt, wie mit InfluxDB gearbeitet wird. InfluxDB stellt für die Integration in
eigene Anwendungen ein \gls{HTTP} \gls{API} zur Verfügung, für die es in vielen Programmiersprachen Client Librarys gibt. Außerdem wird ein Webinterface und ein \gls{CLI} bereitgestellt.
\footnote{\cite[vgl.][]{InfluxAPI}}
Im weiteren Verlauf dieses Kapitels wird am Beispiel von Wetterdaten gezeigt, wie mit InfluxDB gearbeitet wird. InfluxDB stellt für die Integration in
eigene Anwendungen ein \gls{HTTP} \gls{API} zur Verfügung, für welches es in vielen Programmiersprachen Client Librarys gibt. Außerdem wird ein Webinterface und ein \gls{CLI} bereitgestellt.\footnote{\cite[vgl.][]{InfluxAPI}}
\subsection{{InfluxDB Installation}}
Bevor InfluxDB genutzt werden kann, muss es als erstes installiert werden. Am einfachsten ist dies über Docker möglich. Dazu ist es notwendig, dass Docker und Docker Compose auf dem System installiert sind.
Mit Docker Desktop lassen sich die beide Tools am einfachsten installieren. Im Anhang dieser Arbeit befindet sich im Ordner Docker eine Docker Compose Datei mit dem Namen \glqq docker-compose.yml\grqq{}.
Mit Docker Desktop lassen sich die beide Tools am einfachsten installieren. Im Anhang dieser Arbeit befindet sich im Ordner \glqq Docker\grqq{} eine Docker Compose Datei mit dem Namen \glqq docker-compose.yml\grqq{}.
Zum starten der benötigten Container ist es am einfachsten, mit einem Terminal (Powershell, xterm usw.) in den Docker Ordner zu wechseln und den Befehl \glqq docker compose up -d\grqq{} auszuführen.
Jetzt beginnt Docker damit, die notwendigen Images herunterzuladen und zu bauen. Wenn der Befehl ohne Fehler ausgeführt worden ist, wurde InfluxDB erfolgreich installiert und kann
über die \gls{URL}:\ \url{http://localhost:8086} aufgerufen werden. Die Login Daten sind als Umgebungsvariable in Docker Compose definiert und lauten: \glqq admin\grqq{} \glqq e1LjSYaFbzbJeIBC\grqq{}.
@ -22,14 +21,13 @@ zugegriffen werden. Das Passwort lautet \glqq fhdw\grqq{}. Im Ordner \glqq work\
In InfluxDB werden Daten immer in Buckets gespeichert. Um Daten hochzuladen, muss zunächst ein Bucket angelegt werden. Dazu gibt es zwei
Möglichkeiten. Die einfachste ist es, über das Web \gls{UI} von InfluxDB einen neuen Bucket anzulegen. Dazu muss nach dem Login der Navigationspunkt \glqq Data\grqq{}
und der Reiter \glqq Buckets\grqq{} ausgewählt werden. Hier kann dann mit dem Button \glqq Create Bucket\grqq{} ein neuer Bucket angelegt werden. Dabei kann noch eine
Lebensdauer für die Daten ausgewählt werden, nach welcher die jeweiligen Datenpunkte gelöscht werden.
\footnote{vgl. \cref{fig:dashboard}, \cref{fig:load-data-source}, \cref{fig:load-data-bucket}, \cref{fig:load-data-add-bucket}}
Lebensdauer für die Daten ausgewählt werden, nach welcher die jeweiligen Datenpunkte gelöscht werden.\footnote{vgl. \cref{fig:dashboard}, \cref{fig:load-data-source}, \cref{fig:load-data-bucket}, \cref{fig:load-data-add-bucket}}
%\subsection{Line Protokoll} Mit oder ohne diese Überschrift?
Daten werden immer nach dem InfluxDB Line Protokoll formatiert an die Datenbank gesendet. Das Protokoll ist wie in \cref{list:lineproto}
dargestellt, aufgebaut. Im ersten Teil des Line Protokolls wird der Name des Datenpunktes angegeben. Das kann zum Beispiel der Name des Sensors sein oder
der Ort, an dem der Messwert aufgenommen wurde. Es ist Wichtig, dass Groß- und Kleinschreibung beachtet wird und Unterstriche nicht
dargestellt aufgebaut. Im ersten Teil des Line Protokolls wird der Name des Datenpunktes angegeben. Das kann zum Beispiel der Name des Sensors sein oder
der Ort, an dem der Messwert aufgenommen wurde. Es ist wichtig, dass Groß- und Kleinschreibung beachtet wird und Unterstriche nicht
genutzt werden dürfen. Sonderzeichen müssen mit einem Backslash maskiert werden. Nach dem Namen kommen, getrennt durch ein Komma, die Tags des Datenpunktes.
Tags werden indexiert und dazu genutzt, Datenpunkte zu durchsuchen. Auch Tags werden als Key Value Paar angegeben. Hier sollen Metadaten wie
zum Beispiel der Standort des Sensors oder der Name des Servers eingetragen werden, die zum Datenpunkt gehören. Die Messwerte sind mit einem
@ -61,7 +59,7 @@ Mit einem Read/Write Token kann wie in \cref{fig:load-data-add-token} zu sehen a
\subsection{{Daten abrufen und visualisieren}}
Um Daten aus InfluxDB abzurufen, wird die funktionale Sprache Flux genutzt. Flux wurde für das abfragen, analysieren und verarbeiten von Daten entwickelt.\footnote{\cite[vgl.][]{InfluxFlux}}
Flux kann unter anderem im influxDB Webinterface oder über die InfluxDB \gls{API} sowie über den InfluxDB \gls{CLI} CLient ausgeführt werden.\footnote{\cite[vgl.][]{InfluxExecQuery}}
Flux kann unter anderem im InfluxDB Webinterface oder über die InfluxDB \gls{API}, sowie über den InfluxDB \gls{CLI} Client ausgeführt werden.\footnote{\cite[vgl.][]{InfluxExecQuery}}
%https://docs.influxdata.com/influxdb/cloud/query-data/execute-queries/.
Am einfachsten ist es, Flux mit Code Beispielen zu erklären. Die Zeilenangaben in diesem Kapitel beziehen sich auf das \cref{list:influxFlux}.
@ -70,9 +68,9 @@ In Zeile 1 wird dazu das \glqq from()\grqq{} Statement genutzt, um den Bucket mi
erlaubt Flux keine Abfragen ohne die Angabe eines Zeitbereiches, der die Datenmenge einschränkt. Dieser Bereich kann mithilfe
des \glqq range()\grqq{} Statements ausgewählt werden, wobei es zwei verschiedene Möglichkeiten gibt. Die erste ist, mithilfe des \glqq start:\grqq{} Parameters
die Zeit relativ zum Zeitpunkt der Ausführung anzugeben. In Zeile 2 des Beispiels wird der Zeitbereich auf die letzte Stunde festgelegt.
Zusätzlich zum Startparameter kann auch der Stop-Parameter angeben werden, welcher wie in Zeile 5 zu sehen, angibt, bis wann die Daten
Zusätzlich zum Startparameter kann auch der Stop-Parameter angeben werden, welcher wie in Zeile 5 zu sehen angibt, bis wann die Daten
abgerufen werden. In Zeile 5 würden die Daten von 14:00 bis 14:50 Uhr abgerufen werden, wenn die Abfrage um 15 Uhr verarbeitet wird.
Die zweite Möglichkeit ist es, den Zeitbereich mit absoluten Werten einzuschränken, was wie in Zeile 8 zu sehen, gemacht wird.
Die zweite Möglichkeit ist es, wie in Zeile 8 zu sehen, den Zeitbereich mit absoluten Werten einzuschränken.
Zusätzlich zu den Zeitbereichen können auch weitere Filter auf die Daten angewendet werden. Dazu wird die Filterfunktion genutzt.
Mit dieser Funktion wird über die Datenpunkte der Datenbank iteriert. Innerhalb dieser Funktion wird eine weitere Funktion als Parameter übergeben,
welche die Daten filtert. Wenn die Funktion \glqq false\grqq{} zurückgibt, wird dieser Datenpunkt verworfen. Falls jedoch ein \glqq true\grqq{} zurückgegeben wird, werden
@ -81,7 +79,7 @@ die Daten weiter verarbeitet oder ausgegeben. Im Fall von Zeile 12 wird der Date
und mit \glqq r.\_field\grqq{} nach dem Namen eines Messwertes gefiltert werden. Im letzten Schritt werden über die \glqq yield()\grqq{} Funktion
die Daten ausgegeben. Das ist nur erforderlich, wenn mehrere Flux Abfragen zu einer kombiniert werden.\footnote{\cite[vgl.][]{InfluxFluxQuery}}
%https://docs.influxdata.com/influxdb/cloud/query-data/get-started/query-influxdb/
Alternativ können Flux Querys auch über den Query Builder im InfluxDB Web \gls{UI} erstellt werden.\footnote{\cite[vgl.][]{InfluxDBDataExplorer}}
Alternativ können Flux Querys auch über den Query Builder, wie in \cref{fig:query-builder} zu sehen, im InfluxDB Web \gls{UI} erstellt werden.\footnote{\cite[vgl.][]{InfluxDBDataExplorer}}
Es ist nicht immer erforderlich, die Daten aus der Datenbank auszulesen, wenn diese visualisiert werden sollen.
Mithilfe des InfluxDB Webinterface ist es möglich, Daten zu visualisieren. Vorher ist es allerdings notwendig, die zu visualisierenden Daten mithilfe eins Flux
@ -89,6 +87,7 @@ Query abzufragen.
%bevor die Daten Visualisiert werden können müssen diese erst mithilfe eines Flux Query abgefragt werden.
Dazu kann entweder selbst ein Query geschrieben werden oder der eingebaute
Query Builder genutzt werden.\footnote{\cite[vgl.][]{InfluxDBDataExplorer}} Danach lassen sich die Daten als Graph, Heatmap, Histogramm, Scatterplot und weiteren Diagrammtypen anzeigen.\footnote{\cite[vgl.][]{InfluxDBGraph}}
Ein Beispiel ist in \cref{fig:influxdb-Graph} zu sehen.
\subsection{Python Library}
@ -105,17 +104,17 @@ Was in die Variablen eingetragen werden muss, wird im
Kapitel \glqq Daten einfügen\grqq{} %eventuell Link einfügen?
beschrieben.\footnote{\cite[vgl.][]{InfluxAPIPythonClient}}
In Zeile neun bis 13 wird der Client mit den hinterlegten Variablen initialisiert. Danach folgt in Zeile 15 die
In den Zeilen neun bis 13 wird der Client mit den hinterlegten Variablen initialisiert. Danach folgt in Zeile 15 die
Initialisierung des Write Clients. Als nächstes muss ein Datenpunkt erstellt werden, der in die Datenbank geschrieben werden kann.
Dieser wird in Zeile 17 bis 19 erstellt. An diesem Datenpunkt kann eine beliebige Menge an Tags und Datenfeldern
Dieser wird in den Zeilen 17 bis 19 erstellt. An diesem Datenpunkt kann eine beliebige Menge an Tags und Datenfeldern
über die Methoden \glqq tag\grqq{} und \glqq field\grqq{} angehängt werden. Hier im Beispiel wird der Datenpunkt \glqq my\_measurement\grqq{} mit dem Tag \glqq location\grqq{} angelegt,
welcher den Wert \glqq Paderborn\grqq{} hat, und dem Messwert \glqq temperature\grqq{} mit dem Wert \glqq 25,3\grqq{}. In der letzten Zeile wird dann
welcher den Wert \glqq Paderborn\grqq{} hat, und den Messwert \glqq temperature\grqq{} mit dem Wert \glqq 25,3\grqq{}. In der letzten Zeile wird dann
der Write Client dazu genutzt, um diesen Datenpunkt an die Datenbank zu senden.
Um die so in die Datenbank geschriebenen Werte wieder abzurufen, kann so wie in \cref{list:influxPythonRead} vorgegangen werden.
Hier wird als erstes in Zeile 1 ein Query Client erstellt. Mit diesem Query Client kann dann wie in Zeile 2 bis 7 zu
sehen ein Flux Query ausgeführt werden. Zurückgegeben wird ein Flux Objekt mit einer Tabellenstruktur, die wie in Zeile 9 bis 11
zu sehen, einfach mit einer Schleife verarbeitet werden kann. Um auf die Daten des Objekts zuzugreifen sind die wichtigsten Methoden hier beschreiben.
Hier wird als erstes in Zeile 1 ein Query Client erstellt. Mit diesem Query Client kann dann wie in den Zeilen zwei bis sieben zu
sehen ein Flux Query ausgeführt werden. Zurückgegeben wird ein Flux Objekt mit einer Tabellenstruktur, die wie in den Zeilen neun bis elf
zu sehen, einfach mit einer Schleife verarbeitet werden kann. Um auf die Daten des Objekts zuzugreifen, sind die wichtigsten Methoden hier beschreiben.
Mit \glqq get\_measurement\grqq{} kann der Name eines Datenpunktes abgerufen werden. Zusätzlich kann mithilfe von \glqq get\_field\grqq{} und \glqq get\_value\grqq{} der Name und der Wert
des Messwertes im Datenpunkt abgefragt werden. Zum abfragen der Zeit wird die Methode \glqq get\_time\grqq{} genutzt.\footnote{\cite[vgl.][]{InfluxAPIPythonClient}}
@ -135,7 +134,7 @@ des Messwertes im Datenpunkt abgefragt werden. Zum abfragen der Zeit wird die Me
\subsubsection{{Wetterdaten Aufbau}}
Die Wetterdaten des \gls{DWD} können über den \gls{CDC} OpenData Bereich heruntergeladen werden. Hier werden die Wetterdaten über \gls{FTP} und \gls{HTTPS} zum Download
Die Wetterdaten des \gls{DWD}s können über den \gls{CDC} OpenData Bereich heruntergeladen werden. Hier werden die Wetterdaten über \gls{FTP} und \gls{HTTPS} zum Download
angeboten. Unter der \gls{URL} \url{https://www.dwd.de/DE/leistungen/cdc/cdc_ueberblick-klimadaten.html} wird eine gute Übersicht über die zum
Download angebotenen Daten geboten. Die Werte für die aktuelle Lufttemperatur können über
\url{https://opendata.dwd.de/climate_environment/CDC/observations_germany/climate/10_minutes/air_temperature/now/}
@ -145,7 +144,7 @@ abgerufen werden.
Aktuell werden auf der Webseite für die aktuelle Lufttemperatur circa 480 Dateien zum Download angeboten. Die meisten dieser Dateien entsprechen jeweils
einer Messstation und je nach Tageszeit kann deswegen die Menge der Zeilen in der Datei variieren, weil immer um 00:00 Uhr eine neue Datei angefangen wird.
In den \gls{ZIP} Dateien befinden sich außerdem Metadaten über die Messtationen. Die eigentlichen Daten sind als \gls{CSV} formatiert und sehen aus wie in Listing~\ref{list:wetter_csv} gekürzt dargestellt wird.
In den \gls{ZIP} Dateien befinden sich außerdem Metadaten über die Messstationen. Die eigentlichen Daten sind als \gls{CSV} formatiert und sehen aus wie in Listing~\ref{list:wetter_csv} gekürzt dargestellt wird.
In der \gls{CSV} Datei gibt es 9 Felder. Der Inhalt dieser Felder wird in \cref{tab:csv-explenation} beschreiben.
%Eventuell kürzen wenn zu viele Seiten
@ -194,8 +193,8 @@ eor & END OF RECORD" Bedeutet die Zeile ist zu Ende. \\
In der Datei \glqq zehn\_now\_tu\_Beschreibung\_Stationen.txt\grqq{} werden die Wetterstationen beschrieben. Diese Datei ist nicht als \gls{CSV} Datei formatiert, sondern als Tabelle und erhält
Daten über die Wetterstationen. Die Daten der Stationen in der heruntergeladenen Textdatei stimmen mit den Daten der hauptamtlichen Messnetzkarte überein.
Allerdings enthält die Textdatei nicht alle Stationen, sondern nur Stationen für die auch Messwerte im Datensatz hinterlegt sind. Die Bedeutung der einzelnen
Spalten der Tabelle werden in der \cref{tab:file-stations} beschrieben.
Allerdings enthält die Textdatei nicht alle Stationen, sondern nur Stationen für die auch Messwerte im Datensatz hinterlegt sind. Die Bedeutungen der einzelnen
Spalten der Tabelle werden in \cref{tab:file-stations} beschrieben.
\begin{table}[hbt]
\centering
@ -227,7 +226,7 @@ Spalten der Tabelle werden in der \cref{tab:file-stations} beschrieben.
Um die Daten auswerten zu können, müssen diese als erstes heruntergeladen und entpackt werden. Dazu wird mithilfe von BeautifulSoup aus der \gls{HTML} Seite
des \gls{DWD} für jede Datei eine \gls{URL} ausgelesen. Die so gewonnen \gls{URL}s können dann mithilfe einer Schleife heruntergeladen werden.
Um die Messwerte eine Station zuordnen zu können, wird als erstes die Datei mit den Stationen verarbeitet. Für jede Station wird ein Objekt erstellt und in ein
Um die Messwerte einer Station zuordnen zu können, wird als erstes die Datei mit den Stationen verarbeitet. Für jede Station wird ein Objekt erstellt und in einem
\glqq dictionary\grqq{} gespeichert. Dadurch kann in diesem \glqq dictionary\grqq{} einfach über die \glqq STATIONS\_ID\grqq{} die passende Station gefunden werden. Weil diese Datei allerdings nicht
\gls{CSV} formatiert ist, muss die Datei auf eine andere Art ausgewertet werden. Um die einzelnen Felder aus einer Zeile auszulesen, wird immer so lange
gelesen bis wieder ein bestimmte Anzahl von Leerzeichen hintereinander erkannt worden ist. Die Zeichen zwischen den Leerzeichen sind dann ein ausgelesenes Feld.
@ -246,15 +245,15 @@ Zum bestimmen der Höchst- und Tiefsttemperatur, werden die beiden
Variablen \glqq min\grqq{} und \glqq max\grqq{} definiert, welche mit einem sehr hohen bzw. einem sehr niedrigem Wert initialisiert werden. Beim durchlaufen der Schleife
wird immer der aus der Datenbank stammende Wert mit der Variable \glqq min\grqq{} und \glqq max\grqq{} verglichen. Wenn der Wert größer als \glqq max\grqq{} ist, wird \glqq max\grqq{} auf den
neuen größten Wert gesetzt und wenn der Wert kleiner als \glqq min\grqq{} ist, wird \glqq min\grqq{} auf den neuen kleinsten Wert gesetzt. So beinhaltet die Variable \glqq max\grqq{}
nach dem durchlaufen den höchsten und die Variable \glqq min\grqq{} den niedrigsten Wert. Für das Bestimmen des Durchschnittswertes muss eine Zähler
nach dem Durchlaufen den höchsten und die Variable \glqq min\grqq{} den niedrigsten Wert. Für das Bestimmen des Durchschnittswertes muss eine Zähler
Variable, in diesem Fall \glqq i\grqq{}, und eine Summen Variable \glqq sum\grqq{} erstellt werden. Die Zähler Variable wird mit jedem Schleifendurchlauf um eins hochgezählt.
Zusätzlich wird die Summen Variable mit dem Wert innerhalb der Schleife addiert. Zum bestimmen des Durchschnittswertes muss jetzt nur noch
Zusätzlich wird die Summen Variable mit dem Wert innerhalb der Schleife addiert. Zum Bestimmen des Durchschnittswertes muss jetzt nur noch
die Summe, in diesem Fall die Variable \glqq sum\grqq{} durch die Anzahl der Elemente, hier \glqq i\grqq{}, geteilt werden. Das Ergebnis ist der Tagesmittelwert.
Um die Daten in der Datenbank zu visualisieren, kann die in InfluxDB eingebaute Graph Funktion genutzt werden. Über den Query Builder
können wie in \cref{fig:query-builder} zu sehen, Messtationen ausgewählt werden, zu denen Graphen anzeigen werden sollen. Außerdem
können wie in \cref{fig:query-builder} zu sehen, Messstationen ausgewählt werden, zu denen Graphen anzeigen werden sollen. Außerdem
kann hier auch ausgewählt werden, welche Felder angezeigt werden sollen. Mit einem Klick auf \glqq Submit\grqq{} wird ein Graph, wie in
\cref{fig:influxdb-Graph} zu sehen, angezeigt. In diesem Graphen werden die Temperaturen von den Messtationen auf Sylt(pink) und in
\cref{fig:influxdb-Graph} zu sehen, angezeigt. In diesem Graphen werden die Temperaturen von den Messstationen auf Sylt(pink) und in
Bad Lippspringe(blau) am 27.06.2022 angezeigt.
Weitere Bespiele für das Verarbeiten der Wetterdaten können im Jupyter Notebook gefunden werden.

View file

@ -24,6 +24,6 @@ als Beispiel genutzten Wetterdaten heruntergeladen, importiert und verarbeiten w
\section{Schlussfolgerung und Fazit}
\gls{TSDB} eignen sich sehr gut für die Speicherung von Time Series Data und besonders für die Verarbeitung von
großen Datenmengen. Dadurch, dass immer mehr Daten erfasst werden, ist es abzusehen, dass sich \gls{TSDB}s immer weiter
großen Datenmengen. Dadurch, dass immer mehr Daten erfasst werden, ist es abzusehen, dass sich \gls{TSDB} immer weiter
verbreiten werden. Es bietet sich an, für IOT Sensoren oder die Erfassung von Servermetriken und anderer Time Series Data,
auf \gls{TSDB} zu setzen.