Rechtschreibkorrektur
This commit is contained in:
parent
5b367adae6
commit
888c74e482
|
@ -35,7 +35,7 @@
|
|||
"metadata": {},
|
||||
"source": [
|
||||
"Im nächsten Schritt müssen die Verbindungsdaten angegeben werden. Ein API Token kann im InfluxDB Webinterface angelegt werden. Der Bucket wird automatisch erstellt. Es kann allerdings auch ein eigener Bucket verwendet werden.\n",
|
||||
"Als URL muss darauf geachtet werden, die URL des Doker Containers zu nutzen, in dem die Datenbank ausgeführt wird. "
|
||||
"Als URL muss darauf geachtet werden, die URL des Docker Containers zu nutzen, in dem die Datenbank ausgeführt wird. "
|
||||
]
|
||||
},
|
||||
{
|
||||
|
|
|
@ -23,13 +23,13 @@
|
|||
"id": "7abd6877-b35f-4604-ba57-399234b97281",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Als erstes werden Vorbereitungen dafür getroffen, die Daten zu importieren. Dazu werden die benötigten Bibliotehken importiert und einige Variablen gesetzt.\n",
|
||||
"Als erstes werden Vorbereitungen dafür getroffen, die Daten zu importieren. Dazu werden die benötigten Bibliotheken importiert und einige Variablen gesetzt.\n",
|
||||
"Außerdem wird ein Ordner angelget, in dem die heruntergeladenen Daten gespeichert werden können."
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 15,
|
||||
"execution_count": 9,
|
||||
"id": "c87fe05a-63e3-4748-a01a-d46cb12e9b05",
|
||||
"metadata": {
|
||||
"tags": []
|
||||
|
@ -82,7 +82,7 @@
|
|||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 16,
|
||||
"execution_count": 10,
|
||||
"id": "b9acf473-2f26-40c6-9c48-1a4ec159bd3d",
|
||||
"metadata": {},
|
||||
"outputs": [
|
||||
|
@ -121,7 +121,7 @@
|
|||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 17,
|
||||
"execution_count": 11,
|
||||
"id": "90f1eb08-b4dd-4743-ad38-492bfd742fec",
|
||||
"metadata": {},
|
||||
"outputs": [
|
||||
|
@ -154,12 +154,12 @@
|
|||
"id": "ac3c644a-cac2-41b5-9be0-f01bcb9a40cc",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Die so gefilterten Links werden dann in dieser Schleife heruntergeladen und gespeichert. Der Pfad für die Stationsbeschreibungsdatei wird in eine extra Variable geschrieben, um später die Daten der Stationen zu bekommen."
|
||||
"Die so gefilterten Links werden dann in dieser Schleife heruntergeladen und gespeichert. Der Pfad für die Stationsbeschreibungsdatei wird in eine extra Variable geschrieben, um später an die Daten der Stationen zu gelangen."
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 18,
|
||||
"execution_count": 12,
|
||||
"id": "2524986b-9c26-42d5-8d76-f4e228d0eb48",
|
||||
"metadata": {
|
||||
"tags": []
|
||||
|
@ -207,14 +207,14 @@
|
|||
"id": "14b90ff2-1473-4e44-9c6b-fdd2d6c20773",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Zunächst werden die Wetterstationen in die Klasse Station eingelesen. Aus den Klassen wird ein Dictionary erstellt, in welchem mittels der Stations_id gesucht werden kann. Weil die Stationsdaten nicht als CSV gespeichert sind, musste eine eigene Technik entwickelt werden, um die Daten auszulesen.\n",
|
||||
"Zunächst werden die Wetterstationen in die Klasse Station eingelesen. Aus den Klassen wird ein dictionary erstellt, in welchem mittels der \"Stations_id\" gesucht werden kann. Weil die Stationsdaten nicht als CSV gespeichert sind, musste eine eigene Technik entwickelt werden, um die Daten auszulesen.\n",
|
||||
"\n",
|
||||
"Als erstes wird so lange gelesen bis kein Leerzeichen mehr erkannt wird. Danach wird gelesen bis wieder ein Leerzeichen erkannt wird. Dadurch können die Felder nacheinander eingelesen werden. "
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 23,
|
||||
"execution_count": 13,
|
||||
"id": "430041d7-21fa-47d8-8df9-7933a8749f82",
|
||||
"metadata": {},
|
||||
"outputs": [
|
||||
|
@ -230,7 +230,7 @@
|
|||
"source": [
|
||||
"\n",
|
||||
"class Station:\n",
|
||||
" def __init__(self, Stations_id, Stationshoehe,geoBreite, geoLaenge, Stationsname, Bundesland):\n",
|
||||
" def __init__(self, Stations_id, Stationshoehe, geoBreite, geoLaenge, Stationsname, Bundesland):\n",
|
||||
" self.Stations_id = Stations_id\n",
|
||||
" self.Stationshoehe = Stationshoehe\n",
|
||||
" self.geoBreite = geoBreite\n",
|
||||
|
@ -240,7 +240,7 @@
|
|||
"\n",
|
||||
"def read_station_file():\n",
|
||||
" \n",
|
||||
" def get_value(i,line, empty_spaces):\n",
|
||||
" def get_value(i, line, empty_spaces):\n",
|
||||
" value = \"\"\n",
|
||||
" while(line[i] == ' '):\n",
|
||||
" i += 1\n",
|
||||
|
@ -309,16 +309,24 @@
|
|||
"id": "81bbb42e-3bd9-4b29-a6e3-11e1d1593307",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Um an die Messwerte in den Dateien zu kommen, müssen diese entpackt werden. \n",
|
||||
"Das kann einige Zeit in Anspruch nehmen. Es wird immer die Station angezeigt, die gerade importiert wird."
|
||||
"Um an die Messwerte in den Dateien zu gelangen, müssen diese entpackt werden. \n",
|
||||
"Dies kann einige Zeit in Anspruch nehmen. Es wird immer die Station angezeigt, die gerade importiert wird."
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": null,
|
||||
"execution_count": 14,
|
||||
"id": "27966795-ee46-4af1-b63c-0f728333ec79",
|
||||
"metadata": {},
|
||||
"outputs": [],
|
||||
"outputs": [
|
||||
{
|
||||
"name": "stdout",
|
||||
"output_type": "stream",
|
||||
"text": [
|
||||
"Import durchgeführt \r"
|
||||
]
|
||||
}
|
||||
],
|
||||
"source": [
|
||||
"def import_data(df):\n",
|
||||
" client = InfluxDBClient(url=influx_url, token=token, org=org)\n",
|
||||
|
@ -408,12 +416,12 @@
|
|||
"id": "dacfcc8e-a74b-4067-8f55-ac4063294dec",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Als erstes müssen die Daten der letzen 24 Stunden aus der Datenbank abgerufen werden. Dazu wird mithilfe des Query Clients ein Flux Query ausgeführt, der nach den gewünschten Daten filtert."
|
||||
"Als erstes müssen die Daten der letzten 24 Stunden aus der Datenbank abgerufen werden. Dazu wird mithilfe des Query Clients ein Flux Query ausgeführt, der nach den gewünschten Daten filtert."
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 7,
|
||||
"execution_count": 15,
|
||||
"id": "a3e48dfa-eeca-4a3c-a8c7-7b65c223b6c6",
|
||||
"metadata": {},
|
||||
"outputs": [],
|
||||
|
@ -433,7 +441,7 @@
|
|||
"id": "711e5ab4-c5c0-4e03-bc49-fd2f2d0946ed",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Als nächstes werden einige Variablen definiert um den Höchst- und Tiefstwert zu erhalten.\n",
|
||||
"Als nächstes werden einige Variablen definiert, um den Höchst- und Tiefstwert zu erhalten.\n",
|
||||
"Für den Höchstwert nehmen wir standardmäßig einen sehr niedrigen und für den Tiefstwert einen sehr hohen Wert.\n",
|
||||
"\n",
|
||||
"Außerdem wird für den Durschnittswert ein Zähler und eine Summen Variable definiert."
|
||||
|
@ -441,7 +449,7 @@
|
|||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": null,
|
||||
"execution_count": 16,
|
||||
"id": "053593fb-1fad-4280-b519-a163b89daa7f",
|
||||
"metadata": {},
|
||||
"outputs": [],
|
||||
|
@ -455,7 +463,7 @@
|
|||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 9,
|
||||
"execution_count": 17,
|
||||
"id": "94441229-f809-4942-908f-9c0397461245",
|
||||
"metadata": {},
|
||||
"outputs": [
|
||||
|
@ -463,8 +471,8 @@
|
|||
"name": "stdout",
|
||||
"output_type": "stream",
|
||||
"text": [
|
||||
"Der Tageshöchstwert der letzen 24h liegt bei: 18.9\n",
|
||||
"Der Tagestiefstwert der letzen 24h liegt bei: 15.4\n"
|
||||
"Der Tageshöchstwert der letzen 24h liegt bei: -254\n",
|
||||
"Der Tagestiefstwert der letzen 24h liegt bei: 254\n"
|
||||
]
|
||||
}
|
||||
],
|
||||
|
@ -488,15 +496,27 @@
|
|||
"id": "8a9d2fd8-08ac-4b32-83b0-df03285dda93",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Um den Durchschnittswert auszurechnen, muss nur noch die Summe aller Werte, also die Variable sum, durch die Anzahl der Werte i geteilt werden."
|
||||
"Um den Durchschnittswert auszurechnen, muss nur noch die Summe aller Werte, also die Variable sum, durch die Anzahl der Werte \"i\" geteilt werden."
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": null,
|
||||
"execution_count": 18,
|
||||
"id": "6cf90047-ba7b-42fc-b012-aa9647d60191",
|
||||
"metadata": {},
|
||||
"outputs": [],
|
||||
"outputs": [
|
||||
{
|
||||
"ename": "ZeroDivisionError",
|
||||
"evalue": "division by zero",
|
||||
"output_type": "error",
|
||||
"traceback": [
|
||||
"\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
|
||||
"\u001b[0;31mZeroDivisionError\u001b[0m Traceback (most recent call last)",
|
||||
"Input \u001b[0;32mIn [18]\u001b[0m, in \u001b[0;36m<cell line: 1>\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0m average \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43msum\u001b[39;49m\u001b[43m \u001b[49m\u001b[38;5;241;43m/\u001b[39;49m\u001b[43m \u001b[49m\u001b[43mi\u001b[49m\n\u001b[1;32m 2\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mDie Durchschnittstemperatur der letzten 24h liegt bei: \u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;241m+\u001b[39m \u001b[38;5;28mstr\u001b[39m(average))\n",
|
||||
"\u001b[0;31mZeroDivisionError\u001b[0m: division by zero"
|
||||
]
|
||||
}
|
||||
],
|
||||
"source": [
|
||||
"average = sum / i\n",
|
||||
"print(\"Die Durchschnittstemperatur der letzten 24h liegt bei: \"+ str(average))"
|
||||
|
@ -520,7 +540,7 @@
|
|||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 11,
|
||||
"execution_count": null,
|
||||
"id": "4cf4e14f-37f7-4d67-98dd-55c53a5235d7",
|
||||
"metadata": {},
|
||||
"outputs": [],
|
||||
|
@ -544,7 +564,7 @@
|
|||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 12,
|
||||
"execution_count": null,
|
||||
"id": "6fd12713-48ed-4624-8436-b3f3e23d7612",
|
||||
"metadata": {},
|
||||
"outputs": [],
|
||||
|
|
Binary file not shown.
|
@ -4,7 +4,7 @@
|
|||
%% Parameter - Hier auf die eigene Arbeit anpassen
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
|
||||
\newcommand{\dokumententyp}{Studienarbeit}
|
||||
\newcommand{\dokumententyp}{Seminararbeit}
|
||||
\newcommand{\abgabedatum}{\today}
|
||||
\newcommand{\ort}{Paderborn}
|
||||
\newcommand{\koorperationsunternehmen}{FHDW}
|
||||
|
|
|
@ -16,7 +16,7 @@ erklärt.
|
|||
|
||||
Im nächsten Kapitel wird gezeigt, wie mit InfluxDB gearbeitet werden kann. Dazu wird das für InfluxDB
|
||||
wichtige Line Protokoll vorgestellt. Außerdem wird gezeigt, wie die abgerufenen Daten mit InfluxDB
|
||||
visualisiert werden können. Als Daten werden die Wetterdaten das \gls{DWD} genutzt, welche auch in diesem
|
||||
visualisiert werden können. Als Daten werden die Wetterdaten des \gls{DWD}s genutzt, welche auch in diesem
|
||||
Kapitel erklärt und vorgestellt werden.
|
||||
|
||||
Im letzten Kapitel folgt eine kurze Zusammenfassung der Arbeit und der wichtigsten Informationen
|
||||
|
|
|
@ -3,7 +3,7 @@
|
|||
|
||||
In diesem Kapitel werden die Grundlagen von \gls{TSDB} und Time Series Data erklärt.
|
||||
\gls{TSDB} gehört zu den \gls{NoSQL} Datenbanken und ist besonders darauf optimiert, mit Time Series Data zu
|
||||
arbeiten. Dadurch können sie große Mengen an Time Series Data verarbeiten, durchsuchen und speichern.\footnote{\cite[vgl.][]{ComputerWeekly}}
|
||||
arbeiten. Dadurch kann sie große Mengen an Time Series Data verarbeiten, durchsuchen und speichern.\footnote{\cite[vgl.][]{ComputerWeekly}}
|
||||
|
||||
\subsection{Time Series Data}
|
||||
|
||||
|
@ -16,7 +16,7 @@ Time Series Data können gut daran erkannt werden, dass die Zeit eine wichtige A
|
|||
Manchmal ist es nicht notwendig, alle Daten zu erfassen. Zum Beispiel wird in vielen Anwendungen nur der letzte Login gespeichert.
|
||||
Mehr ist auch für die Funktion nicht notwendig. Allerdings können zusätzliche Informationen gewonnen werden, wenn nicht
|
||||
nur der letzte Datenpunkt, sondern die Veränderung über einen Zeitraum aufgezeichnet wird.
|
||||
So kann zum Beispiel festgestellt werden, wie oft und wann sich der Kunde einloggt hat und ob es dabei ein Muster gibt. Anhand dieser Daten können Kunden
|
||||
So kann zum Beispiel festgestellt werden, wie oft und wann sich der Kunde eingeloggt hat und ob es dabei ein Muster gibt. Anhand dieser Daten können Kunden
|
||||
dann kategorisiert werden.\footnote{\cite[vgl.][]{DataScienceTeam2020}}
|
||||
|
||||
Eine weitere Besonderheit von Time Series Data ist, dass sie sich nicht verändern. Wenn die Daten einmal erfasst wurden, wird an ihnen nichts mehr verändert.
|
||||
|
@ -24,17 +24,17 @@ Es werden nur neue Daten hinzugefügt.\footnote{\cite[vgl.][]{SamFangman2019}}
|
|||
|
||||
\subsection{{Aufbau von Time Series Datenbanken}}
|
||||
|
||||
\gls{TSDB} ist darauf ausgelegt, Key Value Paare zu speichern. Der Key in einem Key Value Datensatz ist ein
|
||||
\gls{TSDB} sind darauf ausgelegt, Key Value Paare zu speichern. Der Key in einem Key Value Datensatz ist ein
|
||||
Wert, über den die Value referenziert wird. Im Value Teil werden die Daten zum dazugehörigen Key gespeichert.
|
||||
Der Wert des Value kann ein primitiver Datentyp sein oder auch ein Objekt, das in einen primitiven Datentyp
|
||||
umgewandelt worden ist.
|
||||
\footnote{\cite[vgl.][]{Key-Value}}
|
||||
|
||||
Ein Datenpunkt in einer Time Series Database besteht aus mehreren Key Value Paaren. Einige dieser Key Value Paare sind sogenannte Tags.
|
||||
Diese Tags sind Werte, die sich zwischen den Datenpunkten nicht ändern, wie zum Beispiel die Position eines Sensors oder die Kundenummer
|
||||
Diese Tags sind Werte, die sich zwischen den Datenpunkten nicht verändern, wie zum Beispiel die Position eines Sensors oder die Kundenummer
|
||||
eines Kunden, der sich gerade eingeloggt hat. Anhand dieser Tags können die Datenpunkte durchsucht werden. Die eigentlichen Messwerte
|
||||
des Sensors oder andere Daten, die erfasst werden sollen, werden auch als Key Value Paar gespeichert. Zum Beispiel wird als Name
|
||||
\glqq Temperatur\grqq{} und als Wert \glqq 25,2\grqq{} angeben. Ein Datenpunkt kann mehrere Messwerte haben. Außerdem wird jeder Datenpunkt mit einem Timestamp
|
||||
\glqq Temperatur\grqq{} und als Wert \glqq 25,2\grqq{} angegeben. Ein Datenpunkt kann mehrere Messwerte haben. Außerdem wird jeder Datenpunkt mit einem Timestamp
|
||||
versehen, nach welchem er indexiert wird.\footnote{\cite[vgl.][]{hazelcast}} Eine gute Veranschaulichung, wie die Daten in einer \gls{TSDB} aufgebaut sind, zeigt das InfluxDB
|
||||
Line Protokoll in \cref{list:lineproto}.
|
||||
%https://hazelcast.com/glossary/time-series-database/
|
||||
|
@ -65,7 +65,7 @@ So können Datenbanken wie MongoDB, Redis, Teradata und Couchbase mit Time Serie
|
|||
auf Platz 29.\footnote{\cite[vgl.][]{dbranking}}
|
||||
|
||||
Allerdings haben Datenbanken, die nur auf das Verarbeiten von Time Series Data ausgelegt sind, deutliche Performance Vorteile
|
||||
gegenüber Multi Model Datenbanken. In einem Vergleich von InfluxDB und MongoDB, hat InfluxDB eine 2,4 mal bessere
|
||||
gegenüber Multi-Model Datenbanken. In einem Vergleich von InfluxDB und MongoDB, hat InfluxDB eine 2,4 mal bessere
|
||||
Schreibperformance als MongoDB und ist beim Lesen sogar 5,7 mal schneller. InfluxDB benötigt außerdem 20 mal weniger
|
||||
Speicherplatz auf der Festplatte, um die gleiche Menge an Daten zu speichern.\footnote{\cite[vgl.][]{InfluxDBvsMongo}}
|
||||
|
||||
|
@ -85,7 +85,7 @@ Speicherplatz auf der Festplatte, um die gleiche Menge an Daten zu speichern.\fo
|
|||
|
||||
\subsection{{Entwicklungsumgebung}}
|
||||
|
||||
Um mit InfluxDB zu arbeiten, wird eine Umgebung zum Ausführen von Docker Containern benötigt, in welchen InfluxDB und Jupyter Notebooks betrieben werden können.
|
||||
Um mit InfluxDB zu arbeiten, wird eine Umgebung zum Ausführen von Docker Containern benötigt, in welcher InfluxDB und Jupyter Notebooks betrieben werden können.
|
||||
Der eigentliche Code wird dann in Jupyter Notebooks mit Python entwickelt. Die Grundlagen über die eingesetzten Tools und Techniken werden in diesem Kapitel grob
|
||||
erläutert.
|
||||
|
||||
|
|
|
@ -1,15 +1,14 @@
|
|||
\section{{InfluxDB}}
|
||||
|
||||
InfluxDB ist eine in Go geschriebene Open-Source \gls{TSDB}, die darauf ausgelegt ist, mit einer großen Menge an Time Series Data zu arbeiten.\footnote{\cite[vgl.][]{dbranking}}
|
||||
Im weiteren Verlauf dieses Kapitels, wird am Beispiel von Wetterdaten gezeigt, wie mit InfluxDB gearbeitet wird. InfluxDB stellt für die Integration in
|
||||
eigene Anwendungen ein \gls{HTTP} \gls{API} zur Verfügung, für die es in vielen Programmiersprachen Client Librarys gibt. Außerdem wird ein Webinterface und ein \gls{CLI} bereitgestellt.
|
||||
\footnote{\cite[vgl.][]{InfluxAPI}}
|
||||
Im weiteren Verlauf dieses Kapitels wird am Beispiel von Wetterdaten gezeigt, wie mit InfluxDB gearbeitet wird. InfluxDB stellt für die Integration in
|
||||
eigene Anwendungen ein \gls{HTTP} \gls{API} zur Verfügung, für welches es in vielen Programmiersprachen Client Librarys gibt. Außerdem wird ein Webinterface und ein \gls{CLI} bereitgestellt.\footnote{\cite[vgl.][]{InfluxAPI}}
|
||||
|
||||
|
||||
\subsection{{InfluxDB Installation}}
|
||||
|
||||
Bevor InfluxDB genutzt werden kann, muss es als erstes installiert werden. Am einfachsten ist dies über Docker möglich. Dazu ist es notwendig, dass Docker und Docker Compose auf dem System installiert sind.
|
||||
Mit Docker Desktop lassen sich die beide Tools am einfachsten installieren. Im Anhang dieser Arbeit befindet sich im Ordner Docker eine Docker Compose Datei mit dem Namen \glqq docker-compose.yml\grqq{}.
|
||||
Mit Docker Desktop lassen sich die beide Tools am einfachsten installieren. Im Anhang dieser Arbeit befindet sich im Ordner \glqq Docker\grqq{} eine Docker Compose Datei mit dem Namen \glqq docker-compose.yml\grqq{}.
|
||||
Zum starten der benötigten Container ist es am einfachsten, mit einem Terminal (Powershell, xterm usw.) in den Docker Ordner zu wechseln und den Befehl \glqq docker compose up -d\grqq{} auszuführen.
|
||||
Jetzt beginnt Docker damit, die notwendigen Images herunterzuladen und zu bauen. Wenn der Befehl ohne Fehler ausgeführt worden ist, wurde InfluxDB erfolgreich installiert und kann
|
||||
über die \gls{URL}:\ \url{http://localhost:8086} aufgerufen werden. Die Login Daten sind als Umgebungsvariable in Docker Compose definiert und lauten: \glqq admin\grqq{} \glqq e1LjSYaFbzbJeIBC\grqq{}.
|
||||
|
@ -22,14 +21,13 @@ zugegriffen werden. Das Passwort lautet \glqq fhdw\grqq{}. Im Ordner \glqq work\
|
|||
In InfluxDB werden Daten immer in Buckets gespeichert. Um Daten hochzuladen, muss zunächst ein Bucket angelegt werden. Dazu gibt es zwei
|
||||
Möglichkeiten. Die einfachste ist es, über das Web \gls{UI} von InfluxDB einen neuen Bucket anzulegen. Dazu muss nach dem Login der Navigationspunkt \glqq Data\grqq{}
|
||||
und der Reiter \glqq Buckets\grqq{} ausgewählt werden. Hier kann dann mit dem Button \glqq Create Bucket\grqq{} ein neuer Bucket angelegt werden. Dabei kann noch eine
|
||||
Lebensdauer für die Daten ausgewählt werden, nach welcher die jeweiligen Datenpunkte gelöscht werden.
|
||||
\footnote{vgl. \cref{fig:dashboard}, \cref{fig:load-data-source}, \cref{fig:load-data-bucket}, \cref{fig:load-data-add-bucket}}
|
||||
Lebensdauer für die Daten ausgewählt werden, nach welcher die jeweiligen Datenpunkte gelöscht werden.\footnote{vgl. \cref{fig:dashboard}, \cref{fig:load-data-source}, \cref{fig:load-data-bucket}, \cref{fig:load-data-add-bucket}}
|
||||
|
||||
%\subsection{Line Protokoll} Mit oder ohne diese Überschrift?
|
||||
|
||||
Daten werden immer nach dem InfluxDB Line Protokoll formatiert an die Datenbank gesendet. Das Protokoll ist wie in \cref{list:lineproto}
|
||||
dargestellt, aufgebaut. Im ersten Teil des Line Protokolls wird der Name des Datenpunktes angegeben. Das kann zum Beispiel der Name des Sensors sein oder
|
||||
der Ort, an dem der Messwert aufgenommen wurde. Es ist Wichtig, dass Groß- und Kleinschreibung beachtet wird und Unterstriche nicht
|
||||
dargestellt aufgebaut. Im ersten Teil des Line Protokolls wird der Name des Datenpunktes angegeben. Das kann zum Beispiel der Name des Sensors sein oder
|
||||
der Ort, an dem der Messwert aufgenommen wurde. Es ist wichtig, dass Groß- und Kleinschreibung beachtet wird und Unterstriche nicht
|
||||
genutzt werden dürfen. Sonderzeichen müssen mit einem Backslash maskiert werden. Nach dem Namen kommen, getrennt durch ein Komma, die Tags des Datenpunktes.
|
||||
Tags werden indexiert und dazu genutzt, Datenpunkte zu durchsuchen. Auch Tags werden als Key Value Paar angegeben. Hier sollen Metadaten wie
|
||||
zum Beispiel der Standort des Sensors oder der Name des Servers eingetragen werden, die zum Datenpunkt gehören. Die Messwerte sind mit einem
|
||||
|
@ -61,7 +59,7 @@ Mit einem Read/Write Token kann wie in \cref{fig:load-data-add-token} zu sehen a
|
|||
\subsection{{Daten abrufen und visualisieren}}
|
||||
|
||||
Um Daten aus InfluxDB abzurufen, wird die funktionale Sprache Flux genutzt. Flux wurde für das abfragen, analysieren und verarbeiten von Daten entwickelt.\footnote{\cite[vgl.][]{InfluxFlux}}
|
||||
Flux kann unter anderem im influxDB Webinterface oder über die InfluxDB \gls{API} sowie über den InfluxDB \gls{CLI} CLient ausgeführt werden.\footnote{\cite[vgl.][]{InfluxExecQuery}}
|
||||
Flux kann unter anderem im InfluxDB Webinterface oder über die InfluxDB \gls{API}, sowie über den InfluxDB \gls{CLI} Client ausgeführt werden.\footnote{\cite[vgl.][]{InfluxExecQuery}}
|
||||
%https://docs.influxdata.com/influxdb/cloud/query-data/execute-queries/.
|
||||
|
||||
Am einfachsten ist es, Flux mit Code Beispielen zu erklären. Die Zeilenangaben in diesem Kapitel beziehen sich auf das \cref{list:influxFlux}.
|
||||
|
@ -70,9 +68,9 @@ In Zeile 1 wird dazu das \glqq from()\grqq{} Statement genutzt, um den Bucket mi
|
|||
erlaubt Flux keine Abfragen ohne die Angabe eines Zeitbereiches, der die Datenmenge einschränkt. Dieser Bereich kann mithilfe
|
||||
des \glqq range()\grqq{} Statements ausgewählt werden, wobei es zwei verschiedene Möglichkeiten gibt. Die erste ist, mithilfe des \glqq start:\grqq{} Parameters
|
||||
die Zeit relativ zum Zeitpunkt der Ausführung anzugeben. In Zeile 2 des Beispiels wird der Zeitbereich auf die letzte Stunde festgelegt.
|
||||
Zusätzlich zum Startparameter kann auch der Stop-Parameter angeben werden, welcher wie in Zeile 5 zu sehen, angibt, bis wann die Daten
|
||||
Zusätzlich zum Startparameter kann auch der Stop-Parameter angeben werden, welcher wie in Zeile 5 zu sehen angibt, bis wann die Daten
|
||||
abgerufen werden. In Zeile 5 würden die Daten von 14:00 bis 14:50 Uhr abgerufen werden, wenn die Abfrage um 15 Uhr verarbeitet wird.
|
||||
Die zweite Möglichkeit ist es, den Zeitbereich mit absoluten Werten einzuschränken, was wie in Zeile 8 zu sehen, gemacht wird.
|
||||
Die zweite Möglichkeit ist es, wie in Zeile 8 zu sehen, den Zeitbereich mit absoluten Werten einzuschränken.
|
||||
Zusätzlich zu den Zeitbereichen können auch weitere Filter auf die Daten angewendet werden. Dazu wird die Filterfunktion genutzt.
|
||||
Mit dieser Funktion wird über die Datenpunkte der Datenbank iteriert. Innerhalb dieser Funktion wird eine weitere Funktion als Parameter übergeben,
|
||||
welche die Daten filtert. Wenn die Funktion \glqq false\grqq{} zurückgibt, wird dieser Datenpunkt verworfen. Falls jedoch ein \glqq true\grqq{} zurückgegeben wird, werden
|
||||
|
@ -81,7 +79,7 @@ die Daten weiter verarbeitet oder ausgegeben. Im Fall von Zeile 12 wird der Date
|
|||
und mit \glqq r.\_field\grqq{} nach dem Namen eines Messwertes gefiltert werden. Im letzten Schritt werden über die \glqq yield()\grqq{} Funktion
|
||||
die Daten ausgegeben. Das ist nur erforderlich, wenn mehrere Flux Abfragen zu einer kombiniert werden.\footnote{\cite[vgl.][]{InfluxFluxQuery}}
|
||||
%https://docs.influxdata.com/influxdb/cloud/query-data/get-started/query-influxdb/
|
||||
Alternativ können Flux Querys auch über den Query Builder im InfluxDB Web \gls{UI} erstellt werden.\footnote{\cite[vgl.][]{InfluxDBDataExplorer}}
|
||||
Alternativ können Flux Querys auch über den Query Builder, wie in \cref{fig:query-builder} zu sehen, im InfluxDB Web \gls{UI} erstellt werden.\footnote{\cite[vgl.][]{InfluxDBDataExplorer}}
|
||||
|
||||
Es ist nicht immer erforderlich, die Daten aus der Datenbank auszulesen, wenn diese visualisiert werden sollen.
|
||||
Mithilfe des InfluxDB Webinterface ist es möglich, Daten zu visualisieren. Vorher ist es allerdings notwendig, die zu visualisierenden Daten mithilfe eins Flux
|
||||
|
@ -89,6 +87,7 @@ Query abzufragen.
|
|||
%bevor die Daten Visualisiert werden können müssen diese erst mithilfe eines Flux Query abgefragt werden.
|
||||
Dazu kann entweder selbst ein Query geschrieben werden oder der eingebaute
|
||||
Query Builder genutzt werden.\footnote{\cite[vgl.][]{InfluxDBDataExplorer}} Danach lassen sich die Daten als Graph, Heatmap, Histogramm, Scatterplot und weiteren Diagrammtypen anzeigen.\footnote{\cite[vgl.][]{InfluxDBGraph}}
|
||||
Ein Beispiel ist in \cref{fig:influxdb-Graph} zu sehen.
|
||||
|
||||
\subsection{Python Library}
|
||||
|
||||
|
@ -105,17 +104,17 @@ Was in die Variablen eingetragen werden muss, wird im
|
|||
Kapitel \glqq Daten einfügen\grqq{} %eventuell Link einfügen?
|
||||
beschrieben.\footnote{\cite[vgl.][]{InfluxAPIPythonClient}}
|
||||
|
||||
In Zeile neun bis 13 wird der Client mit den hinterlegten Variablen initialisiert. Danach folgt in Zeile 15 die
|
||||
In den Zeilen neun bis 13 wird der Client mit den hinterlegten Variablen initialisiert. Danach folgt in Zeile 15 die
|
||||
Initialisierung des Write Clients. Als nächstes muss ein Datenpunkt erstellt werden, der in die Datenbank geschrieben werden kann.
|
||||
Dieser wird in Zeile 17 bis 19 erstellt. An diesem Datenpunkt kann eine beliebige Menge an Tags und Datenfeldern
|
||||
Dieser wird in den Zeilen 17 bis 19 erstellt. An diesem Datenpunkt kann eine beliebige Menge an Tags und Datenfeldern
|
||||
über die Methoden \glqq tag\grqq{} und \glqq field\grqq{} angehängt werden. Hier im Beispiel wird der Datenpunkt \glqq my\_measurement\grqq{} mit dem Tag \glqq location\grqq{} angelegt,
|
||||
welcher den Wert \glqq Paderborn\grqq{} hat, und dem Messwert \glqq temperature\grqq{} mit dem Wert \glqq 25,3\grqq{}. In der letzten Zeile wird dann
|
||||
welcher den Wert \glqq Paderborn\grqq{} hat, und den Messwert \glqq temperature\grqq{} mit dem Wert \glqq 25,3\grqq{}. In der letzten Zeile wird dann
|
||||
der Write Client dazu genutzt, um diesen Datenpunkt an die Datenbank zu senden.
|
||||
|
||||
Um die so in die Datenbank geschriebenen Werte wieder abzurufen, kann so wie in \cref{list:influxPythonRead} vorgegangen werden.
|
||||
Hier wird als erstes in Zeile 1 ein Query Client erstellt. Mit diesem Query Client kann dann wie in Zeile 2 bis 7 zu
|
||||
sehen ein Flux Query ausgeführt werden. Zurückgegeben wird ein Flux Objekt mit einer Tabellenstruktur, die wie in Zeile 9 bis 11
|
||||
zu sehen, einfach mit einer Schleife verarbeitet werden kann. Um auf die Daten des Objekts zuzugreifen sind die wichtigsten Methoden hier beschreiben.
|
||||
Hier wird als erstes in Zeile 1 ein Query Client erstellt. Mit diesem Query Client kann dann wie in den Zeilen zwei bis sieben zu
|
||||
sehen ein Flux Query ausgeführt werden. Zurückgegeben wird ein Flux Objekt mit einer Tabellenstruktur, die wie in den Zeilen neun bis elf
|
||||
zu sehen, einfach mit einer Schleife verarbeitet werden kann. Um auf die Daten des Objekts zuzugreifen, sind die wichtigsten Methoden hier beschreiben.
|
||||
Mit \glqq get\_measurement\grqq{} kann der Name eines Datenpunktes abgerufen werden. Zusätzlich kann mithilfe von \glqq get\_field\grqq{} und \glqq get\_value\grqq{} der Name und der Wert
|
||||
des Messwertes im Datenpunkt abgefragt werden. Zum abfragen der Zeit wird die Methode \glqq get\_time\grqq{} genutzt.\footnote{\cite[vgl.][]{InfluxAPIPythonClient}}
|
||||
|
||||
|
@ -135,7 +134,7 @@ des Messwertes im Datenpunkt abgefragt werden. Zum abfragen der Zeit wird die Me
|
|||
|
||||
\subsubsection{{Wetterdaten Aufbau}}
|
||||
|
||||
Die Wetterdaten des \gls{DWD} können über den \gls{CDC} OpenData Bereich heruntergeladen werden. Hier werden die Wetterdaten über \gls{FTP} und \gls{HTTPS} zum Download
|
||||
Die Wetterdaten des \gls{DWD}s können über den \gls{CDC} OpenData Bereich heruntergeladen werden. Hier werden die Wetterdaten über \gls{FTP} und \gls{HTTPS} zum Download
|
||||
angeboten. Unter der \gls{URL} \url{https://www.dwd.de/DE/leistungen/cdc/cdc_ueberblick-klimadaten.html} wird eine gute Übersicht über die zum
|
||||
Download angebotenen Daten geboten. Die Werte für die aktuelle Lufttemperatur können über
|
||||
\url{https://opendata.dwd.de/climate_environment/CDC/observations_germany/climate/10_minutes/air_temperature/now/}
|
||||
|
@ -145,7 +144,7 @@ abgerufen werden.
|
|||
|
||||
Aktuell werden auf der Webseite für die aktuelle Lufttemperatur circa 480 Dateien zum Download angeboten. Die meisten dieser Dateien entsprechen jeweils
|
||||
einer Messstation und je nach Tageszeit kann deswegen die Menge der Zeilen in der Datei variieren, weil immer um 00:00 Uhr eine neue Datei angefangen wird.
|
||||
In den \gls{ZIP} Dateien befinden sich außerdem Metadaten über die Messtationen. Die eigentlichen Daten sind als \gls{CSV} formatiert und sehen aus wie in Listing~\ref{list:wetter_csv} gekürzt dargestellt wird.
|
||||
In den \gls{ZIP} Dateien befinden sich außerdem Metadaten über die Messstationen. Die eigentlichen Daten sind als \gls{CSV} formatiert und sehen aus wie in Listing~\ref{list:wetter_csv} gekürzt dargestellt wird.
|
||||
In der \gls{CSV} Datei gibt es 9 Felder. Der Inhalt dieser Felder wird in \cref{tab:csv-explenation} beschreiben.
|
||||
|
||||
%Eventuell kürzen wenn zu viele Seiten
|
||||
|
@ -194,8 +193,8 @@ eor & END OF RECORD" Bedeutet die Zeile ist zu Ende. \\
|
|||
|
||||
In der Datei \glqq zehn\_now\_tu\_Beschreibung\_Stationen.txt\grqq{} werden die Wetterstationen beschrieben. Diese Datei ist nicht als \gls{CSV} Datei formatiert, sondern als Tabelle und erhält
|
||||
Daten über die Wetterstationen. Die Daten der Stationen in der heruntergeladenen Textdatei stimmen mit den Daten der hauptamtlichen Messnetzkarte überein.
|
||||
Allerdings enthält die Textdatei nicht alle Stationen, sondern nur Stationen für die auch Messwerte im Datensatz hinterlegt sind. Die Bedeutung der einzelnen
|
||||
Spalten der Tabelle werden in der \cref{tab:file-stations} beschrieben.
|
||||
Allerdings enthält die Textdatei nicht alle Stationen, sondern nur Stationen für die auch Messwerte im Datensatz hinterlegt sind. Die Bedeutungen der einzelnen
|
||||
Spalten der Tabelle werden in \cref{tab:file-stations} beschrieben.
|
||||
|
||||
\begin{table}[hbt]
|
||||
\centering
|
||||
|
@ -227,7 +226,7 @@ Spalten der Tabelle werden in der \cref{tab:file-stations} beschrieben.
|
|||
|
||||
Um die Daten auswerten zu können, müssen diese als erstes heruntergeladen und entpackt werden. Dazu wird mithilfe von BeautifulSoup aus der \gls{HTML} Seite
|
||||
des \gls{DWD} für jede Datei eine \gls{URL} ausgelesen. Die so gewonnen \gls{URL}s können dann mithilfe einer Schleife heruntergeladen werden.
|
||||
Um die Messwerte eine Station zuordnen zu können, wird als erstes die Datei mit den Stationen verarbeitet. Für jede Station wird ein Objekt erstellt und in ein
|
||||
Um die Messwerte einer Station zuordnen zu können, wird als erstes die Datei mit den Stationen verarbeitet. Für jede Station wird ein Objekt erstellt und in einem
|
||||
\glqq dictionary\grqq{} gespeichert. Dadurch kann in diesem \glqq dictionary\grqq{} einfach über die \glqq STATIONS\_ID\grqq{} die passende Station gefunden werden. Weil diese Datei allerdings nicht
|
||||
\gls{CSV} formatiert ist, muss die Datei auf eine andere Art ausgewertet werden. Um die einzelnen Felder aus einer Zeile auszulesen, wird immer so lange
|
||||
gelesen bis wieder ein bestimmte Anzahl von Leerzeichen hintereinander erkannt worden ist. Die Zeichen zwischen den Leerzeichen sind dann ein ausgelesenes Feld.
|
||||
|
@ -246,15 +245,15 @@ Zum bestimmen der Höchst- und Tiefsttemperatur, werden die beiden
|
|||
Variablen \glqq min\grqq{} und \glqq max\grqq{} definiert, welche mit einem sehr hohen bzw. einem sehr niedrigem Wert initialisiert werden. Beim durchlaufen der Schleife
|
||||
wird immer der aus der Datenbank stammende Wert mit der Variable \glqq min\grqq{} und \glqq max\grqq{} verglichen. Wenn der Wert größer als \glqq max\grqq{} ist, wird \glqq max\grqq{} auf den
|
||||
neuen größten Wert gesetzt und wenn der Wert kleiner als \glqq min\grqq{} ist, wird \glqq min\grqq{} auf den neuen kleinsten Wert gesetzt. So beinhaltet die Variable \glqq max\grqq{}
|
||||
nach dem durchlaufen den höchsten und die Variable \glqq min\grqq{} den niedrigsten Wert. Für das Bestimmen des Durchschnittswertes muss eine Zähler
|
||||
nach dem Durchlaufen den höchsten und die Variable \glqq min\grqq{} den niedrigsten Wert. Für das Bestimmen des Durchschnittswertes muss eine Zähler
|
||||
Variable, in diesem Fall \glqq i\grqq{}, und eine Summen Variable \glqq sum\grqq{} erstellt werden. Die Zähler Variable wird mit jedem Schleifendurchlauf um eins hochgezählt.
|
||||
Zusätzlich wird die Summen Variable mit dem Wert innerhalb der Schleife addiert. Zum bestimmen des Durchschnittswertes muss jetzt nur noch
|
||||
Zusätzlich wird die Summen Variable mit dem Wert innerhalb der Schleife addiert. Zum Bestimmen des Durchschnittswertes muss jetzt nur noch
|
||||
die Summe, in diesem Fall die Variable \glqq sum\grqq{} durch die Anzahl der Elemente, hier \glqq i\grqq{}, geteilt werden. Das Ergebnis ist der Tagesmittelwert.
|
||||
|
||||
Um die Daten in der Datenbank zu visualisieren, kann die in InfluxDB eingebaute Graph Funktion genutzt werden. Über den Query Builder
|
||||
können wie in \cref{fig:query-builder} zu sehen, Messtationen ausgewählt werden, zu denen Graphen anzeigen werden sollen. Außerdem
|
||||
können wie in \cref{fig:query-builder} zu sehen, Messstationen ausgewählt werden, zu denen Graphen anzeigen werden sollen. Außerdem
|
||||
kann hier auch ausgewählt werden, welche Felder angezeigt werden sollen. Mit einem Klick auf \glqq Submit\grqq{} wird ein Graph, wie in
|
||||
\cref{fig:influxdb-Graph} zu sehen, angezeigt. In diesem Graphen werden die Temperaturen von den Messtationen auf Sylt(pink) und in
|
||||
\cref{fig:influxdb-Graph} zu sehen, angezeigt. In diesem Graphen werden die Temperaturen von den Messstationen auf Sylt(pink) und in
|
||||
Bad Lippspringe(blau) am 27.06.2022 angezeigt.
|
||||
|
||||
Weitere Bespiele für das Verarbeiten der Wetterdaten können im Jupyter Notebook gefunden werden.
|
|
@ -24,6 +24,6 @@ als Beispiel genutzten Wetterdaten heruntergeladen, importiert und verarbeiten w
|
|||
\section{Schlussfolgerung und Fazit}
|
||||
|
||||
\gls{TSDB} eignen sich sehr gut für die Speicherung von Time Series Data und besonders für die Verarbeitung von
|
||||
großen Datenmengen. Dadurch, dass immer mehr Daten erfasst werden, ist es abzusehen, dass sich \gls{TSDB}s immer weiter
|
||||
großen Datenmengen. Dadurch, dass immer mehr Daten erfasst werden, ist es abzusehen, dass sich \gls{TSDB} immer weiter
|
||||
verbreiten werden. Es bietet sich an, für IOT Sensoren oder die Erfassung von Servermetriken und anderer Time Series Data,
|
||||
auf \gls{TSDB} zu setzen.
|
Reference in a new issue