# Wetterdaten Importieren

Die Wetterdaten vom DWD werden über einen OpenData Server bereitgestellt. Um an diese Daten zu kommen müssen diese relativ komplex heruntergeladen und zusammengefügt werden.

Als erstes werden vorbereitungen dafür die Daten zu Importieren getroffen. Dazu werden die benötigten Bibliotehken importiert und einige Variablen gesetzt.
Außerdem wird ein Ordner angelget in dem die heruntergeladenen Daten gespeichert werde können.

In [1]:
from operator import contains
import requests
import os

import zipfile
import io
import pandas as pd

url = 'https://opendata.dwd.de/climate_environment/CDC/observations_germany/climate/10_minutes/air_temperature/now/'
download_folder = 'dwd-data/'

from datetime import datetime

from influxdb_client import InfluxDBClient, Point, WritePrecision, BucketRetentionRules
from influxdb_client.client.write_api import SYNCHRONOUS

token = "8TYGzTJhqCyKpspMp95Yk858DY2uMzj6wbexbFGMiaLjcG6caiQtNiBKOFlxXnYuEoduFqS9o6_q8UmP1eJC0w=="
org = "test-org"
bucket = "dwd_now"
influx_url = "http://influxdb:8086"

if not os.path.isdir(download_folder):
 print("Daten Ordner erstellt")
 os.mkdir(download_folder)

print("Fertig")

Fertig


Um die Daten später Importieren zu können muss zuächst ein Bucket in der Datenbank angelegt werden. Wenn das Bucket schon vorhanden ist wird es gelöscht und erneut angelegt.

In [2]:
with InfluxDBClient(url=influx_url, token=token) as client:
 buckets_api = client.buckets_api()
 buckets = buckets_api.find_buckets().buckets 
 data_bucket = [x for x in buckets if x.name == bucket]
 
 if len(data_bucket) > 0:
 print("Vorhandes Bucket löschen")
 buckets_api.delete_bucket(data_bucket[0]) #Jetzt gerade nicht löschen das ist nervig
 
 retention_rules = BucketRetentionRules(type="expire", every_seconds=86400)
 created_bucket = buckets_api.create_bucket(bucket_name=bucket, retention_rules=retention_rules, org=org)
 
 print("Bucket angelegt")

Vorhandes Bucket löschen
Bucket angelegt


Um die Daten von der Webseite zu bekommen wird mittel ScreenScrapping jeder Link zu einer der gezipten csv Datein gesucht. Dafür wird BeautifulSoup genutzt. Damit BeautifulSoup die Links finden kann muss zunächst einmal die HTML Datei heruntergeladen werden. 

In [3]:
print("Download")
response = requests.get(url)
print(response)

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')

dwd_links = soup.findAll('a')

print(dwd_links[2])


Download

10minutenwerte_TU_00071_now.zip


Die so gefilterten Links werden dann in dieser Schleife heruntergeladen und gespeichert. Der pfad für die Stationsbeschreibungsdatei wird in eine extra Variable geschrieben um später die Daten der Stationen zu bekommen.

In [4]:
download_counter = int(1)
dwd_len = len(dwd_links)
station_file = ''

for file_text in dwd_links:
 
 dwd_len = len(dwd_links)
 
 if (str(file_text.text).__contains__('10minutenwerte')):
 dest_file = download_folder + file_text.text
 if not os.path.isfile(dest_file): 
 file_url = url + "/" + file_text.text
 
 download(file_url, dest_file)
 elif (str(file_text)).__contains__('Beschreibung_Stationen'):
 dest_file = download_folder + file_text.text
 file_url = url + "/" + file_text.text
 download(file_url,dest_file)
 station_file = dest_file
 
 print("Download ", download_counter," von ",dwd_len, end='\r')
 download_counter += 1
 
 def download(url, dest_file):
 response = requests.get(file_url)
 open(dest_file, 'wb').write(response.content)

Download 480 von 480

Zunächst werden die Wetterstationen in die Klasse Station eingelesen. Aus den Klassen wird ein Dictionary erstellt in dem mittels der Stations_id gesucht werden kann. Weil die Stationsdaten nicht als csv gespeichert sind musste ich eine eigene Technik entwickeln um die Daten auszulesen.

Als erstes wird so lange gelesen bis kein Leerzeichen mehr erkannt wird. Danach wird gelesen bis wieder ein Leerzeichen erkannt wird. Dadurch können die Felder nacheinander eingelesen werden. 

In [5]:

class Station:
 def __init__(self, Stations_id, Stationshoehe,geoBreite, geoLaenge, Stationsname, Bundesland):
 self.Stations_id = Stations_id
 self.Stationshoehe = Stationshoehe
 self.geoBreite = geoBreite
 self.geoLaenge = geoLaenge
 self.name = Stationsname
 self.Bundesland = Bundesland

def read_station_file():
 
 def get_value(i,line, empty_spaces):
 value = ""
 while(line[i] == ' '):
 i += 1
 spaces = 0
 while(spaces < empty_spaces):
 if(line[i] == ' '):
 spaces += 1
 value += line[i]
 i += 1
 return (i,value)
 
 f = open(station_file, "r", encoding="1252")
 i = 0
 stations = {}
 for line in f:
 if i > 1:

 y = 0

 result = get_value(y,line, 1)
 Stations_id = str(int(result[1])) #Die Konvertierung in int und zurück zu string entfernt die am Anfang leigenden nullen
 y = result[0]

 result = get_value(y,line, 1)
 von_datum = result[1]
 y = result[0]

 result = get_value(y,line, 1)
 bis_datum = result[1]
 y = result[0]

 result = get_value(y,line, 1)
 Stationshoehe = result[1]
 y = result[0]

 result = get_value(y,line, 1)
 geoBreite = result[1]
 y = result[0]

 result = get_value(y,line, 1)
 geoLaenge = result[1]
 y = result[0]

 result = get_value(y,line, 3)
 Stationsname = result[1]
 y = result[0]

 result = get_value(y,line, 1)
 Bundesland = result[1]
 y = result[0]

 station = Station(Stations_id, Stationshoehe, geoBreite, geoLaenge, Stationsname ,Bundesland)
 stations[Stations_id] = station

 i+=1
 return(stations)


print(station_file)
stations = read_station_file()
print(stations["44"].name)

dwd-data/zehn_now_tu_Beschreibung_Stationen.txt
Großenkneten 


Um an die Messerte in den Datein zu kommen müssen diese entpackt werden. 
Das kann einige Zeit in Anspruch nehmen. Es wird immer die Station angezeigt die gerade Importiert wird

In [6]:
def import_data(df):
 client = InfluxDBClient(url=influx_url, token=token, org=org)
 
 write_api = client.write_api(write_options=SYNCHRONOUS)
 
 error = 0
 
 for index, row in df.iterrows():
 
 measurement_time = datetime.strptime(str(int(row[1])),"%Y%m%d%H%M")

 #station = stations[str(row[0])].name
 
 try:
 station = stations[str(row[0])].name
 #print(station)
 except:
 print("Station unknow", end='\r')
 else:
 try:
 p = Point(station)

 #if(row[3]) != -999: p.field("PP_10", row[3])
 p.field("PP_10", row[3])
 p.field("TTL10",row[4])
 p.field("TM5_10", row[5])
 p.field("RF_10", row[6])
 p.field("TD_10", row[7])

 p.time(measurement_time,WritePrecision.S)
 write_api.write(bucket=bucket, record=p)
 print(" ", end='\r')
 print("Import Station: ", station , end='\r')
 except:
 error += 1
 if error < 1:
 print("Error Import Station: ", station)
 client.close()

def read_dwd_file(file):
 df = pd.read_csv(file,sep=';')
 #print(df, end='\r')
 #print(df.iat[0,1])
 import_data(df)


for filename in os.listdir(download_folder):
 file_path = os.path.join(download_folder, filename)
 if(str(file_path).__contains__('.zip')):
 zip=zipfile.ZipFile(file_path)
 f=zip.open(zip.namelist()[0])
 read_dwd_file(f)
 #print(contents)

print(" ", end='\r')
print("Import durchgeführt", end='\r')

Import durchgeführt 

# Wetterdaten verarbeiten

Jetzt wo die Daten importiert worden sind können die Daten Verarbeitet werden. 
Zur veranschaulichung werden die Tages höchst und Tiefstwerte sowie den Durchschnittswert für die letzen 24 Stunden in Bad Lippspringe ermittelt.

Als erstes müssen die Daten der letzen 24 Stunden aus der Datenbank abgerufen werden. Dazu wird mithilfe des Query Clients ein Flux Query ausgeführt der nach den gewünschten Daten filtert.

In [7]:
client = InfluxDBClient(url=influx_url, token=token, org=org)

query_api = client.query_api()
query = 'from(bucket: "' + bucket + '")\
 |> range(start: -24h)\
 |> filter(fn: (r) => r["_measurement"] == "Lippspringe, Bad ")\
 |> filter(fn: (r) => r["_field"] == "TM5_10")'
result = query_api.query(org=org, query=query)

Als nächstes werden einige Variablen definiert um den höchst und Tiefstwert zu erhalten. 
Für den Höchstwert nehmen wir Standartmäßig einen sehr nidrigen und für den Tiefstwert einen sehr hohen Wert.

Außerdem wird für den Durschnittswert ein Zähler und eine Summen Variable definiert.

In [8]:
highest = -254
lowest = 254

i=0
sum=0

In [9]:
for table in result:
 for record in table.records:
 value = record.get_value()
 i = i + 1
 sum = sum + value
 if value > highest:
 highest = value
 if value < lowest:
 lowest = value 

print("Der Tageshöchstwert der letzen 24h liegt bei: "+ str(highest))
print("Der Tagestiefstwert der letzen 24h liegt bei: "+ str(lowest))

Der Tageshöchstwert der letzen 24h liegt bei: -254
Der Tagestiefstwert der letzen 24h liegt bei: 254


Um den Durchschnittswert auszurechnen muss nur noch die Summe aller Werte, also die Variable sum, durch die Anzahl der Werte i geteilt werden.

In [10]:
average = sum / i
print("Die durchschnittestemperatur der letzten 24h liegt bei: "+ str(average))

ZeroDivisionError: division by zero