# Wetterdaten importieren

Die Wetterdaten des DWDs werden über einen OpenData Server bereitgestellt. Um an diese Daten zu kommen, müssen diese relativ komplex heruntergeladen und zusammengefügt werden.

Als erstes werden Vorbereitungen dafür getroffen, die Daten zu importieren. Dazu werden die benötigten Bibliotheken importiert und einige Variablen gesetzt.
Außerdem wird ein Ordner angelget, in dem die heruntergeladenen Daten gespeichert werden können.

In [9]:
from operator import contains
import requests
import os

import zipfile
import io
import pandas as pd

url = 'https://opendata.dwd.de/climate_environment/CDC/observations_germany/climate/10_minutes/air_temperature/now/'
download_folder = 'dwd-data/'

from datetime import datetime

from influxdb_client import InfluxDBClient, Point, WritePrecision, BucketRetentionRules
from influxdb_client.client.write_api import SYNCHRONOUS

token = "8TYGzTJhqCyKpspMp95Yk858DY2uMzj6wbexbFGMiaLjcG6caiQtNiBKOFlxXnYuEoduFqS9o6_q8UmP1eJC0w=="
org = "test-org"
bucket = "dwd_now"
influx_url = "http://influxdb:8086"

if not os.path.isdir(download_folder):
    print("Daten Ordner erstellt")
    os.mkdir(download_folder)

print("Fertig")

Fertig


Um die Daten später importieren zu können, muss zunächst ein Bucket in der Datenbank angelegt werden. Wenn das Bucket schon vorhanden ist, wird es gelöscht und erneut angelegt.

In [10]:
with InfluxDBClient(url=influx_url, token=token) as client:
    buckets_api = client.buckets_api()
    buckets = buckets_api.find_buckets().buckets    
    data_bucket = [x for x in buckets if x.name == bucket]
    
    if len(data_bucket) > 0:
        print("Vorhandes Bucket löschen")
        #buckets_api.delete_bucket(data_bucket[0]) #Jetzt gerade nicht löschen das ist nervig
    
    retention_rules = BucketRetentionRules(type="expire", every_seconds=86400)
    #created_bucket = buckets_api.create_bucket(bucket_name=bucket, retention_rules=retention_rules, org=org)
    
    print("Bucket angelegt")

Vorhandes Bucket löschen
Bucket angelegt


Um an die Daten der Webseite zu gelangen, wird mittels ScreenScrapping jeder Link zu einer der gezipten CSV Dateien gesucht. Dafür wird BeautifulSoup genutzt. Damit BeautifulSoup die Links finden kann, muss zunächst einmal die HTML Datei heruntergeladen werden.

In [11]:
print("Download")
response = requests.get(url)
print(response)

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')

dwd_links = soup.findAll('a')

print(dwd_links[2])


Download
<Response [200]>
<a href="10minutenwerte_TU_00073_now.zip">10minutenwerte_TU_00073_now.zip</a>


Die so gefilterten Links werden dann in dieser Schleife heruntergeladen und gespeichert. Der Pfad für die Stationsbeschreibungsdatei wird in eine extra Variable geschrieben, um später an die Daten der Stationen zu gelangen.

In [12]:
download_counter = int(1)
dwd_len = len(dwd_links)
station_file = ''

for file_text in dwd_links:
    
    dwd_len = len(dwd_links)
    
    if (str(file_text.text).__contains__('10minutenwerte')):
        dest_file = download_folder + file_text.text
        if not os.path.isfile(dest_file):    
            file_url = url + "/" + file_text.text
            
            download(file_url, dest_file)
    elif (str(file_text)).__contains__('Beschreibung_Stationen'):
        dest_file = download_folder + file_text.text
        file_url = url + "/" + file_text.text
        download(file_url,dest_file)
        station_file = dest_file
            
    print("Download ", download_counter," von ",dwd_len, end='\r')
    download_counter += 1
    
    def download(url, dest_file):
        response = requests.get(file_url)
        open(dest_file, 'wb').write(response.content)

Download  473  von  473

Zunächst werden die Wetterstationen in die Klasse Station eingelesen. Aus den Klassen wird ein dictionary erstellt, in welchem mittels der "Stations_id" gesucht werden kann. Weil die Stationsdaten nicht als CSV gespeichert sind, musste eine eigene Technik entwickelt werden, um die Daten auszulesen.

Als erstes wird so lange gelesen bis kein Leerzeichen mehr erkannt wird. Danach wird gelesen bis wieder ein Leerzeichen erkannt wird. Dadurch können die Felder nacheinander eingelesen werden. 

In [13]:

class Station:
    def __init__(self, Stations_id, Stationshoehe, geoBreite, geoLaenge, Stationsname, Bundesland):
        self.Stations_id = Stations_id
        self.Stationshoehe = Stationshoehe
        self.geoBreite = geoBreite
        self.geoLaenge = geoLaenge
        self.name = Stationsname
        self.Bundesland = Bundesland

def read_station_file():
    
    def get_value(i, line, empty_spaces):
        value = ""
        while(line[i] == ' '):
            i += 1
        spaces = 0
        while(spaces < empty_spaces):
            if(line[i] == ' '):
                spaces += 1
            value += line[i]
            i += 1
        return (i,value)
    
    f = open(station_file, "r", encoding="1252")
    i = 0
    stations = {}
    for line in f:
        if i > 1:

            y = 0

            result = get_value(y,line, 1)
            Stations_id = str(int(result[1])) #Die Konvertierung in int und zurück zu string entfernt die am Anfang leigenden nullen
            y = result[0]

            result = get_value(y,line, 1)
            von_datum = result[1]
            y = result[0]

            result = get_value(y,line, 1)
            bis_datum = result[1]
            y = result[0]

            result = get_value(y,line, 1)
            Stationshoehe = result[1]
            y = result[0]

            result = get_value(y,line, 1)
            geoBreite = result[1]
            y = result[0]

            result = get_value(y,line, 1)
            geoLaenge = result[1]
            y = result[0]

            result = get_value(y,line, 3)
            Stationsname = result[1]
            y = result[0]

            result = get_value(y,line, 1)
            Bundesland = result[1]
            y = result[0]

            station = Station(Stations_id, Stationshoehe, geoBreite, geoLaenge, Stationsname, Bundesland)
            stations[Stations_id] = station

        i+=1
    return(stations)


print(station_file)
stations = read_station_file()
print(stations["44"].name)

dwd-data/zehn_now_tu_Beschreibung_Stationen.txt
Großenkneten   


Um an die Messwerte in den Dateien zu gelangen, müssen diese entpackt werden. 
Dies kann einige Zeit in Anspruch nehmen. Es wird immer die Station angezeigt, die gerade importiert wird.

In [14]:
def import_data(df):
    client = InfluxDBClient(url=influx_url, token=token, org=org)
    
    write_api = client.write_api(write_options=SYNCHRONOUS)
    
    error = 0
    
    for index, row in df.iterrows():
        
        measurement_time = datetime.strptime(str(int(row[1])),"%Y%m%d%H%M")

        #station = stations[str(row[0])].name
            
        try:
            station = stations[str(row[0])].name
            #print(station)
        except:
            print("Station unknow", end='\r')
        else:
            try:
                p = Point(station)

                #if(row[3]) != -999: p.field("PP_10", row[3])
                p.field("PP_10", row[3])
                p.field("TTL10",row[4])
                p.field("TM5_10", row[5])
                p.field("RF_10", row[6])
                p.field("TD_10", row[7])

                p.time(measurement_time,WritePrecision.S)
                write_api.write(bucket=bucket, record=p)
                print("                                                                                     ", end='\r')
                print("Import Station: ", station, end='\r')
            except:
                error += 1
                if error < 1:
                    print("Error Import Station: ", station)
    client.close()

def read_dwd_file(file):
    df = pd.read_csv(file,sep=';')
    #print(df, end='\r')
    #print(df.iat[0,1])
    import_data(df)


for filename in os.listdir(download_folder):
    file_path = os.path.join(download_folder, filename)
    if(str(file_path).__contains__('.zip')):
        zip=zipfile.ZipFile(file_path)
        f=zip.open(zip.namelist()[0])
        read_dwd_file(f)
        #print(contents)

print("                                                                                                    ", end='\r')
print("Import durchgeführt", end='\r')

Import durchgeführt                                                                                 

# Wetterdaten verarbeiten
Nachdem die Wetterdaten importiert worden sind, können die Daten verarbeitet werden.

### Höchst-, Tiefst- und Durchschnittswert

Zur Veranschaulichung wird der Tages-Höchst- und Tiefstwert, sowie der Durchschnittswert für die letzen 24 Stunden in Bad Lippspringe ermittelt.

Als erstes müssen die Daten der letzten 24 Stunden aus der Datenbank abgerufen werden. Dazu wird mithilfe des Query Clients ein Flux Query ausgeführt, der nach den gewünschten Daten filtert.

In [15]:
client = InfluxDBClient(url=influx_url, token=token, org=org)

query_api = client.query_api()
query = 'from(bucket: "' + bucket + '")\
  |> range(start: -24h)\
  |> filter(fn: (r) => r["_measurement"] == "Lippspringe, Bad  ")\
  |> filter(fn: (r) => r["_field"] == "TM5_10")'
result = query_api.query(org=org, query=query)

Als nächstes werden einige Variablen definiert, um den Höchst- und Tiefstwert zu erhalten.
Für den Höchstwert nehmen wir standardmäßig einen sehr niedrigen und für den Tiefstwert einen sehr hohen Wert.

Außerdem wird für den Durschnittswert ein Zähler und eine Summen Variable definiert.

In [16]:
max = -254
min = 254

i=0
sum=0

In [17]:
for table in result:
  for record in table.records:
    value = record.get_value()
    i = i + 1
    sum = sum + value
    if value > max:
        max = value
    if value < min:
        min = value    

print("Der Tageshöchstwert der letzen 24h liegt bei: "+ str(max))
print("Der Tagestiefstwert der letzen 24h liegt bei: "+ str(min))

Der Tageshöchstwert der letzen 24h liegt bei: -254
Der Tagestiefstwert der letzen 24h liegt bei: 254


Um den Durchschnittswert auszurechnen, muss nur noch die Summe aller Werte, also die Variable sum, durch die Anzahl der Werte "i" geteilt werden.

In [18]:
average = sum / i
print("Die Durchschnittstemperatur der letzten 24h liegt bei: "+ str(average))

ZeroDivisionError: division by zero

### Heißeste Wetterstation

Als erstes müssen alle notwendigen Daten abgerufen werden.

In [None]:
client = InfluxDBClient(url=influx_url, token=token, org=org)

query_api = client.query_api()
query = 'from(bucket: "' + bucket + '")\
  |> range(start: -24h)\
  |> filter(fn: (r) => r["_field"] == "TM5_10")'
result = query_api.query(org=org, query=query)

Zum Bestimmen der heißesten Wetterstation müssen zuerst mehrere Varialben definiert werden.

In [None]:
station_name = ""             # Name der Station, die gerade Verarbeitet wird
max_station_temp = -254       # Höchsttemperatur der heißesten Station
max_station_name = ""         # Name der heißesten Station

Die nächste Schleife iteriert über die Zeilen der Tabelle. Dabei wird für jede Station der Höchstwert bestimmt.

In [None]:
for table in result:  
    max = -254                                     # Maximalwert der aktuell verarbeiteten Station
    for record in table.records:
        station_name = record.get_measurement()    # Abfragen des Stationsnamens
        value = record.get_value()                 # Abfragen des Messwertes
        if value > max:
            max = value                            
    if max > max_station_temp:                     # Wenn die aktuelle Station heißer ist als der bisherige Maximalwert
        max_station_temp = max                     # den neuen heißesten Wert speichern
        max_station_name = station_name            # und auch den Namen der Station speichern

print("Die heißeste Station ist " + str(max_station_name) + " mit einer Temperatur von " + str(max_station_temp) + "C." )

Das Bestimmen der niedrigsten Temperatur ist ziemlich ähnlich.

In [None]:
min_station_temp = 254       # Höchsttemperatur der heißesten Station 
min_station_name = ""         # Name der heißesten Station

for table in result:  
    min = 254                                     
    for record in table.records:
        station_name = record.get_measurement()   
        value = record.get_value()               
        if value < min:
            min = value                            
    if min < min_station_temp:     
        min_station_temp = max               
        min_station_name = station_name

print("Die kälteste Station ist " + str(min_station_name) + " mit einer Temperatur von " + str(min_station_temp) + "C." )