Daten und Methoden für die MiKlip dekadischen Vorhersagen 2017-2026

Datengrundlage

Für die Analyse werden Jahresmittel der bodennahen Temperatur verwendet. Neben der globalen Auswertung wird zusätzlich der Bereich des Nord-Atlantiks (NA) von 60°-10°W und 50°-65°N untersucht. Als Beobachtungsdatensatz dient hierfür HadCRUT4 (Morice et al., 2012), welcher auf einem globalen 5°x5° Gitter vorliegt. Die Daten des dekadischen Klimavorhersagesystems von MiKlip (MiKlip-System) bestehen aus Vorhersagen, welche zur Bewertung des Systems in der Vergangenheit gestartet wurden (retrospektive Vorhersagen) und den Vorhersagen für die nächsten zehn Jahre. Sie werden in der 'Baseline 1'-Konfiguration, bestehend aus einem Initialisierungs-Schema, welches Beobachtungsdaten berücksichtigt, und dem globalen Zirkulationsmodells MPI-ESM, durchgeführt (Müller et al., 2012; Pohlmann et al., 2012; Marotzke et al., 2016). Die Daten beinhalten zehn Ensemble-Mitglieder, welche jährlich in den Jahren 1960-2016 initialisiert wurden. Die Simulationen haben jeweils eine Vorhersagelänge von zehn Jahren. Die Modelldaten des Vorhersagesystems werden zur einheitlichen Bewertung ebenfalls auf ein 5°x5° Gitter interpoliert. Die Analyse der Daten wird zum Einen für jeden Gitterpunkt durchgeführt, als auch für räumliche Mittel der entsprechenden Regionen, d.h. globales Mittel und NA.

Temperaturanomalien und zeitliche Mittelung

In der Vorhersage des Modells als auch in den Beobachtungen werden Temperaturanomalien bezüglich des Zeitraums 1981-2010 (WMO-Referenzzeitraum) verwendet. Die Temperaturanomalien werden jeweils für laufende Mittel über vier Jahre analysiert. Es werden somit Vorhersagen für die Vorhersagezeiten Jahr 1-4, 2-5, 3-6, …, 7-10 Jahre erstellt.

Die Temperaturmittel und -anomalien werden für jedes Ensemble-Mitglied für die verschiedenen Vorhersagezeiträume (Jahr 1-4, … , Jahr 7-10) separat berechnet. Auf diese Art und Weise wird implizit die systematische Abweichung von Modell und Beobachtung, welche sich mit der Vorhersagezeit ändert (Modelldrift), berücksichtigt (Goddard et al., 2013; Boer et al., 2016). Anhand dieser vorhersagezeitabhängigen Temperaturmittel und -anomalien werden die Vorhersagen sowohl erstellt als auch bewertet.

Bewertung der Vorhersagegüte

Die Bewertung der Vorhersagegüte findet mit Hilfe der retrospektiven Vorhersagen aus dem MiKlip-System statt, welche für die Vergangenheit durchgeführt wurden. Der maximale Zeitraum, der für die Bewertung für alle untersuchten Vorhersagezeiten (Jahr 1-4 bis Jahr 7-10) vorliegt, beträgt 1967-2015. Um die Güte zu bewerten, werden die retrospektiven Vorhersagen in der Vergangenheit mit den Beobachtungen verglichen. Für Gitterpunkte, an denen im Bewertungszeitraum keine Beobachtungen vorliegen (missing values), kann keine Bewertung vorgenommen werden. Diese Gitterpunkte werden auf der Karte grau dargestellt. Die Güte der dekadischen Vorhersage wird jeweils der Güte einer Referenzvorhersage in der Vergangenheit gegenübergestellt. Die Differenz dieser Vorhersagegüten, d.h. die Verbesserung der Vorhersage gegenüber der Referenzvorhersage, wird als Gütemaß [Angabe in %] bezeichnet. Wenn das dekadische Vorhersagesystem und die Referenzvorhersage die gleiche Güte haben, beträgt der Gütemaß 0%. Der Wert 100% hingegen beschreibt eine perfekte dekadische Vorhersage. Als Referenzvorhersagen werden sowohl die Klimatologie der Beobachtung der Jahre 1981-2010 als auch die nicht-initialisierten historischen Klimaprojektionen verwendet, welche sich von dem dekadischen Vorhersagesystem nur durch das nicht vorhandene Initialisierungs-Schema unterscheiden. Zum Test, inwieweit die Verbesserung der Vorhersage gegenüber der Referenzvorhersage zufälligen Schwankungen unterliegt (Signifikanztest), wird ein 'bootstrapping' Verfahren angewendet. Dafür werden aus den Jahren des Bewertungszeitraums 500 Mal zufällige Jahre mit Zurücklegen gezogen und ebenfalls bewertet. Das Signifikanzniveau beträgt 95%.

Vorhersage des Ensemble-Mittelwertes

Aus den einzelnen Ensemble-Mitgliedern wird ein Ensemble-Mittelwert erstellt, mit dem sowohl die Vorhersage als auch die Bewertung der Güte vorgenommen wird. Für die räumlichen Mittel wird zusätzlich zu dem Ensemble-Mittelwert das 10. und 90. Perzentil der Ensemble-Verteilung dargestellt. Das Maß, mit dem die Vorhersagegüte des Ensemble-Mittelwertes in der Vergangenheit bestimmt wird, ist der Gütemaß des mittleren quadratischen Fehlers zwischen Vorhersage und Beobachtung (MSESS) (Goddard et al., 2013; Illing et al., 2013; Kadow et al., 2014). Der MSESS bewertet, ob die dekadische Vorhersage die Beobachtungen besser reproduzieren kann als die Referenzvorhersagen der Klimatologie (Abb. 1) und der nicht-initialisierten historischen Klimaprojektionen  (Abb. 2).

Abbildung 1: MSESS der dekadischen Vorhersage (Ensemble-Mittelwert der bodennahen Temperatur) für die Vorhersagezeit Jahr 1-4: Positive/ negative Werte beschreiben eine bessere/ schlechtere Vorhersagegüte der dekadischen Vorhersage gegenüber der Referenzvorhersage der Klimatologie, beides im Vergleich zu den Beobachtungen von HadCRUT4.
Abbildung 2: MSESS der dekadischen Vorhersage (Ensemble-Mittelwert der bodennahen Temperatur) für die Vorhersagezeit Jahr 1-4: Positive/ negative Werte beschreiben eine bessere/ schlechtere Vorhersagegüte der dekadischen Vorhersage gegenüber der Referenzvorhersage der nicht-initialisierten historischen Klimaprojektionen, beides im Vergleich zu den Beobachtungen von HadCRUT4.

Probabilistische Vorhersage

Für die probabilistische Vorhersage wird der Zeitraum 1981-2010 in drei äquivalente Häufigkeitsbereiche der Temperatur eingeteilt (Temperatur niedriger als normal, normal und höher als normal). Basierend auf der Verteilung der Ensemble-Simulationen lässt sich bestimmen mit welcher Wahrscheinlichkeit das Vorhersage-Ensemble für die betrachteten Vorhersagezeiten (Jahr 1-4, …, Jahr 7-10) in eine der drei Kategorien fällt. Wegen der geringen Anzahl der Ensemble Mitglieder findet die Berechnung der Wahrscheinlichkeiten dabei mit einem Dirichlet-Multinomial Modell mit flachem Dirichlet prior statt (Agresti and Hitchcock; 2005).

Das Maß mit dem die Vorhersagegüte der dekadischen Vorhersage im Vergleich zu Beobachtungen in der Vergangenheit bestimmt wird, ist der Gütemaß für die klassifizierte Wahrscheinlichkeit (RPSS) (Ferro 2007; Ferro et al., 2008), welcher die Übereinstimmung der Klassenzuordnung überprüft. Der RPSS bewertet, ob die dekadische Vorhersage die Beobachtungen besser reproduzieren kann als die Referenzvorhersagen der Klimatologie (Abb. 3) und der nicht-initialisierten historischen Klimaprojektionen (Abb. 4).

Abbildung 3: RPSS der dekadischen Vorhersage der bodennahen Temperatur für die Vorhersagezeit Jahr 1-4: Positive/ negative Werte beschreiben eine bessere/ schlechtere Vorhersagegüte der dekadischen Vorhersage gegenüber der Referenzvorhersage der Klimatologie, beides im Vergleich zu den Beobachtungen von HadCRUT4.
Abbildung 4: RPSS der dekadischen Vorhersage der bodennahen Temperatur für die Vorhersagezeit Jahr 1-4: Positive/ negative Werte beschreiben eine bessere/ schlechtere Vorhersagegüte der dekadischen Vorhersage gegenüber der Referenzvorhersage der nicht-initialisierten historischen Klimaprojektionen, beides im Vergleich zu den Beobachtungen von HadCRUT4.

Referenzen