Wie werden die dekadischen Klimavorhersagen bewertet? Von der Klimainformation zur Klimavorhersage

Gemäß dem Sinnspruch „Data is not knowledge“ müssen wir uns Folgendes fragen: Wenn das Modell nun die Entwicklung einer Klimavariablen, z.B. der Temperatur, für die kommenden 10 Jahre berechnet hat, wie können wir eine Aussage bezüglich der Bewertung dieser Klimavorhersage machen?

Das Vorhersagesystem wird anhand bekannter Daten getestet. Dazu werden berechnete retrospektive Vorhersagen (Hindcasts) mit Beobachtungsdaten und Referenzvorhersagen auf Basis verschiedener Metriken für die Vorhersagegüte verglichen.

Wie „gut“ eine Klimavorhersage ist, also welche (klima-relevanten) Aussagen sich überhaupt treffen lassen, lässt sich in der Vergangenheit testen, da hier Referenzdatensätze vorliegen. Es werden also retrospektive Vorhersagen, sogenannte „Hindcasts“, gerechnet. Im Prinzip werden Hindcasts genau wie Klimavorhersagen (engl. „forecasts“) generiert: Es werden mehrere Ensemble-Simulationen an einem bestimmten Zeitpunkt mit den jeweils aktuellen Anfangsbedingungen gestartet und für zehn Jahre gerechnet. Im MiKlip-System werden in jedem Jahr ab 1960 Hindcast-Ensembles gestartet, da die Beobachtungen ab diesem Zeitpunkt gut genug sind, um sie als Anfangsbedingungen zu benutzen.

Um zu wissen, ob die Hindcasts das Richtige vorgesagt hätten, werden sie mit Beobachtungen verglichen. Wenn wir also wissen wollen, wie gut das System generell eine Temperaturvorhersage macht, werden Temperaturentwicklungen aus den Hindcasts mit beobachteten Temperaturen für die jeweils vorhergesagte Periode verglichen.

Eine der größten Herausforderungen für die Auswertung ist die Verfügbarkeit von flächendeckenden Beobachtungen für längere Zeiträume. Für Temperatur und Niederschlag ist diese für die Hindcast-Periode (ab 1960) größtenteils gegeben, aber Beobachtungen von vielen anderen Größen sind nur für einen kürzeren Zeitraum verfügbar. Eine lange Periode mit Beobachtungen ist aber wichtig, um zuverlässige Statistiken der Auswertung zu berechnen.

Die Vorhersage des Ensemblemittels betrachtet die Vorhersage des Mittelwerts aller Simulationen des Modellensembles und gibt keine Auskunft über die Bandbreite der Vorhersage.

Die probabilistische Vorhersage beschreibt die Wahrscheinlichkeitsverteilung aller Simulationen des Modellensembles, indem die Vorhersagen in unterschiedliche Kategorien eingeteilt und die Häufigkeiten der Kategorien vorhergesagt werden. Diese Kategorien können z.B. Tendenzen bezüglich eines Normalzustands beschreiben, wie etwa die drei Kategorien „niedriger als normal“, „normal“ und „höher als normal“, deren Grenzen den Terzilen aus einem Beobachtungsdatensatz in einer Referenzperiode entsprechen.

Die Hindcasts werden mit Hilfe verschiedener statistischer Methoden mit den Beobachtungen verglichen, um die sogenannte Vorhersagegüte festzustellen. Es gibt eine Vielzahl an Gütemaßen und Metriken, die die Übereinstimmung von Hindcasts und Beobachtungen darstellen. Welches Maß gewählt wird, hängt einerseits von der Art der Vorhersage ab (e.g., Ensemblemittel oder probabilistische Vorhersage). Andererseits hängt es davon ab, welche statistische Eigenschaft der Variable ausgewählt wird, z.B. Mittelwert oder Extremwert.

Als Maß für eine Vorhersage des Ensemblemittels könnte man z.B. die Korrelation wählen, welche die Übereinstimmung der interannuellen Variabilität des simulierten Ensemble-Mittelwerts mit derjenigen aus Beobachtungen prüft. Die Skala läuft von +1 über 0 bis -1 (positiver, kein und negativer Zusammenhang). Als Maß für eine probabilistische Vorhersage könnte man z.B. das Zuverlässigkeitsdiagramm wählen, welches die Übereinstimmung zwischen simulierter Ensemble-Verteilung und beobachteter Häufigkeitsverteilung in unterschiedliche Kategorien von nützlich bis nicht nützlich einteilt. Wenn man berechnet, dass die Hindcasts die Vergangenheit „gut“ abbilden können, geht man unter Annahme der zeitlichen Übertragbarkeit der gefundenen Beziehungen davon aus, dass die Vorhersagen auch die Zukunft „gut“ abbilden können. Diese Beziehungen können zwar zeitlich variabel sein, aber es gibt keine Alternative zur Abschätzung der Vorhersagegüte in der Zukunft.

Ein üblicher Aspekt der Auswertung ist es, die Hindcasts des dekadischen Klimavorhersagesystems mit alternativen Vorhersagen, sogenannte Referenzvorhersagen, zu vergleichen: Bilden die Hindcasts beobachtete Klimaverläufe besser ab als die Referenzvorhersagen? Übliche Referenzvorhersagen sind Persistenz, Klimatologie und Klimaprojektionen, die nicht mit Beobachtungen initialisiert worden sind. Damit kann der Mehrwert des eigenen Systems gegenüber diesen Referenzvorhersagen festgestellt werden.

Persistenz und Klimatologie lassen sich gut mit einem Beispiel aus der Wettervorhersage erklären: Ausgehend von einer Temperaturvorhersage für morgen würde Persistenz vorhersagen, dass der vorhergesagte Zeitraum genauso aussehen wird wie der Zeitraum gleicher Länge vor der Vorhersage – morgen wird die Temperatur genau so sein wie heute. Klimatologie sagt vorher, dass der vorhergesagte Zeitraum genauso aussehen wird wie das Langzeitmittel der klimatologischen Referenzperiode. Für die Wettervorhersage würde das bedeuten, dass das Wetter morgen so aussehen wird wie dieser Tag im klimatologischen Mittel, z.B. der 1.Januar im 30-Jahresmittel.

Die Hindcasts werden außerdem mit nicht-initialisierten Klimaprojektionen verglichen, um festzustellen, ob die Initialisierung der Hindcasts zu einem Zugewinn an Vorhersagegüte geführt hat, sprich ob ein Mehrwert vorhanden ist.

Es besteht auch die Möglichkeit, systematische Fehler in den Vorhersagen durch verschiedene statistische Verfahren wie Bias-Korrektur und Kalibrierung zu korrigieren und somit die Vorhersagegüte im Nachhinein zu verbessen. Zu typischen systematischen Fehlern gehören z.B. eine stets zu hohe oder niedrige Vorhersage (positiver oder negativer Bias) und abweichende Verteilungen zwischen Ensemble und Beobachtungen.