Kennzahlen im BCM: 12 KPIs, die Management wirklich versteht (und die nicht manipulativ sind)

Montag, 9:15 Uhr: Das ERP steht, Bestellungen stauen sich, das Telefon klingelt. Plötzlich ist Business Continuity Management (BCM) „sichtbar“.

Genau deshalb brauchen Sie Kennzahlen, die zwei Dinge leisten:

  • Management-Entscheidungen unterstützen (Investitionen, Prioritäten, Risiken)
  • Wirksamkeit zeigen – ohne Zahlenkosmetik und ohne Anreiz zum Tricksen

In diesem Beitrag erhalten Sie 12 praxiserprobte KPIs (inkl. Definition, Berechnungsidee, Datenquelle und Reporting-Takt), die Sie in fast jeder Organisation etablieren können.

Was macht einen „nicht manipulativen“ BCM-KPI aus?

Viele Kennzahlen scheitern nicht an der Mathematik, sondern am Verhalten, das sie auslösen. Wenn eine Kennzahl zur Zielvorgabe wird, optimieren Teams sie – manchmal am eigentlichen Zweck vorbei.

Nicht manipulative KPIs erfüllen daher diese Kriterien:

  • Outcome statt Output: Wirkung zählt (z. B. Wiederanlaufzeit), nicht Papiermenge (z. B. Anzahl Pläne).
  • Messbar aus echten Ereignissen: Übungen, Tests, reale Störungen.
  • Schwer „schönzurechnen“: klare Regeln, was zählt und was nicht.
  • Einfach verständlich: ein Satz reicht, um die Kennzahl zu erklären.
  • Führt zu Entscheidungen: Jede Kennzahl hat eine typische Management-Aktion.

Tipp: Stellen Sie Ihr KPI-Set als Mix aus Leading & Lagging Indicators zusammen. Leading Indicators zeigen, wie gut Sie vorbereitet sind; Lagging Indicators zeigen, ob es im Ernstfall tatsächlich funktioniert.

  • Leading (vorbeugend): Reifegrad, Testabdeckung, Umsetzungsstatus
  • Lagging (rückblickend): tatsächliche Ausfallzeiten, Zielerreichung in Übungen/Incidents

So führen Sie BCM-KPIs ein (ohne Frust)

  1. Maximal 8–12 Kennzahlen für das Management-Board (nicht 30).
  2. Ein Owner pro KPI (Wer liefert? Wer interpretiert?).
  3. Ampellogik mit klaren Schwellen (Grün/Gelb/Rot) – aber nicht willkürlich.
  4. Trend vor Momentaufnahme: Mindestens 6–12 Monate Verlauf.
  5. Regelmäßige Management-Frage: „Welche Entscheidung treffen wir aufgrund dieser Kennzahl?“

Die 12 KPIs

Hinweis: Sie müssen nicht alle 12 sofort ausrollen. Starten Sie mit 6–8 und erweitern Sie, sobald die Datenerhebung stabil läuft.

1) Abdeckung kritischer Services/Prozesse mit aktualisierten Wiederanlaufplänen

Worum geht’s? Wie viele der kritischen Services/Prozesse haben einen gültigen Plan (inkl. Wiederanlaufstrategie und Rollen)?

  • Definition: Anteil kritischer Services/Prozesse mit Plan, der innerhalb des definierten Review-Zeitraums aktualisiert wurde.
  • Berechnung: # kritische Services mit gültigem Plan / # kritische Services gesamt
  • Datenquelle: BCM-Register / Plan-Repository
  • Reporting: monatlich oder quartalsweise
  • Warum schwer manipulierbar? „Gültig“ an Kriterien binden: Review-Datum, Verantwortliche bestätigt, Plausibilitätscheck und idealerweise Übungs-/Testnachweis.
  • Typische Management-Aktion: Ressourcen für Planlücken bereitstellen, kritische Bereiche priorisieren.

2) „Recovery Readiness Score“ (einfache Reifegrad-Ampel pro Service)

Worum geht’s? Ein Service ist nicht „bereit“, nur weil es ein Dokument gibt. Der Readiness Score bündelt wenige harte Kriterien.

  • Definition: Ampel/Score (z. B. 0–5) je kritischem Service.
  • Skalierung (Beispiel): 0–1 Rot, 2–3 Gelb, 4–5 Grün.
  • Kriterienbeispiel (0–5):
    1. Plan aktuell
    2. Abhängigkeiten (IT/Provider/Standort) erfasst
    3. Ressourcen & Rollen geklärt
    4. Wiederanlauf technisch getestet oder geübt
    5. Letzte Findings geschlossen
  • Reporting: quartalsweise (Top 10 kritische Services im Board)
  • Anti-Gaming: Kriterien binär und nachprüfbar definieren (wann gilt ein Kriterium als „erfüllt“?).
  • Typische Management-Aktion: Investitions- oder Priorisierungsentscheidung pro Service.

3) Übungs- und Testabdeckung (Coverage) der kritischen Services

Worum geht’s? Wie viel vom Kritischen wurde in den letzten 12 Monaten wirklich geübt/getestet?

  • Definition: Anteil kritischer Services mit mindestens einer definierten Übung/Testform (z. B. Tabletop, technischer Restore-Test, End-to-End).
  • Berechnung: # kritische Services mit Übung/Test in 12M / # kritische Services gesamt
  • Datenquelle: Übungsplan, Testprotokolle
  • Reporting: quartalsweise
  • Anti-Gaming: Definieren Sie einen Mindeststandard („Tabletop zählt nur, wenn Rollen, Szenario und Entscheidungen dokumentiert sind“).
  • Management-Aktion: Übungsbudget, Priorisierung auf Risikobereiche.

4) Erfolgsquote bei Übungen: Zielerreichung RTO/RPO (oder definierte Wiederanlaufziele)

Worum geht’s? Nicht „wir haben geübt“, sondern: hat es funktioniert?

  • Definition: Anteil Übungen/Tests, in denen die Wiederanlaufziele erreicht wurden.
  • Berechnung: # Übungen mit Zielerreichung / # Übungen gesamt
  • Datenquelle: Übungsberichte
  • Reporting: quartalsweise
  • Anti-Gaming: Ziele vorab festlegen; Ausnahmen (Scope-Änderung) im Bericht begründen.
  • Management-Aktion: Maßnahmenpakete für wiederkehrende Defizite.

5) Mittlere Zeit bis zur Entscheidungsfähigkeit des Krisenstabs (MTTD – Mean Time to Decision)

Worum geht’s? In vielen Krisen ist nicht Technik das Hauptproblem, sondern Entscheidungsfähigkeit.

  • Definition: Zeit von Alarmierung bis zur ersten dokumentierten Entscheidung mit operativer Wirkung (z. B. Aktivierung einer BC-Strategie, Kommunikationsfreigabe, Priorisierung).
  • Berechnung: Median/Mean aus Übungen und realen Vorfällen.
  • Datenquelle: Alarmierungslog, Krisenstabsprotokoll
  • Reporting: nach jeder Übung + Quartalstrend
  • Anti-Gaming: Als „Entscheidung“ zählt nur ein Beschluss, der nachweislich Handlungen auslöst.
  • Management-Aktion: Anpassung Alarmierung, Rollen, Schulungen.

6) Alarmierungs-Erreichbarkeitsquote (First-Call Reachability)

Worum geht’s? Wenn Schlüsselrollen nicht erreichbar sind, hilft der beste Plan nichts.

  • Definition: Anteil erfolgreicher Erstkontakte bei Alarmierungen (Übung/real).
  • Berechnung: # Rollen beim ersten Versuch erreicht / # alarmierte Rollen
  • Datenquelle: Alarmierungssystem, Telefon-/Paging-Logs
  • Reporting: monatlich oder nach Ereignis
  • Anti-Gaming: Nur echte Testalarme oder reale Alarmierungen; Vorwarnung vermeiden.
  • Management-Aktion: Bereitschaftsmodelle, Eskalationsregeln, Aktualität Kontaktdaten.

7) Wiederherstellungsfähigkeit IT: Erfolgsquote kritischer Restore-Tests

Worum geht’s? Backups haben viele – Restore-Fähigkeit haben weniger.

  • Definition: Anteil kritischer Systeme/Datensätze mit erfolgreichem Restore-Test im definierten Zeitraum.
  • Berechnung: # kritische Assets mit erfolgreichem Restore-Test / # kritische Assets gesamt
  • Datenquelle: IT-DR/Backup-Reports
  • Reporting: monatlich/Quartal
  • Anti-Gaming: Test umfasst Wiederherstellung in Zielumgebung + Integritätscheck.
  • Management-Aktion: Invest in DR, Automatisierung, Testkapazitäten.

8) Abweichung „geplante vs. tatsächliche Wiederanlaufzeit“ (Plan Accuracy)

Worum geht’s? Wenn Pläne konstant zu optimistisch sind, ist das Risiko unterschätzt.

  • Definition: Differenz zwischen geplantem Ziel (z. B. RTO) und tatsächlich erreichter Zeit in Übungen/Incidents.
  • Berechnung: tatsächlich - Ziel (Minuten/Stunden oder % Abweichung)
  • Datenquelle: Übungsberichte, Incident-Tickets
  • Reporting: quartalsweise
  • Anti-Gaming: Verwenden Sie den Median und betrachten Sie Ausreißer separat.
  • Management-Aktion: Strategien anpassen, Ziele realistisch setzen, Investitionsbedarf ableiten.

9) Anteil offener BCM-Findings über Fälligkeitsdatum (Overdue Findings Rate)

Worum geht’s? Werden erkannte Schwachstellen tatsächlich behoben?

  • Definition: Anteil überfälliger Maßnahmen aus Übungen, Audits, Reviews.
  • Berechnung: # Findings überfällig / # Findings gesamt
  • Datenquelle: Maßnahmen-Tracker (Jira/ServiceNow/Excel)
  • Reporting: monatlich
  • Anti-Gaming: Änderungen an Fälligkeitsdaten versionieren und begründen.
  • Management-Aktion: Ownership klären, Eskalation, Kapazitäten schaffen.

10) Wiederkehrende Ursachen in Störungen (Top 5 Root Causes)

Worum geht’s? Resilienz steigt, wenn Ursachen verschwinden – nicht wenn Reports schöner werden.

  • Definition: Häufigste Ursachencluster aus Störungen/Beinahe-Ausfällen mit BCM-Relevanz (z. B. Provider, Change, Single Point of Failure).
  • Berechnung: Pareto/Top-5-Analyse pro Quartal
  • Datenquelle: Incident- & Problem-Management
  • Reporting: quartalsweise
  • Anti-Gaming: Standardisierte Kategorien + Stichprobenprüfung.
  • Management-Aktion: Strategische Maßnahmen (Redundanz, Vertragsnachbesserung, Architektur).

11) Kritische Drittparteien mit geprüftem BCM/Exit-/Kontinuitätsnachweis

Worum geht’s? Viele Ausfälle entstehen in der Lieferkette. Management versteht das sofort.

  • Definition: Anteil kritischer Provider, für die ein aktueller Kontinuitätsnachweis vorliegt (z. B. Testbericht, Audit, Zertifikat, Notfallkontakt, Exit-Plan).
  • Berechnung: # kritische Provider mit Nachweis / # kritische Provider gesamt
  • Datenquelle: Supplier-Management, Vertragsmanagement
  • Reporting: halbjährlich/Quartal
  • Anti-Gaming: „Nachweis“ klar definieren – ein PDF ohne Substanz zählt nicht.
  • Management-Aktion: Vertragsklauseln, Audit-Rechte, Alternativen, Exit-Strategie.

12) „Service Disruption Impact“: Geschäftsauswirkung realer Störungen (einfach monetär/operativ)

Worum geht’s? Das ist der KPI, der im Vorstand hängen bleibt – er darf aber einfach bleiben.

  • Definition: Auswirkung realer Serviceunterbrechungen (z. B. Umsatzverlust, Mehrkosten, SLA-Pönalen, Produktionsstillstand, Kundenbeschwerden). Nicht perfekt – aber konsistent.
  • Berechnung (Minimalmodell):
    • Dauer (h) × Impact-Faktor (1–5) oder
    • Mehrkosten + Erlösausfall + SLA-Kosten (falls verfügbar)
  • Datenquelle: Incident-Postmortems, Finance/Controlling (wo möglich)
  • Reporting: quartalsweise (Top-5 Incidents)
  • Anti-Gaming: Einheitliche Schätzlogik, gleiche Impact-Skalen, Review durch BCM + Controlling.
  • Management-Aktion: Priorisierung der „teuersten“ Risiken/Services.

KPI-Dashboard: Vorschlag für ein Management-Board (1 Seite)

Wenn Sie nur eine Seite im Steering Committee zeigen, empfiehlt sich:

  • Risiko & Wirkung: KPI 12 (Impact), KPI 10 (Top Ursachen)
  • Fähigkeit: KPI 2 (Readiness), KPI 3 (Coverage), KPI 7 (Restore)
  • Beweis der Wirksamkeit: KPI 4 (RTO-Zielerreichung), KPI 8 (Plan Accuracy)
  • Umsetzungskraft: KPI 9 (Overdue Findings)

Ergänzend: eine Mini-Heatmap „kritische Services“ mit Ampel aus KPI 2.

Häufige Fehler (und wie Sie sie vermeiden)

  1. Zu viele KPIs → Niemand liest’s. Weniger ist mehr.
  2. Nur Dokumenten-KPIs („# Pläne“, „# Workshops“) → Kein Wirksamkeitsnachweis.
  3. Keine klaren Definitionen → Jede Einheit misst anders.
  4. Ziele ohne Kontext → Management fragt: „Ist das gut oder schlecht?“
  5. Keine Maßnahmenkopplung → KPI ohne Konsequenz wird Folklore.

Kleine Vorlage: KPI-Steckbrief (Copy & Paste)

  • Name:
  • Zweck/Management-Frage:
  • Definition:
  • Formel:
  • Scope (kritische Services / Standorte / Provider):
  • Datenquelle:
  • Owner:
  • Frequenz:
  • Schwellenwerte (G/Y/R):
  • Typische Maßnahmen bei Gelb/Rot:

Fazit

BCM-Kennzahlen müssen nicht kompliziert sein. Sie müssen ehrlich, entscheidungsrelevant und nachweisbar sein: Idealerweise gestützt auf Übungen, Tests und reale Ereignisse.

Wenn Sie ein schlankes KPI-Set wie oben etablieren, gewinnen Sie:

  • bessere Priorisierung („wo investieren wir?“)
  • höhere Übungsqualität („funktioniert der Wiederanlauf wirklich?“)
  • weniger Überraschungen („Plan vs. Realität“)

Nächster Schritt

Wenn Sie BCM nach BSI-Standard praxisnah aufbauen oder professionalisieren möchten: Buchen Sie unser Schulung & Prüfung zum BCM-Praktiker.

Diesen Artikel teilen: