Weniger Sammeln, mehr Verstehen – hin zu proaktivem Reliability Engineering

Abstract

Moderne Organisationen sammeln heute riesige Mengen an Telemetriedaten – Terabytes an Logs, Metriken und Traces. Trotzdem fällt es ihnen schwerer denn je zu verstehen, warum Systeme versagen und wie sich Probleme nachhaltig beheben lassen. Das eigentliche Problem ist nicht die Datenmenge, sondern der fehlende Zweck hinter der Datenerfassung.

Dieser Vortrag stellt ein systematisches, top-down orientiertes Engineering-Framework vor, das den Umgang mit Service-Reliability neu ausrichtet. Anstelle von angstgetriebenem Datensammeln nach dem Motto „erst alles erfassen, später entscheiden” beginnt der Ansatz bei dem, was tatsächlich zählt: der Fähigkeit von Nutzer:innen, ihre Ziele zuverlässig zu erreichen.

Der Vortrag richtet sich an Entwickler:innen, Team-Leads und Führungskräfte und zeigt eine prinzipielle Vorgehensweise zur Auswahl von Telemetrie. Ziel ist es, Kosten zu reduzieren, Root-Cause-Analysen zu beschleunigen und belastbares Vertrauen in das Verhalten verteilter Systeme aufzubauen. Dabei wird erläutert, warum Traces das Fundament bilden sollten, wie Metriken sinnvoll eingesetzt werden und wann Logs zu belastbaren Hinweisen statt zu Rauschen werden.

Das Ergebnis sind weniger Daten, schnellere Problemlösung und die Fähigkeit, kausal über verteilte Systeme nachzudenken – ein Schritt weg vom reaktiven Feuerlöschen hin zu proaktivem Reliability Engineering.