Quick Check
Ausgangssituation
Adaptive Cruise Control (ACC) SSC-Services ist für die Entwicklung und den produktiven Betrieb einer Vielzahl von Softwarekomponenten verantwortlich. Dabei kommen umfangreiche Monitoring-Lösungen zum Einsatz, sodass eine Person meist für viele Systeme verantwortlich ist. Im Zuge dessen muss viel Zeit für die Pfl ege von Alerting-Regeln aufgewendet werden, um etwaige Probleme bzgl. der Systemstabilität abzudecken.
Dieses Problem lässt sich als Anomalie-Erkennung formulieren und so bspw. mit der automatischen Erkennung von Kreditkartenbetrug vergleichen. Aufgrund der großen verfügbaren Datenmenge ist das Problem ideal für Machine Learning (ML) geeignet.
Lösungsidee
Anhand der durch das Monitoring-System aufgezeichneten Daten, wie CPU-Auslastung oder Festplattenaktivität, ist ein reichhaltiger Zeitreihendatensatz entstanden: In gesetzten Zeitintervallen sind diverse Informationen über den Systemzustand vorhanden.
Da sich Systemabstürze schon im Voraus in Systemdaten widerspiegeln, oft nach denselben Mustern, soll durch ML, ein Systemabsturz so lange wie möglich im Voraus prädiziert werden. Konkret werden drei Ansätze erprobt:
1) Supervised Learning: »herkömmliche« Modelle, wie Random Forests, Gradient Boosting oder Support Vector Machines
2) Deep Learning: Long Short-Term Memory Neural Networks
3) Unsupervised Learning: Autoencoder