Data Mining

Data Mining versucht, mit Hilfe anspruchsvoller statistischer und mathematischer Verfahren beziehungsweise Algorithmen verborgene Muster, Trends und Zusammenhänge in großen Datenmengen zu erkennen.

Zu den klassischen Data-Mining-Methoden gehören beispielsweise

• Clustering: Hier geht es darum, Daten zu segmentieren und verschiedene Gruppen zu bilden (etwa Kunden nach Einkommensstufen)

• Klassifizierung: Hier sind die Gruppen/Klassen bereits vorgegeben. Daten-Elemente werden automatisch den verschiedenen Klassen zugeordnet (beispielsweise umsatzstarke und umsatzschwache Filialen). Zur Klassifikation gehört auch die Entscheidungsbaumanalyse.

• Regressionsanalyse: Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen werden identifiziert (zum Beispiel: Produktabsatz hängt von Produktpreis und Einkommen der Kunden ab).

• Assoziations-Analyse: Suche nach Mustern, bei denen ein Ereignis mit einem anderen Ereignis verbunden ist; die Abhängigkeiten zwischen den Datensätzen werden über Wenn-dann-Regeln beschrieben (etwa, wenn ein Kunde Cola kauft, kauft er auch Salzstangen).

Data Mining nutzt auch neuronale Netze, die der Arbeitsweise des menschlichen Gehirns ähneln und über viele Datendurchläufe bestehende Strukturen oder Muster lernen. Daher ist Data Mining eng verwandt mit maschinellem Lernen, sprich Anwendungen und Methoden, in denen Computerprogramme selbstständig neues Wissen erwerben. Während aber beim Data Mining der Fokus auf dem Finden neuer Muster liegt, die bereits in den bestehenden Daten vorliegen, geht es beim maschinellen Lernen darum, neue Berechnungsfunktionen aus vorhandenen Daten abzuleiten. Hier werden die Algorithmen so trainiert, dass sie aus den vorliegenden Daten lernen, selbstständig ein Datenmodell erzeugen und dieses für Prognosen oder Entscheidungen einsetzen. Beispiel: Eine Versicherung erzeugt mit Hilfe von historischen Kündigungsdaten ein Modell, das Kunden vorhersagt, die künftig ebenfalls kündigen könnten.

(© Jürgen Mauerer für COMPUTERWOCHE 26.08.2015)