Data Mining - Definition, Methoden, Anwendung

Definition

Data Mining ist ein interdisziplinäres Teilgebiet der Informatik mit dem übergeordneten Ziel, mit statistischen und mathematischen Methoden Muster, Zusammenhänge oder Entwicklungstendenzen aus einem Datensatz zu extrahieren und die Informationen für die weitere Verwendung in eine verständliche Struktur umzuwandeln. Data Mining ist der Analyseschritt innerhalb des als „Knowledge Discovery in Databases“ (Deutsch: „Wissensentdeckung in Datenbanken“) bezeichneten Prozesses.

Anwendungsgebiete des Data Mining

Text Mining ist ein Anwendungsbereich für Data Mining, bei dem mittels statistischer und linguistischer Verfahren Informationen aus natürlich-sprachlichen und nicht oder nur wenig strukturierten Quellen erfasst und anschließend visuell aufbereitet werden.

Data Mining wird außerdem in der Finanzdatenanalyse beispielsweise für die Vorhersage der Wahrscheinlichkeit einer Kreditrückzahlung, für die Analyse der Kreditwürdigkeit, die Klassifizierung und das Clustering von Kunden für gezieltes Marketing sowie die Aufdeckung von Geldwäsche und anderen Finanzstraftaten genutzt.

Im Marketing und Handel wird Data Mining eingesetzt, um große Datenmengen aus den Bereichen Verkauf, Kaufhistorie, Warentransport, Verbrauch und Dienstleistungen auszuwerten. Hier hilft Data Mining durch eine mehrdimensionale Analyse von Umsatz, Kunden, Produkten, Zeit und Region dabei, die Kaufmuster und Trends der Kunden zu erkennen. Die gewonnenen Informationen können zur Verbesserung des Kundenservice und zur Stärkung der Kundenbindung und -zufriedenheit genutzt werden.

Weiterhin findet Data Mining in der “Intrusion Detection” bei Netzwerken Anwendung. Intrusion, auf Deutsch „Einbruch“, bezieht sich auf jede Art von Aktion, die die Integrität, Vertraulichkeit oder Verfügbarkeit von Netzwerkressourcen gefährdet. Durch die verstärkte Nutzung des Internets und die leichte Verfügbarkeit von Tools zum Eindringen in und Angriff auf Netzwerke ist die Erkennung von Eindringlingen durch die Auswertung umfangreicher Daten zu einem wichtigen Bestandteil der Netzwerkadministration geworden.

Methoden des Data Mining

Beim Data Mining werden je nach Datenbasis und der gesuchten Information unterschiedliche Methoden für die Datenanalyse eingesetzt.

Tracking Patterns

Das Erkennen von Mustern in Datensätzen ist eine der grundlegendsten Techniken beim Data Mining. Die Mustererkennung wird eingesetzt, um Wiederholungen, Gesetzmäßigkeiten und insbesondere auffällige Abweichungen in Datensätzen zu finden. Auf diese Weise können betrügerische Aktivitäten aufgedeckt oder, wie im Fall der Kriminalitätsanalyse, Vorhersagen über den nächsten Tatort getroffen werden.

Klassifizierung

Die Klassifizierung ist eine Data Mining Methode, mit der Elemente aus einer Datensammlung Zielkategorien oder -klassen zugewiesen werden. Klassifizierungsmodelle werden zum Beispiel verwendet, um Bankkunden ein geringes, mittleres oder hohes Kreditrisiko zuzuweisen. Diese Information ist dann beispielsweise die Grundlage für die Berechnung der Zinshöhe bei einem Kredit.

Assoziation

Bei der Assoziationsanalyse geht es darum, verborgene Datenbeziehungen aufzudecken, indem anhand von bestimmten Regeln Daten nach Ereignissen durchsucht werden, die mit einem anderen Ereignis korreliert sind. Beispiele sind der gemeinsame Kauf verschiedener Produkte durch einen Kunden oder der erhöhte Absatz bestimmter Produkte vor Feiertagen oder während sportlicher Großveranstaltungen.

Ausreißererkennung

Outlier Detection, auf Deutsch „Ausreißererkennung“, dient dem Erkennen von Anomalien in Datensätzen. Die Outlier Detection kann beispielsweise genutzt werden, um herauszufinden, warum einzelne Produkte an bestimmten Wochentagen oder zu bestimmten Anlässen mehr nachgefragt werden als in der übrigen Zeit.

Clustering

Clustering bezeichnet im Data Mining einen Prozess, bei dem aus einer Menge abstrakter Objekte eine Klasse mit im Bezug auf die Datenbasis ähnlichen Objekten gebildet wird. Clustering wird unter anderem genutzt, um Kunden zu Gruppen mit ähnlichem Kaufverhalten zusammenzufassen.

Regression

Die Regressionsanalyse oder Korrelationsanalyse ist eine in der Statistik verwendete Methode, mit der die Abhängigkeit einer Variablen von der Veränderung einer oder mehrerer weiterer Variablen analysiert werden kann. Anhand der Regressionsanalyse kann beispielsweise die Abhängigkeit eines Produktpreises von der Verfügbarkeit des Produkts oder einer veränderten Wettbewerbssituation ermittelt werden.

Predictive Analytics

Predictive Analytics ist eine Methode, bei der auf Basis historischer Daten neue Datenmodelle erstellt werden, anhand derer Vorhersagen beispielsweise über das zukünftige Käuferverhalten oder die Entwicklung eines Geschäftsbereichs getroffen werden können.

Data Mining und Big Data

Der Begriff Big Data bezieht sich auf ein sehr großes Datenvolumen, das strukturiert, halb strukturiert und unstrukturiert sein kann. Normalerweise werden Datenmengen, die größer oder gleich 1 TB sind, als Big Data bezeichnet. Allgemein werden drei grundlegende Merkmale – Volume, Velocity und Variety – verwendet, um Daten als Big Data zu kennzeichnen. Volume beschreibt die große Datenmenge, Velocity kennzeichnet die Geschwindigkeit, mit der die Daten generiert werden und Variety ist Ausdruck für die Vielfalt der Datentypen und -quellen, die Big Data ausmachen. Wie bei der Analyse kleinerer Datensätze wird Data Mining genutzt, um nützliche Informationen aus Big Data zu gewinnen.

Mögliche Probleme im Zusammenhang mit Data Mining

Die mittels Data Mining gewonnenen Informationen sind immer nur so zuverlässig wie die zugrunde liegenden Daten. Eine schlechte Datenqualität mit bedeutungslosen Daten (noisy data), fehlenden, ungenauen oder falschen Werten oder eine unzureichende Datenmenge können zu Fehlinterpretationen der Information führen. Ebenso kann die Integration widersprüchlicher oder redundanter Daten aus verschiedenen Quellen wie Multimediadateien, Geodaten, Texten oder Social Media zu Problemen bei der Auswertung der Daten führen.

Datenschutz und Datensicherheit sind ebenfalls bekannte Problemfelder. So kann Data Mining bei Nichteinhaltung gesetzlicher Bestimmungen zu gravierenden Problemen in Bezug auf Data Governance, Datensicherheit und Datenschutz führen. Außerdem müssen Unternehmen sicherstellen, dass die Daten ihrer Kunden vor unbefugten Zugriffen durch Dritte geschützt sind. Nur so kann vermieden werden, dass Kunden aufgrund von Data Mining Schaden davontragen.