Data Mining


Unter Data-Mining [ˈdeɪtə ˈmaɪnɪŋ] (englisch für Daten-Bergbau, eine Metapher für einen scheinbar wertlosen Datenberg, in dem aufwändig nach neuem Wissen „gegraben“ werden soll) versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände (insbesondere “Big Data” bzw. Massendaten) mit dem Ziel, neue Querverbindungen und Trends zu erkennen. Solche Datenbestände können aufgrund ihrer Größe nicht manuell verarbeitet werden, sodass man computergestützte Methoden benötigt. Die Methoden können aber auch auf kleinere Datenmengen angewendet werden. In der Praxis wurde der Unterbegriff Data-Mining auf den gesamten Prozess der sogenannten „Knowledge Discovery in Databases“ (Wissensentdeckung in Datenbanken; KDD) übertragen, der auch Schritte wie die Vorverarbeitung beinhaltet, während Data-Mining eigentlich nur den Analyseschritt des Prozesses bezeichnet.[1] Die Bezeichnung Data-Mining ist etwas irreführend, denn es geht um die Gewinnung von Wissen aus den Daten und nicht um die Generierung von Daten selbst.[2] Der Begriff hat sich dennoch durchgesetzt, da er kurz und prägnant ist. Die reine Erfassung, Speicherung und Verarbeitung von großen Datenmengen wird gelegentlich fälschlicherweise auch mit dem Buzzword Data-Mining bezeichnet. Korrekt verwendet bezeichnet es die Extraktion von Wissen, das „gültig (im statistischen Sinne), bisher unbekannt und potentiell nützlich“[3] ist „zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge“.[4] Fayyad definiert es als „ein Schritt des KDD-Prozesses, der darin besteht, Datenanalyse- und Entdeckungsalgorithmen anzuwenden, die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern (oder Modellen) der Daten liefern“.[1] Quelle: Wikipedia