Data Analytics in der Marktforschung

Data Analytics in der Marktforschung: Terminologie und Konzepte

Data Analytics wird als eigene Disziplin zunehmend akzeptiert und weiterentwickelt. Aufgrund der konstant steigenden, verfügbaren Daten bietet sie ein enormes Potenzial für den Bereich der Marktforschung durch effiziente Auswertungsmöglichkeiten und weitreichende Analysen. Dabei liegt das Potenzial von Data Analytics für die Marktforschung zu einem Großteil in der Optimierung und Steigerung der Effektivität. Kundenprofile können beispielsweise genauer erstellt und somit präzise Prognosen für Kundenverhalten und -bedürfnisse in der Zukunft abgeleitet werden (Paperlein, 2017). Der Einsatz datenwissenschaftlicher Methoden führt zu zunehmend neuen Freiräumen, da viele zeit- und kostspielige Tätigkeiten durch Algorithmen automatisiert werden können, wie beispielsweise das Erfassen, Aufbereiten und Analysieren großer Datensätze. Marktforscher können somit ihre Ressourcen mehr für die Interpretation und Auswertung der Daten nutzen und somit effizienter Ergebnisse für ihre Kunden generieren (Gentsch, 2018).

Um Data Analytics und die damit verbundenen Möglichkeiten für die Marktforschung besser fassen und einschätzen zu können, bedarf es aber einer genauen Analyse der oftmals fälschlicherweise synonym verwendeten Konzepte, Ansätze und Methoden.

Begrifflichkeiten


Knowledge Discovery in Databases (KDD)

Um die Ursprünge der Data Analytics zu verstehen, muss man sich mit Knowledge Discovery in Databases (KDD) auseinander setzen, einem Konzept, das erstmals 1989 als Begriff auftauchte. Unter KDD versteht man den Prozess der Erkennung interessanter Informationen in Daten, die in großen Datenbanken gespeichert sind. Dabei meint interessant nicht-triviales, implizites, vorher nicht bekanntes, einfach verständliches und nützliches Wissen. Informationen sind im Rahmen von KDD als Muster, Korrelationen, Regeln oder Beziehungen in Daten zu verstehen, die Wissen vermitteln, das die Entscheidungsfindung erleichtert. Der Definitionsbestandteil Prozess impliziert dabei, dass es sich hierbei um ein Verfahren handelt, bei dem mehrere Schritte notwendig sind, die in Teilen iterativ angegangen werden (Olson, 2017). Auf einer abstrakten Ebene ist die vorrangige Aufgabe von KDD also die Entwicklung von Techniken und Methoden zur Verständnisentwicklung von Daten. Das Ausgangsproblem eines KDD-Prozesses liegt darin, dass das Datenmaterial im Rohdatenzustand zu umfangreich und für den menschlichen Intellekt nicht fassbar ist. Eine Transformation in ein kompakteres Format nimmt sich diesem Problem an. Beispiele hierfür sind die Erstellung eines Reports inklusive deskriptiver Statistiken oder die Entwicklung eines Modells zur Vorhersage einer Zielvariable, z. B. dem Umsatz für eine bestimmte Produktkategorie in Abhängigkeit von anderen Variablen.

Data Mining

In den 1990er Jahren wurden daraufhin prozessorientierte Frameworks zur Erreichung der Zielstellungen im Rahmen eines Knowledge Discovery Projekts entwickelt. Aus diesen entstanden dann im Laufe der Zeit neuere Frameworks, mit denen sich das sogenannte Data Mining als eigene Disziplin heraustat und mit ihm etablierte sich der CRISP-DM Prozess als Industriestandard. CRISP-DM steht dabei für CRoss-Industry Standard Process for Data Mining. Dieser Ansatz gehört neben dem SEMMA-Framework (Sample, Explore, Modify, Modell und Assess), zum weitest verbreiteten Ansatz eines idealtypischen Prozess-Frameworks für das Data Mining (Kotu, 2015). Data Mining kann also als konsequente Weiterentwicklung und Schärfung des KDD gesehen werden. Ziel des Data Minings ist es, Muster zu erkennen und damit Hypothesen zu generieren. In der Statistik würde man von strukturentdeckenden Verfahren sprechen. Dennoch ist die Statistik vom Data Mining strikt zu trennen.

Machine Learning

Data Mining als Forschungsfeld betrachtet ist wiederum ein Ausläufer des maschinellen Lernens (Machine Learning) und bis heute äußerst eng mit diesem verbunden. Beide Felder verschreiben sich der Analyse von Daten sowie dem Auffinden nützlicher Muster. Folglich teilen sich beide Disziplinen viele der angewandten Techniken und Algorithmen. Dies führt oftmals dazu, dass beide Begriffe synonym verwendet werden, was häufig zu Verwirrung führt. Grund hierfür ist, dass trotz aller Gemeinsamkeiten und Parallelen durchaus Unterschiede zwischen beiden Feldern bestehen. Maschinelles Lernen bezieht sich auf das Design und die Implementierung von Algorithmen, mit denen Maschinen (mit einem Fokus auf Rechner) lernen können, ohne explizit für das Lösen eines spezifischen Problems programmiert worden zu sein. Data Mining grenzt sich davon als der Prozess ab, der aus unstrukturierten Daten versucht, Wissen über unbekannte interessante Muster zu extrahieren. Während dieses Prozesses werden jedoch durchaus Machine Learning Methoden verwendet.

Dabei entstammen diese Methoden zur Generierung von Modellen aus Daten aus zahlreichen Forschungsfeldern. Zum einen wurden diese in der wissenschaftlichen Disziplin des Machine Learning entwickelt, zum anderen fand deren Entwicklung im Bereich der angewandten Statistik und Mustererkennung statt.

Im Machine Learning unterscheidet man grundsätzlich zwischen Unsupervised und Supervised Learning

Beim Supervised Learning handelt es sich um Machine Learning Algorithmen, die auf einen Datensatz angewandt werden, der ein Label oder auch eine Zielvariable aufweist. Anders ausgedrückt handelt es sich also um einen Datensatz, in dem jede Observation, z.B. eine befragte Person, eine korrekt identifizierbare Antwort zu einem definierten Untersuchungsziel aufweist. Das Supervised Learning erlaubt es nun, durch Beobachtung ein Modell zu entwickeln, mit dem man in der Lage ist, vorherzusagen, mit welcher Wahrscheinlichkeit (genauer gesagt mit welcher Konfidenz) ein noch nicht beobachtetes Sample sich klassifizieren lässt.

Ein möglicher Anwendungsfall wäre die Vorhersage, ob ein Nutzer ein Produkt kaufen bzw. eine spezielle Aktion ausführen wird, unter Zuhilfenahme von Informationen von anderen Nutzern über deren Verhalten (z. B. Kaufverhalten). In diesem Fall ist die Zielvariable kategorisch, sodass wir von einem Klassifikationsproblem sprechen. Ist die Zielvariable hingegen metrisch skaliert, also möchte man beispielsweise den Wert einer Immobile auf Grundlage gegebener Merkmale wie z.B. der Größe, Lage, des Bauzustands und des aktuellen Marktwerts vorhersagen und kennt den tatsächlichen erreichten Immobilienwert, spricht man von einem Regressionsproblem.

Im Gegensatz dazu steht das Unsupervised Learning. Bei Algorithmen dieser Art liegen keine Zielvariable vor. Es sind also kein Label und damit keine Erfahrungswerte vorhanden. Typischerweise basieren solche Algorithmen auf einer Ähnlichkeits- bzw. Distanzberechnung zwischen den unterschiedlichen Observationseinheiten. Das wohl am meisten angewandte Verfahren in diesem Kontext ist das Clustering, welches zueinander ähnliche Observationen gruppiert [Kanungo et al. 2002]. Clustering-Methoden werden z. B. dann eingesetzt, wenn man eine Probandensegmentierung erstellen möchte. Ein weiteres typisches Verfahren im Rahmen des Unsupervised Learning ist das Association Rule Mining (ARM). Es handelt sich hierbei um ein Verfahren zur Untersuchung der Eintrittswahrscheinlichkeiten von Ereignissen. So wendet man Association Rule Mining gerne im Rahmen einer Warenkorbanalyse an, um herauszufinden, welche Produkte häufig in einer Kombination gekauft werden und wie häufig und verlässlich dieser kombinierte Kauf in Bezug auf alle Käufe für einen definierten Zeitraum stattfindet.

Neuronale Netze und Deep Learning

Im Zusammenhang von Machine Learning hört man immer wieder von künstlichen Neuronalen Netzen und vom Begriff des Deep Learning, die alle drei oftmals synonym verwendet werden, was eindeutig falsch ist.

Künstliche Neuronale Netze (KNN) gehören zu den derzeit meisterwähnten Programmierparadigmen. Beim herkömmlichen Programmieransatz teilt man dem Rechner mit, was zu tun ist und zerteilt ein großes Problem in mehrere kleine, genau definierte Aufgaben, die die Maschine leicht ausführen kann. In einem künstlichen neuronalen Netzwerk dagegen sagt man dem Rechner nicht, wie dieser das Problem zu lösen hat, stattdessen lernt das Netz aus Beobachtungsdaten und findet eine eigene Lösung für das bestehende Problem. Diese Observationsdaten können aus allen möglichen Bereichen stammen: Befragungsdaten, Audio-, Bild-, Videodaten, Suchanfragen, Finanzdaten, Sensordaten, Webdaten, etc.

Mit dem Konzept des Lernens aus Beobachtung schließt sich der Kreis zu den maschinellen Lernansätzen und es wird verständlich, warum beide Begriffe häufig synonym verwendet werden.

Künstlichen Neuronale Netze (KNN) sind Netze aus künstlichen Neuronen. Ihr Konzept ist dem biologischen Bereich der Vernetzung von Nervensystemen von Lebewesen entlehnt. KNN bestehen im Prinzip aus drei unterschiedlichen Arten künstlicher Neuronenschichten: der Input-Schicht, welche Signale von außen bekommt (dies sind die oben genannten Inputdaten, anhand derer ein Zusammenhang erlernt werden soll), dann einer Hidden-Schicht, die eine interne Repräsentation der Inputdaten beinhaltet und einer Outputschicht, welche die verarbeiteten Daten an die Außenwelt wieder abgeben [Kruse et al., 2013]. Die Art und Weise, wie die Schichten aufgebaut und miteinander vernetzt sind, und die Art und Weise, wie Daten zwischen ihnen im Hinblick auf das zu lösende Problem verarbeitet werden, ist eine Wissenschaft für sich. Somit haben sich im Laufe der Zeit unterschiedliche Netztypen für unterschiedliche Problemstellungen herauskristallisiert. So werden Bildklassifikationen gerne mit den sogenannten Faltungsnetzen (CNN = Convolutional Neural Networks) angegangen, Zeitreihenanalysen und dabei insbesondere Forcasts mittels Regression werden in Rekurrenten Netzen (RNN=Recurrent Neural Networks) und hier ganz besonders mit dem Spezialfall Long Short-Term Memory Recurrent Neural Network (LSTM RNN) gelöst. Diese speziellen Neuronalen Netze fallen konzeptionell schon in den Bereich des sogenannten Deep Learning. Deep Learning ist also nicht synonym mit KNN zu verwenden, sondern umfasst ein Set von Optimierungsmethoden mit denen KNNs besser an die einzelnen Anwendungsfälle und deren Lösung angepasst werden können [Schmidhuber, 2015].

Künstliche Intelligenz

Zurück zum Machine Learning. Machine Learning als Forschungsfeld betrachtet entstammt wiederum dem übergeordneten Bereich der künstlichen Intelligenz. Das Gebiet der künstlichen Intelligenz ist primär damit beschäftigt, das Wissen bzw. die Performance eines intelligenten Agenten über die Zeit sowie mit zunehmender Erfahrung des Agenten zu verbessern. Ein möglicher Weg, dieses Ziel zu erreichen, ist, mit Hilfe von Datenanalyse aus dem Umgebungsfeld des Agenten, Vorhersagen über unbekannte Ereignisse zu treffen. Hier greift nun die Disziplin des Machine Learning im Kontext der künstlichen Intelligenz. Insgesamt haben Machine Learning Algorithmen zur Lösung von Problemen der künstlichen Intelligenz rapide an Bedeutung gewonnen. Durch die Weiterentwicklung derartiger Algorithmen sind so die Grenzen zur angewandten Statistik und Mustererkennung sowie verwandter Disziplinen immer undeutlicher geworden. Das führt oftmals zu einem Wirrwarr aus synonym verwendeten unterschiedlichen Konzepten und Disziplinen (Provost, Fawcett 2013). Dies wird insbesondere bei der Beschreibung und Benennung von Tätigkeitsprofilen für Data Analysts im Allgemeinen sowie in der Marktforschung im Speziellen deutlich.


Quellen

Gentsch, Peter (2018): Künstliche Intelligenz für Sales, Marketing und Service: Mit AI und Bots zu einem Algorithmic Business: Konzepte, Technologien und Best Practices. Wiesbaden: Springer Fachmedien Wiesbaden GmbH

Kanungo, T., Mount, D. M., Netanyahu, N. S., Piatko, C. D., Silverman, R., Wu, A. Y., Member, S. and Member, S. (2002), ‘An efficient k-means clustering algorithm: Analysis and implementation’, IEEE Transactions on Pattern Analysis and Machine Intelligence24, 881–892

Kotu, Vijay (2015): Predictive analytics and data mining. Concepts and practice with RapidMiner. Waltham, MA: Morgan Kaufmann. Online verfügbar unter http://proquest.tech.safaribooksonline.de/9780128014608

Kruse, Rudolf; Borgelt, Christian; Klawonn, Frank; Moewes, Christian; Steinbrecher, Matthias; Held, Pascal (2013): Computational Intelligence: A Methodological Introduction. Springer Publishing Company, Incorporated

Olson, David L. (2017): Descriptive Data Mining. Singapore, s.l.: Springer Singapore (Computational Risk Management). Online verfügbar unter http://dx.doi.org/10.1007/978-981-10-3340-7.

Paperlein, Juliane (2017): Chat Bots verändern die Kommunikation. planung&analyse, 2017.Unter https://www.horizont.net/planung-analyse/nachrichten/Chat-Bots-veraendern-die-Kommunikation-152384 [Stand: 23.04.2019].

Provost, Foster; Fawcett, Tom (2013): Data science for business. What you need to know about data mining and data-analytic thinking. 1st ed. Sebastopol, CA: O’Reilly Media.

Schmidhuber, Jürgen (2015): Deep learning in neural networks: An overview. In: Neural Networks. 61, S. 85

Prof. Dr. Gernot Heisenberg

Professur für Information Research and Data Analytics. Studium der theoretischen Physik an der RWTH Aachen und Promotion in Informatik. Langjährige Teamleitertätigkeit am Fraunhofer Competence Center for Virtual Environments. Gründung, Aufbau und erfolgreicher Verkauf seiner Firma für numerische Simulationssoftware. 2013 Vertretungsprofessor in Sankt Augustin, 2014 bis 2016 ordentliche Professur in Wiesbaden und seit 2016 ordentliche Professur an der Technischen Hochschule Köln. Seine Forschungs- und Lehrschwerpunkte umfassen Advanced Data Analytics sowie Advertising Research.

Weitere Informationen und alle Beiträge

Prof. Dr. Heisenberg bietet Consulting rund um die Themen Advanced Data Analytics und Advertising Research an: www.gernotheisenberg.de
Prof. Dr. Gernot Heisenberg

Wissen