Kabelstrang in blauem Licht
(Bild: vjgalaxy - Pixabay)

Die fünf größten Irrtümer von Data-Science-Newbies – warum Dich Kaggle und Coursera alleine noch lange nicht zu einem erfolgreichen Data Scientist machen

Du hast dich eigentlich gut vorbereitet, um endlich Data Scientist zu sein, indem Du an Kaggle-Wettbewerben teilgenommen und Dir Coursera-Vorträge angesehen hast. Fünf Gründe warum die Arbeit als echter Data Scientist sich von dem unterscheiden könnte, was Du nun erwartest.

Gemäß Artikel des Harvard Business Reviews ist Data Scientist der reizvollste Beruf des 21. Jahrhunderts. Zunehmend interessieren sich ausgebildete Akademiker, vor allen Dingen Statistiker, Mathematiker, Ingenieure oder Informatiker für „the sexiest Job of the 21st Century“. Während der Ausbildung lernen angehende Data Scientists, dass Code zu schreiben die grundlegendste Fähigkeit ist. Doch um ein erfolgreicher Data Scientist zu sein, ist man bestenfalls eine Mischung aus Data Hacker, Analyst, Domänenexperte, Kommunikationstalent und Trusted Advisor. Diese Kombination ist sehr stark, doch nur sehr selten vertreten – vor allen Dingen bei Berufseinsteigern.

Im Folgenden die größten Irrtümer von Data-Science-Newbies, welche Dir dabei helfen sollen, Dich besser auf die Arbeit als Data Scientist vorzubereiten.

1. Der Kaggle Award

Leidenschaftliche Data Scientists und Data-Scientist-Wannabes nehmen Kaggle-Herausforderungen an und haben dort ihre Data-Science-Fähigkeiten unter Beweis gestellt, was in vielerlei Hinsicht hilfreich ist. Daten in Kaggle-Projekten sind jedoch oft perfekt bereinigt, so dass man seine Zeit in die Modelloptimierung investieren kann. Das ist allerdings in der realen Arbeitswelt nicht der Fall. Vielmehr ist es erst einmal ein Zusammenstellen von Daten aus verschiedensten Quellen, mit unterschiedlichen Datenformaten und Namenskonventionen – sofern die richtigen Daten zur Lösung des Problems vorhanden bzw. verfügbar sind.

2016 berichtete das Wirtschaftsmagazin Forbes über eine Umfrage von CrowdFlower, in der 80 Data Scientists zu ihrer Tätigkeit befragt wurden.  Diese ergab, dass Data Scientists 60 Prozent ihrer Zeit mit der Bereinigung von Daten verbringen, während weitere 19 Prozent sich mit der Erfassung und Verwaltung von Datensätzen befassen. Mit anderen Worten, die Datenerfassung und -aufbereitung nimmt fast 80 Prozent der Arbeitszeit in Anspruch. Hinzu kommen noch Recherche, das Erlangen des Domänenverständnisses sowie die Ergebnisaufbereitung bzw. Visualisierung und Kommunikation mit Product Ownern, Kunden und Kollegen.

So solltest Du dich als angehender Data Scientist also der interessanten Arbeit annehmen und die Fertigkeiten üben, welche 80 Prozent deiner Zeit in Anspruch nehmen werden. Dazu können Bilder, Sensordaten über APIs oder Texte über entsprechende Crawler gesammelt werden und im Anschluss zur Lösung eines bestimmten Problems entsprechend aufbereitet werden. Auf diese Weise entwickelt sich ein Fundus an geeigneten Datenaufbereitungsmethoden und -erfahrungen, welche im beruflichen Umfeld einen sofortigen Mehrwert für Deine Projekte darstellen.

2. Machine Learning als Produkt

Machine Learning hat gerade in der letzten Dekade einen enormen Hype erlebt und mitunter sogar erlitten. Viele Start-ups versprechen, dass Machine Learning die Lösung für nahezu jedes bestehende Problemsei.

Kein Unternehmen macht jedoch Machine Learning zum Selbstzweck. Somit sollte Machine Learning selbst nie das Produkt sein. Machine Learning ist ein leistungsstarkes Werkzeug, um ein Produkt zu entwickeln, das den Kundenanforderungen entspricht. Wenn der Kunde von genauen Artikelempfehlungen profitiert, kann maschinelles Lernen helfen. Wenn ein Kunde die Notwendigkeit hat, Objekte in einem Bild genau zu identifizieren, kann maschinelles Lernen helfen. Wenn das Unternehmen davon profitiert, seinen Kunden wertvolle Anzeigen zu präsentieren, kann maschinelles Lernen ebenfalls helfen.

Die ultimative Mission für uns Datenwissenschaftler ist es, ein Geschäftsproblem zu lösen und nicht nur Daten zu analysieren oder ein großartiges Modell zu erstellen. So ist der heilige Gral der Datenanalyse, die richtigen Geschäftsfragen zu formulieren und eine Reihe von Schritten zu entwickeln, um diese zu lösen. So dient die reine Entwicklung eines fancy Algorithmus nicht dem Geschäftszweck. Sondern es ist unbedingt notwendig, die analytische Logik in die entsprechenden Prozesse einzubinden. Dazu gehört die Konzeption und Entwicklung einer Benutzerschnittstelle, Architektur- und Domänenwissen zur Integration in vorhandene IT- und Prozesslandschaften sowie das Verständnis für Rechte- und Rollenmodelle, als auch die Arbeitsweise der betroffenen Abteilungen.

Als Data Scientist musst Du ein Projekt mit dem Ziel des Kunden als oberste Priorität planen. Nur dann bewertest Du, ob maschinelles Lernen helfen kann. Oftmals entscheidet die Verfügbarkeit bzw. Menge an Daten, ob maschinelles Lernen eine Lösung sein kann. Es wird erst dann Potenzial ausgeschöpft, wenn das entwickelte Modell in Prozesse eingebettet ist und im Tagesgeschäft genutzt wird.

3. Neuronale Netze als Allheilmittel

Deep Learning Modelle sind anderen Modellen in den Bereichen Computer Vision oder Natural Language Processing überlegen. Sie haben aber auch deutliche Nachteile. Neuronale Netze sind sehr datenintensiv. Mit kleinerer Stichprobe erzielen Entscheidungsbäume oder logistische Regressionsmodelle bessere Ergebnisse. Zudem stellen Neuronale Netze auch eine Art von „Blackbox“ dar. Sie sind schwerer zu interpretieren und zu erklären. Wenn somit Kunden oder das Management beginnen, die Ausgabe des Modells in Frage zu stellen, sollte man als Data Scientist in der Lage sein, das Modell anschaulich zu erklären. Dies ist bei traditionellen Modellen einfacher und nachvollziehbarer. Kunden nutzen ein Modell nur dann, wenn sie Vertrauen in das Modell geschöpft haben. Vertrauen gewinnen wir nur dann, wenn wir Modelle und Ergebnisse nachvollziehbar darstellen können.

Es existieren viele statistische Lernmodelle, als Alternative zu Machine Learning Modellen, welche Du als angehender Data Scientist ebenfalls kennen solltest. Ebenso gehört zu deinem Portfolio das Wissen über die jeweiligen Vor- und Nachteile der Modelle als auch die Einschränkungen des vorliegenden Anwendungsfalles. Abgesehen von Bereichen des maschinellen Sehens oder der Verarbeitung der natürlichen Sprache, sind oft die einfacheren Modelle, wie eine logistische Regression, diejenigen mit der besten Ergebnisqualität.

Neben der Abwägung, welches Modell das geeignetste sein mag, gehört zu einem guten Data Scientist auch die kontinuierliche Reflektion dazu, bspw. „Baue ich das, weil es für mein Team und mein Unternehmen hilfreich sein wird oder weil es ein cooler Anwendungsfall für einen Algorithmus ist, den ich persönlich sehr mag“; oder „Welche wichtige Geschäftsmetrik versuche ich zu optimieren und gibt es einen besseren Weg das zu tun?“. Jedes Data-Science-Projekt sollte mit einer Problem- oder Fragestellung beginnen. Ein kontinuierlicher Abgleich mit dem Ziel des Data-Science-Projektes hilft festzustellen, wie sehr einem die Datenanalyse bereits geholfen hat die eigentlichen Aufgabenstellung zu lösen oder eine Korrektur der Vorgehensweise vorzunehmen ist.

4. Zusammenhänge sind auch kausal

Das Datenuniversum verdoppelt sich alle zwei Jahre und steigt somit exponentiell an. Bei der kontinuierlich steigenden Menge an analysierbaren Daten steigen die Chancen, dass Zusammenhänge durch Lernmodelle entdeckt werden. Die Frage ist jedoch, ob diese Zusammenhänge zufälliger Natur (korreliert) sind oder sich tatsächlich gegenseitig beeinflussen (kausal).

Statistik zur Korrelation zwischen Margarinekonsum und Scheidungsfällen im US-Bundesstaat Maine

Abbildung 1: Korrelation versus Kausalität (Quelle: http://www.tylervigen.com/spurious-correlations)

Das obere Bild zeigt zum einen die Scheidungsrate in Maine (ein Bundesstaat in den USA) und zum anderen den Konsum von Margarine. Angesichts dieser Daten wird ein Lernalgorithmus das Muster lernen, dass die Scheidungsrate in Main den Margarinekonsum beeinflusst und umgekehrt. Beide Datenpunkte sind jedoch praktisch unabhängig voneinander und beide Variablen haben absolut keine Vorhersagekraft gegenüber der anderen Variable.

Wenn also Muster in Daten identifiziert werden, sollten diese mit dem entsprechenden Domänenwissen validiert und interpretiert werden. So sind ein gutes Domänenwissen und Prozessverständnis relevante Faktoren, um zwischen Korrelationen und Kausalitäten unterscheiden zu können, und somit Daten richtig interpretieren zu können. Das ist die Grundlage, um effektive und effiziente Maßnahmen aus Datenanalyseergebnissen ableiten zu können. Folgendermaßen ist es als Data Scientist in einer für Dich neuen Domäne empfehlenswert, Analyseergebnisse mit Fachexperten zu besprechen und Modelle fachlich zu validieren, bevor entsprechende Empfehlungen auf Basis der Analyseergebnisse ausgesprochen werden.

5. Data Science spricht jeder, vor allen Dingen das Management

Das Management versteht, welche Produkte sich gut verkaufen oder welche Kunden zu einem Wettbewerber gehen und warum. Sie haben jedoch keine Ahnung und interessieren sich nicht dafür, was Precision, Recall oder die ROC-Kurve ist, geschweige denn, wie schwer es für Dich war, eine Überanpassung des Modells zu vermeiden.

Willst du Dein Projekt jedoch fortführen, ist es unbedingt erforderlich, das Management und andere Interessensgruppen davon zu überzeugen, das Projekt zu sponsoren. Dein Projekt wird gefördert, sobald den Stakeholdern der Nutzen deines Projektes für die Unternehmensziele bekannt ist und sie nachvollziehen können, was es an Aufwand, Zeit und Budget bedeutet. Aus diesem Grund ist die Fähigkeit, Ergebnisse zielgruppenorientiert zu kommunizieren, eine Schlüsselfertigkeit. Das bedeutet, Du bereitest technische Ergebnisse so auf, dass sie ein nicht-technisches Publikum einfach konsumieren kann.

Somit herrscht die Notwendigkeit vor, dass Du als Data Scientist in einer Sprache kommunizierst, die alle deine Stakeholder verstehen, sowie die besondere Fähigkeit des Storytellings mit Daten und Datenergebnissen zu demonstrieren – sei es verbal, visuell oder idealerweise beides.Berufsneueinsteiger im Bereich Data Science bieten Unternehmen einen enormen Mehrwert. Sie konsumieren zahlreiche Online-Kurse, sind in der Regel sehr nahe an der Wissenschaft und können sofort Hilfe leisten. Sie besitzen oftmals eine autodidaktische Veranlagung, da bislang nur wenige Universitäten Data Science Studiengänge anbieten und somit ein enormes Engagement und Neugierde notwendig ist, um in diesem Bereich fit zu werden.

Wenn du Dir als Berufseinsteiger den fünf genannten Herausforderungen bewusst bist bzw. Dich entsprechend darauf vorbereitest, bist Du bereit für eine erfolgreiche Karriere als Data Scientist.

Hierfür die wichtigsten Hinweise nochmals zusammengefasst:

  1. Arbeite nicht nur mit perfekten Datensätzen, trainiere die Datenvorverarbeitung mit echten Daten.
  2. Jedem Data-Science-Projekt sollte ein Geschäftszweck gegenüberstehen; Es werden erst dann Potenziale ausgeschöpft, wenn Machine-Learning-Modelle in die Geschäftsprozesse integriert sind und im Tagesgeschäft genutzt werden.
  3. Leite das geeignete Modell/Verfahren anhand des vorliegenden Geschäftsproblems und den entsprechenden Rahmenbedingungen ab.
  4. Ziehe Fachexperten zur Interpretation der Ergebnisse hinzu, sofern Du (noch) nicht über das entsprechende Domänenwissen verfügst.
  5. Kommuniziere zielgruppenorientiert und bereite deine Analyseergebnisse nicht-technisch auf; halte dabei stets das übergeordnete Ziel des Unternehmens (gemäß Strategie o.ä.) im Blick.

Vanessa Viellieber, MHP - A Porsche Company

Senior Data Scientist bei MHP - A Porsche Company
Vanessa Viellieber ist Senior Data Scientist bei MHP - A Porsche Company. Sie studierte Wirtschaftsingenieurwesen und Informationswirtschaft am Karlsruher Institut für Technologie (KIT). Als Doktorandin forscht sie am Institut für Statistik an der Ludwig-Maximilian-Universität (LMU) in München. Ihr beruflicher als auch ihr Forschungsschwerpunkt liegt im Bereich der Analyse von unstrukturierten Daten, dem Natural Language Processing. Dabei bedient sie sich linguistischen, statistischen, mathematischen sowie Deep Learning Verfahren, um Fragestellungen aus der Forschung und der Industrie zu beantworten. Bei MHP ist sie im Bereich Data Science & AI für das Business Development des Natural Language Processings verantwortlich. Sie leitet Data Science Projekte, von Use Case Entwicklungen, Proof of Concepts bis hin zu Implementierungen auf Kundenseite.
Vanessa Viellieber, MHP - A Porsche Company

Karriere, Diskussion

2 Kommentare zu “Die fünf größten Irrtümer von Data-Science-Newbies – warum Dich Kaggle und Coursera alleine noch lange nicht zu einem erfolgreichen Data Scientist machen

  1. Avatar
    natacha dagneaud am Antworten

    Sehr hilfreich und sehr wahr: Daten müssen zunächst bereinigt werden. Denn „shit in – shit out“… und das ist eine Kernkompetenz.
    Und Danke für den wunderbaren Einblick in die „fetten“ Probleme von amerikanischen Beziehungen, um noch einmal Korrelation und Kausalität zu veranschaulichen.

Schreibe einen Kommentar