Data Crunching

Der Begriff Data Crunching, im Deutschen sinngemäß übersetzt als Datenverarbeitung, beschreibt eine Methode der Informationswissenschaft, die sich mit der automatisierten Verarbeitung von großen Datenmengen befasst. Oft wird der Begriff nicht sauber von Data Munging und Data Wrangling getrennt. Data Munging und Data Wrangling stellen allerdings manuelle beziehungsweise halbautomatische Verarbeitung der Daten ins Zentrum, dadurch unterscheiden sie sich vom Data Crunching.

Data Crunching bereitet das System oder die Anwendung vor, modelliert sie. Daten werden aufbereitet, sortiert und strukturiert, sodass auf Basis dieser Daten Algorithmen und Programme ausgeführt werden können. Das Ergebnis sind sogenannte Crunched Data, also Daten, die schon in ein System importiert und dort verarbeitet wurden.

Ziel von Data Crunching ist Erkenntnis

Data Crunching wird beispielsweise im Bereich BI genutzt, um auf der Grundlage der erhobenen und verarbeiteten Datenmengen Entscheidungen zu treffen. Sowohl in der Medizin als auch in der Physik, der Chemie, der Biologie und im Finanzwesen spielt Data Crunching eine wichtige Rolle. Auch in der Kriminalistik und in der Webanalyse findet es Anwendung. Die eingesetzten Programmiersprachen und Tools unterscheiden sich je nach Einsatzgebiet und Zusammenhang. Heute findet man meist die Programmiersprachen Java, Python und Ruby. Früher waren Excel, Batch und Shell Programmierungen häufiger.

Abgrenzung zu anderen Begriffen

Während es beim Data Mining um neue und noch unbekannte Zusammenhänge geht, die den Daten entnommen werden sollen, in der Data Science alle Arbeitsschritte von der Erhebung bis hin zur Visualisierung bedient werden, befasst sich Data Crunching nicht mit der explorativen Analyse oder der Visualisierung von Daten. Dafür gibt es andere Programme, die speziell auf diese Bereiche hin zugeschnitten sind. Data Crunching befasst sich mit der korrekten Verarbeitung von Datensätzen und -formaten, sodass ein bestehendes System die Daten aus unterschiedlichen Quellen auch tatsächlich nutzen kann. Damit handelt es sich also um einen der Datenanalyse (Data Analytics) vorgeschalteten Prozess. Der Output der Datenverarbeitung besteht wiederum aus Daten. Dadurch lassen sich Programmabläufe auch wiederholen. Am Ende des Data Crunching muss ein akkurater und korrekter Datensatz stehen, der weiterverarbeitet werden kann. Dieser Datensatz wird importiert und der eigentlichen Datenanalyse zugeführt. Es dürfen keine Fehler oder Bugs enthalten sein, sonst muss der Prozess wiederholt werden.

Data Crunching vor allem im Online Marketing häufig genutzt

Im Webdesign und Webanalyse sowie im Online Marketing trifft man immer wieder auf Problemstellungen, die sich durch die Datenverarbeitung (oder eher -aufarbeitung) lösen lassen. Onlineshops sind daher auf kompetente Menschen angewiesen, die die Tools der Datenvorbereitung und -verarbeitung bedienen können. Insbesondere im Zusammenhang von Big Data ist die Verarbeitung von Daten in unterschiedlichen Formaten und aus ganz verschiedenen Quellen wichtig: Data Crunching spart durch die fachgerechte Aufarbeitung der Datensätze viel Zeit. Es sind in erster Linie Datenwissenschaftler, also Data Scientists, die sich mit der Verarbeitung und Vorbereitung der Daten beschäftigen. Cruncher kommen häufig aus den Gebieten Informatik, es können Programmierer sein, aber auch BWLer, Spezialisten für Marketing und Handel. Data Crunching wird im Rahmen des Masterstudiengangs Big Data & Business Analytics gelehrt, kann aber auch als Weiterbildung oder Spezialisierung neben dem Beruf erlernt werden. Zuständig sind Hochschulen, Universitäten und Weiterbildungsinstitute.

DataAnalyst.eu

Das Angebot von DataAnalyst.eu richtet sich an Jobsuchende im Bereich Data Science und Unternehmen, die auf der Suche nach Data-Analysten sind.

In unserem Lexikon und Data-Science-Blog bündeln wir für Sie außerdem Informationen rund um Begrifflichkeiten, Berufsfeld, Karriere und Trends.
DataAnalyst.eu
« Back to Glossary Index