Stratifikation

Das Wort Stratifikation wird aus dem Lateinischen stratum abgeleitet. Stratum bezeichnet eine Schicht von etwas. Die Stratifikation ist also die Schichtung von Dingen oder Informationen. In der Datenwissenschaft geht es logischerweise nicht um die Schichtung von verschiedenen Mineralien (Geologie), sondern um Daten. Dabei wird die Grundgesamtheit in einzelne Primäreinheiten (Schichten) zerlegt, um sie in kleinere homogene Einheiten einzuteilen. Stratifikation ist also der Prozess, der sicherstellt, dass kleinere verwendete Teilmengen an Daten repräsentativ für den kompletten Datensatz sind.

Stratifikation und Zufallsstichprobe

Das erreicht man durch das Ziehen von einer geschichteten Zufallsstichprobe. Die Zufallsstichprobe wird in mehreren Schritten erreicht. Zuerst wird die Gesamtmenge der zur Verfügung stehenden Daten in sinnvolle Gruppen eingeteilt (Stratifikation). Das kann nach verschiedenen sinnvoll erscheinenden Parametern geschehen. Für die Stichprobe werden nun aus jeder Schicht Daten gezogen. Die zufällige Auswahl der Elemente der Stichprobe wird eingeschränkt, denn die Umfänge der Stichprobe pro Schicht werden vorgegeben. Nach diesen vorher festgelegten Regeln werden aus jeder der angelegten Schichten Zufallsstichproben gezogen.

Der Vorteil: Es wird sichergestellt, dass einzelne Teile der Grundgesamtheit nicht stark unter- bzw. überrepräsentiert sind. Wichtig ist für die am Ende erhaltenen Daten die Art der Schichtung, die Schichtungsmerkmale müssen entsprechend gewählt werden.

Probleme bei der Stratifikation

Ganz so einfach wie es klingt, ist es am Ende nicht: Die Problematik besteht in der Anzahl der Schichten sowie der Festlegung der Schichtabgrenzung. Um diese Probleme zu lösen, werden in der Regel Vorabinformationen über die Grundgesamtheit einbezogen. Diese Informationen stammen beispielsweise aus Statistiken oder aus schon zuvor vorgenommenen Untersuchungen. Die Stratifikationsproblematik kann mit dem Stratifikationsmodell nach Dalenius gelöst werden. Auch die equal Aggregate sigma-Regel bietet die Möglichkeit einer Näherungslösung.

Wichtig im Training von KI

Stratifikation ist in der Datenwissenschaft in vielen Gebieten wichtig, wird im medizinischen Bereich genauso genutzt wie auch beispielsweise für wirtschaftliche Fragestellungen. Besonders wichtig ist sie aber, wenn es um Daten geht, die im Training von KI verwendet werden.

DataAnalyst.eu

Das Angebot von DataAnalyst.eu richtet sich an Jobsuchende im Bereich Data Science und Unternehmen, die auf der Suche nach Data-Analysten sind.

In unserem Lexikon und Data-Science-Blog bündeln wir für Sie außerdem Informationen rund um Begrifflichkeiten, Berufsfeld, Karriere und Trends.
DataAnalyst.eu
« Back to Glossary Index