Wie viele Menschen leben in Berlin? Welche Quelle ist die richtige?
Ein Anliegen, aber mehrere Zahlen in der amtlichen Statistik. Kann das sein? Ja. Und alle Zahlen sind korrekt. Wir klären auf....
Die Verdiensterhebung spielt eine wichtige Rolle für die Beurteilung zentraler wirtschaftspolitischer Ziele wie „Preisstabilität“ und „internationale Wettbewerbsfähigkeit“. Die bisher durchgeführte Vierteljährliche Verdiensterhebung fand mit der Erhebung des 4. Quartals 2021 letztmalig statt und wird nun durch ein neues Verfahren ersetzt. Darüber sprechen wir mit Katja Kirchner, Leiterin des Referats „Preise, Verdienste, Arbeitskosten“ im Amt für Statistik Berlin-Brandenburg.
Mit der Einführung des Mindestlohns stieg der Bedarf an Strukturdaten. Die Mindestlohnkommission und die Bundesvereinigung der Deutschen Arbeitgeberverbände e. V. forderten eine verbesserte Datengrundlage zur Evaluation des Mindestlohns. Und auch die Gleichstellungs- und Frauenministerkonferenz wünschte sich schon seit Längerem jährliche Analysen zum (un)bereinigten Gender Pay Gap. Dem trägt der Statistische Verbund mit der Entwicklung dieser neuen digitalen Verdiensterhebung Rechnung.
Seit 15 Jahren wurde im Statistischen Verbund in jedem Quartal die Vierteljährliche Verdiensterhebung durchgeführt, bei der rund 40 000 Datensätze erfasst wurden. Zusätzlich fand alle vier Jahre die Verdienststrukturerhebung statt, in der etwa 1 Millionen Datensätze in der reinen Erhebungszeit von einem Jahr erhoben wurden. Zusätzlich kamen freiwillige Verdiensterhebungen in den Jahren zwischen den Strukturerhebungen hinzu.
Die neue digitale Verdiensterhebung ist stark angelehnt an die Verdienststrukturerhebung und verknüpft die bisherigen drei Verdiensterhebungen miteinander. Der Erhebungszeitraum wurde von einem Jahr auf einen Monat verkürzt und die Anzahl der Einzeldatensätze in Gesamtdeutschland von 1 auf 7 Millionen erhöht. Für Berlin und Brandenburg sind das rund 740 000 Datensätze pro Monat.
Der Prozess gliedert sich in drei Bereiche. In der Vor-Plausibilisierung wird geprüft, ob die Anzahl der Datensätze der sozialversicherungspflichtig Beschäftigten mit den geforderten Größenordnungen übereinstimmen, ob starke Abweichungen zu den Werten des Vormonats existieren oder weitere Auffälligkeiten vorhanden sind. Diese Prüfung erfolgt wie bisher durch die Mitarbeitenden, die bei Bedarf Kontakt zu den Meldenden aufnehmen.
Sind die Fehler in der Vor-Plausibilisierung bereinigt, wird der Datensatz der Haupt-Plausibilisierung zur Verfügung gestellt. Eine manuelle Plausibilisierung der Daten ist in Anbetracht der Größenordnung der Datensätze nicht mehr möglich, sodass eine Künstliche Intelligenz (KI), hier insbesondere das maschinelle Lernen, zum Einsatz kommt. Dabei handelt es sich um eine k-Nearest-Neighbour-Imputation, das heißt, wenn ein Wert unbekannt ist, sucht sich die KI einen Datensatz, der dem fehlenden am ähnlichsten ist, ersetzt den Wert und sucht weiter, ob es einen noch besseren Treffer gibt. Falls ja, ersetzt sie den Wert erneut.
Im Rahmen der Nach-Plausibilisierung werden manuell durch unsere Beschäftigten besondere Auffälligkeiten in den Datensätzen geprüft.
Vielen Dank für das Gespräch.
Verdienste/Preise
Verdienste/Preise
Fachredaktion
Fachredaktion
Ein Anliegen, aber mehrere Zahlen in der amtlichen Statistik. Kann das sein? Ja. Und alle Zahlen sind korrekt. Wir klären auf....
Der Zensus 2022 bedeutet für fast alle Kommunen eine neue amtliche Einwohnerzahl. Wir erklären.
Wir werfen einen Blick auf 12 zentrale Entwicklungen in der amtlichen Statistik, die das Jahr 2024 geprägt haben....