Data-Quality-Management: So verwalten Sie Ihre Daten!

Veröffentlicht am 2. April 2012 in der Kategorie IT & Technik von

Wie gut, dass niemand weiß, wo in meinen Daten die Informationen versteckt sind. Na ja, Spaß beiseite. Im Grunde handelt es sich um ein Ärgernis, das in allen Unternehmen von klein bis groß anzutreffen ist. Mitarbeiter kämpfen sich durch gigantische Ordnerstrukturen und verstecken dort ihre Daten. Zwar sind natürlich (fast) alle Unternehmen in irgendeiner Weise zertifiziert, auch die Informationsstrukturen sind im Grunde definiert (Stichwort ISO9000soundsoviel). Aber: Theorie ist ISO, Praxis ist Excel.

Der Klassiker: Auswertungsdaten werden in Excel-Arbeitsmappen nach Jahren, je bestehend aus 12 Tabellenblättern (von Januar bis Dezember) auseinandergerissen. War das noch zu XLS-Zeiten zweckmäßig, ist das seit XLSX nicht mehr begründbar. In XLS-Dateien konnten lediglich 65.536 Zeilen abgebildet werden, in der XLSX-Variante 1.048.576, das ist immerhin 16 mal so viel. Aber man gewöhnt sich an das Verfahren. Dabei wäre es kein großer Aufwand, die Daten (auch jahresübergreifend) zusammenzufassen. Auch die Mächtigkeit des immerhin kostenlosen Add-Ins Powerpivot (ab V.2010) hat sich in den Unternehmen noch nicht herumgesprochen.

Oder: Es werden Duplikate und erhebliche Redundanzen mit nennenswerten Anomalien geführt; Motto: “In meiner Kundentabelle wohnt Firma XYZ in Heidelberg und nicht in Stuttgart” bzw. “Hinter der Artikelnummer 4711 befindet sich die ABC-Membran und nicht die XYZ-Dichtung″. Sind die Daten schlecht gepflegt, drohen falsche Abrechnungen und Auswertungen. Überhaupt besteht bei Auswertungen meiner Erfahrung nach eine erstaunliche “Gläubigkeit” an die Korrektheit der Datenbasis.

Schlechte Datenqualität führt zu Einbußen

Die Datenqualität leidet erheblich, die Informationen “verdschungeln” sukzessiv, die Zusammenführung ist oft sehr problematisch. Laut Computerwoche (data-expert-lounge) büßen Unternehmen bis zu 25 Prozent ihres operativen Gewinns in Folge schlechter Datenqualität (DQ) ein. Laut Forrester-Umfrage Trends In Data Quality And Business Process Alignment unter großen US-Unternehmen ist 18 Prozent der befragten Unternehmen das Zusammenspiel von Business Process Management (BPM) und Datenqualität nicht bewusst. Es handelt sich eben nicht um ein nice-to-have-Thema (wird aber teils noch immer so gesehen).

Unter Business-Intelligence (BI) stellt man in der Regel hochgezüchtete Softwaresysteme vor, aber auch das muss nicht unbedingt sein, denn wie lautet das Ziel von BI und KPI? Ganz einfach: Es geht um die Ermittlung von Kennzahlen. Es ist nicht immer zwingend erforderlich, eine hochkomplexe Software zu entwickeln oder zu erwerben, mit der man zum Mond reisen könnte.

In wenigen Schritten zur Lösung

  • zuallererst: Eine Daten-SICHTUNG (welche Daten liegen in meinem Unternehmen überhaupt vor), Prüfung nach Relevanz und Aktualität (gute Daten / schlechte Daten),
  • die Bereinigung der Daten (Duplikate raus und überprüfen auf Korrektheit, ggf. vervollständigen der Daten - Stichwort “Datenhygiene”),
  • die Zusammenführung wesentlicher Daten unter einheitlichen Strukturen,
  • die klare Trennung von Stammdaten und Bewegungsdaten,
  • eine klare Ablagedefinition der Daten,
  • die eindeutige Kennzeichnung von Sicherungen und
  • eine klare Zuständigkeitsdefinition – wer darf was ändern/anfügen/löschen und trägt somit die Verantwortung für Korrektheit und Aktualität der Daten sowie
  • die Ermöglichung von Daten-Verknüpfungen

würden bereits eine erhebliche Erleichterung darstellen. Natürlich macht sich das alles nicht von selbst. Je “chaotisierter” die Datenbasis, desto aufwändiger ist zunächst die Bereinigung, aber desto deutlicher ist auch der schon bald spürbare Effekt.

“Data-quality-Management” wird (durchaus zu Recht) häufig mit “Data-Mining” in Verbindung gebracht. Unter diesem Stichwort werden wiederum teure Programme und Tools angeboten. Für Excel wird ein ebenfalls kostenloses Data-mining-Tool angeboten. Bei gleichzeitiger Verwendung von Data-mining und Powerpivot ist übrigens zu beachten, dass ERST Data-mining und anschließend Powerpivot installiert werden sollte.

Das Data-Mining-Verfahren kann allerdings auch ohne den Einsatz von Software erfolgen. Mit den o.g. Punkten “Datensichtung,  -bereinigung, -bewertung und -zusammenführung” wird im Grunde bereits Data-Mining vorgenommen (Extraktion und Mustererkennung) und erfordert oft nur ein hinreichendes Verständnis für Daten und eine möglichst auf Erfahrung basierende Analysefähigkeit.

Fazit: Nichts gegen Excel, ganz im Gegenteil. Nutzen Sie Excel – aber nutzen Sie es auch.

(Bild: © Kheng Guan Toh - Fotolia.de)