Wer seine Wurzeln nicht kennt, kennt keinen Halt. (Stefan Zweig)

Data Cleansing für die Genealogie Bemberg

fan asc muster

Nach Abschluss der Übersetzungen der Genealogie Bemberg musste ich bei der Erstellung einiger Stammbäume sehr schnell feststellen, dass die Qualität der nicht zur unmittelbaren Familie gehörenden Personen, also der Daten der verschwägerten Familien, deutlich zu wünschen übrig ließ. Falsche, unvollständige, doppelte oder anderweitig fehlerhafte Daten in den Datensätzen und zum Teil inkonsistente Bezeichnungen führten zu fehlerhaften Auswertungen und damit zu falschen Darstellungen in den Stammbäumen. Aus diesem Grund habe ich mich entschlossen, für die Genealogie Bemberg eine konzentrierte Datenbereinigung, "neudeutsch" auch Data Cleaning, Data Cleansing oder Data Scrubbing genannt, durchzuführen.

Mit der Datenbereinigung habe ich Anfang Mai diesen Jahres begonnen und bis Anfang August täglich mehrere Stunden investiert. Der bisherige Arbeitsaufwand von mehr als 600 Stunden zeigt, dass die Datenbereinigung eine extrem zeitaufwändige Arbeit ist.

Es geht darum, Datenfehler zu identifizieren und dann Daten zu ändern, zu aktualisieren oder zu entfernen, um sie zu korrigieren, da im Idealfall jeder einzelne Datensatz überprüft werden muss.

Im Rahmen von Datenbereinigungsprojekten werden in der Regel folgende Arten von Problemen gelöst:

  • Tippfehler und ungültige oder fehlende Daten. Die Datenbereinigung korrigiert verschiedene strukturelle Fehler in Datensätzen. Dazu gehören zum Beispiel Rechtschreibfehler und andere typografische Fehler, falsche numerische Einträge, Syntaxfehler und fehlende Werte, wie leere oder ungültige Felder, die Daten enthalten sollten.
  • Inkonsistente Daten. Namen, Adressen und andere Attribute sind oft von System zu System unterschiedlich formatiert. So kann ein Datensatz beispielsweise die mittlere Initiale eines Kunden enthalten, ein anderer nicht. Auch Datenelemente wie Begriffe und Bezeichnungen können variieren. Datenbereinigung trägt dazu bei, dass die Daten konsistent sind, damit sie genau analysiert werden können.
  • Doppelte Daten. Bei der Datenbereinigung werden doppelte Daten in Datensätzen identifiziert und mit Deduplizierungsmaßnahmen entweder entfernt oder zusammengeführt. Wenn zum Beispiel Daten aus zwei Systemen kombiniert werden, können doppelte Dateneinträge abgeglichen werden, um einzelne Datensätze zu erstellen.
  • Irrelevante Daten. Einige Daten, zum Beispiel Ausreißer oder veraltete Einträge, sind für Analyseanwendungen möglicherweise nicht relevant und könnten deren Ergebnisse verfälschen. Durch Datenbereinigung werden redundante Daten aus den Datensätzen entfernt, wodurch Datenaufbereitung rationalisiert und die erforderliche Menge an Datenverarbeitungs- und Speicherressourcen reduziert wird.

Bis heute wurden ca. 80% der in der Genealogie Bemberg enthaltenen Datensätze (natürlich gilt auch hier die 80-20-Regel bezüglich des Aufwandes) überprüft und gegebenenfalls korrigiert, so dass nun die Erstellung weitgehend fehlerfreier Stammbäume gewährleistet ist. Die restlichen Datensätze werden in Zukunft bei der Benutzung (on the fly) überprüft.

Da die Genealogie in der Regel nicht die erste Disziplin ist, wenn es um die Bereitstellung neuer z.B. KI-basierter Tools geht, musste ich für die Datenprüfung auf bereits vorhandene Tools zurückgreifen. Insbesondere das Tool "Indizien", das auf Geneanet in der Rubrik "Suche" angeboten wird, hat mir dabei sehr geholfen. Dieses Tool vergleicht die eigenen Datensätze mit den Datensätzen aller Geneanet-Nutzer. Als Suchergebnis werden die Datensätze der anderen Forscher, die diese auch zu den Vergleichspersonen der eigenen Datensätze haben, mit einem Hinweis auf abweichende Informationen ausgegeben. Diese "Hinweise" können überprüft und übernommen oder verworfen werden. Vor der Übernahme der Daten muss natürlich, wie bei jeder Datenübernahme, die Korrektheit bzw. Glaubwürdigkeit der Quelle vom Prüfer eingeschätzt werden, da nur selten die Originalquellen zur Verfügung stehen.

Positiv überrascht hat mich, dass Geneanet im Gegensatz zu den großen Anbietern wie Ancestry offenbar überwiegend von ernsthaften Familienforschern und nicht von "Datensammlern" genutzt wird. Diesen Schluss ziehe ich aus der Tatsache, dass in den bei Geneanet gehosteten Stammbäumen sehr umfangreiche Quellenangaben zu den Daten hinterlegt sind. Der Grund dafür dürfte sein, dass bei Geneanet, ebenfalls im Gegensatz zu den großen Anbietern, die Rechte an den Daten bei den Nutzern verbleiben!

Die Daten der Genealogie Bemberg wurden neben den Daten der Mitforscher in Geneanet gegen drei weitere Quellen geprüft, die sich mir als äußerst kompetent erwiesen haben. Es handelt sich um Quellen, die ihren Schwerpunkt in den Regionen Bergisches Land einschließlich Ruhrgebiet, Raum Köln - Düsseldorf und Euregio (Dreiländereck Deutschland - Niederlande - Belgien) haben und die ich Forschern in diesen Regionen sehr empfehlen kann.

Es sind dies:

1. Das heidermanns.nethttp://www.heidermanns.net/genealogie.html )

Die Internetpräsenz von Dr. Frank Heidermanns zeugt von einer hervorragenden wissenschaftlichen Aufbereitung der dargestellten Personendaten, versehen mit umfangereichen Quellendaten.

Auf seiner Web-Page führt Dr. Heidermanns aus: "Hier finden Sie die öffentlich zugänglichen Ergebnisse meiner umfangreichen genealogischen Forschungen. Der Stammbaum wurzelt im Rheinland und in Westfalen; einige Wurzeln reichen allerdings weit darüber hinaus. Die Zweige ranken sich um die Familien Heidermanns und Herminghaus.

...

"Tatsächlich greift die Präsentation weit über einen begrenzten Familienstammbaum hinaus. Mein Anliegen ist es, für Teile des heutigen Nordrhein-Westfalen die vielfältigen Verflechtungen innerhalb des Bürgertums zu verfolgen (mehr dazu hier). Sind Sie an Pfarrern aus Südwestfalen, Kaufleuten aus dem Ruhrgebiet oder Ratsherren aus dem Bergischen Land interessiert? Dann werden Sie hier wahrscheinlich fündig. Im Mittelpunkt stehen folgende Personenkreise (vgl. den Index der Berufe):

Ergänzende Seiten enthalten die Highlights meiner Ahnendatenbank – SchwerpunkteSpitzenahnen und berühmte Personen –, aber auch die schmerzlichsten Lücken. Rund 400 grafische, durchgehend mit Hyperlinks versehene Anschlusstafeln (mit Namenindex) veranschaulichen die Anbindung von 220 „Prominenten“. Ferner gibt es ein Verzeichnis der ausgewerteten Literatur sowie eine Seite mit weiterführenden Hinweisen."

Als Datenquelle habe ich das heidermanns.net als absolut vertrauenswürdig und sicher eingestuft und empfehle es jedem Familienforscher uneingeschränkt als Quelle. 

2. Das Familienbuch Euregiohttp://www.familienbuch-euregio.de )

Beim Familienbuch Euregio handelt es sich um die Internetpräsentation eines Teams, das in der Region Euregio Familienforschung betreibt. Auf der Startseite wird ausgeführt:

"Familienbuch Euregio: Der Titel ist Programm. Im Mittelpunkt steht die Präsentation eines ständig wachsenden Netzwerkes von Familien der Region rund um das Dreiländereck Deutschland - Niederlande - Belgien. Unsere Familien kommen aus dem rheinländischen Würselen bei Aachen und verzweigen sich über die ganze Region zu einem Familiennetzwerk, das sich weithin über Europa bis nach Übersee ausstreckt.

Der Weg ist das Ziel: Nach aktuellem Stand haben wir in unserem Online-Familienbuch die verwandtschaftlichen Zusammenhänge von 666.666 Personen dokumentiert. Fotogalerie, Dokumentensammlung, Themenbeiträge und die Sammlung historischer Listen tragen dazu bei, möglichst vielen Ahnen "ein Gesicht zu geben" und ihre damaligen Lebensumstände deutlich werden zu lassen."

Als Datenquelle habe ich das Familienbuch Euregio als vertrauenswürdig und sicher eingestuft und empfehle es jedem Familienforscher uneingeschränkt als Quelle. 

3. Der Bergische Datenpoolhttps://datenpool.bvff.de/tree/Datenpool )

Beim Bergischen Datenpool handelt es sich um die veröffentlichten Daten des Bergischen Vereins für Familienkunde e.V. 

Zu dem Datenpool wird ausgeführt:

"Der Datenpool soll insbesondere die Möglichkeit bieten, Zufallsfunde aus anderen Kirchspielen von Personen, die aber zum Bergischen Land eine Beziehung haben, aufzunehmen.

Auch können die restlichen Kirchenbucheinträge von einer Seite, die man auf Anforderung erhalten hat, dort zur weiteren Suche abgespeichert werden.

Ebenso können Familienforscher, deren Genealogie sich ebenfalls vollständig oder teilweise  im Bereich des Bergischen Landes bewegt, ihre Daten zur Verfügung stellen, damit durch die Suchmöglichkeit andere Forscher Gemeinsamkeiten oder Anknüpfungspunkte finden können."

Als Datenquelle habe ich den Bergischen Datenpool als vertrauenswürdig und sicher eingestuft und empfehle ihn jedem Familienforscher uneingeschränkt als Quelle.

Resümee: Die durchgeführte Datenbereinigung hat mir wieder einmal gezeigt, dass (Daten-)Qualität vor (Daten-)Quantität gehen muss, wenn man ein gutes und gesichertes Arbeitsergebnis erzielen will. Die Werbung der großen Anbieter mit "x Millionen Datensätzen" mag zwar verlockend sein (wer möchte nicht schnell zu einem Ergebnis kommen), verführt aber leicht zu Oberflächlichkeit und Ungenauigkeit, zumal die Auswertung dieser enormen Datenmengen ohne entsprechende Tools kaum sinnvoll möglich ist. Vielleicht hilft auch hier in Zukunft die "Wunderwaffe" KI - heute ist sie, wenn überhaupt, nur rudimentär vorhanden. So wird der Familienforscher wohl noch einige Zeit auf NI - seine eigene Natürliche Intelligenz - zurückgreifen müssen, um zu guten und gesicherten Arbeitsergebnissen zu kommen.

Und ich hoffe, dass meine NI ausgereicht hat, um sicherzustellen, dass die Qualität der Datensätze inzwischen so hoch ist, dass die erstellten Stammbäume weitestgehend fehlerfrei sind 😉