Plausibilitätsprüfung - Doppelte Personen

Jo301 · Beitrag von **Jo301** » 10.07.2024, 12:11

Ich bin mal wieder bei der Qualitätskontrolle meiner Daten und importiere dazu GEDCOM in Ahnenblatt3, die Version 4 verhält sich aber nicht anders.

1)
AB liefert zunächst erfreulicherweise nur 8 doppelte Personen.
Dabei stellt sich aber heraus, dass es alles unterschiedliche Personen sind, was sich anhand der Familienzugehörigkeit nachweisen lässt.

2024-07-10_113512.png

Daher sind alles false-poitives, die man vermeiden könnte, wenn die die Familienstruktur / -zugehörigkeit mit geprüft würde. Für die beide Richter N. habe ich die Beischreibungen aus der Heirat beider Elternpaare. Aus die beiden Steinerts sind von verschiedenen Eltern.

2)
Offensichtliche Duplikate wie folgende werden garnicht gefunden:

Dupl-2024-07-05_082654.png

Das kann daran liegen, dass immer nur auf komplette Übereinstimmung geprüft wird und keine Unschärfe berücksichtigt wird. Das nannte man früher Fuzzylogic, die unscharfe Teilmengen prüft und nach einem Score-Wert entscheidet. Dieser Score-Wert ist im Prinzip eine Wahrscheinlichkeit für ein "mögliches Duplikat" und kann generell mit angezeigt werden bzw. mit Schwellwerten gefiltert angezeigt werden.

Der Begriff "mögliches Duplikat" ist m. E. auch besser als "Doppelte Person", weil es nicht leicht zu entscheiden ist.

Wenn man dabei die Prüf- / Schärfeparameter einstellbar macht ("Schieberegler"), könnte man sich stückweise und iterativ durch die Daten durcharbeiten, ohne gleich "erschlagen" zu werden. Das bietet mir mein jetziges Ages!, was mich mit false-positives überflutet. Vor derzeit rund 6400 Personen generiert es ca. 510 Hinweise, von denen ich seit gestern 15 behoben haben (offenbar die meisten). Dabei gehen die echten Duplikate allerdings leider in der Menge der false-positives unter.

Frage:
Ist bitte geplant, die Prüfung auf Duplikate noch zu verbessern?

Ich würde meine Unterstützung dabei anbieten.

Gruß
Jo

Beitrag von **DirkB** » 10.07.2024, 21:14

Hallo Jo,

tja, so eine Doublettenprüfung ist nicht ganz trivial ...

Die beiden nicht gefundenen Personen haben unterschiedliche Namen (bzw. eine Person hat mehr Vornamen), daher werden diese nicht von Ahnenblatt gefunden. Es scheint offensichtlich zu sein und klar, kann man die Logik anpassen, damit diese Personen ebenfalls als doppelt erkannt werden ... aber das muss man immer sehr behutsam machen. Es soll ja vielleicht auch nicht eine Person "N, N" (* nach 1900) mit einer Person "Nietzsche, Norbert" (* 1955) gleichgesetzt werden.

Die Idee mit dem Schieberegler ist aus Anwendersicht zwar gut, aber man müsste jeden "Ähnlichkeitsfall" in bestimmte Zahlenwerte umrechnen, um letztlich einen Schiebeschalter realisieren zu können. Das erfordert viel Gehirnschmalz und kann die Plausibilitätsprüfung erheblich verlangsamen.

Zur eigentlichen Frage:
Aktuell nicht in Planung, da lange nicht mehr nachgefragt wurde.

- Dirk

Jo301 · Beitrag von **Jo301** » 11.07.2024, 09:15

Hallo Dirk,

DirkB hat geschrieben: ↑10.07.2024, 21:14 tja, so eine Doublettenprüfung ist nicht ganz trivial ...

"Nicht ganz" ist untertrieben, mit einfachen Algorithmen wird das nichts gescheites.

DirkB hat geschrieben: ↑10.07.2024, 21:14 Die beiden nicht gefundenen Personen haben unterschiedliche Namen (bzw. eine Person hat mehr Vornamen), daher werden diese nicht von Ahnenblatt gefunden.

Es sind zwei Paare identischer Namen! mit unterschiedlicher Anzahl Vornamen und Genauigkeit der Datumsangaben.
Dabei stimmen aber die Jahreszahlen alle überein.

DirkB hat geschrieben: ↑10.07.2024, 21:14 Es scheint offensichtlich zu sein und klar, kann man die Logik anpassen, damit diese Personen ebenfalls als doppelt erkannt werden ... aber das muss man immer sehr behutsam machen. Es soll ja vielleicht auch nicht eine Person "N, N" (* nach 1900) mit einer Person "Nietzsche, Norbert" (* 1955) gleichgesetzt werden.

Die jetzige Prüfung "behutsam" anzupassen mag Verbesserungen bringen, ist aber der Komplexität nicht angemessen. Das kann man getrost lassen.

Ich würde ein neues Modul "Dublettenprüfung" impementieren und separat aufrufbar machen. Wenn es gut genug läuft, würde ich den jetzigen Teil der Plausiprüfung einfach abschalten. Das bedeutete auch ein Modul für eine Aufgabe, besser pflegbar und die Laufzeit verlangsamt die Plausiprüfung nicht.

Im Prinzip müsste man alle Namen / Vornamen separieren und adaptiv gegeneinander prüfen.
- Paul = Paul then Score++
- kein Josef vorhanden: exit

- Jahreszahl = identisch then Score++
- weiter mit Monat und Tag...

Die Zuwächse der Score-Werte sollten unterschiedlich gewichtbar und konfigurierbar sein.

Eine Umsetzung in mehreren Durchläufen (Pass 1 ...) scheint angezeigt, da könnte man mit der Auswahl und Gewichtung noch "spielen".

Beim Thema Ähnlichlich kommt natürlich noch die Phonetik mit ins Spiel, klar ist das nicht einfach und man muss sich vortasten.
Nicht bekannte Namen / Vornamen wird man nie vollständig identifizieren können.

DirkB hat geschrieben: ↑10.07.2024, 21:14 Die Idee mit dem Schieberegler ist aus Anwendersicht zwar gut, aber man müsste jeden "Ähnlichkeitsfall" in bestimmte Zahlenwerte umrechnen, um letztlich einen Schiebeschalter realisieren zu können.

"Schieberegler" bedeutet letztlich, dass man Default-Werte für Score-Grenzen hat, aber eben auch anpassen kann.
Man fischt erstmal die einfacheren Fälle ab (wie die zwei Fälle oben) und nähert sich iterativ den schlimmeren.
Das ist "psychologisch" angenehmer, wenn man nicht mit über 500 Meldungen erschlagen wird, die vielleicht zu über 90% Unfug sind.

Ach ja, es wäre gut, wenn man mindestens während einer Session bestimmte Ergebnisse ausblenden könnte.

DirkB hat geschrieben: ↑10.07.2024, 21:14 Das erfordert viel Gehirnschmalz...

Ja sicher, das ist nicht einfach, erfordert Ideen, den Mut Sackgassen aufzugeben und muss wachsen.

Gruß
Jo

P.S.
Ich sehe gerade, dass bei der Plausiprüfung eine wichtige Prüfung fehlt.
Es wäre die "Minimale Altersdifferenz zwischen Geschwistern". Darüber lassen sich verschiedene Fehler identifizieren, die teils aus nicht validen Übernahmen aus den bekannten Allerweltsquellen resultieren (falsches Datum, falsche Eltern). Bei 9 oder weniger Monaten Altersdifferenz hat man natürlich eine "Baustelle".

Beitrag von **DirkB** » 11.07.2024, 11:09

Hallo Jo,

Jo301 hat geschrieben: ↑11.07.2024, 09:15 Ich würde ein neues Modul "Dublettenprüfung" impementieren und separat aufrufbar machen. Wenn es gut genug läuft, würde ich den jetzigen Teil der Plausiprüfung einfach abschalten. Das bedeutete auch ein Modul für eine Aufgabe, besser pflegbar und die Laufzeit verlangsamt die Plausiprüfung nicht.

Dann demnächst als neues Plugin von dir?
Ich bin gespannt ...

- Dirk

Jo301 · Beitrag von **Jo301** » 11.07.2024, 16:58

Hallo Dirk,

sprachlich korrigiere ich das: "Würde ich an Deiner Stelle... es so tun."
Ideen hätte ich dazu, allerdings keine Lust mehr auch im Ruhestand in Spezifikationen und Implementierung zu versacken.
Und in korrekter Zeitform gesprochen: "Es WAR eine gute Zeit im Beruf, ohne wenn und aber, trotz Projektstress...".

Aber da ist das Plugin-API sicher gut beschrieben, oder?

Ich will ein OFB-Projekt in absehbarer Zeit aufs Gleis bringen. Dazu nutze ich multimodal alle Tools, die mir vor die Flinte kommen.
Bin gerade zu "Ancestris" weitergezogen, dessen Prüfungen decken weitere Abweichungen auf, nur den Dubletten-Check verstehe ich noch nicht.

Jo

torgau · Beitrag von **torgau** » 12.07.2024, 08:50

Hallo,

die Prüfung auf doppelte Personen ist ein sehr komplexes und schwieriges Thema. Ich würde mir manchmal sogar wünschen, daß ich in der jetzigen Version (4.09) bei vergeschlagenen Personenpaaren sogar entscheiden könnte, daß ich sie momentan für unterscheidliche Personen halten und diese bei späteren Tests nicht mehr in der "Zusammenführen"-Liste auftauchen würden.
Vielfach ist es verdammt schwierig schon mit viel menschlicher Logik und händischen Datenvergleich sicher zu entscheiden welche Einträge identische Personen sind und welche nicht. Dafür einen sicheren Programmalgorithmus zu programmieren halte ich ohne ganz viel KI für kaum realisierbar.
Wie sollte man da z.B. mit Namensvarianten (die bei einer Person in verschiedenen Dokumenten in verscheidenen Schreibweisen auftauchen) umgehen? Es gibt auch Beispiele, sich die Schreibweise des Nachnamens vom Vater zum Sohn ändert und beim Enkel wieder die ursprüngliche Schreibweise verwendet wird. Beispiel:
* Leitreiter
* Laidreiter
* Leidreuter
* Leidereiter
* Leidreiter
Oder bei Vornamen:
* Catharina
* Catarina
* Katharina
* Katarina

Gruß Ulf

Jo301 · Beitrag von **Jo301** » 12.07.2024, 13:56

torgau hat geschrieben: ↑12.07.2024, 08:50 ... halte ich ohne ganz viel KI für kaum realisierbar.

Ach da ist ja endlich das Unwort, das ich bewusst vermieden habe!

Wenn eine NI aufeinander aufbauende Prüfungen mit Fuzzylogik, Score-Werten, einstellbaren Threshold-Werten, möglicherweise Vorselektion / Vorsortierung/Vorkonvertierung (in phonetische Äquivalente) von Ausgangsnamen bei phonetischer Ähnlichkeit (Toleranz) ersinnt, könnte man das sehr gut als KI verkaufen.

Das ist sehr anspruchsvoll, aber diese Regeln lernt eine KI nicht "von der Straße". Die Parameter müssen dazu justierbar sein, um iterativ Verbesserungen am Algo vornehmen zu können.

Klar und der spätere Ausschluß bereits "abgewinkter" Angebote vermeidet, dass man immer wieder die gleiche große LKW-Ladung ausgekippt bekäme.

Es gibt solche Tools bereits (HESMER), klar kosten die extra Geld.
Inzwischen denke ich, dass man ein solches Tool vom Genealogieprogramm lösen sollte und nur über GEDCOM als Importformat speist.
Die Gründe dafür liegen in der höheren Universalität und der in der Regel fehlenden Manpower (hier und anderswo).
Damit gäbe es dazu keine Abhängigkeit von einem bestimmten Genealogieprogramm. Die Pflege dieser Programme kommt gelegentlich "unter die Räder", wie ich es selbst schon erlebt habe.

Ansonsten kann ich nur zustimmen, das man mit Ahnenblatt derzeit nur einfachste Dubletten finden kann.
Das hatte ich weiter vorn schon illustriert, es stand halt zwischen den Zeilen.

Gruß Jo

Ahnenblattportal

Plausibilitätsprüfung - Doppelte Personen

Plausibilitätsprüfung - Doppelte Personen

Re: Plausibilitätsprüfung - Doppelte Personen

Re: Plausibilitätsprüfung - Doppelte Personen

Re: Plausibilitätsprüfung - Doppelte Personen

Re: Plausibilitätsprüfung - Doppelte Personen

Re: Plausibilitätsprüfung - Doppelte Personen

Re: Plausibilitätsprüfung - Doppelte Personen