stamboomforum

Forum logoGenealogische software » Gedcom download van zoekopdracht levert twee zussen als echtpaar :-(


Profiel afbeelding

Ik zocht op Vennevertoo (en naamvarianten door wildcards te gebruiken), en zette de als experiment zoekopdrachtenmonitor aan. Toen de monitor zich na een poos meldde, probeerde ik uit wat ik met de twee downloadmogelijkheden (PDF en Gedcom kon doen).

De PDF is duidelijk: lezen.

Gedcom: geimporteerd in een aparte stamboom (TNG, lokaal op een WAMP server). Daarin trof ik aan het gezin met als ouders Anna Johanna Vennevertloo en Anna Maria Vennevertloo.

Omdat het huwelijk tussen twee vrouwen nog maar een recente verworvenheid is, vermoedde ik dat er iets fout gegaan was. Zoekend op de combinatie van beide namen vond ik één voorkomen, in een bevolkingsregister. Het waren, hoe verrassend, zussen, wonend met hun ouders en verder uitsluitend Vennevertloo's, waarschijnlijk allemaal broers en zussen.

Vraag: is de fout waardoor dit gezin werd gegenereerd in de gedcom nieuw, of is het oud nieuws? Zijn er nog meer types foutieve gezinnen die gegenereerd worden?

Is er een goede manier om deze gezinnen uit te zeven? Ik kan vrij makkelijk paren met gelijke achternaam en/of van gelijk geslacht controleren in TNG, maar misschien zitten er nog fouten in   

Akten zoeken moet uiteindelijk, maar ik wil graag eerst een logische zeef gebruiken omdat het gaat om een vrij groot aantal.

Leo te Braake

Om op mijn eigen vraag terug te komen: Er waren inderdaad nog andere typen foutieve gezinnen. Allemaal gevonden met SQL in TNG, mijn websoftware.

De totale download bevatte 690 personen, na ontdubbelen (o.b.v naam EN geboortedatum) nog 595. Ik ga er van uit, dat de gegevens van deze personen grotendeels kloppen.

Er waren ca 380 gezinnen gedefinieerd , wat al een groot aantal is op 690 (595?)man.

Daarvan heb ik verwijderd: 

  • man/man en vrouw/vrouw relaties ca 150
  • leeftijdverschil > 50 jaar : enkele

Er zijn nog 185 gezinnen over

Verder heb ik kinderen losgekoppeld uit een gezin, als

  • vader of moeder jonger dan kind :  ca 5
  • naam kind verschilt van naam vader (verschil geen kwestie van spellingsvariant): ca 150. Dit kan false errors bevatten  waar boerderijnamen en familienamen door elkaar lopen, maar ik knoop ze liever later weer aan elkaar dan dat ik niets meer kan vertrouwen.

Ik heb ook nog wel wat verwijderd om redenen die ik me niet meer precies herinner, dus de cijfers kloppen niet goed.

Achteraf ga ik twijfelen of de gedcom export nog wel voordelen heeft t.o.v. een csv bestand :-).

Ik post dit niet om te klagen, maar misschien is dit aanleiding voor Bob om zijn algoritmes nog eens te checken. Daar is meer aanleiding voor als ik niet de enige ben die dit type fouten in deze mate heeft aangetroffen in gedownloade gedcoms (beschikbaar voor onderzoek).

Dus: wie heeft dit nog meer gehad?

Ik ga nu een paar andere exotische Rekkense namen importeren (IJsfordink, met ca 10 spellingsvarianten :-). Ik laat nog weten wat daar uit komt).

Leo te Braake

Ik begrijp heel weinig van wat hier gesteld wordt.Help mij!

Inge


Gedcom output zal nooit helemaal naar tevredenheid (blind) kunnen worden hergebruikt.

Althans het risico is groot dat er iets niet klopt in een gegenereerde Gedcom.

Het hangt af van of gegevens goed en volledig zijn ingevuld en vervolgens of 3e part software deze gegevens weer goed kan hergebruiken.

Gedcom is tussen software pakketten onvoldoende standaard, zeker als je dit ook nog eens in de tijd ziet.

Alles hangt samen met het herkennen en plaatsen van de Gedcom-tags aan de informatie.

Groet Herman

H.Schilder







Plaats een reactie

Om reacties (en nieuwe onderwerpen) te plaatsen op het Stamboom Forum dient u eerst in te loggen! Nog geen lid? Registratie is gratis en snel!