stamboomforum

Forum logoHelpdesk » Clusters



Profiel afbeelding

Betreft Genealogie Online (via Edge browser) op adres https://www.genealogieonline.nl/genealogie-mantel/tellingen.php

Sinds kort is er op de statistiekpagina Clusters toegevoegd met de omschrijving:

In deze publicatie zijn meerdere clusters aangetroffen. Een cluster is een groep van (door geboorte of huwelijk) aan elkaar gerelateerde personen. Hieronder zijn de clusters weergegeven, waarbij de grootte van een vierkant het aantal personen weergeeft.

In mijn publicatie zijn alle personen gerelateerd aan elkaar. Hoe kan het dat ik dan toch 6 personen mis in het cluster? Is er een mogelijkheid om deze 6 personen 'zichtbaar' te krijgen?

Martien Mantel - 20 sep 2022 - 20:26

Dag Martien, wat bedoel je met je vraag: "Hoe kan het dat ik dan toch 6 personen mis in het cluster?"? Welke 6 mensen horen volgens jou niet bij het cluster?

Ik zie 1 cluster op https://www.genealogieonline.nl/genealogie-mantel/tellingen.php

Deze publicatie is voor het laatst bijgewerkt op zondag 18 september 2022, je publicatie bestaat uit 88.340 personen. Vanwege privacy zijn 4.012 personen niet zichtbaar gemaakt. Daar kunnen dus ook mensen tussen zitten die nodig zijn om iedereen gerelateerd te laten zijn, kennelijk komt dat niet vaak genoeg voor om meer dan 1 cluster te onderscheiden. Hetzelfde geldt voor de mensen die je links ziet in het scherm Openbaarheid Personen, zie beheerscherm.

Afbeeldingen zijn alleen zichtbaar als u bent ingelogd op het Stamboom Forum

Pauline Berens EBBI - 20 sep 2022 - 23:34

Hallo Pauline,

De publicatie bestaat uit 88.340 personen en 4.012 personen, die vanwege privacy niet zichtbaar zijn. Totaal derhalve 92.352.
In het cluster zijn 92.346 personen opgenomen, ofwel 6 personen minder dan in de publicatie (zichtbaar en niet zichtbaar).

Omdat alle personen in mijn database op de een of andere wijze een relatie met elkaar moeten hebben (anders worden ze niet opgenomen) bevreemd mij dit verschil van 6. Vandaar mijn vraag of er een mogelijkheid is, waarmee ik deze 6 personen kan filteren. Wellicht zijn ze op de een of andere wijze niet juist gerelateerd aan andere.

Martien Mantel - 21 sep 2022 - 09:12

Dag Martien, 

Bedankt voor je toelichting. Op https://www.stamboomforum.nl/subfora/4/2/84956/0 beschrijf ik op 1 sep 2022 - 13:56 hoe ik 'n paar mensen heb gevonden die buiten dat ene grote cluster vallen; de GEDCOM die ik had geupload naar GO heb ik als apart bestand ingelezen in m'n stamboomprogramma Pro-Gen, alle gerelateerden van m'n zus geselecteerd, de selectie omgedraaid en toen verschenen die paar losse personen die niet gerelateerd zijn aan de rest. Het betreft dan bijv. mensen die slechts 1 link hebben met de rest en die link is nog in leven, dus daarom niet getoond. Je hebt de verbanden dus wel goed gelegd in je stamboomprogramma.

Verder wordt bij 't berekenen van clusters afgerond op hele procenten vermoed ik, dat is bij bronvermeldingen ook zo, waardoor je geen extra cluster(s) ziet voor de resterende 6 personen.

Voordat ik m'n GEDCOM upload naar GO selecteer ik eerst alle mensen NIET geboren na 1922 zonder datum overlijden en vervolgens daarbinnen alle gerelateerden van m'n zus. Al heb ik m'n twijfels of dat berekenen wel zuiver gebeurt, heb 't vermoeden dat ook personen worden meegerekend via mogelijk nog levenden. Ik noem dit, omdat 't van invloed kan zijn volgens mij op 't berekenen van clusters op GO. Ik zou kunnen checken of m'n vermoeden klopt door de geuploade GEDCOM opnieuw in te lezen in Pro-Gen in 'n apart bestand, de gerelateerden aan m'n zus te selecteren, 'n GEDCOM te genereren van deze selectie en die te uploaden. Ik verwacht dan geen losse personen meer in m'n publicatie... Dat zou jij ook kunnen doen bij wijze van experiment, om te kijken hoe het werkt:-) Nog net tijd om dit experiment zelf te doen. Zie het resultaat voor mijn publicatie op https://www.stamboomforum.nl/subfora/4/2/84956/0 bericht 11 sep 2022 - 13:56. Er staat iemand in de lijst waarvan de ouders mogelijk nog leven, sowieso beter om geen data van zo iemand te publiceren. Maar ook iemand waarvan de partner de enige link met de rest was, wel 'n uitdaging om de ouders van die persoon te vinden, grote kans dat ie dan de voglende keer wel opgenomen kan worden in het enige cluster.

Pauline Berens EBBI - 21 sep 2022 - 09:50 (laatst bijgewerkt 21 sep 2022 — 11:29 door auteur)

Dag Pauline,

Interessant verhaal, maar bij mij niet van toepassing. De database waaruit mijn GEDCOM voor GO wordt opgebouwd, is alleen gevuld met personen die op enigerlei wijze een relatie hebben met iemand anders in de database. Anders wordt de betreffende persoon namelijk niet opgenomen.
Het vermelden van het aantal clusters heeft op mijn publicatie dus geen enkele zin en kan wat mij betreft dan ook achterwege blijven. Nu heb ik op de statiekpagina een groot rood blok, Als ik deze niet uit kan zetten, zou ik het prettig vinden dat de gegevens van het cluster ook juist zijn. Wat in mijn geval dus niet is. Daarom ben ik benieuwd hoe het cluster tot stand is gekomen (welke tag in het GEDCOM wordt daarvoor gebruikt?).

Mvgr, Martien

PS
Ik zie trouwens dat je bij je selectie het jaartal 1922 gebruikt, waarschijnlijk gerelateerd aan het geboortejaar van een 100-jarige. Heb jij geen personen in je database die ouder zijn dan 100 jaar en nog steeds in leven zijn? Als je van die personen gegevens publiceert, overtreedt je de privacywetgeving. Bij GO heb ik al regelmatig aangegeven dat de instellingen voor publicatie in relatie tot de privacy aspecten te 'krap' zijn. Waarom zou een 100-jarige als overleden beschouwd worden?

Martien Mantel - 21 sep 2022 - 13:20

Dag Martien, in jouw redenering houd je geen rekening met 6 losse personen, ontstaan doordat GO jouw GEDCOM screent op mogeljk nog levenden. Die 6 personen hebben waarschijnlijk 1 link met de rest van 't cluster en de persoon die die ene link vormt wordt vanwege privacy niet getoond. Bijv. overleden kinderen waarvan de ouders nog leven. In je publicatie is dus iedereen gerelateerd behalve die 6 losse personen:-) Wil je 'ns proberen die 6 mensen te identificeren op de manier zoals ik heb beschreven?

Wat de grens betreft van 100, dat heeft 'n puur praktische reden. Ik moet ergens 'n grens trekken als ik data publiceer van mensen geboren na 'n bepaald jaar zonder datum overlijden. Ik vind 100 ook aan de krappe kant, maar ga er wel in mee. GO hanteert ook 'n grens van 100 jaar. In de loop der tijd zal die grens vanwege toenemende leeftijd in m'n bestand vanzelf opschuiven naar 105 of zo. En nee, ik ken nu geen mensen in m'n bestand ouder dan 100 die nog leven, anders zou ik hun data niet publiceren. Het is in al die jaren dat ik aan genealogie doe nog niet voorgekomen dat iemand zich meldde omdat ik zijn/haar data had gepubliceerd, ook niet jonger dan 100 en ook niet dat 'n ander dat namens hem/haar deed, afkloppen:-) Ik ben meer bezig met die losse personen, lijkt me 'n teken van respect voor de ouders om geen data over hun overleden kinderen te publiceren. Hetzelfde geldt voor 'n overleden partner, die wil je toch niet als losse persoon in 'n publicatie zien.

Het exacte algoritme dat GO gebruikt voor clusters ken ik niet, maar dat geldt ook voor de functie Gerelateerden van Pro-Gen. Bij de berekening van clusters worden denk ik ouder-kind en partnerrelaties gebruikt, de volgende GEDCOM tags dus:

0 @F...@ FAM
1 HUSB @I...@
1 WIFE @I...@

1 FAMC @F...@
1 FAMS @F...@
0 @I...@ INDI

Zou je de functionaliteit van clusters op GO mooi vinden als je die 6 losse personen in je publicatie als extra cluster(s) zou zien?

Oeps, ik ontdek 'n goede reden om m'n oude GEDCOM inclusief 14 personen buiten 't cluster weer te uploaden. De recordnummers zijn bij het inlezen als nieuw Pro-Gen-bestand namelijk gewijzigd. Dat betekent dat links naar webpagina's in m'n publicatie niet meer werken?! Misschien lukt 't op 'n andere simpele manier om die 14 losse niet mee te nemen in de GEDCOM, anders dan voor elke upload de regels van die 14 mensen uit de GEDCOM knippen... Gelukt, die 14 markeren na het selecteren van iedereen van wie data gepubliceerd mag worden en vervolgens alle niet-gemarkeerden selecteren:-)

Pauline Berens EBBI - 21 sep 2022 - 15:46 (laatst bijgewerkt 21 sep 2022 — 16:45 door auteur)

Hallo Pauline,
Het zou me bevreemden als er, doordat GO mijn GEDCOM screent op mogelijk nog levenden, er 'slecht' 6 personen buiten het cluster zouden vallen. Als dat de systematiek is voor de bepaling van de omvang van het cluster was er een veelvoud van 6 die buiten het cluster vallen en als losse personen beschouwd worden, zoals nog levende ouders van overleden kinderen of nog levende weduwe/weduwnaars.

Zolang ik niet weet op basis waarvan het cluster wordt bepaald, is het voor mij niet mogelijk om de 6 personen te identificeren, omdat zij klaarblijkelijk niet aan die voorwaarden voldoen. Voor mij is dit ook de reden dat het toevoegen van clusters aan de statistiekpagina geen enkele toegevoegde waarde heeft. Sterker nog, het grote rode vierkant gaat mij steeds meer tegenstaan, omdat het volgens mij niks toevoegt.
Voor mij zou de enige toevoeging zijn, dat ik inzicht krijg in de personen die niet in het cluster vallen. Zo'n functionaliteit zou ik eerder verwachten op de Beheerpagina en zou mij helpen de publicatie te verbeteren.

Ik zou het prettig vinden als GO/Bob Coret in deze kwestie duidelijkheid geeft. 

Martien Mantel - 24 sep 2022 - 11:32

Bob Coret zal je vragen hopelijk vanzelf 'n keer beantwoorden, kan ff duren, hij overlegt met Yolanda Lippens 1x per 2 à 3 weken..Voor nu lijkt 't me handiger te onderzoeken hoe jij die losse personen kunt identificeren. De procedure voor Pro-Gen heb ik beschreven. Vraag is dus of 'tzelfde mogelijk is in jouw stamboomprogramma. Welk programma gebruik je? Dus alle mogelijk nog levenden selecteren, selectie omwisselen, gerelateerden van 'n centraal iemand in je stamboom selecteren binnen die selectie, exporteren naar GEDCOM, GEDCOM inlezen in je stamboomprogramma als nieuw apart bestand, alle gerelateerden van je centrale persoon selecteren, selectie omwisselen et voilà, daar zie je de losse personen. Probeer 't vooral 'ns en laat weten tot hoever je komt. 

De berichtenwisseling teruglezend valt me op dat je niet begrijpt wat ik bedoel. Jij benadrukt dat alle mensen in je stamboomprogramma onderling gerelateerd zijn, wat op zich ook best zo kan zijn. Ik benadruk dat GO je GEDCOM filtert op mogelijk levenden en dat daardoor in je publicatie niet iedereen gerelateerd hoeft te zijn, ook al waren ze dat in je stamboomprogramma wel. Snap je dit?

De kleur van de enige cluster in m'n publicatie is trouwens veranderd zie ik net, van donkerrood naar roze:-) Even denken of ik dit 'n verbetering vind, idd, door roze of 'n andere kleur voor data te gebruiken en donkerrood en donkergroen voor knoppen en ander gereedschap wordt de navigatie duidelijker, gebruikers weten beter waar te klikken, vind je ook niet? De tooltip contrasteert ook beter tegen de roze achtergrond.

Afbeeldingen zijn alleen zichtbaar als u bent ingelogd op het Stamboom Forum

Al zou ik de tint roze iets zachter maken, zoals vrouwen in onderstaand diagram. Nu komt de tint roze tamelijk hard over, vind je ook niet?.

Afbeeldingen zijn alleen zichtbaar als u bent ingelogd op het Stamboom Forum

Dan zou 't dus zo worden, veel subtieler zo'n groot lila-roze vlak:-)

Afbeeldingen zijn alleen zichtbaar als u bent ingelogd op het Stamboom Forum

Pauline Berens EBBI - 24 sep 2022 - 16:36 (laatst bijgewerkt 26 sep 2022 — 10:45 door auteur)

Qua totaal telling lijken er inderdaad af en toe personen te ontbreken. Ik ga er induiken waarom dat is, want dat kan ik niet 1,2,3 verklaren.

Ter info: 

  • in principe wordt er gekeken naar de ouder relaties via de FAMC constructie
  • er wordt naar alle personen gekeken (dus ook personen die niet gepubliceerd worden omdat zij mogelijk nog leven zitten in de cluster tellingen)

Qua weergave is het in de situatie dat er 1 cluster is überhaupt niet echt duidelijk. Dat vervang ik denk ik door een tekst "alle personen in deze publicatie zijn op de een of andere wijze gerelateerd".

Bob Coret - 5 okt 2022 - 14:35

"in principe wordt er gekeken naar de ouder relaties via de FAMC constructie"

Alleen ouderrelaties? Niet ook via partnerrelaties? VIa je partner raak je gerelateerd aan je schoonfamilie.

"er wordt naar alle personen gekeken (dus ook personen die niet gepubliceerd worden omdat zij mogelijk nog leven zitten in de cluster tellingen)"

Kun je niet beter de levenden eerst uitsluiten en vervolgens clusters berekenen? Dan kun je binnen 'n cluster tenminste doorklikken naar ieder ander in dat cluster. Als er 1 cluster in 'n publicatie is moet je naar iedereen in die publicatie kunnen doorklikken en kun je zeggen dat iedereen in je publicatie gerelateerd is. 

Pauline Berens EBBI - 7 okt 2022 - 14:30 (laatst bijgewerkt 7 okt 2022 — 14:33 door auteur)

Pauline Berens EBBI - 14 okt 2022 - 07:55

> Alleen ouderrelaties? Niet ook via partnerrelaties? VIa je partner raak je gerelateerd aan je schoonfamilie.

Sorry, las m'n eigen code niet goed. Per persoon wordt er gekeken naar de ouders en partners (en dat recursief).

> Kun je niet beter de levenden eerst uitsluiten en vervolgens clusters berekenen? Dan kun je binnen 'n cluster tenminste doorklikken naar ieder ander in dat cluster. Als er 1 cluster in 'n publicatie is moet je naar iedereen in die publicatie kunnen doorklikken en kun je zeggen dat iedereen in je publicatie gerelateerd is. 

Vergeet niet dat de ingelogd auteur (of als er een toegangspoort is ingesteld) wel naar de levenden kan klikken. Eigenlijk zou ik dus twee keer de clusters moeten berekenen, maar dat geeft ook weer onduidelijkheid. Vandaar de keuze dat de clusters over de gehele GEDCOM worden berekend.

Bob Coret - 3 nov 2022 - 17:02

Ik denk te snappen wat je bedoelt. Om de statistiekenpagina overzichtelijk te houden kun je ook 1 clusteroverzicht tonen NA filtering op levenden, met 'n aparte knop voor ingelogden en mensen achter 'n toegangspoort die het clusteroverzicht toont VOOR filtering op levenden. 

Pauline Berens EBBI - 6 nov 2022 - 12:36

Bob Coret - 25 nov 2022 - 15:58

Hallo Bob,

Ik begrijp dat er nu een overlap is met een ander issue. Neemt niet weg dat mijn initiële vraag nog steeds open staat. Ik ben bang dat door het 'groter' maken door derden van dit issue de beantwoorden van mijn vraag in een verdomhoekje terecht is gekomen. Dat vind ik erg jammer.
Het toevoegen van het aantal clusters in een publicatie heeft voor gebruikers, die een familieband als uitgangspunt hebben, in mijn ogen geen enkele toegevoegde waarde. Een groot rood vlak op de statistiekpagina, is niet iets waar ik voor zou willen betalen.

Hoop dat je hier rekening mee kunt houden.

Met vriendelijke groet,
Martien Mantel

Martien Mantel - 25 nov 2022 - 16:55

Dag Martien, misschien kun je deze functionaliteit opnieuw beoordelen als de kinderziektes eruit zijn. Jij ziet 'n groot rood vlak op de statistiekenpagina, maar dat zouden volgens mij 5 vlakken moeten zijn, 1 grote en 4 kleine. Er zit een fout in de berekening van het aantal clusters, op jouw statistiekenpagian staat 7, 2 teveel volgens mij. De clusternummers zijn rood omcirkeld, groen betekent het aantal personen in 'n cluster. 

Afbeeldingen zijn alleen zichtbaar als u bent ingelogd op het Stamboom Forum

Verder stel ik voor geen percentages af te ronden; 100% suggereert dat er slechts 1 cluster is, wat niet het geval is in jouw publicatie. 

Als je publicatie uit 1 cluster bestaat zie je niet 1 groot vlak maar lees je 

"Clusters 
In deze publicatie zijn alle personen aan elkaar gerelateerd door geboorte, adoptie, stief- of pleegkind of relatie. Het is één cluster van personen, zonder daarnaast nog losstaande clusters."

Pauline Berens EBBI - 27 nov 2022 - 13:16

Beste Bob Coret,

Nog steeds zie ik op de statistiekpagina een groot rood vierkant. Tekstueel staat boven het vierkant dat de publicatie zou bestaan uit 4 clusters. Vandaag heb ik een GEDCOM geupload waarin 93.693 personen zijn opgenomen. Volgens het rode vierkant  bestaat cluster 1 uit 93.691 personen, ofwel 2 personen minder dan in de GEDCOM. 

  • Welke 2 personen zijn dat? Volgens mij zijn alle personen in mijn publicatie aan elkaar gerelateerd.
  • Hoe kunnen die 2 personen er voor zorgen dat er 3 clusters meer zijn, dan ik zou verwachten?

In een eerdere reactie heb ik al gevraagd om dit grote 'niets zeggende' en 'incorrecte' rode vierkant van de statistiekpagina te verwijderen. Als dat niet mogelijk is, zou ik graag de optie willen hebben om dit wel of niet te tonen. Of in een andere vorm tonen, bijvoorbeeld in een tabelvorm?

Martien Mantel - 18 dec 2022 - 20:39

Beste Martien, Bob en Yolanda van de Helpdesk overleggen tweewekelijks.

De berekening van clusters in jouw publicatie vind je op

https://www.genealogieonline.nl/genealogie-mantel/clusters.json

{"clusters":[["Cluster","Parent","Aantal","Aantal2","Indi"],["C",null,93693,93693,""],["1","C",93691,93691,"I10"],["2","C",2,2,"I84061"]]}

Je publicatie bevat momenteel 93693 personen, daarvan zitten 93691 in 1 cluster met o.a. persoon met id I10 en 2 in 'n ander cluster met o.a. persoon met id I84061.

https://www.genealogieonline.nl/genealogie-mantel/I10.php Geen toegang

Om de privacy van nog levende personen te beschermen, is de toegang tot deze pagina door de auteur van deze publicatie beperkt tot aangewezen familieleden, kennissen en vrienden.

Als u bent uitgenodigd door de auteur dan kunt u inloggen en het besloten deel inzien.

https://www.genealogieonline.nl/genealogie-mantel/I84061.php is Ferenc Varga, 2de persoon in hetzelfde cluster is partner Katalin Némethy I84062

Zijn hiermee je vragen van 18-12 afdoende beantwoord? 

Voor de vermeende fout in de berekening van het aantal clusters, 2 i.p.v. 4, verwijs ik graag naar m'n bericht van 27 nov 2022 - 13:16. Daarin stelde ik ook voor "misschien kun je deze functionaliteit opnieuw beoordelen als de kinderziektes eruit zijn?"

@Bob, nog 'n voorstel: 'n link bij het clusterdiagram naar de berekening van clusters, zodat auteurs/samenstellers zelf kunnen zien welke clusters er zijn. De vraag van Martien die wil weten welke mensen in welk cluster zitten lijkt me legitiem, juist omdat hij dacht dat iedereen onderling gerelateerd was. In Pro-Gen kan ik het met veel gedoe zelf achterhalen wie buiten het grootste cluster valt, maar 'n link op de statistiekenpagina zou veel handiger zijn. 

Pauline Berens EBBI - 19 dec 2022 - 10:21

Hallo Pauline,
Dank voor je reactie. De link naar de berekende clusters kende ik niet. Aan de hand hiervan en je toelichting komt helaas weer een 'probleem' bovendrijven met betrekking tot GO.
Ferenc Varga en zijn vrouw Katalin zijn de natuurlijke ouders van Ferenc Varga (1909), die in 1940 trouwde met Guurtruida Maria Margaretha Veeken. Zie Ferenc Varga (1909-) » Genealogie N.P. Mantel » Genealogie Online 

Hierdoor zouden vader Ferenc en moeder Katalin tot het 'grote' cluster behoren. Echter had zoon Ferenc pleegouders, waardoor zijn natuurlijke ouders in het cluster niet herkend wordt. Wellicht hoort dit bij de kinderziekte?

Ik zou nogmaals er op aan willen dringen om het clusterdiagram (grote rode vlak) te vervangen door een tabel, zoals bij familienamen, beroepen, voornamen. Geeft volgens mij veel meer inzicht dan zo'n groot rood vlak.

Martien Mantel - 19 dec 2022 - 18:24


Hallo Martien, 

Pleegouders niet en biologische ouders wel meetellen lijkt me idd 'n kinderziekte. Als het 'n keuze is pleegouders niet mee te nemen in de berekening zou ik die keuze op z'n minst expliciet gemaakt willen zien in 'n tooltip bijv.

Je voorstel clusters in 'n tabel te zetten steun ik niet, ik houd meer van visuele weergave van aantallen. Als compromis stel ik 'n switch voor waarmee gebruikers kunnen kiezen tussen blok- of tabelweergave en de blokweergave de standaard te laten zijn. Wat vind je van zo'n compromis?

Pauline Berens EBBI - 20 dec 2022 - 11:20







Plaats een reactie

Om reacties (en nieuwe onderwerpen) te plaatsen op het Stamboom Forum dient u eerst in te loggen! Nog geen lid? Registratie is gratis en snel!


Inloggen Registreer nu