stamboomforum

Forum logoHelpdesk » Voorstel berekening Top 10 Beroepen opgelost



Profiel afbeelding

Betreft Genealogie Online (via Chrome browser) op adres https://www.genealogieonline.nl/the-dutch-connection/tellingen.php

Inleiding: De Top 10 Voornamen wordt  kennelijk berekend door de frequentie van woorden in veld Voornamen te tellen. Een woord is dan tekst gescheiden door spaties. Dit doet recht aan doopnamen zoals “Johan Hendrik” en “Anna Maria”. Anna en Maria tellen los van elkaar mee. Ook al heb ik de pech dat op die manier ook – (=koppelteken) als woord gezien wordt en al jaren bovenaan bij de mannen staat in m’n publicatie en bij de vrouwen in de top 3:-)

Mijn voorstel is dezelfde berekening ook toe te passen op veld Beroep. De techniek is er, dus hoe moeilijk kan het zijn:-) Nu wordt er van uitgegaan dat beroep gewoonlijk bestaat uit 1 woord, wat voor de meeste publicaties ook terecht is vermoedelijk. Voor mijn publicatie zou het echter wenselijker zijn de afzonderlijke woorden te tellen in veld Beroep. Juist als je meerdere bronnen gebruikt kan het voorkomen dat beroep anders genoemd wordt of mensen van beroep veranderd zijn, andere inkomstenbronnen hebben, carrière gemaakt, verhuisd etc. Al helemaal als je bronnen uit verschillende landen gebruikt, bijv. Wiewaswie en Matricula. Iets vergelijkbaars geldt voor voornamen. Ik gebruik komma en spatie als scheidingstekens tussen beroepen, bijv. Beroep=”arbeider, landbouwer”. Beroepen die bestaan uit meerdere woorden hebben dan pech, niet erg, je moet ergens ’n grens trekken, bijv. “Friese militair onder Napoleon” komt weinig voor. Al pijnlijker wordt "Ackersleute und Schüster", zo'n combinatie aanduiding voor beroep komt vaker voor. Consequentie van m'n voorstel is dat jaartallen in veld Beroep ook zouden meetellen als woord, da’s minder. Voorbeeld: Beroep=”1830 arbeider, 1840-1850 landbouwer”. Zo is het theoretisch mogelijk dan de Top 10 bestaat uit jaartallen?! Daarom stel ik voor jaartallen uit te sluiten van de telling. 

Waarom: Meerdere bronnen gebruiken zou beloond moeten worden vind ik, liefst zonder dat het ten koste gaat van publicaties waarin slechts 1 beroep opgenomen per persoon. Het verhoogt de kwaliteit van je publicatie.

Aanleiding voor dit voorstel is de ontdekking dat nummer 1 in m’n Top 10 Beroepen slechts 1,6% uitmaakt van veld Beroep?! Terwijl ik toch behoorlijk consequent veld Beroep vul. “Ackersleute” staat met 505 oftewel 1,1% op plaats 3. Dat kan beter! “Ackersleute” komt in m’n publicatie 3508 keer voor, meestal in combinatie met andere beroepen dus. Inmiddels heb ik met zoek- en vervang veld Beroep al aardig gefatsoeneerd, bijv. “Ackersfrau, Ackersleute” vervangen door “Ackersleute, Ackersfrau”. Daardoor staat “Ackersleute, Ackersfrau” nu op plaats 10:-) Voor 'n deel plaatsaanduidingen in veld Beroep verplaatst naar veld Plaats. De kans bestaat dat aanduidingen voor burgerlijke staat zoals “Wittwe” in de Top 10 belanden. Het zij zo, dat was in vroeger tijden toch vaak ’n teken voor ’t wegvallen van de kostwinner en dus armoede. “Wittwer” komt in m’n publicatie 320 x voor, “Wittwe” 310 x, al dan niet in combinatie met andere aanduidingen voor beroep. Twijfelachtig wordt misschien “doopgetuige” in veld Beroep, in Pro-Gen toch de beste plaats om vast te leggen volgens mij. Getuige zijn bij doop of huwelijk zegt veel over de familiebanden en sociale netwerken, vandaar. Sinds kort mee begonnen, “doopgetuige” komt inmiddels 155 x voor in m’n publicatie.

Het is duidelijk dat mijn publicatie door de vele Duitse beroepen en combinaties van beroepen niet goed past in de HISCO-classificatie. Maar liefst 85% van de beroepen wordt niet herkend:-( Misschien valt er over te praten bij zo'n hoog percentage mijn voorstel toe te passen? Meer dan 25% niet-herkend lijkt me 'n aardige grens. Even gekeken hoe de HISCO-classificatie uitpakt voor andere publicaties. Een steekproef van 10 publicaties over de familie Jansen levert op: 36, 76, 86, 10, 5, 13 resp. 40% niet-herkende beroepen. In 3 publicaties ontbreekt onderwerp beroep. Voor de bovenste 10 Publicaties in het Zonnetje is dat resp.  21, 20, 87, 36, 5, 29, 86, 21, 91 en 20%, zie https://www.genealogieonline.nl/stambomen.php

Benieuwd naar jullie reactie. Het kan best zijn dat mijn voorstel conflicteert met GEDCOM7 of dat het probleem in andere stamboomprogramma’s dan Pro-Gen niet speelt, maar dat hoor ik dan wel weer:-) Wie zou baat hebben bij m’n voorstel?

Pauline Berens EBBI - 28 nov 2021 - 10:58 (laatst bijgewerkt 28 nov 2021 — 13:19 door auteur)

Ziet er goed uit, gaan we naar kijken, wordt vervolgd :-)

Yolanda Lippens - 8 dec 2021 - 16:04

Hier alvast de nieuwe Top 10 Beroepen (groen) van Bevolkingsreconstructie Wesuwe, met veel hogere percentages dan de bestaande op GO (roze). Het scheelt pakweg 'n factor 10! 

Deze frequentietabel is gemaakt in Excel, na export uit Pro-Gen in ASCII-formaat, herhaaldelijk Tekst naar Kolommen met scheidingsteken komma en spatie, sorteren en uiteindelijk 'n draaitabel. 

De aanduidingen t.t.v. huwelijk vallen op; voor mannen Haussohn, Ackersknabe en Ackerssohn, voor vrouwen Haustochter, Ackersmädchen en Ackerstochter. Ackersleute blijfven op #1 staan, maar wel met 'n enorme relatieve stijging van 1,2% naar 13%. Deze tabel pleit voor de nieuwe berekening van de Top 10 Beroepen die ik voorstelde:-)

Vraag is wel wat is 100%; in Excel neem ik totaal 24.168 beroepen verspreid over 31.341 personen als 100%, meerdere beroepen in veld Beroep zijn mogelijk. Van GO weet ik niet of 31.341 100% is of het aantal personen met 'n gevulde veld Beroep. Het antwoord is te vinden in Pro-Gen, inmiddels bevat de selectie Bevolkingsreconstructie Wesuwe 31.514 personen, 'n toename van ruim 150 mensen sinds de publicatie 19-12-2021, waarvan Ackersleute 3222x voorkomt in veld Beroep (=3222/31514=10,2% | 3222/24168=13,3% | 3152/=3222/24168=13%) en 383x veld Beroep alleen Ackersleute bevat (=383/31514=1,2%). Zie zo al 2 onnauwkeurigheden in m'n berekening, al doen die niet af aan de strekking van m'n betoog volgens mij; het verschil tussen 3152 en 3222 wijt ik aan het verdwijnen speciale tekens door ASCII-import in Excel, bijv. Ackersleüte wordt Ackerslete, en de projectvoortgang van Bevolkingsreconstructie Wesuwe, in 2 dagen 31.514 i.p.v. 31.341 personen, 'n toename van 173 personen. 

BEROEP

totaal

24168

EXCEL 

% ranking

GO%ranking 
Ackersleute315213%13831,2%1 
Ackersmann19718%22030,6%4 
Haustochter13536%3    
Ackersfrau12805%41930,6%5 
Haussohn10654%5    
arbeider9664%62220,7%2 
Colonist8443%7900,3%7Ackersleute, Ackersmann
landbouwer7963%8860,3%8 
Heuermann6863%9750,2%9Ackersleute, Ackersfrau
Heuerleute6633%10490,2%10inquilinus = pachter = tenant = Mieter
Eigener6383%11    
arbeidster5852%122100,7%3 
Dienstmagd4892%13    
Beerbter4132%141240,4%6 
Wittwe3621%15    
Ackerstochter2551%16    
Arbeiter2541%17    
Colonisten2471%18    
Wittwer2391%19    
Ackerssohn2251%20    
Zimmermann2241%21    
Dienstknecht2111%22    
landbouwster2011%23    
Tagelöhner1901%24    
Ackersmädchen1891%25    
Ackersknabe1791%26    
Schneider1781%27    

Pauline Berens Wesuwe - 21 dec 2021 - 11:18 (laatst bijgewerkt 21 dec 2021 — 12:16 door auteur)

Pauline,

Ik heb in je GEDCOM het aantal malen geteld dat "1 OCCU Ackersleute" voorkomt, dat zijn er (zoals ook op https://www.genealogieonline.nl/the-dutch-connection/tellingen.php staat) zo'n 623. Jij komt hoger uit, 3152.

Ik denk dat dit komt door een andere aanpak:

Deze frequentietabel is gemaakt in Excel, na export uit Pro-Gen in ASCII-formaat, herhaaldelijk Tekst naar Kolommen met scheidingsteken komma en spatie, sorteren en uiteindelijk 'n draaitabel. 

 

Ik zie in je GEDCOM in dit voorbeeld bijvoorbeeld regels als:

1 OCCU Ackersleute, arbeider, 1850 Hèuttenbewohner

1 OCCU Ackersleute, Ackersmann

1 OCCU Ackersleute, 1836 Ackersfrau

1 OCCU Ackersleute = farmers, Ackersmann

 

Genealogie Online ziet in bovenstaande regels 4 verschillende beroepen, geen van alle Ackersleute. In jouw aanpak (splitsen op komma en spatie) zie je hier 4 keer Ackersleute staan.

Ik vind het splitsen op komma en spatie ietwat riskant. De 1e regel hierboven zou dan 4 beroepen opleveren (3 als ik de overduidelijke jaartellen eruit filter), de 4e regel levert 3 beroepen op Ackersleute, farmers en Ackersmann (als leestekens ook als scheidingsteken worden meegenomen). Ik moet even analyseren of dit splitsen - puur voor de statistieken - geen onbedoelde bijeffecten heeft. Kun je bijv. zeggen dat een beroep altijd één woord is (en niet twee woorden)?

Bob Coret - 23 jan 2022 - 16:27

Bedankt voor je reactie. Een beroep bestaat soms uit 2 woorden, bijv. "coal miner", "Hebamme Witwe", 3 "Heuer- und Ackersleute", "inquilinus faber lignarius", of meer woorden bijv. "hulp in de huishouding", "molenaar Ten Bruggencatenummer 06425", "knecht bij boer Jansen", "lintje in de orde ...". Veld Beroep is vervuild geraakt door ook vertalingen en/of plaatsnamen op te nemen. Ben bezig het veld te fatsoeneren qua plaatsen en vertalingen, maar scheidingsteken blijft voor mijn bestand de beste manier om frequentie van beroepen te meten. 

Jaartallen die eruit gefilterd zouden moeten worden kunnen ook de vorm hebben van 'n periode, bijv. 1810-1849. 

Misschien kun je mensen die veld Beroep als tekstveld aanleveren laten kiezen welk scheidingsteken gebruikt moet worden?

Pauline Berens EBBI - 23 jan 2022 - 16:43 (laatst bijgewerkt 24 jan 2022 — 16:33 door auteur)

Als je naar de GEDCOM specificatie kijkt, dan is een OCCUpation een beroep (enkelvoud) en je kunt per INDIvidual meerdere OCCU's hebben. Hierdoor verwacht ook Genealogie Online eigenlijk één beroep in een OCCU tegen te komen.

Is er in PRO-GEN één veld "Beroepen" of kun je een lijst opvoeren (dus meerdere regels elk met één beroep)?

Bob Coret - 9 feb 2022 - 17:11

Pro-Gen kent 1 veld Beroep, het is 'n tekstveld. In de GEDCOM is beroep 1 tag OCCU, bijv. bij ID 12592:

1 OCCU 1857 Ackerssohn, 1860 Ackersmann, 1874 Colonist Witwer, 1884 Colonist

Afbeeldingen zijn alleen zichtbaar als u bent ingelogd op het Stamboom Forum

Pauline Berens EBBI - 10 feb 2022 - 09:51 (laatst bijgewerkt 10 feb 2022 — 10:34 door auteur)

Doordat PRO-GEN maar één invoerveld heeft voor beroepen maakt dit het geheel wel lastig. Je wilt liever per beroep een invoerveld, waarbij je los de informatiebrokjes als datum/periode en plaats opgeeft èn notities, afbeeldingen en bronvermelding(en)! Zo is het in GEDCOM gemodelleerd.

> 1 OCCU 1857 Ackerssohn, 1860 Ackersmann, 1874 Colonist Witwer, 1884 Colonist

Op basis van een dergelijke tekenreeks zou ik - voor de statistieken - alle getallen kunnen verwijderen en opdelen op waar de komma's staan. Maar als iemand dan Molenaar op de Wijdemolen in Rijswijk, Zuid-Holland krijg je met dit "algoritme" dus de beroepen "Molenaar op de Wijdemolen in Rijswijk" en "Zuid-Holland" :-)
 

Bob Coret - 24 mar 2022 - 15:10


Tja, het was het proberen waard, maar ik begrijp dat 't lastig is. Ik trek m'n voorstel in. Bedankt voor de tijd die je in het onderwerp hebt gestoken.

Pauline Berens BC - 24 mar 2022 - 16:09







De auteur van het eerste bijdrage in dit bericht heeft aangegeven dat de vraag is beantwoord of het probleem is opgelost.

Plaats een reactie

Om reacties (en nieuwe onderwerpen) te plaatsen op het Stamboom Forum dient u eerst in te loggen! Nog geen lid? Registratie is gratis en snel!


Inloggen Registreer nu