stamboomforum

Forum logoFora » FamilySearch en Zoekakten » XMLs van familysearch met URLs van images

Wow, dat is al een hele verbetering, overzichtelijk en bespaart een hoop geklik en wachttijd !!

 

Ik begrijp dat je nog bezig bent en neem mijn petje voor je af dat je dit realiseert maar zou je op voorhand heel Zuid-Holland alvast op deze manier kunnen indexeren, ik zie daar nu alleen nog maar de grote plaatsen terwijl hier http://pilot.familysearch.org/recordsearch/start.html#p=waypoint&s=waypointsOnly&c=fs%3A1576401&w=0 de rest van de plaatsen staat.

 

Succes met verder ontwikkelen van dit initiatief.

 

M.vr.gr.

 

Leo Terlouw

 

Leo Terlouw

Bij mij werken de kliks niet altijd of worden  niet alle plaatsen van een provincie getoond, laat ik nu net in Zwollekerspel geinteresseerd zijn. Ik gebruik Firefox 3.6.7 op Linux.

Jo Pol

Ik hoop dat het iedereen duidelijk is dat dit de gegevens van FamilySearch zijn. Ik lees hun gegevens in en laat die zien, that's it. Ik indexeer niets.

Als FamilySearch Gelderland toevoegt zal die automatisch in mijn script te zien zijn, maar Gelderland is nog niet in FamilySearch te zien. Dus ook niet in mijn script.

Dat Zwollekerspel niet getoond wordt is een fout. Mijn script laat de laatste paar items in een lijst niet zien. Ga ik naar op zoek.

Andere ideeën?

Jerry

Jerry van Kooten

Hm, de XMLs bevatten steeds maar 50 records... Dus 50 plaatsen per provincie, 50 bronnen per plaats...

Curieus, maar ik ga op zoek...

Jerry van Kooten

OK, probleem met maximaal 50 records is opgelost. Zwollekerspel staat erin! ;)

Jerry van Kooten

familysearch heeft twee xml-files waar provincies in staan, zie http://fam-pol.wikispaces.com/familysearch#Shortcuts%20to%20familysearch-links-Provincies

Jo Pol

nog een ideetje:

als het indexeer werk in deze groep aangevuld wordt met het aantal actes per pagina, dan zou je met invullen van jaartal en actenr automagisch ongeveer op de juiste pagina uit moeten kunnen komen:

acte nr

--------------------------------  +  start pagina van het jaar

actes per pagina

Jo Pol

Jo, bedankt voor de tips. Ik zal die tweede XML meenemen.

Je tweede tip klinkt goed, maar is lastig om te zetten naar een algemene regel - ik heb al veel uitzonderingen gezien. Ik denk dat een makkelijke manier van commentaar per afbeelding toevoegen makkelijker is.

Jerry

Jerry van Kooten

Ik gaf met m'n formule vooral een werkwijze weer waar ik mezelf op betrapte. Had even niet goed tot me door laten dringen dat je een annotatie database gaat maken.

Ik hoop dat je je database onafhanklijk maakt van de xml files. Je kunt deze files wel gebruiken als extra ingang voor die plaatsen/registers die nog niet geannoteerd zijn. Uit de uitleg over waypoints krijg ik het gevoel dat de xml files in principe tijdelijk zijn. Oftewel dat plaatsen weer zouden kunnen verdwijnen. Als er tenminste vrijwilligers zijn die e.e.a. willen indexeren, ik zag ergens in de forums al iemand die Amsterdam wilde oppakken.

Nadat de index op Overijssel en Utrecht weer werkte, bleven de matches die gevonden waren voor mijn stamboom nog een poos niet werken, inmiddels is dat ook weer gefixt. De waypoints kunnen kennelijk ook 'zomaar' wijzigen, die dus vooral niet in je database opslaan.

Misschien heb je het allemaal zelf al verzonnen, maar ik zou denken aan de volgende database:

  • per film:
    dgs-nummer, de plaatsen, daarbinnen de (ssorten?)registers/boeken en daarbinnen de jaartallen die op de film voorkomen
  • per afbeelding:
    nr binnen dgs film (niet van het familysearch bladerscherm!), plaats, datum/jaar, soort acte/index (geb, huw, overl, ...), act nr,
    is de afbeelding een bijlage dan genoemde gegevens (voor zover beschikbaar) van de originele acte, als van de acte waar het bij hoort.
De gegevens per film kun je in eerst instantie afleiden uit de xml files, van tijd tot tijd controleren of er aanvullingen zijn. Op een van de eerste afbeelding (vaak nr 3) staat vaak ook wat er volgt. Door annotaties per afbeelding kun je deze gegevens eventueel verfijnen.

Al met al een serieuze applicatie. Kun je straks het verkeer aan als het populair wordt? Wat als het eenmaal populair is en je tegen een boom rijdt? Het is zonde als er hier mensen veel tijd in steken als het zomaar weer uit de lucht kan verdwijnen.

Jo Pol

Mijn script http://familie.jvkooten.info/fs/ laat nu alle Nederlandse collecties zien waar afbeeldingen van zijn:

 

Netherlands, Zuid-Holland Province, Civil Registration, 1811-1942
Netherlands, Noord-Brabant Province Population Registers, 1820-1930
Netherlands, Gelderland Province Civil Registration, 1811-1950
Netherlands, Limburg Parish Register Transcripts, 1600-1822
Netherlands, Civil Registration, 1792-1952

 

Die onderste is de collectie met onderverdeling in provincies.

Jo, ik ben inderdaad van plan de XML alleen als bron voor de database te gebruiken. Alle items worden in de database gezet en krijgen een eigen ID. Annotaties komen in de database op ID te staan. Als er bronnen bijkomen, worden de XMLs weer gelezen en nieuwe toegevoegd. Oude zullen niet zomaar verwijderd worden.

Als waypoints veranderen zouden de bronnen van een plaats bijvoorbeeld dubbel in de database kunnen komen omdat dat als een nieuwe plaats gezien wordt. Ik hou wel bij wat de FS-nummers en waypoint-nummers zijn. Als nieuwe records met nieuwe waypoint-nummers eigenlijk hetzelfde zijn, zou ik de bestaande annotaties naar de nieuwe waypoint-nummers kunnen laten wijzen.

Als alle waypoints in de database staan laat ik mijn script alleen nog uit de database lezen. Dat gaat veel sneller. Een apart refresh-script dat ik af en toe zal starten zal dan de FS-XMLs opnieuw kunnen inlezen en in de database zetten.

Database is er, de importmodule ook, ik zal logins maken zodat we met een paar mensen de indexeringen kunnen invoeren als annotaties.

Groeten,

Jerry

Jerry van Kooten

Uiteindelijk gaat het om de afbeeldingen. Als de URL van de afbeeldingen niet verandert, blijven de annotaties aan de afbeeldingen gekoppeld.

Jerry

Jerry van Kooten

Het script op http://familie.jvkooten.info/fs/ is geupdate. Het script zoekt nu eerst in de database. Als een lijst nog niet in de database staat zoekt het de XML van familysearch en zet die in de database. Resultaat is dat de XML maar één keer wordt opgehaald en daarmee het laden veel sneller is geworden.

Ook wordt dit de basis voor notities. Mensen met interesse krijgen van mij straks een naam en wachtwoord en kunnen dan per item (collectie, provincie, plaats, bron, afbeelding) een notitie maken die voor iedereen te zien is. Meeste notities zullen zijn voor afbeeldingen:

  • geboorten 1813, voorkant
  • overlijdens 1814, index
  • tienjarentafels huwelijken 1840

Maar ook de andere items kunnen notities krijgen. Ik wil in ieder geval alle indexeringen uit dit subforum overnemen als mensen dat goed vinden.

Daarna ga ik eens kijken naar een script waarmee ik kleine afbeeldingen kan ophalen en opslaan, zodat het indexeren veel sneller kan gebeuren.

Jerry

Jerry van Kooten

Misschien een rare vraag, maar mogen we de code van je script bekijken?

Als we er een forum aan hechten, kunnen we er allemaal aan werken?

Gershon Lehrer

Misschien een rare vraag, maar mogen we de code van je script bekijken?

Als we er een forum aan hechten, kunnen we er allemaal aan werken?

voor geïnteresseerden kunnen ze het script op hun eigen systemen installeren zodat ze de uwe niet overbelasten.

De reden van mijn vraag is eigenlijk dat ik me niet enkel tot Nederlandse archieven wil beperken, maar ook andere landen.

Gershon Lehrer


Gershon, ik snap wat je bedoelt. Ik kan het script natuurlijk wel posten, maar ben er nog niet klaar mee. Ook zou je dan op meer plaatsen kunnen werken aan dezelfde gegevens, wat ik met zo'n script juist probeer te voorkomen. Met anderen eraan werken zie ik niet zitten, ik heb genoeg professionele ervaring om te weten dat je dat alleen moet doen als je alles van tevoren goed hebt gedocumenteerd. Dat is natuurlijk niet het geval met zo'n hobby-projectje. Een forum eraan hangen zou kunnen, maar met dit subforum vind ik dat wat overkill. Zie straks maar, het laat gewoon de bronnen zien die FS heeft maar dan sneller en met de mogelijkheid notities toe te voegen. Misschien later kleine afbeeldingen om sneller te indexeren, verder niks.

Ik zal eens nadenken over het toevoegen van andere landen. Ik lees de XML met alle bronnen al, dus technisch is het geen probleem. Overbelasten is voorlopig geen probleem, het is maar een klein script en de database is vrij efficient opgezet.

Als ik afbeeldingen zou gaan toevoegen, dan wordt het een ander verhaal natuurlijk. Maar laat ik eerst eens kijken hoeveel ruimte dat gaat innemen...

Bedankt voor het meedenken, trouwens. Wordt gewaardeerd!

Groeten,

Jerry

Jerry van Kooten




Plaats een reactie

Om reacties (en nieuwe onderwerpen) te plaatsen op het Stamboom Forum dient u eerst in te loggen! Nog geen lid? Registratie is gratis en snel!