stamboomforum

Forum logoFora » FamilySearch en Zoekakten » FS: downloaden?

Dag Jerry,

Werkt perfect, ben dan ook zeer blij met je script want het bespaart heel wat werk, nl. eerst zelf lijstjes te maken om te downloaden.

Om te testen heb ik een klein aantal afbeeldingen gedownload, nl. tienjarige tafels met 42 afbeeldingen.

Start link via www.genver.nl (Zuidbroek (Gron) tienjarige tafels 1883-1892)

https://www.familysearch.org/pal:/MM9.3.1/TH-1-19077-46033-52

Na deze link te hebben ingevoerd in jouw script krijg ik een lijstje met 42 afbeeldingen, vervolgens met DTA 44 bestanden, waarvan de eerste na downloaden verwijst naar www.genver.nl

en de laatste naar

https://www.familysearch.org/pal:/MM9.3.1/TH-1-19077-46033-52/meta 

Is verder geen probleem want de overige zijn de afbeeldingen waar het om gaat! Nu wachten op de bestelde externe harde schijf en het downloaden kan weer beginnen zolang fs niet op zwart gaat.

groet,

Anneke

A. Kruizinga

Leo, ik kan het probleem iig reproduceren, dus ga op zoek naar een oplossing.

Anneke, tijdsbesparing is altijd het doel van automatisering geweest! ;) Blij dat het ook voor jou handig werkt. Ja, ik snap wat je bedoelt: DTA haalt ook die eerste twee links op. Ik heb dat opgelost door in DTA een Quick Filter in te stellen. Dat is een optie onderaan het DTA-scherm, moet je geloof ik eerst openklappen, maar dan krijg je een tekstvak waar je dus een Quick Filter kunt invoeren. Als je daar dit invoert:

*dist

dan selecteert DTA alleen de afbeeldingen en niet die andere twee links. Hij onthoudt dat, trouwens. Volgende keer kun je op een pagina de optie "DTA one click" kiezen.

Ik heb het script trouwens weer iets aangepast. De omschrijving is nu stad-collectie-volgnummer.jpg. De URL is natuurlijk gelijk gebleven. In DTA heb je nu meer mogelijkheden om de uiteindelijke bestandsnaam te kiezen. Als mensen daar hulp bij nodig hebben kan ik wel wat uitleg geven.

Jerry

Jerry van Kooten

Dag,

FS is weer eens aan het veranderen geweest. De links zoals die nu worden getoond werken niet meer in je script Huilen

Link was:

https://www.familysearch.org/pal:/MM9.3.1/TH-1-19077-46033-52

is nu:

https://www.familysearch.org/pal:/MM9.3.1/TH-1-19077-46033-52?cc=1831469&wc=10702311

Krijg dus bij het invoeren van bovenstaande link de volgende melding:

URL voor XML: https://www.familysearch.org/pal:/MM9.3.1/TH-1-19077-46033-52/meta?cc=1831469&wc=10702311/meta
Aantal afbeeldingen:
DGS:

alle afbeeldingen voor tussen 0 en -1:

Hoop dat dit ook weer op te lossen is.

groet,

Anneke

A. Kruizinga

Valt mee hoor, Anneke. Die ?cc=... moest weg, maar ik heb het aangepast.

Let op, Jakkes liet me zien dat het niet altijd goed hoeft te gaan. Je moet er namelijk zelf op letten dat je de URL van de *eerste* afbeelding plakt, anders (A) mis je wat en (B) krijg je afbeeldingen aan het einde die van een andere serie zijn. Ik kan dat wel oplossen, maar heb nu even geen tijd. Komt snel.

Groeten,

Jerry

Jerry van Kooten

 

<KNIP>

Leo Terlouw

Kleine aanpassing gemaakt, maar nog even opgeslagen onder een andere URL:

http://familie.jvkooten.info/fs/newlink2.php

Hier zie je een tekstvak waar je meerdere links tegelijk in kunt zetten.

Let op dat voor elke link een XML gedownload en gelezen moet worden. Hoewel de time-out op het script uit staat kan het lang duren of een server-error optreden. Zou ik kunnen oplossen door elke URL apart te lezen, maar dit was sneller.

Groeten,

Jerry

Jerry van Kooten

Jerry, het ziet er erg goed uit! Ik moet eerst nog even een nieuwe harde schijf bestellen, maar daarna ga ik helemaal los op jouw script!!! Hebberig

Vera Hubers

Als test is er een derde versie:

http://familie.jvkooten.info/fs/newlink3.php

Hier kun je hele stukken HTML invoeren. Het script haalt daar dan vanzelf de URLs uit. Ik heb bijvoorbeeld voor Winkel (NH) de bron van de pagina van genver.nl gekopieerd, ziet er dan zo uit (paar regels gekopieerd):

...

<td align="RIGHT">8228201</td><td><a href="https://www.familysearch.org/pal:/MM9.3.1/TH-1-17399-79908-70?cc=1831469&wc=10754391" target="new">Tienjarige tafels 1843-1882</a> [124 img = ± 3 per jaar]</td><td></td></tr>
<tr><td align="RIGHT">10754392</td><td><a href="https://www.familysearch.org/pal:/MM9.3.1/TH-1-19219-23821-18?cc=1831469&wc=10754392" target="new">Tienjarige tafels 1883-1902</a> [101 img = ± 5 per jaar]</td><td></td></tr>

...

En dat lijkt ook goed te gaan. Scheelt nog meer werk, je kunt nu nog makkelijker een hele plaats downloaden. Nogmaals, is nog ter test, ik kan niet beloven dat het altijd werkt. En ook hier geldt: zomaar mogelijk dat je een timeout krijgt (hoewel ik die heb uitgezet) of een server error als het te lang duurt. Probeer maar, ben benieuwd!

 

Jerry

Jerry van Kooten

Beste Jerry,

je maakt het me makkelijk met je eerste script (newlink1) maar met newlink3 wordt het nog veel sneller en eenvoudiger.

FS zal (door jouw script) wel zien dat hun netwerkstatistieken opeens anders deruit zien Lachen

Nu hopen dat FS de site nog niet meteen op zwart gooit....

Peter

Peter Witte

Hallo Jerry,

bedankt voor al jouw inspanningen. Ik heb de laatste week hierdoor regelmatig een serie kunnen downloaden.

Alleen vandaag kreeg ik het probleem dat na invoering van de URL in het scripte ik de volgende melding kreeg:

FS-URL: https://www.familysearch.org/pal:/MM9.3.1/TH-1-17399-79908-70?cc=1831469&wc=10754391
URL voor XML: https://www.familysearch.org/pal:/MM9.3.1/TH-1-17399-79908-70/meta
Aantal afbeeldingen: (van 0 tot en met -1)
DGS:

-



FS-URL: https://www.familysearch.org/pal:/MM9.3.1/TH-1-19219-23821-18?cc=1831469&wc=10754392
URL voor XML: https://www.familysearch.org/pal:/MM9.3.1/TH-1-19219-23821-18/meta
Aantal afbeeldingen: (van 0 tot en met -1)
DGS:

-

Deze melding kreeg ik bij het invoeren van uw voorbeeld stukje tekst. Ik heb het geprobeerd in IE 9.0 en Mozilla. Wat gaat er nu mis?

Harry

JH Bruger

FS heeft zoals jullie hebben gemerkt iets gewijzigd. Ik kan met mijn script de XML niet meer lezen, terwijl die wel in de browser op te vragen is. Ik zal eens kjiken of ik daar iets aan kan doen.

In de XML staat nu dit bovenaan:

COPYRIGHT WARNING Data accessible through the FamilySearch API is protected by copyright. Any programmatic access, reformatting, or rerouting of this data, without permission, is prohibited. FamilySearch considers such unauthorized use a violation of its reproduction, derivation, and distribution rights. Contact devnet (at) familysearch.org for further information.

Tja, programmatic access klopt natuurlijk wel. Reformatting - nee, dat is het niet. Rerouting - geen idee.

Het is mogelijk dat ze mijn domein blokkeren. Vrij makkelijk voor ze.

Als dat het probleem is, kan ik alleen nog maar een offline-versie maken die iedereen zelf moet draaien. Daarmee is iedereen ook zelf verantwoordelijk voor bovenstaande copyright-regel. En dat maakt het voor mij weer makkelijker, want ik wil natuurljk geen problemen met dit soort organisaties. ;)

Groeten,

Jerry

Jerry van Kooten

opgelost 

Herman

Same here. Ik krijg een 301 (moved permanently) als ik de XML via een script probeer te lezen, terwijl de XML wel in de browser te openen is. Misschien met een cookie te doen? Geen idee, te weinig ervaring mee.

Wat nog wel zou kunnen is een script dat de URLs van de XML ophaalt. Die kun je downloaden. En dan meer XMLs tegelijk uiteraard.

Dan een ander script dat uit een XML (of meer XMLs tegelijk, of een ZIP met XMLs) de urls voor de afbeeldingen genereert. Is dus twee stappen en wat omslachtiger.

Ik heb alleen voorlopig de tijd niet om hier aan te werken...

Jerry

Jerry van Kooten

Ik heb mijn script een heel klein beetje aangepast:

http://familie.jvkooten.info/fs/newlink3.php

Het laat nu de URLs van de XMLs zien. Zo kun je bijvoorbeeld nog alle XMLs van een hele stad in één keer downloaden. Zoals ik al zei heb ik de tijd niet om de gedownloade XMLs om te zetten in lijsten URLs van afbeeldingen. Daar zou iemand anders in moeten springen.

Succes.

Jerry van Kooten


Everardus Rollema




Plaats een reactie

Om reacties (en nieuwe onderwerpen) te plaatsen op het Stamboom Forum dient u eerst in te loggen! Nog geen lid? Registratie is gratis en snel!