Hop là : je me suis lancé dans la folle aventure du téléchargement du contenu du site sur la Wayback machine !
J’ai utilisé un programme en CLI écrit en Ruby appelé Wayback Machine Downloader.
Ça marche plutôt bien. Ce qui est intéressant avec l’archive des sites Web, c’est qu’elles sont datés. Du coup, on peut spécifier une plage temporelle des « snapshots » parmis lesquel on veut télécharger. Mais comme je voulais être sûr d’avoir tout les fichiers, au final, j’ai mis l’option -s
pour télécharger parmi toutes les sauvegardes.
Au début j’ai cru que j’étais le roi du pétrole. J’ai activé l’option -c 10
qui permet de faire 10 téléchargements par seconde en parallèle. Malheureusement quand j’ai ouvert les fichiers, j’ai vu que c’était pas vraiment mes fichiers. 😟 La plupart contenaient des 429 Too Many Request
.
Finalement, en ajustant à -c 2
, donc deux téléchargement par seconde, ça fonctionne parfaitement !
Pour l’instant j’ai récupéré toutes les textures et les images clipart. Ça représente à peu près 20000 fichiers, mais ils sont tous très léger donc ça pèse pas bien lourd.