Aspirer un site web

Linux

Il arrive toujours un moment, où vous en avez marre d'avoir à retourner chercher des informations sur un site web distant très lent ou quand vous êtes offline... Vous l'utilisez tellement souvent, que vous arrivez à rêver de l'avoir en local.

Malheureusement, toutes vos tentatives échouent, surtout à cause d'un fichier robots.txt très peu permissif, qui interdit certains User-Agent, comme votre WGET préféré.

Mais, il y a une solution :

wget -k -w 1 -e robots=off --user-agent="" -m http://votre_URL


Grâce à cette commande vous pouvez donc aspirez (faire un miroir) l'ensemble du site pour une consultation off-line.

Il est important de laisser le "-w 1" qui permet de laisser 1 seconde entre chaque requête sans quoi, vous risquez de saturer le site Web, et ce n'est pas très sympa.

Le "--user-agent=""" permet de supprimer les limitations côté serveur (assez rare, mais, on ne sait jamais). Il peut être remplacer par un User-Agent de navigateur comme Internet Explorer ou Firefox.

Le "-m" permet d'indiquer que nous souhaitons faire un miroir du site.

Le "-k" permet de modifier les liens pour que les urls pointent en local.

Dans le cas où des éléments du site sont réparti sur plusieurs domaines (les images sont sur un autre domaine que le site principal, par exemple : img.votresite.com), il vous faut ajouter les options "-H -D www.votresite.com,img.votresite.com"

Rétroliens

    Pas de rétroliens

Commentaires

Afficher les commentaires en (Vue non groupée | Vue groupée)

  1. pouf says:

    Merci pour l'astuce, je l'ai tellement cherché.


Ajouter un commentaire


Les adresses Email ne sont pas affichées, et sont seulement utilisées pour la communication.
To leave a comment you must approve it via e-mail, which will be sent to your address after submission.
Marquer un texte en gras: *mot*, souligner un texte: _mot_.
Les smilies standard comme :-) et ;-) sont convertis en images.
Syntaxe BBCode autorisée
De quel couleur est le cheval blanc d'Henri 4 ?