Lister les urls d'un site web avec wget

wget

Récupérer la liste des Urls d'un site web dans un fichier texte
 

Wget est installé par défaut dans les dernières versions d'Ubuntu. Cependant, si ce n'est pas le cas, il suffit d'installer le paquet wget. Il est possible de définir certaines des options ci-dessous dans le fichier personnel « .wgetrc ».

Pour récupérer la liste des Urls d'un site web dans un fichier texte, exécuter la commande suivante:

wget --no-verbose --recursive --spider --force-html --level=1000 --no-directories --reject=jpg,jpeg,png,gif,js,css,PNG,JPG www.docenligne.com 2>&1 | sort | uniq | grep -oe 'http://[^ ]*' > resultat2.txt -n

https://doc.ubuntu-fr.org/wget

Les arguments:

--no verbose:

Le programme ne retourne pas d'informations spécifiques dans la console pendant son exécution

--recursive:

Le programme parcourt l'arborescence du répertoire et copie le contenu vers la sortie

--spider:

option qui exclut le téléchargement du contenu des pages web

--force-html:

Le contenu sera considéré comme du HTML

level = 1000:

Indique la profondeur avec laquelle on veux parcourir l'arborescence

-- no-directories:

La sortie ne créera pas une arborescence, tous les fichiers seront sauvegardés dans le répertoire courant

--reject:

Permets de filtrer des résultats en fonction de leurs extensions

2>&1:

Les erreurs (stderr), sont redirigées vers la sortie (stdout)

sort:

Les résultats sont triés

uniq:

Supprime les doublons

grep -eo: 

Filtre les résultats à partir d'une expression rationnelle

> resultat2.txt -n:

Le résultat est écrit dans un fichier texte, chaque ligne est numérotée