viernes, 3 de octubre de 2025

Descargar un sitio web con wget, opciones mejoradas y limitaciones

Voy a poner algunos ejemplos útiles del comando wget, si conocéis más podéis ponerlos en los comentarios:

  • Descargar archivos sueltos de Internet: simplemente pasánles su ruta completa en la red:
    wget http://www.sitioinventado.com/recurso.mp4

  • Continuar la descarga por donde se quedó:
    wget -c http://www.sitioinventado.com/recurso.mp4
    Con este parámetro, si se ha interrumpido la descarga continuará por donde se quedó en lugar de empezar por el principio.
    No debes usarlo si el archivo va cambiando de versión, pues en el mejor de los casos no hará nada y seguirás con la versión antigua.

  • Descargar un sitio web estático NO protegido:
    wget -rkc http://www.sitioinventado.com
    En esta caso pasamos varios parámetros:
    • -r : descarga recursiva
    • -k: convierte los enlaces en rutas relativas para navegar por el sitio descargado sin ir a Internet.
    • -c: continuar si se ha interrumpido el comando previamente.

  • Descargar un sitio web estático protegido por robots:
    wget -e robots=off -r -np  --page-requisites --convert-links http://www.sitioinventado.com
    En esta caso, aparte de los parámetros ya vistos pasamos algunos nuevos:
    • - e: ejecuta un comando, en este caso robots=off, para hacer caso omiso al archivo robots.
    • - np (--no-parent): Descarga recursiva en la que no descarga los archivos que están por encima de la ruta indicada.
    • -- page-requisites
    • -- convert-links: convierte los enlaces en rutas relativas para navegar por el sitio descargado sin ir a Internet (igual que -k).

  • Descargar archivos sin chequear el certificado:
    wget --no-check-certificate http://www.sitioinventado.com/recurso.mp4
    Esto puede tiene algún riesgo si no es un sitio confiable.

  • Profundidad ilimitada en los enlaces de descarga:
    wget -rkc -l 0 http://www.sitioinventado.com
    Por defecto el nivel máximo de profundidad es 5, pero lo podemos cambiar con el parámetro -l, si ponemos 0 significa profundidad ilimitada.

  • Simular que estamos descargando desde un navegador:
    Hay algunos sitios que solo nos permiten descargar si en la cabecera de la petición ven que estamos accediendo desde un navegador, eso también se puede simular:
    wget http://www.sitioinventado.com/recurso.mp4 --header="User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"


Todas estas opciones las puedes combinar según tus necesidades.

No hay comentarios:

Publicar un comentario