Sunteți pe pagina 1din 10

Ejemplos prcticos para descargar archivos de internet

con WGET

Cdigos para copiar y pegar que permiten y facilitan usar WGET para descargar
archivos, pginas web o sitios completos desde internet. Trucos y consejos tiles
cuando se posee una conexin de red lenta o cuando los archivos a descargar son
grandes.
WGET, indiscutiblemente es la mejor opcin
disponible al usuario para descargar cualquier tipo
archivo de internet, ya sea un grupo de imgenes,
una pelcula, una pgina web con todos sus
elementos o un sitio web o solo parte de este. A sus
caractersticas se suma el hecho de que es gratis,
software libre y por lo tanto totalmente configurable.
La nica desventaja de WGET (nada es perfecto) es
carecer de interface de usuario y hay un gran nmero
de usuarios que sienten pnico y aversin, a usar la
lnea de comandos.
El objetivo de esta pgina es tratar de facilitar a
esos usuarios y otros que no poseen la habilidad
suficiente, el uso de WGET y contribuir a la
expansin de su uso que no cuenta con la promocin que merece.
En una pgina anterior Como usar WGET para descargar archivos de internet, se abordan
todas las caractersticas de esta minscula aplicacin, diseada para la descarga de
archivos de Internet utilizando el mismo protocolo de las pginas web, o sea HTML,
aunque tambin puede usar FTP.
En ella se mencionan todas las ventajas que nos proporciona su uso, el objetivo de esta
pgina es solo ofrecer los cdigos para poder utilizar WGET de forma sencilla, til
principalmente a los que no estn adiestrados en el uso de la lnea de comandos de
Windows.
Todos los ejemplos permiten ejecutar tareas tiles con WGET, solo escoge el que te sea
de utilidad y sustituye las direcciones web necesarias.

Cmo usar los cdigos de ejemplos de WGET?

Descarga el ejecutable de wget (puedes hacerlo usando los vnculos al final de esta
pgina), descomprimirlo y el archivowget.exe copiarlo o moverlo a la carpeta
"C:\Windows" o a: "C:\Windows\system32".
Al tenerlo en cualquiera de esos dos directorios se podr ejecutar mediante la lnea de
comandos, con todas las opciones y parmetros que se indiquen desde un archivo
batch o directamente en la consola de CMD.
Crea un archivo batch con el cdigo necesario.
Para eso solo copia y pega el cdigo al Bloc de notas, cirralo, guarda los cambios y
renombra el archivo, de forma tal que tenga la extensin de archivo .CMD, en vez de la
clsica .TXT.
Carga una infografa que muestra un ejemplo prctico: Ver infografa del uso de WGET
Lgicamente el ltimo requisito es la direccin web de la ubicacin del archivo, de la
pgina o del sitio web, se puede obtener copindolo de la barra de direcciones del
navegador o de un vnculo existente en una pgina.

Tips, consejos y trucos para WGET


En WGET algunas opciones son totalmente diferentes si se usan en minscula o
mayscula, por ejemplo no es lo mismo -o que -O.
Wget admite dos formas de usar las opciones, el nombre completo o abreviado, en
esta pgina solo se emplean las opciones abreviadas, en la pgina que se mencion
anteriormente: Como usar WGET para descargar archivos de internet, se puede
consultar la tabla donde aparecen listadas todas.
Usando una lnea con el comando pause en el final del archivo batch creado,
permitir hacer una pausa en la consola y as mostrar el resultado, en los casos de
que a causa de errores se cierre esta rpidamente y no sea posible saber el por qu.
El uso de la lnea: @echo off en los archivos batch es opcional, funcionarn de todas
formas sin dicha lnea, solo se emplea para evitar que aparezca siempre la ruta con la
ubicacin desde donde se ejecuta el batch.
En los siguientes ejemplos, en los casos en que sea posible, se utilizarn direcciones de
este mismo sitio web, las descargas de archivos no se incluyen ya que no funcionarn, al
estar este servidor protegido contra el hotlinking y darn en ese caso un mensaje de
error.

Ejemplos de descargas de archivos con WGET

Ejemplos de descargas de archivos con WGET


Descarga simple de un archivo mostrando las peticiones y respuestas del servidor
Usando con wget la opcin -S, este muestra todas las peticiones enviadas por la
aplicacin y las respuestas enviadas por el servidor web, de esta forma tambin se
pueden conocer los encabezados o HTTP headers de una pgina.
La opcin -d activa el modo desarrollador, lo que hace que se vea toda la informacin
disponible.
En los siguientes ejemplos se pueden comprobar las dos opciones, descargando en el
primero una imagen y en el otro una pgina web.
@echo off
wget -d -S http://www.insmet.cu/Pronostico/tv06.jpg
wget -d -S http://norfipc.com/facebook/index.html

Descarga simple de un archivo con el informe creado en un log


Al utilizar la opcin "-o log.txt" en wget, se crear un archivo de texto nombrado "log.txt"
u otro nombre que se desee, en el mismo directorio donde se ejecute el batch.
En dicho archivo quedar registrado todo el informe de la operacin.
En estos casos la consola no mostrar nada.
@echo off
wget http://download.mozilla.org/?product=firefox-3.6.8&os=win&lang=es-ES -o log.txt

En los siguientes ejemplos se incluye la opcin: "-o log.txt" en todos, para facilitar la comprobacin de
la operacin al finalizar.
Al ejecutarse otro batch el archivo log ser sobrescrito, tambin puede emplearse la opcin -a, en
este caso se agrega la informacin al archivo ya creado.
No obstante puedes quitar la opcin si as lo deseas.

Descarga segura de archivos de internet


Al mismo ejemplo anterior se adiciona la opcin: "-c", para lograr que en caso un error en
la conexin, al restablecerse esta prosiga en el mismo punto en que se detuvo.
Es la opcin ideal al tener necesidad de descargar archivos grandes, ms cuando se trata
de una conexin de internet lenta e inestable como son las conexiones dialup.
wget -c http://technet.microsoft.com/en-us/sysinternals/bb842062.aspx

En este caso si se interrumpe la descarga accidentalmente o de forma intencional, se


puede continuar exactamente desde el punto en que se interrumpi.

Proseguir una descarga y asegurarse de no volver a descargar archivos


Un caso parecido es cuando se realiza la descarga de varios archivos diferentes, se
cancela la operacin y se prosigue otra ocasin, en ese caso se puede usar la opcin: "nc" para impedir que se descarguen de nuevo archivos que ya estn en el equipo.
En este ejemplo se utilizan adicionalmente las opciones:
-r descarga recursiva
-A especificar solo el tipo de archivos a descargar
1- Comenzamos con la descarga:
wget -c -r -A .jpg http://sitio.com/ -o log.txt

2- Para continuar usamos:


wget -nc -r -A .jpg http://sitio.com/ -o log.txt

Descarga de varios archivos cuyos vnculos estn en un archivo de texto.


En este caso solo es necesario usar la opcin: "-i" seguida de la ruta del archivo a
descargar.
Se puede utilizar cuando es necesario descargar varios archivos o paginas diferentes, se
relacionan la direcciones URL necesarias, no importa cuntas, en un sencillo archivo
creado con el Bloc de notas y se referencia su nombre en el archivo batch.
En este ejemplo se hace referencia a un archivo nombrado: "link.txt"
wget -i link.txt -o log.txt

Filtrar las descargas de archivos con WGET


Al usar wget en descargas recursivas, lgicamente la aplicacin bajar una multitud de
archivos que puede no sean necesarios y consuma un tiempo excesivo la operacin
necesaria.

En esos casos es posible filtrar y solo descargar el contenido verdaderamente til, para
eso se pueden usar opciones diferentes.

Descargar solo los tipos de archivos seleccionados


La opcin: "-A" permite especificar a continuacin y separados por comas los tipos de
archivos que solo se necesitan descargar.
wget -r -A .gif http://sitio.com -o log.txt

Descargar solo archivos filtrados por su nombre


Otra forma de usar -A (accept) para filtrar archivos es por su nombre.
En el siguiente ejemplo se descargan del servidor solo los archivos cuyos nombres que
comiencen con el trmino: "foto", por ejemplo: foto01, foto-linda, etc. (Usa las comillas y
el asterisco)
wget -r -A "foto*" http://sitio.com -o log.txt

Seleccionar que tipos de archivos no se deben descargar


La opcin: "-R" permite especificar a continuacin y separados por comas los tipos de
archivos que sern rechazados ya que no se desean descargar.
wget -r -R gif,png,js http://sitio.com -o log.txt

Descargar archivos solo de directorios especficos


La opcin: "-I" permite especificar los directorios de los que solo se descargarn archivos
al utilizar el modo recursivo.
wget -r -I /web,/internet http://norfipc.com/ -o log.txt

Especificar donde se guardarn los archivos descargados


La opcion: "-P" permite especificar donde se almacenarn los archivos descargados, si la
carpeta no existe wget la crear.
wget http://norfipc.com/facebook/index.html -P descargas -o log.txt

Descargar un mismo archivo regularmente, solo si existe una versin ms reciente


Una de las caractersticas ms tiles de wget es el uso de la opcin: "-N"
(timestamping).
Si en nuestro equipo existe ya un archivo igual al que se quiere descargar, solicita al
servidor la fecha de la ltima modificacin del archivo solicitado (last-modified date) y
solo si es ms reciente del que se posee se descarga.
El ejemplo permite descargar regularmente una foto de satlite meteorolgico, solo si
existe en el servidor una versin ms reciente de la que obra en nuestro poder.
wget -N http://www.ssd.noaa.gov/goes/east/carb/vis.jpg -o log.txt

Renombrar archivos
La opcin "-O" (output) permite cambiar el nombre de un archivo descargado.
En el siguiente ejemplo se renombra el archivo original: "vis.jpg" a: "satelite.jpg".
wget -O=satelite.jpg http://www.ssd.noaa.gov/goes/east/carb/vis.jpg

Descargar pginas que usan HTTPS, el protocolo seguro


Para descargar pginas con WGET que utilizan HTTPS y se necesita la autentificacin,
usa las siguientes opciones:
--http-user=NombreDeUsuario
--http-password=Contrasea

En caso de que no sea posible, puedes probar con la siguiente opcin:


--no-check-certificate

Ejemplos de descargas de pginas web con WGET


Descarga de una pgina web con todos los elementos vinculados.
La opcin "-p" se utiliza para descargar pginas web aisladas, pero que tambin se
descarguen todos los elementos necesarios para que se muestre y funcione
correctamente offline. Se descargarn de esta forma scripts, archivos css, imgenes, etc.
wget -p http://norfipc.com/inf/como-subir-fotos-imagenes-servidor-web.php

Re-escribir los links en la pgina y cambiar la extensin


Al mismo ejemplo anterior podemos adicionarle dos opciones.
-k al finalizar la descarga re-escribe los links que existan en la pgina para que
apunten a los archivos descargados si fuera necesario, para asegurar su funcionamiento
offline.
Por ejemplo, en la pgina original en este sitio la ruta a la imagen del RSS es:
../img/icon/rss24.png, en la pgina descargada es: rss24.png
-E Ajustar la extensin. Sustituye la extensin original de la pgina, que en este caso
es .php por la predeterminada .html con el objetivo que pueda ser ejecutada por
cualquier usuario.
Adicionalmente se usa la opcin -nd (no directorio) para que todos los archivos estn
en el mismo directorio.
wget -p -k -E -nd http://norfipc.com/inf/como-subir-fotos-imagenes-servidor-web.php

Descargas recursivas con WGET


La opcin "-r" permite descargar todos los archivos de un sitio web de forma recursiva,
para optimizar esta operacin usualmente se incluyen otras opciones.
En este ejemplo se hace una descarga del sitio completo de Apache (solo una
demostracin), para eso se incluyen las opciones:
-l2 (nivel de profundidad) se limita a dos directorios la descargas, de forma
predeterminada wget emplea 5.
-k Re escribir links.
wget -r -l2 -k http://www.apache.org/ -o log.txt

Crear espejo de un sitio web con WGET


La opcin -m (mirror) es similar a la descarga recursiva, pero en este caso no existe
limite en lo absoluto, es similar a emplear las opciones: -r -l inf -N
wget -m http://www.apache.org/ -o log.txt

Actualizar los archivos recientes de un sitio web descargado


Si al mismo ejemplo anterior se le agrega la opcin -N, cada vez que se ejecute el batch
descargar solo los archivos recientes que se hayan creado.
wget -m -N http://www.apache.org/ -o log.txt

Como navegar por los sitios web descargados en la PC


Los sitios web o parte de ellos descargados con WGET al equipo, para tener su
informacin disponible offline, pueden accederse y navegar en ellos si se posee instalado
en el equipo un servidor web.
Qu es un servidor web?
Es un software que se instala en el equipo y permite representar las pginas web
guardadas en el disco duro con el navegador que utilizamos y acceder a ellas de la
misma forma que lo hacemos en internet.
Los servidores web ms utilizados son Apache, que es software libre y el ms popular en
internet y ISS (Internet Information Services) servidor web de Microsoft que est incluido
en todas las instalaciones de Windows.
En las siguientes paginas puedes encontrar toda la informacin necesaria para instalar un
servidor y acceder a los sitios guardados.
Como instalar y configurar el servidor web Apache en Windows
Como instalar, configurar y usar el servidor IIS en Windows
Acceder y tener sitios web completos en la PC offline, usando Virtual Host en Apache

Otras opciones tiles que permite WGET


Utilizar WGET como la araa de un buscador web

La opcin "-spider" hace que wget explore una pgina web comprobando que existe, no
descargar ningn archivo, solo mostrar el informe correspondiente.
Es una opcin muy til para los desarrolladores para comprobar el correcto
funcionamiento de la estructura de un sitio.
En el siguiente ejemplo se crea un informe en un archivo nombrado log.txt del escaneo
hecho a la direccin que se muestra, usando solo una profundidad de un nivel con la
opcin -l1.
wget --spider -r -l1 http://norfipc.com/facebook/index.html -o log.txt

Como comprobar la validez de los links de un sitio web con WGET


Del mismo modo anterior la opcin -spider permite comprobar la validez de los links o
vnculos de una pgina web o de todo un sitio cuando se emplea la opcin recursiva.
Tambin se muestra si existen links rotos (broken links), solo es necesario jugar con las
otras opciones para lograr un resultado satisfactorio.
En este ejemplo se comprueba la validez de todos los links de este sitio, incluyendo los
externos, se usa la opcin "-nv" para que se abrevie la informacin que se escriba en el
archivo de salida.
wget --spider -r -l2 -nv http://norfipc.com/ -o log.txt

Archivo batch para revisar los links con WGET


Cdigo para crear un sencillo archivo batch, que puede ser de mucha ayuda para verificar
si existen links rotos en cualquier pgina de internet.
Para usarlo ejectalo y pega la direccin URL, al final del informe vers el resultado.
Para pegar texto en la consola de CMD, es necesario haber habilitado la Edicin rpida en
las opciones de configuracin.
Ms informacin: Como configurar la consola de CMD

@echo off
set/p URL=
wget --spider -r -l1 -nv %URL%
pause

Descargar archivos protegidos del hotlinking


En algunos sitios solo es posible descargar archivos si la pgina desde donde se efecta
la solicitud est en el mismo domino, esto se hace con el propsito de evitar el hotlin,
que no es ms que crear vnculos a archivos desde sitios diferentes con fines
deshonestos. En este sitio el hotlink no es posible.
Wget permite la opcin "--referer=URL" para descargar estos archivos solo sustituyendo
URL por la direccin de la pgina de referencia.
En este ejemplo puedes descargar un pequeo archivo de este sitio con este mtodo,
aunque verdaderamente solo tiene fines prcticos cuando se trate de archivos grandes,
ya que en este caso es ms fcil acudir a la pgina del autor con el navegador, en la que
est disponible gratis el link de descarga.
No obstante es solo un ejemplo.

wget -c --referer=http://norfipc.com/comandos/comandos-windows-7.html
http://norfipc.com/ftp/robocopy.zip

Como utilizar otro Agente de usuario con WGET


Muchos sitios web usan scripts en el servidor, para identificar el navegador con el que el
usuario accede y de esa forma tomar acciones como servir las pginas web con estilos o
contenido diferentes de acuerdo al medio empleado.
Esto es posible ya que cada navegador al realizar una peticin enva su agente de
usuario en el encabezado HTTP, en el que se incluyen varios datos como el nombre del
software, versin, sistema operativo, etc.
Algunos sitios utilizan la informacin que proporciona el agente de usuario, para
discriminar a los usuarios y Wget es uno de los programas que habitualmente son
totalmente bloqueados.
Si te ves en ese caso, es posible usar en las peticiones otro Agente de usuario o
inclusive ninguno. Hazlo de cualquiera de las siguientes formas:
WGET -U Mozilla/5.0 http://pagina.html
WGET --user-agent="" http://pagina.html

En el primer caso indicamos que usamos Firefox, en el segundo caso no se indica ningn
Agente, en ambos se impedir la censura.

Cmo iniciar WGET con Windows?


En algunos casos puede que sea necesario ejecutar un archivo batch que realice
alguna tarea con WGET, cada vez que se inicie Windows. Pueden ser tareas como
actualizar una imagen del satlite meteorolgico, descargar un archivo de noticias,
etc.
Para conseguirlo solo es necesario crear un acceso directo al archivo batch en la
carpeta de Inicio de Windows.
Para abrir la carpeta de Inicio escribe en el cuadro de Inicio o en
Ejecutar: shell:Startup y oprime la tecla Enter.
Arrastra con el clic derecho del ratn presionado el archivo batch a dicha carpeta
para crear el acceso directo.

Archivo de descarga con ejemplos prcticos


En el vnculo siguiente se puede descargar un archivo que contiene algunos archivos
batch que pueden usarse de ejemplos. Contiene una copia del ejecutable de la
aplicacin, tienen incluidos los comentarios y realizan las siguientes tareas:

Descarga
Descarga
Descarga
Descarga
Descarga
Descarga

de
de
de
de
de
de

un archivo mostrando las peticiones y respuestas del servidor.


un archivo permitiendo continuar descarga.
un archivo y salvar en un log los sucesos.
archivos que los vnculos estn en un archivo de texto.
archivo, de actualizacin frecuente.
archivo y su renombre.

Descarga de una pgina web con todos elementos a los que hace referencia.

S-ar putea să vă placă și