Sunteți pe pagina 1din 4

QUE ES LA DEEP WEB

Se conoce como internet profunda internet invisible o internet oculta al contenido


de internet que no es indexado por los motores de bsqueda convencionales,
debido a diversos factores. El trmino se atribuye al informtico Mike Bergman.
Es el opuesto al Internet superficial.

La principal causa de la existencia del internet profunda es la imposibilidad de


los motores de bsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran
parte de la informacin existente en Internet. Si los buscadores tuvieran la
capacidad para acceder a toda la informacin entonces la magnitud de la
internet profunda se reducira casi en su totalidad. No obstante, aunque los
motores de bsqueda pudieran indexar la informacin del internet profunda esto
no significara que esta dejara de existir, ya que siempre existirn las pginas
privadas. Los motores de bsqueda no pueden acceder a la informacin de estas
pginas y slo determinados usuarios, aquellos con contraseas o cdigos
especiales, pueden hacerlo.

Tamao

La internet profunda es un conjunto de sitios web y bases de datos que


buscadores comunes no pueden encontrar ya que no estn indexadas. El
contenido que se puede hallar dentro de la internet profunda es muy amplio. 6

El internet se ve dividido en dos ramas, La internet profunda y la superficial. La


internet superficial se compone de pginas indexadas en servidores DNS con
una alfabetizacin y codificacin de pgina perfectamente entendible por los
motores de bsqueda, mientras que la web profunda est compuesta de pginas
cuyos dominios estn registrados con extensiones .onion y los nombres de los
dominios estn codificados en una trama HASH. Estas pginas se sirven de
forma ad hoc, y no necesitan registrarse, basta con que tu ordenador tenga
funcionando un servicio onion, que har las veces de un servicio dns, pero
especial para las pginas del internet profundo. Mediante una red P2P, se
replican las bases de datos que contienen la resolucin de nombres HASH.

Mientras que las pginas normales son identificadas mediante el protocolo


UDP/IP, las pginas .onion son repetidas por el ramal al que se ha conectado el
navegador especializado para tal sistema de navegacin segura. El sistema de
bsqueda es el mismo que usa BitTorrent. El contenido se coloca en una base
de datos y se proporciona slo cuando lo solicite el usuario.7

En 2010 se estim que la informacin que se encuentra en la internet profunda


es de 7500 terabytes, lo que equivale a aproximadamente 550 billones de
documentos individuales. El contenido de la internet profunda es de 400 a 550
veces mayor de lo que se puede encontrar en la internet superficial. En
comparacin, se estima que la internet superficial contiene solo 19 terabytes de
contenido y un billn de documentos individuales.

Tambin en 2010 se estim que existan ms de 200 000 sitios en la internet


profunda
Estimaciones basadas en la extrapolacin de un estudio de la Universidad de
California en Berkeley especula que actualmente la internet profunda debe tener
unos 91 000 terabytes.

La Association for Computing Machinery (ACM) public en 2007 que Google y


Yahoo indexaban el 32 % de los objetos de la internet profunda, y MSN tena la
cobertura ms pequea con el 11 %. Sin embargo, la cobertura de los tres
motores era de 37 %, lo que indicaba que estaban indexando casi los mismos
objetos.10

Se estima que alrededor del 95 % del internet es internet profunda, tambin le


llaman invisible u oculta, ya que la informacin que alberga no siempre est
disponible para su uso. Por ello se han desarrollado herramientas como
buscadores especializados para acceder a ella.11

Motivos

Motivos por los que los motores de bsqueda no pueden indexar algunas
pginas:

Web contextual: pginas cuyo contenido vara dependiendo del contexto


(por ejemplo, la direccin IP del cliente, de las visitas anteriores, etc.).
Contenido dinmico: pginas dinmicas obtenidas como respuesta a
parmetros, por ejemplo, datos enviados a travs de un formulario.
Contenido de acceso restringido: pginas protegidas con contrasea,
contenido protegido por un Captcha, etc.
Contenido No HTML: contenido textual en archivos multimedia, otras
extensiones como exe, rar, zip, etc.
Software: Contenido oculto intencionadamente, que requiere un programa
o protocolo especfico para poder acceder (ejemplos: Tor, I2P, Freenet)
Pginas no enlazadas: pginas de cuya existencia no tienen referencia
los buscadores; por ejemplo, pginas que no tienen enlaces desde otras
pginas.

Denominacin

Son pginas de texto, archivos, o en ocasiones informacin a la cual se puede


acceder por medio de la World Wide Web que los buscadores de uso general no
pueden, debido a limitaciones o deliberadamente, agregar a sus ndices de
pginas web.

La Web profunda se refiere a la coleccin de sitios o bases de datos que un


buscador comn, como Google, no puede o no quiere indexar. Es un lugar
especfico del internet que se distingue por el anonimato. Nada que se haga en
esta zona puede ser asociado con la identidad de uno, a menos que uno lo
desee.12

Bergman, en un artculo semanal sobre la Web profunda publicado en el Journal


of Electronic Publishing, mencion que Jill Ellsworth utiliz el trmino Web
invisible en 1994 para referirse a los sitios web que no estn registrados por
ningn motor de bsqueda.13

En su artculo, Bergman cit la entrevista que Frank Garca hizo a Ellsworth en


1996:14

Sera un sitio que, posiblemente est diseado razonablemente, pero no se


molestaron en registrarlo en alguno de los motores de bsqueda. Por lo tanto,
nadie puede encontrarlos! Ests oculto. Yo llamo a esto la Web invisible.

Otro uso temprano del trmino Web Invisible o web profunda fue por Bruce Monte
y Mateo B. Koll de Personal Library Software, en una descripcin de la
herramienta @ 1 de web profunda, en un comunicado de prensa de diciembre
de 1996.15

La importancia potencial de las bases de datos de bsqueda tambin se reflej


en el primer sitio de bsqueda dedicado a ellos, el motor AT1 que se anunci a
bombo y platillo a principios de 1997. Sin embargo, PLS, propietario de AT1, fue
adquirida por AOL en 1998, y poco despus el servicio AT1 fue abandonado. 13

El primer uso del trmino especfico de web profunda, ahora generalmente


aceptada, ocurri en el estudio de Bergman de 2001 mencionado anteriormente.

Por otra parte, el trmino web invisible se dice que es inexacto porque:

Muchos usuarios asumen que la nica forma de acceder a la web es


consultando un buscador.
Alguna informacin puede ser encontrada ms fcilmente que otra, pero
esto no quiere decir que est invisible.
La web contiene informacin de diversos tipos que es almacenada y
recuperada en diferentes formas.
El contenido indexado por los buscadores de la web es almacenado
tambin en bases de datos y disponible solamente a travs de las
peticiones o consultas del usuario, por tanto no es correcto decir que la
informacin almacenada en bases de datos es invisible.16

La wiki oculta

The Hidden Wiki es tradicionalmente la casilla de salida de la deep web: un


directorio de otras pginas invisibles que los propios usuarios revisan a diario.
Es un servicio fundamental porque las pginas cambian constantemente de
dominio y Tor slo es navegable con una lista actualizada de enlaces a mano.

Es cierto que existen otras wikis e incluso algn buscador, pero The Hidden Wiki
ha adquirido un carcter oficial en la deep web. Funciona bien como ndice; tanto,
que si echamos un vistazo al mapa de contenido de su pgina principal nos
haremos una idea bastante clara de qu webs y servicios se esconden detrs de
Tor:
Servicios financieros: lavado de bitcoins, cuentas de PayPal robadas,
tarjetas de crdito clonadas, falsificacin de billetes, carteras de dinero
annimas...
Servicios comerciales: explotacin sexual y mercado negro: gadgets
robados, armas y municin, documentacin falsa y sobre todo
drogas.
Anonimato y seguridad: instrucciones para reforzar la privacidad en Tor,
especialmente para una venta o en las transacciones con bitcoins.
Servicios de hosting: alojamiento web y almacenamiento de imgenes
donde se antepone la privacidad. Algunos prohben subir archivos ilegales
y otros no tienen ninguna restriccin.
Blogs, foros y tablones de imgenes: aparte de las vinculadas a los
servicios de compraventa, dos categoras frecuentes de este tipo de
comunidades son el hacking y el intercambio de imgenes de toda clase.
Servicios de correo y mensajera: algunas direcciones de email son
gratuitas (generalmente slo ofrecen webmail) y otras de pago, con SSL
y soporte de IMAP. La mayora de servicios de chat funcionan sobre IRC
o XMPP.
Activismo poltico: intercambio de archivos censurados, hacktivismo y
hasta una pgina para organizar "magnicidios financiados en masa". La
anarqua es la ideologa predominante en la deep web, como no poda ser
de otra forma.
Secretos de Estado y soplones: hay un mirror de WikiLeaks en la deep
web, y varias pginas donde publicar secretos con poca actividad. Lo ms
interesante es una web sobre los tneles secretos de la universidad de
Virginia Tech.
Libros: bibliotecas virtuales que miden varios gigas y contienen miles de
ebooks en distintos formatos. Muchos de ellos estn libres de copyright y
otros se distribuyen ilegalmente en descarga directa.
Pginas erticas: de pago y de libre acceso. Las subcategoras son
variopintas y sin ningn lmite moral.

S-ar putea să vă placă și