Sunteți pe pagina 1din 3

El profesional de la informacin

Introduccin

La web tiene actualmente al menos unas cuatro mil millones de pginas estticas1
y un nmero cientos de veces mayor de dinmicas (aquellas que slo se crean
producto de un clic o de una consulta en un sitio web). Adems, tenemos que
agregar toda la web invisible, en intranets o pginas con acceso restringido. La
web oculta es seguramente miles de veces ms grande que la pblica
minimizando el tamao tanto de la parte dinmica como de la oculta. Una ltima
regin, la web semntica, se muestra en un tono ms claro. En la actualidad, se
estima que las pginas con informacin semntica constituyen algo menos del 5%,
aunque se espera que en el futuro sea mayor. Esta informacin semntica,
representada principalmente en los metadatos de cada pgina, no es muy usada
ya que existe un porcentaje mayor de pginas que tienen informacin no fidedigna
o directamente falsa

Infometra de la web

Es el producto del trabajo colaborativo de millones de personas. Por ende, sus


caractersticas representan su esfuerzo que, en la mayora de los casos, es
mnimo. George Kipling Zipf, un lingista de Harvard, public su libro acerca de la
ley del mnimo esfuerzo un ao antes de su deceso (1939) a la prematura edad de
40 aos. Su descubrimiento inicial fue que si uno contaba el nmero de veces que
se usaba cada palabra en distintos textos en ingls, y las ordenaba de la ms a la
menos frecuente, se cumpla que la frecuencia F de la palabra i-sima,
multiplicada por i, era igual a una constante C, y la constante C dependa del texto
escogido. Actualmente, es necesario elevar i a un exponente t mayor que 1 y
cercano a 2 para muchos textos existentes, en particular de la web. Graficando
esta curva mediante el uso de una escala logartmica en ambos ejes, se convierte
en una recta con pendiente negativa t. Zipf prefiri explicar estos resultados
empricos como una condicin humana, donde siempre es ms fcil escribir una
palabra conocida que usar una que lo es menos.

Minera de la web

Hay tres tipos de datos principales. El ms importante y difcil de procesar es el


contenido, que es multimedia, en el cual el texto juega un rol dominante. El
segundo proviene de la estructura no lineal de la web: sus hiper-enlaces.
Finalmente, el ltimo procede del uso reflejado a travs de los logs o bitcoras de
los servidores Web2 (ver por ejemplo Cooley et al, 1997). Donde tanto las
personas como agentes de software estn involucrados en la generacin o
extraccin de estos
Datos

Estos datos pueden analizarse de forma esttica o dinmica. En el primer caso se


usan instantneas de la web en un cierto momento. Sin embargo es ms
interesante analizar la dinmica de la web, es decir, sus cambios en el tiempo. Los
datos pueden ser locales (un sitio web especfico o de los sitios web de una
institucin) o globales (nos referimos a una fraccin importante de la web, como un
pas completo u otra divisin de similar tamao, ya sea cultural, temtica, o
poltica). En general, el anlisis del uso es local, mientras que el de estructura es
global.

Excavando el contenido

La forma ms simple para recuperar informacin es a travs de buscadores como


Google o directorios como Yahoo!. Pero tambin es posible usar anlisis de
lenguaje natural para entender parcialmente la semntica del texto, extraer otros
objetos como imgenes o audio, aprovechar las marcas de HTML para
transformar el contenido o extraer datos especficos. Una aplicacin puntual
consiste en mejorar los resultados de los buscadores agrupando pginas
similares.

Desenredando la estructura

La estructura de la web es compleja y evoluciona en el tiempo. Hay desde


sectores altamente conectados hasta islas que slo conocen algunos buscadores.
La estructura puede ser usada por los buscadores para jerarquizar los resultados
en base a las pginas ms referenciadas utilizando heursticas como Pagerank
(Brin; Page, 1998) usado en Google o Hits (Kleinberg, 1998). Tambin sirve para
encontrar grupos de pginas que se apuntan entre s y representan comunidades
de personas con intereses similares. Para conocer qu pginas apuntan a otra es
necesario recorrer toda la web, algo que los grandes busca dores como Google o
Alltheweb hacen peridicamente. Segn dos recorridos de la web realizados por
AltaVista durante mayo y octubre de 1999, cada uno de ms de 200 millones de
pginas (alrededor de un 20% de la web de esa poca) y 1.500 millones de
enlaces. Broder (2000) presenta un estudio de la estructura macroscpica de la
web, que es bastante intrincada y que resumimos a continuacin. Los resultados
preliminares ya haban indicado que la distribucin de los enlaces a y desde
pginas segua una ley de Zipf. Los nuevos resultados mostraron que la fraccin
de pginas de la web que son apuntadas por i pginas es proporcional a 1/i2.1,
mientras que la fraccin de pginas que tienen i enlaces es proporcional a 1/i2.7.
Esto significa que el nmero de pginas muy apuntadas (populares) y la cantidad
de pginas con muchos enlaces es muy pequeo.

S-ar putea să vă placă și