Sunteți pe pagina 1din 9

Mineria de datos y su aplicacin en web mining data

Redes de computadores I ELO 322

Nicole Garca Gmez 2830047-6 Diego Riquelme Adriasola 2621044-5

RESUMEN.-

La minera de datos corresponde a la extraccin de informacin no trivial de una base de datos, inicialmente desconocida, pero potencialmente til, mediante herramientas estadsticas. Una de sus aplicaciones la Web Mining, donde se estudian distintos comportamientos y factores dentro de una pgina web. Un correcto uso de esta informacin, permite entre otras cosas, comprender el hbito de los usuarios, como tambin mejorar el diseo de la pgina.

INTRODUCCIN.-

La minera de datos corresponde a la extraccin de informacin en una base de datos, con el objetivo de encontrar patrones, tendencias o ciertos comportamientos que eran desconocidos en un principio, pero que son potencialmente tiles. Para ello, se cuenta con distintos algoritmos de bsqueda y procesamientos, ya que la extraccin de la informacin no trivial de estos datos depende de muchos factores y variables. Las aplicaciones de la minera de datos son bastante amplias, ya que se puede ver su uso en distintas reas, tales como Inteligencia Artificial, negocios, terrorismo, informtica, y comportamiento en internet. Este ltimo caso de estudio, tambin llamado Web Mining (minera de datos web), en el cual se estudia la actividad de una pgina web, como por ejemplo, su trfico, contenidos ms accedidos, tipos de usuario y su procedencia, navegadores, sistemas operativos, etc.

MINERA DE DATOS.-

La minera de datos consiste en la extraccin de informacin desconocida de una base de datos, para luego ser estudiada y analizada. Estas extracciones son inicialmente definidas por funciones estadsticas, las cuales definen las variables a buscar (objetivos), como tambin variables dependientes (que ayudan para realizar el clculo). La recoleccin de dichos datos, se realiza a travs de los siguientes pasos:
Seleccin

y pre-procesado de datos: inicialmente, los datos de la fuente o base de

datos estn en bruto, por lo que mediante el pre-procesado se filtran los datos (de forma que se eliminan valores incorrectos, no vlidos, etc), y se puede obtener muestras de los mismos (volver a filtrar), o reducir el nmero de valores posibles (por ejemplo, redondeando).
Seleccin

de variables: an despus de haber sido pre-procesados, en la mayora

de los casos se tiene una gran cantidad de datos. Para ello, se escogen las variables ms influyentes en el problema. Los mtodos para la seleccin de caractersticas son bsicamente dos: 1. Los basados en la eleccin de los mejores atributos del problema 2. Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de dista ncia o heursticos,
Extraccin de conocimiento: mediante una tcnica de minera de datos, se obtiene

un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Interpretacin y evaluacin: una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas

tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. WEB MINING.-

Una aplicacin de la minera de datos, es la Web Mining, la cual recupera informacin de las pginas webs, tanto como su contenido, estructura de enlaces y registro de navegacin de los usuarios. Por tanto, existen tres divisiones de la Web Mining: minera de estructura, minera de contenido y minera de utilizacin. MINERA DE ESTRUCTURA.Esta parte pretende revelar la estructura real de un sitio web, a travs de la recoleccin de datos referentes a su estructura y, principalmente a su conectividad. Tpicamente tiene en cuenta dos tipos de enlaces: estticos y dinmicos. MINERA DE CONTENIDO.Su objetivo es la recogida de datos e identificacin de patrones relativos a los contenidos de la web y a las bsquedas que se realizan sobre los mismos. Hay dos estrategias principales: 1. Minera de pginas web, que extraen patrones directamente de los contenidos existentes en las pginas. Los datos que se utilizan en este caso son: texto libre, pginas escritas en HTML o XML, elementos multimedia y cualquier otro tipo de contenido. 2. Minera de resultados de bsqueda, que intenta identificar patrones en los resultados de los motores de bsqueda. MINERIA DE UTILIZACIN.Su objetivo es la bsqueda de patrones de comportamientos en base a los registros de los servidores (logs). Existen dos tipos de patrones:

Patrones generales: se reestructura la el sitio web con el fin de mejorar el acceso a los usuarios.

Patrones personalizados: se estudian los perfiles de cada usuario, con el objetivo de entregarle un servicio individualizado.

TCNICAS EMPLEADAS EN LA MINERA DE USO WEB.Entre las tcnicas utilizadas para la minera en el uso de la Web se encuentran: Agrupamiento y clasificacin: las tcnicas de agrupamiento se basan en la

separacin de ciertos comportamientos similares en grupos homogneos, existiendo as grupos con caractersticas diferentes entre s. Dado que la informacin depende de los log, es posible detectar algunos los siguientes grupos de usuarios: 1. Aquellos que visitan gran cantidad de pginas con un intervalo de tiempo

similar en todas ellas. 2. 3. Los que visitan un nmero pequeo de pginas en intervalos cortos. Aquellos que visitan un nmero pequeo-mediano de pginas con tiempo

variable en cada una de ellas. Las tcnicas de clasificacin en la minera Web permite desarrollar un perfil

cliente/servidor en funcin de los patrones de acceso al servidor. El agrupamiento de estos perfiles entrega facilidades en el desarrollo de estrategias para futuros mercados. Reglas de asociacin: estas permiten determinar patrones en los datos

mientras ocurren transacciones de ms datos. As, se encontraran ciertos patrones y relaciones que permitirn clasificar ms fcilmente sin la necesidad de un operador. Las reglas de asociacin se dividen en dos fases: 1. Extraccin de los conjuntos de elementos que cumplen con la informacin requerida a partir de los datos. 2. Generacin de las reglas a partir de estos documentos.

Secuencias frecuentes: esta tcnica utiliza los datos de transacciones realizados en un perodo de tiempo. De esta forma, se pueden predecir futuras visitas y ordenar de mejor forma, los accesos y publicidades de determinados productos. HERRAMIENTAS PARA EL ANLISIS DE LOG Las herramientas utilizadas para el anlisis de log, pueden dividirse en dos: Herramientas incorporadas al servidor: son los programas que procesan, en tiempo real, los datos almacenados en un servidor. Mediante una interfase en lnea, se puede acceder a la estadstica como tambin a grficas. Herramientas incorporadas en mquinas personales: son softwares instalados en computadores personales, que permiten la descarga de log para su procesamiento. Su ventaja est en que no es necesario procesarlo en tiempo real ni con conexin a Internet, pero su desventaja est en que es necesario tener acceso a los registros.

CONCLUSIN.-

La minera de datos entrega informacin til, oculta en una base de datos. Estos procesos de extraccin tienen una amplia gama de aplicaciones, siendo una de ellas la Web Mining. La Web Mining representa una til herramienta para el estudio de pginas web. Con diversas tcnicas y procedimientos, la cantidad de informacin es inmensa, pudiendo generarse una avalancha de datos. Es por ello que es importante establecer bien los parmetros de bsqueda, evitando as datos innecesarios. Por otro lado, ha de existir una tica sobre el uso de la informacin recolectada. Pueden existir problemas cuando una empresa busca datos con cierto fin y luego los utiliza para otro totalmente distinto. La venta de datos tambin es un tema de suma importancia, ya que este mercado ha crecido bastante en el ltimo tiempo. La empresa que compre la informacin, han de hacerse responsables de mantener el anonimato de las personas, como tambin de posibles fugas. Otro aspecto importante del anonimato de los datos recolectados, es la posible creacin de perfiles y asociacin a grupos, por motivos raciales, sexuales o religiosos, ya que podran llegar a generar polmica, al fomentar la discriminacin. Sin embargo, la minera de datos y la Web Minig presentan muchsimas ventajas, ya que con la informacin recolectada, tanto el mercado como el gobierno pueden generar diversas situaciones benficas para la sociedad. En el caso del mercado, existe mayor posibilidad de individualizar las necesidades de cada usuario. Esto permite que las empresas les entreguen un mejor servicio, como tambin predecir cuando un abonado decida retirarse y poder ofrecerle una nueva oferta, generando as competencia de mercado. Estas caractersticas en general, aumentaran el volumen de mercado. En cuanto al gobierno, podra predecir amenazas y ataques delictuales, lo que obviamente entregara mayor seguridad a la ciudadana.

BIBLIOGRAFA.-

http://www.sinnexus.com/business_intelligence/datamining.aspx http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos http://es.wikipedia.org/wiki/Web_mining http://www.infovis.net/printMag.php?num=172&lang=1 http://www.lsi.us.es/redmidas/ http://www.bvs.sld.cu/revistas/aci/vol16_4_07/aci111007.html

S-ar putea să vă placă și