Sunteți pe pagina 1din 11

5/5/2017 MineradedatosWikipedia,laenciclopedialibre

Mineradedatos
DeWikipedia,laenciclopedialibre

Lamineradedatosoexploracindedatos(eslaetapadeanlisisde"KnowledgeDiscoveryinDatabases"oKDD)esuncampodelaestadsticay
lascienciasdelacomputacinreferidoalprocesoqueintentadescubrirpatronesengrandesvolmenesdeconjuntosdedatos.1Utilizalosmtodosdela
inteligenciaartificial,aprendizajeautomtico,estadsticaysistemasdebasesdedatos.Elobjetivogeneraldelprocesodemineradedatosconsisteen
extraerinformacindeunconjuntodedatosytransformarlaenunaestructuracomprensibleparasuusoposterior.Ademsdelaetapadeanlisisen
bruto,queinvolucraaspectosdebasesdedatosydegestindedatos,deprocesamientodedatos,delmodeloydelasconsideracionesdeinferencia,de
mtricasdeIntereses,deconsideracionesdelaTeora de la complejidad computacional, de postprocesamiento de las estructuras descubiertas, de la
visualizacinydelaactualizacinenlnea.

Eltrminoesunapalabrademoda,yesfrecuentementemalutilizadoparareferirseacualquierformadedatosagranescalaoprocesamientodela
informacin (recoleccin, extraccin, almacenamiento, anlisis y estadsticas), pero tambin se ha generalizado a cualquier tipo de sistema de apoyo
informticodecisin,incluyendolainteligenciaartificial,aprendizajeautomticoylainteligenciaempresarial.Enelusodelapalabra,eltrminoclave
es el descubrimiento, comnmente se define como "la deteccin de algo nuevo". Incluso el popular libro "La minera de datos: sistema de prcticas
herramientasdeaprendizajeytcnicasconJava"(quecubretodoelmaterialdeaprendizajeautomtico)originalmenteibaaserllamadosimplemente
"lamquinadeaprendizajeprctico",yeltrmino"mineradedatos"seaadiporrazonesdemarketing.Amenudo,lostrminosmsgenerales"(gran
escala) el anlisis de datos", o "anlisis" . o cuando se refiere a los mtodos actuales, la inteligencia artificial y aprendizaje automtico, son ms
apropiados.

Latareademineradedatosrealeselanlisisautomticoosemiautomticodegrandescantidadesdedatosparaextraerpatronesinteresanteshasta
ahoradesconocidos,comolosgruposderegistrosdedatos(anlisisclster),registrospocousuales(ladeteccindeanomalas)ydependencias(minera
porreglasdeasociacin).Estogeneralmenteimplicaelusodetcnicasdebasesdedatoscomolosndicesespaciales.Estospatronespuedenentonces
ser vistos como una especie de resumen de los datos de entrada, y pueden ser utilizados en el anlisis adicional o, por ejemplo, en el aprendizaje
automticoyanlisispredictivo.Porejemplo,elpasodemineradedatospodraidentificarvariosgruposenlosdatos,queluegopuedenserutilizados
para obtener resultados ms precisos de prediccin por un sistema de soporte de decisiones. Ni la recoleccin de datos, preparacin de datos, ni la
interpretacindelosresultadosylainformacinsonpartedelaetapademineradedatos,peroquepertenecenatodoelprocesoKDDcomopasos
adicionales.

Lostrminosrelacionadosconlaobtencindedatos,lapescadedatosyespionajedelosdatosserefierenalautilizacindemtodosdeminerade
datosalaspartesdelamuestradeunconjuntodedatosdepoblacinmsgrandesestablecidasqueson(opuedenser)demasiadopequeasparalas
inferenciasestadsticasfiablesquesehizoacercadelavalidezdecualquierpatrndescubierto.Estosmtodospueden,sinembargo,serutilizadosenla
creacindenuevashiptesisquesepruebancontrapoblacionesdedatosmsgrandes.

ndice

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 1/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

1 Proceso
2 Protocolodeunproyectodemineradedatos
3 Tcnicasdemineradedatos
4 Ejemplosdeusodelamineradedatos
4.1 Negocios
4.1.1 Anlisisdelacestadelacompra
4.1.2 Patronesdefuga
4.1.3 Fraudes
4.1.4 Recursoshumanos
4.2 ComportamientoenInternet
4.3 Terrorismo
4.4 Juegos
4.5 Videojuegos
4.6 CienciaeIngeniera
4.6.1 Gentica
4.6.2 Ingenieraelctrica
4.6.3 Anlisisdegases
5 Mineradedatosyotrasdisciplinasanlogas
5.1 Delaestadstica
5.2 Delainformtica
6 Mineradedatosbasadaenteoradelainformacin
7 Tendencias
8 Herramientasdesoftware
9 Vasetambin
10 Referencias
11 Enlacesexternos

Proceso
Unprocesotpicodemineradedatosconstadelossiguientespasosgenerales:

1.Seleccindelconjuntodedatos,tantoenloqueserefierealasvariablesobjetivo(aquellasquesequierepredecir,calcularoinferir),comoalas
variablesindependientes(lasquesirvenparahacerelclculooproceso),comoposiblementealmuestreodelosregistrosdisponibles.
2.Anlisisdelaspropiedadesdelosdatos,enespecialloshistogramas,diagramasdedispersin,presenciadevaloresatpicosyausenciadedatos
(valoresnulos).
3.Transformacindelconjuntodedatosdeentrada,serealizardediversasformasenfuncindelanlisisprevio,conelobjetivodeprepararlo
para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como
preprocesamientodelosdatos.
4.Seleccionaryaplicarlatcnicademineradedatos,seconstruyeelmodelopredictivo,declasificacinosegmentacin.
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 2/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

5.Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de
comportamientoobservadosenlosvaloresdelasvariablesdelproblemaorelacionesdeasociacinentredichasvariables.Tambinpuedenusarse
variastcnicasalavezparagenerardistintosmodelos,aunquegeneralmentecadatcnicaobligaaunpreprocesadodiferentedelosdatos.
6.Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que
arrojasonvlidasysuficientementesatisfactorias.Enelcasodehaberobtenidovariosmodelosmedianteelusodedistintastcnicas,sedeben
comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe
alterarsealgunodelospasosanterioresparagenerarnuevosmodelos.

Sielmodelofinalnosuperaraestaevaluacinelprocesosepodrarepetirdesdeelprincipioo,sielexpertoloconsideraoportuno,apartirdecualquiera
delospasosanteriores.Estaretroalimentacinsepodrrepetircuantasvecesseconsiderenecesariohastaobtenerunmodelovlido.

Unavezvalidadoelmodelo,siresultaseraceptable(proporcionasalidasadecuadasy/oconmrgenesdeerroradmisibles)steyaestlistoparasu
explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las
organizaciones,eincluso,enlossistemastransaccionales.EnestesentidocabedestacarlosesfuerzosdelDataMiningGroup (http://www.dmg.org/),
queestestandarizandoellenguajePMML(PredictiveModelMarkupLanguage),demaneraquelosmodelosdemineradedatosseaninteroperables
endistintasplataformas,conindependenciadelsistemaconelquehansidoconstruidos.Losprincipalesfabricantesdesistemasdebasesdedatosy
programasdeanlisisdelainformacinhacenusodeesteestndar.

Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De hecho, muchas grandes
empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan
informacinpotencialmentetildetodassusreasdenegocio.Noobstante,actualmenteestcobrandounaimportanciacadavezmayorlaminerade
datosdesestructuradoscomoinformacincontenidaenficherosdetexto,enInternet,etc.

Protocolodeunproyectodemineradedatos
Unproyectodemineradedatostienevariasfasesnecesariasqueson,esencialmente:

Comprensin:delnegocioydelproblemaquesequiereresolver.
Determinacin,obtencinylimpieza:delosdatosnecesarios.
Creacindemodelosmatemticos.
Validacin,comunicacin:delosresultadosobtenidos.
Integracin:siprocede,delosresultadosenunsistematransaccionalosimilar.

Larelacinentretodasestasfasessloeslinealsobreelpapel.Enrealidad,esmuchomscomplejayescondetodaunajerarquadesubfases.Atravs
delaexperienciaacumuladaenproyectosdemineradedatossehanidodesarrollandometodologasquepermitengestionarestacomplejidaddeuna
maneramsomenosuniforme.

Tcnicasdemineradedatos
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 3/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

Comoyasehacomentado,lastcnicasdelamineradedatosprovienendelainteligenciaartificialydelaestadstica,dichastcnicas,nosonmsque
algoritmos,msomenossofisticadosqueseaplicansobreunconjuntodedatosparaobtenerunosresultados.

Lastcnicasmsrepresentativasson:

Redesneuronales.Sonunparadigmadeaprendizajeyprocesamientoautomticoinspiradoenlaformaenquefuncionaelsistemanerviosode
losanimales.Setratadeunsistemadeinterconexindeneuronasenunaredquecolaboraparaproducirunestmulodesalida.Algunosejemplos
deredneuronalson:
Elperceptrn.
Elperceptrnmulticapa.
Losmapasautoorganizados,tambinconocidoscomoredesdeKohonen.

Regresinlineal.Eslamsutilizadaparaformarrelacionesentredatos.Rpidayeficazperoinsuficienteenespaciosmultidimensionalesdonde
puedanrelacionarsemsde2variables.

rbolesdedecisin.Unrboldedecisinesunmodelodeprediccinutilizadoenelmbitodelainteligenciaartificialyelanlisispredictivo,
dadaunabasededatosseconstruyenestosdiagramasdeconstruccioneslgicas,muysimilaresalossistemasdeprediccinbasadosenreglas,
quesirvenpararepresentarycategorizarunaseriedecondicionesquesucedendeformasucesiva,paralaresolucindeunproblema.Ejemplos:
AlgoritmoID3.
AlgoritmoC4.5.

Modelosestadsticos.Esunaexpresinsimblicaenformadeigualdadoecuacinqueseempleaentodoslosdiseosexperimentalesyenla
regresinparaindicarlosdiferentesfactoresquemodificanlavariablederespuesta.

AgrupamientooClustering.Esunprocedimientodeagrupacindeunaseriedevectoressegncriterioshabitualmentededistanciasetratar
dedisponerlosvectoresdeentradadeformaqueestnmscercanosaquellosquetengancaractersticascomunes.Ejemplos:
AlgoritmoKmeans.
AlgoritmoKmedoids.

Reglasdeasociacin.Seutilizanparadescubrirhechosqueocurrenencomndentrodeundeterminadoconjuntodedatos.

Segnelobjetivodelanlisisdelosdatos,losalgoritmosutilizadosseclasificanensupervisadosynosupervisados(WeissyIndurkhya,1998):

Algoritmossupervisados(opredictivos):predicenundato(ounconjuntodeellos)desconocidoapriori,apartirdeotrosconocidos.
Algoritmosnosupervisados(odeldescubrimientodelconocimiento):sedescubrenpatronesytendenciasenlosdatos.

Ejemplosdeusodelamineradedatos
Negocios

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 4/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

Lamineradedatospuedecontribuirsignificativamenteenlasaplicacionesdeadministracinempresarialbasadaenlarelacinconelcliente.Enlugar
decontactarconelclientedeformaindiscriminadaatravsdeuncentrodellamadasoenviandoemails,slosecontactarconaquellosqueseperciba
quetienenunamayorprobabilidadderesponderpositivamenteaunadeterminadaofertaopromocin.

Lasempresasqueempleanmineradedatosvenhabitualmenteelretornodelainversin,perotambinreconocenqueelnmerodemodelospredictivos
desarrolladospuedecrecermuyrpidamente.Enlugardecrearmodelosparapredecirquclientespuedencambiar,laempresapodraconstruirmodelos
separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una ventana de
tiempo(unaquincena,unmes,...)ysloenviarlasofertasalaspersonasqueesprobablequeseanrentables.Paramantenerestacantidaddemodelos,es
necesariogestionarlasversionesdecadamodeloypasaraunamineradedatoslomsautomatizadaposible.

Enunentornotancambiantedondelosvolmenesdedatosmediblescreceexponencialmentegraciasalmarketingdigital,2"lasesperasproducidaspor
dependenciasdedepartamentostcnicosylosexpertosestadistasconsiguenquefinalmentelosresultadosdelosanlisisseaninservibles"alosusuarios
denegocioydecisores.3Estoexplicaquelosproveedoresdeherramientasdemineradedatosestntrabajandoenaplicacionesmsfcilesdeutilizar
enloqueseconocecomomineradedatosvisual4ylademandadeempleodeestetipodeusuarioanalistadenegocioseestdisparandoenlosltimos
aos.SegnGartneresprevisiblequedurante20162017slohaya"profesionalescualificadosparacubrirunatercerapartedelospuestos".5

Anlisisdelacestadelacompra

Elejemploclsicodeaplicacindelamineradedatostienequeverconladeteccindehbitosdecompraensupermercados.Unestudiomuycitado
detectquelosvierneshabaunacantidadinusualmenteelevadadeclientesqueadquiranalavezpaalesycerveza.Sedetectquesedebaaque
dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y
viendolatelevisinconunacervezaenlamano.Elsupermercadopudoincrementarsusventasdecervezacolocndolasprximasalospaalespara
fomentarlasventascompulsivas.

Patronesdefuga

Unejemplomshabitualeseldeladeteccindepatronesdefuga.Enmuchasindustriascomolabanca,lastelecomunicaciones,etc.existeun
comprensibleintersendetectarcuantoantesaquellosclientesquepuedanestarpensandoenrescindirsuscontratospara,posiblemente,pasarseala
competencia. A estos clientes y en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el
objetivoltimoderetenerlos.Lamineradedatosayudaadeterminarquclientessonlosmsproclivesadarsedebajaestudiandosuspatronesde
comportamientoycomparndolosconmuestrasdeclientesque,efectivamente,sedierondebajaenelpasado.

Fraudes

Uncasoanlogoeseldeladeteccindetransaccionesdelavadodedineroodefraudeenelusodetarjetasdecrditoodeserviciosdetelefonamvil
e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones
caractersticosquepermiten,conciertogradodeprobabilidad,distinguirlasdelaslegtimasydesarrollarasmecanismosparatomarmedidasrpidas
frenteaellas.

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 5/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

Recursoshumanos

Lamineradedatostambinpuedesertilparalosdepartamentosderecursoshumanosenlaidentificacindelascaractersticasdesusempleadosde
mayor xito. La informacin obtenida puede ayudar a la contratacin de personal, centrndose en los esfuerzos de sus empleados y los resultados
obtenidosporestos.Adems,laayudaofrecidaporlasaplicacionesparaDireccinestratgicaenunaempresasetraducenenlaobtencindeventajas
anivelcorporativo,talescomomejorarelmargendebeneficiosocompartirobjetivosyenlamejoradelasdecisionesoperativas,talescomodesarrollo
deplanesdeproduccinogestindemanodeobra.

ComportamientoenInternet
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una pgina de
Internet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles propaganda adaptada
especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la
informacinhistricadisponibleacercadelosclientesquehancompradoelprimero.

Terrorismo
La minera de datos ha sido citada como el mtodo por el cual la unidad AbleDanger del Ejrcito de los EE.UU. haba identificado al lder de los
atentadosdel11deseptiembrede2001,MohammedAtta,yaotrostressecuestradoresdel"11S"comoposiblesmiembrosdeunacluladeAlQaeda
queoperanenlosEE.UU.msdeunaoantesdelataque.SehasugeridoquetantolaAgenciaCentraldeInteligencia y su homloga canadiense,
ServiciodeInteligenciaySeguridadCanadiense,tambinhanempleadoestemtodo.6

Juegos
Desdecomienzosdeladcadade1960,conladisponibilidaddeorculosparadeterminadosjuegoscombinacionales,tambinllamadosfinalesdejuego
detablero(porejemplo,paralastresenrayaoenfinalesdeajedrez)concualquierconfiguracindeinicio,sehaabiertounanuevareaenlaminerade
datos que consiste en la extraccin de estrategias utilizadas por personas para estos orculos. Los planteamientos actuales sobre reconocimiento de
patrones,noparecenpoderaplicarseconxitoalfuncionamientodeestosorculos.Ensulugar,laproduccindepatronesperspicacessebasaenuna
amplia experimentacin con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los propios finales de juego en
problemasbiendiseadosyconconocimientodelatcnica(datospreviossobreelfinaldeljuego).Ejemplosnotablesdeinvestigadoresquetrabajanen
estecamposonBerlekampeneljuegodepuntosycajas(oTimbiriche)yJohnNunnenfinalesdeajedrez.

Videojuegos
Eneltranscurrirdelosaoslastecnologasylosavancesconrelacinalamineradedatossevieroninvolucradosendiferentesprocesosdenegociosy
laindustriadelosvideojuegosnosequedatrsenestecampo,lanecesidadporconocerasusconsumidoresyelgustodeestosespartefundamental
parasobrevivirenunambientetancompetitivocomoloeseste,senecesitandediferentesdatosparaantesdesiquieracomenzarlaideadeproyectoen
un nuevo videojuego. Grandes compaas desarrolladoras han cado bajo el manto de cancelaciones, prdidas, fracasos y en casos hasta la misma
quiebraporelmalmanejodelainformacin.Enlosltimosaosestasempresasdesarrolladorasdevideojuegosentendieronlagranimportanciadel
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 6/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

contenidoquesemanejaycomoloveelconsumidorporesoseenfocaronenlacontratacindeserviciosdeempresasespecializadasenestesectorde
mineradedatosparapoderpresentarproductosdecalidadyquerealmentegustenalpblicobasndoseenelanlisisdelainformacinobtenidaenel
transcurrirdelosaosvideojugabilisticosdesupblicoobjetivo.

CienciaeIngeniera
Enlosltimosaoslamineradedatosseestutilizandoampliamenteendiversasreasrelacionadasconlacienciaylaingeniera.Algunosejemplosde
aplicacinenestoscamposson:

Gentica

Enelestudiodelagenticahumana,elobjetivoprincipalesentenderlarelacincartogrficaentrelaspartesylavariacinindividualenlassecuencias
delADNhumanoylavariabilidadenlasusceptibilidadalasenfermedades.Entrminosmsllanos,setratadesabercmoloscambiosenlasecuencia
deADNdeunindividuoafectanalriesgodedesarrollarenfermedadescomunes(comoporejemploelcncer).Estoesmuyimportanteparaayudara
mejorareldiagnstico,prevencinytratamientodelasenfermedades.Latcnicademineradedatosqueseutilizapararealizarestatareaseconoce
como"reduccindedimensionalidadmultifactorial".7

Ingenieraelctrica

En el mbito de la ingeniera elctrica, las tcnicas de minera de datos han sido ampliamente utilizadas para monitorizar las condiciones de las
instalacionesdealtatensin.Lafinalidaddeestamonitorizacinesobtenerinformacinvaliosasobreelestadodelaislamientodelosequipos.Parala
vigilanciadelasvibracionesoelanlisisdeloscambiosdecargaentransformadoresseutilizanciertastcnicasparaagrupacindedatos(clustering)
tales como los mapas autoorganizativos (SOM: Selforganizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la
naturalezadedichasanomalas.8

Anlisisdegases

Tambinsehanaplicadotcnicasdemineradedatosparaelanlisisdegasesdisueltos(DGA:Dissolvedgasanalysis)entransformadoreselctricos.El
anlisisdegasesdisueltosseconocedesdehacemuchotiempocomolaherramientaparadiagnosticartransformadores.Losmapasautoorganizativos
(SOM)seutilizanparaanalizardatosydeterminartendenciasquepodranpasarseporaltoutilizandolastcnicasclsicas(DGA).

Mineradedatosyotrasdisciplinasanlogas
Suscita cierta polmica el definir las fronteras existentes entre la minera de datos y las disciplinas anlogas, como pueden serlo la estadstica, la
inteligenciaartificial,etc.Hayquienessostienenquelamineradedatosnoessinoestadsticaenvueltaenunajergadenegociosquelaconviertanen
unproductovendible.Otros,encambio,encuentranenellaunaseriedeproblemasymtodosespecficosquelahacendistintadeotrasdisciplinas.

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 7/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

Elhechoesque,enlaprcticalatotalidaddelosmodelosyalgoritmosdeusogeneralenmineradedatosredesneuronales,rbolesderegresiny
clasificacin,modeloslogsticos,anlisisdecomponentesprincipales,etc.gozandeunatradicinrelativamentelargaenotroscampos.

Delaestadstica
Ciertamente,lamineradedatosbebedelaestadstica,delaquetomalassiguientestcnicas:

Anlisisdevarianza,medianteelcualseevalalaexistenciadediferenciassignificativasentrelasmediasdeunaomsvariablescontinuasen
poblacionesdistintas.
Regresin:definelarelacinentreunaomsvariablesyunconjuntodevariablespredictorasdelasprimeras.
Pruebachicuadrado:pormediodelacualserealizaelcontrastedelahiptesisdedependenciaentrevariables.
Anlisisdeagrupamientooclustering:permitelaclasificacindeunapoblacindeindividuoscaracterizadospormltiplesatributos(binarios,
cualitativosocuantitativos)enunnmerodeterminadodegrupos,conbaseenlassemejanzasodiferenciasdelosindividuos.
Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido, permite encontrar la regla de
clasificacindeloselementosdeestosgrupos,yportantounamejoridentificacindeculessonlasvariablesquedefinanlapertenenciaalgrupo.
Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar predicciones, a partir de ese
conocimientoybajoelsupuestodequenovanaproducirsecambiosestructurales.

Delainformtica
Delainformticatomalassiguientestcnicas:

Algoritmosgenticos:Sonmtodosnumricosdeoptimizacin,enlosqueaquellavariableovariablesquesepretendenoptimizarjuntoconlas
variablesdeestudioconstituyenunsegmentodeinformacin.Aquellasconfiguracionesdelasvariablesdeanlisisqueobtenganmejoresvalores
paralavariablederespuesta,correspondernasegmentosconmayorcapacidadreproductiva.Atravsdelareproduccin,losmejoressegmentos
perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las
variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de
optimizacin,pueslasmalassolucioneshanidodescartndose,iteracintrasiteracin.

InteligenciaArtificial:Medianteunsistemainformticoquesimulaunsistemainteligente,seprocedealanlisisdelosdatosdisponibles.Entre
lossistemasdeInteligenciaArtificialseencuadraranlosSistemasExpertosylasRedesNeuronales.

SistemasExpertos:Sonsistemasquehansidocreadosapartirdereglasprcticasextradasdelconocimientodeexpertos.Principalmenteabase
deinferenciasodecausaefecto.

SistemasInteligentes:Sonsimilaresalossistemasexpertos,peroconmayorventajaantenuevassituacionesdesconocidasparaelexperto.

Redesneuronales:Genricamente,sonmtodosdeprocesonumricoenparalelo,enelquelasvariablesinteractanmediantetransformaciones
lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de
prueba,dandolugaraunprocesoderetroalimentacinmedianteelcuallaredsereconfigura,hastaobtenerunmodeloadecuado.

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 8/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

Mineradedatosbasadaenteoradelainformacin
Todaslasherramientastradicionalesdemineradedatosasumenquelosdatosqueusarnparaconstruirlosmodeloscontienenlainformacinnecesaria
para lograr el propsito buscado: obtener suficiente conocimiento que pueda ser aplicado al negocio (o problema) para obtener un beneficio (o
solucin).

Elinconvenienteesqueestonoesnecesariamentecierto.Adems,existeotroproblemamayoran.Unavezconstruidoelmodelonoesposibleconocer
si el mismo ha capturado toda la informacin disponible en los datos. Por esta razn la prctica comn es realizar varios modelos con distintos
parmetrosparaversialgunologramejoresresultados.

Unenfoquerelativamentenuevoalanlisisdedatossolucionaestosproblemashaciendoquelaprcticadelamineradedatosseparezcamsauna
cienciaqueaunarte.

En1948ClaudeShannon public un trabajo llamado Una teora matemtica de la comunicacin. Posteriormente sta pas a llamarse Teoradela
informacinysentlasbasesdelacomunicacinylacodificacindelainformacin.Shannonpropusounamanerademedirlacantidaddeinformacin
aserexpresadaenbits.

En1999DorianPylepublicunlibrollamadoDataPreparationforDataMiningenelqueproponeunamaneradeusarlaTeoradelaInformacin
paraanalizardatos.Enestenuevoenfoque,unabasededatosesuncanalquetransmiteinformacin.Porunladoestelmundorealquecapturadatos
generadosporelnegocio.Porelotroestntodaslassituacionesyproblemasimportantesdelnegocio.Ylainformacinfluyedesdeelmundorealya
travsdelosdatos,hastalaproblemticadelnegocio.

Con esta perspectiva y usando la Teora de la informacin, es posible medir la cantidad de informacin disponible en los datos y qu porcin de la
mismapodrutilizarsepararesolverlaproblemticadelnegocio.Comounejemploprctico,podraencontrarsequelosdatoscontienenun65%dela
informacinnecesariaparapredecirquclienterescindirnsuscontratos.Deestamanera,sielmodelofinalescapazdehacerprediccionesconun60%
deacierto,sepuedeasegurarquelaherramientaquegenerelmodelohizounbuentrabajocapturandolainformacindisponible.Ahora,sielmodelo
hubiesetenidounporcentajedeaciertosdesloel10%,porejemplo,entoncesintentarotrosmodelosoinclusoconotrasherramientaspodravalerla
pena.

Lacapacidaddemedirinformacincontenidaenlosdatostieneotrasventajasimportantes.

Alanalizarlosdatosdesdeestanuevaperspectivasegeneraunmapadeinformacinquehaceinnecesariolapreparacinpreviadelosdatos,unatarea
absolutamenteimprescindiblesisedeseabuenosresultados,peroquellevaenormecantidaddetiempo.

Esposibleseleccionarungrupodevariablesptimoquecontengalainformacinnecesariapararealizarunmodelodeprediccin.

Unavezquelasvariablessonprocesadasconelfindecrearelmapadeinformacinyluegoseleccionadasaquellasqueaportanlamayorinformacin,
laeleccindelaherramientaqueseusarparacrearelmodelodejadetenerimportancia,yaqueelmayortrabajofuerealizadoenlospasosprevios.

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 9/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

Tendencias
LaMineradeDatoshasufridotransformacionesenlosltimosaosdeacuerdoconcambiostecnolgicos,deestrategiasdemarketing,laextensinde
losmodelosdecompraenlnea,etc.Losmsimportantesdeellosson:

Laimportanciaquehancobradolosdatosnoestructurados(texto,pginasdeInternet,etc.).
Lanecesidaddeintegrarlosalgoritmosyresultadosobtenidosensistemasoperacionales,portalesdeInternet,etc.
Laexigenciadequelosprocesosfuncionenprcticamenteenlnea(porejemplo,encasosdefraudeconunatarjetadecrdito).
Lostiemposderespuesta.Elgranvolumendedatosquehayqueprocesarenmuchoscasosparaobtenerunmodelovlidoesuninconveniente
estoimplicagrandescantidadesdetiempodeprocesoyhayproblemasquerequierenunarespuestaentiemporeal.

Herramientasdesoftware
Existenmuchasherramientasdesoftwareparaeldesarrollodemodelosdemineradedatostantolibrescomocomercialescomo,porejemplo:

RapidMiner Orange SPSSClementine


KXEN Powerhouse (http://www.dataxplore.co SASEnterpriseMiner
KNIME m.ar/tecnologia.php) STATISTICADataMiner
NeuralDesigner Quiterian(http://www.quiterian.com) Weka
OpenNN R KEEL(http://www.keel.es)

Vasetambin
Almacnoperacionaldelosdatos
Anlisispredictivo
Aprendizajeautomtico
DatawarehousingoAlmacenamientodedatos
Estadstica
Factsandauthorities
InteligenciaEmpresarial
Iconografadelascorrelaciones
Mineradedatosespacial
Mineradegrafos
Mineradeprocesos
Mineradetextos
Reglasdeasociacin
Sistemasdeinformacinejecutiva
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 10/11
5/5/2017 MineradedatosWikipedia,laenciclopedialibre

Sistemasdesoporteadecisiones
Webmining
Weka(aprendizajeautomtico)

Referencias
1.OdedMaimonandLiorRokach(2010).DataMiningandKnowledgeDiscoveryHandbook.Springer,NewYork.ISBN9780387098234.
2.EverythingIsMeasurable|http://www.cio.com/article/2438921/itorganization/everythingismeasurable.html
3.TheDrivingNeedforAnalyticsinaBigDataWorld|http://www.datamashup.info/thedrivingneedforanalyticsinabigdataworld/
4.VisualDataMining:Allowingbusinessuserstomineandgaininsightintothedata|http://birtanalytics.actuate.com/visualdatamining
5.DataScientist:EvolutionoftheBusinessAnalyst|http://www.predictiveanalyticsworld.com/patimes/datascientistevolutionofthebusinessanalyst/
6.StephenHaagetal.ManagementInformationSystemsfortheinformationage.p.28.ISBN0070955697.
7.XingquanZhu,IanDavidson(2007).KnowledgeDiscoveryandDataMining:ChallengesandRealities.Hershey,NewYour.p.18.ISBN9781599042527.
8.Plantilla:CiteJournal.

Enlacesexternos
ProgramadeMineradeDatos,UniversityofCentralFlorida(http://dms.stat.ucf.edu)
ProyectoMedicalMiner.Integracindemineradetextoydedatosenbiomedicina(http://www.medicalminer.org)
DaiaIntelligentSolutions(http://www.daiasolutions.com)
MineradeDatosyAlmacenamientoWeb(http://mineriadatosyalmacenamientoweb.net)
RedEspaoladeMineradeDatos(http://www.lsi.us.es/redmidas/)

Obtenidodehttps://es.wikipedia.org/w/index.php?title=Minera_de_datos&oldid=98890858

Categoras: Mineradedatos Basesdedatos Anlisisdedatos

Seeditestapginaporltimavezel5may2017alas09:20.
EltextoestdisponiblebajolaLicenciaCreativeCommonsAtribucinCompartirIgual3.0puedenaplicarseclusulasadicionales.Alusareste
sitio,ustedaceptanuestrostrminosdeusoynuestrapolticadeprivacidad.
WikipediaesunamarcaregistradadelaFundacinWikimedia,Inc.,unaorganizacinsinnimodelucro.

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 11/11

S-ar putea să vă placă și