Mineria de Datos

Base de Datos
El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado en
California, USA. Una base de datos se puede definir como un conjunto de información relacionada
que se encuentra agrupada ó estructurada.
Desde el punto de vista informático, la base de datos es un sistema formado por un conjunto de
datos almacenados en discos que permiten el acceso directo a ellos y un conjunto de programas
que manipulen ese conjunto de datos.
Cada base de datos se compone de una o más tablas que guarda un conjunto de datos. Cada tabla
tiene una o más columnas y filas. Las columnas guardan una parte de la información sobre cada
elemento que queramos guardar en la tabla, cada fila de la tabla conforma un registro.
Definición de base de datos
Se define una base de datos como una serie de datos organizados y relacionados entre sí, los cuales
son recolectados y explotados por los sistemas de información de una empresa o negocio en
particular.
Características
Entre las principales características de los sistemas de base de datos podemos mencionar:
 Independencia lógica y física de los datos.

 Redundancia mínima.
 Acceso concurrente por parte de múltiples usuarios.
 Integridad de los datos.
 Consultas complejas optimizadas.
 Seguridad de acceso y auditoría.
 Respaldo y recuperación.
 Acceso a través de lenguajes de programación estándar.
 Sistema de Gestión de Base de Datos (SGBD)
Los Sistemas de Gestión de Base de Datos (en inglés DataBase Management System) son un tipo
de software muy específico, dedicado a servir de interfaz entre la base de datos, el usuario y las
aplicaciones que la utilizan. Se compone de un lenguaje de definición de datos, de un lenguaje de
manipulación de datos y de un lenguaje de consulta.
Ventajas de las bases de datos
Control sobre la redundancia de datos:
Los sistemas de ficheros almacenan varias copias de los mismos datos en ficheros distintos. Esto
hace que se desperdicie espacio de almacenamiento, además de provocar la falta de consistencia
de datos.
En los sistemas de bases de datos todos estos ficheros están integrados, por lo que no se almacenan
varias copias de los mismos datos. Sin embargo, en una base de datos no se puede eliminar la
redundancia completamente, ya que en ocasiones es necesaria para modelar las relaciones entre
los datos.
Consistencia de datos:
Eliminando o controlando las redundancias de datos se reduce en gran medida el riesgo de que haya
inconsistencias. Si un dato está almacenado una sola vez, cualquier actualización se debe realizar
sólo una vez, y está disponible para todos los usuarios inmediatamente. Si un dato está duplicado y
el sistema conoce esta redundancia, el propio sistema puede encargarse de garantizar que todas las
copias se mantienen consistentes.
Compartir datos:
En los sistemas de ficheros, los ficheros pertenecen a las personas o a los departamentos que los
utilizan. Pero en los sistemas de bases de datos, la base de datos pertenece a la empresa y puede
ser compartida por todos los usuarios que estén autorizados.
Mejora en la integridad de datos:
La integridad de la base de datos se refiere a la validez y la consistencia de los datos almacenados.

Normalmente, la integridad se expresa mediante restricciones o reglas que no se pueden violar.
Estas restricciones se pueden aplicar tanto a los datos, como a sus relaciones, y es el SGBD quien se
debe encargar de mantenerlas.
Mejora en la seguridad:
La seguridad de la base de datos es la protección de la base de datos frente a usuarios no

autorizados. Sin unas buenas medidas de seguridad, la integración de datos en los sistemas de bases
de datos hace que éstos sean más vulnerables que en los sistemas de ficheros.
Mejora en la accesibilidad a los datos:
Muchos SGBD proporcionan lenguajes de consultas o generadores de informes que permiten al

usuario hacer cualquier tipo de consulta sobre los datos, sin que sea necesario que un programador
escriba una aplicación que realice tal tarea.
Mejora en la productividad:
El SGBD proporciona muchas de las funciones estándar que el programador necesita escribir en un
sistema de ficheros. A nivel básico, el SGBD proporciona todas las rutinas de manejo de ficheros
típicas de los programas de aplicación.
El hecho de disponer de estas funciones permite al programador centrarse mejor en la función

específica requerida por los usuarios, sin tener que preocuparse de los detalles de implementación
de bajo nivel.
Mejora en el mantenimiento:
En los sistemas de ficheros, las descripciones de los datos se encuentran inmersas en los programas
de aplicación que los manejan.
Esto hace que los programas sean dependientes de los datos, de modo que un cambio en su
estructura, o un cambio en el modo en que se almacena en disco, requiere cambios importantes en
los programas cuyos datos se ven afectados.
Sin embargo, los SGBD separan las descripciones de los datos de las aplicaciones. Esto es lo que se
conoce como independencia de datos, gracias a la cual se simplifica el mantenimiento de las
aplicaciones que acceden a la base de datos.
Mejora en los servicios de copias de seguridad:
Muchos sistemas de ficheros dejan que sea el usuario quien proporcione las medidas necesarias
para proteger los datos ante fallos en el sistema o en las aplicaciones. Los usuarios tienen que hacer
copias de seguridad cada día, y si se produce algún fallo, utilizar estas copias para restaurarlos.
En este caso, todo el trabajo realizado sobre los datos desde que se hizo la última copia de seguridad
se pierde y se tiene que volver a realizar. Sin embargo, los SGBD actuales funcionan de modo que
se minimiza la cantidad de trabajo perdido cuando se produce un fallo.
Desventajas de las bases de datos
Complejidad:
Los SGBD son conjuntos de programas que pueden llegar a ser complejos con una gran
funcionalidad. Es preciso comprender muy bien esta funcionalidad para poder realizar un buen uso
de ellos.
Coste del equipamiento adicional:
Tanto el SGBD, como la propia base de datos, pueden hacer que sea necesario adquirir más espacio
de almacenamiento. Además, para alcanzar las prestaciones deseadas, es posible que sea necesario
adquirir una máquina más grande o una máquina que se dedique solamente al SGBD. Todo esto
hará que la implantación de un sistema de bases de datos sea más cara.
Modelo entidad-relación
Los diagramas o modelos entidad-relación (denominado por su siglas, ERD “Diagram Entity
relationship”) son una herramienta para el modelado de datos de un sistema de información. Estos
modelos expresan entidades relevantes para un sistema de información, sus inter-relaciones y
propiedades.
Datawarehouse
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar
información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde
infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse
representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para
implantar una solución completa y fiable de Business Intelligence.
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena
la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo
de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento
jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).
El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce literalmente
como almacén de datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió
el propio Bill Inmon, un datawarehouse se caracteriza por ser:
Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura

consistente, por lo que las inconsistencias existentes entre los diversos sistemas
operacionales deben ser eliminadas. La información suele estructurarse también en
distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
Temático: sólo los datos necesarios para el proceso de generación del conocimiento del
negocio se integran desde el entorno operacional. Los datos se organizan por temas para
facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los
datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De
esta forma, las peticiones de información sobre clientes serán más fáciles de responder
dado que toda la información reside en el mismo lugar.
Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse.

En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del
negocio en el momento presente. Por el contrario, la información almacenada en el
datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el
datawarehouse se carga con los distintos valores que toma una variable en el tiempo para
permitir comparaciones.
No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no

modificado. La información es por tanto permanente, significando la actualización del
datawarehouse la incorporación de los últimos valores que tomaron las distintas variables
contenidas en él sin ningún tipo de acción sobre lo que ya existía.
Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos.
Los metadatos permiten saber la procedencia de la información, su periodicidad de refresco, su
fiabilidad, forma de cálculo... etc.
Los metadatos serán los que permiten simplificar y automatizar la obtención de la información
desde los sistemas operacionales a los sistemas informacionales.
Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, son:
Dar soporte al usuario final, ayudándole a acceder al datawarehouse con su propio lenguaje
de negocio, indicando qué información hay y qué significado tiene. Ayudar a construir
consultas, informes y análisis, mediante herramientas de Business Intelligence
como DSS, EIS o CMI.
Dar soporte a los responsables técnicos del datawarehouse en aspectos de auditoría,

gestión de la información histórica, administración del datawarehouse, elaboración de
programas de extracción de la información, especificación de las interfaces para la
realimentación a los sistemas operacionales de los resultados obtenidos... etc.
Por último, destacar que para comprender íntegramente el concepto de datawarehouse, es

importante entender cual es el proceso de construcción del mismo, denominado ETL (Extracción,
Transformación y Carga), a partir de los sistemas operaciones de una compañía:
Extracción: obtención de información de las distintas fuentes tanto internas como externas.
Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la

información.
Carga: organización y actualización de los datos y los metadatos en la base de datos.
Una de las claves del éxito en la construcción de un datawarehouse es el desarrollo de forma

gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el
almacén de datos a los demás usuarios. Por ello es importante elegir este usuario inicial o piloto,
siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo
de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.
Principales aportaciones de un datawarehouse
Proporciona una herramienta para la toma de decisiones en cualquier área funcional,

basándose en información integrada y global del negocio.
Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar

relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de
dicha información.
Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones

futuras en diversos escenarios.
Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación

con el cliente.
Supone una optimización tecnológica y económica en entornos de Centro de Información,
estadística o de generación de informes con retornos de la inversión espectaculares.
Datamining (Minería de datos)
El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar

grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un
determinado contexto.
Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio

de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de
búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye
algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o
encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo
represente un valor agregado, entonces nos referimos al conocimiento. Vea más diferencias entre
datos, información y conocimiento.
Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso
común a todos ellos se suele componer de cuatro etapas principales:
Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea
bajo la orientación del especialista en data mining.
Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la

reducción y la transformación de las bases de datos. Esta etapa consume generalmente
alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y
después se lleva a cabo una visualización gráfica de los mismos para tener una primera
aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden
utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja
con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina
si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus
decisiones.
En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un
lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por
otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios.
Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles
debido a que el producto final involucra "toma de decisiones".
En el artículo Data Mining: Torturando a los datos hasta que confiesen, Luis Carlos Molina
proporciona una visión muy clarificadora sobre la minería de datos, incluyendo interesantes
ejemplos de aplicaciones de la misma. Recomendamos su lectura.
¿Qué es la estadística descriptiva?
La estadística descriptiva es la rama de la estadística que recolecta, analiza y caracteriza un

conjunto de datos (peso de la población, beneficios diarios de una empresa, temperatura
mensual,…) con el objetivo de describir las características y comportamientos de este conjunto
mediante medidas de resumen, tablas o gráficos.
Variables estadísticas
ANUNCIOS
Una variable estadística es el conjunto de valores que puede tomar cierta característica de
la población sobre la que se realiza el estudio estadístico y sobre la que es posible su medición. Estas
variables pueden ser: la edad, el peso, las notas de un examen, los ingresos mensuales, las horas de
sueño de un paciente en una semana, el precio medio del alquiler en las viviendas de un barrio de
una ciudad, etc.
Las variables estadísticas se pueden clasificar por diferentes criterios. Según su medición
existen dos tipos de variables:
 Cualitativa (o categórica): son las variables que pueden tomar como valores cualidades o
categorías.
Ejemplos:
 Sexo (hombre, mujer)
 Salud (buena, regular, mala)
 Cuantitativas (o numérica): variables que toman valores numéricos.
Ejemplos:
 Número de casas (1, 2,…). Discreta.
 Edad (12,5; 24,3; 35;…). Continua.
Medidas de posición central
Las medidas de tendencia central (o de centralización) son medidas que tienden a localizar en
qué punto se encuentra la parte central de un conjunto ordenado de datos de una variable
cuantitativa.
Media
Definimos media (también llamada promedio o media aritmética) de un conjunto de datos
(X1,X2,…,XN) al valor característico de una serie de datos resultado de la suma de todas las
observaciones dividido por el número total de datos.
Es decir:
Visto desde un punto de vista más conceptual, la media aritmética es el centro de los datos en
el sentido numérico, ya que intenta equilibrarlos por exceso y por defecto. Es decir, si sumamos
todas las diferencias de los datos a la media da cero.
Mediana
La mediana (Me(X)) es el elemento de un conjunto de datos ordenados (X1,X2,…,XN) que deja a
izquierda y derecha la mitad de valores.
Si el conjunto de datos no está ordenado, la mediana es el valor del conjunto tal que el 50% de
los elementos son menores o iguales y el otro 50% mayores o iguales.
Moda
La moda (Mo(X)) es el valor más repetido del conjunto de datos, es decir, el valor
cuya frecuencia relativa es mayor. En un conjunto puede haber más de una moda.
Media geométrica
La media geométrica (MG) de un conjunto de números estrictamente positivos (X1, X2,…,XN) es
la raíz N-ésima del producto de los N elementos.
Todos los elementos del conjunto tienen que ser mayores que cero. Si algún elemento fuese
cero (Xi=0), entonces la MG sería 0 aunque todos los demás valores estuviesen alejados del cero.
Media armónica
La media armónica (H) de un conjunto de elementos no nulos (X1, X2,…,XN) es el recíproco de
la suma de los recíprocos (donde 1/Xi es el recíproco de Xi)) multiplicado por el número de
elementos del conjunto (N).
Media cuadrática
La media cuadrática o RMS (Root Mean Square) de un conjunto de valores (X1, X2,…,XN) es
una medida de posición central. Esta se define como la raíz cuadrada del promedio de los elementos
al cuadrado.
Media ponderada
La media ponderada (MP) es una medida de centralización. Consiste en otorgar a cada
observación del conjunto de datos (X1,X2,…,XN) unos pesos (p1,p2,…,pN) según la importancia de cada
elemento.
Cuanto más grande sea el peso de un elemento, más importante se considera que es éste.
Relación entre medias
SPSS son las siglas de Statistical Package for the Social Sciences, que en su traducción al castellano
quedaría como “Paquete Estadístico para las Ciencias Sociales”.
Se trata de un programa o software estadístico que se emplea muy a menudo en las ciencias
sociales y, de un modo más específico por las empresas y profesionales de investigación de mercados.
Ello quiere decir que este software estadístico resultará de gran utilidad a la hora de llevar a cabo una
investigación de carácter comercial.
¿Por qué resulta tan útil este programa? ¿Cuál es su principal ventaja respecto a otros programas de
tratamiento de datos como podrían ser Microsoft Excel o Matlab?
Además, el SPSS permite recodificar las variables y registros según las necesidades del usuario, esto
es, si en algún momento precisamos expresar alguna variable de otra forma, no hay ningún problema.
La principal ventaja o la razón de su tremenda popularidad radica en la capacidad que presenta
SPSS para trabajar con bases de datos de gran tamaño. En la versión 12, este programa era capaz de
operar con hasta 2 millones de registros y 250.000 variables.

Mineria de Datos

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Mineria de Datos

Încărcat de

Drepturi de autor:

Formate disponibile

Base de Datos

Definición de base de datos

 Independencia lógica y física de los datos.

Ventajas de las bases de datos

Control sobre la redundancia de datos:

Mejora en la integridad de datos:

La integridad de la base de datos se refiere a la validez y la consistencia de los datos almacenados.

La seguridad de la base de datos es la protección de la base de datos frente a usuarios no

Mejora en la accesibilidad a los datos:

Muchos SGBD proporcionan lenguajes de consultas o generadores de informes que permiten al

El hecho de disponer de estas funciones permite al programador centrarse mejor en la función

Mejora en los servicios de copias de seguridad:

Desventajas de las bases de datos

Coste del equipamiento adicional:

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura

Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse.

No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no

Dar soporte a los responsables técnicos del datawarehouse en aspectos de auditoría,

Por último, destacar que para comprender íntegramente el concepto de datawarehouse, es

Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la

Carga: organización y actualización de los datos y los metadatos en la base de datos.

Una de las claves del éxito en la construcción de un datawarehouse es el desarrollo de forma

Principales aportaciones de un datawarehouse

Proporciona una herramienta para la toma de decisiones en cualquier área funcional,

Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar

Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones

Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación

Datamining (Minería de datos)

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar

Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio

Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la

¿Qué es la estadística descriptiva?

La estadística descriptiva es la rama de la estadística que recolecta, analiza y caracteriza un

S-ar putea să vă placă și