Documente Academic
Documente Profesional
Documente Cultură
El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado en
California, USA. Una base de datos se puede definir como un conjunto de información relacionada
que se encuentra agrupada ó estructurada.
Desde el punto de vista informático, la base de datos es un sistema formado por un conjunto de
datos almacenados en discos que permiten el acceso directo a ellos y un conjunto de programas
que manipulen ese conjunto de datos.
Cada base de datos se compone de una o más tablas que guarda un conjunto de datos. Cada tabla
tiene una o más columnas y filas. Las columnas guardan una parte de la información sobre cada
elemento que queramos guardar en la tabla, cada fila de la tabla conforma un registro.
Se define una base de datos como una serie de datos organizados y relacionados entre sí, los cuales
son recolectados y explotados por los sistemas de información de una empresa o negocio en
particular.
Características
Entre las principales características de los sistemas de base de datos podemos mencionar:
Los Sistemas de Gestión de Base de Datos (en inglés DataBase Management System) son un tipo
de software muy específico, dedicado a servir de interfaz entre la base de datos, el usuario y las
aplicaciones que la utilizan. Se compone de un lenguaje de definición de datos, de un lenguaje de
manipulación de datos y de un lenguaje de consulta.
Los sistemas de ficheros almacenan varias copias de los mismos datos en ficheros distintos. Esto
hace que se desperdicie espacio de almacenamiento, además de provocar la falta de consistencia
de datos.
En los sistemas de bases de datos todos estos ficheros están integrados, por lo que no se almacenan
varias copias de los mismos datos. Sin embargo, en una base de datos no se puede eliminar la
redundancia completamente, ya que en ocasiones es necesaria para modelar las relaciones entre
los datos.
Consistencia de datos:
Eliminando o controlando las redundancias de datos se reduce en gran medida el riesgo de que haya
inconsistencias. Si un dato está almacenado una sola vez, cualquier actualización se debe realizar
sólo una vez, y está disponible para todos los usuarios inmediatamente. Si un dato está duplicado y
el sistema conoce esta redundancia, el propio sistema puede encargarse de garantizar que todas las
copias se mantienen consistentes.
Compartir datos:
En los sistemas de ficheros, los ficheros pertenecen a las personas o a los departamentos que los
utilizan. Pero en los sistemas de bases de datos, la base de datos pertenece a la empresa y puede
ser compartida por todos los usuarios que estén autorizados.
Mejora en la seguridad:
Mejora en la productividad:
El SGBD proporciona muchas de las funciones estándar que el programador necesita escribir en un
sistema de ficheros. A nivel básico, el SGBD proporciona todas las rutinas de manejo de ficheros
típicas de los programas de aplicación.
Mejora en el mantenimiento:
En los sistemas de ficheros, las descripciones de los datos se encuentran inmersas en los programas
de aplicación que los manejan.
Esto hace que los programas sean dependientes de los datos, de modo que un cambio en su
estructura, o un cambio en el modo en que se almacena en disco, requiere cambios importantes en
los programas cuyos datos se ven afectados.
Sin embargo, los SGBD separan las descripciones de los datos de las aplicaciones. Esto es lo que se
conoce como independencia de datos, gracias a la cual se simplifica el mantenimiento de las
aplicaciones que acceden a la base de datos.
Muchos sistemas de ficheros dejan que sea el usuario quien proporcione las medidas necesarias
para proteger los datos ante fallos en el sistema o en las aplicaciones. Los usuarios tienen que hacer
copias de seguridad cada día, y si se produce algún fallo, utilizar estas copias para restaurarlos.
En este caso, todo el trabajo realizado sobre los datos desde que se hizo la última copia de seguridad
se pierde y se tiene que volver a realizar. Sin embargo, los SGBD actuales funcionan de modo que
se minimiza la cantidad de trabajo perdido cuando se produce un fallo.
Complejidad:
Los SGBD son conjuntos de programas que pueden llegar a ser complejos con una gran
funcionalidad. Es preciso comprender muy bien esta funcionalidad para poder realizar un buen uso
de ellos.
Tanto el SGBD, como la propia base de datos, pueden hacer que sea necesario adquirir más espacio
de almacenamiento. Además, para alcanzar las prestaciones deseadas, es posible que sea necesario
adquirir una máquina más grande o una máquina que se dedique solamente al SGBD. Todo esto
hará que la implantación de un sistema de bases de datos sea más cara.
Modelo entidad-relación
Los diagramas o modelos entidad-relación (denominado por su siglas, ERD “Diagram Entity
relationship”) son una herramienta para el modelado de datos de un sistema de información. Estos
modelos expresan entidades relevantes para un sistema de información, sus inter-relaciones y
propiedades.
Datawarehouse
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar
información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde
infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse
representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para
implantar una solución completa y fiable de Business Intelligence.
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena
la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo
de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento
jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).
El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce literalmente
como almacén de datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió
el propio Bill Inmon, un datawarehouse se caracteriza por ser:
Temático: sólo los datos necesarios para el proceso de generación del conocimiento del
negocio se integran desde el entorno operacional. Los datos se organizan por temas para
facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los
datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De
esta forma, las peticiones de información sobre clientes serán más fáciles de responder
dado que toda la información reside en el mismo lugar.
Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos.
Los metadatos permiten saber la procedencia de la información, su periodicidad de refresco, su
fiabilidad, forma de cálculo... etc.
Los metadatos serán los que permiten simplificar y automatizar la obtención de la información
desde los sistemas operacionales a los sistemas informacionales.
Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, son:
Dar soporte al usuario final, ayudándole a acceder al datawarehouse con su propio lenguaje
de negocio, indicando qué información hay y qué significado tiene. Ayudar a construir
consultas, informes y análisis, mediante herramientas de Business Intelligence
como DSS, EIS o CMI.
Extracción: obtención de información de las distintas fuentes tanto internas como externas.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye
algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o
encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo
represente un valor agregado, entonces nos referimos al conocimiento. Vea más diferencias entre
datos, información y conocimiento.
Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso
común a todos ellos se suele componer de cuatro etapas principales:
Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea
bajo la orientación del especialista en data mining.
Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y
después se lleva a cabo una visualización gráfica de los mismos para tener una primera
aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden
utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja
con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina
si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus
decisiones.
En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un
lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por
otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios.
Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles
debido a que el producto final involucra "toma de decisiones".
En el artículo Data Mining: Torturando a los datos hasta que confiesen, Luis Carlos Molina
proporciona una visión muy clarificadora sobre la minería de datos, incluyendo interesantes
ejemplos de aplicaciones de la misma. Recomendamos su lectura.
Variables estadísticas
ANUNCIOS
Una variable estadística es el conjunto de valores que puede tomar cierta característica de
la población sobre la que se realiza el estudio estadístico y sobre la que es posible su medición. Estas
variables pueden ser: la edad, el peso, las notas de un examen, los ingresos mensuales, las horas de
sueño de un paciente en una semana, el precio medio del alquiler en las viviendas de un barrio de
una ciudad, etc.
Las variables estadísticas se pueden clasificar por diferentes criterios. Según su medición
existen dos tipos de variables:
Cualitativa (o categórica): son las variables que pueden tomar como valores cualidades o
categorías.
Ejemplos:
Sexo (hombre, mujer)
Salud (buena, regular, mala)
Cuantitativas (o numérica): variables que toman valores numéricos.
Ejemplos:
Número de casas (1, 2,…). Discreta.
Edad (12,5; 24,3; 35;…). Continua.
Medidas de posición central
Las medidas de tendencia central (o de centralización) son medidas que tienden a localizar en
qué punto se encuentra la parte central de un conjunto ordenado de datos de una variable
cuantitativa.
Media
Definimos media (también llamada promedio o media aritmética) de un conjunto de datos
(X1,X2,…,XN) al valor característico de una serie de datos resultado de la suma de todas las
observaciones dividido por el número total de datos.
Es decir:
Visto desde un punto de vista más conceptual, la media aritmética es el centro de los datos en
el sentido numérico, ya que intenta equilibrarlos por exceso y por defecto. Es decir, si sumamos
todas las diferencias de los datos a la media da cero.
Mediana
La mediana (Me(X)) es el elemento de un conjunto de datos ordenados (X1,X2,…,XN) que deja a
izquierda y derecha la mitad de valores.
Si el conjunto de datos no está ordenado, la mediana es el valor del conjunto tal que el 50% de
los elementos son menores o iguales y el otro 50% mayores o iguales.
Moda
La moda (Mo(X)) es el valor más repetido del conjunto de datos, es decir, el valor
cuya frecuencia relativa es mayor. En un conjunto puede haber más de una moda.
Media geométrica
La media geométrica (MG) de un conjunto de números estrictamente positivos (X1, X2,…,XN) es
la raíz N-ésima del producto de los N elementos.
Todos los elementos del conjunto tienen que ser mayores que cero. Si algún elemento fuese
cero (Xi=0), entonces la MG sería 0 aunque todos los demás valores estuviesen alejados del cero.
Media armónica
La media armónica (H) de un conjunto de elementos no nulos (X1, X2,…,XN) es el recíproco de
la suma de los recíprocos (donde 1/Xi es el recíproco de Xi)) multiplicado por el número de
elementos del conjunto (N).
Media cuadrática
La media cuadrática o RMS (Root Mean Square) de un conjunto de valores (X1, X2,…,XN) es
una medida de posición central. Esta se define como la raíz cuadrada del promedio de los elementos
al cuadrado.
Media ponderada
La media ponderada (MP) es una medida de centralización. Consiste en otorgar a cada
observación del conjunto de datos (X1,X2,…,XN) unos pesos (p1,p2,…,pN) según la importancia de cada
elemento.
Cuanto más grande sea el peso de un elemento, más importante se considera que es éste.
Relación entre medias
SPSS son las siglas de Statistical Package for the Social Sciences, que en su traducción al castellano
quedaría como “Paquete Estadístico para las Ciencias Sociales”.
Se trata de un programa o software estadístico que se emplea muy a menudo en las ciencias
sociales y, de un modo más específico por las empresas y profesionales de investigación de mercados.
Ello quiere decir que este software estadístico resultará de gran utilidad a la hora de llevar a cabo una
investigación de carácter comercial.
¿Por qué resulta tan útil este programa? ¿Cuál es su principal ventaja respecto a otros programas de
tratamiento de datos como podrían ser Microsoft Excel o Matlab?
Además, el SPSS permite recodificar las variables y registros según las necesidades del usuario, esto
es, si en algún momento precisamos expresar alguna variable de otra forma, no hay ningún problema.
La principal ventaja o la razón de su tremenda popularidad radica en la capacidad que presenta
SPSS para trabajar con bases de datos de gran tamaño. En la versión 12, este programa era capaz de
operar con hasta 2 millones de registros y 250.000 variables.