Documente Academic
Documente Profesional
Documente Cultură
Estadística.
La estadística nace en el siglo xix como la unión de dos pensamientos antiguos, la probabilidad
nacida como teoría matemática de los juegos al azar y la estadística, nacida como la ciencia del
estado, encargada de la descripción de los datos.
Es importante comprender la estadística como una herramienta para en las ciencias diferenciar
el conocimiento basado en experimentos empíricos de aquellos que carecen de este.
Descripción de datos: Su primera función es a partir de los datos simplificar estos con
modelos matemáticos para hacer más amena su interpretación.
Relaciones: Busca por medio de datos estadísticos establecer si ciertos factores tiene
relación, por ejemplo si el índice de personas que ingresan a una universidad depende de
su estrato socioeconómico.
1. Problema: Como primera medida se tiene que plantear una pregunta o interrogante,
después tener bien definida la población del estudio y las variables que se quieren
estudiar.
3. Recolecta de información: Una vez escogido el modelo del estudio, necesitamos saber
de qué forma se recolectará la información.
(1) Muestreo
(2) Diseño de experimentos
Un poco de Historia.
Probabilidad.
Se conoce por estudios arqueológicos que los dados datan desde antes de 3.000 años
A.C. Utilizados generalmente como parte de los juegos de azar, juegos que eran
utilizados como entretenimiento y cultos religiosos. Las civilizaciones más antiguas
explicaban el azar de forma metafísica, ya fuera por oráculos o por seres divinos. El
estudio de la probabilidad se solidifica por el famoso problema de Fermat y Pascal
(¿Cómo repartir las ganancias de las apuestas entre los jugadores?, teniendo en cuenta
que el juego fue suspendido).
Más tarde, Laplace fue el primero en introducir la definición de probabilidad como
disciplina, sirviendo hasta el siglo XIX a la física y astronomía principalmente.
En 1950 se puede dar inicio a la estadística moderna, influenciada por Pearson y otros
matemáticos, se logró aplicar la estadística en las ingenieras, antropología, economía, y
a gran parte de la disciplina. El gran avance de la estadística también tiene fruto por el
nacimiento de los ordenadores, que hacen más ameno la creación de modelos y el
trato con los datos.
PARTE 2: DATOS
Tipos de datos.
La estadística descriptiva busca convertir los datos en información, para esto es
necesario categorizar los datos.
Distribución de frecuencias:
Se representan los datos indicando los valores de la variable e indicando su frecuencia
relativa.
La Fr puede ser interpretada como el porcentaje que representa esa variable en la cantidad
total de datos o la probabilidad de que ocurra dicha variable.
1. Si los datos son tipo decimal, conviene redondear los datos a lo sumo 3
decimales después de la coma.
2. Decidir el número de clases (x), una forma muy utilizada es elegir el “r” más
cercano a un entero, donde r=Raíz(n), donde n es el número total de datos.
3. Tratar de que los intervalos en las clases sean iguales.
4. Sacar la marca de clase. Suma de los intervalos en cada clase dividido por 2.
Semigrafica para la distribución de frecuencias. (Diagrama de tallo y hojas)
Cuando el número de datos es MENOR A 50, es conveniente realizar el diagrama de
tallo y hojas. Funciona de la siguiente manera:
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 30
-Realizando el diagrama:
2 0 344459
3 6 979361410
4 105
Representaciones gráficas.
-Diagrama de puntos: Puede ser una alternativa para el diagrama de tallos y hojas. Se
construye con una línea recta y a continuación se separan las clases. En medio de las clases irán
sus frecuencias representadas por puntos.
12 15 20
Medidas de centralidad.
Cálculo.
Datos: Si tenemos el conjunto de datos y necesitamos la media, es
simplemente sumar todos los datos y dividir por el número total de
datos.
∑Xi * Fr (Xi)
Agrupados:
Uno de los problemas principales de la media es que utiliza la magnitud de los datos, por lo
que un dato atípico puede cambiar radicalmente su valor. La mediana por su parte utiliza el
orden de los datos y no su magnitud. Lo más recomendable es calcular ambas, si estas
difieren mucho significa que su distribución es muy heterogénea (Muestra formada por datos
de distintas clases).
Medidas de dispersión.
Desviación típica: Es la medida de dispersión para la media. Esta resulta útil para
calcular su variabilidad. Con la variabilidad podemos comparar la dispersión en las
muestras, ver que tan alejado se encuentran nuestros datos sobre la media y hasta
incluso ver el % de datos que se encuentran en cierto rango de medidas. Si una
muestra está menos dispersa, se pueden encontrar más fácilmente los datos atípicos o
errores, por el contrario, si la muestra está muy dispersa, podremos confundir los datos
atípicos y así nunca ver errores.
Cálculo:
Datos:
Sin agrupar:
Agrupados:
La media junto con la desviación tiene un significado importante, pues nos puede dar el
porcentaje de datos encontrados en cierto rango de la muestra. Siendo k el número de
desviaciones.
100(1-(1/K2))
Coeficiente de variación: Es una medida que nos dice que porcentaje representa la desviación
típica sobre nuestra media. Resulta muy útil cuando los datos son de diferentes magnitudes, así
comparar cuales datos están más dispersos. Si nuestro CV es del 7% indica poca dispersión, si
está entre 8% y 20% es una dispersión aceptable, si está entre valores mayores al 20% es un
dispersión muy alta, lo que indica unos datos muy heterogéneos.
CV=S/XX
Datos heterogéneos: Un dato heterogéneo es aquél que presenta dispersión, son aquellos
datos donde su media no es representativa, donde sus datos son muy atípicos y muy dispersos.
Medidas de asimetría y curtosis.
Curtosis: Es una medida para saber qué tan cerca están los datos respecto de la media.
Nos indica el nivel de heterogeneidad de los datos; si este es menor a dos, es una
distribución heterogenia, si este es mayor a cuatro presenta homogeneidad, pero con
algunos valores atípicos.
Datos atípicos:
Un dato atípico es aquel dato producido por un error en la toma de información, son
datos tomados en distintas circunstancias y que presenta errores de medida.
Generalmente son datos alejados del grupo de datos principal.
Calcular cuartiles:
Ai es la amplitud de la clase.
4. En los límites de la caja, sobresalen dos “bigotes” a cada lado, los valores
por fuera de estos “bigotes” serán valores atípicos. Estarán datos por la
formula anterior.
PARTE 2: DESCRIPCIÓN CONJUNTA DE VARIABLES.
En esta parte se estudiarán los modelos cuantitativos para medir la relación entre las
variables (x, y).
TABLA DE FRECUENCIAS:
Método de construcción.
La frecuencia de cada casilla está dada por la forma F (x, y), donde x son las filas e y son las
columnas. De esta forma, en cada casilla irá la frecuencia de ambas variables, se consigue
con la suma de estas.
Distribución marginal.
Se denomina distribución marginal a la suma de las frecuencias para cada x e y.
Distribución condicional.
De esta distribución podemos concluir los valores que representa la variable Y con respecto
a cierta característica de la variable X.
Fr (x/y) = (Fr (x, y)) (yi), Donde yi es la distribución marginal de esa casilla.
Gráficas: La gráfica que resulta más útil para el análisis de dos variables (continuas sin
agrupar) es el diagrama de dispersión, este nos indica sí existe relación entre las dos
variables comparadas.
Para datos agrupados se utiliza un histograma bidimensional.
COVARIANZA.
Medida que permite establecer (medir) la relación entre dos variables (x, y).
Si la Cov tiene signo positivo, este indica que su relación es positiva. Si su relación es
positiva, nos dice que los valores de X e Y tenderán a estar arriba o por debajo de la media
a la misma vez. Si, por el contrario, es negativo, indica que mientras un valor de X este por
encima de la media, su respectivo valor en Y se ubicara por debajo de la media.
CORRELACIÓN.
Debido a la dependencia que tiene la covarianza con las unidades de medida de las
variables, nace el coeficiente de correlación, este al igual que la covarianza indica la
relación entre dos variables.
RECTA DE REGRESIÓN.
Cuando dos variables tienden a relacionarse linealmente, sus puntos se agrupan en forma de
recta. En este punto, podremos describir la relación de dos variables en torno a su resta y las
desviaciones que tengan los puntos sobre esta; funcionando la recta como su media.
Una vez establecida la relación, la recta de regresión es muy útil para prever. Se utiliza
suponiendo que se desconoce la variable Y, y que se conoce su variable X; de este modo, Y es
la variable de respuesta y X es el estímulo.
Se conoce como desviación típica residual al promedio de las desviaciones entre cada dato.
Sr = √ (∑(Yi – a - bXi)2 / (n) )
PARTE 3: PROBABILIDAD Y VARIABLES ALEATORIAS.
Definición y propiedades
Se puede definir a la probabilidad como aquella medida del grado de incertidumbre ante
un experimento empírico. Un experimento es aquel proceso donde se observa en un
elemento de la población cierta característica.