Documente Academic
Documente Profesional
Documente Cultură
INTRODUCCION
La estadística es una de las herramientas más ampliamente utilizadas en la
investigación científica.
Su aplicación en instituciones gubernamentales y educativas, en los negocios y en la
industria, en la banca y en otros quehaceres diarios hace de la estadística una
herramienta indispensable. Sin embargo el término “Estadística” tiene varios
significados para diferentes personas; para la gente común y corriente la estadística
solamente significa números. En el periodo de la mañana se pueden encontrar la
estadística más reciente sobre los delitos de la ciudad; de asesinatos, de robos de
automóviles; de asaltos y demás delitos que hayan sido denunciados en determinado
periodo de tiempo; de los nacimientos y muertes que han ocurrido, o en relación con
el deporte, el número de partidos ganados y perdidos por equipos integrantes de la
liga de ese deporte. Para otras personas es un método para obtener, presentar y escribir
grandes cantidades de datos, y para otras es un método para tomar decisiones en
situaciones difíciles. El objetivo básico de este fascículo es aclarar los significados de
Estadística, definir sus conceptos básicos utilizados con frecuencia y analizar los usos
y abusos de los métodos estadísticos. Aunque los significados sean diferentes, todos
ellos forman parte del concepto total de “Estadística”. La palabra tiene su sentido más
amplio para aquellas personas cuyo trabajo requiere un conocimiento de los aspectos
más técnicos de la estadística. Para estas personas, la palabra tiene relación con
aquellos conceptos y técnicas que se utilizan en la recopilación, organización,
resumen, análisis, interpretación y comunicación de información numérica. Estos
conceptos y técnicas juegan un papel importante en las actividades que realizan los
profesionales de todas las ciencias.
1
2. OBJETIVOS
Aplicar las técnicas estadísticas adecuadamente para el manejo de datos que nos permitan
obtener gráficos, medidas de tendencia y calcular probabilidades.
2
3. Conceptos básicos.
3.6.Estadístico: Son valores análogos a los parámetros, pero que son calculados con
la información obtenida de la muestra. Los valores estadísticos son variables
porque pueden tomar diferentes valores al cambiar de muestra.
3
𝑛
𝑥𝑖 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥̅ = ∑ =
𝑛 𝑛
𝑖=1
4.2.Mediana Muestral
𝑥(𝑛+1)/2
𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
𝑥̅ = {1
(𝑥 + 𝑥𝑛/2+1 ), 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
2 𝑛/2
4.3.Moda muestral
Se define la moda 𝑀0 de una muestra como aquel valor de la variable que tiene una
frecuencia máxima. En otras palabras, es el valor que más se repite.
Para ello supongamos que sea (𝑎𝑗 , 𝑎𝑗+1 ) el intervalo con frecuencia máxima 𝑛𝑗. Si
𝑛𝑗−1 𝑦 𝑛𝑗+1 son las frecuencias de los intervalos anterior y posterior al modal,
definimos 𝛿1 = 𝑛𝑗 − 𝑛𝑗−1 𝑦 𝛿2 = 𝑛𝑗 − 𝑛𝑗+1. En este caso, el valor exacto de la moda
se puede calcular como
𝛿1
𝑀0 = 𝑎𝑗 + (𝑎 − 𝑎𝑗 )
𝛿1 + 𝛿2 𝑗+1
4
5. Medidas de dispersión
Se llaman medidas de dispersión aquellas que permiten retratar la distancia de los valores de
la variable a un cierto valor central, o que permiten identificar la concentración de los datos
en un cierto sector del recorrido de la variable. Se trata de coeficientes para variables
cuantitativas.
5.1.Varianza muestral
Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los
5
Se dice que la varianza muestral s 2 es un estimador sin sesgo de la varianza poblacional s2,
lo que significa que los valores de s 2 tienden a igualar el valor de s2, en lugar de tender, de
manera sistemática, a sobreestimar o subestimar s2. Por ejemplo, considere una prueba de
cociente intelectual (CI) diseñada de tal forma que tiene una varianza de 225. Si usted repite
el proceso de elegir aleatoriamente 100 sujetos, aplicarles la prueba y calcular la varianza
muestral s 2 en cada caso, las varianzas muestrales que obtendrá tenderá a concentrarse
alrededor de 225, que es la varianza de la población.
Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa
la media poblacional y (N) es el número de observaciones o tamaño de la población
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos
están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor
será la dispersión de los datos.
Es posible identificar conjuntos de datos que, a pesar de ser muy distintos en términos de
valores absolutos, poseen la misma media. Una medida diferencial para identificar esos
conjuntos de datos es la concentración o dispersión alrededor de la media. Una manera de
evitar que los distintos signos se compensen es elevarlas al cuadrado, de manera que todas
las desviaciones sean positivas. La raíz cuadrada del promedio de estas cantidades recibe el
nombre de desvío estándar, o desviación típica y es representada por la siguiente fórmula: A
mayor valor del coeficiente del desvío estándar, mayor dispersión de los datos con respecto
a su media. Es un valor que representa los promedios de todas las diferencias individuales de
las observaciones respecto a un punto de referencia común, que es la media aritmética. O
sea que a menor dispersión mayor homogeneidad y a mayor dispersión, menor
homogeneidad. Una desviación estándar de una muestra estima la desviación estándar de una
población basada en una muestra aleatoria. La desviación estándar de la muestra, a diferencia
de la desviación estándar de la población, es una estadística que mide la dispersión de los
datos alrededor de la media de muestra.
6
Formula
5.3.CUARTILES
Los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales.
Utilizando cuartiles puede evaluar rápidamente la dispersión y la tendencia central de un
conjunto de datos, que son los pasos iniciales importantes para comprender sus datos.
Cuartil Descripción
1er cuartil 25% de los datos es menor que o igual a este valor.
(Q1)
2do cuartil La mediana. 50% de los datos es menor que o igual a este valor.
(Q2)
3er cuartil 75% de los datos es menor que o igual a este valor.
(Q3)
7
Cuartil Descripción
Formula
Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de
datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una
tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos
agrupados es la siguiente:
k= 1,2,3
Donde:
n = Número de datos
8
Fórmula de Q2, para series de Datos agrupados:
5.4.Deciles
Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes
porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados
en diez partes iguales, son también un caso particular de los percentiles. Los deciles se
denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovechamiento académico.
Donde:
n = Número de datos
9
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes
fórmulas:
Cuando n es par:
Cuando n es impar:
5.5.Percentiles
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o
clasificación de las personas cuando atienden características tales como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes
porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el
conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,...,
percentil 99.
Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la
fórmula:
Donde:
n = Número de datos
10
6. TECNICAS DE MUESTREO
6.2.Muestreo estratificado:
11
realizarse según una característica que pueda influir sobre los resultados del estudio.
Por ejemplo, en el caso de seleccionar una muestra para evaluar la altura, dada la
heterogeneidad entre hombres y mujeres, la variable de género podría ser una variable
de estratificación. Si la estratificación se realiza respecto un carácter se denomina
muestreo estratificado simple, y si se realiza respecto dos o más características se
denomina muestreo estratificado compuesto. Si tenemos constancia o suponemos a
priori que la población de estudio presenta variabilidad de respuesta con respecto a
alguna característica propia, deberemos tener en cuenta este tipo de muestreo, dado
que se producen estimaciones más precisas cuanto más homogéneos sean los
elementos del estrato y más heterogeneidad exista entre estratos. Así pues, entre las
ventajas de este tipo de muestreo es que tiende a asegurar que la muestra represente
adecuadamente a la población en función de la variable de estratificación
seleccionada, sin embargo, debe conocerse la distribución de la población en las
variables de estratificación, clara desventaja de este muestreo. Para obtener la muestra
en cada uno de los estratos pueden aplicarse diferentes fracciones de muestreo,
pudiendo ser proporcional al tamaño en relación a la población, es decir, la
distribución se realiza de acuerdo con el peso o tamaño de la población de cada
estrato. Por ejemplo, si de los 5 millones de hipertensos españoles hay un 35% de
pacientes que fuman, podemos estratificar de manera que en nuestra muestra queden
representados al igual que en el total de la población, la misma proporción de
hipertensos fumadores (35%) y de no fumadores (65%).
6.3.Muestreo sistemático:
El muestreo sistemático es muy similar al muestreo aleatorio simple. La
diferencia se obtiene en que en este tipo de muestreo se divide el total de la
población de estudio entre el tamaño de la muestra, obteniendo una constante de
muestreo (k). La primera unidad que formará parte de la muestra debe estar entre
1 y k y se elige al azar; a partir de esta unidad se van seleccionando
sistemáticamente uno de los k individuos siguiendo un orden determinado. Por
ejemplo, si obtenemos un valor de k=10 y seleccionamos al azar el número 6,
12
deberíamos elegir todas las historias clínicas que finalizaran en «6»: «006»,
«016», «026» .... Es un método de muestreo muy sencillo de realizar y que cuando
la población esta ordenada siguiendo una tendencia conocida, asegura una
cobertura de unidades de todos los tipos. La principal limitación es que si la
constante se asocia al fenómeno de interés puede cometerse un sesgo.
7. DISTRIBUCIONES MUESTRALES
13
El muestreo puede hacerse con o sin reposición, y la población de partida puede ser infinita
o finita. Una población finita en la que se efectúa muestreo con reposición puede considerarse
infinita teóricamente. También, a efectos prácticos, una población muy grande puede
considerarse como infinita... Para cada muestra podemos calcular un estadístico (media,
desviación típica, proporción, entre otras) que variará de una a otra. Así obtenemos una
distribución del estadístico que se llama distribución muestral.
𝜎
𝑁( )
√𝑛
14
distribución binomial y cuando la extensión de la población es grande la distribución
binomial se aproxima a la normal.
Para muestras de tamaño, 𝒏 > 𝟑𝟎 la distribución muestral de proporciones sigue una
distribución normal
𝑝𝑞
𝑁 (𝑝√ )
𝑛
2 𝜎
σ𝑥 = 𝑛
Varianza de la distribución muestral de la media será menor. Esta expresión puede derivarse
fácilmente a partir de la Ley de la suma de las varianzas. La varianza de la distribución
muestral de la suma de tres números obtenidos por muestreo de la población con varianza
𝜎 2 , seria 𝜎 2 +𝜎 2 +𝜎 2 , En forma general, para n números la varianza sería 𝑛𝜎 2
Ya que la media es la suma por 1/n, la varianza de la distribución muestral de la media sería
la varianza de la suma por 1/𝑛2 , lo cual es igual a 𝜎 2
15
8. ESTIMACIÓN
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que
proporciona información sobre el valor del parámetro.
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los
estimadores más probables en este caso son los estadísticos obtenidos en la muestra, aunque
es necesario cuantificar el riesgo que se asume al considerarlos.
𝜎
La distribución muestral de medias es 𝑁 (𝜇 )
√𝑛
𝜎 𝜎
𝑃 [𝜇 − 𝑧 𝛼⁄2 < 𝑋̅ < 𝜇 + 𝑧 𝛼⁄2 ]=1−𝛼
√𝑛 √𝑛
𝜎
Es decir, el (1 − 𝛼) % de las 𝑋̅ está a una distancia 𝜇 de inferior a 𝑧 𝛼⁄2
√𝑛
16
Donde 𝑧 𝛼⁄2 es el llamado valor crítico, valor tal que 𝑃(−𝑧 𝛼⁄2 ≤ 𝑧 ≤ 𝑧 𝛼⁄2) y la
𝑋̅ media de la muestra.
𝜎 2 (𝑥) = 𝑆 2
𝜎2 (𝑛−1)
Tendremos que 𝐸[𝜎 2 (𝑥)] = 𝐸[ 𝑆 2 ] = = 𝜎 2 (𝑛 − 1) ≠ 𝜎 2 , que es el parámetro a
𝑛
𝜎 2 (𝑛 − 1) 𝜎2
𝐵[𝜃̂ (𝑥)] = 𝐵[ 𝑆 2 ] = 𝐸[ 𝑆 2 ] − 𝜎 2 = − 𝜎2 =
𝑛 𝑛
No obstante, y dado que, cuando el tamaño de la muestra tiende a infinito el sesgo tiende a
cero, se dice que el estimador es asintóticamente encestado o asintóticamente centrado:
podemos establecer que:
2
𝜎2
lim 𝐵( 𝑆 ) = lim =0
𝑛→∞ 𝑛→∞ 𝑛
17
9. Conclusión
Con todo lo aprendido, se puede concluir que la estadística es una rama de las matemáticas,
la cual no se encuentra muy visible en lo cotidiano, pero en realidad es de mucha utilidad
para interpretar y ver desde un punto de vista muy general datos que se obtienen.
Cabe mencionar que está basada en la recopilación de datos los cuales son representados
mediante gráficos estadísticos. Otro beneficio que obtenemos de esta materia es que nos
permite realizar estudios reales, con poblaciones exactas; lo cual nos ayuda a mejorar
nuestros proyectos.
18
10. Referencias
19