Documente Academic
Documente Profesional
Documente Cultură
Media: La media sirve como “punto de equilibrio” del conjunto de datos. Se calcula sumando todos los
valores del conjunto de datos y dividiendo el resultado por el número de valores considerados. (𝑥̅ )
Promedio
𝑥̅ = media de la muestra
n = número de valores o tamaño de la muestra
A continuación, se resumen las características del rango, del rango intercuartil, de la varianza y de la desviación
estándar.
Cuanto más esparcidos o dispersos están los datos, son mayores el rango, el rango intercuartil, la
varianza y la desviación estándar.
Cuanto más concentrados u homogéneos son los datos, son menores el rango, el rango
intercuartil, la varianza y la desviación estándar.
Si todos los valores son los mismos (de tal manera que no hay variación de los datos), el rango, el
rango intercuartil, la varianza y la desviación estándar son iguales a cero.
Ninguna de las medidas de la variación (rango, rango intercuartil, desviación estándar y varianza)
puede ser negativa.
Coeficiente de variación: el coeficiente de variación es una medida relativa de la variación que siempre
se expresa como porcentaje, más que en términos de las unidades de los datos en particular. El
coeficiente de variación, que se denota mediante el símbolo CV, mide de dispersión de los datos con
respecto a la media.
El coeficiente de variación es igual a la desviación estándar dividida por la media, multiplicada por 100%.
Forma:
Media < mediana; asimétrica negativa o sesgo izquierdo.
Media = mediana; simétrica o asimetría cero.
Media > mediana; asimétrica positiva o sesgo derecho.
La media poblacional: Se representa por medio del símbolo μ, la letra griega mu minúscula. La ecuación
define a la media poblacional.
Varianza y desviación estándar poblacionales: miden la variación en una población. Al igual que los
estadísticos muestrales relacionados, la desviación estándar poblacional es igual a la raíz cuadrada de la
varianza poblacional. El símbolo σ2, que es la letra griega sigma minúscula elevada al cuadrado, representa
la varianza poblacional y el símbolo σ, la misma letra griega minúscula, pero sin elevar al cuadrado,
representa la desviación estándar poblacional
Resumen de cinco números: Compuesto por:
Gráfica de caja y bigote: Ofrece una representación visual de los datos basada en el resumen de cinco
números.
La gráfica de caja y bigote de los tiempos necesarios para arreglarse que aparece en la figura muestra una
muy ligera asimetría a la derecha, ya que la distancia entre la mediana y el valor mayor es levemente mayor
que la distancia entre el menor valor y la mediana. El bigote derecho es un poco más largo que el izquierdo.
DISTRIBUSIÓN
La distribución normal es simétrica y con forma de campana, lo que implica que la mayoría de los valores tienden a
agruparse alrededor de la media, la cual, por su forma simétrica, es igual a la mediana.
Muchas variables continuas comunes en el mundo de los negocios tienen distribuciones que se asemejan
estrechamente a la distribución normal.
La distribución normal sirve para acercarse a diversas distribuciones de probabilidad discreta, como la
distribución binomial y la distribución de Poisson.
La distribución normal proporciona la base para la estadística inferencial clásica por su relación con el
teorema de límite central
Evaluación de la normalidad:
DISTRIBUSIONES MUESTRALES
Media muestral, un estadístico utilizado para estimar la media poblacional (un parámetro).
Proporción muestral, un estadístico utilizado para estimar la proporción poblacional (un parámetro).
El principal problema al realizar una inferencia estadística radica en obtener conclusiones sobre la población, no sobre
la muestra.
En la práctica, de la población total usted selecciona una muestra aleatoria simple de tamaño predeterminado.
Determina qué elementos forman parte de la muestra mediante el uso de un generador de número aleatorio
Hipotéticamente, al utilizar un estadístico muestral para estimar un parámetro poblacional, debe examinar toda
posible muestra que pudiera presentarse.
La distribución muestral es la distribución de los resultados que se presentan si en realidad se seleccionaron todas las
muestras posibles.
Distribución muestral de la media: Es la distribución de todas las medias posibles que surgen si en realidad se
seleccionaran todas las muestras posibles de cierto tamaño.
La media muestral es imparcial porque la media de todas las medias muestrales posibles (de una muestra dada con
tamaño n) es igual a la media poblacional μ.
Error estándar de la media: Expresa cuánto varía la media muestral entre una muestra y otra. Cuando aumenta el
tamaño de la muestra, el error estándar de la media se reduce en un factor igual a la raíz cuadrada del tamaño de la
muestra
Dispone que cuando el tamaño de la muestra (es decir, el número de valores en cada muestra) es lo bastante grande,
la distribución muestral de la media tiene una distribución aproximadamente normal. Esto es válido sin importar la
forma de la distribución de los valores individuales en la población.
Utilizando los resultados surgidos de estas reconocidas distribuciones estadísticas (normal, uniforme y exponencial),
se obtienen las siguientes conclusiones con respecto al teorema del límite central.
• Para la mayor parte de las distribuciones poblacionales, sin importar su forma, la distribución muestral de la media
tiene una distribución aproximadamente normal cuando se seleccionan muestras de por lo menos 30 elementos.
• Si la población tiene una distribución normal, la distribución muestral de la media también tiene una distribución
normal, independientemente del tamaño de la muestra.
Distribución muestral de una proporción: Considere una variable categórica que cuenta sólo con dos clasificaciones.
La proporción de la población, que se representa por medio de π, es la relación de elementos en toda la población que
cuentan con la característica de interés. La proporción muestral, que se representa por medio de p, es la relación de
elementos en la muestra que presentan la característica de interés. La proporción muestral es un estadístico que se
utiliza para estimar la proporción poblacional, un parámetro
Una estimación del intervalo de confianza es un rango de números, llamado intervalo, construido alrededor de la
estimación puntual. El intervalo de confianza se construye de manera que la probabilidad del parámetro de la
población se localice en algún lugar dentro del intervalo conocido.
Resumen de PPT
01 - Introducción
Introducción y Reunión de datos
Estadística: Es la rama de la matemática que transforma los datos en información útil para la toma de decisiones,
organizándolos, resumiéndolos, presentándolos y analizándolos
Estadística descriptiva: Conjunto de varias técnicas utilizadas para resumir la información contenida en un conjunto
de datos.
Estadística inferencial: Utilizando los datos obtenidos de un grupo pequeño se sacan conclusiones acerca de un
grupo más grande.
Variable: cuando tales características toman diferentes valores se conocen como variables. Característica y variable
se utilizan en forma indistinta
Parámetro: es una medida numérica que resume y describe a una característica de una población.
Estadístico o Estimador: es una medida numérica que resume y describe una característica de una muestra
Niveles o escalas de medidas: Nominal (solo clases o categorías), Ordinal (categorías con algún orden), De intervalos
(diferencias pero sin un punto de inicio natural), Proporcional o de razón (diferencias y un punto de inicio natural)
Exactitud y Precisión: Cada medición tiene dos componentes de error. Error de muestreo y, error no muestral
(sistemático)
Tipos de muestreo: Probabilístico (cuando todos los elementos de la población tienen una probabilidad conocida y
no nula de pertenecer a la muestra) y No probalístico
Medidas de Resumen: Mediana, Cuartiles (fuera de escala y extremos), Quintiles, deciles, percentiles.
El primer cuartil, Q1, es el valor en el cual 25% de las observaciones son menores y. 75% son mayores
Q2 es la mediana (50% son menores y, 50% son mayores)
Solo el 25% de las observaciones son mayores que el tercer cuartil Q3
Medidas de Variación: Rango, Rango intercuartílico, Varianza, Desviación Estandar, Coeficiente de variación
Rango Intercuartilico = 3er cuartil – 1er cuartil
Algunos problemas de outliers pueden ser eliminados usando el rango intercuartílico
Es Q3-Q1 y mide la dispersión en el medio del 50% de los datos
Curstosis: Describe la concentración relativa de los valores en el centro en comparación con las colas,
tomando como base a la distribución normal, con un valor de 3.
Box-and-Whisker Plot: Una visualización de los datos utilizando el resumen de los 5 números.
PRUEBA DE HIPÓTESIS
La hipótesis Nula (Ho): siempre signos =; ≤ ; ≥ --> Puede o no puede ser rechazada
Zona de rechazo = α (valores usuales son 0.01, 0.05, o 0.10); (Provee los valores críticos)
Zona de no rechazo = α -1 (Valores Usuales son: 0,99; 0,95 y 0,90)
p-value: Probabilidad de obtener un valor de la prueba más extremo. Nos indica hasta qué nivel de significación (α)
se puede rechazar la Hipótesis Nula (Ho)