Sunteți pe pagina 1din 7

EPA - BERENSON

MEDIDAS DE TENDENCIA CENTRAL:

 Media: La media sirve como “punto de equilibrio” del conjunto de datos. Se calcula sumando todos los
valores del conjunto de datos y dividiendo el resultado por el número de valores considerados. (𝑥̅ )
Promedio
𝑥̅ = media de la muestra
n = número de valores o tamaño de la muestra

La media sugiere cuál es un valor “típico” o central del conjunto de datos.

 Mediana: La mediana es el valor medio de un conjunto de datos ordenado de menor a mayor.


 Moda: Es el valor del conjunto de datos que aparece con mayor frecuencia. Con frecuencia, en un conjunto
de datos no existe moda, o bien, hay varias modas.
 Cuartiles: Dividen a un conjunto de datos en cuatro partes iguales: el primer cuartil Q1 separa al 25.0%, que
abarca a los valores más pequeños, del 75.0% restante, constituido por los que son mayores. El segundo
cuartil Q2 es la mediana: 50.0% de sus valores son menores que la mediana y 50.0% son mayores. El tercer
cuartil Q3 separa al 25.0%, que abarca a los valores más grandes, del 75.0% restante constituido por los que
son menores.
 Rango: Es la medida numérica descriptiva más sencilla de la variación en un conjunto de datos. El rango
mide la distribución total del conjunto de datos. Aunque el rango es una medida simple de la variación total
de los datos, no toma en cuenta cómo se distribuyen los datos entre los valores menor y mayor.
 Rango Intercuartil: (también llamado dispersión media) es la diferencia entre el tercer y primer cuartil de un
conjunto de datos. Q3 – Q1. El rango intercuartil mide la dispersión en la mitad (parte central) de los datos,
así que no se ve influido por los valores extremos.
 Varianza y desviación estándar: Son dos medidas de la variación muy utilizadas para tomar en cuenta cómo
se distribuyen los datos. Estos estadísticos miden la dispersión “promedio” alrededor de la media, es decir,
qué tanto varían los valores más grandes que están por encima de ella y cómo se distribuyen los valores
menores que están por debajo de ella.
En estadística, esta cantidad se denomina suma de cuadrados (o SS). Esta suma luego se divide entre el
número de valores menos 1 (para datos de la muestra), con el fin de obtener una varianza de la muestra
(S2). La raíz cuadrada de la varianza de la muestra es la desviación estándar de la muestra (S). Puesto que la
suma de cuadrados es una suma de diferencias elevadas al cuadrado que, por las reglas aritméticas siempre
será no negativa, ni la varianza ni la desviación estándar podrán ser negativas.
La desviación estándar le ayuda a conocer de qué manera se agrupan o distribuyen un conjunto de datos con
respecto a su media. En casi todos los conjuntos de datos, la mayoría de los valores observados quedan
dentro de un intervalo de más menos una desviación estándar por encima y por debajo de la media. Por esa
razón, conocer la media y la desviación estándar ayuda a definir por lo menos dónde se agrupa la mayoría de
los valores de los datos.

A continuación, se resumen las características del rango, del rango intercuartil, de la varianza y de la desviación
estándar.

 Cuanto más esparcidos o dispersos están los datos, son mayores el rango, el rango intercuartil, la
varianza y la desviación estándar.
 Cuanto más concentrados u homogéneos son los datos, son menores el rango, el rango
intercuartil, la varianza y la desviación estándar.
 Si todos los valores son los mismos (de tal manera que no hay variación de los datos), el rango, el
rango intercuartil, la varianza y la desviación estándar son iguales a cero.
 Ninguna de las medidas de la variación (rango, rango intercuartil, desviación estándar y varianza)
puede ser negativa.

 Coeficiente de variación: el coeficiente de variación es una medida relativa de la variación que siempre
se expresa como porcentaje, más que en términos de las unidades de los datos en particular. El
coeficiente de variación, que se denota mediante el símbolo CV, mide de dispersión de los datos con
respecto a la media.
El coeficiente de variación es igual a la desviación estándar dividida por la media, multiplicada por 100%.

 Forma:
 Media < mediana; asimétrica negativa o sesgo izquierdo.
 Media = mediana; simétrica o asimetría cero.
 Media > mediana; asimétrica positiva o sesgo derecho.

MEDIDAS NUMÉRICAS DESCRIPTIVAS DE UNA POBLACIÓN

 La media poblacional: Se representa por medio del símbolo μ, la letra griega mu minúscula. La ecuación
define a la media poblacional.
 Varianza y desviación estándar poblacionales: miden la variación en una población. Al igual que los
estadísticos muestrales relacionados, la desviación estándar poblacional es igual a la raíz cuadrada de la
varianza poblacional. El símbolo σ2, que es la letra griega sigma minúscula elevada al cuadrado, representa
la varianza poblacional y el símbolo σ, la misma letra griega minúscula, pero sin elevar al cuadrado,
representa la desviación estándar poblacional
 Resumen de cinco números: Compuesto por:

 Gráfica de caja y bigote: Ofrece una representación visual de los datos basada en el resumen de cinco
números.

La gráfica de caja y bigote de los tiempos necesarios para arreglarse que aparece en la figura muestra una
muy ligera asimetría a la derecha, ya que la distancia entre la mediana y el valor mayor es levemente mayor
que la distancia entre el menor valor y la mediana. El bigote derecho es un poco más largo que el izquierdo.
DISTRIBUSIÓN

La distribución normal es simétrica y con forma de campana, lo que implica que la mayoría de los valores tienden a
agruparse alrededor de la media, la cual, por su forma simétrica, es igual a la mediana.

 Muchas variables continuas comunes en el mundo de los negocios tienen distribuciones que se asemejan
estrechamente a la distribución normal.
 La distribución normal sirve para acercarse a diversas distribuciones de probabilidad discreta, como la
distribución binomial y la distribución de Poisson.
 La distribución normal proporciona la base para la estadística inferencial clásica por su relación con el
teorema de límite central

Evaluación de la normalidad:

 Es simétrica, por lo tanto, la media y la mediana son iguales.


 Tiene forma de campana, por lo que se aplica la regla empírica.
 El rango intercuartil es igual a 1.33 desviaciones estándar.
 El rango es infinito

DISTRIBUSIONES MUESTRALES

Media muestral, un estadístico utilizado para estimar la media poblacional (un parámetro).
Proporción muestral, un estadístico utilizado para estimar la proporción poblacional (un parámetro).

El principal problema al realizar una inferencia estadística radica en obtener conclusiones sobre la población, no sobre
la muestra.
En la práctica, de la población total usted selecciona una muestra aleatoria simple de tamaño predeterminado.
Determina qué elementos forman parte de la muestra mediante el uso de un generador de número aleatorio
Hipotéticamente, al utilizar un estadístico muestral para estimar un parámetro poblacional, debe examinar toda
posible muestra que pudiera presentarse.

La distribución muestral es la distribución de los resultados que se presentan si en realidad se seleccionaron todas las
muestras posibles.

Distribución muestral de la media: Es la distribución de todas las medias posibles que surgen si en realidad se
seleccionaran todas las muestras posibles de cierto tamaño.
La media muestral es imparcial porque la media de todas las medias muestrales posibles (de una muestra dada con
tamaño n) es igual a la media poblacional μ.

Error estándar de la media: Expresa cuánto varía la media muestral entre una muestra y otra. Cuando aumenta el
tamaño de la muestra, el error estándar de la media se reduce en un factor igual a la raíz cuadrada del tamaño de la
muestra

 EL TEOREMA DEL LÍMITE CENTRAL

Dispone que cuando el tamaño de la muestra (es decir, el número de valores en cada muestra) es lo bastante grande,
la distribución muestral de la media tiene una distribución aproximadamente normal. Esto es válido sin importar la
forma de la distribución de los valores individuales en la población.

Utilizando los resultados surgidos de estas reconocidas distribuciones estadísticas (normal, uniforme y exponencial),
se obtienen las siguientes conclusiones con respecto al teorema del límite central.

• Para la mayor parte de las distribuciones poblacionales, sin importar su forma, la distribución muestral de la media
tiene una distribución aproximadamente normal cuando se seleccionan muestras de por lo menos 30 elementos.

• Si la distribución poblacional es bastante simétrica, la distribución muestral de la media es aproximadamente normal


en muestras tan pequeñas como las de 5 elementos.

• Si la población tiene una distribución normal, la distribución muestral de la media también tiene una distribución
normal, independientemente del tamaño de la muestra.
Distribución muestral de una proporción: Considere una variable categórica que cuenta sólo con dos clasificaciones.
La proporción de la población, que se representa por medio de π, es la relación de elementos en toda la población que
cuentan con la característica de interés. La proporción muestral, que se representa por medio de p, es la relación de
elementos en la muestra que presentan la característica de interés. La proporción muestral es un estadístico que se
utiliza para estimar la proporción poblacional, un parámetro

ESTIMACIÓN DE INTERVALOS DE CONFIANZA

Una estimación del intervalo de confianza es un rango de números, llamado intervalo, construido alrededor de la
estimación puntual. El intervalo de confianza se construye de manera que la probabilidad del parámetro de la
población se localice en algún lugar dentro del intervalo conocido.

Estimación del intervalo de confianza para la media (σ CONOCIDA)

Resumen de PPT
01 - Introducción
Introducción y Reunión de datos

Estadística: Es la rama de la matemática que transforma los datos en información útil para la toma de decisiones,
organizándolos, resumiéndolos, presentándolos y analizándolos

Estadística descriptiva: Conjunto de varias técnicas utilizadas para resumir la información contenida en un conjunto
de datos.

Estadística inferencial: Utilizando los datos obtenidos de un grupo pequeño se sacan conclusiones acerca de un
grupo más grande.

Variable: cuando tales características toman diferentes valores se conocen como variables. Característica y variable
se utilizan en forma indistinta

Parámetro: es una medida numérica que resume y describe a una característica de una población.

Estadístico o Estimador: es una medida numérica que resume y describe una característica de una muestra

Dato: Categórico (Sí o No) y Cuantitativo (Discretas y Continuas)

Niveles o escalas de medidas: Nominal (solo clases o categorías), Ordinal (categorías con algún orden), De intervalos
(diferencias pero sin un punto de inicio natural), Proporcional o de razón (diferencias y un punto de inicio natural)

Exactitud y Precisión: Cada medición tiene dos componentes de error. Error de muestreo y, error no muestral
(sistemático)

Tipos de muestreo: Probabilístico (cuando todos los elementos de la población tienen una probabilidad conocida y
no nula de pertenecer a la muestra) y No probalístico

03 - Análisis Exploratorio de Datos


Medidas de Tendencia Central: Media Aritmética, Mediana, Modo, Media Geométrica, Media Armónica

Medidas de Resumen: Mediana, Cuartiles (fuera de escala y extremos), Quintiles, deciles, percentiles.

 El primer cuartil, Q1, es el valor en el cual 25% de las observaciones son menores y. 75% son mayores
 Q2 es la mediana (50% son menores y, 50% son mayores)
 Solo el 25% de las observaciones son mayores que el tercer cuartil Q3

Medidas de Variación: Rango, Rango intercuartílico, Varianza, Desviación Estandar, Coeficiente de variación
 Rango Intercuartilico = 3er cuartil – 1er cuartil
 Algunos problemas de outliers pueden ser eliminados usando el rango intercuartílico
 Es Q3-Q1 y mide la dispersión en el medio del 50% de los datos

Medidas de Forma: asimetría y curtosis

 Curstosis: Describe la concentración relativa de los valores en el centro en comparación con las colas,
tomando como base a la distribución normal, con un valor de 3.

k > 0 = Distribución Leptocurtica (más concentrada)

k = 0 = Distribución mesocurtica (igual)

k < 0 = Distribución platicurtica (menos concentrada)

Resumen de los 5 números:

 Box-and-Whisker Plot: Una visualización de los datos utilizando el resumen de los 5 números.

PRUEBA DE HIPÓTESIS

Una hipótesis es un supuesto acerca de un parámetro poblacional (nunca muestral).

La hipótesis Nula (Ho): siempre signos =; ≤ ; ≥ --> Puede o no puede ser rechazada

Hipótesis Alternativa (H1): Lo opuesto a la Ho. Siempre signos ≠; <; >

Si rechazamos la Ho, aceptamos la H1 – Si no rechazamos Ho, no podemos afirmarla.


Errores:

 Si no rechazo la Ho y la Ho es verdadera = No hay error


 Si no rechazo la Ho y la Ho es falsa = Error Tipo II
 Si rechazo la Ho y la Ho es verdadera = Error Tipo I (Considerado un tipo serio de error)
 Si rechazo la Ho y la Ho es falsa = No hay error

Nivel de significación y Nivel confianza

 Zona de rechazo = α (valores usuales son 0.01, 0.05, o 0.10); (Provee los valores críticos)
 Zona de no rechazo = α -1 (Valores Usuales son: 0,99; 0,95 y 0,90)

PRUEBA DE HIPÓTESIS PARA LA MEDIA (µ)

 Varianza poblacional conocida -> Prueba Z


 Varianza poblacional desconocida ->
o Muestra grande: Prueba Z (n > 30)
o Muestra chica: Prueba t (n < 30)

Para α = 0.05 el valor crítico de z, es ±1.96

Para α = 0.010 el valor crítico de z, es ±1.28

Para α = 0.025 el valor crítico de t, es ±2.0639

p-value: Probabilidad de obtener un valor de la prueba más extremo. Nos indica hasta qué nivel de significación (α)
se puede rechazar la Hipótesis Nula (Ho)

 Si p-value < α, rechazo Ho


 Si p-value ≥ α, no rechazo Ho

S-ar putea să vă placă și