Sunteți pe pagina 1din 27

Manejo y análisis de datos

 Manejo, almacenamiento, acceso


 Estadísticas básicas
 Distribuciones
 Inferencia estadística
 Estimación
 Pruebas de hipótesis (contrastes)
 Correlación y análisis de regresión
 Presentación de datos
 Errores
Estadística básica

Medidas de tendencia central y cuartiles


• Media
• Mediana
• Moda
• Cuartiles

Medidas de dispersión o variabilidad


• Rango
• Desviación estándar
• Rangos intercuartiles
• Coeficiente de variación
La media aritmética

• Es la más utilizada
• Es el valor central alrededor del cual están la mayoría de las observaciones
• Sólo puede calcularse para variables cuantitativas (números)
• Se calcula sumando todos los valores de la variable divididos por el número total
de observaciones.

X = Σ Xi / n

∑ = Símbolo sumatorio (indica que se están sumando todas las X que hay)
Xi= Valor que toma la variable u observación del sujeto i
n = Número total de observaciones
La mediana

Es el valor que ocupa el lugar central de todos los datos cuando


éstos están ordenados de menor a mayor.
La mediana se puede hallar sólo para variables cuantitativas.
Representa el valor de la variable de posición central en un conjunto
de datos ordenados.

Cálculo de mediana con pocos casos


1. Se ordenan las puntuaciones n de mayor a menor
2. Se Observa si el número de observaciones n es par o impar
• Si es impar, la mediana es el valor de la posición central
• Si es par, la mediana es la media aritmética de los dos valores
centrales.
Moda

Valor con mayor frecuencia en una distribución de datos

Se pueden presentar distribuciones bimodales o trimodales de los


datos, cuando se encuentren dos o tres modas
Cuartiles

3 valores de la distribución que dividen en 4 partes de igual


frecuencia a la distribución.
Primer Cuartil (Q1) = Deja por debajo de sí al 25% y por encima al
75% (Q1 = P25)
Segundo Cuartil (Q2) = Deja por debajo de sí al 50% y por encima al
50% (Q2 = P50 = Md)
Tercer Cuartil (Q3) = Deja por debajo de sí al 75% y por encima al
25% (Q3 = P75)
Desviación Estándar

Es una medida de dispersión, que indica cuánto pueden alejarse los valores
respecto al promedio (media), es útil para buscar probabilidades de que un
evento ocurra.

Donde
xi= dato i que esta entre (o, n)
x= promedio de los datos
n= numero datos
Rango intercuartil

Estimación estadística de la dispersión de una distribución de datos.


Consiste en la diferencia entre el tercer y el primer cuartil.
Mediante esta medida se eliminan los valores extremadamente alejados.
Es recomendable cuando la medida de tendencia central utilizada es la mediana.
Coeficiente de variación

El es la relación entre la desviación típica de una muestra y su media.

Se suele expresar en porcentajes

Permite comparar las dispersiones de dos


distribuciones distintas, con restricciones
Distribuciones

Discretas:
• Bernoulli
• Binomial
• Geométrica
• De Poisson
Continuas:
• Uniforme
• Normal
• Exponencial
La distribución normal es una distribución de probabilidad de variable continua
que describe los datos que se agrupan en torno a un valor central. Todo
proceso en el que solo existan causas aleatorias de variación sigue una ley de
distribución normal.

1. Los valores de las mediciones


tienden a agruparse alrededor de
un punto central, la media.
2. La representación de los datos es
simétrica a ambos lados de la
media.
3. Las desviaciones estándares
quedan situadas a igual distancia
unas de otras.
4. La proporción de mediciones situada entre la media y las desviaciones es
una constante en la que:
• La media ± 1 * desviación estándar = cubre el 68,3% de los casos
• La media ± 2 * desviación estándar = cubre el 95,5% de los casos
• La media ± 3 * desviación estándar = cubre el 99,7% de los casos
Distribución t de Student
En probabilidad y estadística, la distribución t (de Student) es una
distribución de probabilidad que surge del problema de estimar la media de
una población normalmente distribuida cuando el tamaño de la muestra es
pequeño.
Distribución chi-cuadrado

La distribución Chi-Cuadrada es una de las distribuciones más empleadas en todos los


campos. Su uso más común es cuando se quiere probar si unas mediciones que se
hayan efectuado siguen una distribución esperada, por ejemplo la normal o cualquier
otra. Otro de sus usos es en intervalos de confianza y pruebas de hipótesis para las
varianzas o desviaciones estándar.
Inferencia estadística

Estimación: conjunto de técnicas que permiten dar un valor


aproximado de un parámetro de una población a partir de los
datos proporcionados por una muestra

Un contraste o test de hipótesis es una técnica de Inferencia Estadística que


permite comprobar si la información que proporciona una muestra observada
concuerda (o no) con la hipótesis estadística formulada sobre el modelo de
probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis
formulada.
Correlación y análisis de regresión

El análisis de regresión consiste en emplear métodos que permitan determinar


la mejor relación funcional entre dos o más variables concomitantes (o
relacionadas). El análisis de correlación estudia el grado de asociación de dos o
más variables.

Regresión Lineal Simple:


la relación funcional entre
las variables dependiente
(Y) e independiente (X) es
una línea recta, se tiene
una regresión lineal
simple
Intervalos de Confianza
En muchos casos es de interés conocer entre que valores se encuentra el
coeficiente de regresión de la población para un cierto grado de confianza
fijada, este procedimiento permite hallar los valores llamados límites de
confianza.
Análisis de Correlación

S-ar putea să vă placă și