Sunteți pe pagina 1din 27

1.

PRINCIPALES ESTADISTICOS DE MUESTRA


MEDIDAS DE TENDENCIA CENTRAL
1. MEDIA ARITMETICA

2. MEDIA GEOMETRICA

3. MEDIA ARMONICA
MEDIDAS DE DISPERCION
4. VARIANZA

5. DESVIACION ESTANDAR
2. COEFICIENTE DE CORRELACION SIMPLE

Antes de introducirnos en el modelo de regresión lineal, que hace referencia a la


naturaleza de la relación entre distintas variables, pasaremos a exponer el estadístico
utilizado para medir la magnitud de la relación (supuestamente lineal) entre dichas
variables. Tiene sentido darle un tratamiento aparte por su importancia y las continuas
referencias que ofreceremos a lo largo de este texto. Usualmente para dos variables.
El coeficiente de correlación de Pearson, pensado para variables cuantitativas (escala
mínima de intervalo), es un índice que mide el grado de covariación entre distintas
variables relacionadas linealmente. Adviértase que decimos "variables relacionadas
linealmente”. La correlación, también conocida como coeficiente de correlación lineal
(de Pearson), es una medida de regresión que pretende cuantificar el grado de variación
conjunta entre dos variables.

Valores que puede tomar la correlación

ρ = -1 Correlación perfecta negativa

ρ=0 No existe correlación

ρ = +1 Correlación perfecta positiva

Decimos que la correlación entre dos variables X e Y es perfecta positiva cuando


exactamente en la medida que aumenta una de ellas aumenta la otra

Se dice que la relación es perfecta negativa cuando exactamente en la medida que


aumenta una variable disminuye la otra
En los fenómenos humanos, fuertemente cargados de componentes aleatorios, no suelen
ser posible establecer relaciones funcionales exactas.

El coeficiente de correlación
Significación del coeficiente de correlación

Una vez calculado el valor del coeficiente de correlación interesa determinar si tal valor
obtenido muestra que las variables X e Y están relacionadas en realidad o tan solo
presentan dicha relación como consecuencia del azar.

Cuanto más cerca de 1 mayor ser la correlación, y menor cuanto más cerca de cero.

No puede darse una respuesta precisa. Depende en gran parte de la naturaleza de la


investigación. Por ejemplo, una correlación de 0.6 sería baja si se trata de la fiabilidad de
un cierto test, pero, sin embargo, sería alta si estamos hablando de su validez.
3. MODELOS DE PROBABILIDAD

MODELO NORMAL:

Se usa para representar una variable aleatoria continua, caracterizada por una distribución
simétrica de sus ocurrencias alrededor de un valor central.

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más
comúnmente, como la "campana de Gauss".

Abraham de Moivre (1667-754) Carl Friedrich Gauss (1777-1855)

La distribución de una variable normal está completamente determinada por dos parámetros,
su media y su desviación estándar, denotadas generalmente por μ y σ.

ECUACION DE LA DENSIDAD DE LA NORMAL

Donde:
• P(x)= Valor de la función densidad asociada a
• la variable.
• x= valor de la variable en estudio.
• m= valor medio de la variable.
• σ = Desviación típica de la variable
CAMPANA DE GAUSS
Campana de Gauss , es una representación
gráfica de la distribución normal de un grupo
de datos.

Éstos se reparten en valores bajos, medios y


altos, creando un gráfico de forma
acampanada y simétrica con respecto a un
determinado parámetro. Se conoce como
curva o campana de Gauss o distribución
Normal.

PRINCIPALES AREAS BAJO LA CURVA DE GAUSS A RECORDAR

PROPIEDADES DE LA DISTRIBUCIÓN NORMAL:

 Tiene una única moda, que coincide con su media y su mediana.


 La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -∞ y
+∞ Es simétrica con respecto a su media.
 La distancia entre la línea trazada en la media y el punto de inflexión de la curva es
igual a una desviación típica.
 La distancia comprendido entre los valores situados a dos desviaciones estándar de la
media es igual a 0.95
(μ - 1.96σ ; μ +1.96σ)
 La forma de la campana de Gauss depende de los parámetros (μ, σ)

TIPIFICACIÓN O ESTANDARIZACION

COEFICIENTE DE ASIMETRIA FISHER COMO:

EL COEFICIENTE DE APLASTAMIENTOO CURTOSIS DE FISHER


4. DISTRIBUCION NORMAL

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más
comúnmente, como la "campana de Gauss". La distribución de una variable normal está
completamente determinada por dos parámetros, su media y su desviación estándar,
denotadas generalmente por μ y σ.

Así, se dice que una característica X sigue una distribución normal de media μ y varianza
σ2 y se denota como X≈ N (μ, σ) si su función de densidad viene dada por la Ecuación 1.

Al igual que ocurría con un histograma, en el que el área de cada rectángulo es


proporcional al número de datos en el rango de valores correspondiente si, tal y como se
muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y
b, el área bajo la curva delimitada por esas líneas indica la probabilidad de que la variable
de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su
mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente
hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable
observar un dato cercano al valor medio que uno que se encuentre muy alejado de éste.
Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes que conviene destacar:

I. Tiene una única moda, que coincide con su media y su mediana.


II. II. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor
entre -∞ y +∞ es teóricamente posible. El área total bajo la curva es, por tanto,
igual a 1.
III. Es simétrica con respecto a su media μ Según esto, para este tipo de variables
existe una probabilidad de un 50% de observar un dato mayor que la media, y
un 50% de observar un dato menor.
IV. La distancia entre la línea trazada en la media y el punto de inflexión de la
curva es igual a una desviación típica (σ) Cuanto mayor sea σ , más aplanada
será la curva de la densidad.
V. El área bajo la curva comprendido entre los valores situados aproximadamente
a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un
95% de posibilidades de observar un valor comprendido en el intervalo (μ –
1.96 σ, μ +1.96 σ)
VI. La forma de la campana de Gauss depende de los parámetros μ y σ. La media
indica la posición de la campana, de modo que para diferentes valores de μ la
gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación
estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea
el valor de σ , más se dispersarán los datos en torno a la media y la curva será
más plana. Un valor pequeño de este parámetro indica, por tanto, una gran
probabilidad de obtener datos cercanos al valor medio de la distribución.

Como se deduce de este último apartado, no existe una única distribución normal,
sino una familia de distribuciones con una forma común, diferenciadas por los valores
de su media y su varianza.

De entre todas ellas, la más utilizada es la distribución normal estándar, que


corresponde a una distribución de media 0 y varianza 1.

Así, la expresión que define su densidad se puede obtener de la Ecuación 1,


resultando:

Es importante conocer que, a partir de cualquier variable X que siga una distribución N
(μ, σ) se puede obtener otra característica Z con una distribución normal estándar, sin más
que efectuar la transformación:

DISTRIBUCION LOGARITMICA NORMAL

La distribución logarítmico normal es continua. Se suele utilizar a menudo en situaciones


en las que los valores se sesgan positivamente, por ejemplo, para determinar precios de
acciones, precios de propiedades inmobiliarias, escalas salariales y tamaños de depósitos
de aceite.
Parámetros

Ubicación: Media, Desviación estándar

De forma predeterminada, la distribución logarítmico normal utiliza la media aritmética


y la desviación estándar. En el caso de aplicaciones en las que hay datos históricos
disponibles, resulta más adecuado utilizar la desviación estándar logarítmica y la media
logarítmica o la media geométrica y la desviación estándar geométrica. Estas opciones
están disponibles en el menú Parámetros de la barra de menús. Tenga en cuenta que el
parámetro de ubicación está siempre en el espacio aritmético.

Características de la distribución

La distribución lognormal se obtiene cuando los logaritmos de una Variable se describen


mediante una distribución normal. Es el caso en el que las variaciones en la fiabilidad de
una misma clase de componentes técnicos se representan considerando la tasa de fallos
λaleatoria en lugar de una variable constante.

Es la distribución natural a utilizar cuando las desviaciones a partir del valor del modelo
están formadas por factores, proporciones o porcentajes más que por valores absolutos
como es el caso de la distribución normal.

La distribución lognormal tiene dos parámetros: M (media aritmética del logaritmo de


los datos o tasa de fallos) y σ(desviación estándar del logaritmo de los datos o tasa de
fallos).

Propiedades

La distribución lognormal se caracteriza por las siguientes propiedades:

● Asigna a valores de la variable < 0 la probabilidad 0 y de este modo se ajusta a las tasas
y probabilidades de fallo que de esta forma sólo pueden ser positivas.

● Como depende de dos parámetros, según veremos, se ajusta bien a un gran número de
distribuciones empíricas.

● Es idónea para parámetros que son a su vez producto de numerosas cantidades


aleatorias (múltiples efectos que influyen sobre la fiabilidad de un componente).
● La esperanza matemática o media en la distribución lognormal es mayor que su
mediana. De este modo da más importancia a los valores grandes de las tasas de fallo que
una distribución normal con los mismos percentiles del 5% y 50% tendiendo, por tanto,
a ser pesimista. Esta propiedad se puede apreciar en la figura 2.

FIGURA 2

La distribución log-normal tiende a la función densidad de probabilidad

Para X > 0 , donde μ y σ. son la media y la desviación estándar del logaritmo de variable.
El valor esperado es:

y la varianza es :
5. VARIABLES ALEATORIAS

Una variable aleatoria es un número que representa un resultado de una circunstancia o


un experimento aleatorio. Una variable aleatoria puede ser discreta o continua. Una
variable aleatoria discreta solo puede tener valores contables distintos, tales como 0, 1,
2, 3, …. Los ejemplos incluyen el número de estudiantes en un aula, el número de
aviones en un aeropuerto o el número de defectos en un lote. Una variable aleatoria
continua puede tener cualquier valor, por ejemplo, una medición. Los ejemplos incluyen
la estatura de los sujetos de un estudio, el peso de cajas de cereal o la longitud de
destornilladores.

MODELO BINOMIAL

En estadística, la distribución binomial es una distribución de probabilidad discreta que


cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes
entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Un
experimento de Bernoulli se caracteriza por ser dicotómico, esto es, solo dos resultados
son posibles. A uno de estos se denomina «éxito» y tiene una probabilidad de
ocurrencia p y al otro, «fracaso», con una probabilidad2 q = 1 - p. En la distribución
binomial el anterior experimento se repite n veces, de forma independiente, y se trata de
calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se
convierte, de hecho, en una distribución de Bernoulli.

Propiedades de la distribución binomial

Para que una variable aleatoria se considere que sigue una distribución binomial, tiene
que cumplir las siguientes propiedades:

 En cada ensayo, experimento o prueba solo son posibles dos resultados (éxito o
fracaso).
 La probabilidad del éxito ha de ser constante. Esta se representa mediante la letra p. La
probabilidad de que salga cara al lanzar una moneda es 0,5 y esta es constante dado que
la moneda no cambia en cada experimento y las probabilidades de sacar cara es
constate.
 La probabilidad de fracaso ha de ser también constate. Esta se representa mediante la
letra q = 1-p.
 El resultado obtenido en cada experimento es independiente del anterior. Por lo tanto, lo
que ocurra en cada experimento no afecta a los siguientes.
 Los sucesos son mutuamente excluyentes, es decir, no pueden ocurrir los 2 al mismo
tiempo. No se puede ser hombre y mujer al mismo tiempo o que al lanzar una moneda
salga cara y sello al mismo tiempo.
 Los sucesos son colectivamente exhaustivos, es decir, al menos uno de los 2 ha de
ocurrir. Si no se es hombre, se es mujer y si se lanza una moneda, si no sale cara ha de
salir sello.
 La variable aleatoria que sigue una distribución binomial se suele representar como
X~(n,p). n representa el número de ensayos o experimentos y p la probabilidad de éxito.

Se aplica usualmente a fenómenos caracterizados por una variable aleatoria que


observada de experimentos independientes e idénticos responde necesariamente a dos
posibles eventos, ocurrencia o no ocurrencia

FORMULA

Donde:

P(x)=probabilidad de ocurrencia combinada de N° X de eventos de n


consecutivas

n= numero total de observaciones

x= número de eventos a ocurrir (número de éxitos)

p= probabilidad de ocurrencia de un evento cualquiera


Donde:

p= probabilidad de ocurrencia de un bloque atractivo por distrito

m= valor medio de N° de bloques atractivos por distrito

n= N° total de bloques observados por distrito

Ejemplo

Supongamos 100 distritos mineros, cada uno de ellos subdivididos en una malla de 5x5
bloques, cada uno de los bloques generados se somete a una caracterización de su
potencial minero, usando para ello dos categorías. Bloques potencialmente atractivos y
sin interés.

La siguiente tabla muestra el resultado obtenido en estas observaciones:


La probabilidad de que un bloque sea atractivo

La probabilidad de que ningún bloque sea atractivo

La probabilidad de que dos o más bloques sean atractivos, será

DISTRIBUCION DE POISON

la distribución de Poisson es una distribución de probabilidad discreta que expresa, a


partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un
determinado número de eventos durante cierto período de tiempo. Concretamente, se
especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy
pequeñas, o sucesos "raros"

Se utiliza la distribución de Poisson para describir el número de veces que un evento


ocurre en un espacio finito de observación. Por ejemplo, una distribución de Poisson
puede describir el número de defectos en el sistema mecánico de un avión o el número
de llamadas a un centro de llamadas en una hora. La distribución de Poisson se utiliza
con frecuencia en el control de calidad, los estudios de fiabilidad/supervivencia y los
seguros.

Una variable sigue una distribución de Poisson si se cumplen las siguientes condiciones:

 Los datos son conteos de eventos (enteros no negativos, sin límite superior).

 Todos los eventos son independientes.

 La tasa promedio no cambia durante el período de interés.

Donde

P(x)= probabilidad de ocurrencia combinada de un N° x de eventos de n consecutivas


observaciones

X= numero de eventos a ocurrir en un intervalo de tiempo

= número de veces que ocurre un suceso en un intervalo de tiempo

Ejemplo
Supongamos 100 distritos mineros, cada uno de ellos subdivididos en una malla de 5x5
bloques, cada uno de los bloques generados se somete a una caracterización de su
potencial minero, usando para ello dos categorías. Bloques potencialmente atractivos y
sin interés.

La siguiente tabla muestra el resultado obtenido en estas observaciones:

Donde

M= valor medio de N° de bloques atractivos por distritos

La probabilidad de que un bloque sea atractivo


La probabilidad de que ningún bloque sea atractivo

La probabilidad de que dos o más bloques sean atractivos, será

LECTURAS DE GRAFICOS

Es necesario la síntesis de datos

medidas centrales de localización

Media: es el valor promedio de la muestra

Mediana: es el valor que se encuentra en la mitad

Moda: el valor mas observado

Mínimo: es el menor valor de la muestra

Máximo: mayor valor de la muestra


Medidas de dispersión

Amplitud: diferencia entre máximo y mínimo

Desviación estándar: diferencia media de los datos respecto de la media

medidas de forma

Sesgo: asimetría

Curtosis: apuntamiento

SESGO

También conocida como asimetría es la medida que indica la simetría de la distribución


de una variable respecto a la media aritmética, sin necesidad de hacer la representación
grafica

El sesgo examina la diferencia entre la medición promedio observada y un valor de


referencia. El sesgo indica cuál es la exactitud del sistema de medición cuando se
compara con un valor de referencia

Tipos de sesgos

Si la simetría y la mediana son iguales, la distribución es simétrica

Si la media es mayor que la mediana la distribución esta segada a la derecha


Si la media es menor que la mediana, la distribución esta sesgada a la izquierda

La media se influye mucho por el peso de los valores extremos y la mediana no. Por
ello conviene usar la media en las distribuciones simétricas y la mediana en las
asimétricas

KURTOSIS

La kurtosis es una medida de forma que mide cuan achatada esta una forma o
distribución. Esto indica la cantidad de datos que hay cercanos a la media, de manera
que a mayor grado de kurtosis, más apuntada será la forma de la curva
Tipos de curtosis

Las curvas se pueden clasificar en tres grupos según el signo de la kurtosis, es decir,
según la forma de la distribución

Leptocúrtica: la kurtosis >0: los datos están muy concentrados en la media, siendo
una curva muy apuntada

Mesocúrtica: la kurtosis = 0. Distribución normal

Platicurtica: l kurtosis <0: muy poca concentración de datos en la media, presentando


una forma muy achatada
6. TEST DE BONDAD DE AJUSTE

1-TEST DE CHI – CUADRADO:

Es una prueba de hipotesis que consiste en comparar la distibucion observada con una
distribución teorica esperada.

• Se plantean 2 hipotesis:
• H0: la nuestra tiene una distribución x
• H1:la muestra no tiene una distribución x
-Formula para hallar las posibles hipotesis:

2-TEST DE KOLMOGOROV - SMIRNOV

En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es


una prueba no paramétrica que determina la bondad de ajuste de dos distribuciones de
probabilidad entre sí.

En el caso de que queramos verificar la normalidad de una distribución, la prueba de


Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en
general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas más
potentes.

Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los


valores cercanos a la mediana que a los extremos de la distribución. La prueba de
Anderson-Darling proporciona igual sensibilidad con valores extremos.

Sean los valores mostrados a continuacion las leyes de Zn (%) de 33 muestras Tomados
de un yacimiento .Comprobar si dichos valores siguen una leynormal

6.4 7.1 5.4 5.9

5.4 4.9 7.5 5.8

4.7 5.7 5.8 5.8

8.2 6.1 2.8 4.6

6.8 6.2 5.9 4.9

6.2 7.4 9.1 6.2

6.3 7.5 7.3

3.9 6.1 3.3

6.2 5.6 5.1

S-ar putea să vă placă și