Sunteți pe pagina 1din 44

MAESTRÍA EN

GEOLOGÍA DEL PETRÓLEO


METODOS
GEOESTADISTICOS
Estadística

Modelos probabilísticos
Variable aleatoria
 El resultado de un experimento aleatorio puede ser
descrito en ocasiones como una cantidad numérica.

 Variable aleatoria

 Las variables aleatorias pueden ser discretas o


continuas (como en el primer tema del curso).

 En las siguientes diapositivas vamos a recordar


conceptos de temas anteriores, junto con su nueva
designación. Los nombres son nuevos. Los conceptos
no.
4
Función de probabilidad (V. Discretas)

 Asigna a cada posible valor 40%

de una variable discreta su 35%

30%
probabilidad.
25%
 Recuerda los conceptos de
20%
frecuencia relativa y diagrama de
barras. 15%

10%

5%

0%
0 1 2 3

5
Función de densidad (V. Continuas)
 Definición
 Es una función no negativa de integral 1.
 Generalización del histograma con
frecuencias relativas para variables
continuas.

 ¿Para qué lo voy a usar?


 Nunca lo vas a usar directamente.
 Sus valores no representan probabilidades.

6
¿Para qué sirve la f. densidad?
 Muchos procesos aleatorios vienen descritos por variables de forma
que son conocidas las probabilidades en intervalos.

 La integral definida de la función de densidad en dichos intervalos


coincide con la probabilidad de los mismos.

 Es decir, identificamos la probabilidad de un intervalo con el área bajo


la función de densidad.

7
Función de distribución
 Es la función que asocia a cada valor de una
variable, la probabilidad acumulada
de los valores inferiores o iguales.

 Piénsalo como la generalización de las


frecuencias acumuladas. Diagrama integral.

 A los valores extremadamente bajos les corresponden


valores de la función de distribución cercanos a cero.

 A los valores extremadamente altos les corresponden


valores de la función de distribución cercanos a uno.

 Lo encontraremos en los artículos y aplicaciones en forma


de “p-valor”, significación

8
¿Para qué sirve la f. distribución?
 Contrastar lo anómalo de una observación concreta.

 En otro contexto (contrastes de hipótesis) podremos observar unos


resultados experimentales y contrastar lo “anómalos” que son en
conjunto con respecto a una hipótesis de terminada.

9
Algunos modelos de v.a.

 Hay v.a. que aparecen con frecuencia en todas las


Ciencias
 Experimentos.
 Bernoulli

 Contar éxitos en experimentos repetidos:


 Binomial
 Poisson (sucesos raros)

 Y en otras muchas ocasiones…


 Distribución normal (gaussiana, campana,…)

10
Distribución de Bernoulli
 Tenemos un experimento de Bernoulli si al realizar un
experimentos sólo son posibles dos resultados:
 X=1 (éxito, con probabilidad p)
 X=0 (fracaso, con probabilidad q=1-p)

 Lanzar una moneda y que salga cara.


 p=1/2
 Elegir una persona de la población y que esté enfermo.
 p=1/1000 = prevalencia de la enfermedad
 Aplicar un tratamiento a un enfermo y que éste se cure.
 p=95%, probabilidad de que el individuo se cure

 Como se aprecia, en experimentos la variable queda


perfectamente determinada conociendo el parámetro p.
Tema 5: Modelos probabilísticos
Ejemplo de distribución de Bernoulli.
 Se ha observado estudiando 2000 accidentes de tráfico
con impacto frontal y cuyos conductores no tenían
cinturón de seguridad, que 300 individuos quedaron con
secuelas. Describa el experimento usando conceptos de
v.a.

 Solución.
 La noc. frecuentista de prob. nos permite aproximar la probabilidad de
tener secuelas mediante 300/2000=0,15=15%

 X=“tener secuelas tras accidente sin cinturón” es variable de Bernoulli


 X=1 tiene probabilidad p ≈ 0,15
 X=0 tiene probabilidad q ≈ 0,85

12
Ejemplo de distribución de Bernoulli.
 Se ha observado estudiando 2000 accidentes de tráfico
con impacto frontal y cuyos conductores sí tenían
cinturón de seguridad, que 10 individuos quedaron con
secuelas. Describa el experimento usando conceptos de
v.a.

 Solución.
 La noc. frecuentista de prob. nos permite aproximar la probabilidad de
quedar con secuelas por 10/2000=0,005=0,5%

 X=“tener secuelas tras accidente usando cinturón” es variable de


Bernoulli
 X=1 tiene probabilidad p ≈ 0,005
 X=0 tiene probabilidad q ≈ 0,995

13
Observación
 En los dos ejemplos anteriores hemos visto cómo enunciar los
resultados de un experimento en forma de estimación de
parámetros en distribuciones de Bernoulli.
 Sin cinturón: p ≈ 15%
 Con cinturón: p ≈ 0,5%

 En realidad no sabemos en este punto si ambas cantidades son


muy diferentes o aproximadamente iguales, pues en otros estudios
sobre accidentes, las cantidades de individuos con secuelas
hubieran sido con seguridad diferentes.

 Para decidir si entre ambas cantidades existen diferencias


estadísticamente significativas necesitamos introducir conceptos
de estadística inferencial (extrapolar resultados de una muestra a
toda la población).

14
Distribución de Poisson
 También se denomina de sucesos raros.
 Se obtiene como aproximación de una
distribución binomial con la misma media, para
‘n grande’ (n>30) y ‘p pequeño’ (p<0,1).
 Queda caracterizada por un único parámetro μ
(que es a su vez su media y varianza.)
 Función de probabilidad:

k
P[ X  k ]  e   , k  0,1,2,...
k!
15
Distribución normal o de Gauss
 Aparece de manera natural:
 Errores de medida.
 Distancia de frenado.
 Altura, peso, propensión al crimen…
 Distribuciones binomiales con n grande (n>30) y ‘p ni
pequeño’ (np>5) ‘ni grande’ (nq>5).

 Está caracterizada por dos parámetros: La media, μ,


y la desviación típica, σ.
1  x 
2

1   
2  
 Su función de densidad es: f ( x)  e
 2
16
N(μ, σ): Interpretación probabilista

 Entre la media y una


desviación típica
tenemos siempre la
misma probabilidad:
aprox. 68%

 Entre la media y dos


desviaciones típicas
aprox. 95%

17
Algunas características
 La función de densidad es simétrica, mesocúrtica y unimodal.
 Media, mediana y moda coinciden.

 Los puntos de inflexión de la fun. de densidad están a distancia σ de μ.

 Si tomamos intervalos centrados en μ, y cuyos extremos están…


 a distancia σ,  tenemos probabilidad 68%
 a distancia 2 σ,  tenemos probabilidad 95%
 a distancia 2’5 σ  tenemos probabilidad 99%

 No es posible calcular la probabilidad de un intervalo simplemente usando


la primitiva de la función de densidad, ya que no tiene primitiva
expresable en términos de funciones ‘comunes’.

 Todas las distribuciones normales N(μ, σ), pueden ponerse mediante una
traslación μ, y un cambio de escala σ, como N(0,1). Esta distribución
especial se llama normal tipificada.
 Justifica la técnica de tipificación, cuando intentamos comparar individuos
diferentes obtenidos de sendas poblaciones normales.

18
¿Por qué es importante la distribución normal?
 Las propiedades que tiene la distribución normal son
interesantes, pero todavía no hemos hablado de por qué
es una distribución especialmente importante.

 La razón es que aunque una variable aleatoria no posea


distribución normal, ciertos estadísticos/estimadores
calculados sobre muestras elegidas al azar sí que
poseen una distribución normal.

 Es decir, tengan las distribución que tengan nuestros


datos, los ‘objetos’ que resumen la información de una
muestra, posiblemente tengan distribución normal (o
asociada).

19
Aplic. de la normal: Estimación en muestras
 Como ilustración
mostramos una variable
que presenta valores
distribuidos de forma muy
asimétrica. Claramente
no normal.

 Saquemos muestras de
diferentes tamaños, y
usemos la media de cada
muestra para estimar la
media de la población.

20
Aplic. de la normal: Estimación en muestras
 Cada muestra ofrece un
resultado diferente: La media
muestral es variable aleatoria.

 Su distribución es más parecida


a la normal que la original.

 También está menos dispersa.


A su dispersión (‘desv. típica del
estimador media muestral’…
error típico.

21
Aplic. de la normal: Estimación en muestras

 Al aumentar el
tamaño, n, de la
muestra:

 La normalidad de las
estimaciones mejora

 El error típico
disminuye.

22
Aplic. de la normal: Estimación en muestras
 Puedo ‘garantizar’
medias muestrales tan
cercanas como quiera a
la verdadera media, sin
más que tomar ‘n
bastante grande’

 Se utiliza esta propiedad


para dimensionar el
tamaño de una muestra
antes de empezar una
investigación.

23
Resumen: Teorema del límite central
 Dada una v.a. cualquiera, si extraemos muestras de
tamaño n, y calculamos los promedios muestrales, entonces:

 dichos promedios tienen distribución


aproximadamente normal;

 La media de los promedios muestrales


es la misma que la de la variable original.

 La desviación típica de los promedios disminuye en un factor “raíz de n” (error


estándar).

 Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito.

 Este teorema justifica la importancia de la distribución normal.

 Sea lo que sea lo que midamos, cuando se promedie sobre una muestra
grande (n>30) nos va a aparecer de manera natural la distribución normal.
24
DISTRIBUCION POISOON

EJERCICIOS

Dr. Alejandro Ruiz Marín


• Una compañía aseguradora después de muchos años de experiencia
a estimado que el 0.004% de la población fallece anualmente por
accidentes automovilísticos. Si esta compañía tiene 40,000
asegurados, cual es la probabilidad de que dos de sus clientes
mueran en un año por este tipo de accidentes.

• Es posible demostrar que la distribución de Poisson puede usarse como una


aproximación de Bernoulli de la binomial λ = np; donde:
• E(x) = λ………………..media siempre y cuando npq > 1
2. Para determinada industria manufacturera el numero de accidentes
de trabajo es 3 por semana. Calcular la probabilidad de que en una
semana no se presenten accidentes.

E(x) = λ
λ=3
X=0

P(X ≥ 4)

λ = 3, X = 0

P(X ≤ 4)
En el ejemplo anterior calcular la probabilidad de que ocurran:

a) De que ocurran cuando más 4 accidentes


b) De que ocurran cuando menos 4 accidentes
c) De que ocurra 4 accidentes a la semana

Solución: (De las tablas de distribución de Poisson acumulada se obtienen las


probabilidades para cada caso).

a) P(X ≤ 4) = 0.815
b) P(X ≥ 4) = 1- 0.647 = 0.353
c) P(X = 4) = 0.815- 0.647 = 0.168
ANALISIS DE LA PROBABILIDAD
Ejercicio
• En la ampliación del carril para dar vuelta a la izquierda en una avenida
solo hay capacidad para 3 autos como máximo, esperando la flecha
luminosa del semáforo. En un estudio estadístico de transito de ese lugar
se encuentra que en cada ciclo de luces de semáforo hay un promedio de
6 autos que van a dar la vuelta.

• Cual es la probabilidad de que en un ciclo del semáforo tomando al azar


se congestione el transito por excederse la capacidad del carril?

P (X > 3) = 1 – P (X ≤ 3) P (X = 3) = 0.151
P ( X > 3) = 1-0.151 = 0.849
E (X) = λ = 6
DISTRIBUCION NORMAL
• Una de las distribuciones de variables aleatorias continuas mas útil en la
distribución normal, definida por la siguiente ecuación:

En forma estándar:

En este caso, la variable aleatoria Z tiene distribución normal con media igual a cero y
varianza igual a 1
Ejemplo:
• Durante el año, el nivel de agua de una presa para la generación de
corriente eléctrica tiene una distribución normal con media 60 m y
desviación estandar de 18 m. si la corona de la presa esta a 85 m, las
compuertas del vertedor esta a 80 m y la toma de agua para
alimentar las turbinas esta a 30 m. calcular la probabilidad de que:

a) Se presenten derrames por su vertedero….P (X > 80)


b) Exista peligro de destrucción de la presa por sobrepasar el nivel de
las aguas de la corona de la presa….. P (X > 85)
c) Dejar de producir energía por la falta de agua en las turbinas………
P( X < 30)
Estandarización
P = 0.8749 P = 1 - 0.8749 = 0.1251 P = 12.51 %

P = 0.9115 P = 1- 0.9115 = 0.0885 P = 8.23 %

P = 0.0401 P = 4.01 %
Ejercicio

• La ausencia por enfermedades de los empleados de una empresa en


un mes tienen una distribución normal aproximada con promedio de
200 horas y varianza de 400 horas.

a) Calcular la probabilidad de que el mes próximo el ausentismo total


por enfermedad sea menor de 150 horas.
b) Para planear el programa del mes próximo, cuanto tiempo debe
suponer darle al ausentismo por enfermedad, si aquella cantidad
solo se debe superar con una probabilidad de tan solo (0.10).
Solución a)

P (X < 150) P = 0.0054 P = 0.54 %

Solución b)

Incógnitas

X=?
Z=?

Empleando tablas Z = 1.2


Ejercicio clases

• Los tiempos de la primera avería de una unidad de cierta marca de


impresora de chorro de tinta tiene aproximadamente una
distribución normal con un promedio de 1500 horas y una desviación
estándar de 200 horas.

a) Que fracción de esas impresoras fallara antes de 1000 horas


b) Cual debe ser el tiempo de garantía para estas impresoras si el
fabricante desea que solo presente averías el 5% de las impresoras
dentro del tiempo de garantía.
Distribuciones asociadas a la normal
 Cuando queramos hacer inferencia estadística hemos visto
que la distribución normal aparece de forma casi inevitable.

 Dependiendo del problema, podemos encontrar otras


(asociadas):
 X2 (chi cuadrado)
 t- student
 F-Snedecor

 Estas distribuciones resultan directamente de operar con


distribuciones normales. Típicamente aparecen como
distribuciones de ciertos estadísticos.

 Veamos algunas propiedades que tienen (superficialmente).


Para más detalles consultad el manual.
37
Un fabricante de dulces compra costales de azúcar a cierto
ingenio. Según los vendedores, los costales tienen un peso medio
de 50.1 kg, con una varianza de (s2 = 0.5). El comprador
sospecha que el peso medio es menor. Para confirmar su
sospecha decide contrastar las hipótesis:
 H0 : µ = 50.1
 HA : µ < 50.1

Con un nivel de significancia de 5% (α = 0.05). Para ello, selecciona de manera


aleatoria tres bultos de cada uno de los siguientes cinco pedidos. Pesa los 15
bultos y obtiene que X= 49.4 y S2 = 1.2. De esta manera, el estadístico de
prueba calculado de acuerdo con la expresión
De las tablas de la distribución T de Student con
n – 1 = 14 grados de libertad.

Para
µ = 0.05

El valor crítico t(0.05, 14) = 1.76.

Como t0 = –2.47 < –1.76 = –t0.05, 14,

Se rechaza la hipótesis H0 . Es decir, se rechaza


la afirmación del vendedor de que los bultos
tienen un peso medio de 50.1, y además la
evidencia señala que dicho peso es menor que el
declarado.
Prueba para la varianza
En el ejemplo sobre el peso de costales, a simple vista se puede notar que la varianza s2 = 0.5,
declarada por el vendedor, es bastante diferente que la varianza muestral S2 = 1.2, lo cual lleva a
sospechar que su afirmación sobre la varianza del proceso es falsa.

El hecho de que los dos números sean distintos no significa que sean estadísticamente diferentes,
de aquí la necesidad de contrastar o probar las hipótesis:
Distribución ji-cuadrada
H0 : s2 = 0.5
HA : s2 > 0.5 En la tabla de distribución ji-cuadrada
se
lee con α = 0.05 y 14 grados de
Para probar esta hipótesis y bajo el supuesto de
distribución normal, se utiliza el siguiente estadístico libertad es igual a 23.68. Como:
de prueba 33.6 > 23.68

…La varianza reportada por el


vendedor para el peso de los
costales es falsa y, en realidad, la
variabilidad del peso de los costales
es mayor
Hipótesis para dos medias:
comparación
de dos tratamientos
Ejemplo
 La calidad de la pintura látex depende, entre otras cosas, del
tamaño de la partícula. Para medir esta característica se utilizan
dos centrifugadoras, y se sospecha que éstas reportan
mediciones distintas para la misma pintura. Se decide hacer un
estudio que permita comparar las medias y las varianzas
reportadas por los dos equipos; para lo cual, de un mismo lote
de pintura se tomaron 13 lecturas con cada centrifugadora. Los
resultados son los siguientes:
 Para comparar las medias se plantea la hipótesis de
igualdad de medias con la alternativa bilateral, puesto que
no hay ninguna conjetura del experimentador acerca de cuál
centrifugadora puede reportar valores mayores

2.04 < 2.064

Por lo tanto: Aunque con un


T de Student grados de libertad margen mínimo de
= 13+13-2 =24 diferencia.
α = 0.05 Se concluye que las
centrifugadoras A y B
punto crítico t(0.025, 24) = 2.064. reportan en promedio el
mismo tamaño de partícula

S-ar putea să vă placă și