Sunteți pe pagina 1din 70

Algunos conceptos bsicos de estadstica

Gustavo E Ramirez-Caballero

Estadstica
Recoleccin, presentacin, anlisis y uso de datos para tomar decisiones, solucionar problemas y disear productos y procesos.

Objetivo: describir y entender la variabilidad


Variabilidad: las observaciones sucesivas de un sistema o fenmeno no producen exactamente el mismo resultado
2

Cemento Portland
Caliza Arcilla Carbn
Cemento Portland: composicin fijada oficialmente 58-66% CaO; 0.5% MgO; 1825% SiO2(arena); 4-12% Al2O3; 25%Fe2O3; 0.5-2.5% SO3;0-0.3% MnO; 00.2% xidos alcalinos; 0.5-5% inflamables.

Yeso
3

Las propiedades del cemento dependen de: 1. Finura de las materias primas molidas. 2. Relacin de mezcla de materias primas. 3. Tiempo y temperatura de calcinacin. 4. Tiempo y temperatura de enfriamiento del producto

Mortero Cemento + Arena (agregado fino) Mortero + Curado Agua

Concreto Liviano
Cemento + agregado fino + Piedra (gravilla, agregado grueso) + Agua

Concreto Liviano Curado

Concreto Reforzado Cemento + agregado fino Concreto + Reforzado gravilla + Curado Hierro + Agua Mortero Cemento + Arena (agregado fino) Mortero + Curado Agua Mortero

Cemento + Arena (agregado fino) Mortero + Curado Polmero + Agua


5

El tiempo de curado se reduce adicionando el Polmero, que pasa con la resistencia a la tensin? video

Diagrama de puntos: til para ilustrar nmero reducido de datos (20 observaciones), permite ver: localizacin y dispersin.
6

Variabilidad:

Ejercicio: hacer diagrama de puntos para los siguientes datos, hallar el promedio y la desviacin estndar:
Exp1 12.6 12.9 13.4 12.3 13.6 13.5 12.6 13.1 Exp2 12.9 13.7 12.8 13.9 14.2 13.2 13.5 13.1

Otras formas de presentar datos: Diagrama de tallo y hoja: se usa cuando el nmero de observaciones es ms o menos grande.
Cada nmero se divide en dos partes: un tallo, compuesto por uno o ms dgitos, y una hoja, compuesta por los dgitos restantes
tallo 9 hojas 7 5 14 471 30 85 30 96 71 8 frecuencia 1 1 2 3 2 2 2 2 2 1

105 97 245 163 207 134

199 160 196 221 154 228

180 178 157 151 175 201

10 13 15 16 17 18 19 20 21

Moda: valor de los datos que ocurre con mayor frecuencia

218

131

183

22

Ejercicio: Hacer diagrama de tallo y hojas para los siguientes datos, hallar la moda, el promedio y la desviacin estndar:
105 97 245 163 207 134 218 199 160 196 221 154 228 131 180 178 157 151 175 201 183 153 174 154 190 76 101 142 149 200 186 174 199 115 193 167 171 163 87 176 121 120 181 160 194 184 165 145 160 150 181 168 158 208 133 135 172 171 237 170 180 167 176 158 156 229 158 148 150 118 143 141 110 133 123 146 169 158 135 149

10

Histogramas: es una distribucin de frecuencia. Para construir


una distribucin de frecuencia, el rango de los datos debe dividirse en intervalos. Elegir un nmero de intervalos aproximadamente igual a la raz cuadrada del nmero de observaciones.
intervalos frecuencia 2 3 6 14 22 17 10 4 2 Frecuencia relativa 0.025 0.0375 0.075 0.175 0.275 0.2125 0.125 0.05 0.025

Frecuencia relativa: frecuencia obtenida en cada intervalo divido por el nmero total de observaciones

11

Grfica de caja: describe simultneamente varias


caractersticas importantes de un conjunto de datos, como el centro, la dispersin, la desviacin de la simetra y observaciones lejos del grueso de datos

Ver video

12

Conclusin
La representacin de tallo y hoja y el histograma proporcionan impresiontes visuales generales acerca de un conjunto de datos. Promedio y desviacin estandar proporcionan informacin acerca de caracteristicas particulares.

13

Probabilidad
Para que los hombres no malicien que tu relato es falso, mantn la probabilidad a la vista

Que es probabilidad?
No hay una definicin nica formal

Ejemplo: cual es la probabilidad de tirar el dado y obtener un nmero par

14

Porque?...

Podra ser por simetra


cara cara CC sello CS cara sello sello SS SC

Primer intento

Segundo intento

rbol de probabilidad, funciona en casos en los que hay no hay muchos nmeros 15

cara cara sello cara sello sello

16

SSSSH SSSHS SSHSS

SHSSS
HSSSS

17

Dado 1

Dado 2

Dado 1 1 1 2 Dado 2 3 4 5 6 2 3 4 5 6

18

10 Monedas 9 tiene cara y sello 1 solo tiene cara

Si se saca una moneda y se hacen 5 lanzamientos, Cul es la probabilidad de sacar 5 caras seguidas?

19

Espacio muestral: Al conjunto de todos los resultados posibles de un experimento aleatorio se le llama espacio muestral

Evento: subconjunto del espacio muestral de un experimento aleatorio.

La unin de dos eventos es el evento que consta de todos los resultados que estn contenidos en cualquera de los dos eventos. La interseccin de dos eventos es el evento que consta de todos los resultados que estn contenidos en los dos eventos. El complemento de un evento en un espacio muestral es el conjunto de resultados en el espacio muestral que no estn en el evento. 20

21

22

Distribucin Binomial
Ejemplo: Se lanza una mondea 5 veces, cual es la probabilidad de que caigan X caras? Ejemplo: en un juego de basket tengo la oportunidad de lanzar 4 veces, la probabilidad de hacer la canasta es 30%, como es la distribucin de probabilidad? X= # de canastas convertidas

Distribucin binomial: distribucin de probabilidad discreta que mide el nmero de xitos en una secuencia de n ensayos de Bernoulli independientes entre s, con una probabilidad fija p de ocurrencia del xito entre los ensayos.
ensayos de Bernoulli: se caracteriza por se dicotmicos, slo son posibles dos resultados .

23

Valor esperado de una variable aleatoria

Frecuencia = Probabilidad

24

Valor esperado de una distribucin binomial

Nmero de cestas que yo hago en 10 lanzamientos, si tengo una probabilidad de encestar de 40%

Demostrar que el valor esperado de una distribucin binomial es:


25

26

27

Distribucin de Poisson
Cul es el nmero de carros que pasa por un cierta calle en cierto tiempo?

Cul es la probabilidad de que 5 carros pasen o 100 carros pasan por ejemplo en una hora?

Probabilidad de xito en cada intento

Nmero de intentos

28

Probabilidad de que pase un carro en un minuto

En el ejemplo:

La hora se divide en intervalos de un minuto para saber si pasa o no un carro

Qu pasa si ms de un carro pasa en un minuto? En el modelo que se tiene no importa si pasan ms de un carro en un minuto se cuenta como xito. Qu hacer?
29

Hacer intervalos de medida mas pequeos Por ejemplo hacer en vez de una medida por minuto, hacer una por segundo

Qu pasa si ms de un carro pasa en un segundo? Conclusin: la distribucin de Poisson no es ms que la binomial para intervalos que tienden a infinito

Tener en cuenta que:


30

Nmero de intentos

Nmero de intentos exitosos

31

32

Distribucin normal
Distribucin ms importante y usada en estadstica, tambien llamada: distribucin de Gauss o Gaussiana, o campana de Gauss. Dato curioso: fue deducida por De Moivre en 1733, pero su trabajo estuvo perdido y fue deducida 100 aos despues por Gauss.

Notacin:

33

Caractersticas de la distribucin normal

34

68% 95% 99.7%

Distribucin normal estandar

35

Cualquier valor de una distribucin normal puede ser transformado a su correspondiente valor en una distribucin normal estndar por medio de la ecuacin:
Valor en la distribucin normal
Promedio en la distribucion normal

Valor en la distribucin normal estndar

Desviacin estandar en la distribucin normal

36

Inferencia estadstica
Cuanto miden las mujeres de Bucaramanga? Poblacin
Totalidad de las observaciones que son motivo de inters

Muestra
Subconjunto de observaciones que se seleccionan de una poblacin

Es el promedio de la muestra igual al promedio de la poblacin? 37

Que tan diferentes son los parmetros estadsticos de la muestra con los parmetros de la poblacin?
Poblacin

Muestra

Ejemplo:
Poblacin:

Seleccionar una muestra de dos bolas y hallar el promedio

38

Seleccionar una muestra de dos bolas y hallar el promedio

Resultado

Bola 1

Bola 2

Promedio

Promedio

Frecuencia

Frecuencia relativa

39

Distribucin de frecuencia relativa:


Promedio Frecuencia Frecuencia relativa

Es una distribucin de probabilidad

Seleccionar una muestra de dos bolas al azar y hallar el promedio, repetir bastantes veces el procedimiento.
Si el nmero de muestras tiende a infinito, la distribucin de frecuencias del experimento va a ser igual a la distribucion de la muestra.
40

En la prctica, es al contrario, se especifican los paramentros de la distribucion de la muestra a partir de la distribucin de frecuencia del experimento. Usos de la distribucin de la muestra: Que tan cerca es el promedio de la muestra con respecto al promedio de la poblacin?.

Que tan diferentes son los promedios de varias muestras

Estas preguntas se pueden resolver usando el error estndar del promedio


41

Error estndar del promedio


Si los promedios de la muestra son parecidos, el error estndar del promedio es pequeo.

Si los promedios de la muestra varian bastante, el error estndar del promedio es grande

Para recordar:
La distribucin de la muestra revela cuanto la estadstica de la muestra varia de los parmetros de la poblacin.

A medida que el nmero de muestras se acerca a infinito, la distribucin de la frecuencia relativa se acerca a la distribucin de la muestra.
42

Simulacin 1

Esta simulacin ilustra el concepto de distribucin de muestra


En la primera grfica hay 33 valores diferentes de poblacin, la frecuencia relativa de cada valor de poblacin es la misma, entonces la distribucin es un rectngulo. Si se hace click en animated sampling, cinco valores de la poblacin son seleccionados y graficados en la segunda grfica. El promedio de esta muestra de 5 es calculado y graficado en la tercera grfica. El promedio y la desviacin estndar estn dados en la parte izquierda de la grfica y por lineas azules y rojas debajo del eje x.

43

Simulacin 2

Esta simulacin ilustra el efecto del tamao de muestra en la distribucin de muestra


Se especifica dos tamaos de muestra, N=2 y N=10, se compara el promedio y la desviacin estndar de la distribucin

44

Simulacin 3

Esta simulacin ilustra el efecto del tamao de muestra en la forma distribucin de muestra del promedio

45

Distribucin de muestreo del promedio


Promedio: el promedio de la distribucin de muestra del promedio es el
promedio de la poblacin:

Variancia: la variancia de la distribucin de muestra del promedio es:

Error estndar: el error estndar del promedio es la desviacin estndar de


la muestra de la distribucin del promedio:

46

47

Resumen
N=2

N=5

N=25

N=10

Cul distribucin se aproxima ms a una distribucin normal? 48 Teorema del lmite central

Intervalo de confianza

Se calcula el promedio de una muestra, para estimar el promedio de la poblacin

En este caso se usan intervalos de confianza

49

Supongamos que conocemos todos los datos de la poblacin:

Se sabe que todas las nias de 10 aos en promedio pesan 90 libras con una desviacin estndar de 36. Cmo es la distribucin del muestreo del promedio con un tamao de muestra igual a 9?

=36
90 90

=12=
Error estndar del promedio

El area sombrada es un intervalo que representa el 95% de la distribucin de la muestra. Cmo se halla?

95%
50

95%

66

114

El 95% de los promedios estn a 24 unidades del promedio de la poblacin La probabilida de que un promedio de una muestra estre dentro de un intervalo de +24 o -24 unidades de 90 es 0.95

En general el intervalo se calcula de la siguiente forma: Intervalo de confianza


51

Intervalo de confianza:

Para estimar este intervalo de confianza se necesita saber la desviacin estndar de la poblacin, esto no es factible en la mayoria de las situacionescomo hacer?...ya veremos Ejemplo: se sacan los siguientes 5 nmeros de una muestra de una distribucin normal con desviacin estndar 2.5: 2, 3, 5, 6, 9. Calcule el intervalo de confianza.

52

Si no se conoce la desviacin estandar de la poblacin (que es lo ms seguro) se debe estimar.

Distribucin normal

53

Los valores de la distribucin t que deben ser usados en el clculo del intervalo de confianza son diferentes a los de una distribucin normal.

Ejemplo: se sacan los siguientes 5 nmeros de una muestra de una distribucin normal: 2, 3, 5, 6, 9. Calcule el intervalo de confianza.

Intervalo de confianza
54

Intervalo de confianza

Tamao de muestra

Cuanto miden los hombres en la escuela de ingeniera qumica? Cuanto miden las mujeres en la escuela de ingeniera qumica?
55

Diferencia entre promedios


Considera Ud. Bueno o malo que se utilicen animales comol objetos de investigacin?

Hombres

Mujeres

En un papel escriba si es hombre o mujer y evalue de 0 a 5 si la investigacin en animales es buena siendo 5 buena y 0 mala.

56

Gnero Mujeres Hombres

Tamao de la muestra 5 5

Promedio

varianza

Hay diferencia entre lo que opinan las mujeres y lo que opinan los hombres?
Diferencia entre promedios de la muestra =

Sin embargo, lo que nos interesa es saber la diferencia entre los promedios de las poblaciones
Los promedios de las muestras son usados para estimar la diferencia entre los promedios de las poblaciones. La precisin de la estimacin esta dada por un intervalo de confianza.

57

Para construir el intervalo de confianza es necesario hacer 3 suposiciones:


1. Las dos poblaciones tienen la misma varianza. 2. La distribucin de las poblaciones es una distribucin normal. 3. Cada valor de la muestra es independiente.

Una violacion de las suposiciones 1 y 2 es despreciable en el resultado

La ecuacin para calcular el intervalo de confianza de la diferencia entre promedios es:

58

59

60

Mortero Cemento + Arena (agregado fino) Mortero + Curado Agua

Mortero Cemento + Arena (agregado fino) Mortero + Curado Polmero + Agua

El tiempo de curado se reduce adicionando el Polmero?, que pasa con la resistencia a la tensin?

El resultado fue un producto del azar?. realmente son diferentes los datos y se puede sacar conclusiones en la investigacin?

61

Pruebas de hiptesis
La prueba de hiptesis es un procedimiento estadistico para determinar si el azar es una explicacin plausible en los resultados experimentales

Se establecen dos hiptesis:

H 0 : 1 2 H1 : 1 2
Hiptesis Nula Hiptesis Alternativa

62

Hiptesis Nula: Hiptesis Alternativa:

H 0 : 1 2 H1 : 1 2

Se rechaza o no se rechaza la hiptesis nula?

No se rechaza se rechaza Regin crtica Regin crtica

63

Regin crtica

Regin crtica

Nivel de significacin

Error tipo II: se define como la aceptacin de la hiptesis nula cuando sta es 64 falsa

Prueba t
Recordando: Deforma anloga:

65

66

67

Resumen de la estadstica
Mortero modificado Mortero sin modificar

y1 16.76 S 0.100
2 1

y2 17.04
2 S2 0.061

S1 0.316 n1 10

S2 0.248 n2 10
68

69

70