Sunteți pe pagina 1din 19

Algunos conceptos para recordar de las clases

pasadas
Cuando se hace un histograma, una manera de
calcular la cantidad de clases es con la siguiente
regla:

Regla de Sturges
Regla prctica acerca para calcular el nmero de clases que deben
considerar al hacer un histograma

Respecto del tema de las observaciones


atpicas, es importante tener en cuenta ciertos
conceptos

Recordar: La mediana es una medida robusta


de tendencia central mientras que el promedio
no lo es ya que una medicin muy grande o
muy pequea puede alterarlo
significativamente

Se puede aplicar el Criterio de


Fourier para desechar los
posibles valores atpicos

xi x 3
xi
x

i-sima observacin
promedio
Desviacin estndar

Otro criterio para detectar


errores groseros (outliers)

xi M
>5
med ( xi M )

Ejemplo
La distribucin de alturas de mujeres es
aproximadamente normal con
= 1.64m
= 0.06m

Cual es la altura estandarizada?

Ejemplo
La altura estandarizada de una mujer es
el nmero de desviaciones estndar que
su altura difiere de la media de la altura
de todas las mujeres
Cual es la altura estandarizada de una mujer que
mide 1.72 m?

Cual es la altura estandarizada de una mujer que


mide 1.56 m?

Clculos a partir de
distribuciones normales
El rea por debajo de la curva de
densidad es una proporcin de
observaciones de la distribucin.
Cualquier pregunta sobre que
proporcin de observaciones se
encuentra en algn intervalo de valores
se puede responder hallando el rea por
debajo de la curva en ese intervalo.

Ejercicio
Que proporcin de todas las mujeres
miden menos de 1.72m?
z=

1.72 1.64
= 1.33
0.06

Busco el valor de la tabla que


corresponde a 1.33

0.9082

Ejercicio
Hallar la proporcin de observaciones de
la distribucin normal estandarizada que
son mayores a -2.15

Ejercicio
El nivel de colesterol en sangre es importante y se relaciona con
el riesgo de enfermedades coronarias. La distribucin del
nivel de colesterol para una misma edad y sexo es
aproximadamente normal. Para jvenes de 14 aos la media
es 170 miligramos de colesterol por decilitro de sangre
(mg/dl), y la desviacin tpica es 30 mg/dl. Niveles de
colesterol superiores a 240 mg/dl pueden exigir atencin
mdica. Cal es el porcentaje de jvenes que pueden
requerir esa atencin?

Qu porcentaje de jvenes tiene un nivel de colesterol entre


170 y 240 mg/dl?

Ejercicio
Las notas de una prueba de matemtica tiene una distribucin
N(430,100)
Cual debe ser la nota de un alumno para pertenecer al 10% de
alumnos que tienen mejor nota?

Ejercicio

Valoracin de la normalidad
La decisin de describir una distribucin
mediante una curva normal determina
el anlisis posterior de los datos

cmo juzgar que los datos son


aproximadamente normales?

TEST DE
KOLMOGOROV-SMIRNOV
Compara la funcin de distribucin acumulada
de los datos con la de una distribucin
normal, midiendo la mxima distancia entre
ambas curvas. Si la mxima distancia entre
las curvas (estadstico unilateral de
Kolmogorov-Smirnov, Dn+) es superior al
valor crtico del test (dn+, ) la distribucin
de la muestra no es normal. El test de
Kolmogorov-Smirnov otorga un peso menor a
las observaciones extremas.

Anlisis de relaciones
La mayora de los trabajos
estadsticos hacen referencia a
ms de una variable. A veces
queremos comparar las
distribuciones de una misma
variable referido a grupos distintos

Anlisis de relaciones
Cuando se examinen la relacin entre 2 o ms variables, es
conveniente realizar los siguientes planteos:
Qu individuos describen los datos?
Cules son las variables y como se miden?
Todas las variables son cuantitativas o existen al
menos alguna variable categrica?
Se pretende explorar la naturaleza de la relacin o se
puede presumir que alguna de las variables explica o
causa los cambios en otra variable?

Variable respuesta:

mide el

resultado de una estudio

Variable explicativa:

intenta
explicar los resultados observados

Diagrama de dispersin
Un diagrama de dispersin muestra la
relacin entre 2 variables cuantitativas
medidas para los mismos individuos

Si una de las variables se puede considerar


explicativa, es mejor representarla en el eje
de las abcisas y a la variable respuesta en el
eje de las ordenadas

Diagrama de dispersinInterpretacin
Observar el aspecto general e intentar
identificar su direccin, forma y la
fuerza de la relacin entre las 2
variables
Asociacin
positiva
asociacin
y negativa

Recordemos que las observaciones


atpicas se distinguen claramente del
aspecto general del grfico

Un diagrama de dispersin muestra la


direccin, forma y fuerza de la relacin
entre 2 variables cuantitativas.
En particular, la correlacin (r) mide
la fuerza y la direccin de la relacin
lineal entre 2 variables cuantitativas

Correlacin (r)

( xi x ) ( yi y )
1
r=

n 1
( sx )
(sy )
r positiva indica asociacin positiva
r negativo indica asociacin negativa
r toma valores entre -1 y 1. si r=0 la relacin lineal es muy
dbil, pero si es cercano a 1 o -1, los valores se acerca mucho
a una recta.
Como r usa valores estandarizados no varia cuando cambian
las unidades.
La correlacin r no describe relaciones curvilneas aunque
stas sean fuertes.
r se ve fuertemente afectada por observaciones atpicas, por
lo que debe ser usado con precaucin.

Definicin previa
COVARIANZA-

es una valor que indica el


grado de variacin conjunta de 2 variables
aleatorias. Sirve para determinar si hay
dependencia entre las variables y para calcular
coeficiente de correlacin o recta de regresin

Ejercicio
1

10

15

20

38

30

35

40

45

10

50

11

55

12

55

13

65

14

70

15

90

16

80

17

85

18

90

19

60

Sean la siguiente tabla de datos.


Graficar la dispersin
Utilizando planilla electrnica calcular la
correlacin r entre los valores de ambas
columnas.

Regresin mnimo cuadrtica


La regresin mnimo cuadrtica es un
mtodo para hallar la recta que resuma la
relacin entre 2 variables.
La recta de regresin describe como cambia
una variable y a medida que cambia una
variable x. Para predecir un valor de y dado
uno de x se utiliza una recta de regresin
A diferencia de la correlacin, la regresin
exige que tengamos una variable explicativa
y una variable respuesta.

Recta de regresin
mnimo-cuadrtica
Diferentes personas dibujaran,
razonablemente, diferentes rectas.
Ninguna recta pasar por todos los puntos,
por lo que se intentar que pase por todos
ellos tan cerca como sea posible.
La recta la utilizaremos para predecir y a
partir de x.

La recta de regresin mnimo cuadrtica de


y en relacin a x, es la recta que hace que la
suma de los cuadrados de las distancias
verticales de los puntos observados a la recta,
sea mnima

y
y y

predicha
(distancia)
observada

y = a + bx

sy

b=r

sx

a = y bx
y
y y

predicha
(distancia)
observada

Con la recta calculada podemos

predecir

valor observado-valor predicho=error

Importante
Incluso una fuerte correlacin no significa
que exista una relacin causa-efecto
entre x e y

S-ar putea să vă placă și