Documente Academic
Documente Profesional
Documente Cultură
ASIGNATURA:
TEMA: semana V
DOCENTE: MS.C . HENRRY R. OCHOA LEÓN
Independencia - Dependencia
Cuando se estudian dos características simultáneamente sobre una muestra, se puede
considerar que una de ellas influye sobre la otra de alguna manera. Por ejemplo la
altura y el peso o las horas de estudio y la calificación en un examen.
• Variables independientes No tienen relación (una de ellas no sirve para explicar los movimientos de
la otra)
• Dependencia funcional Y=f(x)
• Dependencia estadística
Dependencia
Independencia estadística Dependencia funcional
estadística
- +
Grado de asociación entre dos variables
Estudio conjunto de dos variables
• A la derecha tenemos los datos obtenido observando dos Altur Peso
variables estadísticas en varios individuos de una muestra.
a en en
cm. Kg.
– En cada fila tenemos los datos de un individuo
162 61
– Cada columna contiene los valores que toma una variable
sobre los individuos. 154 60
180 78
– Las individuos no se muestran en ningún orden particular.
158 62
166 54
• En primera instancia, pretendemos reconocer a partir del
176 84
diagrama si hay relación entre las variables, de qué tipo y,
si es posible predecir el valor de una de ellas en función de 163 68
la otra.
... ...
Diagramas de dispersión o nube de puntos
Altura y peso de 30 individuos.
100
90
80 Pesa 76 kg.
70
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Relación entre variables
Altura y peso
de 30 individuos.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Relación entre variables
Altura y peso • ¿Qué recta explica mejor la relación peso-altura?
de 30 individuos. • mejor...¿en qué sentido?
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Regresión lineal simple
Cuando se estudian dos características simultáneamente sobre una
muestra, se puede considerar que una de ellas influye sobre la otra
de alguna manera.
yn
yn 1 yˆ i
y3
u3 ui
yi
y1 yi
y2
Ordenada
x1 x2 x3 xi xn 1 xn
en el origen
yi a bxi ui ui yi yˆi
Error: residuo
RECTA DE REGRESIÓN
Llamemos a “u” residuo, perturbación o error: es la diferencia que hay entre
el valor observado de la variable “y” y el valor que tendría (valor estimado)
si la relación fuera lineal, es decir, través de la recta de regresión
y i a bxi
IDEA: hacer MÍNIMA la suma de los CUADRADOS de los residuos.
n n
u ( yi yˆi ) 2
2
i i
u 2
i 1
i i
( y
i 1
ˆ
y ) 2
n 2 n n
2
ui ( yi yˆi ) yi a bxi
2
min
a ,b i1 i 1 i 1
¿DE DÓNDE SALEN LOS COEFICIENTES DE LA RECTA DE REGRESIÓN?
¿Qué “a” y “b” minimizan la suma de los cuadrados de los errores cometidos?
n n
(a, b) yi a bxi yi a bxi
2 2 MINIMIZAR
i 1 i 1
x y y bx x
i
i i
i
i b xi2
i
xi yi y x
i
bxnx b xi2
yi abxi 0
i
n
2
i i i
yi a b xi
a
2
i
i i i
i i i
x y ynx b ix 2
nx
b
2 yi a bxi xi 0
xi yi a xi b 2
xi
i
S
i i i i S xy bS x2 b xy2
Sx
EQUIVALE a buscar los coeficientes de la recta hace MÍNIMA la suma de los
CUADRADOS de los residuos.
1 n 1 n
Covarianza S xy ( xk x )( yk y ) xk yk x y
n k 1 n k 1
Regresión lineal simple
• Dado una muestra de n datos en parejas (x1;y1),(x2,y2),…,(xn,yn).
Observados de la variables bidimensionales (X,Y), la regresión lineal
simple de la variable dependiente Y con respecto a las variables
independiente X, consiste en obtener la ecuación de la recta, o modelo
de regresión que mejor se ajuste a los valores de la muestra, con el fin de
poder predecir o pronosticar los valores deY dado X
𝒀 = 𝒂 + 𝒃𝑿
Regresión lineal simple
Resolviendo:
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑏=
𝑛 σ 𝑥 2 − (σ 𝑥)2
Y dividiendo se obtiene
𝑎 = 𝑦ത − 𝑏𝑥ҧ
Notas: 𝑆𝑋𝑌 𝐶𝑜𝑣𝑋𝑌
El coeficiente de b se puede escribir como 𝑏 = También como 𝑏 =
𝑆𝑋𝑋 𝑆𝑥2
Donde 𝑠𝑥2 es la varianza de x
Regresión lineal simple
Interpretación del coeficiente de regresión b
Si b=0, entonces Y=a en este caso, Y permanece constante para cualquier valor
de X , indicando esto que no hay regresión.
Covarianza de dos variables X e Y
• La pendiente de la recta de regresión es Sxy/ S2X
• El signo de la covarianza indica si la posible relación
entre dos variables es directa o inversa.
• Directa: Sxy >0
• Inversa: Sxy <0
• Incorreladas: Sxy =0
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ − 𝑦)
ത
𝐶𝑜𝑣𝑋𝑌 =
𝑛
𝑆𝑋𝑌 = 𝑥𝑖 − 𝑥ҧ 𝑦 − 𝑦ത = 𝑥𝑖 𝑦𝑖 − 𝑛 ∗ 𝑥ҧ ∗ 𝑦ത
𝑖=1 𝑖=1
Luego se obtiene
𝑆𝑋𝑌 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝐶𝑜𝑣𝑋𝑌 = = − 𝑥ҧ ∗ 𝑦ത
𝑛 𝑛
El coeficiente o incide de correlación
Índice de correlación de Pearson de los n pares de valores (x1,y1;x2,y2…xn,yn)
de una variable bidimensional (X,Y) en el numero abstracto a relativo r que se
calcula por:
𝐶𝑜𝑣𝑋𝑌
𝑟=
𝑆𝑋 𝑆𝑌
Donde:
Sx es la desviación estándar de X
Sy es la desviación estándar de Y
Si hacemos 𝑛 𝑛
y Es fácil verificar que
𝑆𝑋𝑌 = 𝑥𝑖2 −𝑛∗ 𝑥ҧ 2 𝑆𝑌𝑌 = 𝑦𝑖2 − 𝑛 ∗ 𝑦ത 2
𝑖=1 𝑖=1
𝑆𝑋𝑌 σ 𝑥𝑦 − 𝑛 ∗ 𝑥ҧ ∗ 𝑦ത
𝑟= =
𝑆𝑋𝑋 ∗ 𝑆𝑌𝑌 σ 𝑥 2 − 𝑛 ∗ 𝑥ҧ 2 ∗ σ 𝑦 2 − 𝑛 ∗ 𝑦ത 2
El coeficiente o incide de correlación
Relación
inversa Relación
perfecta directa
Variables
casi
incorreladas
perfecta
-1 0 +1
0
0 Y
10 = 0.134
20 X + 2.122
30 40 X 50 Correlación
60 70 80 90negativa
0 2 Y =4 X 6 8X 10 12 14 16
0
2
2
4
4
6
6
Y
Y
8
10
10
12
-1 r 0 r=-1
12
14
14
16
16
0 r +1 r=+1
14
14
12
12
10
10
Y
8
Y
6
6
4
4
2 2
0 0
0 10 20 30 40 50 60 70 80 90 0 2 4 6 8 10 12 14 16
X X
16 Y = 0.093 X + 4.335 8 Y=4
14
7
12 6
10 5
Y
8 4
6 3
4 2
2 1
0 0
20 25 30 35 40 45 50 55 60 20 25 30 35 40 45 50 55 60
X X
16 #¡DIV/0!
14 r=0
12
10
Ausencia de correlación
Y
0
0 1 2 3 4 5 6
X
Los problemas de regresión y de correlación
lineales se parecen pero difieren
En la finalidad
En las variables
REGRESION CORRELACION
x variable NO hay distinción entre
independiente fija variable dependiente e
independiente
y variable x e y son variables
dependiente aleatoria aleatorias