Sunteți pe pagina 1din 25

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ

FACULTAD DE INGENIERÍA QUÍMICA

ASIGNATURA:

Estadística y diseño de experimentos

TEMA: semana V
DOCENTE: MS.C . HENRRY R. OCHOA LEÓN
Independencia - Dependencia
Cuando se estudian dos características simultáneamente sobre una muestra, se puede
considerar que una de ellas influye sobre la otra de alguna manera. Por ejemplo la
altura y el peso o las horas de estudio y la calificación en un examen.

El objetivo principal de la regresión es descubrir el modo en que se relacionan.

Dos variables pueden considerarse:

• Variables independientes  No tienen relación (una de ellas no sirve para explicar los movimientos de
la otra)
• Dependencia funcional Y=f(x)
• Dependencia estadística

Dependencia
Independencia estadística Dependencia funcional
estadística

- +
Grado de asociación entre dos variables
Estudio conjunto de dos variables
• A la derecha tenemos los datos obtenido observando dos Altur Peso
variables estadísticas en varios individuos de una muestra.
a en en
cm. Kg.
– En cada fila tenemos los datos de un individuo
162 61
– Cada columna contiene los valores que toma una variable
sobre los individuos. 154 60

180 78
– Las individuos no se muestran en ningún orden particular.
158 62

• Podemos representar las observaciones en un diagrama 171 66


de dispersión (‘scatterplot’). En él, cada individuo es un
punto cuyas coordenadas son los valores de las variables. 169 60

166 54
• En primera instancia, pretendemos reconocer a partir del
176 84
diagrama si hay relación entre las variables, de qué tipo y,
si es posible predecir el valor de una de ellas en función de 163 68
la otra.
... ...
Diagramas de dispersión o nube de puntos
Altura y peso de 30 individuos.

100
90
80 Pesa 76 kg.

70

Mide 187 cm.


60
Pesa 50 kg.
50
Mide 161 cm.
40
30
140 150 160 170 180 190 200
Relación entre variables
Altura y peso
de 30 individuos.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Relación entre variables
Altura y peso
de 30 individuos.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Relación entre variables
Altura y peso • ¿Qué recta explica mejor la relación peso-altura?
de 30 individuos. • mejor...¿en qué sentido?

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Regresión lineal simple
Cuando se estudian dos características simultáneamente sobre una
muestra, se puede considerar que una de ellas influye sobre la otra
de alguna manera.

Claro está, si sabemos que la variable X está muy relacionada con Y,


ello quiere decir que podemos predecir Y a partir de X. Estamos ya en
el terreno de la predicción. (Evidentemente si, X no está relacionada
conY, X no sirve como predictor deY.)
Los datos de la regresión simple
• Los n datos en parejas (x1;y1),(x2,y2),…,(xn,yn). Son valores de las
variables bidimensionales (X,Y), donde los Xi son los valores de la
variable independientes X y los valores Yi son los valores de la variable
dependienteY.
La grafica de dispersión
• Es frecuentemente posible visualizar el tipo de relación existente
entre las dos variables (X,Y), analizando la grafica en el plano
cartesiano de los datos o XY, dispersión. La grafica indica la
tendencia de la relación existente entre las dos variables
RECTA DE REGRESIÓN Pendiente

yn
yn 1 yˆ i
y3
u3 ui
yi
y1 yi
y2

Ordenada
x1 x2 x3 xi xn 1 xn
en el origen

yi  a  bxi  ui ui  yi  yˆi
Error: residuo
RECTA DE REGRESIÓN
Llamemos a “u” residuo, perturbación o error: es la diferencia que hay entre
el valor observado de la variable “y” y el valor que tendría (valor estimado)
si la relación fuera lineal, es decir, través de la recta de regresión

y i  a  bxi
IDEA: hacer MÍNIMA la suma de los CUADRADOS de los residuos.

n n

u  ( yi  yˆi ) 2
2
i  i 
u 2

i 1
 i i
( y
i 1
 ˆ
y ) 2

 n 2 n n
2
 ui   ( yi  yˆi )    yi   a  bxi   
2
min
a ,b  i1 i 1 i 1 
¿DE DÓNDE SALEN LOS COEFICIENTES DE LA RECTA DE REGRESIÓN?

¿Qué “a” y “b” minimizan la suma de los cuadrados de los errores cometidos?

n n
 (a, b)    yi   a  bxi      yi  a  bxi 
2 2 MINIMIZAR

i 1 i 1

El valor que hemos


aproximado para “y” con  na    yi  b xi
Errores cometidos al

 a  y  bx
aproximar por una recta la recta de regresión 
y i i

 x y   y  bx   x
i
i i
i
i  b xi2
i

 xi yi  y x
i
 bxnx  b xi2
 yi abxi 0
i

  
   n
 2
i i i
 yi  a b xi
a  
 2
i

i i i 
 i i i
x y  ynx  b  ix 2
 nx 

b
 2  yi  a bxi xi 0

  
xi yi  a xi b 2
xi

 i
S

i i i i  S xy  bS x2   b  xy2
Sx
EQUIVALE a buscar los coeficientes de la recta hace MÍNIMA la suma de los
CUADRADOS de los residuos.

La recta de regresión de y sobre x es


S xy S xy
yˆ  y  2
x 2
x
S x S x

Es decir, los valores de los coeficientes son


S xy S xy
ay 2
x b
S x S 2
x

1 n 1 n
Covarianza S xy   ( xk  x )( yk  y )   xk yk  x y
n k 1 n k 1
Regresión lineal simple
• Dado una muestra de n datos en parejas (x1;y1),(x2,y2),…,(xn,yn).
Observados de la variables bidimensionales (X,Y), la regresión lineal
simple de la variable dependiente Y con respecto a las variables
independiente X, consiste en obtener la ecuación de la recta, o modelo
de regresión que mejor se ajuste a los valores de la muestra, con el fin de
poder predecir o pronosticar los valores deY dado X
𝒀 = 𝒂 + 𝒃𝑿
Regresión lineal simple

Resolviendo:
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑏=
𝑛 σ 𝑥 2 − (σ 𝑥)2

Y dividiendo se obtiene
𝑎 = 𝑦ത − 𝑏𝑥ҧ
Notas: 𝑆𝑋𝑌 𝐶𝑜𝑣𝑋𝑌
El coeficiente de b se puede escribir como 𝑏 = También como 𝑏 =
𝑆𝑋𝑋 𝑆𝑥2
Donde 𝑠𝑥2 es la varianza de x
Regresión lineal simple
Interpretación del coeficiente de regresión b

El coeficiente b es la pendiente o el coeficiente de la regresión lineal


La constante a es la ordenada en el origen.

Por el signo, la pendiente se interpreta como sigue:

Si b>0, entonces la tendencia lineal es creciente, es decir, a mayores valores de


X corresponden mayores valores de Y.

Si b<0, entonces la tendencia lineal es decreciente, es decir, a mayores valores


de X corresponden nenores valores de Y .

Si b=0, entonces Y=a en este caso, Y permanece constante para cualquier valor
de X , indicando esto que no hay regresión.
Covarianza de dos variables X e Y
• La pendiente de la recta de regresión es Sxy/ S2X
• El signo de la covarianza indica si la posible relación
entre dos variables es directa o inversa.
• Directa: Sxy >0
• Inversa: Sxy <0
• Incorreladas: Sxy =0

• La covarianza no dice nada sobre el grado de relación


entre las variables.
Covarianza
Es la estadística que mide el nivel de variabilidad (dispersión o concentración)
conjunta de los datos de las variables en pareja (X, Y) es el numero real que
demostraremos por Covxy y que se define como la media aritmética de los
productos de las desviaciones conjuntas de los datos con respecto a sus
correspondientes medias.

σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ − 𝑦)

𝐶𝑜𝑣𝑋𝑌 =
𝑛

El numerador de la covarianza 𝑛 𝑆𝑋𝑌 y verifica la relación


𝑛 se denota también por

𝑆𝑋𝑌 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦 − 𝑦ത = ෍ 𝑥𝑖 𝑦𝑖 − 𝑛 ∗ 𝑥ҧ ∗ 𝑦ത
𝑖=1 𝑖=1

Luego se obtiene
𝑆𝑋𝑌 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝐶𝑜𝑣𝑋𝑌 = = − 𝑥ҧ ∗ 𝑦ത
𝑛 𝑛
El coeficiente o incide de correlación
Índice de correlación de Pearson de los n pares de valores (x1,y1;x2,y2…xn,yn)
de una variable bidimensional (X,Y) en el numero abstracto a relativo r que se
calcula por:
𝐶𝑜𝑣𝑋𝑌
𝑟=
𝑆𝑋 𝑆𝑌
Donde:
Sx es la desviación estándar de X
Sy es la desviación estándar de Y
Si hacemos 𝑛 𝑛
y Es fácil verificar que
𝑆𝑋𝑌 = ෍ 𝑥𝑖2 −𝑛∗ 𝑥ҧ 2 𝑆𝑌𝑌 = ෍ 𝑦𝑖2 − 𝑛 ∗ 𝑦ത 2
𝑖=1 𝑖=1

𝑆𝑋𝑌 σ 𝑥𝑦 − 𝑛 ∗ 𝑥ҧ ∗ 𝑦ത
𝑟= =
𝑆𝑋𝑋 ∗ 𝑆𝑌𝑌 σ 𝑥 2 − 𝑛 ∗ 𝑥ҧ 2 ∗ σ 𝑦 2 − 𝑛 ∗ 𝑦ത 2
El coeficiente o incide de correlación

El coeficiente de correlación de la muestra es un numero real comprendido


entre -1 y +1 esto es
−1 ≤ 𝑟 ≤ 1

Interpretación del índice de corrección

Si r =1, se dice que hay una correlación lineal perfecta positiva


Si r =-1, se dice que hay una correlación lineal perfecta negativa
Si r =0, se dice que no hay una correlación entre las dos variables
Coef. de correlación lineal de Pearson

• La coeficiente de correlación lineal de


Pearson de dos variables, r, nos indica si los
puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas
horizontales y verticales).

• tiene el mismo signo que Sxy por tanto de su


signo obtenemos el que la posible relación
sea directa o inversa.
S xy
r
• r es útil para determinar si hay relación lineal SxS y
entre dos variables
Propiedades de r
• Es adimensional
• Sólo toma valores en [-1,1]
• Las variables son incorreladas  r=0
• Relación lineal perfecta entre dos variables  r=+1 o r=-1
• Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación
lineal.
• Siempre que no existan observaciones anómalas.

Relación
inversa Relación
perfecta directa
Variables
casi
incorreladas
perfecta

-1 0 +1
0
0 Y
10 = 0.134
20 X + 2.122
30 40 X 50 Correlación
60 70 80 90negativa
0 2 Y =4 X 6 8X 10 12 14 16
0
2
2
4
4
6
6
Y

Y
8
10
10
12

-1  r  0 r=-1
12
14
14
16
16

Correlación positiva 16 Y=X


16 Y = 0.134 X + 2.122

0  r  +1 r=+1
14
14
12
12

10
10

Y
8
Y

6
6

4
4

2 2

0 0
0 10 20 30 40 50 60 70 80 90 0 2 4 6 8 10 12 14 16
X X
16 Y = 0.093 X + 4.335 8 Y=4
14
7

12 6

10 5

Y
8 4

6 3

4 2

2 1

0 0
20 25 30 35 40 45 50 55 60 20 25 30 35 40 45 50 55 60
X X

16 #¡DIV/0!
14 r=0
12

10

Ausencia de correlación
Y

0
0 1 2 3 4 5 6
X
Los problemas de regresión y de correlación
lineales se parecen pero difieren
En la finalidad
En las variables

REGRESION CORRELACION
x variable NO hay distinción entre
independiente fija variable dependiente e
independiente
y variable x e y son variables
dependiente aleatoria aleatorias

S-ar putea să vă placă și