Sunteți pe pagina 1din 25

Implantación de programas de mejora Seis Sigma

Análisis de Regresión y Correlación


con MINITAB

Primeras definiciones y conceptos de la


regresión

„ El análisis de la regresión es una técnica estadística que se utiliza


para estudiar la relación entre variables o factores cuantitativos
referidos a un mismo grupo de unidades observadas.

„ Se trata de comprobar estadísticamente si tal relación es posible,


y de serlo, expresarlo matemáticamente mediante una ecuación.

„ Su uso más frecuente es el de la predicción de resultados de una


de ellas para valores fijos de las otras.

Regresión 1
Implantación de programas de mejora Seis Sigma

Primeras definiciones y conceptos de la


regresión

„ Cuando se cree que algunas de las variables pueden causar ( o al


menos explicar) los cambios observados en otra, a éstas se les llama
variables explicativas (X’s)

„ La que mide el resultado del estudio se le llama variable respuesta


(Y)

„ Se intentará establecer una ecuación de la forma Y=g(x)

Metodología de un análisis de regresión

1. Representar los datos en un gráfico

2. Identificar su aspecto y sus desviaciones

3. Descripciones numéricas que informen sobre los datos y su


posible relación

4. Descripción matemática resumida del aspecto general del


problema

Regresión 2
Implantación de programas de mejora Seis Sigma

1. Representación de los datos


„ La manera de mostrar gráficamente los datos observados en un
gráfico es a través de un diagrama de dispersión.
„ Y, la respuesta se marca en el eje vertical; la X, variable
explicativa, en el eje horizontal. Cada observación, es un punto
del gráfico

2. Identificación del aspecto del diagrama


de dispersión

„ El aspecto general del gráfico viene dado por la dirección,


forma y fuerza del mismo:

„ Dirección: positiva o negativa

„ Forma: disposición de los puntos (rectilínea o curvilínea)

„ Fuerza: cuanta más amorfa sea la disposición de los puntos


en el gráfico, menor su relación

Regresión 3
Implantación de programas de mejora Seis Sigma

2. Identificación del aspecto del diagrama


de dispersión

„ Es interesante en esta primera identificación del aspecto


del gráfico, identificar observaciones atípicas (aquellas que
se distinguen del aspecto general del gráfico)

„ El diagrama de dispersión sólo muestra el aspecto general


de la relación entre las dos variables.

„ En situaciones no muy evidentes, un simple cambio de


escala puede hacernos cambiar la forma de pensar.

2. Identificación del aspecto del diagrama


de dispersión

Scatterplot of Tiempo vs Edad

450

400
Tiempo

350

300

30 32 34 36 38 40 42 44 46 48
Edad

Regresión 4
Implantación de programas de mejora Seis Sigma

3. Descripciones numéricas

„ Se necesita una medida numérica que complemente al gráfico y


que, independientemente de las dimensiones de los valores de las
variables, nos informe sobre la fuerza de la relación existente.
„ Una medida es el Coeficiente de correlación

Características del coeficiente de correlación


de Pearson

„ r utiliza valores estandarizados, luego no le influyen las unidades:


tomaría el mismo valor aunque se cambiara de unidad de medida.

„ r se ve afectada por las observaciones atípicas

„ Una r positiva (negativa)indica una relación positiva (negativa)


entre las variables.

„ Valores de r cercanos al 0 indican una relación lineal muy débil.


La fuerza de la relación lineal aumenta a medida que r se aleja del
0 y se acerca al +1 o al –1.

Regresión 5
Implantación de programas de mejora Seis Sigma

Ejemplos reales

Situación 1 Situación 2 Situación 3


95 95 95

90 90 90

85 85 85

80 80 80

75 75 75
150 160 170 180 150 160 170 180 150 160 170 180
Temperatura Temperatura Temperatura

r = 0,983 r = 0,887 r = 0,230


p-value: 0,000 p-value: 0,000 p-value: 0,108

Un valor de r distinto de 0 no implica relación lineal


Es necesario que sea “significativamente distinto de cero”

Coeficiente de correlación: Precaución

El coeficiente de correlación de Pearson sólo mide relación LINEAL

200

r = 0,5 pero ...

Relación casi perfecta,


100
aunque no lineal.

0 10 20 30

Regresión 6
Implantación de programas de mejora Seis Sigma

4. Descripción matemática de la forma del


gráfico

„ Si la correlación entre las dos variables indica una relación fuerte,


sería muy interesante poder “resumir” el gráfico en forma de una
ecuación matemática.

„ En el caso de una forma lineal, a la recta que ajusta la nube de


puntos se le llama recta de regresión.

„ Esta recta se calcula teniendo en cuenta dos cosas:


„ Puesto que describe un cambio en la respuesta a medida que
cambia la otra variable, se necesita tener presente esta
distinción a la hora de calcularla.
„ Puesto que ninguna recta puede pasar exactamente por todos
los puntos, se necesita una manera de construirla que asegure
su paso tan cerca de todos los puntos como sea posible.

4. Descripción matemática de la forma del


gráfico

Fitted Line Plot


Tiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
S 38,3533
450 R-Sq 37,1%
R-Sq(adj) 35,0%

400
Tiempo

350

300

250
30 32 34 36 38 40 42 44 46 48
Edad

Regresión 7
Implantación de programas de mejora Seis Sigma

Modelo de regresión simple

Modelo teórico para la población:


y = β0 + β1x + ε
distancia entre lo real y lo que se predice
ε ~ N (0, σ) Y

ŷ = b0 + b1x
Recta ajustada:
(a partir de una muestra) ŷ i predicción de la recta

yi observado

r ⋅ sy
ŷ = y + (x − x)
sx

xi X

Modelo de regresión simple

„ La pendiente de la recta , b1, representa la tasa de cambio, es


decir, la cantidad en que cambia ŷ cuando x aumenta en una
unidad.

y
r ⋅ sy
ŷ = b0 + b1x b1 =
sx

b1

1
b0

Regresión 8
Implantación de programas de mejora Seis Sigma

Modelo de regresión simple

„ r2, representa la fracción de la variación de Y que se explica


por la regresión de Y sobre X y sirve de medida de bondad
de la regresión para explicar la respuesta.

„ La parte de la variable Y que no es explicada por el modelo


se llama residual.

„ Una vez dibujada la recta de regresión, existe un valor


residual para cada dato: e = y − ŷ

Modelo de regresión simple

e i = y i − ŷ i

ei

Regresión 9
Implantación de programas de mejora Seis Sigma

Análisis de los residuos

„ La disposición de los residuos sirve para comprobar si la


recta sirve para ajustar los datos

„ Dibujando sus valores en el eje de ordenadas frente a las


predicciones deben presentar una forma uniforme ,
centrada en el valor 0, a lo largo de toda la recta, sin que
aparezca ningun valor extraño

Inferencia para la regresión lineal

Regression Plot
Rendi2 = 10,2163 + 0,447563 Temperatura

S = 2,01711 R-Sq = 78,6 % R-Sq(adj) = 78,2 %

95
Intervalo para las predicciones

Intervalo para la recta


Rendi2

85

Regression
95% CI
75
95% PI

150 160 170 180

Temperatura

Regresión 10
Implantación de programas de mejora Seis Sigma

Regresión no lineal

„ La relación entre x e y no tiene porqué ser lineal.

„ Los softwares informáticos ajustan los datos a curvas no lineales


(exponenciales, parabólicas, etc.) y calculan el valor de r2 para
medir la fuerza de esa relación.
Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
S 38,3533
450 R-Sq 37,1%
R-Sq(adj) 35,0%

400
Tiempo

350

300

250
30 32 34 36 38 40 42 44 46 48
Edad

Regresión múltiple

„ La regresión múltiple expresa el valor de la variable dependiente


Y, como función de las variables independientes X1, X2, ...,Xk

„ La más simple es la regresión lineal y el modelo al que se


debieran ajustar los datos es:

Yi = α + β1 X 1i + β 2 X 2i + ... + +β k X ki + ε i

Regresión 11
Implantación de programas de mejora Seis Sigma

Regresión múltiple

Comprobar si el rendimiento de un proceso químico depende,


además de la temperatura de la presión a la que se realiza.

Regresión múltiple lineal: Interpretación de


resultados

Regression Analysis: Rendi versus


Presion; Temperatura

The regression equation is


Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura

Predictor Coef SE Coef T P


Constant 48,941 2,709 18,07 0,000
Presion 1,8437 0,4699 3,92 0,001
Temperat 0,20807 0,01562 13,32 0,000

S = 0,7947 R-Sq = 90,8% R-Sq(adj) = 89,9%

Desviación tipo de los residuos Pruebas de significación


ŷ ± 2s para los coeficientes

Media de calidad del ajuste

Regresión 12
Implantación de programas de mejora Seis Sigma

Regresión múltiple lineal: Interpretación de


resultados

„ Coeficiente de correlación múltiple

R 2 = r2 = 1−
∑ (y i − ŷ i ) 2

∑ (y i − yi ) 2

„ El r2 proporciona, al igual que en el caso simple, una


medida de la fuerza de la relación entre Y y sus
predicciones, a partir del modelo de regresión propuesto
(plano de regresión)
„ Se pueden definir también, coeficientes de correlación
parciales, rYXi , miden la relación entre Y y Xi eliminando los
efectos del resto de Xj

Regresión múltiple lineal: Inferencias

„ Al igual que en el caso simple, pueden calcularse intervalos de


confianza para los coeficientes del plano

„ También al igual que en el caso simple, será necesaria la


comprobación de la adecuidad del modelo con el análisis y
estudio de sus residuos: éstos deben de ser normales, centrados
en 0 y con variabilidad constante.

Regresión 13
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

„ Deducir una ecuación que relacione el tiempo marcado por una


atleta (en minutos) en una carrera de triatlón con los siguientes
posibles factores:

„ Edad del deportista


„ Peso del deportista
„ Experiencia en la práctica del triatlón, en años
„ Kilómetros en carrera en entrenamientos
„ Kilómetros en bicicleta en entrenamientos
„ Kilómetros nadadndo en entrenamientos
„ Consumo de oxígeno corriendo
„ Consumo de oxígeno en bicicleta
„ Cosumo de oxígeno nadando

Ejemplo práctico con MINITAB

Regresión 14
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB


„ Para la Regresión Simple: Stat/Regression/Fitted Line Plot

Residual Plots for Tiempo


Fitted Line Plot
Tiempo = 205,2 + 3,585 Edad Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99,9
S 44,7224 99
100
R-Sq 13,0%
450 90 50
R-Sq(adj) 11,7%
Residual
Percent

50 0
10
-50
1
400
0,1 -100
-100 0 100 320 340 360 380
Tiempo

Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


350
16 100

12 50
Frequency

Residual

300 8 0

4 -50

30 32 34 36 38 40 42 44 46 48 0 -100
Edad -80 -40 0 40 80 1 5 10 15 20 25 30 35 40 45 50 55 60 65
Residual Observation Order

Residual Plots for Tiempo


Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
- 1,193 Edad**2 99,9
100
99

S 38,3533 90
50
Residual
Percent

450 R-Sq 37,1%


R-Sq(adj) 35,0% 50

10 0

1
400 -50
0,1
-100 -50 0 50 100 280 300 320 340 360
Tiempo

Residual Fitted Value

350 Histogram of the Residuals Residuals Versus the Order of the Data
16
100

12
300
Frequency

50
Residual

8
0
4
250
30 32 34 36 38 40 42 44 46 48 0 -50
Edad -40 -20 0 20 40 60 80 100 1 5 10 15 20 25 30 35 40 45 50 55 60 65
Residual Observation Order

Regresión 15
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

„ Lo más habitual en la práctica es querer establecer una relación


entre una variable respuesta (Y) y varias explicativas (X’s)

„ Para la Regresión Múltiple, existen varias opciones:


„ Stat/Regression/Regression
„ Stat/Regression/Best Subsets
„ Stat/Regression/Stepwise

Ejemplo práctico con MINITAB


Ejemplo con la opción Stat/Regression/Regression
Regression Analysis: Tiempo versus Edad; Peso; ...

The regression equation is


Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera
- 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici
+ 0,893 CONatacion

Predictor Coef SE Coef T P


Constant 486,3 114,5 4,25 0,000
Edad 3,410 1,091 3,13 0,003
Peso 0,3470 0,7862 0,44 0,661
Experien -21,424 3,697 -5,80 0,000
EnCarrer 0,7025 0,2771 2,54 0,014
EnBici -0,17251 0,06920 -2,49 0,016
EnNataci -1,3727 0,9566 -1,43 0,157 ¡¡Cuidado!!
COCarrer -3,3550 0,8338 -4,02 0,000
COBici -1,3845 0,9098 -1,52 0,134
CONataci 0,8934 0,9217 0,97 0,337

S = 22,70 R-Sq = 80,4% R-Sq(adj) = 77,2%


Bondad del ajuste
Analysis of Variance

Source DF SS MS F P
Regression 9 116566 12952 25,14 0,000
Residual Error 55 28339 515 Linealidad significativa
Total 64 144905

Unusual Observations
Obs Edad Tiempo Fit SE Fit Residual St Resid
19 36,0 408,00 359,05 10,03 48,95 2,40R
32 37,0 407,00 364,39 10,96 42,61 2,14R
36 37,0 325,00 367,72 8,39 -42,72 -2,03R

R denotes an observation with a large standardized residual

Regresión 16
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

„ Realizar un análisis de regresión multivariante tiene el siguiente


inconveniente: si dos variables X están muy relacionadas entre sí
y aportan mucho a la hora de conocer Y, una de ellas tendrá un p-
valor grande y la otra no. Pero, de eliminar una ¿cuál
eliminaríamos? Una la conozco, pero no sé con cual está
correlacionada....

„ Posibilidades:
„ Representar gráficamente las relaciones: Gráfico matriz
„ Calcular los coeficientes de correlación entre las variables

Ejemplo práctico con MINITAB

Regresión 17
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

Matrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ...


32 40 4860 70 80
0,0 2,5 5,0 30 60 90 150 300 4500 10 20 50 60 70 50 60 70
40 50 60

420

Tiempo 360
300
48

40
Edad
32
80

70
Peso
60
5,0

Experiencia 2,5

0,0
90

60
EnCarrera
30
450

300
EnBici
150

20

10
EnNatación
0
70

60
CoCarrera
50
70

60
CoBici
50

CoNatación

Ejemplo práctico con MINITAB

Regresión 18
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatación; Co

Tiempo Edad Peso Experien EnCarrer EnBici EnNataci CoCarrer CoBici


Edad 0,361
Peso 0,249 0,342
Experien -0,436 0,414 0,254
EnCarrer -0,469 -0,288 -0,090 0,349
EnBici -0,492 -0,356 -0,091 0,137 0,792
EnNataci -0,430 -0,419 0,132 -0,005 0,479 0,691
CoCarrer -0,695 -0,306 -0,506 0,183 0,255 0,147 0,160
CoBici -0,647 -0,441 -0,474 0,146 0,376 0,323 0,090 0,695
CoNataci -0,596 -0,635 -0,340 0,134 0,478 0,415 0,380 0,548 0,652

Ejemplo práctico con MINITAB

„ Cuando existen muchas variables X que pueden influir en la


respuesta Y, estas opciones pueden resultar complicadas de
interpretar.

„ ¿Cómo resuelve este problema MINITAB?


„ Stepwise:crea un modelo paso a paso, eligiendo primero la variable X
que mejor explica la Y, añadiendo después una a una, otras X que
junto con las anteriores aporten información. Para, cuando no
encuentra ninguna más de las que quedan fuera que añada
información
„ Best Subsets: Crea subconjuntos de n variables X que mejor explican
Y

Regresión 19
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

Step 1 2 3 4 5
Constant 687,9 709,7 704,1 532,8 516,1

CoCarrer -5,68 -5,20 -4,82 -3,96 -4,09


T-Value -7,67 -8,24 -8,37 -6,81 -7,45
P-Value 0,000 0,000 0,000 0,000 0,000

EnBici -0,203 -0,187 -0,128 -0,242


T-Value -5,15 -5,24 -3,51 -4,69
P-Value 0,000 0,000 0,001 0,000

Experien -10,7 -16,9 -20,8


T-Value -3,94 -5,56 -6,61
P-Value 0,000 0,000 0,000

Edad 3,03 3,53


T-Value 3,56 4,32
P-Value 0,001 0,000

EnCarrer 0,80
T-Value 2,96
P-Value 0,004

S 34,5 29,1 26,2 24,0 22,6


R-Sq 48,31 63,82 71,15 76,17 79,25
R-Sq(adj) 47,49 62,65 69,73 74,59 77,50
C-p 84,4 42,8 24,1 12,0 5,3

Regresión 20
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

Response is Tiempo
E E E C C
x n n o o
p C E N C C N
e a n a a o a
E P r r B t r B t
d e i r i a r i a
a s e e c c e c c
Vars R-Sq R-Sq(adj) C-p S d o n r i i r i i

1 48,3 47,5 84,4 34,482 X


1 41,8 40,9 102,6 36,578 X
2 63,8 62,6 42,8 29,081 X X
2 58,8 57,4 57,0 31,050 X X
3 71,3 69,9 23,8 26,117 X X X
3 71,2 69,7 24,1 26,177 X X X
4 76,2 74,6 12,0 23,987 X X X X
4 75,1 73,5 14,9 24,500 X X X X
5 79,3 77,5 5,3 22,573 X X X X X
5 76,9 75,0 11,9 23,801 X X X X X
6 79,5 77,4 6,7 22,631 X X X X X X
6 79,5 77,3 6,8 22,651 X X X X X X
7 80,1 77,6 7,0 22,506 X X X X X X X
7 79,7 77,2 8,1 22,721 X X X X X X X
8 80,4 77,6 8,2 22,535 X X X X X X X X
8 80,1 77,3 8,9 22,687 X X X X X X X X
9 80,4 77,2 10,0 22,699 X X X X X X X X X

Regresión 21
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

„ Regresión-Stepwise: crea un modelo paso a paso, eligiendo


primero la variable X que mejor explica la Y, añadiendo después
una a una, otras X que junto con las anteriores aporten
información. Para cuando no encuentra ninguna más, de las que
quedan fuera que añada información

„ Inconveniente:
„ el modelo es muy dependiente de la primera elegida (la que más
información aporta por si sola, pero puede no ser la mejor para
trabajar con ella)

Ejemplo práctico con MINITAB


„ Regresión Best Subsets: Crea subconjuntos de n variables X que
mejor explican Y

„ Inconvenientes:
„ No dice cual es la mejor opción, luego hay que decidirse.
„ Su lista se basa en el valor R2, luego habrá que comprobar si las variables
del modelo son significativas

Regresión 22
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB


„ Si elegimos el modelo con 5 variables (R2=77,5%) y hacemos
regresión multivariante:
The regression equation is
Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici
- 4,09 CoCarrera

Predictor Coef SE Coef T P


Constant 516,10 54,51 9,47 0,000
Edad 3,5335 0,8188 4,32 0,000
Experien -20,752 3,141 -6,61 0,000
EnCarrer 0,7958 0,2689 2,96 0,004
EnBici -0,24185 0,05154 -4,69 0,000
CoCarrer -4,0886 0,5490 -7,45 0,000
S = 22,57 R-Sq = 79,3% R-Sq(adj) = 77,5%

Analysis of Variance
Source DF SS MS F P
Regression 5 114844 22969 45,08 0,000
Residual Error 59 30062 510
Total 64 144905

Ejemplo práctico con MINITAB


„ ¿Qué pasaría con el de 6 variables añadiendo “Ennatación”?

The regression equation is


Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici
- 4,07 CoCarrera - 0,582 EnNatación

Predictor Coef SE Coef T P


Constant 520,92 55,06 9,46 0,000
Edad 3,3875 0,8434 4,02 0,000
Experien -20,612 3,157 -6,53 0,000
EnCarrer 0,7583 0,2742 2,77 0,008
EnBici -0,21535 0,06217 -3,46 0,001
CoCarrer -4,0746 0,5512 -7,39 0,000
EnNataci -0,5823 0,7581 -0,77 0,446

S = 22,65 R-Sq = 79,5% R-Sq(adj) = 77,3%

Regresión 23
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB


„ ¿Y qué pasaría con el de 4 variables quitando “Encarrera”?
The regression equation is
Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96
CoCarrera

Predictor Coef SE Coef T P


Constant 532,77 57,62 9,25 0,000
Edad 3,0256 0,8508 3,56 0,001
Experien -16,867 3,033 -5,56 0,000
EnBici -0,12825 0,03655 -3,51 0,001
CoCarrer -3,9574 0,5815 -6,81 0,000

S = 23,99 R-Sq = 76,2% R-Sq(adj) = 74,6%

Analysis of Variance

Source DF SS MS F P
Regression 4 110381 27595 47,96 0,000
Residual Error 60 34524 575
Total 64 144905

Ejemplo práctico con MINITAB


„ Antes de dar por válido el estudio y con las opciones elegidas se
deberán analizar los residuos:

Regresión 24
Implantación de programas de mejora Seis Sigma

Ejemplo práctico con MINITAB

Residual Plots for Tiempo


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99,9
99 50
90 25

Residual
Percent

50 0

10 -25
1
-50
0,1
-80 -40 0 40 80 250 300 350 400 450
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data

12 50

25
Frequency

9
Residual

6 0

-25
3
-50
0
-40 -20 0 20 40 60 1 5 10 15 20 25 30 35 40 45 50 55 60 65
Residual Observation Order

Regresión 25