Sunteți pe pagina 1din 19

Probabilidad y Estadística

Trabajo final de regresión simple


Probabilidad y Estadística
ÍNDICE

I – INTRODUCCIÓN……………………………………………………………………...4

El modelo de Regresión Simple……………………………………………………………4

Diagramas de dispersión…………………………………………………………………...5

Método de mínimos cuadrados……………………………………………………………6

Coeficiente de correlación (r)……………………………………………………………...8

Inferencia estadística……………………………………………………………………..10

Análisis de la varianza (ANOVA)………………………………………………………..11

Importancia del análisis de regresión……………………………………………………13

II - CASO A RESOLVER………………………………………………………………..14

a) Construir un gráfico de dispersión de los datos y graficarlo………………………..15

b) Establecer un modelo lineal que relacione las dos variables y grafique la ecuación de

la línea recta…………………………………………………………………………....15

c) Explique que es el error o residuo y señalarlo en la gráfica de dispersión…………17

d) Si se decide por gastar en publicidad 200,000 pesos, ¿cuál sería el volumen de ventas

esperado?..................................................................................................................18

e) Interprete la pendiente y la ordenada al origen. En el caso de la Ordenada del origen.

¿Tiene sentido?.......................................................................................................19

f) Calcule e interprete el coeficiente de correlación (r)…………………………………19


Probabilidad y Estadística
g) Realice el ANOVA, utilizando un nivel de confianza del 90%...................................19

h) Determine el intervalo del valor esperado para Y, cuando X = 300,000 e

interpretar…………………………………………………………………………………21

i) Determine el intervalo de confianza para la pendiente e interprete. α = 0.05………22

j) Determine el intervalo de confianza para la ordenada del origen e interprete. α =

0.05…………………………………………………………………………………………22

k) Realizar ejercicio en Excel y anexar reporte………………………………………....23

Conclusión…………………………………………………………………………………24

Bibliografía………………………………………………………………………………..25
Probabilidad y Estadística
I – INTRODUCCIÓN

El modelo de Regresión Simple

Son frecuentes en la práctica situaciones en las que se cuenta con observaciones de diversas
variables, y es razonable pensar en una relación entre ellas. El poder determinar si existe esta
relación —y, en su caso, una forma funcional para la misma— es de sumo interés. Por una
parte, ello permitiría, conocidos los valores de algunas variables, efectuar predicciones sobre
los valores previsibles de otra. Podríamos también responder con criterio estadístico a
cuestiones acerca de la relación de una variable sobre otra.

El análisis de regresión es una técnica estadística para investigar la relación funcional entre
dos o más variables, ajustando algún modelo matemático. La regresión lineal simple utiliza
una sola variable de regresión y el caso más sencillo es el modelo de línea recta. Supóngase
que se tiene un conjunto de n pares de observaciones (xi, yi), se busca encontrar una recta
que describa de la mejor manera cada uno de esos pares observados.

Se considera que la variable X es la variable independiente o regresiva y se mide sin error,


mientras que Y es la variable respuesta para cada valor específico xi de X; y además Y es una
variable aleatoria con alguna función de densidad para cada nivel de X.
Probabilidad y Estadística
Diagramas de dispersión

Se puede afirmar que el uso de gráficos para analizar datos en estadística se ha visto
incrementado en la segunda mitad del siglo xx. A principio de los sesenta, Tukey (1962)
afirma que las técnicas gráficas tendrán grandes posibilidades en el futuro del análisis de
datos. Posterior- mente, Tukey (1977) expondrá la importancia de los gráficos para el análisis
exploratorio de datos, proponiendo una nueva filosofía para dicho análisis: el enfoque
exploratorio en el análisis de datos, donde las representaciones gráficas tienen un papel
fundamental, por lo que propone algunas nuevas. Todo esto se ha visto favorecido en las
últimas décadas la propagación del uso de ordenadores en la enseñanza de la estadística, dada
su capacidad de manejar datos y su facilidad para realizar todo tipo de gráficos.

Los Diagramas de Dispersión o Gráficos de Correlación permiten estudiar la relación entre


2 variables. Dadas 2 variables X e Y, se dice que existe una correlación entre ambas si cada
vez que aumenta el valor de X aumenta proporcionalmente el valor de Y (Correlación
positiva) o si cada vez que aumenta el valor de X disminuye en igual proporción el valor de
Y (Correlación negativa).
Dentro de este tema cabe destacar la utilización de los diagramas de dispersión para
representar y analizar la relación de dependencia entre dos variables referidas al mismo
conjunto de datos y como medio gráfico para introducir su estudio.
Probabilidad y Estadística
Método de mínimos cuadrados

Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización


matemática, en la que, dados un conjunto de pares ordenados —variable independiente,
variable dependiente— y una familia de funciones, se intenta encontrar la función continua,
dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo
con el criterio de mínimo error cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las
ordenadas (llamadas residuos) entre los puntos generados por la función elegida y los
correspondientes valores en los datos. Específicamente, se llama mínimos cuadrados
promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso
por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el
residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un
gran número de iteraciones para converger.

Desde un punto de vista estadístico, un requisito implícito para que funcione el método de
mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria.
El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de
sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución
normal. También es importante que los datos a procesar estén bien escogidos, para que
permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en
particular, véase mínimos cuadrados ponderados).

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros


problemas de optimización pueden expresarse también en forma de mínimos cuadrados,
minimizando la energía o maximizando la entropía.
Probabilidad y Estadística
Coeficiente de correlación (r)
La correlación entre dos variables mide el grado de ajuste de la nube de puntos a la función
matemática asignada. La relación entre dos variables puede ajustarse muy bien a una recta o
cualquier otra función matemática. Para medir el grado de ajuste de la distribución a una
recta, se emplea el coeficiente de correlación de Pearson, r. Un coeficiente positivo y alto
indica que ambas variables crecen o decrecen simultáneamente, es decir, presentan una fuerte
correlación. Cuando mayor sea el coeficiente, más estrecho es la relación entre las variables.
Un coeficiente alto y negativo indica que cuando una variable crece, la otra decrece y
viceversa, es decir, presentan una fuerte correlación inversa. Si el coeficiente es cero o
próxima a cero indica que no existe relación entre las variables.

Una manera sencilla y eficaz de estudiar la posible correlación entre variables es recurrir a
los diagramas de dispersión, que son representaciones gráficas en un sistema de ejes
cartesianos donde cada par (x,y) se representa por un punto. La representación gráfica
resultante se denomina diagrama de dispersión o nube de puntos.

En muchas ocasiones la nube de puntos sugiere la forma de la gráfica de alguna función


conocida: una recta, una parábola, una función exponencial. Esto significa que puede existir
alguna relación entre las variables. Si así ocurriese, se diría que las variables están
correlacionadas. En las prácticas de esta asignatura vamos a trabajar, en general, con
relaciones lineales. Si nos encontramos con datos que se ajustan a otras funciones conocidas,
éstas se pueden transformar previamente a lineales para analizarse con mayor facilidad. La
aplicación de los ajustes de las variables a funciones conocidas, como las funciones lineales,
es de gran aplicación en para predecir su comportamiento. Los cambios en la variable Y se
explican en gran medida por los cambios de la variable X. Se pueden estimar valores de Y a
partir de la X. Una medida de la fiabilidad de esta estimación (lineal) es el coeficiente de
determinación r2. El valor de r2 indica la proporción de la variación de la variable Y que
puede ser explicada por la variación de la variable X. Si se multiplica r2 por 100 se obtiene
el porcentaje de cambio de la variable Y explicado por la variable X.
Probabilidad y Estadística
Por ejemplo, si r2 = 0.59, entonces la varianza de en X puede ser explicada por la variación
en Y. Valores aceptables para r2 varían dependiendo del estudio. Por ejemplo, los ingenieros
que estudian reacciones químicas pueden requerir una r2del 90 % o más. Sin embargo,
estudios sociológicos del comportamiento humano (que es más variable) puede estar
satisfecho con valores de r2 inferiores.

Inferencia en la Regresión

La Estadística descriptiva y la teoría de la Probabilidad van a ser los pilares de un nuevo


procedimiento (Estadística Inferencial) con los que se va a estudiar el comportamiento global
de un fenómeno. La probabilidad y los modelos de distribución junto con las técnicas
descriptivas, constituyen la base de una nueva forma de interpretar la información
suministrada por una parcela de la realidad que interesa investigar.

En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de los
individuos de la población ya sea por el coste que supondría, o por la imposibilidad de
acceder a ello. Mediante la técnica inferencial obtendremos conclusiones para una población
no observada en su totalidad, a partir de estimaciones o resúmenes numéricos efectuados
sobre la base informativa extraída de una muestra de dicha población

Es fundamental entender la diferencia entre parámetros y estadísticos. Los parámetros se


refieren a la distribución de la población y los estadísticos a los datos de las muestras. Cuando
nos referimos a los parámetros los indicamos con letras griegas, así, para la media de una
población escribimos µ y para la desviación típica de la población escribimos σ. Sin embargo,
para los estadísticos de las muestras usamos la notación que vimos en el capítulo de
Estadística Descriptiva. Así, para la media de una muestra escribimos x y para la desviación
típica de la muestra escribimos Sx.
Probabilidad y Estadística
Análisis de la varianza (ANOVA)

Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más
poblaciones son iguales. Los ANOVA evalúan la importancia de uno o más factores al
comparar las medias de la variable de respuesta en los diferentes niveles de los factores. La
hipótesis nula establece que todas las medias de la población (medias de los niveles de los
factores) son iguales mientras que la hipótesis alternativa establece que al menos una es
diferente.

Para ejecutar un ANOVA, debe tener una variable de respuesta continua y al menos un factor
categórico con dos o más niveles. Los análisis ANOVA requieren datos de poblaciones que
sigan una distribución aproximadamente normal con varianzas iguales entre los niveles de
factores. Sin embargo, los procedimientos de ANOVA funcionan bastante bien incluso
cuando se viola el supuesto de normalidad, a menos que una o más de las distribuciones sean
muy asimétricas o si las varianzas son bastante diferentes. Las transformaciones del conjunto
de datos original pueden corregir estas violaciones.

Por ejemplo, usted diseña un experimento para evaluar la durabilidad de cuatro productos de
alfombra experimentales. Usted coloca una muestra de cada tipo de alfombra en diez hogares
y mide la durabilidad después de 60 días. Debido a que está examinando un factor (tipo de
alfombra), usted utiliza un ANOVA de un solo factor.

Si el valor p es menor que el nivel de significancia, entonces usted concluye que al menos
una media de durabilidad es diferente. Para información más detallada sobre las diferencias
entre medias específicas, utilice un método de comparaciones múltiples como el de Tukey.

El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento utiliza las


varianzas para determinar si las medias son diferentes. El procedimiento funciona
comparando la varianza entre las medias de los grupos y la varianza dentro de los grupos
como una manera de determinar si los grupos son todo parte de una población más grande o
poblaciones separadas con características diferentes.
Probabilidad y Estadística
Importancia del análisis de regresión

El análisis de regresión tiene por objetivo estimar el valor promedio de una variable, variable
dependiente, con base en los valores de una o más variables adicionales, variables
explicativas. En este tipo de análisis, la variable dependiente es estocástica mientras que las
variables explicativas son no estocásticas en su mayor parte1. El análisis de regresión ha
cobrado popularidad debido al gran número de paquetes estadísticos que lo incluyen y por
ser un “proceso robusto que se adapta a un sinfín de aplicaciones científicas y ejecutivas que
permite la toma de decisiones” (Linne et al. 2000, p. 47, tr.). En este trabajo, el mejor ajuste
de los modelos estará determinado por el análisis de regresión lineal.
Probabilidad y Estadística
II - CASO A RESOLVER

En la siguiente tabla, se muestran el conjunto de datos era tomado sobre grupos de trabajadoras de
Inglaterra y Gales en el año 1995-2000. Cada grupo estaba formado por trabajadores de la misma
profesión (médicos, trabajadores textiles, decoradores, etc.) y en cada uno de los veinticinco grupos
muestreados se han observado dos variables: el Índice estandarizado de consumo de cigarrillos y el
índice de muertes por cáncer de pulmón.

Fuente:
(Occupational mortality: the registar generalís decennial supplement for England and Wales, 1995-
2000, series Ds, n.1, London: HMSO,338).

Índice
índice de muertes
estandarizado de
por cáncer de
consumo de
pulmón
cigarrillos

X Y Dados los datos anteriores en donde la variable 𝑋 se


77 84 consideró como el consumo de cigarrillos 𝑌 las
137 116 muertes por cáncer de pulmón, se obtiene que:
117 123 ∑ 𝑥 = 2,572
94 128
∑ 𝑦 = 2,725
116 155
∑ 𝑥𝑦 = 288,068
102 101
∑ 𝑥 2 = 271,706
111 118
∑ 𝑦 2 = 313,391
93 113
𝑠𝑥 = 16.85068545
88 104
102 88 𝑠𝑦 = 25.58593364
91 104 𝑥̅ = 102.88
104 129 𝑦̅ = 109
107 86 𝑛 = 25 Datos
112 96
113 144
110 139
125 113
133 146
115 128
105 115
87 79
91 85
100 120
76 60
66 51
Probabilidad y Estadística
a) Construir un gráfico de dispersión de los datos y graficarlo.

Con los datos que se proporcionan en la tabla anterior se realiza un gráfico de dispersión en
donde se localiza los cigarrillos fumados y las muertes ocasionados por cáncer de pulmón.

b) Establecer un modelo lineal que relacione las dos variables y grafique la ecuación de
la línea recta.

∑𝑥∑𝑦
∑ 𝑥𝑦 −
𝛣̂ ₁ = 𝑛
2
(∑ 𝑥)
∑ 𝑥2 −
𝑛
(2,572)(2,725)
(288,068) −
𝛣̂ ₁ = 25
(6,615,184)2
(271,706) −
25

𝛣̂ ₁ = 1.087532

𝛣̂ ₀ = 𝑦̅ − 𝛣̂ ₁𝑥̅

𝛣̂ ₀ = (109) − (1.087532)(102.88)

𝛣̂ 0 = −2.88531

Se produce entonces la ecuación de la línea recta, en donde 𝑋 representa el valor de gasto en


publicidad y 𝑌̂ que representa el valor estimado del volumen de ventas.

𝑌̂ = 𝛣̂ ₀ + 𝛣̂ ₁𝑋
Probabilidad y Estadística
Así pues, se produce un valor estimado de muertes por cáncer pulmonar para cada valor del
consumo de cigarrillos.

Índice índice de
estandarizado muertes por
de consumo cáncer de
de cigarrillos pulmón

X Y
0 -2.88531
77 84
137 116
117 123
94 128
116 155
102 101
111 118
93 113
88 104
102 88
91 104
104 129
107 86
112 96
113 144
110 139
125 113
133 146
115 128
105 115
87 79
91 85
100 120
76 60
66 51
Probabilidad y Estadística
Los datos de la tabla anterior se representan en forma de línea recta en una nueva gráfica de
dispersión, en donde representa los valores estimados

c) Explique que es el error o residuo y señalarlo en la gráfica de dispersión.

El error o residuo es la diferencia que hay entre el valor de 𝑌 original y el valor deseado, es
decir, es una resta entre la gráfica de dispersión original y la ecuación de la línea recta.

Gráfico de Dispersión
Muertes por Cancér de Pulmón

200

150

100

50

0
0 20 40 60 80 100 120 140 160
Índice de Consumo de Cigarrillos

Numero de Muertes Original Numero de Muertes Pronosticado


Linear (Numero de Muertes Pronosticado)
Probabilidad y Estadística
A continuación, se muestran el residuo para cada valor de 𝑌.

índice de muertes
Pronóstico para
por cáncer de Residuos
Y
pulmón

Y ӯ Ŷ
84 80.85466512 3.145334881
116 146.1066007 -30.1066007
123 124.3559555 -1.355955507
128 99.34271353 28.65728647
155 123.2684232 31.73157675
101 108.0429716 -7.042971611
118 117.8307619 0.169238051
113 98.25518127 14.74481873
104 92.81751998 11.18248002
88 108.0429716 -20.04297161
104 96.08011675 7.919883245
129 110.2180361 18.78196387
86 113.4806329 -27.48063291
96 118.9182942 -22.91829421
144 120.0058265 23.99417353
139 116.7432297 22.25677031
113 133.0562136 -20.05621358
146 141.7564717 4.243528338
128 122.180891 5.819109012
115 111.3055684 3.694431609
79 91.72998772 -12.72998772
85 96.08011675 -11.08011675
120 105.8679071 14.13209291
60 79.76713286 -19.76713286
51 68.89181026 -17.89181026
Si el error es positivo significa que las muertes por cáncer pulmonar original están por debajo
de la ecuación de la línea recta y si es negativo significa que está por encima de la ecuación
de la línea recta. En ambos casos el error representa que tan alejado está el valor real del
pronosticado.
Probabilidad y Estadística
d) ¿cuál sería las muertes pronosticadas para todos los casos?

Ejemplo.

𝑌̂ = 𝛣̂ ₀ + 𝛣̂ ₁𝑋

𝑌̂ = (−2.88531) + (1.08753)(51)

𝑌̂ = 68.891

índice de muertes
Pronóstico para
por cáncer de
Y
pulmón

Y ӯ
84 80.85466512
116 146.1066007
123 124.3559555
128 99.34271353
155 123.2684232
101 108.0429716
118 117.8307619
113 98.25518127
104 92.81751998
88 108.0429716
104 96.08011675
129 110.2180361
86 113.4806329
96 118.9182942
144 120.0058265
139 116.7432297
113 133.0562136
146 141.7564717
128 122.180891
115 111.3055684
79 91.72998772
85 96.08011675
120 105.8679071
60 79.76713286
51 68.89181026
Probabilidad y Estadística
e) Interprete la pendiente y la ordenada al origen. En el caso de la Ordenada del origen.
¿Tiene sentido?

𝛣̂ ₁ = 1.087531 La pendiente es positiva, es la razón de cambio de la recta, o sea, por cada


unidad de cigarrillo fumada la mortandad por cáncer pulmonar crece un 1.08753

𝛣̂ 0 = −2.88531 La ordenada en el origen significa que cuando hay 0 cigarrillos fumados el


nivel de mortalidad por cáncer pulmonar estaba -2.88531, esto tiene un poco de sentido
suponiendo que durante un periodo de tiempo la industria tabacalera no produjera cigarrillos,
esto produciría una caída al 0% de muertes por cáncer pulmonar, y no menor a cero, además
de que existen otros factores causantes de este tipo de cáncer tales como contaminación,
exponerse a elementos radiactivos, entre otras cosas más.

f) Calcule e interprete el coeficiente de correlación (r).

∑𝑥∑𝑦
∑ 𝑥𝑦 −
𝑟= 𝑛
2 2
√∑ 𝑥 2 − (∑ 𝑥) √∑ 𝑦 2 − (∑ 𝑦)
𝑛 𝑛
(2,572)(2,725)
(288,068) −
𝑟= 25
2 2
√(271,706) − (2,572) √(313,391) − (2,725)
25 25

𝑟 = 0.716239 El grado de correlación es positivo y menor a 0.80 lo que significa que la


relación entre las variables es normal.

g) Realice el ANOVA, utilizando un nivel de confianza del 90%.

∑𝑥∑𝑦
𝑆𝐶𝑅 = 𝛣̂ ₁ (∑ 𝑥𝑦 − )
𝑛

(2,572)(2,725)
𝑆𝐶𝑅 = (1.087532) ((288,407) − )
25

𝑆𝐶𝑅 = 8,395.74704
2
(∑ 𝑦)
2
𝑆𝐶𝑇 = ∑ 𝑦 −
𝑛
(2,725)2
𝑆𝐶𝑇 = (313,391) −
25
Probabilidad y Estadística
𝑆𝐶𝑇 = 16,366

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑅

𝑆𝐶𝐸 = (16,366) − (8,395.74704)

𝑆𝐶𝐸 = 7,970.25296

𝑆𝐶𝑅
𝐶𝑀𝑅 =
1
8,395.74704
𝐶𝑀𝑅 =
1
𝐶𝑀𝑅 = 8,395.74704

𝑆𝐶𝐸
𝐶𝑀𝐸 =
𝑛−2
7,970.25296
𝐶𝑀𝐸 =
25 − 2
𝐶𝑀𝐸 = 346.5327374

𝐶𝑀𝑅
𝐹=
𝐶𝑀𝐸
8,395.74704
𝐹=
346.5327374
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑎 = 24.22786113

𝐹0.05,1,18 = 4.28

𝐻0 : 𝛣̂ ₁ = 0

𝐻𝑎 : 𝛣̂ ₁ ≠ 0

Rechazar 𝐻0 si 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑎 ≥ 𝐹0.05,1,18

Entonces como 24.2278 ≥ 4.28, se rechaza la hipótesis nula y se acepta la alterna, es decir,
sí hay relación.
Probabilidad y Estadística
Conclusión

El análisis de regresión es una técnica estadística empleada para el estudio dela relación entre
variables determinísticas o aleatorias que provienen de un proceso investigativo, el caso más
sencillo de estudio se conoce como modelo de regresión lineal simple, caracterizado porque
solo hay dos variables, una independiente y una dependiente, y la gráfica de dispersión
muestra que se relacionan por medio de una recta.

Bibliografía

*Tusell, F. (2011). Análisis de Regresión. Introducción Teórica y Práctica. 1st ed.

*Cardona Madariaga, D., González Rodríguez, J., Rivera Lozano, M. and Cárdenas Vallejo, E. (2013).
Inferencia estadística Módulo de regresión lineal simple. 1st ed.

*Support.minitab.com. (2016). ¿Qué es ANOVA? - Minitab. [online] Available at:


http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-
statistics/anova/basics/what-is-anova/ [Accessed 6 Dec. 2016].

S-ar putea să vă placă și