Sunteți pe pagina 1din 13

ESTADSTICA DESCRIPTIVA

COLABORATIVO MOMENTO 3.
Unidad 3. REGRESION Y DETERMINACION.

Aporte grupal

Presentado por:
Leonel Andrs Parada
Cdigo:
Oscar Hernando Gonzlez
Cdigo:
William Abril
Cdigo:
.
Grupo:
100105-83

TUTOR:
RUBEN EDGARDO PARDO

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA


ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERA

JUNIO DEL 2017


INTRODUCCION:

A continuacin desarrollaremos la actividad colaborativa correspondiente a la unidad nmero


3 de este curso, donde la temtica principal se refiere a REGRESION Y DETERMINACION
que aborda los subtemas:
Regresin lineal simple y regresin lineal mltiple; con el propsito de potencializar
habilidades y destrezas para caracterizar una situacin mediante el anlisis de las medidas
estadsticas bivariantes.

Veremos tambin como punto de partida para la comprensin de la temtica, la existencia


de relacin o dependencia estadstica entre las variables a estudiar, interesndonos en estimar
la forma o estructura de tal relacin y determinar la intensidad de la misma.
De esta forma haremos distinguir la teora de regresin entre la teora de la correlacin
orientndolas a su respectivos anlisis, ya que ambas estn ligadas, de manera que siempre
se har referencia a la correlacin segn una determinada estructura de dependencia entre las
variables.

Tener en cuenta que la teora de regresin trata de explicar el comportamiento de una


variable llamada dependiente, en funcin de otra u otras denominadas independientes.
Teniendo en cuenta que ser llamado simple si solo hay una variable independiente, por el
contrario ser mltiple si el nmero de variables independientes son varias.
Y en definitiva consideraremos las variables as:
Variable independiente: x.
Variable dependiente: y.
JUSTIFICACIN:

En cualquiera de los dos casos anteriores (simple o mltiple), la cuestin que se plantea es:
qu valor de la variable dependiente le corresponde a cada uno de los valores de la variable
o variables independientes?
Los procesos de planeacin, control y toma de decisiones econmicas, administrativas y
financieras se basan en resultados obtenidos mediante el anlisis estadstico de los fenmenos
en ellos involucrados. Es por ello que con los conocimientos adquiridos en la unidad 1, 2 y
ahora en esta unidad 3, podemos desarrollar los laboratorios establecidos en el entorno
prctico de una manera precisa y aplicable a nuestro ambiente laboral.
Justificamos el estudio del comportamiento de dos variables, distribuciones bivariantes, con
el fin de determinar si existe alguna relacin entre las variables, que bien pudieran ser ambas
discretas o continuas, o tambin una de ellas discreta y la otra continua.
Muchos de estos comportamientos tienen una tendencia lineal, aunque hay muchos otros que
lo hacen de forma curva, en este curso slo se trabajar sobre variables con correlacin lineal.

OBJETIVOS:
Potencializar en el estudiante habilidades y destrezas para caracterizar un situacin
mediante el anlisis de las medidas estadsticas bivariantes.
Calcular e interpretar adecuadamente las medidas estadsticas bivariantes, asociadas
a una situacin especfica.
Determinar la relacin entre dos o ms variables inscritas en una situacin especfica
a partir del anlisis de regresin lineal simple y mltiple.
Realizar el laboratorio de regresin y correlacin lineal que se encuentra en el entorno
prctico.
Descripcin de la actividad:
1.
Ingresar al Blog del curso y revisar el tutorial laboratorio de regresin y correlacin
lineal.
Realizar los ejercicios del laboratorio.
2.
Participar En el Foro Trabajo Colaborativo Momento 3 que se encuentra en el Entorno
de Aprendizaje Colaborativo.
Regresin y Correlacin lineal Simple
Identificar dos variables cuantitativas de la situacin estudiada que puedan estar
relacionadas.
Realizar el diagrama de dispersin de dichas variables y determinar el tipo de
asociacin entre las variables.
Encuentre el modelo matemtico que permite predecir el efecto de una variable sobre
la otra. Es confiable?
Determine el porcentaje de explicacin del modelo y el grado de relacin de las dos
variables.
Relacionar la informacin obtenida con el problema.
3.
Regresin y Correlacin Lineal Mltiple:
Identificar una variable cuantitativa dependiente y varias variables independientes
del estudio de investigacin.
Realizar el diagrama de dispersin de dichas variables.
Calcular la recta de regresin y el coeficiente de correlacin para probar
estadsticamente su relacin.
Relacionar la informacin obtenida con el problema.
4.
Auto-Co - Evaluacin y Entrega de trabajo.

1.
Solucin del laboratorio de regresin y correlacin lineal.
Antes de resolver el laboratorio, se realiza un aporte significativo con el fin de conocer los
conceptos ms relevantes de esta unidad.
La palabra regresin la utilizamos para significar la estimacin de una variable en funcin de
otro valor conocido, correspondiente a la otra variable.
Decimos que la mejor lnea que se ajusta a un conjunto de puntos es aquella en donde la suma
de los cuadrados de las diferencias entre los valores reales y los estimados es mnima.
Para determinar el grado de correlacin entre las variables, no basta con calcular la varianza
explicada, pues existe el coeficiente de determinacin o coeficiente de correlacin al
cuadrado; sin embargo, frecuentemente se utiliza un coeficiente de correlacin rectilneo, r
siendo este un valor entre -1 y 1.
Si el coeficiente de correlacin r es igual o menor que uno, nos indica que tanto la covarianza,
como los coeficientes angulares, son negativos y por tanto la recta ser descendente, por ser
la pendiente negativa. Adems si es igual a -1, nos indica que existe una perfecta correlacin
en otras palabras, cada valor de la variable deber ser exactamente igual al estimado, y por
tanto la varianza residual es igual a cero, y la varianza explicada igual a la varianza total.
DIAGRAMA DE DISPERSIN: Distribucin bidimensional o bivariantes que puede
representarse grficamente en un plano cartesiano, ubicando en el eje horizontal o abscisa los
valores de la primera variable denominada X y en el eje vertical u ordenada, los valores de
la segunda variable, Y.
Los puntos se ubican de forma dispersa en el plano cartesiano y pueden ser:
(a) lineal; (b) curvilnea o (c) sin relacin.

REGRESIN LINEAL SIMPLE: Mtodo que se emplea cuando se considera, despus de


una inspeccin en la grfica de dispersin, que una lnea recta es la mejor curva que se ajusta
al conjunto de puntos, es por eso que tambin se le conoce como el mtodo de los mnimos
cuadrados. La ecuacin de la recta estimada est dada por:
= +
Donde:
=Variable dependiente (la que se va a predecir).
=Intercepto de la variable Y.
=Variable independiente.
: Pendiente de la recta.
En esta ecuacin hay dos valores desconocidas: a y b, que deben determinarse aplicando el
criterio de los mnimos cuadrados:

= =
2 ( )2
Donde n = Tamao de la muestra.
CORRELACIN: se calcula con los coeficientes de correlacin, que son nmeros que
varan entre +1 y -1. Su magnitud indica el grado de asociacin entre las variables, si es 0
indica que no existe relacin alguna y los valores extremos +1 y -1 indican una correlacin
perfecta positiva o negativa respectivamente.
(a) positiva; (b) negativa:

Para determinar el coeficiente de correlacin, es necesario conocer primero el error estndar


del estimado de la recta ajustada. Se trata pues de medir el grado de confiabilidad de la
ecuacin de la recta estimada. El error estndar indicar la dispersin o la variabilidad de los
valores observados alrededor de la lnea de regresin y se calcula a partir de la siguiente
ecuacin:
2
(( ) )
=
2
Donde:
= Error estndar del estimado.
= Valores de la variable dependiente.
= Valores estimados de la ecuacin.
N = Tamao de la muestra.
Esta ecuacin implica demasiadas operaciones, por lo que suele utilizarse un mtodo ms
2
breve: = 2

Una vez obtenido el error estndar del estimado, es necesario medir qu porcentaje de la
informacin es recogida o explicada por el modelo de regresin escogido. Se trata pues, de
determinar las variaciones de la variable dependiente mediante el coeficiente de
determinacin (R2).
2
2 = 1 ( )
2
2 = Coeficiente de determinacin, 0 2 1
2 = Varianza del error estimado.
2 = Varianza de la variable dependiente Y.
2 2
2
=( ) ()

Cuando 2 es cercano a 1, se dice que el modelo de regresin lineal ajustado tiene un alto
grado de confiabilidad, si al contrario este se acerca a 0 su grado de confiabilidad es muy
bajo y se recomienda no utilizar el modelo de regresin estimado.
En la prctica es ms frecuente usar r, denominado el coeficiente de correlacin lineal.
Siendo = 2.
El coeficiente de correlacin lineal r, es tambin conocido como coeficiente de Pearson. Ya
se mencionaba que el coeficiente de correlacin lineal oscila entre +1 y -1, se puede entonces
interpretar el grado de correlacin partiendo de los siguientes lmites de referencia:

REGRESIN MLTIPLE: Cuando se emplea ms de una variable independiente para


evaluar una variable dependiente es conveniente utilizar un mtodo de regresin mltiple,
que consiste en el mismo procedimiento de una regresin lineal simple: describir la ecuacin
de regresin, determinar el error de estimacin y analizar la correlacin entre las variables.
A continuacin se desarrollarn estos conceptos suponiendo dos variables independientes.
Para ms variables independientes, slo basta con seguir los mismos pasos.
La ecuacin de regresin est dada por:
= + 1 1 + 2 2
Donde:
= Variable dependiente.
= Intercepto de la variable Y
1 , 2 = Valores de las dos variables independientes.
1 , 2 = Pendientes asociadas con cada variable independiente, respectivamente.
Los valores de las tres constantes numricas se obtienen resolviendo el siguiente sistema de
ecuaciones:

= + 1 1 + 2 2

1 = 1 + 1 1 2 + 2 1 2

2 = 2 + 1 1 2 + 2 2 2

Una vez obtenida la ecuacin de regresin, se determina el error estndar de la estimacin de


regresin mltiple:
2
(( ) ) 2 1 1 2 2
= <=>
3 3

Y el coeficiente de determinacin mltiple, estar dado por:


+ 1 1 + 2 2 2
2 =
()2 2
Donde:
= Variable dependiente.
= Intercepto de la variable Y
1 , 2 = Valores de las dos variables independientes.
1 , 2 = Pendientes asociadas con cada variable independiente, respectivamente.
= Media de los valores de la variable dependiente.
EJERCICIOS DEL LABORATORIO:
A)
X (% El rendimiento del producto de un proceso qumico est
HIDROCARBUROS) Y (PUREZA) relacionado con la temperatura de operacin del
0,99 90,01
proceso. Se desea establecer la relacin que existe entre
1,02 89,05
1,15 91,43 la pureza (y) del oxgeno producido y el porcentaje de
1,29 93,74 hidrocarburo (x) que est presente en el condensador
1,46 96,73
principal en un proceso de destilacin, de acuerdo con
1,36 94,45
0,87 87,59 los siguientes datos:
1,23 91,77 a. Realice el diagrama de dispersin y determine el
1,55 99,42 tipo de asociacin entre las variables.
1,4 93,65
b. Encuentre el modelo matemtico que permite
1,19 93,54
1,15 92,52 predecir el efecto de una variable sobre la otra. Es
0,98 90,56 confiable?
1,01 89,54 c. Determine el porcentaje de explicacin del
1,11 89,85
1,2 modelo y el grado de relacin de las dos variables.
90,39
1,26 93,25 d. Cul es el porcentaje de hidrocarburo cuando
1,32 93,41 la pureza del oxgeno es igual a 91,3?
1,43 94,98
0,95 87,33
DESARROLLO:
Diagrama de dispersin: la tendencia de la asociacin es lineal positiva (Ascendente)

calidad del oxigeno producido en un proceso de


destilacin .
102
100
pureza de oxigeno

98 y = 14,947x + 74,283
96 R = 0,8774
94
92
90
88
86
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8
(%) hidrocarburo.
Modelo matemtico: y = 14,947x + 74,283.
Se puede confiar en l!
Anlisis:
Con los resultados obtenidos se puede asegurar que la ecuacin de la recta es una muy buena
estimacin de la relacin entre las dos variables. El 2 afirma adems que el modelo explica
el 87.74 % de la informacin y el valor de r coeficiente de correlacin lineal confirma adems
que es excelente el grado de relacin (93,66 %) entre las variables: Pureza (y) del oxgeno
producido y el porcentaje de hidrocarburo (x).
y = 14,947x + 74,283, con base a esto resolvemos el punto d.
91,3 = 14,947x + 74,283
91,3 74,283 = 14,947x
17,017 = 14,947x
0,9377 = x El porcentaje de hidrocarburo es 0,937 %.

2. El nmero de libras de vapor (y) consumidas mensualmente por una planta qumica,
se relaciona con la temperatura ambiental promedio (en F). Para el ao 2014, se registraron
los siguientes valores de temperatura y consumo anual.
a. Realice el diagrama de dispersin y determine el tipo de
asociacin entre las variables.
b. Ajuste un modelo matemtico que permita predecir el
efecto de una variable sobre la otra. Es confiable?
c. Determine el porcentaje de explicacin del modelo y el
grado de relacin de las dos variables.
d. Cul es el consumo de vapor cuando la temperatura es
de 70 F?

DESARROLLO:
Diagrama de dispersin: la tendencia de la asociacin es lineal positiva (Ascendente)
Modelo matemtico: y = 9,2087x - 6,3184 R = 0,9999
Se puede confiar en l!

Anlisis:
Con los resultados obtenidos se puede asegurar que la ecuacin de la recta es una excelente
y casi perfecta estimacin de la relacin entre las dos variables. El 2 afirma adems que el
modelo explica el 99,99 % de la informacin y el valor de r coeficiente de correlacin lineal
confirma adems que es excelente el grado de relacin (99,99%) entre las variables: Libras
de vapor (y) consumidas mensualmente por una planta qumica y la temperatura ambiental
promedio (en F).

y = 9,2087x - 6,3184, con base a esto resolvemos el punto d.


y = [9,2087* (70)] - 6,3184
y = 638,29 libras es el consumo de vapor.

3. Los investigadores estn estudiando la correlacin entre la obesidad y la respuesta


individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (x). La respuesta
al dolor se mide utilizando el umbral de reflejo de reflexin nociceptiva (y) que es una medida
de sensacin de punzada. Obsrvese que ambas, X e Y, son variables aleatorias.
a. Realice el diagrama de dispersin y determine el
X= SOBREPESO (%) Y tipo de asociacin entre las variables.
89 2 b. Ajuste un modelo matemtico que permita
90 3 predecir el efecto de una variable sobre la otra. Es
75 4 confiable?
30 4,5
c. Determine el porcentaje de explicacin del
51 5,5
75 7 modelo y el grado de relacin de las dos variables.
62 9 d. Cul es el umbral de reflejo de flexin
45 13 nociceptiva, cuando hay un porcentaje de sobrepeso,
90 15
de 40?
20 14
DESARROLLO:

Diagrama de dispersin: la tendencia de la asociacin no es lineal y es Negativa


(descendente)

Modelo matemtico: y = -0,0629x + 11,642 R = 0,1115


No se puede confiar en l!
Ya que R se acerca a 0 su grado de confiabilidad es muy bajo y se recomienda no
utilizar el modelo de regresin estimado.

Anlisis:
R = 0,1115 r = 0,3339
Con los resultados obtenidos se puede asegurar que la ecuacin de la recta es una mnima
estimacin de la relacin entre las dos variables hacindola poca confiable. El 2 afirma
adems que el modelo explica el 11,15 % de la informacin y segn la tabla anterior el valor
de r coeficiente de correlacin lineal confirma adems que est en el grado ms mnimo de
relacin (33,39%) entre las variables: Porcentaje sobre el peso ideal (x) y el umbral de reflejo
de reflexin nociceptiva (y).

y = -0,0629x + 11,642, con base a esto resolvemos el punto d.


y = [- 0,0629 *(40)] + 11,642
y = 9,126.
9,126 es el umbral de reflejo de flexin nociceptiva

S-ar putea să vă placă și