Documente Academic
Documente Profesional
Documente Cultură
ESTADISTICA
INVESTIGACIN
Nombre del alumno: Erick Toto Cobaxin
Docente: Tonatiuh Sosme Sanchez
Ingeniera Electromecnica
2 semestre
202 B
Investigacin:
-Unidad 5. Regresin y correlacin
1
INDICE
IntroduccinPg.3
5.4. Correlacin...Pg.9
de correlacin y de determinacin.Pg.12
Coeficiente de correlacin.Pg.19
Conclusin..Pg.27
Bibliografa..Pg.28
2
Introduccin
El uso de la regresin lineal simple es muy utilizado para observar el tipo de relacin que
existe entre dos variables y poder llevar a cabo la toma de decisiones correspondiente
dependiendo de la relacin de la relacin entre dichas variables, asi por ejemplo, pudiera
darse el caso en el que despus de aplicar la regresin lineal no exista relacin entre las
variables involucradas y en consecuencia la decisin podra ser buscar cual es la variable
independiente que tiene influencia sobre la dependiente y volver a realizar el estudio
completo; pero si fuera el caso en el cual si existiera una relacin positiva entre las variables
involucradas, la obtencin del coeficiente de correlacin nos dara ms informacin sobre
el porcentaje de relacin existente y pudiendo determinar si es necesario la inclusin de
otra variable independiente en el problema mismo, para lo cual el anlisis de regresin ya
seria del tipo mltiple.
3
5.1. Control de calidad
El control y mejora de los procesos se enfoca hacia la prevencin (no producir defecto) y,
por lo tanto, los gastos que implica su implantacin ms que un costo son una buena
inversin.
Es una metodologa para planificar y determinar cundo un proceso est fuera de control.
Tiene como objetivo mejorar los procesos operativos de una organizacin, basndose en
tcnicas estadsticas, la cual permite establecer criterios para medir, detectar y corregir
variaciones en el proceso que puedan afectar a la calidad del producto o servicio final. Estas
mejoras en los procesos operativos de una organizacin son:
4
5.2. Diagrama de dispersin.
El estudio puede ampliarse para incluir una medida cuantitativa de tal relacin.
Paso 1.- Recolectar n parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3,n donde
Xi y Yi representan los valores respectivos de las dos variables. Los datos se suelen
representar en una tabla.
Paso 3.- Graficar las parejas de datos. Si hay puntos repetidos, se mostrarn como
crculos concntricos.
5
Paso 4.- Documentar el diagrama.
La lectura se hace en base al tipo de relacin entre los datos; lo fuerte o dbil de la
relacin, la forma de la relacin y la posible presencia de punto anmalos.
Pero se ganar conocimiento de este ltimo al estudiar las causas por las que se
presentaron los puntos.
6
El Coeficiente de Relacin Lineal.
El valor del Coeficiente de Correlacin lineal de Pearson (r) proporciona una medida
del grado de relacin entre dos variables y se calcula mediante la expresin:
Donde:
S (xx) = Xi (Xi) / n
S (yy) = Yi (Yi) / n
|r| = < 1
7
5.3. Regresin lineal simple.
buscar, en una familia fija de funciones, aquella para la que los se encuentran
8
Hablamos entonces de regresin en el sentido de los mnimos cuadrados. Las
diferencias entre los valores observados y los valores que predice el modelo
los residuos sea centrada (de media nula), entonces el error cuadrtico es
caractersticas de e .
5.4. Correlacin.
Para poder entender esta relacin tendremos que analizarlo en forma grfica:
edad peso
15 60
30 75
18 67
42 80
31 92
9
Donde los puntos representan cada uno de los pares ordenados y la lnea podra
ser una recta que represente la tendencia de los datos, que en otras palabras podra
decirse que se observa que a mayor edad mayor peso.
n n n En donde:
n xi y i xi * y i
r i 1 i 1 i 1
R = coeficiente de correlacin
n 2 n n 2 n
2
2
n xi xi n y i y i N = nmero de pares
i 1 i 1 i 1 i 1
ordenados
X = variable independiente
Y = variable independiente
10
n n n
n x y x * y
i 1 i i i 1 i i 1 i 7 * 13483 (183 * 499)
r 0.65638606
n n n 2 n 2
2 7 * 5319 (183)2 7 * 36403 ( 499)2
n x x n y y
2
i 1 i i 1 i i 1 i i 1 i
Ejemplo:
n n n
n x y x * y
i 1 i i i 1 i i 1 i 7 * 13483 (183 * 499)
r 0.65638606
n 2 n 2 7 * 5319 (183)2 7 * 36403 ( 499)2
n n
n x 2 x n y 2 y
i 1 i i 1 i i 1 i i 1 i
En nuestro ejemplo decimos que la correlacin es casi perfecta, ya que, est muy
cerca de 1 y que el porcentaje de datos que explican a y es (0.65638606) 2=
0.430842 o sea el 43.08 %
11
En el caso de que fueran datos agrupados tendremos lo siguiente:
Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos
juntando dos tablas de distribucin de frecuencias y por ello nuestros clculos sern
ms laboriosos, por lo que les recomiendo el uso de una hoja de clculo o al menos
una calculadora con regresin para datos agrupados.
k l l k
n f xi y i fx xi * fy y i En donde podemos
j 1 i 1 i 1 i 1
r encontrar k como el
l l
2
k k
2
n f x
x i x i y i y i
2
f x n f y 2
f y nmero de clases para la
i 1 i 1 i 1 i 1
variable "y" y l para el
nmero de clases de "x".
Tambin podemos observar que hay varios tipos de "f" es decir, la que se encuentra
sola (sin subndice) que nos habla de las frecuencias celdares (cada una de las
frecuencias que se encuentran en la interseccin entre una columna y un rengln)
y las "f" con subndices que representan las frecuencias de cada una de las
variables.
12
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin lineal
que hay entre ambas variables es el coeficiente de correlacin definido por
Por tanto, r . Este coeficiente es una buena medida de la bondad del ajuste
de la recta de regresin. Evidentemente, existe una estrecha relacin entre r y 1
13
r = 0 indica la no existencia de relacin lineal estocstica, pero no indica
independencia de las variables ya que puede existir una relacin no lineal incluso
exacta,
valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una relacin
lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el valor de r.
Para poder interpretar con mayor facilidad el coeficiente de correlacin muestral se
exponen varias nubes de observaciones y el ajuste lineal obtenido:
Figura 6.7. Existe una dependencia funcional lineal, las observaciones estn sobre
la recta de regresin. r = R2 = 1, recta de regresin: y = x.
La relacin lineal entre las variables es muy pequea y no parece que exista otro
tipo de relacin entre ellas, la nube de puntos indica que las variables son casi
independientes.
r = 0'192, R2 = 0'037, recta de regresin: y = 6'317 + 0'086x.
Contraste de regresin: R = 0'687 F1,18 p - valor = 0'418. Se acepta la no
influencia de la variable regresora en Y.
14
Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por
tanto la correlacin es muy pequea
r = 0'391, R2 = 0'153, recta de regresin: y = 32'534 - 1'889x.
Contraste de regresin: R = 3'252 F1,18 p-valor = 0'088. Se acepta que no existe
relacin lineal con = 0'05. En base a la Figura 6.6. se debe de hacer un ajuste del
tipo parablico Y = + 2
0 1x + 2x .
15
Contraste de regresin: R = 12'522 F1,18 p - valor = 0'002. Se rechaza la no
influencia lineal de la variable x.
Existe una fuerte dependencia lineal negativa entre las dos variables y la correlacin
es muy alta (prxima a 1).
r = 0'924, R2 = 0'846, recta de regresin: y = -2'528 - 2'267x
Contraste de regresin: R = 105'193 F1,18 p - valor = 0'000. Se acepta la
existencia de una relacin lineal.
16
5.6. Distribucin normal bidimensional.
Propiedades:
Si mX y mY son cero sX y sY son 1 y r es cero entonces la distribucin se
denomina normal bidimensional estndar, y su funcin de densidad es
17
Entonces la variable aleatoria (U,V) tambin sigue una distribucin normal
bidimensional , donde
18
5.7. Intervalos de confianza y pruebas para el coeficiente de
correlacin.
El coeciente de correlacin es una de las medidas estadsticas ms usadas dentro
del trabajo aplicado. Algunas de sus propiedades fueron estudiadas por Zheng &
Matiz (1994), donde presentan y demuestran las que consideron las ms
destacadas:
1. |R| 1. 2. Si|R| = 1 entonces los pares (x1,y1),(x2,y2),...,(xn,yn) yacen en una
lnea recta.
3. Recprocamente, si los (x1,y1),(x2,y2),...,(xn,yn) yacen en una lnea recta,
entonces |R| = 1.
Debido a su amplia utilizacin, varias son sus interpretaciones. Falk & Well (1997)
sustentan que el coeciente de correlacin de Pearson, , es ampliamente usado
en campos como la educacin, psicologa, y todas las ciencias sociales, y el
concepto es empleado en diversas metodologas de tipo estadstico.
La estimacin del coeciente de correlacin por medio de intervalos es importante,
y para ello se disponen de diversos mtodos. La metodologa quiz ms conocida
es la propuesta originalmente por Fisher en la cual se realiza una transformacin
del coeciente de correlacin muestral, r, y asumiendo normalidad asinttica, se
desarrolla un intervalo para el coeciente de correlacin poblacional
(Krishnamoorthy & Xia 2007). Tambin se conocen transformaciones adicionales
hechas por Hotelling (1953) a la propuesta inicial de Fisher.
El problema para el analista es la carencia de reglas sobre cul frmula es
preferible. Para esto se pretende realizar un estudio de simulacin que permita
analizar el comportamiento de los niveles de conanza reales y compararlos con los
tericos para los diversos intervalos disponibles. As como tambin, hacer una
comparacin de las longitudes del intervalo obtenido por las diferentes
metodologas y la implementacin de un indicador que permita relacionar los dos
criterios de evaluacin anteriormente mencionados.
Algunas de las metodologas empleadas para la construccin de los intervalos de
conanza pueden encontrarse en Fisher (1921), Hotelling (1953), Pawitan (2001),
Efron (1979) y Krishnamoorthy & Xia (2007).
19
Adems, en Krishnamoorthy & Xia (2007) se pueden encontrar los resultados de
estudios comparativos realizados previamente para tres mtodos de construccin
de intervalos, en los cuales la metodologa consisti en la obtencin de lmites
superiores para bajo diferentes escenarios: Tamaos de muestra pequeos (n=5,
n=10, n=20 y n=30) y valores de r positivos; y el clculo de la probabilidad P(R
r|n,U). Estos estudios mostraron que, en particular, el mejor mtodo para construir
intervalos unilaterales para en muestras pequeas es el de pivote
Tipos de errores
El estudio a fondo de la teora de errores excede los alcances de este artculo y por
lo tanto no se efectuar. Si bin no es fcil realizar una clasificacin estricta, en los
prrafos siguientes se presentar la clasificacin clsica de los errores.
20
1 - Errores groseros
2 - Errores sistemticos
En virtud de las causas que originan este tipo de error, es conveniente realizar una
subdivisin de los errores sistemticos:
21
A continuacin se analizarn cada uno de ellos:
Estos errores repetitivos pueden ser medidos en mdulo y signo a travs del
contraste, que es un ensayo consistente en comparar simultneamente la indicacin
del instrumento con la indicacin de un instrumento patrn de la ms alta calidad
metrolgica (cuya indicacin representa el valor verdadero convencional).
Para corregir estos errores deben determinarse las caractersticas elctricas de los
instrumentos (resistencia, inductancia y capacidad). En algunos casos es posible el
uso de sistemas de compensacin, de forma tal de auto eliminar el efecto
22
perturbador. Por ejemplo, en el caso del wattmetro compensado, que posee un
arrollamiento auxiliar que contrarresta la medicin del consumo propio.
Por otra parte, la mejora tecnolgica de las aleaciones utilizadas ha reducido mucho
los efectos debidos a la accin de la temperatura ambiente.
Por ejemplo, al medir tiempos un determinado observador registra los mismos con
adelanto o retraso con respecto a otro observador.
23
3 - Errores aleatorios
Por ello, una caracterstica general de los errores aleatorios es que no se repiten
siempre en el mismo valor y sentido.
En virtud de las causas que originan este tipo de error, es conveniente realizar una
subdivisin de los errores aleatorios:
24
Muchas veces la compleja superposicin de los efectos de las distintas magnitudes
de influencia no permiten el conocimiento exacto de la ley matemtica de variacin
del conjunto, por ser de difcil separacin. De esta manera, no puede predecirse el
error ni realizarse las correcciones debidas, convirtindose en un error aleatorio.
La magnitud de este error es tpicamente subjetiva, pues hay personas que tienen
una visin mejor o peor que la normal.
Para disminuir este tipo de error se puede recurrir al uso de lentes de aumento en
las lecturas.
25
En los instrumentos provistos con una indicacin digital, la representacin de la
magnitud medida est limitada a un nmero reducido de dgitos.
Por lo tanto, en tales instrumentos no pueden apreciarse unidades menores que la
del ltimo dgito del visor (o display), lo que da lugar a un error por el truncamiento
de los valores no representados.
La magnitud mxima de este tipo de error depender del tipo de redondeo que tenga
el instrumento digital, siendo el 50 % del valor del ltimo dgito representado para el
caso de redondeo simtrico y el 100 % para el caso del redondeo asimtrico.
26
Conclusin.
27
Bibliografas
https://control-estadistico-de-la-calidad.wikispaces.com/CAPITULO+1
http://spcgroup.com.mx/diagrama-de-dispersion/
http://ljk.imag.fr/membres/Bernard.Ycart/emel/cours/sd/node14.html
https://explorable.com/es/la-correlacion-estadistica
http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
http://www5.uva.es/estadmed/probvar/d_multivar/dnvar7.htm
http://revistas.usta.edu.co/index.php/estadistica/article/viewFile/1100/1335
http://erroresmedicion.blogspot.mx/
28