Documente Academic
Documente Profesional
Documente Cultură
En muchas aplicaciones estadísticas, se deben resolver problemas que contienen un conjunto de variables y
que se sabe existe alguna asociación entre ellas. En este conjunto de variables se tiene una sola variable
dependiente (o respuesta) 𝑌, que depende de una o más variables independientes (o de regresión)
𝑋1 , 𝑋2 , 𝑋3 , ⋯ 𝑋𝑛 como por ejemplo:
Existen dos formas distintas pero relacionadas con el estudio de la asociación entre variables a partir de
una muestra aleatoria.
La primera, es determinar una relación funcional de la variable dependiente Y con respecto a una o mas
variables independientes con el fin de predecir estos valores de Y. Este método es el análisis de Regresión.
La segunda forma de estudio de la asociación entre las variables es medir el grado de relación entre ellas,
mediante un coeficiente o índice (r). A esta técnica se denomina análisis de Correlación.
Los métodos de regresión y correlación entre variables se clasifican por el número de variables
independientes.
El análisis de asociación se denomina simple, si hay una sola variable independiente, si hay dos o mas
variables independientes, el análisis de asociación se denomina Múltiple.
Por el tipo de función matemática que se puede ajustar a los datos, la asociación de las variables puede ser
lineal o no lineal (como: parabólica, exponencial, logarítmica, etc.)
LINEAL
SIMPLE (𝑿, 𝒀)
NO LINEAL
ANÁLISIS DE REGRESIÓN
(Exponencial,
Busca determinar una
relación funcional entre las
variables, con el objetivo de MULTIPLE
(𝑋1 , 𝑋2 , 𝑋3 , ⋯ 𝑋𝑛 ; 𝑌)
SIMPLE(𝑿, 𝒀)
ASOCIACIÓN
El primer paso en el análisis de regresión es construir una gráfica de los datos muéstrales en el plano
cartesiano XY. Esta gráfica es denominada diagrama de dispersión, donde en el eje X se encuentran la
variable independiente, en el eje Y se encuentra la variable dependiente. El Diagrama de Dispersión indica
el tipo de tendencia de Y con respecto a X. si la tendencia es lineal se puede ajustar una línea recta al
diagrama de dispersión. Algunos tipos de diagrama de dispersión son:
Existe una relación lineal Existe una relación lineal Existe una relación no lineal No existe ninguna
positiva entre las dos entre las dos variables 𝑋, 𝑌. relación entre las dos
negativa entre las dos variables
variables 𝑋, 𝑌. también se le 𝑋, 𝑌. También se le conoce variables estudiadas
conoce como relación como relación inversa o
directa o tendencia tendencia decreciente.
creciente.
El problema de ajustar una curva a una serie de datos consiste en primer término determinar la familia de
curvas que mejor escribe el fenómeno (diagrama de dispersión). Posteriormente realizada esta decisión se
procederá a encontrar los parámetros de la curva correspondiente. Consideremos una variable
dependiente (o respuesta) 𝒀 con una sola variable independiente (o variable independiente) 𝑿. La
regresión lineal simple es la función lineal por medio del cual se desea saber el grado de dependencia de
dos variables, es decir en que grado las variaciones de una característica provocan variaciones en la
magnitud de la otra variable. El modelo matemático es:
𝑌̂𝑖 = 𝑎 + 𝑏𝑋𝑖
Los estimadores de los parámetros son calculados a través de una muestra aleatoria(𝑋𝑖 , 𝑌𝑖 ) de tamaño n,
utilizando el método de mínimos cuadrados, el cual consiste en minimizar la suma de cuadrados de los
errores 𝜉𝑖 = 𝑌𝑖 − 𝑌̂𝑖 . Las fórmulas resultado de la minimización de lo cuadrados del error cumplen los
siguientes supuestos:
𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌 ∑𝑌 ∑𝑋
𝑏= 𝑎= −𝑏 = 𝑌̅ − 𝑏𝑋̅
𝑛 ∑ 𝑋 2 − (∑ 𝑋)2 𝑛 𝑛
El valor (a) de la ecuación de regresión es la ordenada en el origen es decir el punto en que la recta se
intercepta con el eje 𝑌.
El valor (b) es el cambio promedio en 𝑌 cuando 𝑋 cambia una unidad de medición.
Si 𝒃 > 0 entonces, la tendencia es Lineal Creciente, es decir a mayores valores de 𝑋 corresponden mayores
valores de 𝑌, también a menores valores de 𝑋 corresponden menores valores de 𝑌.
Si 𝒃 < 0 entonces, la tendencia es Lineal Decreciente, es decir a mayores valores de 𝑋 corresponden menores
valores de 𝑌, también a menores valores de 𝑋 corresponden mayores valores de 𝑌.
Si 𝒃 = 𝟎 entonces, 𝑌 = 𝒂 luego 𝑌 permanece estacionario para cualquier valor de 𝑋, es decir no hay
regresión.
Una vez hallada la línea recta de regresión, nos interesa saber su utilidad, La utilidad principal es predecir
valores de 𝑌 para determinados valores de 𝑋. Si se hace una predicción nos interesa saber, que tan buena o
confiable es esa predicción. La respuesta a esta pregunta depende de la variabilidad de los valores de 𝑌 con
respecto a la recta de regresión. Una medida que indica el grado de variabilidad o dispersión en torno a la línea
de regresión es la Varianza de la regresión, para su cálculo se utiliza la siguiente expresión:
∑ 𝑌 2 − 𝑎 ∑ 𝑌 − 𝑏 ∑ 𝑋𝑌
𝑺𝟐𝒙𝒚 =
𝒏−𝟐
La raíz cuadrada de la Varianza es la desviación estándar de la regresión. Este valor también se le conoce como
error estándar de estimación.
Interpretación: cuanto mas pequeño sea la Varianza o desviación estándar, más cercanos a la línea de
regresión estarán los valores de la variable 𝑌.
ANÁLISIS DE CORRELACIÓN
El análisis de correlación emplea métodos para medir la significación del grado o intensidad de asociación
entre dos o más variables. El concepto de correlación está estrechamente vinculado al concepto de regresión.
El coeficiente de correlación lineal de Pearson mide la asociación entre las variables X e Y, para su cálculo se
utiliza la siguiente relación:
∑ 𝑋𝑌 − 𝑛 ( 𝑋̅ )( 𝑌̅ )
𝑟=
√∑ 𝑋 2 − 𝑛( 𝑋̅ )2 √∑ 𝑌 2 − 𝑛( 𝑌̅ )2
Interpretación:
COEFICIENTE DE DETERMINACION ( 𝑹𝟐 )
Es la variación explicada por la recta de regresión, es decir en que porcentaje la variable independiente X
explica la variabilidad en la variable dependiente (o respuesta) Y. para su cálculo se utiliza la siguiente relación:
𝑅 2 = 𝑟 2 ∗ 100%
VARIBLE
DEPENDIENTE
Y
EJEMPLO
Los siguientes datos muestran la relación entre la producción de un determinado artículo y su correspondiente
costo unitario.
Producción (miles) 2 4 8 12 14 18 16 10
Costo Unitario (soles) 15 12 9 6 5 2 5 8
a) Realizar el diagrama de dispersión para estos datos y analizar la tendencia.
b) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la cantidad de producción y
el correspondiente costo unitario, interprete el coeficiente de regresión.
c) Graficar la recta de regresión en el diagrama de dispersión.
d) Estimar cuanto será el costo unitario para una producción de 11 mil unidades
e) Estimar cuanto se producirá si el costo unitario es de 5 soles.
f) Hallar la varianza residual.
g) Determinar el coeficiente de correlación, interprete.
h) Hallar el coeficiente de determinación, interprete.
Tendencia:____________________________________________________________________
b) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la cantidad de
producción y el correspondiente costo unitario, interprete el coeficiente de regresión.
n n n
n X i Yi X i Yi
b i 1 i 1 i 1
2
n
n
n X X i
2
i 1
i
I 1
𝑎 = 𝑌̅ − 𝑏𝑋̅
Interpretacion:______________________________________________________________________________
_________________________________________________________________
Si x = y=
x= y=
d) Estimar cuanto será el costo unitario para una producción de 11 mil unidades
Como x =
y= y=
Rpta:___________________________________________________________________
x=
Rpta:___________________________________________________________________
∑ 𝑌 2 − 𝑎 ∑ 𝑌 − 𝑏 ∑ 𝑋𝑌
𝑺𝟐𝒙𝒚 =
𝒏−𝟐
g) Coeficiente de correlación
∑ 𝑋𝑌 − 𝑛 ( 𝑋̅ )( 𝑌̅ )
𝑟=
√∑ 𝑋 2 − 𝑛( 𝑋̅ )2 √∑ 𝑌 2 − 𝑛( 𝑌̅ )2
Interpretacion:______________________________________________________________________________
_________________________________________________________________
h) Coeficiente de determinación R2 =
Interpretacion:______________________________________________________________________________
___________________________________________________________
El objetivo del análisis de la regresión lineal es analizar un modelo que pretende explicar el comportamiento
de una variable (Variable endógena, explicada o dependiente), que denotaremos por Y, utilizando la
información proporcionada por los valores tomados por un conjunto de variables (explicativas, exógenas o
independientes), que denotaremos por X1 , X2 , ....., X n
Las variables del modelo de regresión deben ser cuantitativas. Pero es frecuente encontrar incluidas en el
modelo como variables independientes a variables ordinales e incluso nominales transformadas en variables
ficticias. Pero la variable dependiente debe ser cuantitativa. Para una variable dependiente binaria se emplea
la regresión logística. El modelo lineal viene dado por la ecuación lineal:
Y = b0 + b1 X1 + b2 X2 + ... + b k X k + ei
Los coeficientes (parámetros) b1 , b2 , ... , b k denotan la magnitud del efecto de las variables explicativas
(exógenas o independientes), esto es, representan los pesos de la regresión o de la combinación lineal de las
predictorasX1 , X2 , ... X k sobre la variable explicada (endógena o dependiente) Y. El coeficiente b0 se
denomina término constante (o independiente) del modelo. Y al término e i se le llama término de error del
modelo o componente de Y no explicada por las variables predictoras.
El problema fundamental que se aborda es el siguiente: suponiendo que la relación entre la variable Y y el
conjunto de variables X1 , X2 , ... X k es como se ha descrito en el modelo, y que se dispone de un conjunto de
n observaciones para cada una de las variables se asignarse valores numéricos a los parámetros b0 , b1 , b2 , ...
b k basándonos en la información muestral.
Estos valores son la estimación de los parámetros llamados coeficientes de regresión. Representan las
unidades de cambio en la variable dependiente por unidad de cambio en la variable independiente
correspondiente. Una vez encontradas las estimaciones de los parámetros del modelo, podremos hacer
predicciones sobre el comportamiento de la variable Y en la población.
En la práctica deberemos de elegir cuidadosamente qué variables vamos a considerar como explicativas.
Algunos criterios que deben de cumplir serán los siguientes:
Tener sentido numérico.
No deberá de haber variables repetidas o redundantes
Las variables introducidas en el modelo deberán de tener una cierta justificación teórica.
La relación entre variables explicativas en el modelo y casos debe de ser como mínimo de 1 a 10.
La relación de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.
Y = b0 + b1 X1 + b2 X2
Para poder resolver y obtener b0, b1 y b2 en una ecuación de regresión múltiple el cálculo se presenta muy
tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:
∑ 𝑦 = 𝑛𝑏0 + 𝑏1 ∑ 𝑥1 + 𝑏2 ∑ 𝑥2
∑ 𝑥1 𝑦 = 𝑏0 ∑ 𝑥1 + 𝑏1 ∑ 𝑥12 + 𝑏2 ∑ 𝑥1 𝑥2
∑ 𝑥2 𝑦 = 𝑏0 ∑ 𝑥2 + 𝑏1 ∑ 𝑥1 𝑥2 + 𝑏2 ∑ 𝑥22
Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del
plano de regresión se hace más pequeño. Para medirla se utiliza la fórmula:
n : Número de datos
EJEMPLO
Y X1 X2
45 10 8
40 9 8
38 8 6
35 7 6
32 7 5
30 6 4
28 6 3
27 4 2
25 3 2
22 2 1
a) Determinar la ecuación de regresión muestral de los gastos mensuales con respecto a las dos variables :
ingreso mensual y número de hijos
b) Estime el gasto mensual para una familia de 8 hijos y cuyo ingreso mensual es de 7000 soles.
PRUEBAS CHI-CUADRADO
Las pruebas chi-cuadrado son un grupo de contrastes de hipótesis que sirven para comprobar afirmaciones
acerca de las funciones de probabilidad (o densidad) de una o dos variables aleatorias. Estas pruebas no
pertenecen propiamente a la estadística paramétrica pues no establecen suposiciones restrictivas en
cuanto al tipo de variables que admiten, ni en lo que refiere a su distribución de probabilidad ni en los
valores y/o el conocimiento de sus parámetros. Se aplican en las siguientes situaciones básicas:
a) Cuando queremos comprobar si una variable, cuya descripción parece adecuada, tiene una
determinada función de probabilidad. La prueba correspondiente se llama chi-cuadrado de ajuste.
b) Cuando queremos averiguar si dos variables (o dos vías de clasificación) son independientes
estadísticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado de independencia o chi-
cuadrado de contingencia
c) Cuando queremos averiguar si dos variables (o dos vías de clasificación) son homogéneas
estadísticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado de homogeneidad.
CHI-CUADRADO DE AJUSTE
En una prueba de ajuste la hipótesis nula establece que una variable X tiene una cierta distribución de
probabilidad con unos determinados valores de los parámetros. El tipo de distribución se determina, según
los casos, en función de: La propia definición de la variable, consideraciones teóricas al margen de esta y/o
evidencia aportada por datos anteriores al experimento actual.
(𝒐𝒊 −𝒆𝒊 )𝟐
𝝀𝟐 = ∑𝒌𝒊=𝟏 ,
𝒆𝒊
oi: frecuencia observada (corresponde a los datos de la muestra)cantidad de observaciones en cada clase
ei = pi*n, i = 1, 2, ..., k, Con el modelo especificado se puede calcular la probabilidad pi que un dato cualquiera pertenezca a una
clase i
4. Región critica
5. Conclusión
EJEMPLO:
Se ha tomado una muestra aleatoria de 40 baterias y se ha registrado su duracion en años. Estos resultados
se los ha agrupado en 7 clases en el siguiente cuadro
Verificar con 5% de significacion aque la duracion en aqños de las baaterias producidas por este fabricante
tiene duracion distribuidad normalmente con media 3.5 y desviacion estandar 0.7
SOLUCION:
1.- Planteamiento de hipótesis
(𝒐𝒊 −𝒆𝒊 )𝟐
3.- Estadístico de prueba 𝝀𝟐 = ∑𝒌𝒊=𝟏
𝒆𝒊
Clase Frec.
i pi ei=n*pi
(duración) Obs.(oi)
1 1.45-1.95 2 0,0119 0,476 =0,5
2 1.95-2.45 1 0,0532 2,128=2,1
3 2.45-2.95 4 0,148 5,92=5,9
4 2.95-3.45 15 0,2573 10,292=10,3
5 3.45-3.95 10 0,2668 10,672=10,7
6 3.95-4.45 5 0,1742 6,968= 7
7 4.45-4.95 3 0,0865 3,4615=3,5
TOTAL 40 40
Clase Frec.
i ei=n*pi
(duracion) Obs.(oi)
1 1.45-2.95 7 8,5
2 2.95-3.45 15 10,3
3 3.45-3.95 10 10,7
4 3.95-4.95 8 10,5
TOTAL 40 40
𝒌
𝟐
(𝒐𝒊 − 𝒆𝒊 )𝟐
𝝀 =∑
𝒆𝒊
𝒊=𝟏
Región de rechazo
Región de aceptación
𝝀𝟐 =7,82
v=k-r-1 entonces v=4-0-1
5.- Conclusión
Como el valor del estadístico de prueba le pertenece a la región de aceptación se acepta la hipótesis nula y
se rechaza la hipótesis alterna. Por lo tanto la población se ajusta a una distribución normal
La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos
variables aleatorias, X e Y.
En muchas ocasiones, losn elementos de una muestra tomada de una población pueden clasificarse con dos
criterios diferentes. Por tanto, es interesante saber si los dos métodos de clasificación son estadísticamente
independientes. Supóngase que el primer método de clasificación tiene r niveles y que el segundo tiene c
niveles. O sea Oij la frecuencia observada para el nivel i del primer método de clasificación y el nivel j del
segundo método de clasificación. En general, los datos aparecerán como se muestra en la siguientetabla.
Una tabla de este tipo usualmente se conoce como tabla de contingenciar x c.
Hipótesis alternativa: X e Y no son independientes (No importa cuál sea la relación que mantengan
ni el grado de esta.
2. Nivel de significación
3. Estadístico de prueba
𝑟 𝑐 2
2
(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )
𝜆 = ∑∑
𝐸𝑖𝑗
𝑖=1 𝑗=1
𝐶 𝑟
1
𝐸𝑖𝑗 = ∑ 𝑂𝑖𝑗 ∑ 𝑂𝑖𝑗
𝑛
𝑗=1 𝑖=1
Además el estadístico de prueba tiene una distribución aproximada ji-cuadrada con (r-1)*(c-1) grados de
libertad si la hipótesis nula es verdadera. Por consiguiente, la hipótesis de independencia debe rechazarse
si el valor del estadístico de prueba 𝜆2 calculado es mayor que 𝜆2 crítico o de tabla.
4. Región critica
5. Conclusión
EJEMPLO:
Una asociación de profesores universitarios quiere determinar si la satisfacción en el trabajo es
independiente del rango académico. Para ello realizó un estudio nacional entre los académicos
universitarios y encontró los resultados mostrados en la siguiente tabla. Con un nivel de significación del 5%
haga una prueba para saber si son dependientes la satisfacción en el trabajo y el rango.
2
(𝑂𝑖𝑗 −𝐸𝑖𝑗 ) 1
𝜆2 = ∑𝑟𝑖=1 ∑𝑐𝑗=1 𝐸𝑖𝑗
con 𝐸𝑖𝑗 = 𝑛 ∑𝐶𝑗=1 𝑂𝑖𝑗 ∑𝑟𝑖=1 𝑂𝑖𝑗
PROFESOR PROFESOR
INSTRUCTOR PROFESOR TOTAL
ASISTENTE ASOCIACO
MUCHA 40 60 52 63 215
REGULAR 78 87 82 88 335
POCA 57 63 66 64 250
TOTAL 175 210 200 215 800
47,03 56,44 53,75 57,78
73,28 87,94 83,75 90,03
54,69 65,63 62,5 67,19
12,59
(r-1)*(c-1)=2*3=6
5.- Conclusión