Análisis Descriptivo y Representación de Datos Bivariados

ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS BIVARIADOS
En muchas aplicaciones estadísticas, se deben resolver problemas que contienen un conjunto de variables y
que se sabe existe alguna asociación entre ellas. En este conjunto de variables se tiene una sola variable
dependiente (o respuesta) 𝑌, que depende de una o más variables independientes (o de regresión)
𝑋1 , 𝑋2 , 𝑋3 , ⋯ 𝑋𝑛 como por ejemplo:
 El salario(𝑌) de una persona depende de:  El rendimiento académico(𝑌) depende de:

 Años de experiencia. (𝑋1 )  Horas de estudio fuera de clase. (𝑋1 )
 Cargo que ocupa. (𝑋2 )  Horas de asistencia a clases. (𝑋2 )
 Horas de trabajo. (𝑋3 )  Cumplimiento de trabajos. (𝑋3 )
Existen dos formas distintas pero relacionadas con el estudio de la asociación entre variables a partir de
una muestra aleatoria.
 La primera, es determinar una relación funcional de la variable dependiente Y con respecto a una o mas
variables independientes con el fin de predecir estos valores de Y. Este método es el análisis de Regresión.
 La segunda forma de estudio de la asociación entre las variables es medir el grado de relación entre ellas,
mediante un coeficiente o índice (r). A esta técnica se denomina análisis de Correlación.
Los métodos de regresión y correlación entre variables se clasifican por el número de variables
independientes.
 El análisis de asociación se denomina simple, si hay una sola variable independiente, si hay dos o mas
variables independientes, el análisis de asociación se denomina Múltiple.
 Por el tipo de función matemática que se puede ajustar a los datos, la asociación de las variables puede ser
lineal o no lineal (como: parabólica, exponencial, logarítmica, etc.)
LINEAL
SIMPLE (𝑿, 𝒀)
NO LINEAL
ANÁLISIS DE REGRESIÓN
(Exponencial,
Busca determinar una
relación funcional entre las
variables, con el objetivo de MULTIPLE
(𝑋1 , 𝑋2 , 𝑋3 , ⋯ 𝑋𝑛 ; 𝑌)
SIMPLE(𝑿, 𝒀)
ASOCIACIÓN
ENTRE ANÁLISIS DE CORRELACIÓN
Busca un índice de correlación,

con el objetivo de medir} el
grado de relación entre las MULTIPLE
variables
(𝑋1 , 𝑋2 , 𝑋3 , ⋯ 𝑋𝑛 ; 𝑌)
REGRESIÓN LINEAL SIMPLE
Lic. Yarina Silvia Cuba Andía Página 1
DIAGRAMA DE DISPERSIÓN
El primer paso en el análisis de regresión es construir una gráfica de los datos muéstrales en el plano
cartesiano XY. Esta gráfica es denominada diagrama de dispersión, donde en el eje X se encuentran la
variable independiente, en el eje Y se encuentra la variable dependiente. El Diagrama de Dispersión indica
el tipo de tendencia de Y con respecto a X. si la tendencia es lineal se puede ajustar una línea recta al
diagrama de dispersión. Algunos tipos de diagrama de dispersión son:
Existe una relación lineal Existe una relación lineal Existe una relación no lineal No existe ninguna
positiva entre las dos entre las dos variables 𝑋, 𝑌. relación entre las dos
negativa entre las dos variables
variables 𝑋, 𝑌. también se le 𝑋, 𝑌. También se le conoce variables estudiadas
conoce como relación como relación inversa o
directa o tendencia tendencia decreciente.
creciente.
El problema de ajustar una curva a una serie de datos consiste en primer término determinar la familia de
curvas que mejor escribe el fenómeno (diagrama de dispersión). Posteriormente realizada esta decisión se
procederá a encontrar los parámetros de la curva correspondiente. Consideremos una variable
dependiente (o respuesta) 𝒀 con una sola variable independiente (o variable independiente) 𝑿. La
regresión lineal simple es la función lineal por medio del cual se desea saber el grado de dependencia de
dos variables, es decir en que grado las variaciones de una característica provocan variaciones en la
magnitud de la otra variable. El modelo matemático es:
𝑌̂𝑖 = 𝑎 + 𝑏𝑋𝑖
Los estimadores de los parámetros son calculados a través de una muestra aleatoria(𝑋𝑖 , 𝑌𝑖 ) de tamaño n,
utilizando el método de mínimos cuadrados, el cual consiste en minimizar la suma de cuadrados de los
errores 𝜉𝑖 = 𝑌𝑖 − 𝑌̂𝑖 . Las fórmulas resultado de la minimización de lo cuadrados del error cumplen los
siguientes supuestos:
1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión poblacional.

2. Las varianzas de los errores son las mismas en todos los valores de X (Homocedasticidad) en caso contrario
se tiene (Heterocedasticidad).
3. Los errores o residuos son independientes: No se muestra algún patrón definido.
Donde:
𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌 ∑𝑌 ∑𝑋
𝑏= 𝑎= −𝑏 = 𝑌̅ − 𝑏𝑋̅
𝑛 ∑ 𝑋 2 − (∑ 𝑋)2 𝑛 𝑛

INTERPRETACIÓN DE LOS PARÁMETROS ESTIMADOS:
 El valor (a) de la ecuación de regresión es la ordenada en el origen es decir el punto en que la recta se
intercepta con el eje 𝑌.
 El valor (b) es el cambio promedio en 𝑌 cuando 𝑋 cambia una unidad de medición.
 Si 𝒃 > 0 entonces, la tendencia es Lineal Creciente, es decir a mayores valores de 𝑋 corresponden mayores
valores de 𝑌, también a menores valores de 𝑋 corresponden menores valores de 𝑌.
 Si 𝒃 < 0 entonces, la tendencia es Lineal Decreciente, es decir a mayores valores de 𝑋 corresponden menores
valores de 𝑌, también a menores valores de 𝑋 corresponden mayores valores de 𝑌.
 Si 𝒃 = 𝟎 entonces, 𝑌 = 𝒂 luego 𝑌 permanece estacionario para cualquier valor de 𝑋, es decir no hay
regresión.
ESTIMACIÓN DE LA VARIANZA DE LA REGRESIÓN LINEAL SIMPLE ( 𝑺𝟐𝒙𝒚 )
Una vez hallada la línea recta de regresión, nos interesa saber su utilidad, La utilidad principal es predecir
valores de 𝑌 para determinados valores de 𝑋. Si se hace una predicción nos interesa saber, que tan buena o
confiable es esa predicción. La respuesta a esta pregunta depende de la variabilidad de los valores de 𝑌 con
respecto a la recta de regresión. Una medida que indica el grado de variabilidad o dispersión en torno a la línea
de regresión es la Varianza de la regresión, para su cálculo se utiliza la siguiente expresión:
∑ 𝑌 2 − 𝑎 ∑ 𝑌 − 𝑏 ∑ 𝑋𝑌
𝑺𝟐𝒙𝒚 =
𝒏−𝟐
La raíz cuadrada de la Varianza es la desviación estándar de la regresión. Este valor también se le conoce como
error estándar de estimación.
Interpretación: cuanto mas pequeño sea la Varianza o desviación estándar, más cercanos a la línea de
regresión estarán los valores de la variable 𝑌.
ANÁLISIS DE CORRELACIÓN
El análisis de correlación emplea métodos para medir la significación del grado o intensidad de asociación
entre dos o más variables. El concepto de correlación está estrechamente vinculado al concepto de regresión.
COEFICIENTE DE CORRELACION LINEAL ( 𝒓 )
El coeficiente de correlación lineal de Pearson mide la asociación entre las variables X e Y, para su cálculo se
utiliza la siguiente relación:
∑ 𝑋𝑌 − 𝑛 ( 𝑋̅ )( 𝑌̅ )
𝑟=
√∑ 𝑋 2 − 𝑛( 𝑋̅ )2 √∑ 𝑌 2 − 𝑛( 𝑌̅ )2

El coeficiente de correlación tiene una variación de −1 ≤ 𝑟 ≤ 1
Interpretación:
COEFICIENTE DE DETERMINACION ( 𝑹𝟐 )
Es la variación explicada por la recta de regresión, es decir en que porcentaje la variable independiente X
explica la variabilidad en la variable dependiente (o respuesta) Y. para su cálculo se utiliza la siguiente relación:
𝑅 2 = 𝑟 2 ∗ 100%
VARIBLE
DEPENDIENTE
Y
VARIBLE VARIBLE VARIBLE VARIABLE

INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE
x1 x2 x3 Xn
EJEMPLO
Los siguientes datos muestran la relación entre la producción de un determinado artículo y su correspondiente
costo unitario.
Producción (miles) 2 4 8 12 14 18 16 10
Costo Unitario (soles) 15 12 9 6 5 2 5 8
a) Realizar el diagrama de dispersión para estos datos y analizar la tendencia.
b) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la cantidad de producción y
el correspondiente costo unitario, interprete el coeficiente de regresión.
c) Graficar la recta de regresión en el diagrama de dispersión.
d) Estimar cuanto será el costo unitario para una producción de 11 mil unidades
e) Estimar cuanto se producirá si el costo unitario es de 5 soles.
f) Hallar la varianza residual.
g) Determinar el coeficiente de correlación, interprete.
h) Hallar el coeficiente de determinación, interprete.

a) Grafique el diagrama de dispersión e indique su tendencia
Tendencia:____________________________________________________________________
b) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la cantidad de
producción y el correspondiente costo unitario, interprete el coeficiente de regresión.
n n n
n X i Yi   X i  Yi
b i 1 i 1 i 1
2
n
  n
n X    X i 
2
 i 1 
i
I 1
𝑎 = 𝑌̅ − 𝑏𝑋̅
La ecuación de regresión será:
Interpretacion:______________________________________________________________________________
_________________________________________________________________
c) Graficar la recta de regresión en el diagrama de dispersión.
Si x =  y=
x=  y=
d) Estimar cuanto será el costo unitario para una producción de 11 mil unidades
Como x =
y=  y=
Rpta:___________________________________________________________________

e) Estimar cuanto se producirá si el costo unitario es de 5 soles.
Como y =
 x=
Rpta:___________________________________________________________________
f) Hallar la varianza residual
∑ 𝑌 2 − 𝑎 ∑ 𝑌 − 𝑏 ∑ 𝑋𝑌
𝑺𝟐𝒙𝒚 =
𝒏−𝟐
g) Coeficiente de correlación
∑ 𝑋𝑌 − 𝑛 ( 𝑋̅ )( 𝑌̅ )
𝑟=
√∑ 𝑋 2 − 𝑛( 𝑋̅ )2 √∑ 𝑌 2 − 𝑛( 𝑌̅ )2
Interpretacion:______________________________________________________________________________
_________________________________________________________________
h) Coeficiente de determinación R2 =
Interpretacion:______________________________________________________________________________
___________________________________________________________

EL MODELO DE LA REGRESIÓN LINEAL MÚLTIPLE
El objetivo del análisis de la regresión lineal es analizar un modelo que pretende explicar el comportamiento
de una variable (Variable endógena, explicada o dependiente), que denotaremos por Y, utilizando la
información proporcionada por los valores tomados por un conjunto de variables (explicativas, exógenas o
independientes), que denotaremos por X1 , X2 , ....., X n
Las variables del modelo de regresión deben ser cuantitativas. Pero es frecuente encontrar incluidas en el
modelo como variables independientes a variables ordinales e incluso nominales transformadas en variables
ficticias. Pero la variable dependiente debe ser cuantitativa. Para una variable dependiente binaria se emplea
la regresión logística. El modelo lineal viene dado por la ecuación lineal:
Y = b0 + b1 X1 + b2 X2 + ... + b k X k + ei
Los coeficientes (parámetros) b1 , b2 , ... , b k denotan la magnitud del efecto de las variables explicativas
(exógenas o independientes), esto es, representan los pesos de la regresión o de la combinación lineal de las
predictorasX1 , X2 , ... X k sobre la variable explicada (endógena o dependiente) Y. El coeficiente b0 se
denomina término constante (o independiente) del modelo. Y al término e i se le llama término de error del
modelo o componente de Y no explicada por las variables predictoras.
El problema fundamental que se aborda es el siguiente: suponiendo que la relación entre la variable Y y el
conjunto de variables X1 , X2 , ... X k es como se ha descrito en el modelo, y que se dispone de un conjunto de
n observaciones para cada una de las variables se asignarse valores numéricos a los parámetros b0 , b1 , b2 , ...
b k basándonos en la información muestral.
Estos valores son la estimación de los parámetros llamados coeficientes de regresión. Representan las
unidades de cambio en la variable dependiente por unidad de cambio en la variable independiente
correspondiente. Una vez encontradas las estimaciones de los parámetros del modelo, podremos hacer
predicciones sobre el comportamiento de la variable Y en la población.
En la práctica deberemos de elegir cuidadosamente qué variables vamos a considerar como explicativas.
Algunos criterios que deben de cumplir serán los siguientes:
 Tener sentido numérico.
 No deberá de haber variables repetidas o redundantes
 Las variables introducidas en el modelo deberán de tener una cierta justificación teórica.
 La relación entre variables explicativas en el modelo y casos debe de ser como mínimo de 1 a 10.
 La relación de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.

Si se dispone de una ecuación con dos variables independientes adicionales entonces la ecuación de
regresión buscada será:
Y = b0 + b1 X1 + b2 X2
Para poder resolver y obtener b0, b1 y b2 en una ecuación de regresión múltiple el cálculo se presenta muy
tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:
∑ 𝑦 = 𝑛𝑏0 + 𝑏1 ∑ 𝑥1 + 𝑏2 ∑ 𝑥2
∑ 𝑥1 𝑦 = 𝑏0 ∑ 𝑥1 + 𝑏1 ∑ 𝑥12 + 𝑏2 ∑ 𝑥1 𝑥2
∑ 𝑥2 𝑦 = 𝑏0 ∑ 𝑥2 + 𝑏1 ∑ 𝑥1 𝑥2 + 𝑏2 ∑ 𝑥22
EL ERROR ESTÁNDAR DE LA REGRESIÓN MÚLTIPLE (SXY )
Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del
plano de regresión se hace más pequeño. Para medirla se utiliza la fórmula:
Y : Valores observados en la muestra
Y : Valores estimados a partir a partir de la ecuación de regresión
n : Número de datos
m : Número de variables independientes
EJEMPLO

1. Se realizó un estudio de asociación entre las siguientes variables:
Y: gastos mensuales expresado en cientos de soles
X1: ingreso mensual familiar en miles de soles
X2: tamaño de la familia
En una muestra de 10 familias escogidas al azar se han encontrado los datos que se presentan en la siguiente
tabla:
Y X1 X2
45 10 8
40 9 8
38 8 6
35 7 6
32 7 5
30 6 4
28 6 3
27 4 2
25 3 2
22 2 1
a) Determinar la ecuación de regresión muestral de los gastos mensuales con respecto a las dos variables :
ingreso mensual y número de hijos
b) Estime el gasto mensual para una familia de 8 hijos y cuyo ingreso mensual es de 7000 soles.

PRUEBAS NO PARAMETRICAS:
PRUEBAS CHI-CUADRADO
Las pruebas chi-cuadrado son un grupo de contrastes de hipótesis que sirven para comprobar afirmaciones
acerca de las funciones de probabilidad (o densidad) de una o dos variables aleatorias. Estas pruebas no
pertenecen propiamente a la estadística paramétrica pues no establecen suposiciones restrictivas en
cuanto al tipo de variables que admiten, ni en lo que refiere a su distribución de probabilidad ni en los
valores y/o el conocimiento de sus parámetros. Se aplican en las siguientes situaciones básicas:
a) Cuando queremos comprobar si una variable, cuya descripción parece adecuada, tiene una
determinada función de probabilidad. La prueba correspondiente se llama chi-cuadrado de ajuste.
b) Cuando queremos averiguar si dos variables (o dos vías de clasificación) son independientes
estadísticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado de independencia o chi-
cuadrado de contingencia
c) Cuando queremos averiguar si dos variables (o dos vías de clasificación) son homogéneas
estadísticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado de homogeneidad.
CHI-CUADRADO DE AJUSTE
En una prueba de ajuste la hipótesis nula establece que una variable X tiene una cierta distribución de
probabilidad con unos determinados valores de los parámetros. El tipo de distribución se determina, según
los casos, en función de: La propia definición de la variable, consideraciones teóricas al margen de esta y/o
evidencia aportada por datos anteriores al experimento actual.
Como en casos anteriores, empezaremos definiendo las hipótesis.
1. formular la hipótesis nula y alterna de acuerdo al problema o investigación.
Hipótesis nula: X tiene distribución de probabilidad f(x) con parámetros y1,..., yp
Hipótesis alternativa: X tiene cualquier otra distribución de probabilidad.
2. establecer el Nivel de significación

3. Estadístico de prueba.- el estadístico de prueba de bondad de ajuste ji-cuadrado es .
(𝒐𝒊 −𝒆𝒊 )𝟐
𝝀𝟐 = ∑𝒌𝒊=𝟏 ,
𝒆𝒊

Distribución ji-cuadrado con v=k-r-1 grados de libertad donde r es la cantidad de parámetros de la
distribución que deben estimarse a partir de la muestra.
Es una condición necesaria para aplicar esta prueba que ∀𝑖; 𝑒𝑖 ≥ 5
i = 1, 2,..., k, Suponer que las observaciones de la muestra están agrupadas en k clases
oi: frecuencia observada (corresponde a los datos de la muestra)cantidad de observaciones en cada clase
ei: frecuencia esperada (corresponde al modelo propuesto)
ei = pi*n, i = 1, 2, ..., k, Con el modelo especificado se puede calcular la probabilidad pi que un dato cualquiera pertenezca a una
clase i
4. Región critica
5. Conclusión
EJEMPLO:
Se ha tomado una muestra aleatoria de 40 baterias y se ha registrado su duracion en años. Estos resultados
se los ha agrupado en 7 clases en el siguiente cuadro
i Clase ( duracion) Frecuencia observada (oi)

1 1.45-1.95 2
2 1.95-2.45 1
3 2.45-2.95 4
4 2.95-3.45 15
5 3.45-3.95 10
6 3.95-4.45 5
7 4.45-4.95 3
Verificar con 5% de significacion aque la duracion en aqños de las baaterias producidas por este fabricante
tiene duracion distribuidad normalmente con media 3.5 y desviacion estandar 0.7
SOLUCION:
1.- Planteamiento de hipótesis

2.- Nivel de significación
(𝒐𝒊 −𝒆𝒊 )𝟐
3.- Estadístico de prueba 𝝀𝟐 = ∑𝒌𝒊=𝟏
𝒆𝒊
Calculo de las probabilidades
Clase Frec.
i pi ei=n*pi
(duración) Obs.(oi)
1 1.45-1.95 2 0,0119 0,476 =0,5
2 1.95-2.45 1 0,0532 2,128=2,1
3 2.45-2.95 4 0,148 5,92=5,9
4 2.95-3.45 15 0,2573 10,292=10,3
5 3.45-3.95 10 0,2668 10,672=10,7
6 3.95-4.45 5 0,1742 6,968= 7
7 4.45-4.95 3 0,0865 3,4615=3,5
TOTAL 40 40
Clase Frec.
i ei=n*pi
(duracion) Obs.(oi)
1 1.45-2.95 7 8,5
2 2.95-3.45 15 10,3
3 3.45-3.95 10 10,7
4 3.95-4.95 8 10,5
TOTAL 40 40
𝒌
𝟐
(𝒐𝒊 − 𝒆𝒊 )𝟐
𝝀 =∑
𝒆𝒊
𝒊=𝟏
(7 − 8,5)2 (15 − 10,3)2 (10 − 10,7)2 (8 − 10,5)2

𝜆2 = + + + = 3,05
8,5 10,3 10,7 10,5

4.- Región critica
Región de rechazo
Región de aceptación
𝝀𝟐 =7,82
v=k-r-1 entonces v=4-0-1
5.- Conclusión
Como el valor del estadístico de prueba le pertenece a la región de aceptación se acepta la hipótesis nula y
se rechaza la hipótesis alterna. Por lo tanto la población se ajusta a una distribución normal
PRUEBA CHI-CUADRADO DE CONTINGENCIA O INDEPENDENCIA
La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos
variables aleatorias, X e Y.
En muchas ocasiones, losn elementos de una muestra tomada de una población pueden clasificarse con dos
criterios diferentes. Por tanto, es interesante saber si los dos métodos de clasificación son estadísticamente
independientes. Supóngase que el primer método de clasificación tiene r niveles y que el segundo tiene c
niveles. O sea Oij la frecuencia observada para el nivel i del primer método de clasificación y el nivel j del
segundo método de clasificación. En general, los datos aparecerán como se muestra en la siguientetabla.
Una tabla de este tipo usualmente se conoce como tabla de contingenciar x c.
Para realizar esta prueba de independencia se siguen los siguientes pasos:

1. formular la hipótesis nula y alterna de acuerdo al problema o investigación
Hipótesis nula: X e Y son independientes.
Hipótesis alternativa: X e Y no son independientes (No importa cuál sea la relación que mantengan
ni el grado de esta.
2. Nivel de significación
3. Estadístico de prueba
𝑟 𝑐 2
2
(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )
𝜆 = ∑∑
𝐸𝑖𝑗
𝑖=1 𝑗=1
Donde la frecuencia esperada de la celda es:
𝐶 𝑟
1
𝐸𝑖𝑗 = ∑ 𝑂𝑖𝑗 ∑ 𝑂𝑖𝑗
𝑛
𝑗=1 𝑖=1
Además el estadístico de prueba tiene una distribución aproximada ji-cuadrada con (r-1)*(c-1) grados de
libertad si la hipótesis nula es verdadera. Por consiguiente, la hipótesis de independencia debe rechazarse
si el valor del estadístico de prueba 𝜆2 calculado es mayor que 𝜆2 crítico o de tabla.
4. Región critica
5. Conclusión
EJEMPLO:
Una asociación de profesores universitarios quiere determinar si la satisfacción en el trabajo es
independiente del rango académico. Para ello realizó un estudio nacional entre los académicos
universitarios y encontró los resultados mostrados en la siguiente tabla. Con un nivel de significación del 5%
haga una prueba para saber si son dependientes la satisfacción en el trabajo y el rango.

SOLUCION:
1.- Planteamiento de hipotesis
2.- Nivel de significacion
3.- Estadistico de prueba
2
(𝑂𝑖𝑗 −𝐸𝑖𝑗 ) 1
𝜆2 = ∑𝑟𝑖=1 ∑𝑐𝑗=1 𝐸𝑖𝑗
con 𝐸𝑖𝑗 = 𝑛 ∑𝐶𝑗=1 𝑂𝑖𝑗 ∑𝑟𝑖=1 𝑂𝑖𝑗
Calculo de los 𝐸𝑖𝑗
PROFESOR PROFESOR
INSTRUCTOR PROFESOR TOTAL
ASISTENTE ASOCIACO
MUCHA 40 60 52 63 215
REGULAR 78 87 82 88 335
POCA 57 63 66 64 250
TOTAL 175 210 200 215 800
47,03 56,44 53,75 57,78
73,28 87,94 83,75 90,03
54,69 65,63 62,5 67,19

𝑟 𝑐 2
2
(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )
𝜆 = ∑∑ = 2,7
𝐸𝑖𝑗
𝑖=1 𝑗=1
4.- Región Critica
12,59
(r-1)*(c-1)=2*3=6
5.- Conclusión

Análisis Descriptivo y Representación de Datos Bivariados

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Análisis Descriptivo y Representación de Datos Bivariados

Încărcat de

Drepturi de autor:

Formate disponibile

ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS BIVARIADOS

 El salario(𝑌) de una persona depende de:  El rendimiento académico(𝑌) depende de:

ENTRE ANÁLISIS DE CORRELACIÓN

Busca un índice de correlación,

1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión poblacional.

Lic. Yarina Silvia Cuba Andía Página 2

ESTIMACIÓN DE LA VARIANZA DE LA REGRESIÓN LINEAL SIMPLE ( 𝑺𝟐𝒙𝒚 )

COEFICIENTE DE CORRELACION LINEAL ( 𝒓 )

Lic. Yarina Silvia Cuba Andía Página 3

VARIBLE VARIBLE VARIBLE VARIABLE

Lic. Yarina Silvia Cuba Andía Página 4

La ecuación de regresión será:

c) Graficar la recta de regresión en el diagrama de dispersión.

Lic. Yarina Silvia Cuba Andía Página 5

f) Hallar la varianza residual

Lic. Yarina Silvia Cuba Andía Página 6

Lic. Yarina Silvia Cuba Andía Página 7

EL ERROR ESTÁNDAR DE LA REGRESIÓN MÚLTIPLE (SXY )

Y : Valores observados en la muestra

Y : Valores estimados a partir a partir de la ecuación de regresión

m : Número de variables independientes

Lic. Yarina Silvia Cuba Andía Página 8

Lic. Yarina Silvia Cuba Andía Página 9

Como en casos anteriores, empezaremos definiendo las hipótesis.

1. formular la hipótesis nula y alterna de acuerdo al problema o investigación.

Hipótesis nula: X tiene distribución de probabilidad f(x) con parámetros y1,..., yp

Hipótesis alternativa: X tiene cualquier otra distribución de probabilidad.

2. establecer el Nivel de significación

Lic. Yarina Silvia Cuba Andía Página 10

Es una condición necesaria para aplicar esta prueba que ∀𝑖; 𝑒𝑖 ≥ 5

i = 1, 2,..., k, Suponer que las observaciones de la muestra están agrupadas en k clases

ei: frecuencia esperada (corresponde al modelo propuesto)

i Clase ( duracion) Frecuencia observada (oi)

Lic. Yarina Silvia Cuba Andía Página 11

Calculo de las probabilidades

(7 − 8,5)2 (15 − 10,3)2 (10 − 10,7)2 (8 − 10,5)2

Lic. Yarina Silvia Cuba Andía Página 12

PRUEBA CHI-CUADRADO DE CONTINGENCIA O INDEPENDENCIA

Para realizar esta prueba de independencia se siguen los siguientes pasos:

Lic. Yarina Silvia Cuba Andía Página 13

Hipótesis nula: X e Y son independientes.

Donde la frecuencia esperada de la celda es:

Lic. Yarina Silvia Cuba Andía Página 14

1.- Planteamiento de hipotesis

2.- Nivel de significacion

3.- Estadistico de prueba

Calculo de los 𝐸𝑖𝑗

Lic. Yarina Silvia Cuba Andía Página 15

4.- Región Critica

Lic. Yarina Silvia Cuba Andía Página 16

S-ar putea să vă placă și