Sunteți pe pagina 1din 4

TEMA 5.

DISTRIBUCIN DE FRECUENCIAS BIDIMENSIONALES


1.CONSTRUCCIN DE TABLAS ESTADSTICAS BIDIMENSIONALES
Distribucin conjunta de frecuencias de las dos variables (x,y ): tabla que representa los valores observados de ambas variables y sus frecuencias de aparicin. Tablas de Correlacin: tablas de frecuencias cuando las variables son cuantitativas Tablas de Contigencia: cuando se trata de atributos o variables cualitativas.

X/ Y x1 x2 ... xi ... xr x. j

y1 n11 n21 ... ni1 ... nr1 n.1

y2 n12 n22 ... ni2 ... nr2 n.2

... ... ... ... ... ... ... ...

yj n1j n2j ... nij ... nrj n.j

... ... ... ... ... ... ... ...

ys n1s n2s ... nis ... nrs n.s

ni. n1. n2. ... ni. ... nr. n..= N

X1,x2xn=valores o modalidades que toma x Y1, y2..Yn=valores o modalidades que toma y Ni1,ni2..nis=frecuencia en que aparece el valor i de la variable x conjuntamente con cada valor 1, 2 de var. Y. N1j, N2j,..=frecuencia con el que aparece el valor j de la variable Y conjuntamente con cada valor 1, 2 r de la variable X. ni: frecuencia total con la que aparece el valor i de la variable x. nj: frecuencia total con la que aparece el valor j de la variable Y. N: frecuencia total de la distribucin.

Distribuciones marginales: cuando se estudian aisladamente cada una de las variables (con independencia de la otra o , s se trata de distribuciones multidimensionales, del resto de las variables) Frecuencia relativa: de un elemento (xi, yj). La suma de todas las frecuencias relativas es igual a 1.

2. REPRESENTACIN GRFICA DE LAS DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES


Multiples representaciones grficas: Ejemplo Mujeres y hombres y sus estados civiles, representados por estados, o por sexo. Grficos de dispersin: grfico muy empleado en la representacin de las distribuciones bidimensionales. Se utiliza para analizar visualmente la relacin que existe entre las dos variables, representndose los valores de la variable X en el eje de ordenadas y los Y en el de abscisas. Regresin lineal simple, apartado 5.8 Nube de puntos

3. EL CLCULO DE LAS MEDIDAS DE POSICIN Y DE DISPERSIN EN LAS DISTRIBUCIONES MARGINALES DE FRECUENCIAS


Distribucin bidimensional, consideramos x e y

Momentos respectos al origen. Los ms importantes son:

Y el denominado momento producto: Momento respecto al origen de las dos variables

Momentos respecto a la media: Las principales son los de segundo orden (varianzas marginales) Y la covarianza:

La m11 solo se puede calcular para dos distribuciones cuantitativas, ninguna de ellas puede ser cualitativa. El valor que obtenemos, es una relacin que puede ser ms o menos, entre la variable x (salarios) y la variable y (aos anteriores), indicndonos que estadsticamente a medida que aumenta la antigedad, aumenta el salario. Es ms cuando la relacin entre las dos variables es positiva y menos cuando al aumentar una variable la otra disminuye. Al igual que en las unidimensionales, los momentos respecto a la media pueden ponerse en relacin con los momentos respecto al origen. 1.Varianza de x=momento media segundo orden de x = momento origen segundo orden x menos momento origen primer orden de x al cuadrado Estas frmulas son distintas formas de ver lo anterior.

1. 2.

4.

LA DEPENDENCIA ESTADSTICA ENTRE DOS O MS VARIABLES

El estudio de las relaciones de dependencia estadstica es realizado por la Teora de la correlacin. Nos permite medir el grado de dependencia o correlacin existente. En relacin de dependencia se puede adoptar 3 resultados: 1. Independencia funcional o correlacin nula: cuando no existe ninguna relacin entre las variables 2. Dependencia funcional o correlacin funcional: cuando existe una funcin tal que todos los valores de la variable la satisfacen (a cada valor X le corresponde un solo Y o la inversa) Ej. Producto vendido=ingreso. Sabemos exactitud, si vendemos 1 ganamos 100 de ingreso 3. Dependencia aleatoria o dependencia estadstica parcial: cuando los puntos del diagrama se ajuntan en alguna medida a una funcin. Es la ms habitual en estadstica, ya que, cuando se comparan dos variables, lo normal es que exista algn grado de relacin entre ellas. Ej. Horas de estudio, probable mejor nota examen, no sabemos exactitud Las relaciones de dependencia estadstica pueden ser positivas (directas) o negativas (inversas)

5. CASUALIDAD, CAUSALIDAD Y ESPECIFICACIN DE MODELOS


El principal objetivo de estas relaciones es la explicacin y en su caso la prediccin de una variable (variable dependiente o endgena) con otra u otras variables (variables independientes o exgenas). Puede tratarse de una relacin causalidad o de casualidad. Hay que tener en cuenta que algunas variables puedan estar indirectamente relacionadas a travs de terceras variables que s podran haberse incluido en el modelo terico. Al estudiar una relacin entre variables, es importante la especificacin previa de un modelo terico que recoja las principales relaciones de causalidad, se tiende a la simplificacin ya que no siempre es posible tender datos de todas las variables influyentes. Estos modelos son economtricos y todos ellos incluyen una variable adicional, que trata de recoger el efecto conjunto de mltiples variables irrelevantes o escasamente relevantes y que se denomina perturbacin aleatoria (v), por incluir esta variable los modelos que denominan estocsticos y adoptan una forma multiecuac ional del tip: y = a0 + a1x1 +a2x2 +.... anxn + v . Recoge todo lo que no explican el trmino independiente y las variables. Relacin lineal= Y=a + Bx

6. CORRELACIN O GRADO DE DEPENDENCIA LINEAL ENTRE DOS VARIABLES


Coeficiente de Correlacin Lineal de Pearson: es una medida de la asociacin o correlacin entre dos variables cuantitativas. Sxy: Covarianza entre x e y Sx= Desviacin tpica x Sy: Desviacin tpica y El valor de este parmetro est siempre comprendido entre -1 y +1 Tambin sirven para correlaciones negativas. 0 1

-1

Regresin lineal perfecta No existe reg. Lineal Reg. Lineal perfecta 1.r de 0 a 0,25: no existe correlacin suficiente entre ambas variables 2. r de 0,25 a 0,50, correlacin baja a moderada 3. r de 0,50 a 0,75: correlacin moderada a buena 4. r de 0,75 o mayor: muy buena a excelente correlacin Este coeficiente tiene carcter cualitativo ( si en caso de obtener r=0,3 y en otro un r=0,6) solo podemos afirmar que en el segundo caso la intensidad de la relacin es mayor que en el primero, pero, No que es el doble.

7.REGRESIN LINEAL SIMPLE


Ecuacin de regresin: La regresin consiste en ajustar lo ms posible la nube de puntos de un diagrama de dispersin a una funcin. Cuando la funcin es una recta obtenemos la recta de regresin lineal, cuando es una parbola, una regresin parablica, cuando es una exponencial, una regresin exponencial, etc. La regresin de dos variables debe afrontar 2 tipos de problemas: 1. Decidir que funcin se ajusta mejor a los datos disponibles. 2. Realizar dicho ajuste: relacin lineal. 1.Y = a + bx. (calcula y para cada valor de x) Se trata de ajusta una recta de forma que se aproxime el mximo posible a la nube de puntos de la distribucin, determinando los parmetros a y b de la ecuacin, para ello pueden utilizarse diversos procedimientos o mtodos de ajuste, el ms utilizado es el Mtodo o Criterio de Ajuste por Mnimos cuadrados,(lo que son mnimos son los errores) est basado en admitir que la representacin ms adecuada de la dependencia entre dos variables es aquella funcin que hace mnima la suma de las diferencias al cuadrado entre dos varlores reales y los valores tericos obtenidos a partir de la funcin ajustada. 2. REGRESIN DE Y SOBRE X Para hallar el valor de a y b a partir de la informacin disponible sobre xi e yi

3.Para calcular los parmetros a y b en la regresin de Y sobre X. (Mediante ecuaciones normales, despejando utilizando siguientes formulas) 2 2 b = Sxy / Sx Sxy= COVARIANZA SX =VARIANZA X a = y bx Las ecuaciones normales de regresin se pueden expresar: Regresin de y sobre x Hay dos formas de hallar a y b:

= Sxy/ Sx2 = y-bx covarianza y-y= Sxy/ Sx2 (x-x)

1. Despejando ecuaciones normales

2. Calculando varianza y

8. BONDAD DEL AJUSTE Y PREDICCIONES


Una vez que encontramos la frmula para calcular una variable en funcin de los valores que toma la otra: 1. Bondad del ajuste, es bueno este ajuste? 2. Si es bueno, hacer predicciones E= y y*; E=diferencia entre el valor observado o valor disponible con anterioridad y el valor estimado, Representa el error cometido en cada prediccin. Siempre que se efecta una regresin es necesario estimar algunas medidas de dispersin que nos valoren el grado en el que la funcin estimada puede sustituir a las observaciones de las que se obtuvo, estas medidas de dispersin tambin nos pueden proporcionar informacin sobre el grado de dependencia entre las variables regresadas, se denominan medidas de bondad del ajuste. Primera medida de dispersin: 1.1 Varianza residual o varianza de los errores o residuos: media aritmtica del los errores al cuadrado. Tambin puede definirse: S
2 ry =

m02 m11 . B

Dado que la media de ei=0; Cuando es alta, los residuos son grandes y la funcin estimada se aleja bastante de los valores originales y es poco representativa. Cuando es baja, ser indicativo de que existe bastante representatividad. 1.2 Coeficiente de determinacin: es la ms utilizada

S2y = S2y* + S2e La varianza total de la variable dependiente y tiene dos componentes:
1. Uno debido a la relacin entre las variable y que est contenida en el trmino S Y (varianza explicada por la regresin) 2 2. Otro es la varianza resiudal S* e que contiene la variabilidad que no capaz de explicar el modelo lineal. 2 1.3 Coeficiente de Determinacin R : grado de participacin de la varianza explicada en la varianza total de la variable observada: Varianza de la y estimada/varianza de la y real
2

En el caso de la regresin lineal la varianza de la variable y* puede calcularse: Obteniendo la siguiente expresin alternativa que coincide con el Coeficiente de Correlacin de Pearson elevado al cuadrado:

Tambin se puede expresar en relacin con los momentos respecto a la media: Este coeficiente es genrico y sirve para cualquier tipo de regresin: 2 El coeficiente de determinacin R , tiene un valor comprendido entre 0 y 1 (indica el porcentaje de la varianza de y que est explicada por x y viceversa) Cuando su valor es 0. Nula representatividad de la ecuacin de regresin Cuando su valor es 1. Ajuste perfecto entre la ecuacin estimada y la nube de puntos. Una vez estimada una ecuacin de regresin podemos emplearla para obtener datos que se encuentren en el mismo rango que los estudiados (interpolacin) o para obtener valores ajenos a los inicialmente disponibles (extrapoblacin)

9. REGRESIN NO LINEAL
Principales modelos no lineales son:
-

Funcin polinmica: y = ao + a1x Funcin potencial: y = ax


b

+ a2x2 +... + anxn

, puede tomarse con logaritmos neperianos: In(y) = In(a) + b. In(x) x Funcin exponencial: y = ab , se transforma en In(y) = In(a) + x. In(b)
Funcin logartmica: y = a + b-log(x)

9. INTRODUCCIN A LA REGRESIN MLTIPLE


Se trata de determinar la relacin que existe entre la variable endgena Y y las variables exgenas X 1, X2, Xk Hasta ahora y =a + bx, y era la var dependiente o endgena y a la variable independiente. Las ventas dependen solo del trmino independiente, que es fijo, y el n de trabajadores x. En realidad loas rentas dependen de ms factores: y=a+b1x1+ b2x2.

10. ESTUDIO DE LA ASOCIACIN ENTRE VARIABLES CUALITATIVAS


Para saber si existe o no relacin entre variables del tipo cualitativo se utilizan las tablas de contigencia. Este tipo de variables pueden ser nominales, de atributos u ordinales. Tambin mediante una tabla de contingencias podemos establecer una medicin del grado de relacin que se da entre ambas variables. (para poder predecir) 1. CHI AL CUADRADO

2.Frecuencia esperada. Frecuencia que se dara si los sucesos fueran independientes. Para calcular la frecuencia esperada o terica de cada casilla (Eij), se multiplican los dos totales marginales (fila y columna) y se divide este producto por el nmero total de casos. Este estadstico toma valores mayores o iguales a 0, siendo 0 independencia absoluta. Ejemplo 5.16 Medidas de asociacin Odds ratio: cociente de las siguientes probabilidades: Si OR > 1 probabilidad de a favor es mayor en x que en y Si OR = 1 ambas probabilidades son iguales Si OR < 1 probabilidad de a favor es menor en x que en y El valor de esta medida est comprendido en el intervalo (0, ) Propiedades ms relevantes: 1. Es invariante ante los cambios de escala en filas y columnas. 2. Alcanza sus valores extremos, 0 e , bajo asociacin perfecta. 3. OR y 1/OR indican igual intensidad de la asociacin, pero en direcciones opuestas Para lograr una interpretacin ms fcil: OR= In(OR) (valor entre -, +) Coeficiente de contingencia C medida del grado de asociacin entre dos conjuntos de atributos, ordenados o no, e independiente de la naturaleza de la variable (continua o discreta). Se obtiene:

Los valores ms prximos a 1 mayor grado de interdependencia entre variables. Nunca puede alcanzar el valor 1, aunque haya completa asociacin.

Coeficiente V de Cramer: estadstico que se obtiene a partir de la . Cuando su valor es 0 independencia completa Cuando su valor es 1 completa asociacin.

Q de Yule: medida de asociacin. Se calcula sobre las diferencias entre las frecuencias observadas (Oij) y esperadas (Eij). En una tabla de 2x2 se calcula: Est comprendida entre -1 y 1: Q = 0 independencia Q > 0 asociacin positiva Q < 0 asociacin negativa

S-ar putea să vă placă și