Sunteți pe pagina 1din 180

RE-VISION DE ANÁLISIS DE TABLAS e INTRODUCCIÓN A MODELOS LOGLINEARES (2010, v3).

MARCELO BOADO

Prefacio

Este no es un libro de estadística o matemática, sino un curso destinado a aprenderlas

y aplicarlas a situaciones de investigación. Como curso se ha basado en la bibliografía

internacional sobre el tema disponible en las bibliotecas e internet, en general siempre en

inglés y en programas de análisis de datos poco amistosos. Por ello partiendo de un supuesto nivel básico obtenido en el grado, desarrollamos muchos razonamientos y aplicaciones que no son muy frecuentes en español. Y por ello también desarrollamos todos los ejemplos de aplicaciones de algoritmos y modelos en SPSS y Excel, que son más populares entre los estudiantes y los profesionales. Pero asimismo muchos ejemplos son fácilmente traducibles y aplicables a STATA.

El objetivo del trabajo es aclarar los procedimientos y su aproximación a las hipótesis que se persiguen. En este sentido se adscribe a toda la reflexión que entiende que una vez que el experimento natural ha pasado (como en el 99,99% de nuestras investigaciones), la tarea es abocarnos al DGP (Data Generation Process), procurando obtener aproximaciones verosímiles de nuestras hipótesis dados los datos que obtuvimos. En buen romance, el objetivo específico es desarrollar habilidades y conocimientos para las situaciones más cotidianas de investigación y trabajo profesional, cuando se debe analizar tablas de varias categorías, o relacionar tres o más variables, o resolver distribuciones que presentan particularidades, o comparar muestras sucesivas sobre una misma población.

Este curso se ha beneficiado de las observaciones y comentarios de 3 generaciones de alumnos de la Maestría, y de 2 generaciones del Doctorado, del departamento de Sociología de FCS UDELAR en Uruguay, y de 1 generación del doctorado de Sociología

del Instituto de Investigaciones Gino Germani de la UBA en Argentina, una generación de

la escuela de verano de CEE/Colmex/CEEY. Los defectos persistentes pertencen al autor.

1

CLASE 1: NOTACIÓN, DEFINICIONES, y CONCEPTOS PRINCIPALES.

El presente curso se dirige al uso y análisis de datos generados por variables llamadas ‘nominales’, ‘atributivas’, ‘discretas’, ó según ciertos autores ‘cualitativas’ (ver Anexo 0).

1.1. REPRESENTANDO NUESTROS DATOS EN UNA TABLA.

1.1.1. DISTRIBUCIÓN DE FRECUENCIAS CONJUNTAS EN UNA TABLA

Esta es una de las varias formas posibles de representar cómo estarían relacionadas dos variables nominales. Es la combinación de variables a través de todas las categorías que las representan.

VARIABLE

 

VARIABLE COLUMNA

 

TOTAL

FILA

j=1

j=2

 

.

.

.

.

.

.

.

.

 

j=c

 

VAR

   

FILA

i= 1

n

11

n

12

.

.

.

.

.

.

.

 

n

1c

 

n

1+

i= 2

n

21

n

22

.

.

.

.

.

.

.

 

n

2c

 

n

2+

.

 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         
 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         
 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         
 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         
 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         

i= l

n

l1

n

l2

 

.

.

.

.

.

.

.

 

n

lc

   

n

l+

TOTAL VAR

n

+1

n

+2

.

.

.

.

.

.

.

 

n

+c

 

n

++

COLUMNA

         
 

c

Total

M

arginal

Fila

 

=

n

=

n

i +

 
 

1

ij

 

l

Total

M

arginal

Columna

=∑

n

ij

= n

 

1

 

+ j

 

c

l

Total

Casos

=∑

 

n

ij

=

N

= n

 
 

1

1

 

++

2

1.1.2. DISTRIBUCIÓN DE PROBABILIDADES CONJUNTAS EN UNA TABLA

VARIABLE

 

VARIABLE COLUMNA

 

Prob

FILA

j=1

j=2

.

.

.

.

.

.

.

.

j=c

Marginal

 

VAR FILA

i= 1

p

11

p

12

.

.

.

.

.

.

.

p

1c

p

1+

i= 2

p

21

p

22

.

.

.

.

.

.

.

p

2c

p

2+

.

 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         
 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         
 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         
 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         
 

.

 

.

.

.

.

.

.

.

.

 

.

 

.

.

         

i= l

p

l1

p

l2

.

.

.

.

.

.

.

p

lc

p

l+

Prob Marginal

p

+1

p

+2

.

.

.

.

.

.

.

p

+c

p

++

VAR

         

COLUMNA

DEFINICIONES:

PROBABILIDAD CONJUNTA: proporción de casos en una celda ij en relación al total de casos.

PROBABILIDAD MARGINAL: Suma de las probabilidades conjuntas de una categoría a través de las categorías de la otra variable. Se representa como la proporción de una categoría de la variable de interés (fila o columna) en el total de casos.

PROBABILIDAD CONDICIONAL: es la probabilidad de que ser i dado que solo interesan los j. Se representa como la proporción de casos de una celda respecto de su total de categoría fila (o columna).

3

Pr .

Pr .

Pr .

Pr .

Conjunta

p

ij

= n

ij

/ N

M

arg

M

arg

inal

Fila

=

c

c

1 p ij = ∑ 1

inal Columna

l

=∑

1

p

ij

p

i +

l

= ∑ p

1

+ j

p ++

c l

c l

=∑ p = ∑ p + ∑ p

1

1

ij

1

i +

1

+ j

= 1

Pr .

Condiciona l

(

Pr .

Condiciona l

(

Fila

) =

p

ij

/ p

i +

Columna

) =

p

ij

/ p

+ j

4

1.1.3. OTRAS FORMAS DE TABLAS.

Tabla múltiple distribución condicional

 

PROPIEDAD DE MMPP

   

APOYO

AL

PROPIETARIOS

NO PROPIETARIOS

GOBIERNO

ESTRATO SOCIAL

ESTRATO SOCIAL

Total

MEDIO

BAJO

MEDIO

BAJO

FAVOR

44

16

4

32

96

CONTRA

36

4

16

48

104

Total

80

20

20

80

200

Tabla múltiple en forma de ‘arbolito’ o matriz de ‘conteos’ ej. en el excel.

Prop MMPP

Estr.Soc

Apoyo Gob

Frecs

Prop

Medio

Favor

44

Prop

Medio

Contra

36

Prop

Bajo

Favor

16

Prop

Bajo

Contra

4

No Prop

Medio

Favor

4

No Prop

Medio

Contra

16

No Prop

Bajo

Favor

32

No Prop

Bajo

Contra

80

La re-codifico y la exporto al SPSS, poniéndoles 1 y 2 a cada categoría. Es más fácil exportar la planilla sin etiquetas ni labels, porque siempre las puedo poner luego con doble clic en el cabezal de columna. Así me quedará una base de datos con 4 columnas, 3 de categorías y una de frecuencias o conteos. Siempre que use una base así debo indicar la variables que tenga las frecuencias en el comando ponderar del Spss.

Prop MMPP

Estr.Soc

Apoyo Gob

Frecs

1

1

1

44

1

1

2

36

1

2

1

16

1

2

2

4

2

1

1

4

2

1

2

16

2

2

1

32

2

2

2

80

5

1.2. ASOCIACIÓN E INDEPENDENCIA.

Cuando se tienen 2 o mas variables nominales y se procede a examinar cómo están relacionadas estas variables por medio de tablas de contingencia, de cualquiera de los tipos que recién vimos, se ingresa dentro de lo que suele llamarse ‘análisis de asociación’. Todos los métodos que veremos seguidamente nos ayudan en esta dirección, pero suele suceder, según la escala y tipo de pregunta o hipótesis de nuestra investigación, que tengamos varias alternativas. La particularidad de los métodos que veremos en este curso para el análisis de asociación es que no permiten distinguir entre variable explicada (‘response’, o ‘dependiente’) y variable explicativa (o regresor, o ‘independiente’). Por ello las relaciones observadas en los datos van a indicar modalidades de variación conjunta, pero no una dirección de antecedencia o causalidad. Si esta existe, será en todo caso producto de nuestra interpretación de los datos, no una consecuencia de los métodos aplicados. No obstante, en varios métodos sofisticados que veremos, se usarán procedimientos o formulaciones ‘analógicas’ con el modelo causal más simple - que es el modelo lineal general, que vieron en cursos recientes-, pero con una finalidad enunciativa y comunicativa.

Cuando se analiza la información que aportan las variables nominales de una encuesta, o un registro, o un censo, o un conjunto de cualquiera de ellos, suelen predominar dos preguntas: esas variables tienen relación entre sí?, o esas variables no tienen relación entre sí? Estas preguntas reflejan un objetivo de la investigación que es hallar evidencia

confiable, plausible, a favor o en contra de una hipótesis. Suele simplificarse con demasía la cuestión a la oposición entre Asociación o Independencia estadística, una dicotomía del tipo ‘algo que ver’ vs ‘nada que ver’. En general veremos que nunca nuestra hipótesis estará perfectamente formulada, y que, en el mejor de los casos, ella es una aproximación imperfecta a la distribución que presentan los datos que relevamos. Vamos a ver que podremos dar muchos pasos entre la asociación y la independencia para encontrar un modelo que explique nuestros datos. Un modelo, es una hipótesis precisa, con condiciones y restricciones claras. Un

modelo es a la realidad lo mismo que una maqueta es a una casa

lo que pasó, pasa, o pasaría. ¿Por qué tienen importancia los conceptos de asociación e independencia? Porque suelen indicar si es plausible sostener que dos atributos observados de una población guardan algún grado de referencia recíproca. En general, no hay hipótesis precisas para la asociación de 2 o más atributos. Lo que sí hay son hipótesis precisas para la independencia de 2 o más atributos, o para otras situaciones. Es decir, condiciones y restricciones que permiten saber cual sería la distribución teórica de la independencia. Porque muchas veces, al analizar la información, es tan necesario saber cuándo algo esta asociado como cuando no lo está.

una forma de representar

6

1.3. CONCEPTO DE INDEPENDENCIA

Dos variables nominales – y aleatorias- son independientes sí y sólo si para cualquier valor de una de las variables, la probabilidad condicional de la otra es igual a su probabilidad marginal.

O de otra forma, cuando la probabilidad conjunta es igual al producto de las probabilidades

marginales respectivas.

Dos variables -A y B- son independientes:

Si la probabilidad de la categoría i (de A) dada la categoría j (de B) - que es la probabilidad

conjunta de la celda ij dividida una probabilidad marginal de la categoría j (de B) - iguala a

la probabilidad marginal de la categoría i (de A).

P(i|j) = p ij / p +j = p i+ (1)

de donde es fácil advertir, y enunciar de manera genérica, que cuando:

p ij =

p i+ *

p +j

(2)

estamos ante un caso de independencia estadística.

Qué quiere decir esto? Que los valores que asume una variable no están condicionados por los que asume la otra.

O en otras palabras, los valores que se observan en las variables A y B en la muestra de esa

población no permiten inferir que estén asociados entre sí, aunque las variables pueden ser igualmente significativas en esa muestra, consideradas cada una por su lado.

Precisamente la importancia de este concepto permite considerar para el análisis a las variables que son independientes entre sí, cada una por separado sin tener que sospechar o referir condicionalidad recíproca, porque como vimos la distribución condicional es igual, o casi igual, a la marginal.

La fórmula (2) constituye una derivación de la anterior (1) para el cálculo, pero ambas permiten arribar al concepto de ‘valor esperado’, que no es otro que el de ‘valor promedio’ sin efecto o asociación alguna.

7

La suma por fila, o columna, de los valores observados (n ij ) permite estimar los totales

marginales de cada fila (n i+ ), o columna (n +j ).

La proporción de cada total fila, o columna, en relación al total de casos (n ++ ) como vimos

nos da la probabilidad marginal (alternativamente p i+ o p +j ).

A partir de estos últimos se puede estimar las probabilidades conjuntas esperadas y los

valores esperados.

Dado que: p i+ = n i+ /N (3);

y

p +j = n +j /N (4)

Entonces p ij = p i+ *p +j (2) sustituyendo es

= (n i+ /N ) (n +j /N)

= (n i+ * n +j ) / N 2

Y para las frecuencias o valores esperados la estimación es

Fe ij = N * (p i+ * p +j ) es claro que cuando sustituyo

Fe ij = N * (n i+ /N) * (n

+j

= N * (n i+ * n +j ) / N 2

= (n i+ * n +j )/ N

/N)

(5)

y cuando se cumple p ij = p i+ *p +j (2), entonces

Fe ij = N * p i+ (6)

Cuando 2 variables son independientes las frecuencias esperadas, o ‘valores esperados’, “igualan” (o se aproximan mucho), a las frecuencias observadas.

Las frecuencias esperadas son la ‘distribución teórica’ de las variables si ellas no estuvieran asociadas, y como vemos se estima a partir de las proporciones de las categorías en la muestra ( 1 ).

Las frecuencias esperadas de una tabla son una ‘hipótesis’ sobre cual sería la distribución

de los datos si no hubiera una relación asociativa

Por ello la llaman hipótesis ‘nula’.

Como veremos ambos criterios no alcanzan para ir a fondo en el análisis de los datos.

1 Que como veremos y explicaremos mas adelante son llamados MLE, o Estimativas de Máxima Verosimilitud.

8

1.4. APLICANDO EL OJO.

Un primer paso, cuando tenemos dicotomías es el examen ‘visual’ (‘ojímetro’) a los datos,

que nos permite una forma de estimar asociación e independencia.

Se trata de saber si las proporciones condicionales y marginales son homogéneas o similares. O en otras palabras, ‘que tan lejos’ están las probabilidades condicionales observadas de las probabilidades marginales observadas.

Por un lado sabemos que las proporciones marginales son idénticas en los datos observados y en los esperados. Y por otro lado, por la hipótesis de independencia, sabemos que las probabilidades condicionales esperadas deben ser iguales a sus probabilidades marginales. Entonces, un contraste visual en el que las probabilidades condicionales observadas no se ‘alejen’ mucho de las marginales, ya nos brinda una idea de la situación que enfrentamos.

Otro procedimiento usual y popular son las diferencias entre las proporciones condicionales de los pares de celdas. Cuando estas diferencias son 0 estamos en situación de independencia.

Y sólo cuando esta diferencia supera el 20% estamos ante una relación asociativa

considerable.

Esta inspección visual se dificulta notoriamente cuando nos alejamos de las dicotomías o de tablas de 2 x C categorías. Y no es aplicable cuando representamos los datos con una tabla múltiple en la que están presentes muchas variables.

9

1.5 TEST DE INDEPENDENCIA CON DOS VARIABLES.

En el sentido que se induce arriba queda claro que independencia y asociación se ‘oponen’, y el procedimiento a seguir en una tabla bidimensional es estimar la ‘distancia’ entre el valor esperado y el observado. En las disciplinas observacionales este procedimiento es claro y notorio, porque como sugiere King (1998) ‘el experimento ya pasó’ ( 2 ), y las variables están aleatorizadas por el muestreo que aplicamos, mientras que en las disciplinas experimentales ello supone una estimación necesaria de los casos y las combinaciones de los mismos como para poder poner a prueba la independencia como una de las hipótesis posibles ( 3 ).

En realidad el procedimiento tiene la siguiente lógica:

Dada la Hipótesis nula (H 0 ) que señala los parámetros de independencia:

¿Es posible rechazarla, y proponer una Hipótesis alternativa para explicar el resultado?

Sólo que en nuestro caso, el de las ciencias observacionales, habitualmente invertimos el proceder. De lo que se trata entonces es de una evaluación global de la ‘diferencia’ entre la H 0 y la Hipótesis alternativa.

En primer lugar a la diferencia entre valores observados (n ij , o también fo) y esperados (F ij , o también Fe) se le llama ‘residuo’ (fo-Fe). (Cualquier paquete convencional de estadísticas ofrece este y ‘otros’ tipos de residuos que son de utilidad para el examen de la hipótesis nula).

Que tipo de residuo debemos preferir? Como claramente se ve dado que la suma de los valores esperados iguala a los observados en los marginales respectivos y en el total, es lógico esperar que la suma de los residuos- que tienen alternativamente signos positivos y negativos- sea 0. Por lo que los residuos ‘puros’ en su conjunto no son preferibles para ‘describir’ los datos. No obstante, como veremos seguidamente, su signo (- o +), que estará indicando ‘sobre’ o ‘sub’ representación de los datos observados en relación a la ‘distribución teórica’, sí es importante ( 4 ).

2 Se trata de un ‘experimento natural’ o ‘cuasi-experimento’; en el que sólo se infieren resultado posteriores a la aplicación de las variables independientes, pero no hay mediciones (información) previas. Ver también Shadish,Cook y Campbell (2001), o al menos Cambell y Stanley (1963)

3 Otra prueba interesante es la de homogeneida de muestras, se verá mas adelante. En el fondo lo único que importa es la bondad de ajuste, todos los ejemplos son formas derivadas de ella.

4 Por razones de claridad y estrategia de procedimiento retomaremos el examen de los diferentes tipos de residuos mas adelante.

10

1.5.1. Test de Bondad de ajuste.

Hay dos propuestas de solución que prueban si el conjunto de la información presente en la tabla se aproxima a una distribución conocida o imputable, que son llamados test de ‘bondad de ajuste’, o, corrientemente –e inconvenientemente- : ‘test de independencia’.

Uno es el X 2 de Pearson, usualmente nombrado como ‘test ji cuadrado’,

y el otro es la ‘Razón de verosimilitud,’el G 2 o L 2 según sea el libro.

La solución de Pearson, que conduce a la bondad de ajuste de la información que poseemos SI la independencia fuese verdadera, tiene la formula:

X

2

=

l

c

∑∑

i

=

1 j

=

1

(( n

ij

F

ij

)

2

/ F

ij

)

(7 )

Y, la solución de la Razón de Verosimilitud, que es parecida, y su fórmula es:

G

2

=

2

l

c

∑∑

i

=

1 j

=

1

(( n

ij

* ln( n

ij

/ F

ij

))

Para ambos ejemplos:

n ij : valores observados en la celda F ij : valores esperados en la celda

11

( 8 )

Ambas fórmulas son formas de contrastación de la información en las celdas, y arrojan un valor que sigue una distribución similar a la distribución ‘Ji Cuadrado’, dadas ciertas restricciones. Y mantienen entre sí una diferencia pequeña de valores. (Ver Anexo 1, pp 7-10 Razón de Verosimilitud), (Ver Anexo2: Tabla de Ji cuadrado).

La diferencia entre ambas pruebas no es menor en lo conceptual, aunque suele serlo en los valores obtenidos. La prueba X 2 de Pearson ‘estandariza’ la diferencia cuadratizada entre el valor observado y el valor teórico de la probabilidad. De ese modo mide la distancia o brecha en base a una escala. Esta explicación está sobradamente difundida en todos los libros de texto corrientes.

La prueba de la Razón de Verosimilitud, que ha ganado popularidad en los últimos 30 años, responde a un planteo algo mas ‘complejo’, que invitamos a seguirlo en el Anexo 2 de este manual. Básicamente la Razón de verosimilitud contrasta dos modelos de diferente número de parámetros. Modelos que están ‘anidados’, que tienen los mismos términos salvo uno. Por eso la Razón de verosmilitud es un contraste proporcional entre una hipótesis mas simple y otra mas compleja. Esto la hace preferible a X 2 para modelar hipótesis sobre los datos.

12

1.5.2. Aplicación a un Ejemplo.

Estimaremos a partir d elos datos observados probabilidad conjunta, frecuencias esperadas, probabilidad conjunta esperada, probabilidades condicionales, bondad de ajuste, y disimiliaridad. Y lo pondremos en una ‘tabla resumen’, usando un formato de conteo en un excel.

VALORES OBSERVADOS

Var fila

 

Var col

1

2

Total

1

50

73

123

2

43

21

64

3

80

19

99

Total

173

113

286

VALORES ESPERADOS

Var fila

 

Var col

1

2

Total

1

74,4

48,6

123

2

38,8

25,2

64

3

59,8

39,2

99

Total

173

113

286

PROB CONJUNTAS OBSERVADAS

Var fila

 

Var col

1

2

Total

1

0,175

0,255

0,430

2

0,150

0,073

0,223

3

0,280

0,066

0,346

Total

0,605

0,395

1

PROB CONJUNTAS ESPERADAS

Var fila

 

Var col

1

2

Total

1

0,260

0,170

0,430

2

0,136

0,088

0,223

3

0,209

0,137

0,346

Total

0,605

0,395

1

13

PROB CONDICIONALES OBSERVADAS

Var fila

 

Var col

1

2

Total

1

0,289

0,646

0,430

2

0,248

0,186

0,223

3

0,462

0,168

0,346

Total

1

1

1

PROB CONDICIONALES ESPERADAS

Var fila

 

Var col

1

2

Total

1

0,430

0,430

0,430

2

0,223

0,223

0,223

3

0,346

0,346

0,346

Total

1

1

1

Es posible volcar los datos anteriores para las estimaciones necesarias en la siguiente planilla ( 5 ).

Celda

Fo

Fe

p

ij

pe ij

Resid

Disim

X

2

%P*

Ln(fo/Fe)

fo*Ln(fo/Fe)

n

ij

 

(fo-Fe)

(p

ij -pe ij )

Pearson

1,1

50

74,6

17,5

26,0

-24,6

-8,6

8,11

21

-0,400

-20,0

1,2

73

48,6

25,5

17,0

+24,3

+8,4

12,16

31,5

0,407

29,71

2,1

43

38,9

15

13,6

+ 4,1

+1,4

0,43

1,1

0,100

4,3

2,2

21

25,4

7,3

8,9

-4,4

-1,6

0,76

2

-0,190

-3,99

3,1

80

59,8

28

20,9

+20,2

+7,1

6,82

17,7

0,291

23,28

3,2

19

39,1

6,6

13,6

-20,1

-7,1

10,33

26,7

-0,721

-13,71

Total

286

286

100

100

0

 

0

38,61

100

 

2*19,59=

 

39,18

%P*: contribución de la celda al X 2 Veros: fo*Ln(fo/Fe) Disim (p ij -pe ij )

Según el presente ejemplo pretender explicar los datos con el ‘modelo’ (hipótesis) de ‘independencia’ no es recomendable.

5 Esta es una planilla o ‘tabla de conteos’ o ‘tabla tipo arbolito’, veremos mas adelante que resulta de suma utilidad. Tenga presente, y ello se mostrará mas adelante que en tanto ella es una forma de representar la información también se volverá un tipo de ‘base de datos’, ingresable en los programas de ‘cálculo’ tal cual esta allí, y las columnas de las estimaciones que ahora vemos también las podemos obtener de esos programas (excel o SPSS).

14

El valor del X 2 de Pearson señala una ‘brecha’ importante para 2 grl entre los datos observados y el modelo o hipótesis de independencia. Y lo mismo ocurre con G 2 , la Razón de verosimilitudes. (Los datos quedan a la derecha de la distribución Ji Cuadrado).

Adviértase que ambas pruebas tienen valores muy cercanos, y ambas siguen distribuciones aproximadas a la Ji Cuadrado, por ello es indistinto usarlas en este caso.

Esta brecha nos estima - de manera relativa a la cantidad y calidad de la información - cuanto se ‘alejan’ entre sí los datos observados y el modelo de independencia, propuesto por defecto como explicación. Como veremos mas adelante, el modelo de independencia es mas ‘restringido’ porque pretende usar menos parámetros que el observado, y con ello entonces la ‘perdida’ de información es sustantiva y no es recomendable ( 6 ).

6 Veremos, más adelante, que aunque la propuesta de Pearson y de la verosimilitud convergen, implican modos diferentes de ver el ‘ajuste’ a los datos.

15

1.5.3. Disimilaridad.

Un proceder semejante al de los residuos entre fo y Fe es examinar la brecha entre las probabilidades conjuntas observadas y esperadas, que no es más que la ‘discrepancia’ o ‘disimilaridad’ entre los porcentajes que arrojan las fo (n ij ) y las Fe (F ij ) en relación al N en cada caso. Para este proceder numerosos autores proponen un ‘Indice de Disimilaridad’ para complementar el criterio de la bondad de ajuste. ( 7 )

Dos caminos para hacerlo:

Sumar las diferencias ‘absolutas’ - sin signo- entre las probabilidades observadas y las esperadas de todas las celdas, y dividir por 2.

∑∑ | p ij – pe ij | / 2

Sólo sumar las diferencias positivas entre las probabilidades observadas y las esperadas. O si prefiere, o sólo las negativas.

Su resultado indica la discrepancia entre lo observado y lo esperado.

Este resultado es la proporción de casos que debería reclasificarse para llegar a la situación de independencia desde la situación observada.

En nuestro ejemplo habría que reclasificar al 17,2% de los casos para lograr el modelo de independencia, lo cual es indicativo de que ese modelo es una alternativa muy mala para lo que observamos.

La literatura mas recibida recomienda preferir un ‘modelo’ según el índice de disimilaridad cuando su valor es inferior al 2%.

7 Este es un índice que ya vimos en otros cursos!! Y es una versión corregida de la diferencia porcentual entre condicionales que vimos en 1.4.

16

1.6. LAS CHANCES Y CHANCES RELATIVAS (odds y odds ratio).

1.6.1. Generalidades.

Una forma alternativa y equivalente a la fundada en las probabilidades estimadas y esperadas es la basada en las chances y chances relativas. También se les denomina ventajas y ventajas relativas, o momios y razones de momios, u odds y odds ratio, en la literatura convencional. Su estimación es más directa y como se verá mas adelante los paquetes de cálculo las prefieren.

La chance es la ventaja de ser i dado j frente a ser j dado j. Es una razón que se estima entre

dos valores. Da una idea de competencia u oportunidad. Obviamente se deriva de una

tradición matemática vinculada a los juegos de azar. Y a los efectos de los cálculos, como

se verá, permite muchas mas opciones que los procedimientos anteriores.

Cuando se aplica a los valores marginales se denomina chance marginal.

Cuando se aplica a los valores internos de la tabla se denomina chance condicional.

Las chances condicionales son muy importantes, y sirven para estimar las ventajas de un resultado frente a otro. Por ejemplo ser B i antes que B j dado que se es A i .

Las chances o ventajas o momios u odds no son proporciones como vimos hasta ahora sino razones. Las proporciones se estiman sobre el total fila, o columna, y sobre el total de la tabla.

Y por ello son indicativas de los tipos de probabilidad que ya vimos (condicional y

conjunta).

probabilidades)

observados.

Las

chances

u

odds

son

razones

que

relacionan

dos

resultados

(o

Chance y probabilidad implican conceptos diferentes, pero relacionados entre sí:

Uno, trata una ventaja de ocurrencia (o mejor dicho, de lo ocurrido);

y

el otro, la proporción de los casos de una combinación en el total de casos,

o

en el total de casos por fila o columna.

Así es fácil ver que: odd = probabilidad/(1 - probabilidad); y alternativamente: probabilidad = odd/(1 + odd). Haga esta prueba por su bien.

Es usual que entre los diversos resultados que aporta una tabla, se relacione las chances que se observan. La nueva forma de comparación que surge es una ‘razón de chances’, o sea una razón de las razones previamente observadas, y se la denomina ‘chance relativa’, o ‘ventaja relativa’, u ‘odds ratio’, o ‘razón de momios’.

La ‘chance relativa es idéntica’ al ‘producto cruzado’ de una tétrada de celdas, por razones aritméticas claras.

17

1.6.2. ¿Qué comparo cuando leo una razón de chances, o chance relativa?

La ventaja de ser Bi antes que Bj dado que se es Ai, frente a ser Bi antes que ser Bj dado que se es Aj. La razón de chances, u odds ratio, estima y mide una ventaja que nos interesa en relación a una ‘base de comparación’. Es propio de las apuestas complejas como se ve, pero también de la realidad compleja, como la de las CCSS y otras ciencias observacionales.

Volvamos a nuestro ejemplo anterior, y ‘pongamos sustancia’:

VALORES OBSERVADOS

Var fila

 

Var col: generaciones

Voto

1=Joven

2=Viejo

Total

1=Pcol

50

73

123

2=Pnal

43

21

64

3=FA

80

19

99

Total

173

113

286

La chance de 1,1 frente a 1,2 , es decir de ser 1 antes que 2 dado que son ambos 1, o en categorías de ser joven y votar colorado respecto a ser viejo y votar colorado, es (50/73) = 0,68. La chance de ser joven y votar colorado es casi un tercio menor para los jóvenes respecto de los viejos. La chance de 3,1 frente a 3,2 , es decir de ser 1 antes que 2 dado que son ambos 3, o en categorías de ser joven y votar FA respecto a ser viejo y votar FA, es (80/19)=4,21. La chance de ser joven y votar FA es 4 veces mayor para los jóvenes que para los viejos.

La chance relativa u odds ratio es la razón de ambas razones. Así:

(50/73) / (80/19), que equivale a (50 x 19) / (80 x 73), da por resultado 0,16.

Entonces la chance de votar colorado en los jóvenes se reduce a 1/6, y por su parte la chance de votar FA en los viejos se reduce a 1/6. O, puesto de otra manera mas contundente: la chance relativa de votar FA antes que colorado es casi 6 veces superior en los jóvenes que en los viejos, y viceversa la chance relativa de votar colorado antes que FA en los viejos es 6 veces mayor que en los jóvenes.

Esta forma de examinar los datos permite ‘partir’ la tabla en aquellas regiones que nos sean de interés, y localizar componentes asociativos de importancia.

18

1.6.3. PROPIEDADES DE LAS CHANCES RELATIVAS U ODDS RATIO.

Como veremos mas adelante las ‘chances relativas’ u ‘odds ratio’ son ‘preferidas para realizar estimaciones de modelos para datos tabulares por dos razones fundadas: por un

lado tienen ‘propiedades deseables’, y por otro lado permiten realizar estimaciones en base

a métodos de cálculo -llamados algoritmos-.

Podemos enumerar las siguientes propiedades de las odds ratio:

1. Son siempre positivas.

2. Son invariantes, porque

Si se multiplica cada celda por una constante k

(50*k/73*k) / (80*k/19*k) = (50/73) / (80/19)

y si luego, si se multiplica cada columna (o fila) por una constante diferente

(50*c/73*k) / (80*c/19*k) = (50/73) / (80/19)

y como ya vimos es indistinto el orden en que consideremos a las filas y columnas.

Esta propiedad es muy importante!! porque las chances relativas u odds ratio son invariantes a los cambios en las distribuciones marginales de cada categoría. ( 8 )

3. Cuando el resultado de la chance relativa adquiere valor igual a 1 es sinónimo de independencia (NO asociación) en la dicotomía o tétrada de celdas que se considera.

4. Cuando adquiere valor mayor o menor que 1 es sinónimo de asociación.

5. Si bien su distribución se sesga hacia la derecha, porque la chance relativa u odds ratio varía entre 0 y + , ello se ‘corrige’ en los paquetes estadísticos convencionales estimando el log odds ratio, o logaritmo natural de la razón de chances, que varía entre - y + , con el valor 0 como indicativo de independencia.

6. (Regla no escrita) Cuando la chance relativa adquiere valores menores que 0,45 o mayores que 2,25, se puede estar seguro que en esa dicotomía, o en esa tétrada de celdas de una tabla l x c como fue nuestro ejemplo, se está frente a una relación asociativa considerable.

8 Quiere decir que la muestra puede crecer, pero la relación observada permanece constante; esto es muy importante para el trabajo con algoritmos!!

19

CLASE 2: PROPIEDADES DE JI CUADRADO Y APLICACIONES DE LA BONDAD DE AJUSTE.

2. 1. RECUERDOS DE JI CUADRADO.

La distribución χ 2

La distribución χ 2 es una distribución teórica de probabilidad como la distribución normal que toma sus parámetros de los grados de libertad.

No es simétrica y comienza en 0.

Cuanto mas grados de libertad mas se ‘achata’ la distribución y mas a la derecha se desplaza la distribución.

Las probabilidades son ‘áreas’ bajo la curva. Las áreas bajo la curva corresponden a la probabilidad de que el valor caiga en el intervalo de importancia.

Por ejemplo, el 50% de las veces una variable χ 2 con 5 gr.l estará en un rango de

0-4.35,

pero el 99% de las veces el valor caerá bajo 15.09, lo que significa que sólo hay 1%

de chance obtener al azar una variable χ 2 con 5 gr.l por encima de este nivel.

20

21
21

21

2.2. PROPIEDADES DE χ 2 .

1.

Una distribución de χ 2 con v grados de libertad esta definida como:

Ji

cuadrado = sumatoria de v variables normales estandarizadas.

2

χ = Z

v

2

1

2

+ Z +

2

Z

2

v

2.

El valor medio de una distribución χ 2 con v grados de libertad es v.

Y

su desvío estándar es 2v. Por ello la distribución χ 2 se aproxima a la normal cuando v

es

grande; es decir mayor que 30.

3.

Otra propiedad derivada es que si G y H son variables aleatorias independientes, cada

una con distribuciones χ d y χ e , entonces la reunión de ambas en una nueva variable W tiene una distribución ji cuadrado igual a χ d+e .

4. A partir de 1 y 3 es claro que cuando se tiene una distribución χ 2 con v grados de libertad, ella puede ‘descomponerse’ en un número “v” de elementos independientes que también se distribuyen como χ 2 con 1 grado de libertad.

22

2.3. LOS GRADOS DE LIBERTAD.

El número de celdas de la tabla (las combinaciones posibles de categorías) es el producto del número de celdas en las filas por el número de celdas en las columnas.

Este número de celdas equivale a la suma de los grados de libertad (gr.l) y de las restricciones impuestas (o número de parámetros de cálculo necesarios), y tiene la siguiente forma general:

número de filas x número de columnas

=

número de celdas

número de restricciones + grados de libertad

=

número de celdas

l x c = 1+(l-1)+(c-1)+(l-1)(c-1)

(9)

Es fácil ver que los grados de libertad son la diferencia entre el número de celdas y el número de parámetros para una tabla bidimensional. En consecuencia para cualquier tabla bidimensional los grados de libertad son:

gr.l= (l x c) – l –c +1 = (l x c) – (l +c –1) = (l-1) (c-1)

(10)

Vemos que la formula 10 corresponde a los grados de libertad necesarios para la testar la hipótesis de independencia estadística.

Ejemplo para una tabla l x c

=

2 x 2

2 x 2 = 1+ (l-1)+(c-1)+(l-1)(c-1) = 1+2-1+2-1+(2-1)(2-1)=1+1+1+1=4

gr.l.

(2-1) (2-1) = 2 x 2 – [1+ (2-1)+(2-1)]= 1

1

x

1

=

2 x 2 – 1 – 1 – 1 = 1.

23

2.4. DESCOMPONIENDO TABLAS Y TEST DE BONDAD DE AJUSTE.

2.4.1. ¿Por qué descomponer la tabla y el test de ji cuadrado?

Por varios motivos:

1. El principal, es el de ‘rastrillar’ dónde se encuentran los principales ‘puntos

de apoyo’ al resultado del test. Y, ello obviamente supone ‘formas’ de evaluar esos ‘puntos de apoyo’.

2. El segundo, es que si bien puedo rechazar a nivel global el test, en un ejemplo

dado cualquiera, puedo reconocer que a nivel de ciertas ‘regiones’ de la tabla tengo relaciones entre las categorías de las dos variables en cuestión, que son apreciables.

2.4.2. Como lo puedo hacer?: DE VARIAS MANERAS.

A partir del siguiente ejemplo, donde se examina la relación entre la Condición de actividad económica y el acuerdo o desacuerdo con la aplicación de golpes a los niños para disciplinarlos (Lo trae SPSS!!!), veremos hasta dónde podemos llegar con las estimaciones de probabilidades conjuntas y condicionales, y cómo los diferentes tipos de ‘residuos’ pueden ayudarnos a explorar nuestros datos.

No es una teoría, es sólo un ejemplo ‘forzoso’ de cómo recuperar la información una vez que el experimento ‘ya pasó’. Nuestro punto de partida es la siguiente hipótesis:

“Existe una ‘cierta asimetría’ en las preferencias de los adultos por el método de disciplinamiento de los niños dada su condición de actividad”. De manera intuitiva esta hipótesis sostiene que cuánto se está ‘más lejos de los niños’ se prefiere un método disciplinario diferente a cuánto ‘más cerca’ de ellos se está. O en palabras ‘mundanas’, quién esté mas cerca de ellos en el hogar sería ‘mas blando’ que quien trabajara todo el día fuera del hogar.

2.4.2.a Arrancando con lo que sabemos

La tabla 1 tiene las frecuencias observadas,

La tabla 2 estima las frecuencias esperadas.

No se detenga en el test de bondad de ajuste ahora, haga como que no lo tiene.

La tabla 3 acerca la probabilidad conjunta, cuánto es la probabilidad conjunta esperada? Haga el índice de disimilaridad…

Se aproximan los ejemplos a la independencia según hipótesis?

qué observa respecto de la

Siga adelante, …si sólo tuviera las tablas 4 y 5 hipótesis de independencia?

24

UN EJEMPLO CONMOVEDOR:

GOLPEAR A LOS NIÑOS PARA DISCIPLINARLOS POR CONDICION DE ACTIVIDAD DEL ENTREVISTADO.

TABLA 1: FRECUENCIAS OBSERVADAS

Golpear a los niños para disciplinarlos

 

Condición de actividad

 

Fulltime

Part time

Desocup

Retirado

Cuidado

Total

de hogar

Muy de

102

28

11

47

28

216

acuerdo

De

254

55

29

75

71

484

Acuerdo

En

100

28

11

25

26

190

Desacuerdo

Muy en

33

10

4

7

10

64

desacuerdo

Total

489

121

55

154

135

954

Chi-Square Tests

 

Value

Df

Asymp. Sig. (2-sided)

Pearson Chi-Square

9,788

12

,635

Likelihood Ratio Linear-by-Linear Association

9,568

12

,654

1,460

1

,227

N of Valid Cases

954

a 1 cells (5,0%) have expected count less than 5. The minimum expected count is 3,69.

TABLA 2: FRECUENCIAS ESPERADAS

Golpear a los niños para disciplinarlos

 

Condición de actividad

 

Fulltime

Part time

Desocup

Retirado

Cuidado

Total

de hogar

Muy de

110,7

27,4

12,5

34,9

30,6

216

acuerdo

De

248,1

61,4

27,9

78,1

68,5

484

Acuerdo

En

97,4

24,1

10,9

30,7

26,9

190

Desacuerdo

Muy en

32,8

8,1

3,7

10,3

9,1

64

desacuerdo

Total

489

121

55

154

135

954

25

TABLA 3: PROBABILIDADES CONJUNTAS (% del Total )

Golpear a los niños para disciplinarlos

 

Condición de actividad

 

Fulltime

Part time

Desocup

Retirado

Cuidado

Total

de hogar

Muy de

10,7

2,9

1,2

4,9

2,9

22,6

acuerdo

De

26,6

5,8

3,0

7,9

7,4

50,7

Acuerdo

En

10,5

2,9

1,2

2,6

2,7

19,9

Desacuerdo

Muy en

3,5

1,0

,4

,7

1,0

6,7

desacuerdo

Total

51,3

12,7

5,8

16,1

14,2

100,0 %

TABLA 3b : PROBABILIDADES CONJUNTAS ESPERADAS (% del Total )

Golpear a los niños para disciplinarlos

 

Condición de actividad

 

Fulltime

Part time

Desocup

Retirado

Cuidado

Total

de hogar

Muy de

11,6

2,9

1,3

3,7

3,2

22,6

acuerdo

De

           

Acuerdo

26,0

6,4

2,9

8,2

7,2

50,7

En

           

Desacuerdo

10,2

2,5

1,1

3,2

2,8

19,9

Muy en

3,4

0,8

0,4

1,1

1,0

6,7

desacuerdo

Total

51,3

12,7

5,8

16,1

14,2

100,0

26

PROBABILIDADES CONDICIONALES

TABLA 4: % SEGÚN CONDICION DE ACTIVIDAD

Golpear a los niños para disciplinarlos

 

Condición de actividad

 

Fulltime

Part time

Desocup

Retirado

Cuidado

Total

de hogar

Muy de

20,9

23,1

20,0

30,5

20,7

22,6

acuerdo

De

51,9

45,5

52,7

48,7

52,6

50,7

Acuerdo

En

20,4

23,1

20,0

16,2

19,3

19,9

Desacuerdo

Muy en

6,7

8,3

7,3

4,5

7,4

6,7

desacuerdo

Total

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

TABLAS 5: % POR GOLPEAR A LOS NIÑOS PARA DISCIPLINARLOS

Golpear a los niños para disciplinarlos

 

Condición de actividad

 

Fulltime

Part time

Desocup

Retirado

Cuidado

Total

de hogar

Muy de

47,2

13,0

5,1

21,8

13,0

100,0%

acuerdo

De

52,5

11,4

6,0

15,5

14,7

100,0%

Acuerdo

En

52,6

14,7

5,8

13,2

13,7

100,0%

Desacuerdo

Muy en

51,6

15,6

6,3

10,9

15,6

100,0%

desacuerdo

Total

51,3

12,7

5,8

16,1

14,2

100,0%

27

2.4.2.b Aplicando los diferentes tipos de RESIDUOS.

Como en el análisis de regresión - en el curso anterior- el análisis de los residuos es importante porque conduce a la inspección visual o gráfica de cómo ajustan los datos a la hipótesis con la cual queremos representar la información. Las siguientes varias formas de proceder nos aportan la contribución por celda a la bondad de ajuste de la hipótesis que proponemos y los datos que obtuvimos en nuestra muestra.

1) La forma mas elemental es el examen de los residuos no estandarizados. Como vimos ellos nos aportan un signo, que al indicar sobre o sub representación en la celda señala una ‘dirección’ asociativa en ella. Pero no olvidemos que la suma de todos ellos es

igual a 0. Este ‘residuo’ nos la aporta el SPSS y podemos pedirle una tabla con ellos. Tabla

6.

TABLA 6: RESIDUOS NO STANDARIZADOS (fo-Fe)

Golpear a los niños para disciplinarlos

 

Condición de actividad

 

Fulltime

Part time

Desocup

Retirado

Cuidado de

hogar

Muy de

-8,7

,6

-1,5

12,1

-2,6

acuerdo

De

5,9

-6,4

1,1

-3,1

2,5

Acuerdo

En

2,6

3,9

,1

-5,7

-,9

Desacuerdo

Muy en

,2

1,9

,3

-3,3

,9

desacuerdo

2) Una segunda forma es la estimación porcentual de la contribución de cada celda al test de bondad de ajuste. En este caso tenemos los residuos cuadratizados estandarizados por su valor esperado en el caso del test X 2 , Tabla 7 (o bien podríamos haber hecho el producto del valor observado por el Ln del cociente entre los valores observados y los esperados en el caso de G 2 ) (Hágalo en casa con la fórmula de la tabla pp14!!). La Tabla 8 indica el peso en la contrinución al test X 2 de cada celda.

28

TABLA 7: RESIDUOS CUADRATIZADOS: (fo-Fe) 2 /Fe

Golpear a los niños para disciplinarlos

 

Condición de actividad

 

Fulltime

Part time

Desocup

Retirado

Cuidado de

hogar

Muy de

,64

,01

,16

4,41

,25

acuerdo

De

,16

,64

,04

,16

,09

Acuerdo

En

,09

,64