Sunteți pe pagina 1din 53

Anlisisdevariablescategricas

SantiagodelaFuenteFernndez
Anlisisdevariablescategricas

SantiagodelaFuenteFernndez
Anlisisdevariablescategricas
VARIABLESCUALITATIVAS

Lasvariablescualitativassonaquellascuyosvaloressonunconjuntodecualidadesnonumricasa
lasqueselesuelellamarcategoras,modalidadesonivelesejemplos:sexo(mujer,hombre),
filosofapoltica(liberal,moderada,conservadora),estadocivil(soltero,casado,divorciado,viudo),
niveldeestudios(ninguno,primario,medio,universitario),etc.

Unapropiedaddeseabledelascategorasesqueseanexhaustivas(proporcionensuficientesvalores
paraclasificaratodalapoblacin)ymutuamenteexcluyentes(cadaindividuoseclasificaenunay
solounacategora).

Aprimeravista,laexhaustividadpuedeparecermuyrestrictiva:puedequesedeseesaberque
opinanlosliberalesyconservadoresfrentealalegalizacindelaborto.Enestecaso,lacuestinse
resuelveredefiniendolapoblacinmedianteeliminacindelosmoderados.

CLASIFICACINDEVARIABLESCUALITATIVAS

Hayvariasformasdeclasificarlasvariablescualitativas:

1. Variablesdicotmicasypolitmicas(segnelnmerodecategoras)

Dicotmicas:Solohaydosmodalidades.Ejemplo,padecerunaenfermedad(S,No),Sexo
(Hombre,Mujer),Resultadodeunaoposicin(Aprobar,Suspender),engenerallosfenmenos
derespuestabinaria.

Politmicas:Cuandohaymasdedoscategoras.Ejemplo,fenmenosderespuestamltiple,
lugardenacimiento,clasesocial,etc.

2. Escalasnominal,ordinalyporintervalos(segnlaescalademedidadelascategoras)
Nominal:Nosepuededefinirunordennaturalentresuscategoras,porejemplo,laraza
(blanca,negra,otra),lareligin(catlica,juda,protestante,otra),etc.

Ordinal:Esposibleestablecerrelacionesdeordenentrelascategorasloconduceaestablecer
relacionesdetipomayor,menor,igualopreferenciaentrelosindividuos.Porejemplo,elrango
militar(soldado,sargento,teniente,otro),laclasesocial(alta,media,baja),etc.
Sinembargo,nosepuedenevaluardistanciasabsolutasentrecategoras.As,sepuededecir
queunapersonadeclasealtatienemayorpoderadquisitivoqueunapersonadeclasemedia,
peronosepuededecirexactamenteculesladiferenciaenpoderadquisitivoentreambas.

PorIntervalo:Procedendevariablescuantitativasagrupadasenintervalos.Estasvariables
puedensertratadascomoordinalesperoparaellassepuedencalcular,adems,distancias
numricasentredosnivelesdelaescalaordinal,ejemplosdeestetiposonelsueldo,laedad,los
dasdelmesoelniveldepresinsangunea.

Existenvariablesquepuedensermedidasenescalanominal,ordinalocuantitativa.Porejemplo,el
tipodeeducacin(privado,pblico)esnominal,elniveldeeducacin(primaria,secundaria,
universitaria,postgraduado)esordinal,yelnmerodeaosdeeducacin(0,1,2,...)es
cuantitativa.

Losmtodosestadsticospropiosparaanalizarvariablesnominalespuedenserusadosparavariables
ordinalesperonoalrevs.Lomejoresusarmtodosapropiadosparacadatipodeescala.

SantiagodelaFuenteFernndez1
Anlisisdevariablescategricas
TABLASDECONTINGENCIA:VARIABLESNOMINALES

Variablenominalesaquellaqueconllevainformacinsobreunconjuntodevaloresnoordenado.

Latabladecontingenciarecoge nij incidenciasentredosvariablesnominales (xi , y j )

Y yj
y1 y2 ....... ....... ym
X
n11 n12 n1 j n1m
x1 ....... N1
(e 11 ) (e 12 ) ....... (e 1 j ) (e 1m )

n21 n22 n2 j n2m


x2 ....... N2 m
(e 21 ) (e 22 ) ....... (e 2 j ) (e 2m ) Ni = nij
j =1
M M M M M M
.......
M M M M M M k
ni1 ni2 nij nim N j = nij
xi ....... ....... Ni i =1
(e i1 ) (e i2 ) (eij ) (e im )

M M M M M N = Ni = N j
....... ....... i j
M M M M M
nk1 nk2 nkj nkm
xk ....... ....... Nk
(e k1 ) (e k2 ) (e kj ) (e km )

N1 N 2 N j Nm N

Seanalizandosvariables(queadmitendistintasmodalidades)medianteunatablade
contingencia,endondeunaocupalasfilasyotralascolumnas.
Lainterseccinentreunafilayunacolumnadalugaraunaceldaocasilla,cuyafrecuencia
observadaes nij

Secontrastalahiptesisnulaquepresuponelaindependenciaentreambasvariables,mediante
elestadstico 2 dePearson.

H0 : Ambas var iables son independie ntes



H1: Existe una relacin de dependenci a

Sedefineelestadsticoobservado:

k m (nij eij )2
= 2(k 1). (m1)
i =1 j =1 eij

quesigueasintticamenteunadistribucin 2 con (k 1).(m 1) gradosdelibertadsiesciertala


hiptesisnula H0 ,con eij > 5 , 1 i k , 1 j m (encasocontrario,esnecesarioagruparfilaso
columnascontiguas).

Laregincrticaparaelcontrastedeindependenciasedetermina: P (2k 1). (m1) k / H0 = [ ]


As,pues,paraunniveldesignificacin :

(2k 1).(m1) < 2;(k 1).(m1) Se acepta H0 (no existe diferencia significativa al nivel )
2 2
(k 1).(m1) ;(k 1).(m1) Se rechaza H0 (existe diferencia significativa al nivel )
SantiagodelaFuenteFernndez2
Anlisisdevariablescategricas
Muyfrecuentemente,seutilizaparaversiexisteonorelacinentreloscaracteres(X,Y),esdecir,si
sononoindependientes.Entoncesrecibeelnombredecontrastedeindependenciadecaracteres:

(2k 1).(m1) < 2;(k 1).(m1) X e Y son independie ntes al nivel


2 2
(k 1).(m1) ;(k 1).(m1) X e Y no son independie ntes al nivel

k m (ni j ei j ) 2 k m n2ij
Esmuytillaigualdad: = N
i=1 j=1 e ij i=1 j=1 e ij

Sig.a sinttica(p _ value) 0,05 Se rechaza H0


SPSS
Sig.a sinttica(p _ value) > 0,05 Se acepta H0

Entablas2x2lasdecisionesconcernientesalusodelaprueba 2 debeguiarseporlas
recomendacionesdeCochran:

Y
y1 y2
X
x1 n11 n12 n11 + n12
x2 n21 n22 n21 + n22
n11 + n21 n12 + n22 N

) Cuando N > 40 sedebeutilizarcorregidaporlacontinuidad:


2
N
N n11 .n22 n12 .n21
12 = 2
(n11 + n12 )(n21 + n22 )(n11 + n21 )(n12 + n22 )

) Cuando 20 N 40 ,sedebeutilizarsiemprequelasfrecuenciasesperadas (eij > 5) sean


superioresa5.SifuesemspequeaseutilizaralaPruebaexactadeFisher.

) Cuando N < 20 seutilizasiemprelaPruebaexactadeFisher.

PRUEBAEXACTADEFISHER.Esunatcnicavlidatantoparadatosnominalesuordinales,
siemprequelamuestraseapequea.

Lapruebadeterminasilosgruposdifierenenlaproporcincorrespondientealasclasificaciones.

Secaracterizaporquenoutilizaunaaproximacindeprobabilidadsinoladistribucinde
probabilidadexactadelaconfiguracindelasfrecuenciasobservadas.

Comoparatotalesmarginalesfijos,ladistribucindeprobabilidaddelasfrecuenciasobservadas
sigueunaleyhipergeomtrica,enelcasodequelasdosvariablesobservadassean
independienteslaprobabilidadpdeobtenercualquierdisposicindelas nij vienedadapor:

(n11 + n12 )! (n21 + n22 )! (n11 + n21 )! (n12 + n22 )!


p =
n11! n12! n21! n22! N!

SantiagodelaFuenteFernndez3
Anlisisdevariablescategricas
Test Test+ Marginal
Hombres 10 0 10 (10 + 0)! (4 + 5)! (10 + 4)! (0 + 5)!
p = = 0,0108
Mujeres 4 5 9 10! 0! 4! 5! 19!
Marginal 14 5 19

Laprobabilidaddeladistribucindefrecuenciases p = 0,0108 .

Ahorabien,enesteejerciciohasidofcildecalcularporqueenunadelasceldillasexisteuna
frecuenciacero.

Enotroejemplo,dondenoexisteunceroenningunaceldilla:

(b) Test Test+ Marginal


Hombres 1 6 7 (1 + 6)! (4 + 1)! (1 + 4)! (6 + 1)!
pb = = 0,04399
Mujeres 4 1 5 1! 6! 4! 1! 12!
Marginal 5 7 12

Sinalterarlostotalesmarginales,unaposibilidadmsextremaseralaqueapareceenlatabla:

(c) Test Test+ Marginal


Hombres 0 7 7 7! 5! 5! 7!
pc = = 0,00126
Mujeres 5 0 5 0! 7! 5! 0! 12!
Marginal 5 7 12

Laposibilidaddeocurrenciadelatablaes:
p = pb + pc = 0,04399 + 0,00126 = 0,04525 < 0,05 =

p = 0,04525 eselvalorqueseutilizaparasabersilosdatosdelatablapermitenrechazarla
hiptesisnula H0 ,como p = 0,04525 < 0,05 = ,serechazalahiptesisnulaconcluyendoquelos
testafectanenmayormedidaaloshombres.

Seobservaquesielvalormspequeodelatabladecontingenciaesmuygrande,lapruebade
Fisherpuedesercomplicadadecalcular(selvalormspequeofuera2habraquedeterminar
tresprobabilidadesexactasysumarlas,sfuera3habraquedeterminarcuatroprobabilidades
exactasysumarlas,yassucesivamente).

MODIFICACIONESDETOCHER:ConunapequeamodificacindelapruebadeFisher,Tocherprob
(1950)queseconsigueunapruebamspoderosaparadatosdeunatabla2x2.

Parailustrarlamodificacin,separtedelatabla:

(a) Test Test+ Marginal


Hombres 2 5 7 (2 + 5)! (3 + 2)! (2 + 3)! (5 + 2)!
pa = = 0,26515
Mujeres 3 2 5 2! 5! 3! 2! 12!
Marginal 5 7 12

Laprobabilidadasociadaconlaocurrenciadevalorestanextremoscomolaspuntuaciones
observadas(a)conformealahiptesisnulaser:
p = pa + pb + pc = 0,26515 + 0,04399 + 0,00126 = 0,31040 > 0,05 =

SantiagodelaFuenteFernndez4
Anlisisdevariablescategricas
p = 0,31040 eslaprobabilidadencontradaconlapruebaFisher,quesiendomayorqueelnivelde
significacin = 0,05 ,conducearechazarlahiptesisnula.

LaprobabilidaddeTocherdeterminaantestodosloscasosextremos(b)y(c)sinincluiranel
observado(a),conlocual: pb + pc = 0,04399 + 0,00126 = 0,04525

p(casos ms raros extremos) (Pb + Pc )


Yrecomiendaelclculodelaproporcin: pT = =
p(casos observados aisladamen te) Pa
0,05 0,04525
pT = = 0,0179
0,26515

MEDIDASDEASOCIACIN

Encasoderechazarlaindependenciaentrelosdosfactoresdeunatabladecontingencia,seplantea
lanecesidaddedefinirndicesquedescribannosololaintensidaddelaasociacin,sinotambinsu
direccin.Elestudiodeestosndices,queseconocenconelnombregenricodemedidasde
asociacin.

Paradetectarlasfuentesdeasociacinexistendiferentesmtodos,unosdirectos,yotrosde
conversinentablas2x2.Entrelosdirectos,elanlisisderesiduos,yentrelossegundos,laparticin
delatablaoriginalentablas2x2.

ANLISISDELOSRESIDUOS

Losresiduossonlasdiferenciasentrelafrecuenciaobservadaylafrecuenciaesperadaencada
casilla: rij = nij eij .Enelcasodequeelcontrastede 2 hayaresultadosignificativo,estosresiduos
indicarnqucasillascontribuyenenmayorgradoalvalordelestadstico.

Cuantomayorseaelvalordelosresiduosmayoreslaprobabilidaddequeunadeterminada
combinacindevaloresdelasvariables,estoes,unacasilla,seasignificativa.

Paraqueelanlisisdelosresiduosresulteadecuadoesnecesarioquepreviamentestoshayansido
ajustadosyestandarizados,paralocualsesueleaplicarlafrmulapropuestaporHaberman(1978),
queconsisteendividirelvalordelresiduoencadacasillaporsuerrortpico.

nij eij
Residuostipificados rij =
eij
rij (nij eij ) / eij
Residuostipificadoscorregidos dij = = N(0,1)
V(rij ) Ni N j
1 1
N N

SantiagodelaFuenteFernndez5
Anlisisdevariablescategricas
Ni . N j
Ejemplo.Sealatablaadjunta, e ij = ,()valorSPSS
N
OpininSistemaPblico Bueno Regular Malo
Nivelrenta Total
(1) (2) (3)
Bajo 75 35 40 150
(1) (e 11 = 51) (e 12 = 48) (e 13 = 51) (150)
Medio 60 70 50 180
(2) (e 21 = 61,2) (e 22 = 57,6) (e 23 = 61,2) (180)
Alto 20 30 40 90
(3) (e 31 = 30,6) (e 32 = 28,8) (e 33 = 30,6) (90)
MuyAlto 15 25 40 80
(4) (e 41 = 27,2) (e 42 = 25,6) (e 43 = 27,2) (80)
170 160 170
Total 500
(170) (160) (170)

e 11 = 150.170 = 51 e 21 = 180.170 = 61,2 e 31 = 90.170 = 30,6 e 41 = 80.170 = 27,2


500 500 500 500

nij eij Ni N j
rij = residuostipificados V(rij ) = 1 1
eij N N
3,3607 1,5403 1,8764 0,4620 0,4620 0,7176
0,1534 1,4316 1,6338 0,4224 0,4224 0,4352
1,9162 1,6930 0,2236 0,5412 0,5412 0,5576
2,3392 2,4542 0,1186 0,5544 0,5544 0,5712

75 51 60 61,2 20 30,6 15 27,2


r11 = = 3,3607 r21 = = 0,1534 r31 = = 1,9162 e 41 = = 2,3392
51 61,2 30,6 27,2

N1 N1 150 170 N2 N1 180 170


V(r11 ) = 1 1 = 1 1 = 0,4620 V(r21 ) = 1 1 = 1 1 = 0,4224
N N 500 500 N N 500 500

rij
dij = residuostipificadoscorregidos Comparandolosvaloresabsolutosdelosresiduos
V(rij )
tipificadoscorregidosconelcorrespondientevalor
4,9444 2,2661 2,7198 tabulardelanormal,paraunniveldesignificacindel
0,2360 2,2028 2,4766 5%(>1,96),seobservaquemuchosresiduosson
2,6046 2,3098 0,2995 significativos.
3,1416 3,2960 0,1569

Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:<<Hayun
mayornmero,considerablementealtoysuperioraldeotrasclasessociales,deencuestadosque
pertenecenaunaclasebaja(valor4,9444)yposeenunaopininfavorablesobrelaopininpblica.
Porelcontrario,laopinindelasclasesaltasymuyaltastienenunapercepcinclaramente
negativa.Deestemodo,seevidenciaqueexisteunarelacinydeltipoqueessta>>.

Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraque
mientraselcontrasteusualtrabajacon (k 1)(m 1) elementosindependientes,elcontrastepor
cadaceldaimplicaquelatotalidaddelosresiduostipificados dij sonindependientesycadaunode
ellosseajustaaunadistribucinterica N(0,1) .

SantiagodelaFuenteFernndez6
Anlisisdevariablescategricas

Anlisisdelosresiduos
Haydiferenciassignificativas:

1.Prescindiendodelsigno,losvalores>1,96

2.Conlosvalores>1,96,seanalizaelsigno

) Signonegativo:frecuenciainferioralaterica,seinfiereunarelacinnegativa
entrelosnivelesdelasvariables.

)Signopositivo:relacinpositiva.

EnSPSS:EnEditordedatosseintroducelatabladevalores.EnVistadevariablesseobservacomo
enlavariable(Opinin_sistema_sanitario)sehanintroducidolosvalores(1=Bueno,2=Regular,
3=Malo).Anlogamente,enlavariable(Nivel_renta)sehanintroducidolosvalores(1=Bajo,
2=Medio,3=Alto,4=MuyAlto),ambasvariablesnominales;mientrasquelavariable
(Frecuencia)lamedidaesescala.

Enelmen[Analizar/Estadsticosdescriptivos/Tablasdecontingencia]seintroduceenFilas
(Nivel_renta)yenColumnas(Opinin_sistema_sanitario).

SantiagodelaFuenteFernndez7
Anlisisdevariablescategricas

Enelbotn[Casillas]se
seleccionanFrecuencias
yResiduos.

SantiagodelaFuenteFernndez8
Anlisisdevariablescategricas
Advirtasequeconlatabladelasfrecuenciasobservadas (nij ) yesperadas (eij ) secalculael
Ni . N j
estadstico 2 dePearson: e ij =
N

OpininSistemaPblico Bueno Regular Malo


Nivelrenta Total
(1) (2) (3)
Bajo 75 35 40 150
(1) (e 11 = 51) (e 12 = 48) (e 13 = 51) (150)
Medio 60 70 50 180
(2) (e 21 = 61,2) (e 22 = 57,6) (e 23 = 61,2) (180)
Alto 20 30 40 90
(3) (e 31 = 30,6) (e 32 = 28,8) (e 33 = 30,6) (90)
MuyAlto 15 25 40 80
(4) (e 41 = 27,2) (e 42 = 25,6) (e 43 = 27,2) (80)
170 160 170 500
Total
(170) (160) (170)

mtodo prctico
6 4748
4 3 (n e )2 4 3 n2
2(4 1) (31) = 26 = ij ij = i j N = 540,0492 500 = 40, 0492
i =1 j =1 eij i =1 j=1 e i j

Pulsandoelbotn[Estadsticos]
seseleccionalaopcinChicuadrado.

EnelVisorderesultadosdeSPSS:

Chicuadrado
Elestadsticodecontraste(observado)es40,049,elcual,enladistribucin 2 tiene6gradosde
libertad(gl=6),tieneasociadaunaprobabilidad(Significacinasinttica)de0.

Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)es
pequea(menorque0,05),sedeciderechazarlahiptesisnula,concluyendoqueexisteuna
relacindedependenciaentreelnivelderentaylaopininsobrelaaceptacindelsistemapblico.

SantiagodelaFuenteFernndez9
Anlisisdevariablescategricas
Sealarquelarazndeverosimilitudes(RV)es39,693,tieneasociadaunaprobabilidad(Sig.
asinttica)de0,quecomoesmenorque0,05,conducearechazarlahiptesisnula,concluyendo
queexistedependenciaentrelasvariablesanalizadas.

Losestadsticos (2 , RV) llevanalamismaconclusin,encasocontrario,seeligeelestadsticocon


menorSig.asinttica.

RazndeverosimilitudChicuadrado(Fisher,1924;NeymanyPearson,1928):Seobtiene
n
mediantelarelacin: RV = 2 nij log ij
e
i j ij
Setratadeunestadsticoasintticamenteequivalentea 2 (sedistribuyeyseinterpretaigual)yes
muyutilizadoparaestudiarlarelacinentrevariablescategricas,particularmenteenelcontextode
losmodelosloglineales.

RV < 2;(k 1).(m1) X e Y son independie ntes al nivel


2
RV ;(k 1).(m1) X e Y no son independie ntes al nivel

SeaceptalahiptesisnulacuandolasignificacindeRV(Sig.asinttica)esmayorque0,05.

Laaplicacindelosdosestadsticos (2 , RV) puedeconduciralamismaconclusin.Enloscasosen


quenoseproduzcaestacoincidencia,seeligeelestadsticoconunasignificacin(probabilidad
asociada)menor.
4 3 n
RV = 2 nij log ij = 39,693
e
i = j =1 ij

CorreccinporcontinuidaddeYates(1934):Consisteenrestar(0,5)puntosa nij eij del


estadstico 2 (antesdeelevarloalcuadrado).

2c =
k m (ne ij 0,5 )2

i=1 j=1 e ij

Algunosautoressugieren,queconmuestraspequeas,estacorreccinpermitequeelestadstico 2
seajustemejoralasprobabilidadesdeladistribucin 2 ,peronoexisteunconsensogeneralizado
sobrelautilizacindeestacorreccin

SantiagodelaFuenteFernndez10
Anlisisdevariablescategricas
Correlaciones:PermiteobtenerloscoeficientesdecorrelacindePearsonydeSpearman.

ElcoeficientedecorrelacindePearsonesunamedidadeasociacinlinealespecialmenteapropiada
paraestudiarlarelacinentrevariablesdeintervaloorazn.

ElcoeficientedecorrelacindeSpearmantambinesunamedidadeasociacinlineal,peropara
variablesordinales.

Amboscoeficientesposeenescasautilidadparaestudiarlaspautasderelacinpresentesenuna
tabladecontingenciatpica,dadoquelohabitualesutilizarlastablasdecontingenciaparacruzar
variablesdetiponominal,oalosumo,detipoordinalconsolounospocosniveles.

COEFICIENTEDECORRELACINLINEALDEPEARSON

Suposicin:Lasvariablesordinales(losvaloresdiscretossepuedenordenar)ocontinuas(valores
continuossepuedenordenar)estndistribuidasdeformagaussiana.Esuntestparamtrico.

Mtodo:Mideladesviacindelasvariablesrespectoaunalnearecta.

Dadosdospuntos (xi , yi ) i=1, 2 , ... ,N sedefineelcoeficientedecorrelacin:

(xi x)(yi y) r = 1 no correlacin


r = i
talque 1 r 1
(xi x) 2 (yi y) 2 r = 1 correlacin perfecta
i i
LasignificanciadequenoexisteunacorrelacinvienedadaporladistribucintStudentcon(N2)
gradosdelibertad,donderestrelacionadoconlamatrizdecovarianza,queofrecetambinuntest
paramtricosiseutilizaparabuscarcorrelaciones

r N2
t ,(N2) =
1 r2

SantiagodelaFuenteFernndez11
Anlisisdevariablescategricas
COEFICIENTEDECORRELACINDESPEARMAN(1904):

VersinnoparamtricadelcoeficientedecorrelacindePearson,quesebasaenlosrangosdelos
datos.Resultaapropiadoparadatosordinales,olosdeintervaloquenosatisfaganelsupuestode
normalidad.

Elsignodelcoeficienteindicaladireccindelarelacinyelvalorabsolutodelcoeficientede
correlacinindicalafuerzadelarelacinentrelasvariables.
6 d2i
rS = 1 i
1 rs 1
N(N2 1)

donde di esladiferenciaentreelordenobtenidoenelcasoisimoenambasseries.

MEDIDASDEASOCIACINDETIPONOMINAL

Despusdeanalizarsiexisterelacinonoentrelasvariablesobjetodeestudio,cabepreguntarse
culeslaintensidaddeesarelacin?.Entrelasmedidasutilizadasseencuentran:Coeficientede
contingencia,QdeYule,PhiyVdeCramer,LambdayelCoeficientedeincertidumbre.

Mtodo:Probarqueeserrnealasuposicinquelasvariablesnoestnasociadas.Siesas,el
Ni . N j
nmerodeincidenciasesperadoenelcasillero (i, j) ser e ij =
N
k m (n e )2
Sedefinelafuncin ij ij = 2(k 1). (m1)
i =1 j=1 eij

Lasignificanciadequeambasdistribucionesestnasociadasvienedadaporlafuncinde
probabilidad 2 con gradosdelibertad.


1
Q (2 / ) = e t t 1 dt donde = (k 1)(m 1)
() 2

COEFICIENTEDECONTINGENCIA.ElcoeficientedecontingenciaCesunamedidadelgradode
asociacinorelacinentredosconjuntosdeatributos.Esespecialmentetilcuandohayuna
informacinclasificatoria(escalanominal)acercadeunooambosconjuntosdeatributos.

2 C = 0 a Independen cia
C = 0 C 1
+N C = 1 a Asociacin perfecta
2

Sloseutilizacuandolastablasdecontingenciatienenlamismadimensin.
k 1
Enunatabladecontingencia(kxk)elvalormximoser: C = .
k

SantiagodelaFuenteFernndez12
Anlisisdevariablescategricas
QdeYULE:ElcoeficientedecontingenciaQesunamedidadelgradodeasociacinorelacin
entredosconjuntosdeatributos.
Y
y1 y2
X
n11 n22 n12 n21
Q = 0 Q 1 x1 n11 n12 n11 + n12
n11 n22 + n12 n21 x2 n21 n22 n21 + n22
n11 + n21 n12 + n22 N

2
PHI:Elcoeficientephiseobtiene: = .
N

Enlastablasdecontingencia(2x2),phiadoptavaloresentre0y1,ysuvaloresidnticoaldel
coeficientedecorrelacindePearson.

Enlastablasenlasqueunadelasvariablestienemsdedosniveles,phipuedetomarvalores
mayoresque1(pueselvalorde 2 puedesermayorqueeltamaomuestral).

# ElcoeficientedecontingenciayPhiyVdeCramer,sonmedidasbasadasenChicuadrado,yque
intentancorregirelvalordelestadstico 2 parahacerletomarunvalorentre0y1,yparaminimizar
elefectodeltamaodelamuestrasobrelacuantificacindelgradodeasociacin(Pearson,1913;
Cramer,1946).

VdeCRAMER:ElcoeficienteVincluyeunaligeramodificacindephi:

2 V = 0 a Independencia
VCramer = 0 VCramer 1
N.min(k 1, m 1) V = 1 a Asociacin perfecta

Enlastablasdecontingencia(2x2), VCramer y sonidnticos.


Elproblemadeesteestadsticoesquetiendeasubestimarelgradodeasociacinentrelasvariables.

Cadamedidavieneacompaadadesucorrespondientenivelcrtico(Sig.aproximada),elcual
permitedecidirsobrelahiptesisdeindependencia,puestoqueelnivelcrticodetodaslasmedidas
listadasesmuypequeo(menorque0,05),sepuederechazarlahiptesisnuladeindependenciay
concluirqueelnivelderentaylaopininsobreelsistemasanitarioestnrelacionados.

SantiagodelaFuenteFernndez13
Anlisisdevariablescategricas

2 40,0492 2 40,0492
= = = 0,283 VCramer = = = 0,200
N 500 N.min(k 1, m 1) 500 . 2

2 40,0492
C= = = 0,2723
+N
2
40,0492 + 500

MEDIDASBASADASENLAREDUCCINPROPORCIONALDELERROR(RPE).Sonmedidasde
asociacinqueexpresanlaproporcinenlaqueseconsiguereducirlaprobabilidaddecometerun
errordeprediccincuando,alintentarclasificaruncasoogrupodecasoscomopertenecientesa
unauotracategoradeunavariable,enlugardeutilizarnicamentelasprobabilidadesasociadasa
cadacategoradeesavariable,seefectalaclasificacinteniendoencuentalasprobabilidadesde
lascategorasdeesavariableencadacategoradeunasegundavariable.

COEFICIENTELAMBDADEGOODMANYKRUSKALL:Esuncoeficientequenodependedela .
2

SuponiendoqueYeselfactorexplicadoyXelexplicativo,seevalalacapacidaddeXpara
predecirYmediante:
mx
j
nij mx N j
j
Y = i
N mx nij
j
Deformaanloga,cuandoXeselfactorexplicadoeYelexplicativo,seevalalacapacidaddeY
parapredecirXmediante:

mx
i
nij mx Ni
i
X = j
N mx nij
i
0 ( X , X ) 1 ysonmedidasasimtricas.

ElcoeficienteLambdapresentatresversiones:dosasimtricas(cuandounadelasdosvariablesse
consideraindependiente)yunasimtrica(cuandonoexisteargumentoparadistinguir), 0 1 ,el
valor0indicaquelavariableindependientenocontribuyeenabsolutoenreducirelerrorde
prediccin;elvalor1indicaquesehaconseguidoporcompletoreducirelerrordeprediccin,es
decir,quelavariableindependientepredicecontodaprecisinaqucategoradelavariable
dependientepertenecenloscasosclasificados.

Dosvariablessonindependientescuando = 0 ,pero = 0 noimplicaindependenciaestadstica.

Cuandodosvariablessonestadsticamenteindependientes = 0
= 0 independenciaestadstica,pueslambdanicamenteessensibleauntipo
No implica

particulardeasociacin:Aladerivadadelareduccinenelerrorqueseconsiguealpredecirlas
categorasdeunavariableutilizandolasdeotra.

Cuandonoesposibledeterminarobjetivamenteculdelosdosfactoreseselexplicadooel
explicativo,seoptaporlaversinsimtrica,cuyovalores:

mx
j
nij + mx nij mx Ni mx N j
i i j
= i j
2N mx Ni mx N j
i j

SantiagodelaFuenteFernndez14
Anlisisdevariablescategricas
Elvalorde estcomprendidoentre X y Y presentaelinconvenientedesermuysensibleala
presenciadetotalesmarginalesdesequilibrados.

1 (N j nij )nij
(N Ni )Ni
N i j N j
) TAUDEGOODMANYKRUSKALL: =
1
(N Ni )Ni
N i
OpininSistemaPblico
Nivelrenta
Bueno Regular Malo Totalmarginal
Bajo 75 35 40 N1 = 150 mx n1 j = 75
Medio 60 70 50 N2 = 180 mx n2 j = 70
Alto 20 30 40 N3 = 90 mx n3 j = 40
MuyAlto 15 25 40 N4 = 80 mx n4 j = 40
4
Totalmarginal N1 = 170 N 2 = 160 N 3 = 170 N = 500 mx nij = 225
i =1j
3
mx
i
nij = 195 mx ni1 = 75 mx ni 2 = 70 mx ni 3 = 50
j=1

mx nij + mx nij mx Ni mx N j
j i i j 225 + 195 180 170
= i j
= = 0,1076 coeficientelambda
2N mx Ni mx N j 2. 500 180 170
i j

1 (N j nij )nij
(N Ni )Ni
N i j N j 361,2 351,3051
= = = 0,02739 taudeGoodmanyKruskall
1 361 ,2
(N Ni )Ni
N i

1 4 1
(N Ni )N = [(500 150)150 + (500 180)180 + (500 90)90 + (500 80)80] = 361,2
N i=1 500

(N j nij )nij (170 75) 75 + (170 60) 60 + (170 20)20 + (170 15)15
= +
j N j 170
(160 35) 35 + (160 70) 70 + (160 30) 30 + (160 25)25
+ +
160
(170 40) 40 + (170 50) 50 + (170 40) 40 + (170 40) 40
+ = 351,3051
170

COEFICIENTEDEINCERTIDUMBRE(THEIL,1970):Esunamedidasemejantealambdaytauen
Cuantoasuconcepcindelaasociacindelasvariables,enrelacinalacapacidadpredictivayla
disminucindelerrordedichaprediccin.

Ladiferenciaestribaensuclculoyaqueenestecasolaexpresindeestoscoeficientesdependede
todaladistribucinynoslodelosvaloresmodales,porloqueslotomaelvalor0encasosdetotal
independencia.staessuventajarespectoalambda,peroesmsdifcildeinterpretar.
Oscilaentre0y1.

SantiagodelaFuenteFernndez15
Anlisisdevariablescategricas
Poseedosversionesasimtricas(dependiendodeculdelasdosvariablesseconsidera
independiente)yunasimtrica(cuandonosehacedistincinentrevariabledependientee
independiente).

I(X) + I(Y) I(XY)


Seobtienedelasiguienteforma: IY / X =
I(Y)

Ni Ni N N n n
I(X) = Ln I(Y) = j Ln j I(XY) = ij Ln ij
i N N j N N i j N N

Paraobtener IX / Y bastaintercambiarlospapelesdeI(X),I(Y).

I(X) + I(Y) I(XY)


Laversinsimtricaseobtiene: IY / X = 2
I(X) + I(Y)

Enelejemplo:

Ni Ni N N
I(X) = Ln = 1,3309 I(Y) = j Ln j = 1,0982
i N N j N N

n n
I(XY) = ij Ln ij = 2,3894
i j N N

I(X) + I(Y) I(XY) 1,3309 + 1,0982 2,3894


IY / X = 2 =2 = 0,03268
I(X) + I(Y) 1,3309 + 1,0982

Cadamedida(Lambda,TaudeGoodmanKruskall,Coeficientedeincertidumbre)figuraacompaada
desunivelcrtico(Sig.aproximada),quecomoespequeo,menorque0,05,conducearechazarla
hiptesisnuladeindependencia,concluyendoquelasvariablesenestudio(Nivel_renta,
Opinin_sistema_sanitario)estnrelacionadas.

Juntoalvalorconcretoadoptadoporcadamedidadeasociacinaparecesuvalorestandarizado(T
aproximada),queseobtienedividiendoelvalordelamedidaentresuerrortpico(calculadoste
suponiendoindependenciaentrelasvariables.Latablatambinmuestraelerrortpicodecada
medidacalculadosinsuponerindependencia(Errortpicoasinttico).

SantiagodelaFuenteFernndez16
Anlisisdevariablescategricas
DATOSORDINALES.Recogeunaseriedemedidasdeasociacinquepermiteaprovecharla
informacinordinalquelasmedidasdiseadasparadatosnominalespasansinanalizar.

Condatosordinalestienesentidohablardedireccindelarelacin:unadireccinpositivaindicaque
losvaloresaltosdeunavariableseasocianconlosvaloresaltosdelaotravariable,ylosvalores
bajosconvaloresbajos;unadireccinnegativaindicaquelosvaloresaltosdeunavariableseasocian
conlosvaloresbajosdelaotra,ylosvaloresbajosconlosvaloresaltos.

Muchasdelasmedidasdeasociacindiseadasparaestudiarlarelacinentrevariablesordinalesse
basanenelconceptodeconcordancia(inversin)ydiscordancia(noinversin).

) Silosdosvaloresdeuncasoenambasvariablessonmayores(omenores)quelosdosvaloresde
otrocaso,sedaunaconcordanciaonoinversin(C).

) Sielvalordeuncasoenunadelasvariablesesmayorqueeldelotrocaso,yenlasegunda
variableelvalordelsegundocasoesmayorqueeldelprimero,sedaunadiscordanciao
inversin(D).

) Silosdoscasostienenvaloresidnticosenunaoenlasdosvariables,sedaunempate(E).Hay
trestiposdeempates:empateenlavariableXynoenlavariableY (EX ) ,empateenlavariableY
ynoenlavariableX (EY ) ,yempateenambasvariables (EXY ) .

Cuandopredominanlasconcordancias,larelacinespositiva,amedidaqueaumentan(o
disminuyen)losvaloresdeunadelasvariables,aumentan(odisminuyen)losdelaotra.

Cuandopredominanlasdiscordancias,larelacinesnegativa,amedidaqueaumentan(o
disminuyen)losvaloresdeunadelasvariables,disminuyen(oaumentan)losdelaotra.

Todaslasmedidasdeasociacinmencionadasenestepunto,utilizanenelnumeradorladiferencia
ladiferenciaentreelnmerodediscordanciasyconcordanciasresultantesdecompararcadacaso
concadacaso,diferencindoseeneltratamientodadoalosempates.

Enadelante,Cnmerodeconcordancias,Dnmerodediscordancias,EXnmeroempatesenla
variableX(tomandoaYcomoindependiente),EYnmeroempatesenlavariableY(tomandoaX
comoindependiente),EXYnmeroempatesenambasvariables.

Eltotaldeparesdevaloresqueesposibleencontrar(T),sinrepeticiones,siendoNeltotaldecasos,
vienedadoporlaexpresin:

N(N 1)
T = T = C + D + EX + EY + EXY
2

GAMMA:Unodeloscoeficientesmsconocidoseselcoeficientegamma( )deGoodmany
Kruskall,paralagammalosempatessonirrelevantes,sebasaenlarelacinquesiguenlos
rangosdelosdosatributos:

= 1 perfecta asociacin negativa


C D
= = 0 independencia
C +D
= 1 perfecta asociacin positiva

SantiagodelaFuenteFernndez17
Anlisisdevariablescategricas
dDESOMMER:Adiferenciadelosanteriores,esteestadsticoconsideraquelasvariables
puedensersimtricasodependientes.Enelcasodesersimtricas,elestadsticoddeSomers
coincideconlaTaubdeKendall.Encasodeserdependientes,sediferenciadelestadstico
Gammaenqueincluyelosempatesalaqueconsideradependiente,loquedalugaratresndices
(dosasimtricosyunosimtrico):
(C D)
) TomandoalavariableYcomoindependiente: dX = ( EX sonempatesenlavariableX)
C + D + EX

(C D)
) TomandoalavariableXcomoindependiente: dY = ( EY sonempatesenlavariableY)
C + D + EY

(C D)
) VersinsimtricaparaXeY: d =
E + E
C +D + X Y
2

d = 1 perfecta asociacin negativa


d=0 independen cia

1 d 1
d a1 asociacin a medida
d = 1 perfecta asociacin positiva

COEFICIENTEDECONCORDANCIADEKENDALL:Enunprocesodeevaluacin,seempleaen
situaciones,enlaqueinteresaobtenerunamedidadelacoincidenciadeunconjuntode
evaluadores.

N
12 (Ri R )
i=1 R media de los rangos
W = donde
k2 N(N2 1) k nmero variables incluidas

TauadeKendall:Sedefinecomolaraznentreladiferenciadelnmeroparesconcordantesy
discordantesconlatotalidaddelnmerodeparesposibles(T).

(C D)
a =
T
Elcoeficiente a tomavaloresentre[1,1],elsignoindicaelsentidodelaasociacin,el0la
independenciaestadstica.Unalimitacinimportanteesqueenciertoscasosnoalcanzael1(1)
anexistiendoasociacinperfecta,puesparaestorequierequetodaslasceldascentralestengan
frecuencia0.

TaubdeKendall:UtilizaelmismocriterioqueladdeSommersimtrica,sibienutilizalamedia
geomtricaenlugardelamediaaritmtica:

(C D)
b =
(C + D + EX )(C + D + EY )

Elcoeficiente b tomavaloresentre[1,1],soloenlastablasdecontingenciacuadradasysi
ningunafrecuenciamarginalvalecero.

SantiagodelaFuenteFernndez18
Anlisisdevariablescategricas
TaucdeKendall:Utilizaelmnimodefilasydecolumnas:

2m(C D)
c = m = mn{n filas , n columnas}, 1 c 1
N2 (m 1)

Cadacoeficienteaparececonsucorrespondientenivelcrtico(Sig.aproximada),puestoqueestos
nivelescrticossonmenoresque0,05,serechazalahiptesisnuladeindependencia,afirmandoque
lasvariables(Nivel_renta,Opinin_sistema_sanitario)estnrelacionadas.

Ycomoelvalordelasmediasespositivo(relacinpositiva),sepuedeinterpretarqueaunmayor
nivelderentacorrespondeunamejoropinindelsistemasanitario.

NOMINALPORINTERVALO(ETA):Elcoeficientedecorrelacineta( )sirveparacuantificar
Gradodeasociacinexistenteenteunavariablecuantitativa(medidaenescaladeintervaloorazn)
yunavariablecategrica(medidaenescalanominaluordinal).

Setratadeuncoeficientedecorrelacinquenosuponelinealidadycuyocuadradopuede
interpretarse,sieldiseolopermite,comolaproporcindevarianzadelavariablecuantitativa
questaexplicadapor(quedependede)lavariablecategrica.
Sumayorutilidadnoestasociadaalastablasdecontingencia,puesstasseconstruyen
utilizandovariablescategricas.Apesardeello,comoesunaopcindeSPSS,sepuedemarcarla
opcinetayobtenerelvalordelarelacinentredosvariablescuandounadeellases
cuantitativaylaotracategrica.
2
2
xi nij
2 i
xi nij
j i nij
) Cuandolasfilassonelatributodependiente: = 1 i
2

xi nij
x2i nij
i j

i j N

SantiagodelaFuenteFernndez19
Anlisisdevariablescategricas
2

y2j nij

y2j nij
j

i j nij
) Cuandolascolumnassonelatributodependiente: = 1 j
2

y j nij
y2j nij
i j

j i N

NDICEDEACUERDO(kappa):Proporcionaunamedidadelgradodeacuerdoexistenteentredos
observadoresojuecesalevaluarunaseriedesujetosuobjetos(Cohen,1960):

N nii Ni Ni
= i i
N Ni N i
2
i

Elvalorkappa , 0 1 ,tomaelvalor0(acuerdonulo)y1(acuerdomximo).

Sielacuerdoalcanzadoesmenorqueelesperadoporazar,kappatomaunvalornegativo.

Fleiss,CohenyEveritt(1969)demostraronqueelerrortpicodelcoeficientedeKappapuede
estimarsemediantelaexpresin:

1
2
2 =
2
N2
Ni N i +
Ni N i
N Ni N i (Ni + N i )

N N2 Ni Ni
i i i i

Lahiptesisdequelosdosobservadores(jueces)sonindependientes ( = 0) sepuedecontrastar

tipificandoelvalordekappa: z = N(0, 1)

AlmargendelasignificacinestadsticadelcoeficientedeKappa,LandisyRoch(1977)
argumentaronque:

<0 sin acuerdo 0,4 < 0,6 mod erado



0 < 0,2 insuficien te 0,6 < 0,8 bueno
0,2 < 0,4 bajo 0,8 < 1 muy bueno

NDICESDERIESGO:Sontilesparadiseoslongitudinalesenlosquesemidendosvariables
dicotmicas.Elseguimientoenestudioslongitudinalespuederealizarse:haciadelanteohaciaatrs.

) Enlosestudioslongitudinaleshaciadelante,denominadosdiseosprospectivosodecohortes,los
sujetossonclasificadosendosgruposdependiendodelapresenciaoausenciadealgnfactor
desencadenantey,seleshaceunseguimientoduranteunperododetiempo,hastadeterminarla
proporcindesujetosdecadagrupoenlosquesedaundeterminadodesenlaceobjetodeestudio.

n11 N1
Lamedidadeinterseselriesgorelativo( Rr ): Rr =
n21 N2
SantiagodelaFuenteFernndez20
Anlisisdevariablescategricas
Lainterpretacin:<<Laproporcindedesenlacesentrelossujetosexpuestosalfactor
desencadenantees Rr msaltaqueentrelossujetosnoexpuestos>>.

Unriesgorelativode1indicaquelaprobabilidaddeencontrareldesenlaceeslamismatantoenel
grupodesujetosexpuestoscomoenelgrupodesujetosnoexpuestos.

Paravalorarsielriesgoobtenidoessignificativamentedistintode1,sepuedecalcularelintervalode
confianza:
z n12 n
+ 22 z1 / 2
n12
+ 22
n
/2
n11 N1 n21 N2 n11 N1 n21 N2
Rr e ; Rr e

Sielintervalodeconfianzanocubreelvalor1,elriesgodeexperimentareldesenlacenoeslo
mismoenlosgruposquesecomparan.

) Enlosdiseoslongitudinaleshaciaatrs,tambinllamadosretrospectivosocasocontrol,se
formangruposdesujetosapartirdelapresenciaoausenciadeunadeterminadacondicinobjeto
deestudio,ysehaceelseguimientohaciaatrs,intentandoencontrarinformacinsobrela
proporcinenlaqueseencuentrapresenteencadamuestraundeterminadofactor
desencadenante.

Comoeltamaodelosgrupossefijaapartirdelapresenciaoausenciadeundeterminado
desenlace,secalculaoddsratio(razndelasventajasorazndeproductoscruzados):

n11 n12 n11 n22


Or = =
n21 n22 n12 n21

Elvalordelaoddsratio (Or ) estantomejorestimadordelriesgorelativocuantomspequeassean


lasproporcionesdedesenlaceencadagrupo.

Unndicede1indicaquelaprobabilidaddeencontrarseconelfactordesencadenanteenlosgrupos
estudiadoseslamisma.Paradeterminarsiesteriesgoessignificativamentedistintode1,secalcula
elintervalodeconfianzamediante:

z / 2
1
+
1
+
1
+
1
z1 / 2
1
+
1
+
1
+
1

Or e n11 n12 n21 n22
; Or e
n11 n12 n21 n22

ESTADSTICOSDECOCHRANYDEMANTELHAENSZEL(CombinacindeTablas2x2):En
ocasiones,puedeinteresaranalizarlosdiseosdecohortesydecasocontrol(tratadosenlosndices
deriesgo)controlandoelefectodetercerasvariables.

Estasituacinespropia,porejemplo,cuandosedeseaevaluarelefectodeuntratamientosobreuna
determinadarespuestautilizandodistintosgruposdepacientes.

Setratadeestudiarsiexisteonoasociacinentreunavariablefactoryotravariablerespuesta,
ambasdicotmicas,cuandosedisponedeinformacinreferidaavariosestratos(distintosgruposde
edadosexo,pacientescondiferentesintomatologa,distintosgrupostnicos,distintasdosisde
frmaco,etc.).

SantiagodelaFuenteFernndez21
Anlisisdevariablescategricas
2
Enestoscasos,utilizarelestadstico sobreelconjuntodedatosagrupadospuedearrojar
resultadosinadecuados.Porotraparte,analizarseparadamentecadaestratonoproporcionauna
ideaglobaldelefectodelavariablefactor.

UtilizandolosestadsticosdeCochranyMantelHaenszel(segnunmodelo 12 )seobtieneuna
informacinmsajustadaparacontrastarlahiptesisdeindependenciacondicional,estoes,la
hiptesisdeindependenciaentrelasvariablesfactoryrespuestaunavezquesehacontroladoel
efectodelosestratos.
2

nk ek
ElestadsticodeCochran(1954)seexpresamediante: 2Cochran = k k
nk
2
k
k cada uno de los estratos
n frecuencia observada en casilla del estrato k (slo una y siempre la misma en todos los estratos)
k
e frecuencia esperada en cada correspondiente n
k k
nk (n1+k + n2+k + n+1k + n+2k ) / N donde (n1+k ,n2+k ,n+1k ,n+2k ) frecuencias m arg inales asociadas tabla 2x2
2 3

ElestadsticodeMantelHaenszel(1959)esidnticoaldeCohran,exceptoendosdetalles:

Utilizalacorreccinporcontinuidad(resta0,5alnumeradorantesdeelevarloalcuadrado)
Cambiaeldenominadordelavarianza,utilizando N2 (N 1) enlugarde N3

Losdosestadsticossedistribuyensegnelmodelodeprobabilidad 12 .

Cuandoelnivelcrticoasociadoaellosesmenorque0,05,serechazalahiptesisnulade
independenciacondicionalyseconcluyeque,unavezcontroladoelefectodelosestratos,las
variablesfactoryrespuestaestnasociadas.

(n11k n22k / n+ +k )
RVcomun =
(n12k n21k / n+ +k )
k RiesgohomogneoentodoslosestratosdeMantelHaenszel
k

SantiagodelaFuenteFernndez22
Anlisisdevariablescategricas

Ejemplo.Tabladecontingenciade
tabaquismoporproblemas
vascularesdehombresymujeres.

ElestadsticodeCochrantieneunvalorde13,933conunnivelcrticoasociado(Sig.asinttica
bilateral)de0,000(menorque0,05)conloqueserechazalahiptesisnuladeindependencia

SantiagodelaFuenteFernndez23
Anlisisdevariablescategricas
condicionalyseconcluye,controladoelefectodelavariablesexo,quelasvariablestabaquismoy
problemasvascularesestnrelacionadas.
AnlogaconclusinsellegaconelestadsticodeMantelHaenszel.

Rechazadalahiptesisdeindependenciacondicional,elinterssecentrahaciaelgradode
dependenciaexistenteentrelasvariablesfactoryrespuesta.Enestalnea,SPSSofreceuna
estimacindelriesgooddsratiocomnparatodoslosestratos.Estaestimacincomnsolotiene
sentidosiexisteinteraccintriple,estoes,silainteraccindetectadaeshomogneaentodoslos
estratos.

Lahiptesisdehomogeneidaddelasoddsratiopuedecontrastarseutilizandolosestadsticos
BreslowDay(1980,1987)ydeTarone(1983).Enlatabladelaspruebasdehomogeneidaddela
razndelasventajas,seobservaqueelnivelcrticoasociadoaambosestadsticosesde0,167
(mayorque0,05)porloquesepuedemantenerlahiptesisnuladehomogeneidad.

Partiendodequeelriesgoes
homogneoentodoslosestratos,tiene
sentidocalcularunaestimacincomn
delriesgo.

ElVisorderesultadosdeSPSSofreceel
datobasadoenelestadsticode
MantelHaenszel(1959).

EnlapruebadeNcNemar,sepresentaelnivelcrtico
asociadoalnmerodecambiosobservados(Sig.
exactabilateral)yelnmerodecasosvlidos.

LatablanomuestraelvalordelestadsticodeNcNemar,loquesignificaqueelnivelcrticoseha
calculadoutilizandoladistribucinbinomial(comosedetalla),permitiendodeestemodoobtenerla
probabilidadexactaynoaproximada(queseobtendraconelestadsticochicuadrado).

Cualquieraquefueralaformadeobtenerlo,elnivelcrticoindicaelgradodecompatibilidad
existenteentrelosdatosmuestralesylahiptesisnuladeigualdaddeproporcionesantesdespus.

Siendoelnivelcrtico0,000(<0,005),serechazalahiptesisnula,concluyendoquelaproporcinde
hombresymujeresconproblemasvascularescambiasignificativamenteentrefumadoresyno
fumadores.

SantiagodelaFuenteFernndez24
Anlisisdevariablescategricas
ElvalordelestadsticoKappa(0,082y0,169,respectivamente)ysunivelcrtico(Sig.aproximada)
permitendecidirsobrelahiptesisdeacuerdonulo.

Enelcasodeloshombres,alserelnivelcrticoenhombres(0,062>0,05)seaceptalahiptesisnula
deacuerdonulo.SegnLandisyRoch(1977),siendo = 0,082 < 0,20 habraunacuerdoinsuficiente.
Enelcasodelasmujeres,elnivelcrtico(0<0,05),sepuederechazarlahiptesisnuladeacuerdo
nulo,concluyendoqueexisteunacuerdosignificativamentemsaltoqueelesperadoporazar.
SegnLandisyRoch,siendo = 0,169 < 0,20 habraunacuerdoinsuficiente.

JuntoalvalordelndicedeKappaaparecesuvalorestandarizado(Taproximada),obtenidoaldividir
elvalordekappaentresuerrortpico(calculadobajoelsupuestodeacuerdonulo).Porotraparte,el
errortpicodeKappa(Errortpicoasinttico)secalculasinsuponeracuerdonulo.

Laprimerafilaindicaelriesgoestimadoentre
mujeresfumadorasynofumadoras,enundiseo
decasocontrol(razndelasventajas),elvalor
4,007seinterpretacomoque,entrelasmujerescon
problemasvasculares,laprobabilidadoriesgode
encontrarmujeresfumadorases4vecesmayorque
ladeencontrarmujeresnofumadoras.

Larazndeventajastambinpuedeinterpretarsecomounaestimacindelriesgorelativo(en
particular,slaproporcindedesenlacesespequea),esdecir,elproblemadepadecerproblemas
vasculareses4vecesmayorentremujeresfumadorasqueenmujeresnofumadoras.

Elintervalodeconfianza [1,766 ; 9,093] ,conunniveldeconfianzadel95%,indicaqueelriesgo


obtenidoesmayorque1.

Lasegundaytercerafilaseencargandendicesderiesgoparaundiseodecohortes.

Sisedeseaanalizarlapresenciadeproblemasvasculares(2fila),elriesgoolaprobabilidadde
encontrartalproblemaentrelasfumadorases3,342vecesmayorqueentrelasnofumadoras,en
otraspalabras:<<porcadamujerconproblemasvascularesentrelasnofumadoras,sepueden
encontrar3,34mujeresconproblemasvascularesentrelasfumadoras>>.

Paraanalizarlaausenciadeproblemasvasculares(3fila),laprobabilidadoriesgodeencontrartal
desenlaceesmenorentrelasmujeresfumadoras,estoes:<<porcadamujersinproblemas
vascularesentrelasnofumadorassepuedenencontrar0,834mujeressinproblemasvasculares
entrelasfumadoras>>.

Lascasillasoceldasdeunatabladecontingenciacontienen
informacinmuyvariada:frecuencias(observadas,
esperadas),porcentajesyresiduos.

SantiagodelaFuenteFernndez25
Anlisisdevariablescategricas
) Frecuencias:

Frecuenciasobservadas:valorrealdecadapardevalores.

Frecuenciasesperadas:valortericoquetuvieraquetenercadacasillaparaquefueran
independienteslasvariables.

) Porcentajes:

Porcentajeporfila:valordecadacasillaentreeltotalmarginaldesufila.

Porcentajeporcolumna:valordecadacasillaentreeltotalmarginaldesucolumna.

Porcentajetotal:valorquelafrecuenciaobservadadeunacasillarepresentarespectoal
nmerototaldecasos.

) Residuos:Diferenciasentrelasfrecuenciasobservadasyesperadasdecadacasilla.Sontiles
parainterpretarlaspautasdeasociacinenunatabla:

Notipificados:Diferenciaentelafrecuenciaobservadayesperada.

Tipificados:Eselresiduonotipificadodivididoporlarazcuadradadesucorrespondiente
frecuenciaesperada.Elvaloresperadoes0ysudesviacintpicaesmenorque1,loque
hacequenosepuedeninterpretarcomopuntuacionesnormalesz.Noobstante,sirven
comoindicadoresdelgradoenquecadacasillacontribuyealvalordelestadstico 2 ,
sumandoelcuadradodetodoslosresiduostipificadosseobtieneelvalordechicuadrado.

TipificadoscorregidosdeHaberman(1973):Residuosquesedistribuyenconpuntuaciones
normales N(0,1) ,seobtienendividiendoelresiduodecadacasillaporsuerrortpico.Al
distribuirsenormalmente,soninterpretablesconmuchafacilidad,deestemodo,utilizando
unniveldeconfianzade0,95,sepuedeafirmarquelosresiduosmayoresde1,96avisande
casillasconmscasosdelosquedeberahaberenesacasillasilasvariablesanalizadas
fueranindependientes,mientrasquelosresiduosmenoresde1,96delatancasillascon
menoscasosdelosquedeberahaberenesacasillabajolahiptesisdeindependencia.
Entablasdecontingenciaconvaloresnominales,unavezestablecidoqueentredosvariables
existeunaasociacinsignificativa(conelestadsticochicuadrado),yhabiendocuantificado
estaasociacin(coeficientedecontingencia),losresiduostipificadoscorregidossonuna
herramientamuytilparainterpretarelsignificadodelaasociacin.

Tabladecontingenciaporcategoravascular:AnlisisdelosResiduos.
Losresiduostipificadosfuera
delintervalo [ 1,96 ; 1,96] ,
porejemplo,enhombresy
mujeresquefumancon
problemasvasculares,existe
unaproporcinsignificativa
msaltaenlasmujeres(2,5
frente1,3);mientrasque
entrelosnofumadores
existenunaproporcinms
altaenhombres(1,1frente
a2,1).

SantiagodelaFuenteFernndez26
Anlisisdevariablescategricas

Ejercicio1.Tresmtodosdeempaquetadodetomatesfueronprobadosduranteunperodode
cuatromeses;sehizounrecuentodelnmerodekilospor1000quellegaronestropeados,
obtenindoselatablaadjunta.Conunniveldesignificacinde0,05,tienenlostresmtodosla
mismaeficacia?.

Meses A B C Total
1 6 10 10 26
2 8 12 12 32
3 8 8 14 30
4 9 14 16 39
Total 31 44 52 127

SantiagodelaFuenteFernndez
28
Anlisisdevariablescategricas

Paratomarunadecisinsobresihaydiferenciaentrelosdiferentesmtodosdeempaquetado,se
contrastalahiptesisnula,H0:Nohaydiferenciaentrelosdiferentesmtododeempaquetado,
medianteuna 2 dePearson.

Seintroducenlosdatosporfilasycolumnas.

Mostrarlosgrficosdebarrasagrupadas:

Activandolaopcin,elVisorderesultados
muestraungrficodebarrasconlascategorasde
lavariablefila(ejedeabscisas)ylascategorasde
lavariablecolumnaanidadasdentrodelas
categorasdelavariablefila.

Enconsecuencia,cadabarrarepresentauna
casilla,ysualturavienedadaporlafrecuenciade
lacasilla.

SantiagodelaFuenteFernndez
29
Anlisisdevariablescategricas

Suprimirtablas:Estaopcinpuedeactivarsesinose
deseaningunatabladecontingencia,estadecisintendra
sentidosisoloseestuvierainteresadoenobtenerun
grficodebarrasoalgunodelosestadsticosomedidasde
asociacindisponiblesenelprocedimientoTablasde
contingencia.

Paravisualizarfrecuenciasobservadas (nij ) yesperadas (eij ) enSPSS:

Empaquetado N i
Meses
A B C
6 10 10 26
1 (e 11 = 6, 35) (e 12 = 9, 01) (e 13 = 10, 62) (26)
8 12 12 32
2 (e 21 = 7, 81) (e 22 = 11, 09) (e 23 = 13, 10) (32)
8 8 14 30
3 (e 31 = 7, 32) (e 32 = 10, 39) (e 33 = 12, 28) (30)
9 14 16 39
4 (e 41 = 9, 52) (e 42 = 13, 51) (e 43 = 15, 97) (39)
Nj 31 44 52 N = 127

e 11 = 26. 31 = 6, 35 e 21 = 32. 31 = 7, 81 e 31 = 30. 31 = 7, 32 e 41 = 39. 31 = 9, 52


127 127 127 127

e 12 = 26. 44 = 9, 01 e 22 = 32. 44 = 11, 09 e 32 = 30. 44 = 10, 39 e 42 = 39. 44 = 13, 51


127 127 127 127

e 13 = 26. 52 = 10, 65 e 23 = 32. 52 = 13, 10 e 33 = 30. 52 = 12, 28 e 43 = 39. 52 = 15, 97


127 127 127 127

4 3 n 2i j
Estadsticodecontraste: 2(4 1) (31) = 26 = n = 128,24 127 = 1, 24 (estadsticoobservado)
i =1 j =1 e ij

SantiagodelaFuenteFernndez
30
Anlisisdevariablescategricas

Elestadsticotericooesperado 20 ,05 ; 6 = 12, 592

Como 26 = 1, 24 < 20 ,05 ; 6 = 12, 592 ,elestadsticoobservadoesmenorqueelestadsticotericoo


esperado,seaceptalahiptesisnula,concluyendoquelostresmtodosdeempaquetadotienenla
mismaeficiencia.

Estadsticodecontraste(observado)es1,24,elcual,enladistribucin 2 dePearsontiene6
gradosdelibertad (gl = 6) ,tieneasociadaunaprobabilidadSig.asinttica(Significacinasinttica)de
0,975.

Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservado)esgrande
(0,975>0,05),sedecideaceptarlahiptesisnula,yseconcluyequelostresmtodosde
empaquetadotienenlamismaeficiencia.

4 3 nij
RazndeverosimilitudChicuadrado:Siendo, RV = 2 nij log = 1,274 < 12, 592 = 20 ,05 ; 6 ,
eij
i=1 j=1
seaceptalahiptesisnula,yseconcluyequelostresmtodosdeempaquetadotienenlamisma
eficiencia.

Enlatabla,seobservacomoRVtieneasociadaunaprobabilidad(Sig.asinttica)de0,973,quecomo
esmayorque0,05,conduceaaceptarlahiptesisnula,llegandoalamismaconclusin.

Sealar,queencasocontrario,seeligeelestadsticoconmenorSig.asinttica.

LacorreccinporcontinuidaddeYates: 2c =
k m (ne ij 0,5 )2

= 0,59
i=1 j=1 e ij
Algunosautoressugieren,queconmuestraspequeas,estacorreccinpermitequeelestadstico
2 seajustemejoralasprobabilidadesdeladistribucin 2 ,peronoexisteunconsenso
generalizadosobrelautilizacindeestacorreccin.

SantiagodelaFuenteFernndez
31
Anlisisdevariablescategricas
EnelanlisisdeMEDIDASSIMTRICASseencuentranlasmedidasnominales,medidasordinales,
coeficientedecorrelacindeSpearmanyelcoeficientedecorrelacindePearson.

Lasmedidasnominalespermitencontrastarlaindependenciasindecirnadasobrelafuerzade
asociacinentrelasvariables,informannicamentedelgradodeasociacinexistente,nodela
direccinodelanaturalezadetalasociacin.Sonmedidasbasadasenelestadsticochicuadrado:
Phi,VdeCrameryelCoeficientedeContingencia.

Lasmedidasordinalesquerecogenladireccindelaasociacindelasvariables:unarelacinpositiva
indicaquelosvaloresaltosdeunavariableseasocianconlosvaloresaltosdelaotravariable,ylos
valoresbajosconlosvaloresbajos;unarelacinnegativaindicaquelosvaloresaltosdeunavariable
seasocianconlosvaloresbajosdelaotravariable,ylosvaloresbajosconlosvalorealtos.

Estasmedidassebasanenelconceptodeconcordancias(oinversin)ydiscordancias(ono
inversin).Lasmedidasdeasociacin(Gamma,Taub,Tauc)utilizanenelnumeradorladiferencia
entreelnmerodeconcordanciasoinversionesydiscordanciasonoinversionesresultantesde
compararcadacasoconotro,diferencindoseeneltratamientodadoalosempates.

Cadamedidadeasociacinapareceacompaadadesucorrespondientenivelcrtico(Sig.
aproximada),permitiendodecidirsobrelahiptesisdeigualdaddeeficiencia,puestoqueelnivel
crticodetodaslasmedidaslistadasesgrande(mayorque0,05entodosloscasos)seaceptala
hiptesisnuladeigualdaddeeficiencia.

Alladodelvalordecadacoeficienteseencuentrasuvalorestandarizado(Taproximada:valordel
coeficientedivididoporsuerrortpico),ascomoelerrortpicodelvalordecadacoeficienteobtenido
sinsuponerindependencia(Errortpicoasinttico).

2 1,240
Phi: = = = 0,099
N 127

2 1,240 1,240
VdeCRAMER: VCramer = = = = 0,07
N.min(k 1, m 1) 127.min(4 1, 3 1) 127.2

SantiagodelaFuenteFernndez
32
Anlisisdevariablescategricas
CoeficientedeContingencia(gradoderelacinodependencia):
asociacin
independen cia perfecta
2
1,240 } }
C = = = 0,098 0 C 1
2 + N 1,240 + 127

Paracalcularloscoeficientesordinales(Taub,TaucyGamma)serequieresaberelnmerode
paresconcordantes(C),discordantes(D)yempates(E).Partiendodelainformacinobtenida:

Meses A B C
1 6 10 10
2 8 12 12
3 8 8 14
4 9 14 16

Nmerodeparesconcordantes:surgendelproductodelasceldasexternasporelsumandodelas
frecuenciasdelasceldasinternas.

6 10 10 6 10 10 6 10 10
8 12 12 8 12 12 8 12 12
8 8 14 8 8 14 8 8 14
9 14 16 9 14 16 9 14 16
6 (12 + 12 + 8 + 14 + 14 + 16) = 456 10 (12 + 14 + 16) = 420 8 (8 + 14 + 14 + 16) = 416

6 10 10 6 10 10 6 10 10
8 12 12 8 12 12 8 12 12
8 8 14 8 8 14 8 8 14
9 14 16 9 14 16 9 14 16
12(14 + 16) = 360 8 (14 + 16) = 240 8 (16) = 128

C = 456 + 420 + 416 + 360 + 240 + 128 = 2020 nmerodeparesconcordantes

Nmerodeparesdiscordantes:razonamientoanlogo,partiendodelaceldaopuesta.

6 10 10 6 10 10 6 10 10
8 12 12 8 12 12 8 12 12
8 8 14 8 8 14 8 8 14
9 14 16 9 14 16 9 14 16
10 (8 + 12 + 8 + 8 + 9 + 14) = 590 10 (8 + 8 + 9) = 250 12(8 + 8 + 9 + 14) = 468

6 10 10 6 10 10 6 10 10
8 12 12 8 12 12 8 12 12
8 8 14 8 8 14 8 8 14
9 14 16 9 14 16 9 14 16
12(8 + 9) = 204 14 (9 + 14) = 322 8 (9) = 72

D = 590 + 250 + 468 + 204 + 322 + 72 = 1906 nmerodeparesdiscordantes


SantiagodelaFuenteFernndez
33
Anlisisdevariablescategricas
Comopredominanlasconcordancias(2020),larelacinespositiva,amedidaqueaumentan(o
disminuyen)losvaloresdeunadelasvariables,aumentan(odisminuyen)losdelaotra.

Clculodeparesempatados (E X ) enlavariableX:

6
8 8
8 8 8
9 9 9
6 (8 + 8 + 9) = 150 8 (8 + 9) = 136 8 (9) = 72

10
12 12
8 8 8
14 14 14
10 (12 + 8 + 14) = 340 12(8 + 14) = 264 8 (14) = 112

10
12 12
14 14 14
16 16 16
10 (12 + 14 + 16) = 420 12(14 + 16) = 360 14 (16) = 224

ElnmerodeparesempatadosenlavariableXser:

EX = 150 + 136 + 72 + 340 + 264 + 112 + 420 + 360 + 224 = 2078

Clculodeparesempatados (E Y ) enlavariableY:

6 10 10
8 12 12
8 8 14

6 (10 + 10) = 120 8 (12 + 12) = 192 8 (8 + 14) = 176

10 10
12 12
8 14

10 (10) = 100 12(12) = 144 8 (14) = 112

9 14 16 14 16
9 (14 + 16) = 270 14 (16) = 224

SantiagodelaFuenteFernndez
34
Anlisisdevariablescategricas
ElnmerodeparesempatadosenlavariableYser:

EY = 120 + 192 + 176 + 100 + 144 + 112 + 270 + 224 = 1338

nij (nij 1)
Elclculodeparesempatadosenambasvariablesvieneexpresado: EXY =
i, j 2

Meses A B C
6 10 10
1
(15) (45) (45)
8 12 12 4 3 nij (nij 1)
2
(28) (66) (66) EXY = = 659
i=1 j=1 2
8 8 14
3
(28) (28) (91)
9 14 16
4
(36) (91) (120)

Calculadoselnmerodeparesdevaloresconcordantes,discordantes,yempates,sepuede
determinarlosdistintoscoeficientesparadeterminarelgradodeasociacinentrelasvariables
ordinales.

Eltotaldeparesdevaloresqueesposibleencontrar(T),sinrepeticiones,siendoNeltotaldecasos,
vienedadoporlaexpresin:

N(N 1) 127.126
T = = = 8001
2 2

Advirtaseque, T = C + D + EX + EY + EXY = 2020 + 1906 + 2078 + 1338 + 659 = 8001

C D 2020 1906
Gamma(losempatessonirrelevantes): = = = 0,029
C + D 2020 + 1906

TauadeKendall:

(C D) (2020 1906)
a = = = 0,0142
T 8001

TaubdeKendall:

(C D) (2020 1906)
b = = = 0,0203
(C + D + EX )(C + D + EY ) (2020 + 1906 + 2078)(2020 + 1906 + 1338)

TaucdeKendall:

2m(C D) 2. 3(2020 1906)


c = 2
= = 0,021 donde m = mn{n filas , n columnas}
N (m 1) 1272. 2

SantiagodelaFuenteFernndez
35
Anlisisdevariablescategricas
EnelanlisisdeMEDIDASDIRECCIONALESseencuentranlasmedidasnominales(lambda,
coeficientedeincertidumbre),medidasordinales(ddeSomers),yelnominalporintervalo(eta).

Elvalordeloscoeficientesapareceacompaadodesucorrespondientenivelcrtico(Sig.
aproximada),puestoqueelnivelcrticodetodaslasmedidaslistadasesgrande (> 0,05) seaceptala
hiptesisnuladeindependencia,concluyendoquelosmesesyelmtododeempaquetadonoestn
relacionados.

Meses A B C Totalmarginal
1 6 10 10 N1 = 26 mx n1 j = 10
2 8 12 12 N2 = 32 mx n2 j = 12
3 8 8 14 N3 = 30 mx n3 j = 14
4 9 14 16 N4 = 39 mx n4 j = 16
4
N1 = 31 N 2 = 44 N 3 = 52 mx nij = 52
Totalmarginal N = 127 i= 1 j

3
mx nij = 39 mx ni1 = 9 mx ni2 = 14 mx ni 3 = 16
j=1 i

CoeficienteLambda:

mx nij + mx nij mx Ni mx N j
i j j i i j 52 + 39 39 52
= = = 0 coeficientelambda
2N mx Ni mx N j 2.127 39 52
i j

Enconsecuencia,lasvariablesanalizadassonindependientesalser = 0

SantiagodelaFuenteFernndez
36
Anlisisdevariablescategricas
CoeficientedeGoodmanyKruskall(variableXdependiente):

1 (N j nij )nij
(N Ni )Ni
N i j N j 94 ,551 94 ,2578
= = = 0,003 taudeGoodmanyKruskall
1 94 ,2578
(N Ni )Ni
N i

1 4 1
(N Ni )N = [(127 26)26 + (127 32)32 + (127 30)30 + (127 39)39] = 94,551
N i=1 127

(N j nij )nij (31 6) 6 + (31 8) 8 + (31 8) 8 + (31 9) 9


= +
j N j 31
(44 10)10 + (44 12)12 + (44 8) 8 + (44 14)14
+ +
44
(52 10)10 + (52 12)12 + (52 14)14 + (52 16)16
+ = 88,322
52

CoeficientedeGoodmanyKruskall(variableYdependiente):

1 (Ni nij )nij


(N N j)N j
N j i Ni 82,898 82,456
= = = 0,005
1 82,898
(N N )
j jN
N j

1 3 1
(N N j)N = [(127 31) 31 + (127 44) 44 + (127 52) 52] = 82,898
N j=1 127

(Ni nij )nij (26 6) 6 + (26 10)10 + (26 10)10 (32 8) 8 + (32 12)12 + (32 12)12
= + +
i Ni 26 32
(30 8) 8 + (30 8) 8 + (30 14)14 (39 9) 9 + (39 14)14 + (39 16)16
+ + = 82,456
30 39

I(X) + I(Y) I(XY)


CoeficientedeIncertidumbre: IY / X =
I(Y)

Ni Ni / N Ln(Ni / N) (Ni / N) Ln(Ni / N) N j N j / N Ln(N j / N) (N j / N) Ln(N j / N)

26 0,2047 1,5861 0,3247 31 31 0,2441 1,4102


32 0,2520 1,3785 0,3473 44 44 0,3465 1,0600
30 0,2362 1,4430 0,3409 52 52 0,4094 0,8929
39 0,3071 1,1806 0,3626 N = 127 1,0771
N = 127 1,3755

Ni Ni N N
I(X) = Ln = 1,3755 I(Y) = j Ln j = 1,0771
i N N j N N

SantiagodelaFuenteFernndez
37
Anlisisdevariablescategricas
(nij / N) Ln (nij / N) (nij / N) Ln (nij / N)
0,0472 0,079 0,079 3,0524 2,5416 2,5416 0,1442 0,2001 0,2001
0,0630 0,094 0,094 2,7647 2,3593 2,3593 0,1742 0,2229 0,2229
0,0630 0,063 0,110 2,7647 2,7647 2,2051 0,1742 0,1742 0,2431
0,0709 0,110 0,126 2,6470 2,2051 2,0716 0,1876 0,2431 0,2610
(nij / N) Ln(nij / N) = 2,4475
i j

nij nij
I(XY) = Ln = 2,4475
i j N N

I(X) + I(Y) I(XY) 1,3755 + 1,0771 2,4475


IY / X = 2 =2 = 0,00416 (simtrica)
I(X) + I(Y) 1,3755 + 1,0771

Paraobtener IX / Y bastaintercambiarlospapelesdeI(X),I(Y).

ddeSommer(simtrica):

(C D) (2020 1906)
d = = = 0,020
EX + E Y 2078 + 1338
C +D + 2020 + 1906 +
2 2

(C D) (2020 1906)
VariableYcomoindependiente: dX = = = 0,019
C + D + EX 2020 + 1906 + 2078

(C D) (2020 1906)
VariableXcomoindependiente: dY = = = 0,022
C + D + EY 2020 + 1906 + 1338

Ejercicio2.Sequiereestudiarlarelacinentrelaedaddelasmujeresysuaceptacindeunaley
sobreinterrupcindelembarazo.Paraellosehallevadoacabounaencuestasobre400mujeres
cuyosresultadosseadjuntanenlatabla:

Aceptacin
Edad Baja Media Alta
018 21 34 25
1835 24 31 25
3550 30 30 20
5065 37 30 13
>65 40 30 10

ConelEditordedatosdeSPSS:

SantiagodelaFuenteFernndez
38
Anlisisdevariablescategricas

EnelVisorderesultadosdeSPSS:

Comparandolosvaloresabsolutosde
losresiduostipificadoscorregidos
conelcorrespondientevalortabular
delanormal,paraunnivelde
significacindel5%(>1,96),se
observaquemuchosresiduosnoson
significativos.

SantiagodelaFuenteFernndez
39
Anlisisdevariablescategricas
Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:<<Las
jvenes(menoresde18aos)declasebajaylasmayoresde65aosdeclasealtatienenunaopinin
favorablesobrelainterrupcindelembarazo.Porelcontrario,laopinindelasmayoresde65aos
declasebajatienenunapercepcinclaramentenegativa.Deestemodo,seevidenciaqueexisteuna
relacinydeltipoqueessta>>.

Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraque
mientraselcontrasteusualtrabajacon[ (5 1)(3 1) = 8 ]elementosindependientes,elcontrastepor
cadaceldaimplicaquelatotalidaddelosresiduostipificados dij sonindependientesycadaunode
ellosseajustaaunadistribucinterica N(0,1) .

Elvalordelestadsticodecontraste(observado)
es 19,283 ,elcual,enladistribucin 2 tiene8
gradosdelibertad(gl=8),tieneasociadauna
probabilidad(Significacinasinttica)de 0,013 .

Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)es
pequea(menorque0,05),sedeciderechazarlahiptesisnula,indicandoquehayevidenciade
asociacinentreelgradodeaceptacindelabortoylaedaddelasmujeres.

Sealarqueelvalordelarazndeverosimilitudes(RV)es19,945,tieneasociadaunaprobabilidad
(Sig.asinttica)de 0,011 ,quecomoesmenorque0,05,indicandoquehayevidenciadeasociacin
entreelgradodeaceptacindelabortoylaedaddelasmujeres.

Losestadsticos (2 , RV) llevanalamismaconclusin,encasocontrario,seeligeelestadsticocon


menorSig.asinttica.

ElvalordelestadsticoAsociacinlinealporlineal(correccinporcontinuidaddeYates)tieneun
valorde 18,255 conunnivelcrticode (0 < 0,05) ,porloqueserechazalahiptesisnulade
independencia,llegandoalamismaconclusinqueconlosestadsticosanteriores.

SantiagodelaFuenteFernndez
40
Anlisisdevariablescategricas
Elvalordecadacoeficienteapareceacompaadodesucorrespondientenivelcrtico(Sig.
aproximada),quepermitetomarunadecisinsobrelahiptesisnuladeindependencia.Puestoque
estosnivelescrticossonmenoresque0,05,sepuedeafirmarquehayrelacinentrelaaceptacin
delabortoylaedaddelasmujeres.

Porsuparte,losvaloresobtenidosdelCoeficientedecontingenciayVdeCramer(comomedidas
nominalescuantificanelgradodeasociacin)indicanunaasociacinbajaentrelaedaddelas
mujeresylaaceptacindelaborto.

Deotraparte,losvaloresobtenidosdelaTaubdeKendall,TaucdeKendall,GammayCorrelacin
deSpearman(comomedidasordinalesindicanademseltipodeasociacin)presentanuna
asociacinbajanegativa,esdecir,queelgradodeaceptacindelabortodisminuyealaumentarla
edad.

LosvaloresobtenidosdeLambda,TaudeGoodmanyKruskall,Coeficientedeincertidumbre,ydde
Somers(comomedidasnominalescuantificanelgradodeasociacin)indicanunaasociacinbaja
entrelaedaddelasmujeresylaaceptacindelaborto.

Cadamedidaacompaadadeunnivelcrtico(Sig.aproximada),queenloscasosqueesmenorque
0,05,conducearechazarlahiptesisnuladeindependenciayconcluirquelasvariables(edaddelas
mujeres,aceptacindelaborto)estnasociadas.

Elvalor0,012delcoeficienteTaudeGoodmanyKruskallcalculadoconsideralavariable
Aceptacindelabortocomoindependiente,tienelainterpretacin:
<<Conociendolaedaddelamujerconsultada(filas),sereduceenun1,2%laprobabilidadde
cometerunerroralpredecirsuaceptacinalaborto(columnas).Estosignificaquelaedaddela
mujernotienecapacidadpredictivasobrelaaceptacindelaborto>>.

Seconcluye,existeevidenciadeasociacinentreelgradodeaceptacindelabortoylaedaddelas
mujeres,disminuyendoelgradodeaceptacinalaumentarlaedad.

SantiagodelaFuenteFernndez
41
Anlisisdevariablescategricas
Ejercicio3.Paraanalizarsiladistribucindelosmotivosdeconsultaen4centrosdeatencin
ambulatoriapeditricaeransimilares,seclasificaronlasconsultasen6grupos:(1)Medicina
preventiva;(2)Infeccionesrespiratoriasaltas;(3)Otrasenfermedadesagudas;(4)Enfermedades
crnicas;(5)Traumatismoseintoxicaciones;y(6)Problemassociales.

Grupomotivodeconsulta
CentroMdico
1 2 3 4 5 6 Total
A 350 87 65 12 23 23 560
B 120 43 38 6 10 12 229
C 426 67 34 7 45 67 646
D 267 49 35 5 18 18 392
Total 1163 246 172 30 96 120 1827

ConelEditordeSPSS:

SantiagodelaFuenteFernndez
42
Anlisisdevariablescategricas

Seiniciaelanlisisceldaaceldaconelbotn[Casillas]
paracomprobarelusoadecuadodelachicuadrado,
ascomoparaobtenerunpatrnenladistribucin
observada.

Elporcentajedeceldas,conunafrecuenciaesperadamenorque5,estvinculadoalasexigencias
paralautilizacindelapruebaChicuadrado:(a)Menosdeun20%deceldasconfrecuencia
esperadamenorque5.(b)Ningunaceldaconfrecuenciaesperadamenorque1.

Comparandolosvaloresabsolutosdelosresiduostipificadoscorregidosconelcorrespondientevalor
tabulardelanormal,paraunniveldesignificacindel5%(>1,96),seobservaquealgunosresiduos
sonsignificativos.

Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:
<<Ladistribucinobservadaentreloscentrosmdicosnoesuniforme,enelcentroClosproblemas
sociales(4,9)fueronelmayormotivodeconsultamdica;mientrasque,enelcentroBotras
enfermedadesagudas(4)fueronelmayormotivodeconsulta>>.

Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraque
mientraselcontrasteusualtrabajacon[ (4 1)(6 1) = 15 ]elementosindependientes,elcontraste
porcadaceldaimplicaquelatotalidaddelosresiduostipificados dij sonindependientesycadauno
deellosseajustaaunadistribucinterica N(0,1) .

SantiagodelaFuenteFernndez
43
Anlisisdevariablescategricas

Elvalordelestadsticodecontraste(observado)
es 76,944 ,elcual,enladistribucin 2 tiene 15
gradosdelibertad(gl=15),tieneasociadauna
probabilidad(Significacinasinttica)de 0,000 .

Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)es
pequea(menorque0,05),sedeciderechazarlahiptesisnula,indicandoquehayevidenciade
asociacinentreelcentromdicoyelmotivodelasconsultas.

Sealarqueelvalordelarazndeverosimilitudes(RV)es75,422,tieneasociadaunaprobabilidad
(Sig.asinttica)de 0,000 ,quecomoesmenorque0,05,indicaquehayevidenciadeasociacin
entreelgradodeaceptacinentreelcentromdicoyelmotivodelasconsultas.

Losestadsticos (2 , RV) llevanalamismaconclusin,encasocontrario,seeligeelestadsticocon


menorSig.asinttica.

ElvalordelestadsticoAsociacinlinealporlineal(correccinporcontinuidaddeYates,cuandose
aproximaunavariablediscretaaunavariablecontinua,seaplicaalapruebadelachicuadrado
cuandolafrecuenciaenalgunasobservacionesesmenorque10)tieneunvalorde 0,021 conun
nivelcrtico (0,886 > 0,05) ,porloqueseaceptalahiptesisnuladeindependencia.Noexisteun
consensogeneralizadosobrelautilizacindeestacorreccin.

Elvalordecadacoeficienteapareceacompaadodesucorrespondientenivelcrtico(Sig.
aproximada),quepermitetomarunadecisinsobrelahiptesisnuladeindependencia.Puestoque
estosnivelescrticossonmenoresque0,05,sepuedeafirmarquehayasociacinentreelcentro
mdicoyelmotivodelasconsultas

Porsuparte,losvaloresobtenidosdelCoeficientedecontingenciayVdeCramer(comomedidas
nominalescuantificanelgradodeasociacin)indicanunaasociacinbajaentreelcentromdicoyel
motivodelaconsulta.

SantiagodelaFuenteFernndez
44
Anlisisdevariablescategricas
Deotraparte,losvaloresobtenidosdelaTaubdeKendall,TaucdeKendall,GammayCorrelacin
deSpearman(comomedidasordinalesindicanademseltipodeasociacin)presentanuna
asociacinbajanegativa.

LosvaloresobtenidosdeLambda,TaudeGoodmanyKruskall,Coeficientedeincertidumbre,ydde
Somers(comomedidasnominalescuantificanelgradodeasociacin,lacapacidaddehacer
pronsticosdeunavariablerespectodelaotra)indicanunaasociacinbajaentreelcentromdicoy
elmotivodelaconsulta,esdecir,lacapacidaddehacerpronsticosdeunavariablerespectodela
otraesrealmenteescasa.

Cadamedidaacompaadadeunnivelcrtico(Sig.aproximada),enloscasosqueesmenorque0,05,
conducearechazarlahiptesisnuladeindependenciayconcluirquelasvariables(centromdico,
motivodelaconsulta)estnasociadas.

Elvalor0,016delcoeficienteTaudeGoodmanyKruskallcalculadoconsideralavariable
Centromdicocomoindependiente,tienelainterpretacin:
<<Conociendoelcentromdico(filas),sereduceenun1,6%laprobabilidaddecometerunerroral
predecirdondesehizolaconsulta(columnas).Estosignificaqueelcentromdiconotienecapacidad
predictivasobreelmotivodelaconsulta>>.

Endefinitiva,sepuedeconcluirqueelcentromdicoyelmotivodelasconsultasestnrelacionados,
peroenningncasosepodraconsiderarunclarofactordepronsticosobrelasconsultas.

SantiagodelaFuenteFernndez
45
Anlisisdevariablescategricas
(EstudiodeCasosyControles)

Ejercicio4.Paraanalizarsilalactanciaconstituyeunfactordeproteccinparaelcncerdemama,
unestudioincluya755mujeresmenoresde35aosdetodaslascomunidadesespaolas,alasque
sediagnsticocncerdemamaduranteelperodo20002005.Loscontrolestenanunadiferenciade
edadconloscasosinferioraseismeses.
Cadacasoycontrolfueroncontroladosporelmismoinvestigador.Losresultadosreflejanqueenel
grupodecasos,255mujeresrealizaronunalactanciaplenadealmenos3meses,mientrasqueentre
loscontrolesesteantecedenteestabapresenteen487mujeres(delos255controlesdeloscasos
quetuvieronunalactanciaplena,160lactarony95no,entantodelos500controlesdeloscasos
quenolactaron,327silohabanhechoy173no).
Losdatosquedanreflejadosenlasdostablassiguientes:

CasosyControlesemparejados
CasosyControles Controles
Casos Controles Total Casos Expuesto Noexpuesto Total
Expuesto 255 487 742 Expuesto 160 95 255
Noexpuesto 500 268 768 Noexpuesto 327 173 500
Total 755 755 1.510 Total 487 268 755
255.268 255. 768 160.173 160. 500
OR = = 0,281 RR = = 0,528 OR = = 0,891 RR = = 0,959
500. 487 500. 742 327. 95 327. 255

) Enlosdiseoslongitudinaleshaciadelante,conocidoscomodiseosprospectivosodecohortes,
lasmujeressonclasificadasendosgruposdependiendodelapresenciaoausenciadelactanciay
seleshaceunseguimientoduranteunperododetiempohastadeterminarlaproporcinde
mujeresdecadagrupoenlosquesedaundeterminadodesenlace(cncerdemama).

n11 .N2
Lamedidadeinterseselriesgorelativo(RR): RR =
n21 .N1

Lainterpretacines:<<LaproporcindecncerdemamaentrelasmujeresexpuestasesRRveces
msaltaqueentrelasmujeresnoexpuestas>>.Enestesentido,encasosycontroles,laproporcin
decncerdemamademujeresexpuestases0,528msaltaqueentrelasmujeresnoexpuestas.En
elemparejamientodecasosycontroles,laproporcinaumentahasta0,959.

Unriesgorelativode1indicaquelaprobabilidaddeencontrarcncerdemamaeslamismatantoen
elgrupodemujeresexpuestascomoenelgrupodemujeresnoexpuestas.Paravalorarsielriesgo
obtenidoessignificativamentedistintode1,secalculaelintervalodeconfianza:

z / 2 .
n12
+
n22
z / 2 .
n12
+
n22
ICRR = RR . e
n11 . N1 n21 . N2 n11 . N1 n21 . N2
, RR . e

1,96 . 487 + 268 1,96 . 487 + 268


[
= 0,472 , 0,590]casos y controles
255 . 742 500 . 768 255 . 742 500 . 768
ICRR = 0,528 . e , 0,528 . e

SantiagodelaFuenteFernndez
46
Anlisisdevariablescategricas
1,96 . 95 + 173 1,96 . 95 + 173
[
= 0,856 , 1,075]emparejados
160 . 255 327 . 500 160 . 255 327 . 500
ICRR = 0,959 . e , 0,959 . e

Sielintervalodeconfianzanocontieneel1,seconcluyequeelriesgodetenercncerdemamano
eslomismoentrelasmujeresexpuestasynoexpuestasalalactancia.

) Enlosdiseoslongitudinaleshaciaatrs,llamadosdiseosretrospectivosodecasocontrol,se
formangruposdemujeres(lactaronynolactaron)apartirdelapresenciaoausenciadecncerde
mamaysehaceunseguimientohaciaatrsintentandoencontrarinformacinsobrelaproporcin
enlaqueseencuentrapresenteencadamuestraelcncerdemama.

Puestoqueeltamaodelosgrupos(lactaronynolactaron)sefijaapartirdelapresenciaoausencia
delcncerdemama,secalculaoddsratio(razndeventajasorazndeproductoscruzadosoenqu
medidaquelactaronesunriesgodetenercncerdemama):

n11 .n22
OR =
n12 .n21

Comoseobserva,eloddsratio(OR)estantomejorestimadordelriesgorelativocuantoms
pequeasseanlasproporcionesdedesenlaceencadagrupo.

Unndicede1indicaquelaprobabilidaddeencontrarseconelcncerdemamaenlosgrupos
estudiadoseslamisma.Paradeterminarsiesteriesgoessignificativamentedistintode1,secalcula
elintervalodeconfianza:

z / 2 . 1 + 1 + 1 + 1 z / 2 . 1 + 1 + 1 + 1
ICOR = OR . e n11 n12 n21 n22
, OR . e n11 n12 n21 n22

1,96 . 1 + 1 + 1 + 1 1 + 1 + 1 + 1
= [0,227 , 0,347]
1,96 .
ICOR = 0,281 . e 255 487 500 268 , 0,281 . e 255 487 500 268
caso y control

1,96 . 1 + 1 + 1 + 1 1 + 1 + 1 + 1
= [0,651 , 1,219]
1,96 .
ICOR = 0,891 . e 160 95 327 173 , 0,891 . e 160 95 327 173
emparejados

PreparandodatosdevariablesdicotmicasparaintroducirenSPSS:

Controles

Casos Casos Expuesto(1) Noexpuesto(2)

Expuesto(1) 164 40
Expuesto(1)
Noexpuesto(2) 32 64
Expuesto(1) 41 10
Noexpuesto(2)
Noexpuesto(2) 48 96
NOTA:Enelcasoderegresinlogsticalacodificacinde(2)hubierasido(0)paranoexpuesto

SantiagodelaFuenteFernndez
47
Anlisisdevariablescategricas

Haciendodobleclicksobrelatabla,enel
menPivotar/PanelesdePivotado

Pulsando,alaizquierda,en
Casos,vanapareciendolasdos
tablasintroducidas.

Elhechodequelatablanomuestreelvalordel
estadsticodeMcNemarsignificaqueelnivel
crticosehacalculadoutilizandoladistribucin
binomial(obteniendolaprobabilidadexactaen
lugardeaproximada).

Cualquieraquesealaformadeobtenerlo,elnivelcrticoindicaelgradodecompatibilidadexistente
entrelosdatosmuestralesylahiptesisnuladeigualdaddeproporcionesantesdespus.

Enelcasodelosexpuestos,comop_value<0,05,serechazalahiptesisnulayseconcluyequese
puededescartarelazarcomoexplicacindelcncerdemamaconunapequeaprobabilidad
(inferioral1:10.000)decometerelerrortipoI(rechazoindebido).

Enelcasodelosnoexpuestos,p_value>0,05,seaceptalahiptesisnula,nohabiendoasociacin
algunaconelcncerdemama.

SantiagodelaFuenteFernndez
48
Anlisisdevariablescategricas

Observandolasegundafila,paralacohorteControles=Expuesto,'Laproporcindecncerdemama
entrelasmujeresexpuestasesRR=0,528vecesmsaltaqueentrelasmujeresnoexpuestas'Enel
emparejamientodecasosycontroles,laproporcinaumentahasta0,959.

Paravalorarsielriesgoobtenidoessignificativo,secalculaelintervalodeconfianza.EnCasosy
Controlessiloes,mientrasqueenelEmparejamientodeCasosControlesnoloes,suintervalode
confianzacubreel1,indicandoquelaprobabilidaddeencontrarcncerdemamaeslamismaenlos
casosexpuestosynoexpuestos.

Enlaprimerafilaapareceeloddsratio(OR),queestantomejorestimadordelriesgorelativocuanto
mspequeasseanlasproporcionesdedesenlaceencadagrupo.
SantiagodelaFuenteFernndez
49
Anlisisdevariablescategricas
ElOR(razndeventajasoqumedidaquelactaronesunriesgodetenercncerdemama)deCasos
yControleses0,281yessignificativoporquesuintervalodeconfianzanocubreel1;mientrasqueel
EmparejamientotieneunORde0,891ynoessignificativoporquesuintervalodeconfianzacubreel
uno,indicandoquelaprobabilidaddeencontrarseconelcncerdemamaenlosgruposestudiados
eslamisma.

SantiagodelaFuenteFernndez
50
Anlisisdevariablescategricas
Tablas2X2estratificadas(efectodeconfusin)

Ejercicio5.Latablaadjuntareflejalaasociacinpositivadeunestudiodecasosycontrolesentreel
consumodecafyelcncerdepncreas:

Caf Casos Controles 196.106 OR


S 196 104 OR = = 2,24 Probabilidad = = 0,69
89 .104 OR + 1
No 89 106
NOTA:Enlatabla(loscasosseranlosenfermosalfinaldelestudioyloscontroleslosnoenfermos).
UnOR=2,24seleecomo(2,24:1),esdecir,elcncerdepncreases2,24vecesmsquesinoestuviera
presenteelcaf.

Considerandoeltabacocomountercerfactor,ydividirlosindividuosdelestudioendosestratos
(fumadoresynofumadores):

NoFumadores Fumadores
Caf Casos Controles Caf Casos Controles
32. 96 164 .10
S 32 64 OR = =1 S 164 40 OR = =1
48 . 64 41. 40
No 48 96 No 41 10

CasosControles

Caf Tabaco Casos(1) Controles(2)

Fumadores(1) 164 40
S(1)
NoFumadores(0) 32 64
Fumadores(1) 41 10
No(0)
NoFumadores(0) 48 96

SantiagodelaFuenteFernndez
51
Anlisisdevariablescategricas
Seconocequelaspersonasquetomancafgeneralmentefuman,entonceseltabaquismopuedeser
unfactorconfusor.Paraestimarelefectoconfusor,elanlisisindividualdecadaestratodebeser
complementadoconunanlisisgeneralconsiderandotodoslosvaloresdelosestratos.Elmtodode
MantelHaenszelesunodelosmstilesparaestimarelefectodeconfusin.

Seobservaquehaydostablasdecontingencia(NoFumadores,Fumadores),ambastienenun
intervalodeconfianzaquecontienealaunidad,portantoambosORsonnosignificativos.

ElestadsticodeCochranesmuybajoytiene
unnivelcrticoasociadode1>0,05,conlo
queseaceptalahiptesisnulade
independenciacondicional.Alamisma
conclusinsellegaconelestadsticode
MantelHaenszel.

Lapruebadehomogeneidadpermiteexaminarlasdiferenciasentrelosoddsratiodelosestratos.
Elestadsticoesbajoyelnivelcrticoasociadoa
ambosestadsticosesmayorque5%(p>0,05),
loquehacepensarquenohaydiferencias
apreciablesentrelosORenlosestratosyque,
enconsecuencia,losresultadosajustadospuedenconsiderarseparaelconjunto,estoes,se
mantienelahiptesisdehomogeneidad.
Cmosepuedeasumirqueelriesgoeshomogneoentodoslosestratos,tienesentidouna
estimacincomndelriesgo.LasolucinvienedadaporelestadsticodeMantelHaenszel.

Elvalordelriesgocomn
(estimacin)es1,conunintervalo
deconfianzadefinidoporloslmites
0,640y1,564,comoelintervalode
confianzacubreel1,sepuede
concluirqueelORnoes
significativo,esdecir,eltabacoes
unfactorconfusor.

SantiagodelaFuenteFernndez
52