Sunteți pe pagina 1din 5

!

!
!
!

!
!
!
!

!
!
!

Tema 2

EL ANLISIS PRELIMINAR DE LOS


DATOS
!
!

!
!
!

!
!
!
!

!
!
!

! 5!
!

Los!anlisis!estadsticos!ms!avanzados!carecen!de!validez!si!el!archivo!de!
datos!contiene!errores!o!incoherencias.!
El!primer!paso!de!cualquier!anlisis!una!vez!obtenidos!los!datos,!es!
reproducirlos!en!una!plantilla!de!datos,!donde!cada!columna!representa!una!
variable!y!cada!fila!un!sujeto.!De!modo!que!cada!fila!representa!el!comportamiento!
de!un!sujeto!a!lo!largo!de!una!lista!de!variables.!
Es!posible!que!en!este!proceso!cometan!errores,!ya!sean!valores)fuera)de)
rango!(aquellos!que!no!entran!dentro!de!los!valores!admitidos!por!una!
determinada!variable)!o!incoherencias!(que!tienen!ligar!cuando!una!variable!
constituye!un!filtro!para!otra).!Para!su!correccin!ser!preciso!volver!sobre!los!
registros!originales,!pero!de!no!ser!posible,!lo!recomendable!es!eliminar!el!valor!
para!ese!sujeto.!
El!anlisis'de'las'bases'de'respuesta!pretende!verificar!que!existen!
datos!en!todas!las!variables!(que!no!haya!datos!missing),!ya!que!una!disminucin!
del!tamao!muestral!de!una!determinada!variable!por!la!excesiva!presencia!de!
datos!perdidos!implica!la!ampliacin!del!intervalo!de!confianza,!lo!que!conlleva!
una!menor!precisin!de!las!estimaciones.!Adems!es!preciso!examinar!si!la!
ausencia!de!respuesta!en!una!variable!se!reparte!aleatoriamente!en!la!muestra!o,!
por!el!contrario,!los!sujetos!de!los!que!no!tenemos!informacin!presentan!unas!
caractersticas!particulares.!Por!ltimo,!este!anlisis!es!importante!porque!cuando!
el!tamao!de!la!muestra!se!ve!menguado!considerablemente,!su!capacidad!de!
generalizacin!de!los!resultados!disminuye.!

Cuando!la!proporcin!de!valores!perdidos!en!una!variable!es!inferior!al!
5%,!no!se!hara!necesaria!la!comprobacin!de!aleatoriedad.!Si!la!magnitud!de!falta!
de!respuesta!es!grande!o!no!aleatoria!es!recomendable!completar!el!trabajo!de!
campo.!
La!transformacin'de'variables'implica!crear!nuevas!variables!a!partir!
de!otras!presentes!en!el!archivo!de!datos.!Esto!es!de!inters!si!necesitamos!
corregir!la!forma!de!distribucin!de!alguna!variable,!disponer!de!una!nueva!
variable!que!sea!una!combinacin!de!otras!dos,!o!calcular!puntuaciones!
diferenciales!y!tpicas.!

Las!puntuaciones)diferenciales!proporcionan!ms!informacin!que!las!
directas,!ya!que!indican!si!la!puntuacin!i!est!por!encima!o!por!debajo!de!la!media!
y!la!distancia!a!la!que!se!sita!de!sta.!Las!puntuaciones)tpicas!van!un!paso!ms!
all!al!informarnos!de!la!magnitud!relativa!de!esa!distancia,!ya!que!indican!cuntas!
desviaciones!tpicas!por!encima!o!por!debajo!de!la!media!se!sita!una!puntuacin!
determinada.!La!tipificacin!de!las!puntuaciones!nos!permitir!comparar!el!
comportamiento!de!un!sujeto!en!dos!variables!medidas!en!diferente!escala.!

Por!ltimo,!cuando!se!desea!realizar!un!anlisis!nicamente!con!un!grupo!
de!sujetos!de!la!muestra,!se!utiliza!el!filtrado'de'casos.!
A!la!hora!de!llevar!a!cabo!un!anlisis!de!datos!es!necesario!un!
conocimiento!profundo!de!los!datos!y!sus!propiedades!y!una!seleccin!adecuada!
de!las!pruebas!estadsticas!a!utilizar!en!cada!caso.!Esto!es,!un!anlisis'
exploratorio'de'datos,!que!se!centra!en:!

! 6!
!

O Estudiar!la!distribucin!de!las!variables.!
O Detectar!la!presencia!de!valores!anmalos!(valores!extraordinarios!no!
representativos!de!la!generalidad,!que!pueden!estar!desvirtuando!la!forma!
real!de!la!distribucin).!
O Corregir!la!falta!de!respuesta!sustituyendo!el!dato!ausente!por!un!
valor!que!con!moderada!probabilidad!hubiera!presentado!el!sujeto!en!esa!
variable.!
O Comprobar!los!supuestos!paramtricos:!
# Normalidad:!que!las!variables!se!distribuyan!normalmente.!Se!
comprueba!con!la!prueba)de)KolmogorovCSmirnov!y!la!correccin)de)
Lilliefors.!
# Homocedasticidad:!homogeneidad!de!varianzas.!Se!comprueba!
con!la!prueba)de)Levene.!
# Relacin!lineal!entre!variables:!a!medida!que!aumenta!(o!
disminuye)!el!valor!de!una!de!ellas,!aumentar!(o!disminuir)!tambin!el!
valor!de!la!otra.!Se!comprueba!mediante!los!grficos)de)dispersin.!
El!cumplimiento!de!estos!supuestos!implicar!la!utilizacin!de!
contrastes!paramtricos,!mientras!que!si!estos!no!se!cumplen!existen!dos!
opcciones:!utilizar!contrastes!no!paramtricos,!o!transformar!las!variables.!
El!anlisis'descriptivo'de'una'variable'cualitativa!se!reduce!al!anlisis!
de!su!distribucin)de)frecuencias,!es!decir,!el!recuento!de!cada!categora!de!la!
variable!(frecuencia!absoluta),!a!partir!de!la!cual!podemos!conocer!la!proporcin!
de!cada!categora!(frecuencia!relativa).!Este!anlisis!se!representa!mediante!un!
grfico)de)barras,!con!tantas!barras!como!categoras.!
La!distribucin!de!una!variable'cuantitativa!se!representa!mediante!una!
curva)suavizada,!ya!que!posiblemente!dispongamos!de!una!cantidad!excesiva!de!
valores!diferentes!para!representarlos!en!un!grfico!de!barras.!Sobre!estas!curvas!
examinaremos!sus!propiedades!y!las!medidas!que!definen!y!dan!forma!a!una!
distribucin:!
! Medidas!de!posicin:!permiten!identificar!el!lugar!que!ocupa!un!
determinado!valor!dentro!de!un!grupo.!Las!ms!habituales!son!los!percentiles,!
que!dividen!la!distribucin!de!datos!en!100!secciones!en!las!que!recaen!todos!
los!casos.!
! Medidas!de!tendencia!central:!representan!el!punto!medio!de!la!
distribucin.!
$ Media)aritmtica:!suma!de!los!valores!observados!dividida!por!
el!nmero!total!de!observaciones,!de!modo!que!todos!los!valores!tienen!el!
mismo!peso,!por!lo!que!un!valor!situado!en!el!centro!de!la!distribucin!de!
datos!contribuir!tanto!a!su!cmputo!como!un!valor!muy!alejado!(a!pesar!
de!que!ste!no!representa!la!muestra).!Esto!implica!que!no!es!un!estadstico!
robusto,!ya!que!se!ve!muy!alterada!por!la!presencia!de!valores!anmalos.!
$ Media)geomtrica:!raz!nCsima!de!los!productos!de!los!n!
valores!observados,!que!transformada!a!logaritmo,!implica!un!crecimiento!
desacelerado!a!medida!que!se!incrementa!el!valor!de!las!observaciones,!de!
modo!que!los!valores!extremos!de!la!parte!derecha!no!sern!tan!influyentes!

! 7!
!

en!el!clculo!de!su!punto!medio.!Lo!que!implica!que!es!una!medida!
adecuada!cuando!la!distribucin!es!asimtrica!positiva.!
$ Mediana:!valor!intermedio!de!la!distribucin,!dejando!por!
debajo!al!50%!de!las!observaciones!y!por!encima!al!otro!50%.!Esta!medida!a!
penas!se!ve!afectada!por!la!existencia!de!valores!anmalos!ni!por!la!
distribucin!asimtrica.!
$ Moda:!valor!ms!frecuente!en!una!variable.!Puede!estar!alejado!
de!la!tendencia!real!de!la!distribucin!y!no!ser,!por!tanto,!representativo.!
! Medidas!de!dispersin:!informan!de!la!variabilidad!de!las!
puntuaciones!en!una!variable.!
$ Amplitud:!diferencia!entre!los!valores!mximo!y!mnimo.!Es!una!
medida!simplemente!orientativa,!muy!sensible!a!la!presencia!de!casos!
anmalos,!y!no!es!adecuada!para!comparar!variables!con!distintas!unidades!
de!medida.!
$ Amplitud)intercuartlica:!diferencia!entre!los!cuartiles!3!y!1!
(percentiles!75!y!25),!que!comprende!el!50%!central!de!las!observaciones.!
$ Varianza)y)desviacin)tpica:!cmputo!de!la!distancia!entre!cada!
puntuacin!y!la!media!(donde!el!resultado!para!cada!caso!constituye!su!
puntuacin!diferencial).!La!varianza!es!el!sumatorio!del!cuadrado!de!cada!
diferencia!dividido!por!n!(el!promedio!de!las!puntuaciones!diferenciales!al!
cuadrado),!por!que!es!una!buena!forma!de!cuantificar!el!grado!de!
concentracin!de!un!conjunto!de!puntuaciones.!La!raz!cuadrada!de!la!
varianza!es!la!desviacin)tpica,!necesaria!para!devolver!las!puntuaciones!a!
su!escala!original.!Al!ser!calculadas!a!partir!de!la!media,!en!aquellos!casos!en!
los!que!la!media!no!sea!fiable,!tampoco!los!sern!estas.!Adems!slo!son!
comparables!entre!variables!con!las!mismas!unidades!de!medida.!Para!
muestras!pequeas!es!conveniente!utilizar!estimadores!insesgados,!
cuasivarianza!y!cuasidesviacin)tpica,!restando!1!al!divisor!de!la!varianza.!!
$ Coeficiente)de)variacin:!una!solucin!que!permite!disponer!de!
medidas!de!dispersin!comparables!entre!variables!con!diferentes!unidades!
de!medida!consiste!en!relativizarlas,!dividiendo!la!desviacin!tpica!por!la!
media!aritmtica,!de!modo!que!se!establece!una!relacin!para!cada!variable!
entre!su!variabilidad!y!su!tendencia!central.!
! Medidas!de!distribucin:!
$ Asimetra:!grado!en!que!las!observaciones!se!reparten!
proporcional!y!equitativamente!por!encima!y!por!debajo!del!punto!central.!
Si!el!reparto!es!equilibrado,!se!trata!de!una!distribucin!simtrica.!Si!existe!
una!mayor!dispersin!en!sus!valores!altos,!la!curva!estar!estirada!hacia!la!
derecha,!por!lo!que!tenemos!una!distribucin!asimtrica!positiva.!Si!la!
dispersin!es!mayor!en!los!valores!bajos,!la!curva!estar!estirada!hacia!la!
izquierda,!por!lo!que!se!trata!de!una!distribucin!asimtrica!negativa.!
Cuando!se!detecta!una!asimetra!significativa!deberemos!seleccionar!
estadsticos!ms!robustos.!
$ Curtosis:!frecuencia!de!aparicin!de!valores!centrales!en!una!
distribucin.!Si!hay!gran!proporcin!de!casos!en!la!zona!central,!estamos!
ante!una!distribucin!leptocrtica.!Si!hay!poca!agrupacin!en!torno!al!
centro,!la!distribucin!es!platicrtica.!Una!situacin!intermedia!implica!una!

! 8!
!

distribucin!mesocrtica.!La!curtosis!se!relaciona!con!el!grado!de!
apuntamiento!de!la!distribucin.!
! Indicadores!grficos:!
$ Histograma:!recoge!la!distribucin!de!frecuencias!de!una!
variable!agrupando!todos!sus!valores!en!un!nmero!reducido!de!intervalos.!
Proporciona!una!visin!resumida!de!la!distribucin!de!la!variable!
conservando!la!forma!de!la!distribucin!de!frecuencias!original.!
$ Boxplot:!proporciona!la!siguiente!informacin:!
O!Medidas!de!posicin:!los!extremos!de!la!caja!representan!los!
percentiles!25!y!75,!por!lo!que!el!interior!de!la!caja!representa!la!
amplitud!intercuartlica.!!
O!Medidas!de!tendencia!central:!la!lnea!central!de!la!caja!
representa!la!mediana.!
O!Medidas!de!variabilidad:!cuanto!mayor!sea!la!longitud!de!la!
caja,!mayor!ser!la!dispersin!de!la!distribucin!de!datos.!
O!Medidas!de!distribucin:!la!asimetra!es!indicada!por!la!
posicin!de!la!mediana!en!la!caja!(si!est!en!el!centro!ser!simtrica,!si!
se!aproxima!a!la!parte!superior!ser!asimtrica!negativa,!y!si!lo!hace!a!
la!inferior!ser!asimtrica!positiva);!la!curtosis!es!representada!por!la!
relacin!entre!la!amplitud!de!la!caja!y!la!longitud!de!sus!brazos!(si!es!
muy!estrecha!y!sus!brazos!muy!alargados!es!leptocrtica,!si!es!muy!
ancha!y!los!brazos!muy!cortos!es!platicrtica).!
O!Los!brazos!de!la!caja!indican!aquellos!valores!que!quedan!
fuera!del!cuerpo!central!de!los!datos,!pero!que!no!son!anmalos.!
O!Valores!anmalos:!los!outliers!son!aquellos!que!se!alejan!del!
cuerpo!central!entre!15!y!3!veces!el!valor!de!IQR;!los!extremos!se!
alejan!ms!de!3!veces!el!valor!de!IQR.!
!
!
!

!
!
!
!

!
!
!

!
!

! 9!

S-ar putea să vă placă și