Sunteți pe pagina 1din 62

Rubn Crespo

cisolog@cisolog.com
Mayo 2013
www.cisolog.com
ci enci a sociolgica
El contenido de este documento realizado por
Rubn Crespo se encuentra bajo una Licencia
Creative Commons: Atribucin-NoComercial-
SinDerivadas 3.0Unported.
Frmulas y apuntes de
Estadstica aplicada
a las ciencias sociales

NotaPrevia


Este documento no tiene ninguna finalidad pedaggica. Se trata de una
compilacin de las principales frmulas estadsticas y apuntes tericos recogidos
del los libros de Luis Camarero Rioja et al. 2010. Estadstica para la investigacin
social. Ibergarceta; y Alejandro Almazn et al. 2011. Anlisis estadstico para la
investigacin social. Ibergarceta, que constituye respectivamente los manuales
bsicos de las asignaturas EstadsticasocialaplicadaalascienciassocialesI y II de
los planes de estudio de Grado de Sociologa en la UNED.
La finalidad de este documento es ofrecer una herramienta de apoyo tanto para
el profesional como para el estudiante que ha asimilado los conocimientos bsicos
de estadstica aplicada a las ciencias sociales, de manera que cuando realice
prcticas de investigacin social donde se requiere el uso de la estadstica, pueda
disponer de un material de consulta que concentra las principales frmulas y
elementos tericos tiles para resolver la mayora de los problemas que se le
planteen. Por tanto, el contenido de este documento, al no disponer de
explicaciones precisas y exposicin de ejemplos, no es conveniente para el
aprendizaje de la estadstica enfocada a la investigacin social. Para ello se
recomienda la lectura y comprensin del citado manual. Si bien hay otros muchos
manuales cuyo aprendizaje serviran para entender las formulas y apuntes
tericos que se compilan aqu, en este documento los contenidos se han
estructurado en el mismo orden que los manuales sealados ms arriba.
La mayora de las tablas y grficos son de elaboracin propia, excepto un par de
ellos que se han extrado del primer manual, as como las tablas de los anexos que
se pueden encontrar al final del documento.
RubnCrespo
Mayo, 2013
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

1 cisolog.com




ndice


TIPOLOGA DE LOS DATOS ..................................................................................................................... 6
TIPOS DE ESCALA DE LAS VARIABLES ..................................................................................................... 6
OTRA CLASIFICACIN DE LAS VARIABLES ............................................................................................... 6
DISTRIBUCIONES DE FRECUENCIAS ........................................................................................................ 7
FRECUENCIA RELATIVA, FRECUENCIA ACUMULADA .............................................................................................. 7
LMITES REALES PARA CREACIN DE CATEGORAS SEGN VARIABLES DE INTERVALO .......................... 7
TIPOS REPRESENTACIN GRFICA DISTRIBUCIN DE FRECUENCIAS SEGN APUNTAMIENTOS ......... 7
MEDIDAS DE TENDENCIA CENTRAL ........................................................................................................ 7
MEDIA ARITMTICA, MEDIA ARITMTICA DATOS AGRUPADOS ............................................................................... 7
MARCA DE CLASE.. ................................................ 7
MEDIA ESTADSTICA PONDERADA ..................................................................................................................... 7
CLCULO DE LAS MARCAS DE CLASE ................................................................................................................. 8
MEDIANA .................................................................................................................................................... 8
CUARTILES ................................................................................................................................................... 8
DECILES ....................................................................................................................................................... 8
CENTILES ..................................................................................................................................................... 8
MODA ........................................................................................................................................................ 8
CLCULO DE PERCENTILES ............................................................................................................................... 8
RANGO INTERCUNTICO, RANGO SEMI-INTERCUANTLICO: ................................................................................... 8
MEDIDAS DE DISPERSIN ...................................................................................................................... 9
VARIANZA .................................................................................................................................................... 9
DESVIACIN ESTNDAR (O TPICA) ................................................................................................................... 9
VARIANZA PARA DATOS AGRUPADOS ................................................................................................................. 9
DESVIACIN ESTNDAR (O TPICA) PARA DATOS AGRUPADOS ................................................................................ 9
COEFICIENTE DE VARIACIN (PARA COMPARAR EL GRADO DE DISPERSIN ENTRE VARIAS DISTRIBUCIONES) ...................... 9
MEDIDAS DE LOCALIZACIN RELATIVA .................................................................................................. 9
VALORES DE Z .............................................................................................................................................. 9
EL TEOREMA DE CHEBYSHEV ......................................................................................................................... 10
OTRAS FORMAS DE CALCULAR LA MEDIA ............................................................................................ 10
MEDIA ARMNICA, MEDIA CUADRTICA ........................................................................................................ 10
MEDIA GEOMTRICA ................................................................................................................................... 10
TIPOS DE GRFICO ............................................................................................................................... 11
ELEMENTOS BSICOS PARA LA CONSTRUCCIN DE GRFICOS ............................................................ 12
TEORA Y CLCULO DE PROBABILIDADES ............................................................................................. 12
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

2 cisolog.com

PROBABILIDAD A PRIORI Y FRECUENCIA RELATIVA ............................................................................................... 12
SUCESO COMPLEMENTARIO .......................................................................................................................... 12
TCNICAS DE CONTEO (AGRUPACIONES/ORDENACIONES) ................................................................................... 12
PERMUTACIN, VARIACIONES ....................................................................................................................... 12
COMBINACIONES ........................................................................................................................................ 12
TIPOS DE SUCESOS ...................................................................................................................................... 13
REGLA DE LA ADICCIN: UNIN DE SUCESOS (SIMULTNEOS) .............................................................................. 13
REGLA DE LA MULTIPLICACIN: SUCESOS CONDICIONADOS O INTERSECCIN DE SUCESOS (SECUENCIALES) ................... 13
REGLA DE LAPLACE ...................................................................................................................................... 13
PROPIEDADES BSICAS DE LA PROBABILIDAD ..................................................................................... 14
DISTRIBUCIONES TERICAS DE PROBABILIDAD .................................................................................... 14
FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 14
VALOR ESPERADO ....................................................................................................................................... 14
DISTRIBUCIN REAL, TERICA Y EMPRICA .......................................................................................... 15
DISTRIBUCIN UNIFORME ................................................................................................................... 16
DISTRIBUCIN UNIFORME DISCRETA ............................................................................................................... 16
FUNCIN DE DENSIDAD ................................................................................................................................ 16
DISTRIBUCIN BINOMIAL .................................................................................................................... 16
EXPERIMENTO BINOMIAL .............................................................................................................................. 16
FORMA GENERAL DE LA DISTRIBUCIN BINOMIAL ............................................................................................. 16
TRINGULO DE TARTAGLIA (O DE PASCAL) ....................................................................................................... 17
VALOR ESPERADO EN LA DISTRIBUCIN BINOMIAL ............................................................................................. 18
DISTRIBUCIN NORMAL ...................................................................................................................... 18
FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 18
DISTRIBUCIONES NORMALES CON DISTINTAS DESVIACIONES TPICAS ....................................................................... 18
DISTRIBUCIONES NORMALES CON DISTINTAS MEDIAS .......................................................................................... 19
MEDIA DE UNA DISTRIBUCIN BINOMIAL .......................................................................................................... 18
VARIANZA DE UNA DISTRIBUCIN BINOMIAL ..................................................................................................... 18
DESVIACIN ESTNDAR (O TPICA) DE UNA DISTRIBUCIN BINOMIAL ..................................................................... 18
FUNCIN DE DENSIDAD NORMAL ................................................................................................................... 19
DISTRIBUCIN NORMAL ESTANDARIZADA .......................................................................................... 19
TRANSFORMACIN VALORES DE X EN UNIDADES DE Z ......................................................................................... 19
FUNCIN NORMAL ESTANDARIZADA, FUNCIN DE DENSIDAD ESTANDARIZADA ...................................................... 20
CLCULO DE PROBABILIDADES EN DISTRIBUCIONES NORMALES ......................................................... 20
APROXIMACIN DE LA DISTRIBUCIN BINOMIAL A LA NORMAL ........................................................ 20
DISTRIBUCIN T DE STUDENT ............................................................................................................. 21
TRANSFORMACIN VALORES DE X EN UNIDADES DE T .......................................................................................... 21
GRADOS DE LIBERTAD DE LA DISTRIBUCIN T DE STUDENT: ................................................................................. 21
DISTRIBUCIN T DE STUDENT PARA VARIOS GRADOS DE LIBERTAD ( ) .................................................................... 21
DESVIACIN TPICA DE LA DISTRIBUCIN T DE STUDENT ...................................................................................... 21
CUADRO RESUMEN MEDIAS Y VARIANZAS DE LAS DIFERENTES DISTRIBUCIONES DE PROBABILIDAD . 22
LAS MUESTRAS ESTADSTICAS ............................................................................................................. 22
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

3 cisolog.com

PARMETROS Y ESTADSTICOS ....................................................................................................................... 23
ERROR Y SESGO .......................................................................................................................................... 23
MUESTREO ALEATORIO. USO DE TRES TIPOS DE DISTRIBUCIONES DISTINTAS: ........................................................... 23
ERROR ESTADSTICO .................................................................................................................................... 24
NIVEL DE CONFIANZA ................................................................................................................................... 24
LOS TRES PILARES DE LA TEORA MUESTRAL ........................................................................................ 24
ERROR TPICO (O ERROR ESTNDAR) ............................................................................................................... 24
TEOREMA DEL LMITE CENTRAL ........................................................................................................... 25
DISTRIBUCIN NORMAL EN Z ERROR ESTADSTICO TEOREMA LMITE CENTRAL .................................................... 25
RELACIN ENTRE ERROR, NIVEL DE CONFIANZA ................................................................................................ 25
Y TAMAO DE LA MUESTRA .......................................................................................................................... 25
CLCULO DEL TAMAO MUESTRAL, CLCULO DEL ERROR ESTADSTICO ................................................................. 25
VALORES DE Z PARA NIVELES DE CONFIANZA MS USUALES ............................................................... 25
NOMENCLATURA DISTRIBUCIONES POBLACIN/MUESTRA ................................................................. 26
ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE
LA PROPORCIN (POBLACIONES INFINITAS) ........................................................................................ 26
POBLACIONES ...................................................................................................................................... 27
POBLACIONES FINITAS .................................................................................................................................. 27
FACTOR DE CORRECCIN PARA POBLACIONES FINITAS ........................................................................................ 27
POBLACIONES INFINITAS ............................................................................................................................... 28
ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE
LA PROPORCIN (POBLACIONES FINITAS) ........................................................................................... 28
MUESTRAS GRANDES Y PEQUEAS ...................................................................................................... 28
MUESTRAS GRANDES.. ................................................................................................................ 28
MUESTRAS PEQUEAS ................................................................................................................... 28
REGLA DE APROXIMACIN A LA DESVIACIN TPICA CUANDO SE DESCONOCE LA DE LA POBLACIN . 28
DISEO DE MUESTRAS ......................................................................................................................... 28
MARCO ..................................................................................................................................................... 28
PROCEDIMIENTO DE MUESTREO ......................................................................................................... 29
MTODO DE SELECCIN DE LA MUESTRA ......................................................................................................... 29
MUESTREO ESTRATIFICADO ................................................................................................................. 29
ESTRATOS .................................................................................................................................................. 29
DESCOMPOSICIN ESQUEMTICA DE UNA POBLACIN EN ESTRATOS ...................................................................... 30
ELEMENTOS DEL MUESTREO ESTRATIFICADO ..................................................................................................... 30
VARIANZA DE LA POBLACIN ESTRATIFICADA .................................................................................................... 30
PROCEDIMIENTOS DE AFIJACIN .................................................................................................................... 31
PONDERACIN EN DISEOS NO PROPORCIONALES AL TAMAO ........................................................ 31
COEFICIENTE DE PONDERACIN ..................................................................................................................... 31
MUESTREO POR CONGLOMERADOS .................................................................................................... 32
EXPOSICIN ESQUEMTICA DEL MUESTREO POR CONGLOMERADOS ....................................................................... 32
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

4 cisolog.com

MUESTREO POR CUOTAS ..................................................................................................................... 33
MUESTREO MIXTO ............................................................................................................................... 33
LA ESTIMACIN DE LAS VARIANZAS .................................................................................................... 34
CUASIVARIANZA MUESTRAL .......................................................................................................................... 34
CUASIDESVIACIN MUESTRAL ....................................................................................................................... 34
VARIANZA MUESTRAL A PARTIR ..................................................................................................................... 34
DEL ESTADSTICO DE LA CUASIVARIANZA ........................................................................................................... 34
ERROR TPICO CUANDO ESTIMAMOS LA VARIANZA A TRAVS DE LA PROPIA MUESTRA ............................................... 34
INFERENCIA ESTADSTICA .................................................................................................................... 35
ESTIMACIN DE MEDIAS Y PROPORCIONES ....................................................................................................... 35
ERROR ESTADSTICO .................................................................................................................................... 35
ERRORES E INTERVALOS PARA LA MEDIA Y LA PROPORCIN ESTIMANDO LA VARIANZA A PARTIR DE LA MUESTRA ............ 35
INTERVALOS EN EL CASO DE MUESTRAS PEQUEAS ............................................................................ 35
ESTIMACIN DE MEDIAS (MUESTRAS PEQUEAS) .............................................................................................. 35
ESTIMACIN DE PROPORCIONES (MUESTRAS PEQUEAS) .................................................................................... 36
INTERVALO DE WILSON ................................................................................................................................ 36
DIFERENCIAS DE ESTADSTICOS ............................................................................................................ 36
SITUACIONES DE DEPENDENCIA E INDEPENDENCIA ENTRE MUESTRAS ..................................................................... 37
DETERMINACIN DEL TIPO DE SITUACIN DE CONSTRUCCIN DE ESTADSTICOS COMPUESTOS ..................................... 37
DIFERENCIA DE MEDIAS EN CASOS DE MUESTRAS INDEPENDIENTES ....................................................................... 37
ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37
DIFERENCIA DE PROPORCIONES EN CASOS DE MUESTRAS INDEPENDIENTES ............................................................. 37
ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37
DIFERENCIA DE ESTADSTICOS EN CASOS DE MUESTRAS RELACIONADAS .................................................................. 37
ERROR TPICO ............................................................................................................................................ 37
ERROR TPICO A PARTIR DE LA CUASIDESVIACIN ............................................................................................... 37
TEST DE SIGNIFICACIN ....................................................................................................................... 38
HIPTESIS NULA ............................................................................................................................... 38
PRUEBAS DE HIPTESIS ................................................................................................................................. 39
TIPOS DE ERROR EN LOS TEST DE HIPTESIS ....................................................................................................... 39
NIVEL DE SIGNIFICACIN DEL TEST O VALOR CRTICO ...................................................................................... 39
P VALOR .................................................................................................................................................... 40
DOS TIPOS DE TEST ...................................................................................................................................... 40
TEST DE UNA COLA (UNILATERAL) ................................................................................................................... 40
TEST DE DOS COLAS (BILATERAL) .................................................................................................................... 40
PROCEDIMIENTO DEL TEST DE SIGNIFICACIN O PRUEBAS DE HIPTESIS .................................................................. 41
VALORES DE Z PARA LOS NIVELES DE SIGNIFICACIN (N.S.) 5% Y 1% ..................................................................... 41
CONTRASTES DE HIPTESIS (MUESTRA VS POBLACIN DE REFERENCIA) ............................................. 41
CONTRASTE PARA UNA MEDIA ....................................................................................................................... 41
CONTRASTE PARA UNA PROPORCIN ............................................................................................................... 42
COMPARACIONES (MUESTRA VS MUESTRA) ........................................................................................ 42
COMPARACIN DE MEDIAS ............................................................................................................................ 42
COMPARACIN DE PROPORCIONES ................................................................................................................. 42
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

5 cisolog.com

ANLISIS DE VARIANZA (ANOVA) ........................................................................................................ 42
PROCEDIMIENTO DE CLCULO ANOVA ........................................................................................................... 42
DISTRIBUCIN DE SNEDECOR ...................................................................................................................... 44
DISEO ALEATORIZADO CON UN FACTOR .......................................................................................................... 44
REGRESIN Y CORRELACIN LINEAL .................................................................................................... 44
LA COVARIANZA .......................................................................................................................................... 44
INTERPRETACIN DE LA COVARIANZA .............................................................................................................. 45
ERRORES O RESIDUOS ................................................................................................................................... 45
ECUACIN DE LA RECTA DE REGRESIN ............................................................................................................ 45
FRMULAS DE AJUSTE DE LA RECTA DE REGRESIN ............................................................................................. 46
COEFICIENTE DE CORRELACIN DE PEARSON .................................................................................................. 46
INTERPRETACIN DEL VALOR DE .................................................................................................................. 46
COEFICIENTE DE DETERMINACIN ............................................................................................................. 47
TABLAS DE CONTINGENCIA .................................................................................................................. 48
ANLISIS BIVARIABLE ................................................................................................................................... 48
REGLA DE ZEISEL ......................................................................................................................................... 49
ANLISIS TRIVARIABLE (TERCERA VARIABLE. VARIABLE DE CONTROL) .................................................................... 50
PARADOJA DE SIMPSON ................................................................................................................................ 50
COMO VARIABLE ANTECEDENTE
COMO VARIABLE INTERVINIENTE
................................................................................................................... 51
.................................................................................................................. 51
JI-CUADRADO .............................................................................................................................. 52
FRECUENCIA TERICA (O ESPERADA SEGN LA LGICA DE JI-CUADRADO) ................................................................ 52
CLCULO DE RESIDUOS ................................................................................................................................. 52
RESIDUO ................................................................................................................................................... 52
RESIDUOS ESTANDARIZADOS ......................................................................................................................... 53
JI-CUADRADO DE CADA CELDA ........................................................................................................................ 53
COEFICIENTE JI-CUADRADO DE TODA LA TABLA (EJEMPLO TABLA 2X2) ................................................................... 53
TABLA PARA LA FRMULA GENERAL DEL NDICE ............................................................................... 53
FRMULA SUMA DE FRECUENCIAS COLUMNA GENRICA ................................................................................ 53
FRMULA SUMA DE FRECUENCIAS FILA GENRICA ........................................................................................ 53
SUMATORIO DE TODAS LAS CELDAS ................................................................................................................. 53
FRECUENCIA ESPERADA DE UNA CELDA CUALQUIERA .................................................................................. 54
COEFICIENTE JI-CUADRADO DE LA TABLA .................................................................................................... 54
INTERPRETACIN DE JI-CUADRADO EN TABLAS BIVARIABLES ............................................................................. 54
DISTINTAS DISTRIBUCIONES JI-CUADRADO PARA DISTINTOS GRADOS DE LIBERTAD (DF) ............................................. 54
NMERO DE GRADOS DE LIBERTAD DE UNA TABLA BIDIMENSIONAL ........................................................... 54
PRUEBA DE LA DISTRIBUCIN JI-CUADRADO CON LOS CORRESPONDIENTES GRADOS DE LIBERTAD ........................... 55
EL VALOR CRTICO Y NIVEL DE SIGNIFICACIN DE ........................................................................................... 55
ANEXO 1: TABLA Z. DISTRIBUCIN NORMAL ESTNDAR ..................................................................... 56
ANEXO 2: TABLA T. DISTRIBUCIN T DE STUDENT .............................................................................. 57
ANEXO 3: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,01) ............................................................... 58
ANEXO 4: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,05) ............................................................... 59

ANEXO 5: TABLA JI-CUADRADO. DISTRIBUCIN DE ........................................................................ 60
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

6 cisolog.com

Frmulas y apuntes de
Estadstica aplicada a las Ciencias Sociales


Tipologa de los datos
Ventajas Inconvenientes
CENSOS
Incluyen a toda la poblacin.
Posibilidad de desagregacin en
subpoblaciones.
Coste econmico elevado.
Periodicidad dilatada.
REGISTROS Actualizacin frecuente.
Disponible slo para poblaciones
especficas.
Incluyen pocas variables
Consulta restringida.
ENCUESTAS
Costes menores.
Informacin instantnea.
Pueden incluir mayor nmero de
variables.
Mayor posibilidad de verificacin de
los datos.
Estn sujetas a errores de muestreo.
Dificultades de desagregacin de la
informacin de forma detallada por el
tamao limitado de la muestra.
Necesidad de previa existencia de
censos para seleccionar la muestra.

Tipos de escala de las variables
Propiedades Ejemplos
NOMINAL
(N-1)
Clasifica
Lugar de nacimiento, sexo, estado civil, lugar
de residencia, etc.
ORDINAL
(N-2)
Clasifica y ordena
Nivel de estudios, grado de satisfaccin,
jerarqua de mando, etc.
INTERVALO
(N-3)
Clasifica, ordena y posee unidad de
medida
Tamao del hogar, fecha, temperatura, etc.
RAZN
(N-4)
Clasifica, ordena, posee unidad de
medida, y origen = 0 absoluto
0 es la ausencia de caracterstica
Nmero de hijos, renta familiar, peso,
distancia, etc.

Otra clasificacin de las variables

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

7 cisolog.com

Distribuciones de Frecuencias
n
i
frecuencias absoluta
N = n
1
+ n
2
+ n
3
+ + n
i
N Nmero de casos de la poblacin

Frecuencia Relativa Frecuencia Acumulada


Lmites reales para creacin de categoras segn variables de intervalo
Los intervalos reales de las categoras dependen de la naturaleza de la variable
Variable:
o Discreta Lmites Clase = Lmites Reales
o Continua Depende de la variable
Tipos Representacin Grfica distribucin de frecuencias segn apuntamientos
Ejemplos:
Distancia de 3 hasta 4 de 2,5 hasta 4,4999 [2,5 4,5[
Edad de 3 hasta 4 de 3 hasta 4,4999 [3 5[

1. PLATICRTICA Aplanada Frecuencias similares a lo largo del recorrido.
2. LEPTOCRTICA Puntiaguda Frecuencias altas en pocos valores.
3. MESOCRTICA Intermedia Intermedia entre las dos anteriores.


Medidas de Tendencia Central
Media Aritmtica Media Aritmtica datos agrupados
Marca de clase

Media estadstica Ponderada





Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

8 cisolog.com

Clculo de las Marcas de Clase
A partir de los lmites reales
1
Mediana


L
i
Lmite Inferior
C
i
Amplitud del Intervalo C
i
= L
sup
L
inf

Cuartiles

Q
2
= Me
Q
4
= L
sup
= Valor Mximo de la Poblacin/Muestra

Deciles


Centiles


Moda


Clculo de Percentiles


Rango Intercuntico: Rango Semi-Intercuantlico:

1
Ejemplo: si para la variable edad de una muestra quisiramos agregar los datos en diferentes grupos de edades,
en el caso del grupo de 25 a 29 aos el lmite inferior es 25, y el lmite superior es 30 [25 30[. Por tanto, la marca
de clase para ese grupo de edad es 27,5 aos.







Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

9 cisolog.com

Medidas de Dispersin
Varianza
Frmula Alternativa
Desviacin Estndar (o Tpica)
Frmula Alternativa
Varianza para datos agrupados


Desviacin Estndar (o Tpica) para datos agrupados


Coeficiente de Variacin (para comparar el grado de dispersin entre varias distribuciones)
Expresado en porcentaje (%)


Medidas de Localizacin Relativa

Valores de Z


Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin
en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas.
Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta
distancia en unidades de desviacin tpica o estndar ( ).










Nos indica a cuntas desviaciones estndar
est cualquier valor ( ) de la Media ( ).

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

10 cisolog.com

El Teorema de Chebyshev


*Porcentaje de casos (%) independientemente de que la distribucin sea normal o no.
Para cualquier otro valor se calcula:


Otras formas de calcular la Media
Media Armnica Media Cuadrtica


Media Geomtrica








Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

11 cisolog.com

Tipos de Grfico
Problema de Investigacin Tipo de Grfico Representacin Grfica
Descripcin y
Comparacin de
Categoras
DIAGRAMA DE BARRAS

DIAGRAMA DE BARRAS APILADAS

DIAGRAMA DE REAS APILADAS

DIAGRAMA DE SECTORES

Anlisis y Comparacin de
Distribuciones
HISTOGRAMA
S = b x h h = S/b

POLGONO DE FRECUENCIAS

OJIVA

DIAGRAMA DE CAJAS

Anlisis Temporales DIAGRAMA DE LNEAS

Distribucin conjunta de
dos variables
DIAGRAMA DE DISPERSIN



Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

12 cisolog.com

Elementos bsicos para la construccin de grficos
1. Fuente
2. Ttulo y subttulos
3. Ao o periodo
4. Etiquetado de los Ejes
5. Diferenciacin de las categoras
6. Base (el 0 se debe representar si forma base de la escala)
7. Discontinuidad en el Eje Vertical (si es necesario)


Escala del Grfico:
Aritmtica
Logartmica Grfico semilogartmico.


Teora y clculo de Probabilidades
Probabilidad a priori y frecuencia relativa
0 P (S) 1
Suceso Elemental Unidad Muestral
E = Espacio de Sucesos Conjunto de todos los sucesos posibles Espacio Muestral
Suceso Complementario

Permutacin Variaciones
Tcnicas de Conteo (Agrupaciones/Ordenaciones)


Combinaciones






Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

13 cisolog.com

Tipos de Sucesos
Simultneos son, o no, mutuamente excluyentes.
Sucesivos/Secuenciales Observar si el anterior condiciona al posterior

o Elemental
o Compuesto
unin ( ) / o [Simultneo]
interseccin ( ) / y [Secuencial]


Regla de la Adiccin: Unin de Sucesos (simultneos)
Si son mutuamente excluyentes:

Sin tener en cuenta la mutua exclusin:


Regla de la Multiplicacin: Sucesos Condicionados o Interseccin de Sucesos
(secuenciales)
Si estn condicionados

Si y no estn condicionados:







Regla de Laplace

La probabilidad de un suceso es igual a su cardinal entre el cardinal del espacio muestral
en el que se inscribe.






Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

14 cisolog.com

Propiedades bsicas de la Probabilidad
Suceso Seguro







Distribuciones Tericas de Probabilidad
Segn el tipo de variable, las distribuciones de probabilidad pueden ser:
Discretas
Continuas

Funcin de la Distribucin Normal

Cuando trabajamos con muestras distinguimos entre la distribucin de la muestra y la de la
poblacin:
Parmetros:
= Media de la Poblacin = Media de la Muestra
Estadsticos:
= Desviacin Tpica de la Poblacin = Desviacin Tpica de la Muestra
Parmetro: es el valor que toma la poblacin respecto a un indicador utilizado para
resumir la informacin que nos interesa de dicha poblacin.
Estadstico: es el valor que obtenemos a partir de una muestra y que representa al
parmetro.

Valor Esperado











Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

15 cisolog.com

Distribucin Real, Terica y Emprica

Una distribucin de probabilidad es una distribucin de frecuencias relativas de una variable
que denominamos aleatoria, por estar asociada a un experimento de carcter aleatorio; no
presenta resultados ciertos, slo podemos conocer la probabilidad de sus resultados posibles.
En el campo de la investigacin social est asociada al muestreo: a la posibilidad de extraer de
una poblacin una serie de individuos que presentan una determinada caracterstica.
Igual que toda distribucin, la de probabilidad puede ser discreta o continua, segn sea el
espacio muestral del experimento que la define, es decir, segn sea el conjunto de valores que
puede tomar la variable: el conjunto de resultados posibles del experimento.
En el campo de la investigacin social podemos trabajar con distribuciones empricas, viendo
cmo se distribuyen los datos en una poblacin o en una muestra. Pero cuando trabajamos
con una muestra lo que pretendemos es saber hasta qu punto la distribucin de una variable
que obtenemos en la muestra se corresponde con la distribucin real de la variable en la
poblacin. Para ello necesitamos hacer uso de una distribucin intermedia entre la de la
muestra y la de la poblacin: la distribucin muestral, que es una distribucin terica. Al
calcular el valor esperado en una muestra que hemos supuesto, al trabajar con variables
numricas (no nominales), todas las medidas de todas las muestras posibles (de un
determinado tamao), la distribucin de estas medias constituye la distribucin muestral, que
no hay que confundir con la distribucin emprica de los datos de una muestra, ni con la
distribucin real de los datos de la poblacin.
Cuando realizamos el muestreo, automticamente las distribuciones de frecuencias relativas
de los datos de una poblacin o de una muestra se convierten en una distribucin de
probabilidad.
Por tanto, hay que subrayar la diferencia entre la distribucin emprica (de los datos de la
muestra o de la poblacin) y la distribucin terica que generan las medias de todas las
muestras que podemos extraer de la poblacin investigada en el caso de variables de tipo
cuantitativo.
Las distribuciones tericas son referencia obligada para constrastar distribuciones empricas
observadas en muestras y poder conocer la validez de los datos observados en stas, ya que
nos indicarn hasta qu punto los datos se corresponden con los de la poblacin de donde
extraemos las muestras.


Distribucin Real distribucin de la Poblacin a investigar
Distribucin Terica distribucin muestral (media de todas las muestras)
INTERMEDIA entre la Real (Poblacin) y la Emprica (Muestra)
Distribucin Emprica distribucin de una muestra seleccionada
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

16 cisolog.com

Distribucin Uniforme
Es la ms sencilla de las distribuciones de probabilidad: aquella en que la probabilidad se
distribuye por igual en todos los casos o en todos los grupos de la poblacin. No existen
probabilidades diferentes parea casos o grupos diferentes.
Distribucin Uniforme Discreta
Cuando contamos con grupos y la probabilidad de cada grupo es:

Funcin de Densidad
La funcin de densidad se aplica para calcular la probabilidad que toma un intervalo dentro de
distribuciones continuas. Se utilizan reas para conocer la probabilidad de un intervalo de
valores.

Distribucin Binomial

p probabilidad de xito
q probabilidad de fracaso
Experimento Binomial

Para cada nmero de sucesos que fijemos (n) y para cada probabilidad de xito (p) en cada uno
de estos sucesos tendremos una distribucin binomial distinta. Cada distribucin binomial es
determinada por estos dos parmetros: n y p.

Forma General de la Distribucin Binomial
N de xitos
(x)
Probabilidad
p(x)
0

1

2

3











Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

17 cisolog.com


X


n-1

n


Esta distribucin se describe por los trminos del desarrollo del binomio de Newton .
Los coeficientes de cada trmino
corresponden con una de las lneas del tringulo de Tartaglia o de Pascal.

Tringulo de Tartaglia (o de Pascal)

Para cada n (nmero de elementos de la muestra) y cada x (nmero de xitos de sta)
obtenemos los coeficientes a partir del Tringulo de Tartaglia (o de Pascal).
Cada lnea representa los coeficientes de una distribucin binomial, coeficientes que
corresponden con estos nmeros combinatorios:






Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

18 cisolog.com



Para muestras de variable nominal biniomializar / dicotomizar

Valor esperado en la Distribucin Binomial


Distribucin Normal
La distribucin normal es la distribucin terica ms usada en estadstica. Aparte de que
mltiples conjuntos de datos pueden ajustarse a ella, es la clave de la estadstica inferencial.
Toda distribucin muestral de medias se aproxima a la distribucin normal.
Funcin de la Distribucin Normal

Como y son dos constantes matemticas transcendentes ( ; ),
, aparte del valor variable de , depende de la media de todos los valores y de su
desviacin tpica o estndar . Cada distribucin normal depende de estos dos parmetros
(su media y su desviacin tpica); fijados estos, se puede conocer el valor de la funcin
para cada valor de .
Distribuciones normales con distintas desviaciones tpicas





Desviacin Estndar
(o Tpica) de una
distribucin binomial


Varianza de una
distribucin binomial


Media de una
distribucin binomial

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

19 cisolog.com

Distribuciones normales con distintas medias


Funcin de Densidad Normal


La funcin de densidad normal nos define la probabilidad de cualquier intervalo.


Distribucin Normal Estandarizada
Transformacin valores de x en unidades de Z


Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin
en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas.
Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta
distancia en unidades de desviacin tpica o estndar ( ).


Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

20 cisolog.com

Si una distribucin continua la convertimos en valores de decimos que la estandarizamos. Al
estandarizarla, su media se convierte en 0 y desviacin tpica en 1.
Las transformaciones que convierten unidades de a (y viceversa) permiten generalizar esto
a todas las distribuciones normales, tengan la media y la desviacin tpica que tengan.

Funcin Normal Estandarizada Funcin de Densidad Estandarizada


Clculo de probabilidades en Distribuciones Normales



Aproximacin de la Distribucin Binomial a la Normal
Si no es una probabilidad extrema (prxima al 0 o al 1), entonces podemos sustituir la
binomial por una normal cuando o .


Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

21 cisolog.com

Distribucin t de Student
La distribucin de Stundent nos sirve para hacer inferencias sobre la media poblacional a
partir de la media de la muestra cuando se desconoce la desviacin tpica de la poblacin. La
distribucin de Student es una distribucin asociada a la normal. Se puede decir que es una
distribucin normal corregida.
En muchos manuales se sostiene de forma arbitraria que si entonces la distribucin
normal puede sustituir a la distribucin de Student. Se puede dar este lmite por bueno.
Transformacin valores de x en unidades de t

Hay una distribucin t distinta para cada tamao muestral . En este caso se habla de los
Grados de Libertad, que sern siempre , y que estn asociados a l clculo de la
desviacin tpica de la muestra.
Grados de Libertad de la Distribucin t de Student:


Distribucin t de Student para varios grados de libertad ( )



Desviacin Tpica de la Distribucin t de Student





Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

22 cisolog.com

Cuadro Resumen Medias y Varianzas de las diferentes distribuciones de probabilidad
Tipo de Distribucin Media Varianza
Uniforme
b = mximo
a = mnimo

Binominal
= nmero de casos
= probabilidad de xito


Normal
Normal Estndar 0 1
de Student
= grados de libertad


Las Muestras Estadsticas
Investigacin mediante Muestras.
1. Definir el Universo (Conjunto o Poblacin de referencia)
Condiciones:
2. Fijar las condiciones para la Estimacin:
Error
Confianza
3. Mtodo de Seleccin de la Muestra:
a. Muestreo Aleatorio
Estratificado
Uniforme
Afijacin
Proporcional
Neyman (proporcional a la Varianza)
Por Conglomerados
b. Muestreo por Cuotas
4. Inferirencia de los resultados para el Universo.

Representatividad de la Muestra
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

23 cisolog.com

Parmetro Constante Fija ( , )
Parmetros y Estadsticos
Es el valor que toma la poblacin respecto a un indicador utilizado para resumir la
informacin que nos interesa de dicha poblacin.
Estadstico Constante Variable ( , , )
Es el valor que obtenemos a partir de una muestra y que representa al parmetro.


Con el estadstico vamos buscando el parmetro
Error Estadstico
Error y Sesgo
Es aquel que procede del hecho de utilizar observaciones muestrales, es decir, de no
observar la totalidad de los datos. Este error puede ser conocido e incorporado en los
resultados a travs de un intervalo.

Errores No Estadsticos
Procede de defectos en los instrumentos de medida y de las condiciones en las que se
establece la medida, as como de otro conjunto de errores en la transmisin de datos. Este
tipo de errores se pueden (y deben) ser evitados. Entre los errores no estadsticos se
encuentra el sesgo:
Sesgo
Desviacin sistemtica de nuestras observaciones respecto a lo que estamos
midiendo. En investigacin mediante muestras el sesgo se produce al obtener
muestra que no se adecan a la poblacin, es decir, por el desfase que existe
entre la poblacin objetivo y la poblacin de la que obtenemos la muestra.

1. Distribucin de la Poblacin: el conjunto de todos los datos de la poblacin y a cuyos
indicadores de resumen denominamos parmetros. Generalmente esta distribucin es
desconocida, por ello recurrimos a muestras.
Muestreo Aleatorio. Uso de tres tipos de distribuciones distintas:
2. Distribucin de la Muestra: el conjunto de datos pertenecientes a la muestra
seleccionada. Generalmente slo obtenemos una muestra de la poblacin. Sus
indicadores de resumen se denominan estadsticos.
3. Distribucin Muestral: la distribucin de los estadsticos (las medias, por ejemplo) de
todas las muestras posibles de tamao que proceden de una poblacin. Es una
distribucin terica. No se desarrolla en forma de tabla porque se necesitara conocer
todos los elementos de la poblacin, pero, aunque no se conozcan, se puede construir
a travs de sus parmetros.
Error Estadstico Error Tpico (Desviacin Tpica o Estndar)

Parmetro Estadstico

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

24 cisolog.com

Error Estadstico
Es la medida de la distancia entre el valor del estadstico obtenido en la muestra y el valor del
parmetro en la poblacin.
Si en una distribucin muestral se aumenta el valor de , la varianza de la distribucin
disminuir y los resultados de las distintas muestras se concentrarn ms en el valor del
parmetro. Por consiguiente, para un mismo nivel de error, el nivel de confianza mejora con
tamaos muestrales mayores.
Nivel de Confianza
Es la probabilidad que existe de que esa distancia, o error estadstico, no sea mayor que la
preestablecida.
Los tres pilares de la Teora Muestral
1. TAMAO MUESTRAL: es el nmero de elementos que extraemos de una poblacin
para su observacin y estudio.
2. ERROR ESTADSTICO: es la diferencia mxima (en valor absoluto) que admitimos entre
el valor del estadstico y el del parmetro.
3. NIVEL DE CONFIANZA: es la probabilidad de que la muestra seleccionada no supere el
error preestablecido.
Estos tres trminos estn absolutamente relacionados y la variacin en uno produce
variaciones en los otros dos. As, por ejemplo, si aumentamos el tamao muestral y
mantenemos fijo el error, el nivel de confianza aumenta. Si aumentamos el error sin cambiar el
tamao muestral, el nivel de confianza aumenta.
Tamao Muestral Nivel de Confianza directa
Relaciones:
Error Estadstico Tamao Muestral inversa
Error Estadstico Nivel de Confianza inversa






Error Tpico (o error estndar)
Es la medida de dispersin (varianza) de la distribucin muestral.
Error Estadstico Error Tpico (Desviacin Tpica o Estndar)

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

25 cisolog.com

Teorema del Lmite Central
La distribucin muestral de las medias de una poblacin grande con media y desviacin
tpica se aproxima, segn aumenta , a una distribucin normal con media y desviacin
tpica
Con poblaciones grandes : y:


Distribucin Normal en Z Error Estadstico Teorema Lmite Central



Relacin entre Error, Nivel de Confianza
y Tamao de la Muestra


Clculo del Tamao Muestral Clculo del Error Estadstico



Valores de Z para Niveles de Confianza ms usuales
Nivel de Confianza
95%
95,45%
99%
99,7%






Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

26 cisolog.com

Tamaos muestrales para distintos errores y niveles de confianza

Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 220.

Nomenclatura Distribuciones Poblacin/Muestra
Parmetro Estadstico
MEDIA
Media: Media:
Varianza: Varianza:
PROPORCIN
Proporcin/Probabilidad

Proporcin/Probabilidad

Complementario

Complementario



Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y
de la Proporcin (Poblaciones Infinitas)
Media Proporcin*
Parmetro
Error Tpico
Error Estndar


La distribucin se considera
como la Normal cuando:

Tamao Muestral




*En el caso de la Proporcin, cuando desconocemos la varianza PQ, elegimos el caso ms
desfavorable, varianza mxima, cuando .
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

27 cisolog.com

Tamaos muestrales para el estadstico de la proporcin con distintos valores de .
Nivel de Confianza 95,45%

Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 222.

Poblaciones
Poblaciones Finitas
En investigacin social casi siempre nos referimos a poblaciones finitas. Por tanto las
formulas anteriores aplicadas a poblaciones finitas deben incorporar el factor de
correccin para poblaciones finitas:
Factor de Correccin para Poblaciones Finitas





Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

28 cisolog.com

Poblaciones Infinitas
Una poblacin infinita es un conjunto de elementos que no pueden definirse mediante
enumeracin. Cuando la relacin entre y ( ) es grande, se desprecia el factor
de correccin para poblaciones finitas:


Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y
de la Proporcin (Poblaciones Finitas)
Media Proporcin*
Parmetro
Error Tpico
Error Estndar


La distribucin se considera
como la Normal cuando:

Tamao Muestral




Muestras Grandes y Pequeas
Muestras Grandes La distribucin muestral se a ajusta a la NORMAL
Muestras Pequeas La distribucin muestral se a ajusta a la de STUDENT

Regla de aproximacin a la Desviacin tpica cuando se desconoce la de la Poblacin
valores de la muestra o poblacin.

Diseo de Muestras
Marco
El registro fsico de los elementos de la poblacin se denomina marco. En algunos casos es un
listado para seleccionar elementos de una poblacin. En la mayora de las ocasiones no pude
obtenerse un marco completo y actualizado de la poblacin, o la elaboracin es costosa o
presenta problemas de manipulado.


Cuando (En la prctica cuando )

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

29 cisolog.com

Procedimiento de Muestreo
Dadas las dificultades de realizar muestras aleatorias simples, en las que todos los elementos
de una poblacin tienen la misma probabilidad de ser seleccionados, se recurre a distintos
sistemas de muestreo que tienen en cuenta lo que ya conocemos sobre la poblacin a
investigar. Al incorporar informacin existente podremos realizar diseos muestrales ms
eficientes, esto es, obtendremos la misma informacin con menor coste que si usramos
mtodos aleatorios puros. Adems, al incorporar informacin existente, podremos mejorar la
representatividad de la muestra.

Mtodo de Seleccin de la Muestra
a. Muestreo Aleatorio
Estratificado
Uniforme
Afijacin
Proporcional
Neyman (proporcional a la Varianza)
Por Conglomerados
b. Muestreo por Cuotas


Muestreo Estratificado
Estratos
Son subconjuntos o grupos del universo, de forma que todos los elementos pertenecen a uno
de los grupos y slo a uno.
Diseo Uniforme: deseamos conocer resultados para cada uno de los estratos.
Diseo Proporcional: aprovechamos la ventaja de la estratificacin pare reducir el
nmero de extracciones necesarias para la estimacin del conjunto.
Afijacin: es el reparto de los elementos de la muestra entre los distintos estratos.
Para la aplicacin del diseo estratificado se necesita definir los diferentes estratos y disponer
de informaciones que nos permitan estimar las varianzas en cada uno de ellos.



Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

30 cisolog.com

Descomposicin esquemtica de una poblacin en estratos




Elementos del muestreo estratificado
Nmero de estratos
Poblacin
Poblacin en el estrato

Proporcin de la poblacin en el estrato
o peso del estrato

Muestra
Tamao de la muestra en el estrato
Proporcin de la muestra en el estrato


Varianza de la Poblacin Estratificada




Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

31 cisolog.com

Procedimientos de Afijacin
Nmero de entrevistas en el estrato una vez establecido el valor de
Afijacin Uniforme
Se hace el mismo nmero de
entrevistas en cada estrato.
Afijacin Proporcional al
tamao

El nmero de entrevistas se reparte
considerando el peso que tienen los
estratos en la poblacin.
Afijacin de Neyman
(proporcional a la varianza)

Las entrevistas se distribuyen de
forma que se concentran
relativamente en los estratos de
mayor varianza.


Ponderacin en diseos no proporcionales al tamao
Cuando se utilizan criterios de afijacin no porporcionales al tamao de la poblacin (por
ejemplo el diseo estratificado uniforme), los resultados obtenidos para el conjunto total
necesitan ser corregidos. Esto se realiza con la Ponderacin: el procedimiento de ajuste del
peso que tienen los estratos en la muestra al peso que les corresponde en la poblacin.
Ponderar las unidades muestrales equivale a darles el peso que, por el estrato al que
pertenecen, les corresponde en la poblacin. Para ello se aplica en cada estrato un coeficiente
de ponderacin que atribuye el peso correspondiente a cada estrato en el conjunto de la
poblacin.




Coeficiente de Ponderacin


Los cuestionarios ponderados se representan con el signo :





Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

32 cisolog.com

Muestreo por Conglomerados
El diseo estratificado mejora la aplicacin del muestreo respecto al muestreo aleatorio, pero
no resuelve de forma efectiva la cuestin de la obtencin del marco. Si no tenemos un listado
del universo, es difcil tener un listado para sus estratos. El diseo por conglomerados resuelve
de forma prctica estas cuestiones y permite reducir los costes y tiempo de ejecucin.
Los conglomerados son tambin subconjuntos de la poblacin. La diferencia es que mientras
los estratos se construyen buscando homogeneidad entre sus elementos, en los
conglomerados se definen los grupos buscando que los elementos en su interior sean lo ms
diversos posibles. Una vez definidos los conglomerados, se hace una muestra de ellos y se
investiga nicamente los que han sido seleccionados. De hecho, se trata de una tcnica de
seleccin, no de unidades sino de grupos de unidades y en general se compone de varias
etapas.
Conglomerado Unidad Colectiva
Exposicin esquemtica del muestreo por conglomerados


Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

33 cisolog.com

En el diseo de conglomerados, los tamaos muestrales son mayores que en el muestreo
aleatorio simple y el muestreo estratificado, debido a que los conglomerados tienen varianzas
ms elevadas que el conjunto poblacional.
En la prctica se utilizan mtodos de seleccin combinados. La poblacin se divide en estratos
y dentro de los distintos estratos se realiza un diseo de conglomerados.
Muestreo por Cuotas
Aunque los diseos derivados del muestreo aleatorio (estratos y conglomerados) permiten la
obtencin de datos representativos de la poblacin, as como la inferencia de los resultados
obtenidos mediante muestras al conjunto del universo bajo criterios conocidos de error,
resultan todava procedimientos costosos. En algunos casos, cuando la investigacin se refiere
a opiniones, pueden emplearse otros procedimientos para obtener muestras representativas.
La principal tcnica alternativa es el muestreo por cuotas. Se trata de, en vez de confiar al azar
la seleccin de las unidades, desarrollar un procedimiento de seleccin que reproduzca con la
mxima fidelidad posible la propia estructura de la poblacin. No obstante, para el muestreo
por cuotas es necesario tener un conocimiento preciso sobre la poblacin, pues sera la nica
forma vlida de reproducir una miniatura de la poblacin a estudiar.
Gracias, por ejemplo, a los censos podemos conocer algunas variables como la edad, sexo y
nivel de estudios. De forma conjunta, estas tres variables estn muy relacionadas con las
opiniones polticas y con las actitudes. Siempre que tengamos un conocimiento amplio de la
distribucin de variables que estn relacionadas con las caractersticas a investigar, podremos
utilizar el muestreo por cuotas.
La diferencia respecto al muestreo estratificado es que la localizacin de los entrevistados no
sigue un procedimiento probabilstico, sino que se seleccionan los primeros elementos
localizados que cumplan con las caractersticas a estudiar. Sin embargo este procedimiento
tiene mayor riesgo de introducir sesgos, y deben aplicarse algunas normas para darle un
mnimo carcter aleatorio:
1. Distribuir al mximo las entrevistas entre los encuestadores: a un mismo
entrevistador se le asigna diferentes perfiles de entrevistados para que no pueda
obtenerlos en un mismo lugar.
2. Utilizar el sistema de barrido cuotas: una vez asignadas las entrevistas, a cada
entrevistador se le proporciona unas rutas que debe realizar buscando los perfiles a
investigar.
Muestreo Mixto
En la prctica, en muchas encuestas sociolgicas y de opinin se utiliza un procedimiento
mixto en la seleccin de la muestra. La primera fase del diseo muestral se realiza mediante
tcnicas probabilsticas (seleccin de municipios dentro de estratos por tamao poblacional);
y la fase final de seleccin del entrevistado se realiza mediante muestreo por cuotas.
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

34 cisolog.com

La estimacin de las Varianzas
Media Estimador insesgado
Desviacin Tpica Estimador sesgado
Cuasivarianza Estimador insesgado

Cuasivarianza Muestral
Sobre grados de libertad
Para tamaos Varianza = Cuasivarianza

Cuasidesviacin Muestral
Sobre grados de libertad

Varianza Muestral a partir
del estadstico de la Cuasivarianza


Error Tpico cuando estimamos la Varianza a travs de la propia muestra
Media Proporcin














Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

35 cisolog.com

Inferencia Estadstica
Estimacin de Medias y Proporciones

; ;
Error Estadstico


Errores e Intervalos para la Media y la Proporcin estimando la Varianza a partir de la
muestra
Estadstico
Error Tpico
(Poblaciones Infinitas)
Error Tpico
(Poblaciones Finitas)
Intervalo
MEDIA


PROPORCIN




Cuasidesviacin
Notas
Frmulas para Poblaciones Finitas cuando
Para Muestras Pequeas se usa de Student en vez de .
En el caso de las Proporciones se usa la Varianza que nos proporciona la muestra y
no la poblacional .

Intervalos en el caso de Muestras Pequeas
Estimacin de Medias (muestras pequeas)
En la prctica si se usa la distribucin de Student
La Varianza (Desviacin Tpica) hay que obtenerla a partir de la Cuasivarianza
(Cuasidesviacin)





Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

36 cisolog.com

Estimacin de Proporciones (muestras pequeas)
Dificultades para o las proporciones son muy prximas a 0 o 1

No se usa la frmula del Error Tpico si o . Como alternativa se aplicara
el Intervalo de Wilson
Intervalo de Wilson


Diferencias de Estadsticos
En el campo de la investigacin social es frecuente el uso de estadsticos compuestos que
resultan de la combinacin de estadsticos. Puede interesarnos conocer la diferencia de
medias de los salarios de hombres y mujeres, o la razn entre dos cantidades que han sido
obtenidas mediante una muestra: por ejemplo, si en una encuesta se ha preguntado por el
nmero de horas trabajadas y el salario, podemos calcular la razn entre la media de horas
trabajadas y el salario medio, de donde se obtendr un estadstico nuevos que ser el cociente
entre dos estadsticos que ya disponamos en la muestra.
Cuando producimos nuevos estadsticos a partir de las combinaciones de otros estadsticos
tenemos dos situaciones diferentes:
1. Que las observaciones que comparamos procedan de muestras independientes, por
ejemplo si queremos estimar la diferencia de salario medio entre hombres y mujeres.
Al hablar de muestras independientes no nos referimos a dos encuestas diferentes,
sino que las unidades muestrales no tienen relacin entre s. Para comparar los
salarios de hombres y mujeres, los hombres y las mujeres pertenecen a la misma
muestra, sin embargo son subconjuntos que no guardan relacin entre s, es decir, las
observaciones sobre los salarios de los hombres no afectan a las observaciones de las
mujeres. Por consiguiente, ambos conjuntos de datos se consideran muestras
independientes.
2. Que sean muestras relacionadas entre s. Esta situacin tiene distintos orgines. En
unos casos, sobre la misma unidad muestral tomamos medidas repetidas en el tiempo,
como sucede en los estudios de panel (se realiza la misma pregunta a la misma
persona en fechas diferentes y se comparan). En otros casos, sobre la misma unidad
muestral medimos caractersticas o variables distintas pero que estn relacionadas
entre s. Por ejemplo, se pregunta a una persona, por ejemplo, sobre su valoracin del
presidente del gobierno y tambin del lder de la oposicin. Para calcular un
estadstico de diferencia entre ambas valoraciones tenemos que tener en cuenta que
existe relacin entre las repuestas. Seguramente quien valore alto al presidente del
gobierno, lo haga bajo sobre el lder de la oposicin.

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

37 cisolog.com

Situaciones de dependencia e independencia entre muestras
1. Muestras Independientes: aquellas en que las observaciones se realizan sobre
unidades muestrales distintas (una sola variable para comparar distintos grupos de
individuos).
2. Muestras Relacionadas: aquellas en que las observaciones (variables) se refieren a la
misma unidad muestral (se comparan varias variables sobre un solo conjunto de
individuos).

Determinacin del tipo de situacin de construccin de estadsticos compuestos
Una Variable Dos Variables
Misma Unidad Muestral Dependiente
Distintas Unidades Muestrales Independiente


Diferencia de Medias en casos de muestras independientes
Error Tpico Error Estadstico


Diferencia de Proporciones en casos de muestras independientes
Error Tpico Error Estadstico


Diferencia de Estadsticos en casos de muestras relacionadas
Error Tpico
: Desviacin Tpica de la variable generada como diferencia de medias.
Error Tpico a partir de la Cuasidesviacin






Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

38 cisolog.com

Test de significacin
Un resultado estadstico es significativo cuando no se debe al azar. En estadstica, significante
no se interpreta como en el lenguaje normal, no significa que el estadstico sea relevante o
importante, ni siquiera que se considere verdadero. Un estadstico es significativo porque el
investigador lo considera fiable.
Los test de significacin son pruebas que se realizan para contrastar la informacin emprica
con la terica. Para ello se fija un umbral de corte a partir del cual los valores obtenidos en la
muestra emprica se consideran poco probables. Si el resultado obtenido est al lado del
umbral de corte donde los resultados se consideran probables, decimos que est dentro de la
zona de aceptacin de la hiptesis nula, pero si, por el contrario, el resultado cae del lado del
umbral de corte donde se considera poco probable, decimos que entra dentro de la zona de
rechazo de la hiptesis nula.


Hiptesis Nula
En estadsticas la hiptesis nula es la hiptesis de partida (tambin denominada
hiptesis inicial) que considera las diferencias no significativas. La hiptesis nula puede
ser rechazada o no rechazada, pero no podemos probarla, salvo que estudiemos todos los
elementos de la poblacin y la mayora de las veces eso no es posible.
Un resultado puede ser estadsticamente significativo aunque la diferencia sea muy pequea y
pueda parecer que no tiene importancia; por esta razn en los tets de significacin se debe
indicar el efecto de la talla estadstica, esto es, el tamao de la muestra. En muestras de
tamao grande pequeas diferencias pueden ser consideradas a travs de los test como
significativas.

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

39 cisolog.com

Pruebas de hiptesis
La evidencia que se necesita para aceptar que un acontecimiento se ha producido por azar es
el nivel de significacin (n.s. / significante level en ingls) o el valor crtico . Si el valor es
pequeo, entonces debe rechazarse la hiptesis nula , es falsa o inusual.
Segn los trabajos de Neyman y Pearson, el planteamiento requiere tanto de la hiptesis nula
como de una hiptesis alternativa , que deben ser definidas e investigadas
mediante repeticin de procedimientos de muestreo; si no, se corre el riesgo de rechazar un
resultado que cae fuera de la zona de aceptacin y, sin embargo, ser verdadero. Es el valor
crtico el que nos da la probabilidad de equivocarnos al rechazar ese valor.
Cuando se realizan pruebas de hiptesis existen dos tipos de errores que se pueden cometer:
1. Error de Tipo I: rechazar la hiptesis nula cuando es verdadera.
2. Error de Tipo II: aceptar la hiptesis nula cuando es falsa.
Tipos de error en los test de hiptesis
verdadera falsa
Aceptar Correcto Error Tipo II
Rechazar Error Tipo I Correcto



Nivel de significacin del test o valor crtico
Es la probabilidad que se est dispuesto a aceptar de rechazar errneamente la hiptesis nula.
Se trata de una probabilidad establecida. Habitualmente, como niveles de significacin se usan
el 5% y el 1%.
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

40 cisolog.com

p valor
Es la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha
obtenido en el experimento o en una muestra (valor del estadstico calculado), suponiendo
que la hiptesis nula es cierta. Es fundamental tener en cuenta que el est basado en
la aceptacin de la hiptesis de partida (o hiptesis nula). A su vez, es la probabilidad de
equivocarnos al aceptar que las diferencias (entre valor emprico y valor terico) son
significativas. Cuanto ms pequea sea esta probabilidad ms seguro se est de no
equivocarse.

Dos tipos de test
Test de una cola (Unilateral)
Cuando la hiptesis de partida se enuncia la direccin: que un valor es mayor que o
menor que se realiza la prueba de una sola cola.


Test de dos colas (Bilateral)
Cuando la hiptesis de partida no hace ninguna especificacin.

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

41 cisolog.com

Procedimiento del test de significacin o pruebas de hiptesis
1. Establecer el valor crtico (el error que se est dispuesto a aceptar).
2. Calcular el estadstico.
3. Comparar el estadstico (en valores de o de Student) con el umbral fijado (tambin
en valores de o de Student) para el valor crtico .
4. Resultado:
a. Si el estadstico es ms alto que el valor crtico, queda por tanto en la zona de
rechazo de la hiptesis nula y la diferencia es significativa. La probabilidad de
equivocarse al rechazar es pequea y el es menor que la relacin
encontrada por azar. [ ]
b. Si el estadstico es ms bajo que el valor crtico, al contrario, queda en la zona
de aceptacin de la hiptesis nula y la diferencia no es significativ. La
probabilidad de rechazar es muy alta y el es mayor que el valor
crtico. [ ]

Valores de Z para los niveles de significacin (n.s.) 5% y 1%
Tipo de Test n.s. = 5% n.s. = 1%
Test de una cola
Unilateral

Test de dos colas
Bilateral


Contrastes de hiptesis (muestra vs poblacin de referencia)
Contraste para una media
Hiptesis de partida o nula
Hiptesis alternativa
Clculo del estadstico en valor de (Student)

Clculo del estadstico en valor de



Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

42 cisolog.com

Contraste para una proporcin
Hiptesis de partida o nula
Hiptesis alternativa
Clculo en valor de


Comparaciones (muestra vs muestra)
Comparacin de medias


Comparacin de proporciones
Proporcin Conjunta



Anlisis de Varianza (ANOVA)
Procedimiento de clculo ANOVA

1. Suma de cuadrados total
= Sumatorio de los sumatorios de las observaciones.
= Sumatorio de los sumatorios de los cuadrados de las observaciones.
= Valor de la observacin en cada grupo .






Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

43 cisolog.com

= Cantidad de observaciones en los grupos
= Total de observaciones .

2. Suma de los cuadrados entre grupos
= Sumatorio de los sumatorios de las observaciones al cuadrado dividido por
el nmero de observaciones del grupo.
= Sumatorio de los cuadrados de las observaciones dividido por el total de
observaciones.

3. Suma de cuadrados dentro de los grupos

Grados de libertad dentro de los grupos
4. Grados de Libertad
Grados de libertad total Grados de libertad entre grupos
Tambin:

5. Estimacin de la varianza
Varianza entre grupos Varianza dentro de los grupos



6. Contraste de la (Estimador de Snedecor)






Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

44 cisolog.com

Distribucin de Snedecor
La distribucin de Snedecor es una distribucin de probabilidad asociada a la normal no
simtrica:



Diseo aleatorizado con un factor
1. Suma de cuadrados total
2. Suma de cuadrados debida a los tratamientos (factores)
3. Suma de los cuadrados debida a los bloques
Varianza Factor Error Contraste de
4. Clculo de la suma de cuadrados debida al error


Regresin y correlacin lineal
La regresin tiene por objeto definir una funcin matemtica que se ajuste lo mejor posible a
los datos observados. Cuando se realiza sobre la relacin de dos variables mediante el ajuste
de una lnea recta, hablamos de regresin lineal simple, y la manera ms habitual e idnea de
representarla es sobre los diagramas de dispersin.
La Covarianza
En una distribucin bivariada contamos con una medida de dispersin que tiene en cuenta las
dos variables a la vez. Para ello es necesario hacer uso de la Covarianza, que se obtiene del
producto de las diferencias de e a sus medias.
Covarianza



Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

45 cisolog.com

Interpretacin de la Covarianza
El valor de la covarianza nos informa de la existencia (o no) de dependencia lineal entre las
variables. Si no hay relacin lineal entre las dos variables, la covarianza ser igual a
Si : No hay relacin lineal entre ambas variabes.
Si : Hay relacin. Mayor cuanto mayor sea la covarianza
Si la relacin de dependencia lineal es positiva. Para grandes valores de se
obtienen grandes valores de
Si la relacin de dependencia lineal es negativa. Para grandes valores de se
obtienen pequeos valores de .
Errores o residuos
Los errores o residuos son la diferencia entre los valores reales y los de la recta ajustada a los
datos. Por cada valor de tenemos dos valores de , el de la ecuacin y el real observado. La
suma de los residuos sirve para evaluar el ajuste final.




Ecuacin de la recta de regresin





)
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

46 cisolog.com

Frmulas de ajuste de la recta de regresin
Los parmetros de la recta de regresin se ajustan por el mtodo de los mnimos cuadrados.
Covarianza Varianza de

Pendiente de la recta de regresin
-> La covarianza medida en unidades de la varianza de .
Punto de corte de la recta con el eje de la variable dependiente

Una vez se han calculado los parmetros de la funcin de la recta de regresin lineal, la
correlacin sirve para cuantificar la bondad del ajuste de la recta a la nube de puntos.
Coeficiente de correlacin de Pearson

;
Interpretacin del valor de
El valor de vara entre -1 y +1
Si : No hay correlacin. Las rectas de regresin son paralelas a los ejes.
Si : Hay correlacin positiva. Al aumentar una variable, al aumentar una variable
la otra tambin aumenta. La recta de regresin tiene pendiente positiva.
Si : Hay correlacin negativa. Al aumentar una variable, al aumentar una
variable la otra disminuye. La recta de regresin tiene pendiente negativa.
Si o : Todos los puntos estn contenidos en la recta de regresin.
Aunque el coeficiente de correlacin se alto, no significa necesariamente que el ajuste sea
ptimo. Puede existir una relacin fuerte pero no lineal. Por ello, es imprescindible siempre
acompaar el clculo del coeficiente de correlacin con el grfico del diagrama de
dispersin, con el fin de comprobar que se cumple la relacin lineal entre las variables.
El coeficiente de correlacin es simtrico. Tiene el mismo valor tanto si se trata de
cuantificar con los mismos datos el ajuste de la recta de en como de la recta de en .





Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

47 cisolog.com

Coeficiente de determinacin
Es el coeficiente de correlacin de Pearson al cuadrado . Expresa la reduccin proporcional
del error que se comete al estimar los valores de la variable dependiente a partir de la recta
de regresin. Se puede interpretar tambin como la probabilidad de la varianza total en una
variable que es explicada por la otra variable en el modelo lineal. Al igual que , es
simtrico y su valor es el mismo tanto si tomamos la variable independiente por la
dependiente y viceversa.

Coeficiente de determinacin

: Diferencia entre los valores de obtenidos de la ecuacin lineal y la media.
: Diferencia entre los valores observados y la media.

Para cada observacin

: Residuo o diferencia entre el valor observado y el estimado . La parte del valor
observado de no explicada por el modelo
Residuo


Suma de cuadrados total

Slo una parte de la variacin de es explicada por el modelo, y el valor de indica qu
parte de la variacin total supone la variacin explicada por la recta de regresin.

El coeficiente de determinacin tambin puede obtenerse mediante el producto de las
pendientes de las dos rectas de regresin:









Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

48 cisolog.com

Tablas de contingencia
Las tablas de contingencia sirven para comparar grupos y observar cmo se distribuye una
variable en el seno de otra variable. Para ver cmo se agrupa la poblacin simultneamente en
dos variables, se realiza un cruce de variables y obtenemos una tabla de contingencia.
2

Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos

Actitud hacia los impuestos
Total

Bajar los
impuestos y
gastar menos en
prestaciones
Gastar ms en
prestaciones
aumentando los
impuestos Ns/Nc.
Nivel de
Estudios
Sin Estudios o Primarios 571 441 275 1287
Secundarios 251 283 112 646
Superiores 151 293 83 527

Total 973 1017 470 2460
Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

La distribucin total de las filas se denomina distribucin marginal de filas, y la distribucin
total de columnas se denomina distribucin marginal de columnas. En la prctica se suele
referirse a ellas como marginales, que son las distribuciones totales de cada una de las
variables cruzadas. La distribucin conjunta de las variables se observa en las casillas
centrales.
La anterior tabla de contingencia se ha realizado con frecuencias absolutas, con lo que la
informacin contenida en la tabla no se presenta fcil para el anlisis. Para una mejor
comparacin de la distribucin entre las dos variables se hace necesario obtener la tabla con
las frecuencias relativas (en porcentajes).
La relacin entre dos variables se establece con el esquema explicativo:
Anlisis Bivariable
la distribucin de una
variable es explicada por la distribucin de otra variable.

2
Es importante destacar la diferencia entre variables de registro y variables de anlisis. Las variables
de registro son las variables originales que se emplean para registra la informacin, que suelen
presentarse con mucho detalle (asimiladas a trminos abstractos o administrativos de registro) y sirven
como punto de partida para la investigacin. Las variables de anlisis son las variables construidas con
pertinencia emprica y/o terica para el anlisis sociolgico.
En otras palabras, una variable es
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

49 cisolog.com

determinada por otra. Por tanto, tenemos variable independiente y variable dependiente. Los
cambios de la variable independiente explican los de la dependiente.

Desde el enfoque matemtico, cualquiera de las dos variables puestas en relacin puede
ejercer indistintamente el papel de independiente como de dependiente. Pero desde el
enfoque emprico, estos papeles se definen contrastando que una de las variables es
antecedente (temporalmente) de la otra o presenta ms estabilidad temporal o se considera
ms bsica; y esta ser la variable independiente. Podra darse el caso que dos variables en
relacin terica no tengan ninguna relacin de dependencia, y por consiguiente ambas
variables seran independientes.

Como regla general colocamos los datos de la variable independiente en las filas. Segn De
Miguel (1997): La mejor disposicin es la de porcentajes horizontales porque el ojo humano
compara mejor las relaciones de arriba abajo
3
. Por tanto, conviene por sistema emplear esta
regla en todos los casos, calcular los porcentajes en la direccin horizontal y comparar las
relaciones entre ambas variables en la direccin vertical.
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos

Actitud hacia los impuestos
Total

Bajar los
impuestos y
gastar menos en
prestaciones
Gastar ms en
prestaciones
aumentando los
impuestos Ns/Nc.
Nivel de
Estudios
Sin Estudios o Primarios 44,4% 34,3% 21,4% 100,0%
Secundarios 38,9% 43,8% 17,3% 100,0%
Superiores 28,7% 55,6% 15,7% 100,0%

Total 39,6% 41,3% 19,1% 100,0%
Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

3
De Migel, A. 1997. Manual del perfecto socilogo, Madrid, Espasa, p. 67.
Regla de Zeisel
Para el anlisis de la relacin de dos variables en una tabla de contingencia se calculan los
porcentajes en la direccin de la variable independiente y se comparan en la direccin de
la variable dependiente.


Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

50 cisolog.com


Anlisis Trivariable (Tercera Variable. Variable de Control)
Con las tablas de contingencia de dos variables se parte del supuesto de que el resto de
variables se mantienen constantes. Sin embargo, en la realidad esto no ocurre nunca. La
experiencia emprica demuestra que mltiples variables afectan al comportamiento de otra; y
muchas no se pueden controlar cuando no hay registro. Es posible que algunas no aparezcan
cuando se est estudiando una encuesta estadstica; otras se tienen que construir a partir de
las variables de registro.
La introduccin de una tercera variable puede alterar las supuestas relaciones halladas en la
tabla de contingencia de dos variables, de manera que la relacin bivariable anterior se
desvanezca. A esta tercera variable la llamamos variable de control, y se introduce
segmentando los datos del cruce de las dos variables anteriores en funcin de esta tercera
variable.

Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos * Sexo
Sexo
Actitud hacia los impuestos
Total
Bajar los
impuestos y
gastar menos
en
prestaciones
Gastar ms
en
prestaciones
aumentando
los impuestos Ns/Nc.
Hombre Nivel de Estudios Sin Estudios o
Primarios
41,3% 41,6% 17,2% 100,0%
Secundarios 36,8% 44,2% 19,0% 100,0%
Superiores 27,5% 57,2% 15,3% 100,0%
Total 37,4% 45,2% 17,4% 100,0%
Mujer Nivel de Estudios Sin Estudios o
Primarios
47,4% 27,1% 25,5% 100,0%
Secundarios 41,3% 43,3% 15,4% 100,0%
Superiores 29,5% 54,4% 16,1% 100,0%
Total 41,6% 37,6% 20,8% 100,0%
Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.


Paradoja de Simpson
Una asociacin entre dos variables desaparece o cambia de sentido cuando los datos son
desagregados por grupos, esto es, cuando se controla el efecto de una tercera variable.

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

51 cisolog.com

La variable de control que se introduce para observar el comportamiento en una relacin
bivariable original afecta a sta si:
1. Se relaciona con la variable independiente o causal
2. Se relaciona con la variable dependiente o efecto
3. Cuando segmentamos la poblacin segn los gruos de la variable de control , se
observa que las relaciones entre las variables originales son de menor
intensidad que la que manifestaban antes de introducir la tercera variable. Pero
tambin cabe la posibilidad de que la tercera variable afecte a las dos variables
sin alterar la relacin original establecida por stas.
En los modelos donde una tercera variable altera una determinada relacin entre dos
variables, existen dos casos en la forma en que acta la tercera variable:
1. Variable Antecedente: actua sobre y sobre .
2. Variable Interviniente (o mediadora): se interpone entre e , esto es, actua
sobre y sta sobre .


Todas las interacciones posibles se deben fundamentar en modelos de interaccin de
pertinencia sociolgica.
La interaccin entre tres variables se puede resumir en una tabla, pero la forma ms ptima de
analizar las relaciones entre las tres variables es segmentando la poblacin entre los valores de
una de las variables, la que se considere ms bsica o primordial. De esta manera se puede
observar cmo se comporta las otras dos variables en cada una de las categoras (o valores) de
la primera.
En muchas ocasiones resulta interesante dualizar (o dicotomizar) las variables que se cruzan.
La visibilidad de las confrontaciones duales facilita el anlisis.


como variable interviniente
(o mediadora)


como variable antecedente


Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

52 cisolog.com

Ji-cuadrado
La prueba de Ji-cuadrado es un test que afecta a la distribucin de frecuencias de los
diferentes grupos que componen una poblacin y que son generados por un cruce de
variables.
Con la prueba de Ji-cuadrado se pretende conocer en trminos probabilsticos si el
conjunto de las frecuencias relativas (proporciones) de todos los grupos generados en una
poblacin (por el cruce de variables) se distribuye forma a aleatoria (al azar), sin diferencias
significativas (significacin estadstica) entre ellas (en conjunto). Igual que en todas las
pruebas estadsticas, se contrasta la distribucin real de los datos (a partir de un estadstico)
con una distribucin terica, en este caso, la Ji-cuadrado , en donde definimos un punto
crtico a partir del cual las diferencias se consideran significativas entre las proporciones del
conjunto de los grupos poblacionales (condensadas en el estadstico Ji-cuadrado). Por tanto,
por un lado tenemos el estadsitco (Ji-cuadrado) asociado a una tabla de contingencia, y por
otro, una distribucin terica de este estadstico.
La prueba de Ji-cuadrado slo tiene sentido cuando se trabaja con datos muestrales extrados
de forma aleatoria, esto es, en distribuciones (empricas) de probabilidad.
Con la prueba de Ji-cuadrado la especificidad (emprica/terica) concreta de las categoras
desaparece. Para Ji-cuadrado es irrelevante si la prueba la hacemos sobre variables de edad,
nivel de estudios, definiciones ideolgicas, etc. Ji-cuadrado vale lo mismo para categoras
sociolgicas, mdicas, criminolgicas, biolgicas, etc. Ji-cuadrado no distingue la especificidad
de las categoras consideradas. Se trata de un ndice que resume toda la distribucin teniendo
en cuenta slo el nmero de categoras y las frecuencias que se dan en stas.
Frecuencia terica (o esperada segn la lgica de Ji-cuadrado)

Se podra decir que las frecuencias esperadas en cada una de las casillas de una tabla de
contingencia son aquellas que cabe esperar en el caso de que no exista relacin entre las
variables, esto es, independencia estadstica o probabilstica entre las variables. Dos variables
son independientes estadsticamente si la probabilidad de que nos aparezca una categora
de una variable no depende de la distribucin de probabilidad de la otra variable.
Clculo de residuos
Los residuos son las diferencias entre las frecuencias observadas y las esperadas en cada celda.
Los residuos son errores del muestreo aleatorio.
Residuo





Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

53 cisolog.com

Para poder comparar las distancias entre las frecuencias observadas y las esperadas dentro
de cada celda, se ha de estandarizar estas distancias.
Residuos Estandarizados

de cada celda

Coeficiente Ji-cuadrado de toda la tabla (Ejemplo Tabla 2x2)

Tabla para la frmula general del ndice









Frmula suma de frecuencias columna genrica

Frmula suma de frecuencias fila genrica

Sumatorio de todas las celdas







Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

54 cisolog.com

Frecuencia esperada de una celda cualquiera


Coeficiente Ji-cuadrado de la Tabla

Interpretacin de Ji-cuadrado en tablas bivariables
Si toma valores entre ndice o Coeficiente de relacin.
Si : No hay relacin entre las variables.
de una tabla concreta no vale para comparar otras tablas distintas. Para ello existen
otros coeficientes de contingencia: V de Cramer, Coeficiente de contingencia o .
La prueba o test de Ji-cuadrado es un contraste de proporciones mltiples. La distribucin
terica asociada a esta prueba es la distribucin . Se trata de una distribucin continua de
probabilidad, una distribucin muestral de la varianza derivada de la distribucin normal. Al
igual que la distribucin de Student, depende de un parmetro: grados de libertad. Por
tanto, existe una distribucin distinta para cada nmero de grados de libertad. La media de la
distribucin Ji-cuadrado es igual a sus grados de libertad, su varianza es dos veces sus
grados de libertad, y sus valores oscilan entre .
Distintas distribuciones Ji-cuadrado para distintos grados de libertad (df)

La distribucin Ji-Cuadrado se va acercando a la distribucin normal a medida que
aumentan sus grados de libertad.
Nmero de grados de libertad de una tabla bidimensional






Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

55 cisolog.com

Prueba de la distribucin Ji-Cuadrado con los correspondientes grados de libertad
Como todas las distribuciones de probabilidad, la distribucin Ji-Cuadrado describe un rea
bajo la curva que es igual a 1, esto es, donde encontramos el 100% de los casos. Cualquier
valor de deja a su izquierda un porcentaje de casos que asignaremos a la proporcin , y a
su derecha el resto de casos que asignaremos a la proporcin . Entre 0 y un valor cualquiera
de encontraremos el % de los casos. Y entre el valor e encontraremos el resto,
el %. Y sabemos que .



El valor crtico y nivel de significacin de
La de la Tabla Ji-cuadrado, distribucin de (ver Anexo 5) nos indica el valor crtico de a
partir del cual todo valor mayor entre en la zona de rechazo de la hiptesis nula , que
considera las variables cruzadas en la tabla son independientes estadsticamente, es decir, no
hay relacin entre ellas. Por tanto, la es el nivel de significacin que usamos para la prueba
de la distribucin Ji-cuadrado .











Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

56 cisolog.com

Anexo 1: Tabla Z. Distribucin Normal Estndar


Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

57 cisolog.com

Anexo 2: Tabla t. Distribucin t de Student


Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

58 cisolog.com

Anexo 3: Tabla F. Distribucin F de Fisher (N.s. = 0,01)



Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta



Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

59 cisolog.com

Anexo 4: Tabla F. Distribucin F de Fisher (N.s. = 0,05)



Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta



Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

60 cisolog.com

Anexo 5: Tabla Ji-cuadrado. Distribucin de



Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

S-ar putea să vă placă și