Documente Academic
Documente Profesional
Documente Cultură
SOCIALES
INDICE
Pág.
INTRODUCCIÓN 11
CUADRO Nº 2: NATURALEZA DE LA 19
CIENCIA ESTADÍSTICA
1. ETIMOLOGÍA DE ESTADÍSTICA. 19
2. DEFINICIÓN 19
3. CLASIFICACIÓN DE LA ESTADÍSTICA.
20
4. LA ESTADÍSTICA Y LAS CIENCIAS 22
HUMANAS
5. UNA PERSPECTIVA SINÓPTICA DE LA 22
ESTADÍSTICA DESCRIPTIVA
Y ESCALAS DE MEDIDA
1. CARACTERÍSTICAS DE LOS OBJETOS: 24
CONSTANTES Y VARIABLES
2. LAS CONSTANTES 24
3. LAS VARIABLES 24
4. TIPOS DE VARIABLES 25
5. VARIABLES CUALITATIVAS 25
7. LA MEDIDA 26
CUADRO Nº 4: VARIABLES 30
CUALITATIVAS Y LA ESCALA NOMINAL
1.
DESIGNACIÓN DE LAS MODALIDADES DE
30
CADA ATRIBUTO
2. EXCLUSIVIDAD Y EXHAUSTIVIDAD DE LAS 30
MODALIDADES DE UN ATRIBUTO
3. ¿QUÉ PUEDE HACER LA ESTADÍSTICA CON 31
LOS ATRIBUTOS?
5. PROPORCIONES Y PORCENTAJES 33
CUADRO Nº 5: VARIABLES 35
CUANTITATIVAS DISCRETAS Y
ESCALAS ORDINALES
1. VARIABLES CUANTITATIVAS DISCRETAS
35
2. ESCALA ORDINAL
37
Pág.
CUADRO Nº 6. VARIABLES 39
CUANTITATIVAS CONTINUAS Y LAS
ESCALA DE INTERVALO Y DE RAZÓN
1. VARIABLES CUANTITATIVAS CONTINUAS Y
39
LA ESCALA DE INTERVALO Y DE RAZÓN.
2. LAS ESCALAS DE RAZÓN 40
EN ESTADÍSTICA
CUADRO Nº 9: ALGUNAS
47
PRECISIONES SOBRE EL USO DE LOS
SÍMBOLOS MATEMÁTICOS DE LAS
FÓRMULAS ESTADÍSTICAS
1. INTRODUCCIÓN 47
3. TABULACIÓN 57
Pág.
6. TABLA RESUMEN 64
4. VERSATILIDAD DE LA <MODA> 67
5. LIMITACIONES DE LA <MODA> 67
1. INTRODUCCIÓN 71
Pág.
2. LOS PERCENTILES 81
4. HALLAR EL PERCENTIL 83
CORRESPONDIENTE A UNA PUNTUACIÓN
DADA
5. UN EJEMPLO DE CÁLCULO 83
7. UN EJEMPLO DE CÁLCULO: 84
8. LOS CUARTILES 84
3. FÓRMULA Y SIMBOLOGIA 93
Pág.
MEDIA (DM)
Estadísticos e-Books & Papers
1. DEFINICIÓN 110
6. PROCEDIMIENTO DE CÁLCULO DE LA
DESVIACIÓN MEDIA CUANDO EL NÚMERO DE
PUNTUACIONES ES IGUAL O SUPERIOR A DOCE (12)
113
CON SUS FRECUENCIAS
1. ÍNDICE DE SIMETRÍA/ASIMETRÍA
137
2. FORMULAS Y SU SIMBOLOGÍA PARA
138
CALCULAR EL ÍNDICE DE ASIMETRÍA
3. DOS EJEMPLOS DEL PROCEDIMIENTO DE 139
CÁLCULO
4. INTERPRETACIÓN
140
Pág.
1. REGRESIÓN LINEAL
159
2. RECTA DE REGRESIÓN
159
3. REGRESIÓN DE <Y> SOBRE <X>
160
4. EJEMPLO DE CÁLCULO DE LA RECTA DE
161
REGRESIÓN DE <Y> SOBRE <X>
5. REGRESIÓN DE <x> SOBRE <y> 162
Pág.
1. DISTRIBUCIONES DE PROBABILIDADES Y
169
CURVAS
2. CARACTERÍSTICAS DE LA CURVA NORMAL 169
DE PROBABILIDADES
3. DESCRIPCIÓN DE LA TABLA DE LAS ÁREAS 169
DE LA CURVA NORMAL
4. TABLA DE LA DISTRIBUCIÓN DE
170
PROBABILIDAD NORMAL
5. ¿CÓMO ENCONTRAR EL AREA
(PROPORCIÓN O PORCENTAJE)
CORRESPONDIENTE A UNA <z> DADA 171
6. PUNTUACIONES <Z> POSITIVAS Y 172
PUNTUACIONES <Z> NEGATIVAS
2. DEFINICIÓN 195
Pág.
CORRELACIÓN BISERIAL
1. COEFICIENTES DE CORRELACIÓN Y
ASOCIACIÓN DERIVADOS DEL COEFICIENTE DE
CORRELACIÓN LINEAL DE PEARSON 199
3. REQUISITOS 199
EPÍLOGO 235
Los índices se presentan con la mayor claridad posible para facilitar la comprensión del concepto, de sus fórmulas, la identificación
de los símbolos matemáticos que las integran y, sobre todo, el desarrollo de todo el procedimiento de cálculo, aplicado a un problema, con
tablas adecuadas a cada índice, en las que se van recogiendo progresivamente los resultados de las operaciones aritméticas que prescribe la
fórmula, con una descripción minuciosa de cada paso, uno a uno, no dando por sentado conocimientos matemáticos, por muy básicos que sean,
sin <saltarse> pasos del proceso de cálculo.
Acompañan al texto las tablas de áreas bajo la curva normal a partir de la puntuación <z>, tablas de valores críticos de las correlaciones
biserial y biserial puntual y del coeficiente <c2> (ji cuadrado).
Para una mejor comprensión del papel instrumental de la Estadística en la investigación científica experimental, se ofrecen
consideraciones sobre los saberes humanos, las ciencias explicativas y las interpretativas, las fases del método hipotético-deductivo, las
variables y las escalas de medida.
Aunque todos los cálculos propuestos en este libro pueden ser realizados con una calculadora científica manual, dedicamos un epílogo
a una muy breve guía de uso del programa informático SPSS (Stastistic Program for Social Sciences) para aquellos casos con un gran número de
sujetos con sus puntuaciones, con la búsqueda combinada de varios índices y con complejos y repetitivos cálculos.
Los saberes que constituyen el fundamento de la civilización humana pueden ser clasificados siguiendo distintas tipologías, la que aquí
presentamos no es la más exhaustiva y rigurosa, pero como marco que relaciona las ciencias sociales con la Estadística, la estimamos válida
para este propósito.
a. FILOSOFÍA: su objeto de estudio es el <todo como todo> (Ortega y Gasset). Sus disciplinas son la Ética, la Metafísica, la Teoría del
Conocimiento (Crítica), la Estética,…Su metodología es muy variada: especulación, fenomenología, análisis del lenguaje…
b. CIENCIAS
Distinguimos entre:
1) Ciencias formales (Matemáticas, Lógica y Epistemología). Su método es axiomático y deductivo.
2) Ciencias materiales:
1) Ciencias explicativas/experimentales (Física, Química, Biología, Astronomía, Fisiología, Neurología, Psicología… y ciencias
derivadas y afines). Su metodología, con variantes adaptadas a sus particulares objetos de estudio, es el conocido como
<Hipotético-Deductivo>, que con mayor precisión debería nombrársele como: <Observacional-Inductivo-Hipotético-Deductivo>,
nacido en las obras de Roger Bacon, Guillermo de Occam, Galileo Galilei, Sir Francis Bacon, Sir Isaac Newton, John Stuart Mill,
Henri Poincaré, Sir Karl Popper, etc.
2) Ciencias interpretativas: Historia, Teología, Etnografía, Derecho... Interpretan, buscan el significado y el sentido a textos orales,
escritos, gestuales, gráficos, musicales,…
3) Ciencias de los signos (Semiótica): Semiología, Morfología, Fonética, Fonología, Sintaxis, Semántica, Pragmática,…
d I) Sobre la salud y la actividad física: Anatomía, Histología, Farmacología, Terapéutica, Psiquiatría, Psicoterapia, Enfermería,
Estomatología, Pediatría, Podología…
d III) Sobre la producción de bienes agrícolas, industriales, mineros, de transporte y comerciales: Ingeniería en sus distintas
especialidades, Agronomía, Veterinaria, Cibernética, Informática, Robótica, Aviónica, Economía,…
Otras ciencias que en unos aspectos pertenecerían a las ciencias explicativas y en otros a las interpretativas, como podría ser, con
ciertas reservas, la Geografía, la Sociología,…
a. HUMANIDADES Y BELLAS ARTES: Promueven las relaciones humanas, interpersonales e intrapersonales, dentro de las sociedades y
los grupos humanos, respecto a los valores éticos, científicos, culturales, religiosos, estéticos, económicos,, políticos, deportivos,
musicales, de ocio…
Sobre las ciencias explicativas, puras y aplicadas, como las ciencias de la conducta (Psicología, Psicopedagogía,…), podemos decir que
Intentan reducir la complejidad del cosmos, en sus distintas realidades, a regularidades comprensibles y comprobables intersubjetivamente.
También se las conoce como ciencias positivas, pues trabajan con <lo puesto> (<positum>) por la Naturaleza, lo dado (<datum>) por ella: los
<data> (los datos).
Las ciencias explicativas son saberes <nomotéticos> o sea son sistemas de leyes o proposiciones generales sobre fenómenos que se repiten,
frente al saber <idiosincrático> que estudia hechos únicos, como lo hace la Historiografía. La característica distintiva de las ciencias
explicativas/positivas es el uso exclusivo del método conocido como método <hipotético-deductivo>.
Las ciencias explicativas establecen las relaciones de identidad, igualdad, reciprocidad, causa-efecto... Sus conclusiones tienen que ser
verificables y la expresión de esas relaciones tiende a ser de naturaleza matemática.
Para poder comprender el papel que juega la Estadística en la aplicación del método científico, creemos conveniente presentar una
visión panorámica del método científico, concretamente en las ciencias explicativas y en las ciencias aplicadas o tecnologías que se derivan de
los hallazgos de aquellas. Siendo la Estadística una rama de las Matemáticas (por tanto una ciencia formal) viene a ayudar a describir e inferir
relaciones existentes entre objetos estudiados en las ciencias explicativas por medio de la aplicación del método experimental conocido como
<Hipotético-Deductivo>.
El método científico positivo/experimental es el método hipotético-deductivo, cuyos representantes más destacados son: Alhacén, Avicena,
Roger Bacon, Robert Grosseteste, William of Ockham, Galileo Galilei, René Descartes, Sir Francis Bacon, Sir Isaac Newton, Hans Christian Orsted,
John Stuart Mill, Charles Sanders Peirce, William Whewell, William Stanley Jevons, Henri Poincaré, Sir Karl Popper y otros muchos.
El grado de perfección de cada ciencia explicativa es, entre otros, el nivel alcanzado, dentro de los siguientes niveles de sus propósitos:
DESCRIPCIÓN
En la simple descripción se presentan con palabras y números los resultados de las observaciones de las características (variables) que son
perceptibles en los objetos (cosas, animales y seres humanos, sus sociedades y organizaciones) tal como son captados por los sistemas
sensoriales directamente o a través de dispositivos que los amplían y/o los miden.
EXPLICACIÓN
El segundo nivel de perfección que la ciencia es su poder de explicación de los fenómenos que ha descrito tras la observación. Para la
explicación, son necesarias la formulación de hipótesis y la experimentación, la cuasi experimentación o la experimentación <ex post facto> o la
correlacional.
PREDICCIÓN
Si además de la descripción y la explicación, es posible predecir la evolución del fenómeno estudiado y los resultados finales de esta
evolución, nos encontraríamos en el nivel superior de la calidad del rigor en una ciencia. Así, por ejemplo, la astronomía es una ciencia que
describe, explica los porqués de los movimientos celestes, y es capaz de predecir los eclipses, las órbitas de los planetas y otros muchos
fenómenos propios de esta ciencia. En el nivel actual de desarrollo de las ciencias, la Física, la Química, la Astronomía y en menor medida la
Biología alcanzan el nivel superior: la predicción.
El orden de los cuatro tipos de diseños experimentales responde al rigor científico de cada uno de ellos: el mayor rigor lo ostenta el
diseño experimental y el menor, al diseño de correlación entre variables cuantitativas y el de asociación entre variables cualitativas.
En los dos primeros se manipula la variable independiente y en el tercero, se selecciona las variables independientes no manipulables. En
los tres primeros tipos se procura controlar las variables extrañas. A partir de los resultados obtenidos en el experimento, se acepta la
hipótesis o se rechaza, con un nivel de error.
5º Con las conclusiones deducidas de los resultados, el científico formula los modelos o teorías que acogerán y sistematizarán el conjunto de
las relaciones que no han sido rechazadas en los experimentos, siempre con la asunción de un grado de riesgo de error.
Las dos primeras fases del método experimental son la observación y medición de los fenómenos y la inducción. Ya Aristóteles señalo que
la inducción incompleta no es nunca concluyente. Pero la inducción completa (observaciones de todos los objetos existentes en una <clase>) es
de hecho imposible. Por tanto, es necesario recoger muchas observaciones y mediciones de las variables involucradas en el fenómeno
estudiado y comprobar que en todas ellas aparece la relación entre dos variables, una independiente y otra dependiente. Sintetizar esos datos es
tarea de la Estadística Descriptiva.
Cuanto mayor sea el número de casos observados (muestra) en los que se cumple la relación (causa efecto, condicional…)
observada entre ambos variables, habrá más probabilidad de que se cumpla en todos los casos (población o universo). El salto desde la muestra
o muestras a la población es cometido de la Estadística Inferencial. El ideal del método científico es llegar a una función matemática (exacta o
probabilística) de una relación entre, al menos, dos variables.
El matemático alemán Gottfried Aschenwall fue el primero en utilizar el término <statistik> con el significado de <Ciencia del Estado> <Ciencia
de los datos (poblacionales) del Estado>. <Statistik> procede de la palabra alemana <statt> que puede traducirse por <estado>.
Para otros, procedería del término latino: <statiscus> (lo relativo al <status>). <status> es participio pasivo del verbo<stare>, <estar parado>,
(tener una posición>). Un precedente sería el <statisculum Collegium> (Consejo de Estado) de la época imperial romana.
2. DEFINICIÓN
La Estadística, como rama de las Matemáticas, es una ciencia formal, estrechamente relacionada con la Teoría de la probabilidad. Es una
ciencia transversal e instrumental/auxiliar, pues sirve para investigar en muchas ciencias, desde la Física a las ciencias sociales y conductuales.
Estudia las grandes leyes que rigen el comportamiento de las grandes masas de datos que dependen de causas poco o nada conocidas e
incontrolables dada su complejidad de interacciones, pero que presentan ciertas regularidades. Emplea modelos de reducción de la información
y de análisis de validación de los resultados en términos de representatividad.
Escotet,(1973) define la Estadística con estas palabras:
<La estadística es la técnica que computa y enumera los hechos y los individuos susceptibles de enumerarse o de medirse; coordinar y
clasificar los datos obtenidos con el fin de determinar sus causas, consecuencias y tendencias>.
3. CLASIFICACIÓN DE LA ESTADÍSTICA.
Según el criterio adoptado, la estadística puede ser clasificada de distintas maneras. Los criterios clasificatorios son:
1) La función
2) Número de variables implicadas.
3) Modelo probabilístico.
4) Tipo de variables y escalas de medida.
a. POR LA FUNCIÓN:
1) Estadística descriptiva: busca describir por medio de cuatro tipos de índices que resuman y representen los valores obtenidos
en la aplicación de instrumentos de medida a una o a dos variables en una muestra. La estadística descriptiva se refiere sólo a los
datos observados, y comprende su tabulación, representación gráfica y descripción, a fin de hacerlos más manejables, pudiendo
así comprenderlos e interpretarlos mejor (Bisterra).
2) Estadística inferencial: busca obtener valores <parámetros> (valores estimados de las poblaciones) a partir de <estadísticos>
(valores obtenidos en muestras). La estadística inferencial alcanza conclusiones probabilísticas sobre las características de una
población a partir de los índices propios de los análisis de la Estadística Descriptiva.
Sin la Estadística Descriptiva es imposible la Estadística Inferencial. Por tanto, la primera tarea de toda análisis estadístico es el análisis de los
datos, o sea describir, por medio de ciertos índices, los resultados obtenidos tras la aplicación de una escala de medida a una o más variables en
una muestra. Con estos índices, es posible manejar los datos y facilitar los análisis propios de la estadística inferencial, la que hace posible la
comprobación de hipótesis, infiriendo los valores estimados en la población a partir de los datos obtenidos en las muestras supuestamente
incluidas en la población.
1) Estadística univariable
Se refiere a una sola variable. Incluye básicamente las medidas de tendencia central, de variabilidad, de simetría y apuntalamiento.
2) Estadística bivariable
La estadística bivariable se refiere a las relaciones entre dos o más variables en una misma muestra: los coeficientes de correlación y de
asociación.
3) Estadística multivariable
Estadística multivariada es aquella que analiza simultáneamente más de dos variables, como por ejemplo la regresión múltiple, el análisis
multivariante o de la varianza, el análisis factorial, el análisis discriminante y la correlación canónica entre otros.
1) Estadística paramétrica es aquella que puede aplicarse a variables que cumplen los supuestos de:
2) Estadística no paramétrica: la que opera con variables que no cumplen las tres condiciones anteriores.
Las variables de las ciencias de la conducta, la psicología y la psicopedagogía entre otras, generalmente son variables cuantitativas medidas
con escalas de intervalo, suponiendo una unidad constante entre dos puntuaciones consecutivas. Damos por hecho, en realidad es una
suposición, que la variable <fluencia verbal>, cuando es medida por un test de fluencia verbal, tiene una unidad constante, que entre un par de
puntuaciones consecutivas hay la misma diferencia que entre otro par de valores correlativos.
A continuación se ofrece una <visión panorámica>, no muy detallada, de los contenidos de la estadística descriptiva. En este momento tal
cúmulo de datos puede resultar abrumador, sin embargo también permite contemplar la posición de un análisis en el conjunto. Creemos que será
posible, si se desea, regresar a ella para situar cualquier <pieza> del <puzzle> de la Estadística en el lugar adecuado.
AMPLITUD
RECORRIDO
DESVIACIÓN
MEDIA
DE VARIABILIDAD VARIANZA
O DISPERSIÓN
DESVIACION
ESTANDAR
COEDIFICIENTE
DE VARIACIÓN
DE ASIMETRÍA ÍNDICE DE
SIMETRÍA
DE
APUNTAMIENTO ÍNDICE DE
APUNTAMIENTO O
CURTOSIS
COEFICIENTE S COEFICIENTE
DE CORRELACIÓN <r> (RRO)DE
ENTRE VARIABLES CORRELACIÓN
CUANTITATIVAS ORDINAL SPEARMAN
DISCRETAS, EN COEFICIENTE RRO
ESCALA ORDINAL
COEFICIENTE
< t > (tau) de
KENDALL
REGRESIÓN
LINEAL REGRESIÓN
LINEAL
CORRELACIÓN Coeficiente
ENTRE VARIABLE biserial puntual
NOMINAL Y
VARIABLS
CUANTITATIVA
CONTINUA O
DISCRETA
CORRELACIÓN
MÚLTIPLE
Todas las características/propiedades perceptibles por los sentidos en los objetos (color, tamaño, fuerza, velocidad, …), con o sin
instrumentos de aumento, son de dos tipos:
a. Constantes
b. Variables.
2. LAS CONSTANTES
Unas características de los objetos, no presentan grados, ni modalidades/categorías, sino que, en todos los casos muestran un valor
constante presentan un valor constante. Estas constantes son propias de las matemáticas y de la física. Ejemplo de estas constantes son:
3. LAS VARIABLES
Por el contrario, las variables son aquellas características/propiedades de los objetos que son perceptibles por los sentidos, con o sin
instrumentos de aumento, y que pueden presentarse en más de una modalidad o grado. Ejemplos de ellas son:
a. La masa de un cuerpo.
b. El número de hijos.
c. La cantidad de palabras retenidas tras medio minuto.
d. El estado civil de las personas.
e. El número de pulsaciones cardíacas por minuto.
f. El volumen de la cavidad craneal.
Como puede verse, estas variables son de muy distintos tipos. Vamos a clasificarlas.
4. TIPOS DE VARIABLES
Las variables pueden ser clasificadas en:
1) Variables cualitativas:
Dicotómicas (sólo dos modalidades)
Policotómicas (más de dos modalidades)
II) variables cuantitativas:
a) Variables cuantitativas discretas.
b) Variables cuantitativas continuas.
5. VARIABLES CUALITATIVAS
Las variables cualitativas también reciben el nombre de: atributos. Son siempre nombres substantivos, no números.
Cualquier variable cualitativa puede presentarse, en dos o más modalidades o categorías excluyentes y, en conjunto, exhaustivas. No admiten
grados, no hay mayor o menor, no hay puntuaciones, sólo nombres. Pueden ser agrupados los objetos que tienen la misma modalidad de la
misma variable.
a. Estado civil: <soltero>, <casado>, <viudo>,<separado legalmente>, <separado de derecho> y <pareja de hecho>.
b. Tipo sanguíneo: <0>, <A>, <B> y <AB>
c. Color del cabello: <negro>, <castaño>, <rubio> y <pelirrojo>
Las variables cuantitativas son características que poseen los objetos y que se presentan con grados y necesariamente tienen que
expresarse con números. Las variables cuantitativas son de dos tipos: discretas y continuas.
1) Las variables cuantitativas discretas son aquellas variables cuantitativas que únicamente admiten valores numéricos enteros.
2) Las variables cuantitativas continuas son aquellas variables cuantitativas que admiten valores intermedios entre dos valores
numéricos enteros.
Ejemplos e variables cuantitativas continuas son:
a. La estatura.
b. La velocidad.
c. Tiempo de reacción.
7. LA MEDIDA
Medir es la asignación de signos numéricos a objetos o aspectos/propiedades/características de objetos por medio de ciertas reglas de
asignación de números conocidas como escalas.
El sistema formal de los signos numéricos consiste en un conjunto de definiciones y postulados, de los que se derivan los teoremas y las
conclusiones del campo del álgebra.
El sistema empírico al que se van asignar lo signos numéricos es, en nuestro campo, la conducta humana y las conductas de aprendizaje
especialmente. Las reglas para poder establecer las correspondencias entre sistema formal de los signos numéricos, o sea de la matemática, y el
correspondiente sistema empírico (la conducta humana), depende, por una parte de las reglas siguientes: la de igualdad, la de orden, la de
igualdad de diferencias y la de igualdad de razones. En la medida en que estas operaciones matemáticas pueden realizarse con los objetos
empíricos, la conducta humana, se podrán aplicar esos números.
8. RELACIÓN ENTRE VARIABLES Y ESCALAS DE MEDIDA
Según sea la naturaleza de la variable (cualitativa, cuantitativa discreta o cuantitativa continua), las escalas posibles son cuatro:
a. ESCALA NOMINAL
b. ESCALA ORDINAL
c. ESCALA DE INTERVALOS
d. ESCALA DE RAZÓN.
Existe una relación, no biunívoca, entre las variables y las escalas de medida. Según sea el tipo de variable, así serán los tipos de escala de
medida que puede utilizarse para medir la variable.
a. LA ESCALA NOMINAL
La escala nominal se aplica a las variables cualitativas/atributos, si bien los distintos grados de las variables cuantitativas continuas podrían
ser convencionalmente agrupados como si fueran modalidades de una variable cualitativa.
LA ESCALA ORDINAL
Las escalas ordinales se aplican a variables cualitativas, a variables cuantitativas discretas y, de algún modo transformando las cuantitativas
continuas. Atribuyen valores numéricos ordinales (rangos) a los distintos valores de las puntuaciones en una serie creciente o decreciente de
valores.
b. LA ESCALA DE INTERVALO
Las escalas de intervalo atribuyen valores numéricos cardinales, sitúan a cada sujeto en un continuo de valores numéricos correlativos, entre
los cuales es posible intercalar infinitos números fraccionarios, si bien con unidades constantes, o sea, mantienen la igualdad de diferencias
entre pares de valores correlativos.
Las variables cuantitativas continuas pueden ser medidas con una escala de intervalo, pero solamente algunas de ellas, también con una
escala de razón.
c. LA ESCALA DE RAZÓN:
Las escalas de razón son también escalas de intervalo, si bien añaden la propiedad de poder establecer razones entre parejas de
puntuaciones. La causa reside en que las variables que pueden ser medidas con escala de razón tienen ausencia total de la variable. Variables
susceptibles de ser medidas con escala de razón suelen ser variables propias de la Física, tales como: masa, edad, longitud, escala <Kelvin> de
temperatura, velocidad…
Si un sujeto mide 160 cm y el otro mide 80 cm, podremos decir justificadamente que el primero de ellos tiene una estatura doble que la
estatura del segundo. Sin embargo, si en lugar de medir la estatura, midiéramos la temperatura con la escala Celsius nunca podríamos afirmar
que un objeto con 80 grados tiene doble cantidad de calor que un cuerpo con 40 grados.
Cualitativas Si No No
Las escalas nominales se aplican a las variables cualitativas/atributos. Como los atributos se presentan en dos o más modalidades o
categorías, las escalas nominales siguen la siguiente regla: asignar un solo nombre, cifra o signo distinto a cada una de las
categorías/modalidades que presenta el atributo. Lo habitual es asignar a cada modalidad un nombre o un adjetivo calificativo.
También puede utilizarse cifras para designar a cada modalidad, si bien las cifras, en este caso, no poseen valor cuantitativo, sino que
funcionan como simples signos arbitrarios. Por ejemplo, en el atributo <sexo anatómico>, las modalidades posibles son: <varón> y <mujer>,
podemos designarlas con cifras, por ejemplo, asignar un <1> a <mujer> y un <2>a <varón> o al contrario. Con esta convención, mientras se
mantuviera la relación biunívoca (cifra/número y categoría/modalidad). Como son simples signos carentes de valor numérico, no es posible
realizar operaciones aritméticas con ellos.
Por la primera, un sujeto no puede ser situado simultáneamente en dos modalidades distintas de un mismo atributo. Dicho de otro modo: cada
sujeto únicamente puede ser situado en una sola categoría/modalidad y en ninguna otra.
Por la segunda ley, al menos, una modalidad debería acoger a cualquier sujeto susceptible de portar el atributo, que pudiera ser incluido en
una u otra de las modalidades o categorías de dicho atributo. No siempre es fácil dividir un atributo en un número exhaustivo de categorías.
Pongamos un ejemplo: en una ciudad viven muchos inmigrantes procedentes de varias naciones. De algunas nacionalidades abundan muchos
ciudadanos, pero otras nacionalidades están representadas por una o dos personas. Así podríamos dividir el atributo <extranjeros que viven en
esa ciudad>, en las siguientes modalidades: <marroquíes>, <rumanos>, <ecuatorianos>, <colombianos>, <bolivianos> y <otros>. Nos podían
preguntar por qué hay una categoría llamada <otros>. La explicación es muy sencilla: viven en dicha ciudad un argentino, un mexicano, dos
franceses y un británico. Es más sencillo manejar seis modalidades o categorías que nueve: las cinco primeras y las cuatro últimas; englobando
estas cuatro en la modalidad <otros>, tal vez se pierde precisión, pero se gana en claridad y brevedad si, como suponemos, queremos dar una
idea general de la distribución de la inmigración en la ciudad. Supongamos que son 60 los marroquíes, 55 los rumanos, 30 los ecuatorianos, 27
los colombianos, 19 los bolivianos, y los otros son sólo 10 inmigrantes de cuatro nacionalidades distintas, de poco peso en el conjunto de
inmigrantes residentes en la ciudad.
a. IDENTIFICACIÓN Y PERTENENCIA
Toda variable cualitativa, o sea, un atributo, debe presentar dos o más modalidades y que estas modalidades sean identificables en cada
sujeto que porta el atributo.
b. IGUALDAD O DESIGUALDAD
Tras esta identificación, se pueda establecer la igualdad o desigualdad entre la modalidad que el sujeto presenta en una variable
cualitativa/atributo, y la modalidad que otro sujeto presenta en esa misma variable cualitativa/atributo. En acción se pueda establecer la igualdad
o desigualdad entre la modalidad que el sujeto presenta en una característica cualitativa/atributo, y la modalidad que otro sujeto presenta en esa
misma característica, variable cualitativa/atributo.
Los símbolos matemáticos serían: <<≠>
c. FORMACIÓN DE SUBGRUPOS
Cuando se ha concluido la identificación de las modalidades que los distintos sujetos del grupo presentan en una concreta variable cualitativa,
puede o no formarse subgrupos. No se formará ningún subgrupo si todos los sujetos coinciden en poseer la misma modalidad. Si, por el
contrario, hay sujetos que presentan distintas modalidades de la misma variable cualitativa, se podrán formar dos o más subgrupos, tantos como
modalidades con algún sujeto.
Simplemente contando el número de sujetos que presenta cada una de las modalidades de la misma variable cualitativa/atributo, se cuentan
los sujetos.
Es posible comparar los números obtenidos por cada subgrupo. La suma de los sujetos que presenta cada subgrupo es igual al número de
sujetos que forman el grupo
Ordenar de mayor a menor o de menor a mayor los subgrupos según el números de sujetos de cada modalidad. Cabe ordenar los subgrupos
de mayor a menor o viceversa.
Comparar el número de sujetos de cada una de las modalidades del atributo, con lo que conducirá a hallar la igualdad o la no igualdad entre
los números de sujetos de cada modalidad con los de las demás modalidades.
Sumar: Número de inmigrantes hispanoamericanos=número de inmigrantes ecuatorianos + número de inmigrantes colombianos + número de
inmigrantes bolivianos=30+27+19=76 inmigrantes hispanoamericanos.
Dividir: ==2 (Hay doble número de inmigrantes marroquíes que de inmigrantes colombianos).
5. PROPORCIONES Y PORCENTAJES
Supongamos que los sujetos que componen el grupo son cincuenta; de ellos, 17 tienen ojos marrones, 18 negros, 3 verdes y 12 azules. Con
esos datos, podríamos determinar las proporciones y los porcentajes. La <proporción> de un subgrupo es el cociente de dividir el número de
sujetos del subgrupo entre el número total de sujetos del grupo. Si a la proporción de un grupo la multiplicamos por 100, tendremos el
<porcentaje>. Por ejemplo, si la frecuencia de un subgrupo es 15 y el número total de sujetos del grupo es 60, la proporción es 15/60 (0,25); y el
porcentaje será 25%.
De la relación que un subgrupo tiene con su grupo, podemos hallar las proporciones y los porcentajes. La proporción es el cociente de dividir
el número de sujetos e un subgrupo entre el número total de sujetos de todo el grupo.
Ejemplo:
Proporción es el número de casos de un valor numérico por cada caso de total. O sea, frecuencia de un valor dividido entre la frecuencia total.
Porcentaje es el resultado de multiplicar una proporción por 100
Ejemplos:
Tabla de frecuencias, proporciones y porcentajes de número de sujetos de la modalidad <varones> y de la modalidad <mujeres> de variable
cualitativas/atributos: <sexo anatómico>.
Recordamos que las variables cuantitativas discretas son aquellas características a las que únicamente el grado de presencia puede ser
expresado por números enteros, no admiten fracciones. El número de hijos de una familia en todos los casos será un número entero: tres hijos,
un hijo, seis,…cero hijos. Pero nunca es posible que una familia tiene dos hijos y medio, o 5,3 hijos. Si tenemos, por ejemplo, cuatro familias, y
atendemos a la variable <número de hijos>, podemos encontrarnos que una o más de una tienen el mismo nº de hijos o números diferentes. Con
esos datos, se puede sumarlos todos o sólo algunos o hallar la diferencia entre dos valores (cuántos hijos tiene Juan más que José). Las
variables cuantitativas discretas se asemejan a las variables cualitativas/atributos, porque los valores se obtienen por conteo, como en las
modalidades de la variable cualitativa. Sin embargo existe una diferencia: las modalidades de las variables cualitativas no pueden ser
legítimamente ordenadas en una serie numérica (la variable <color de los ojos> presenta cinco modalidades: negro, castaño, azul, verde y gris),
no pueden ser ordenados pues no hay justificación matemática para afirmar que los ojos negros sean superiores a los ojos azules, a los verdes,…
Tal vez sea distinto en el campo de las preferencias estéticas de las personas. Eso sí, el número de sujetos de cada modalidad de la misma
variable pueden ser ordenados. Veamos el siguiente cuadro:
Cuadro de número de sujetos que pertenecen a cada modalidad de una variable cualitativa
Negro 12
Color de
Los ojos
Castaño 15
Azul 9
Verde 4
Gris 10
Total = 50
Del mismo modo, las variables cuantitativas discretas ofrecen valores que pueden ser contados, comparados, agrupados por
frecuencias, ser presentados en una tabla de distribución de frecuencias: pueden ser medidos con una escala nominal.
Pero, además, las variables cuantitativas discretas pueden ser medidas con una escala ordinal, pues los valores numéricos que
toman pueden ser ordenados en series crecientes o decrecientes.
Por ejemplo: según el número de familias con 0, 1, 2, 3, 4, 5, 6, 7 y 8 hijos en una pequeña localidad, tendríamos la siguiente tabla de
distribución de frecuencias:
Número de hijos Frecuencia
0 6
1 32
2 61
3 18
4 7
5 8
6 1
7 1
8 1
N = 135
También, como decimos, pueden ordenarse en una serie creciente o decreciente, asignando a cada frecuencia un rango. Siguiendo con el
ejemplo anterior de las 135 familias, tendríamos las siguientes operaciones:
61 1º 2 hijos
Estadísticos e-Books & Papers
32 2º 1 HIJO
18 3º 3 HIJOS
8 4º 5 HIJOS
7 5º 1 HIJO
6 6º 0 HIJOS
1 7º 6 HIJOS
1 8º 7 HIJOS
1 9º 8 HIJOS
Las variables cuantitativas discretas no pueden ser medidas con la escala de intervalo o de razón, reservadas para todas las variables
cuantitativas continuas o sólo para algunas respectivamente.
2. ESCALA ORDINAL
Las escalas ordinales sitúan los individuos en una serie ordenada creciente o decreciente según los valores que presenta cada individuo en
una determinada variable; el puesto que ocupa cada individuo se denomina <rango>. Las series numéricas de una escala ordinal (primero,
segundo, tercero, cuarto…) son distintas a las series numéricas de una escala de valores cardinales (1, 2, 3, 4,…n). La ordenación depende de
cuatro operaciones:
a. La igualdad/desigualdad.
b. Ser mayor y menor.
c. La seriación y asignación de rangos, manteniendo una relación biunívoca entre números cardinales ordenados de mayor a menor (o
viceversa) y los rangos.
La escala ordinal puede aplicarse a variables cuantitativas discretas y a variables cuantitativas continuas, si bien en este último caso,
se pierde información. No puede aplicarse a variables cualitativas/atributos, que únicamente admite la aplicación de la escala nominal.
No es posible realizar ninguna operación aritmética con rangos de una serie ordinal. No tiene sentido sumar: tercero, sexto y séptimo,
pero si es posible determinar la distancia existente entre parejas de de rangos.
Si cinco especialidades de un Conservatorio tienen distinto número de alumnos, podemos ordenarlas en una serie de rangos, de mayor a
menor número de alumnos. He aquí su tabla:
38 1º Solfeo
20 2º Violín
18 3º Clarinete
12 4º Trompeta
9 5º Percusión
Los índices estadísticos aplicables a datos expresados en escala ordinal son la <mediana> entre los índices de tendencia central y la
<amplitud> entre los índices de variabilidad.
Como hemos dicho, también las variables cuantitativas continuas, como la estatura humana, pueden ser legítimamente medidas por una
escala ordinal. Veamos un ejemplo:
Cinco jóvenes (Rogelio, Jorge, Alberto, Severo y Nicolás) miden respectivamente: 1,70 m., 1.59 m, 1.89 m, 1.67 m y 1.61 cm. Si los ordenamos
de mayor a menor, tendríamos la siguiente tabla:
1.89 1º Alberto
1.70 2º Rogelio
1.67 3º Severo
1.61 4º Nicolás
1.59 5º Jorge
Como ya se expuso en el <cuadro> número 3º, las variables cuantitativas continuas son aquellas variables que admiten fracciones entre
números enteros consecutivos. Ejemplos son: la longitud, la masa, la velocidad, el cociente intelectual,…Para medir este tipo de variables,
disponemos de las escalas de intervalo y de razón.
La escala de intervalo se aplica a la medición de todas las variables cuantitativas continuas, si bien algunas de ellas también pueden ser
medidas por una escala de razón. Así mismo, como vimos en el cuadro número 5º, pueden ser medidas por una escala ordinal.
En ocasiones, por simplificar los cálculos, datos de variables cuantitativas continuas, como p.e. la estatura, son tratados como si fueran de
una variable cualitativa. Si hubiéramos medido la estatura de 60 jóvenes, podríamos agrupar las puntuaciones obtenidas (160 cm., 184 cm….) en
tres categorías: <baja estatura>, <media estatura> y <alta estatura>. Necesariamente habría que marcar el umbral y el dintel de cada una de esas
modalidades. Por ejemplo, <media estatura> estaría entre 1.60 y 1.75,si así lo convenimos. Considera a la estatura de este modo supone una
depreciación de la precisión de los datos, pero puede servir para presentarlos de una manera más fácilmente operable.
Algunas variables cuantitativas continuas pueden ser medidas por una escala de intervalo o por una escala de razón. Por ejemplo: la escala
Celsius o centígrada de temperatura no tiene cero absoluto, sino que existen magnitudes de la variable que se presenta como <negativas> (-3
grados). En cambio, la escala Kelvin de temperatura sí tiene 0 absoluto. Otras variables con 0 absoluto son: la altura, la masa…, variables propias
de la Física o la Química, pero las variables en Psicología o Psicopedagogía (por ejemplo, el cociente intelectual) no pueden ser medidas con una
escala de razón, sino sólo por una escala de intervalo.
Por el contrario, otras variables cuantitativas continuas no tienen 0 absoluto, por lo que no pueden ser medidas con una escala de
razón, como ya se expuso en la anterior sección.
Las variables propias de la conducta, objeto de estudio de la psicología y de la psicopedagogía, muy raramente y con matices, podrían
considerarse aptas para ser medida con una escala de razón. Las variables conductuales generalmente son medidas con escalas de intervalo y,
con pérdida de información, por escalas ordinales e, incluso, por escalas nominales.
DE CUANTITATIVA Todas las operaciones válidas para la escala de intervalo más la igualdad de razones. Se aplica a variables cuantitativas continuas que cuentan con <
RAZÓN cero absoluto>.
CONTINUA
CON VALOR
ABSOLUTO
En Estadística, como en otras ciencias, se utiliza una serie de conceptos (con sus correspondientes símbolos) que, si no son bien
comprendidos, sería muy difícil avanzar con paso seguro en el desarrollo de los análisis estadísticos descriptivos o inferenciales.
Ya conocemos el significado de los siguientes conceptos, expuestos en los cuadros precedentes: medida, característica, constante, variables
cualitativas/atributos, y sus modalidad/categoría, variables cuantitativas discretas con sus series y rangos, variables cuantitativas continuas
con sus valores y las cuatro escalas de medida: nominal, ordinal, de intervalo y de razón. Por ello, en este cuadro no se hacen referencias a esos
conceptos.
Los conceptos estadísticos que en este cuadro presentamos son:
INDIVIDUO: Cada uno de las unidades de un grupo. Cuando los individuos son seres humanos reciben el nombre de <sujetos>.
GRUPO: conjunto de individuos a los que se les ha aplicado un instrumento de medida sobre un determinado atributo o variable.
MUESTRA: grupo de individuo (extraído de una población) y cuyos individuos han sido objeto de observación o medida en alguna de las
variables que portan.
POBLACIÓN O UNIVERSO: colectivo de todos los individuos que presentan una característica común, y que por su amplitud, extensión o
dificultad de aplicación de un instrumento de medida, no pueden ser sometidos a observación o a medida en ninguna de sus variables; incluye a
todas las muestras que puedan extraerse de la población.
NÚMERO DE CASOS: número de mediciones de una variable en una muestra, o sea, número de individuos de una muestra que han sido
observados o medidos en alguna de sus variables.
FRECUENCIA: número de individuos que han obtenido el mismo valor (p. e. , una puntuación) en la aplicación del mismo instrumento de
medida sobre la misma variable.
VALOR: Cada uno de los posibles grados o modalidades que puede presentar una variable. Por ejemplo, la puntuación <cinco> (5) obtenible
en una escala del 1 al 10
PUNTUACIÓN: grado de posesión de una determinada variable cuantitativa.
PUNTUACIÓN DIRECTA.- (X, x mayúscula): Puntuación obtenida por un individuo tras serle aplicado un instrumento de medid a una de sus
variables cuantitativas.
PUNTUACIÓN DIFERENCIAL.- (x, x minúscula): es la diferencia entre la puntuación directa, la obtenida por un individuo en una de sus
variables cuantitativas continuas y el valor de la media aritmética de la muestra que incluye al individuo.
PUNTUACIÓN ESTÁNDAR.- (z, z minúscula): es el cociente de dividir la puntuación diferencial (x) entre la desviación estándar (S).
ESTADÍSTICO.- El valor numérico resultante del cálculo de un estadígrafo (índices de tendencia central, de variabilidad, simetría, y
apuntamiento, de correlación, de asociación de la estadística descriptiva o de pruebas y contrastes de la estadística inferencial) de una muestra a
partir de las puntuaciones obtenido por la aplicación de una de las cuatro escalas de medida a una, dos o más variables de los individuos que
constituyen una muestra. Sus símbolos son letras del alfabeto latino (X, x, z, S, Mo, Md, r xy salvo en algunos coeficientes de correlación o de
asociación representados por letras del alfabeto griego (r, c, t, w, f ...). También algunos autores sustituyen el símbolo de la desviación
estándar/típica <S> del alfabeto latino, por la letra griega <s> (letra <sigma> minúscula). Nosotros designamos la desviación estándar con una
<S> (una S mayúscula).
PARÁMETRO: valor representativo de una población. Por definición no puede hallarse, pero sí estimarse. Es desconocido, pues, por muy
grande que sea el número de individuos observados o medidos, siempre será una muestra, no una población; La estimación de un parámetro se
realiza a partir del valor de uno o más estadísticos obtenidos por la aplicación de un instrumento de medida sobre una variable a grupos de
individuos (muestras) extraídas de la concreta población. El cálculo de parámetros incumbe a la estadística inferencial, no a la descriptiva. Sus
símbolos suelen ser, en casi todos los casos, letras del alfabeto griego: s, m, ...
FÓRMULA: Ecuación que indica las operaciones matemáticas, generalmente aritméticas, que deberán ser efectuadas para hallar el valor
numérico de un índice descriptivo o inferencial.
SÍMBOLO: cada uno de los signos (operadores o variables) que forman parte de una fórmula.
INTERVALO: grupos de 3, 4, 5, 6, o 7 valores consecutivos que resultan de dividir el número de valores que pueden tomar las puntuaciones,
entre 4, 5, 6, 7, 8 o 9 y, de este modo simplificar los cálculos.
Conviene advertir a los lectores de este libro que la relación de los símbolos estadísticos, que a continuación se ofrece, son presentados en
este <cuadro> con la única finalidad de que puedan ser consultados por el lector si lo creyera necesario más adelante.
Todos los conceptos matemáticos pueden representarse por medio de símbolos. La estadística, una rama de las matemáticas, no iba a ser una
excepción. Por supuesto que se cumple la regla de la relación biunívoca entre cada símbolo y el concepto representado: a cada concepto le
corresponde uno y sólo uno de los símbolos y que a cada símbolo le corresponde uno y sólo uno de los conceptos.
Las fórmulas utilizadas para el cálculo de los valores numéricos de los distintos índices estadísticos, están formadas por símbolos
procedentes de los alfabetos latino y griego.
En principio puede decirse que los símbolos que son letras del alfabeto latino, casi exclusivamente son propios de la estadística descriptiva
(que utiliza una única muestra) y los símbolos que son letras del alfabeto griego son utilizados casi exclusivamente, en la estadística inferencial.
LETRAS LATINAS
X: (x mayúscula) Puntuación directa obtenida tras la aplicación de una prueba a un sujeto. Otros autores prefieren Xi (X mayúscula con una <i>
minúscula como subíndice)
Xj (X mayúscula con una <j> como subíndice): puntuación media de un intervalo. En otros textos también se ve los símbolo Xm o Xi.
x: (x minúscula): puntuación diferencial resultante de hallar la diferencia entre una puntuación directa (X) y la media aritmética ( ) de la muestra
a la que pertenece el individuo.
f (f minúscula): frecuencia (número de individuos que han obtenido la misma modalidad cualitativa en una observación o el mismo valor
cuantitativo en una puntuación o en un intervalo (agrupación de 3 a 7 valores consecutivo).
n (n minúscula): número total de individuos (sujetos si son seres humanos) o suma de todas las frecuencias de todos los valores o de todos
los intervalos de una muestra. Algunos autores sustituyen la<n> minúscula por una <N> (n mayúscula) siempre o sólo en algunos casos.
Mo: moda, valor que presenta la mayor frecuencia en una distribución.
Md: mediana, valor que ocupa el punto medio de una distribución de valores, o sea, el valor que deja por encima y por bajo el mismo número
de valores.
(X mayúscula con una línea recta horizontal sobre la X): media aritmética.
Xg: media geométrica.
Xa: media armónica.
Xc: media cuadrática.
A: (A mayúscula) amplitud o recorrido de un conjunto de puntuaciones. Es la diferencia entre la puntuación más alta y la puntuación más baja
de una serie ordenada +1.
S2 (S mayúscula con un 2 como índice de potenciación o sea, el valor de S elevado al cuadrado): varianza: media de los cuadrados de las
puntuaciones diferenciales. O sea: cuadrado de S (desviación estándar).
S o SD (S mayúscula o S y D mayúsculas): Desviación estándar: raíz cuadrada de la varianza.
rxy (r minúscula con una x y una y pequeñas como subíndices): coeficiente de correlación de Pearson.
R: (R mayúscula) rango, posición de una puntuación en una serie creciente o decreciente de puntuaciones.
W: (W mayúscula) coeficiente de concordancia de Kendall.
C: (C mayúscula) coeficiente de contingencia.
Q: (Q mayúscula) coeficiente de asociación.
V: (V mayúscula) coeficiente de Cresmer
La anterior relación no pretende ser exhaustiva.
r (letra griega <rro> minúscula): Coeficiente de correlación entre valores ordinales de Spearman
t (letra griega <tau> minúscula): coeficiente de correlación de datos ordinales de Kendall.
w (letra griega <omega> minúscula): coeficiente de asociación
f (letra griega <fi> minúscula): Coeficiente de coaligación entre variables cualitativas.
h (letra griega <eta> minúscula): coeficiente de correlación no lineal o curvilineo
c2 (letra griega <ji> o <chi> con exponente cuadrado): un coeficiente de asociación entre variables cualitativas (atributos); también es una
prueba de contraste y decisión en la Estadística inferencial.
1. INTRODUCCIÓN
Es preciso concretar y aclarar el uso de los signos que designan las operaciones aritméticas indicadas en las fórmulas de los distintos
índices usados en Estadística. Veamos cómo:
LA SUMA
El signo de la suma o adición es: <+>.
LA DIFERENCIA
El signo de la resta o diferencia es: <->. Lo mantenemos.
EL PRODUCTO
El signo de la multiplicación o producto habitual en Aritmética es una <x> o un simple punto <.> entre los factores. En este libro, para evitar la
confusión con la <X> (puntuación directa) o con <x> (puntuación diferencial), no usaremos ningún signo entre factores de un
producto/multiplicación, simplemente cada factor irá dentro de un paréntesis en posiciones contiguas, o sea, el único signo del producto será en
las fórmulas usadas en este libro un espacio entre dos paréntesis; dentro de cada paréntesis irá el número u otro símbolo aritmético que sea un
factor del producto.
Las letras minúsculas representan variables (p.e.: <a> y <b>); las variables pueden ser factores de un producto. Con ellas, actuamos como con
los números, encerrándolas en paréntesis. Por ejemplo: <(a)(b)>) es el producto de los valores numéricos que pueden tomar la variable <a>, por
los valores numéricos que puede tomas la variable <b> .
El signo de la división/cociente será en todas las fórmulas un segmento de recta horizontal (raya) situado entre el dividendo y el divisor o lo
que es equivalente, entre el numerador y el denominador. Ejemplo: 20 dividido entre 4, sería: = 5
Se excluye la notación de los dos puntos (:) Ejemplo 30:5 = 6 También se excluye la notación de la <barra> (/) Por ejemplo: 30/5 = 6 Ambas
notaciones distorsionan las fórmulas estadísticas.
LA POTENCIACIÓN
La potenciación de un número será simbolizada, como es habitual en matemáticas, por un número (<base>) y otro número (<exponente>).
Recordemos que el número o la expresión que se multiplica es la <base> y el número o la expresión que indica las veces que se multiplicara la
base, es el <exponente>. La <base> se escribe con un número o expresión de tamaño normal. El número o expresión del <exponente> es de
menor tamaño que el de la <base>, y se coloca a la derecha y arriba del número o expresión de la <base>.
Ejemplos: =36 =216 53 = 125 104 = 10,000
LA RADICACIÓN
La radicación, o sea, la extracción de la raíz cuadrada, cúbica,… de un número, conocido como <radicando>, tendrá como signo el habitual en
matemáticas: El <radical. Si la raíz es cuadrada, no lleva ningún número en la parte superior de lo que parece una <v>. En los demás casos, en el
lugar mencionado, debe ir el número de orden de la raíz: <3> si la raíz de su cúbica, un <4>, si la raíz es de cuarto orden, etc.
Ejemplos: =6
=5
=2
PUNTOS Y COMAS EN NÚMEROS DECIMALES:
Para escribir un número decimal, tradicionalmente en nuestro ámbito cultural, se colocaba una coma (,) para diferenciar la parte entera a la
izquierda de la coma y la parte decimal a la derecha de la coma. Por ejemplo: el número <treinta y ocho coma seis>, en la notación tradicional de
nuestro país se escribiría <38,6>. En la notación que usaremos en este libro, el mismo número decimal, lo escribimos del siguiente modo: <38.6>.
Nos decidimos por la notación del punto (.), en lugar de la coma (,), porque los programas informáticos de estadística (por ejemplo, el SPSS) así
lo hacen. Otros países utilizan esta misma convención.
TABLA RESUMEN
OPERACIÓN EJEMPLOS EJEMPLOS DE
DE NOTACIÓN NOTACIÓN EN
HABITUAL ESTE LIBRO
COCIENTE/DIVISIÓN 16:2=8 =8 Es
diferente
POTENCIACIÓN 42 = 16 42 = 16 ) Es la
misma
RADICACIÓN =5 =5 Es la
misma
No sólo los datos recogidos de la aplicación de alguna de las cuatro escalas de medida a una, dos o más variables cualitativas o cuantitativas
de los individuos de una muestra, pueden ser presentados en tablas de distribución de frecuencias con valores numéricos, sino también por
representaciones gráficas, aprovechando las posibilidades que ofrecen los ejes cartesianos. Recordemos esas nociones.
a. LA DISTRIBUCIÓN DE FRECUENCIAS
Recordemos qué es una distribución de frecuencias:
El tipo de distribución de frecuencias varía según el número de modalidades de la variable cualitativa o del número de valores posibles que
puedan tomar las puntuaciones de una variable cuantitativa continua; si el número de valores es superior a doce, será conveniente agrupar entre
tres y siete valores consecutivos en intervalos del mismo número de valores.
Los barras (rectángulos) que representan a las modalidades de una variable cualitativa/atributo suelen dejar un pequeño espacio entre cada
dos consecutivos y el orden de colocación de las barras es indiferente, arbitrario.
En cambio, las barras (rectángulos) que representan valores o intervalos de valores de una variable cuantitativa continua, están situados sin
espacios entre ellas, <pegadas>, sin <huecos>, para mostrar la naturaleza continua de la variable. El orden de colocación de las barras está sujeto
al orden natural de los números cardinales, comprendidos entre el valor más bajo y el valor más alto.
El polígono de frecuencias deriva del histograma. Es la serie de segmentos de recta que unen los puntos medios de las frecuencias de cada
una de las barras (rectángulos) del histograma.
La elaboración de un histograma o de un polígono de frecuencias supone el desarrollo de un mismo proceso, pues se sigue estos pasos:
Estadísticos e-Books & Papers
a. Trazar un sistema de ejes de coordenadas cartesianas.
b. En el eje de las abscisas se sitúa las bases de los rectángulos (barras) que representarán a:
2) Los valores numéricos que pueden tomar las puntuaciones de una variable cuantitativa.
3) Los puntos medios de los intervalos que agrupan valores cuando el número de estos aconseja el agrupamiento.
c. En el eje de las ordenadas se representan las frecuencias con las alturas de las barras (rectángulos); esas alturas deben ser
proporcionales a las frecuencias.
En la construcción de un histograma debe tenerse reservar espacio suficiente para la mayor de las frecuencias, aquella cuya barra será la más
alta. El resto de las frecuencias aparecerán en alturas proporcionales.
El histograma y el polígono de frecuencias acumulativos siguen los mismos pasos que sus semejantes no acumulativos. En los acumulativos
cada rectángulo representa la suma de las frecuencias de los rectángulos precedentes
Estos diagramas circulares son generalmente usados para representar frecuencias de modalidades de variables cualitativas/atributos.
Se forma tantos sectores circulares como modalidades y la frecuencia de cada una de ellas es proporcional a la extensión del área de
cada sector circular Se halla los porcentajes de las frecuencias de cada modalidad y por una simple regla de tres, se reparten los 360 grados
de la circunferencia:
Si al 100% de la suma de todas las frecuencias, le corresponde 360 grados, a un 27 % de frecuencias (o el 40%, o el 36% o el porcentaje que
sea), le corresponderá <x> grados.
Número de grados
Ejemplo: diagrama de sectores circulares con las frecuencias de alumnos que habían aprobado 0, 1, 2, 3 y 4 o más:
Los análisis de la estadística descriptiva siguen un proceso formado por estas fases:
Los índices son valores numéricos que representan el conjunto total de valores obtenidos por los sujetos de una muestra. Estos índices se
calculan aplicando ciertas fórmulas, una o más por índice.
Habiendo recogido los datos fruto de la aplicación de un instrumento de medida sobre una variable presente en los sujetos de una muestra,
la primera tarea en cualquier análisis estadístico descriptivo es la organización de los datos. Estos se ordenan en una tabla de distribución de
frecuencias. La frecuencia de una modalidad de una variable cualitativa/atributo o un valor de puntuación de variable cuantitativa es el número de
individuos que presentan dicha modalidad o dicho valor.
3. TABULACIÓN
Para presentar ordenadamente los datos, han de ser elaboradas las tablas más adecuadas al tipo de:
a. La variable medida.
b. La escala de medida utilizada.
c. El número de modalidades o de valores que pueden tomar las observaciones o las puntuaciones respectivamente.
d. El índice descriptivo que se quiere calcular.
e. La fórmula del índice utilizada.
f. El número de sujetos de la muestra.
Las tablas están constituidas por un entramado de filas y columnas. Encabezan las filas, bien los sujetos (cuando no superan la docena),
bien los posibles valores o bien grupos de valores (intervalos) que una variable puede tomar. Las columnas (exceptuando la primera por la
izquierda) recogen generalmente las frecuencias y los resultados de las operaciones aritméticas que prescribe la fórmula. Limitándonos a las
tablas de <distribución de frecuencias>, distinguimos tres casos:
a. Tabla para una muestra de menos de 12 individuos. La tabla está formada por dos columnas, la de la izquierda contiene los nombres de
los individuos, uno por fila. La columna de la derecha contiene la puntuación obtenida por cada sujeto. Probablemente se repetirán los
valores de algunas puntuaciones, pero se opera del mismo modo con las puntuaciones repetidas que con las no repetidas.
b. Tabla para una muestra que supera la docena de individuos. Si el número de valores es inferior a doce, algunos valores de las
puntuaciones estarán repetidos. El número de puntuaciones que tienen el mismo valor recibe el nombre de <frecuencia>.
c. Tabla de distribución de frecuencias destinada a aquellos casos en los que el número de valores que pueden tomar las puntuaciones
es superior de 12 o 15; en ese caso, conviene agrupar los valores en <intervalos>.
Se sometió a un grupo de diez sujetos a una prueba de 12 preguntas. Los valores que puede tomar la prueba es el número de respuestas
acertadas (0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 y 12).
La tabla tendrá tantas filas como individuos forman la muestra y dos columnas, la columna <A> para situar el nombre u otro signo
identificativo de cada uno de los individuos de la muestra y la columna <B> destinada a acoger el número de preguntas acertadas por cada uno
de los sujetos. Veamos esta tabla:
MARIO 9 La tabla adjunta es de tres columnas: los valores, sus frecuencias y los productos de cada valor por
N = 10 su frecuencia:
A B C
1 1 1
2 1 2
3 2 6
4 1 4
5 3 15
6 2 12
7 3 21
8 2 16
9 0 0
10 1 10
n = 16 (X)(f) = 87
Así ya podemos recoger los resultados de las operaciones aritméticas implicadas en los índices de tendencia central.
6. EJEMPLO DE TABLA DE FRECUENCIAS PARA DATOS CUYOS VALORES OBTENIBLES ESTÁN AGRUPADOS EN INTERVALOS
Cuando el número de valores que pueden tomar las puntuaciones es elevado (15, 20, 30, 40), ya no es práctico hacer una tabla con una fila
por cada valor, pues la tabla tendría 15, 20, 30, 40…filas. Necesitamos reducir el número de filas para que la tabla sea manejable. En este caso,
la mejor solución es agrupar los valores en intervalos. Los intervalos deben cumplir ciertas condiciones:
c. Exhaustividad: Todos los valores tienen que estar en alguno de los intervalos.
d. El número de valores de cada intervalo debiera ser <impar> (3, 5 o 7), mejor que <par> (2, 4 o 6) pues es fácil determinar el punto
medio de cada intervalo, mientras que los intervalos con número <par> de valores requieren hallar la media aritmética de los dos
valores centrales de cada intervalo, resultando un número decimal, lo que siempre complica los cálculos posteriores.
Para determinar el número de intervalos necesarios para reducir el número de valores que pueden presentar las puntuaciones, se siguen los
siguientes pasos:
1º) Se halla la <amplitud> (A) aplicando esta fórmula:
A = Xma (valor mayor) - Xmen (valor menor)+1.
Un ejemplo: si los valores se mueven entre 18 y 67, la amplitud será 50 (A= 67 – 18 + 1 = 50).
2º) Dividimos el valor de la amplitud (A), entre un número que nos permita tener entre 5 y 10 intervalos con 3, 4, 5 o 6 valores cada intervalo.
Agrupamos estos 30 valores en seis intervalos de cinco valores cada uno, resultando una tabla de seis filas y de tres columnas. Las filas
acogen los intervalos. Necesitamos cuatro columnas:
a. La columna <A> acoge los valores agrupados en intervalos.
b. La columna <B>, los puntos medio de cada intervalo.
c. La columna <C>, las frecuencias de cada intervalo, el número de puntuaciones que coinciden con alguno de los valores que integran el
intervalo.
Estadísticos e-Books & Papers
d. Columna <D>: productos de los puntos medios de cada intervalo por su frecuencia.
A B C D
1–5 3 3 9
6 – 10 8 7 56
11 – 15 13 42 546
16 – 20 18 38 684
21 – 25 23 8 184
26 - 30 28 2 56
n = 100 (xJ)(f) =
1535
Con esta tabla es posible y fácil calcular el valor numérico de índices de tendencia central media aritmética.
Podemos preguntarnos cómo describir los resultados de un proceso de medida de una variable en los individuos que forman una muestra.
Responder a esta pregunta depende del número de individuos de la muestra. Por ejemplo, si tenemos cuatro hijos y las calificaciones en
Música han sido 4, 6, 6 y 5, podríamos satisfacer la curiosidad de un pariente próximo con la simple enumeración, 6, 6, 5 y 4. Podríamos añadir
que uno de los hijos tendrá que examinarse en el próximo Septiembre y que los otros tres vástagos, no.
Como hemos visto, con cuatro hijos es suficiente la enumeración, pero si son diez alumnos de una clase, la enumeración de la calificación
de cada uno de los diez no sirve para dar una visión sintética de las calificaciones obtenidas por los individuos de la muestra.
Cuando los individuos de una muestra son, 15, …20…80…100 o más, se precisa obtener ciertos valores numéricos que representen a los
valores de las puntuaciones individuales. Esos valores numéricos buscados son los índices descriptivos de muestras de sujetos medidos en una
sola variable.
¿Cómo poder hallar unos pocos índices numéricos que representen a toda una muestra, cuando se tienen medidas individuales de una
variable de los sujetos de una muestra?
Existen cuatro clases de índices descriptivos de una sola variable en una muestra.
a. Índices de tendencia central, también denominados <promedios>
c. Índices de simetría/asimetría
d. Índices de apuntamiento
La asimetría y el apuntamiento son medidos por un único índice de asimetría y un solo índice de apuntamiento respectivamente, si bien cada
uno de ellos tiene varias fórmulas alternativas de cálculo.
6. TABLA RESUMEN
A continuación se presenta una tabla de las variables, las escalas y los índices de una sola variable:
ABSOLUTO
Los primeros índices para una sola variable tratados en Estadística Descriptiva son los índices de tendencia central, también conocidos como
<promedios>. Son los primeros porque, entre otras razones, son necesarios para calcular la mayoría de los índices de variabilidad, de
apuntalamiento y de simetría.
Los índices de tendencia central, que a continuación se presentan, tienen como única finalidad: resumir los numerosos valores obtenidos en
las puntuaciones de los individuos de una muestra, por un valor numérico que represente a toda la muestra.
Reconocemos que la aplicación de un instrumento de una escala de medida sobre una variable supuestamente poseída en distintos grados
por los individuos de una muestra ofrece un número de tantos valores numéricos como individuos constituyen la muestra. Esa multiplicidad de
valores no pueden ser sólo enumerados, sino representados por un valor numérico que resuma y represente la totalidad de los valores obtenidos
individualmente por los sujetos. Es preciso reducir la multiplicidad de valores a un valor que recoja significativamente la totalidad, aún
reconociendo que se pierde información. En la siguiente tabla aparecen los índices de tendencia central:
Índice de Símbolo
tendencia central o
promedios
Moda Mo
Mediana Md
Media aritmética
Media geométrica g o Mg
Media cuadrática c o Mc
Media armónica a o Ma
Los índices menos utilizados son los tres últimos y la <Moda> (Mo). Por el contrario, la <mediana> (Md) y, sobre todo, la <media aritmética> ()
son los índices de tendencia central más utilizados porque, entre otras razones, son imprescindibles para aplicar los restantes índices: índices de
de variabilidad, de asimetría y de apuntamiento, así como para los coeficientes de correlación y de asociación.
Podemos ver en el siguiente cuadro una comparación entre los tres índices de tendencia central más utilizados:
MODA Mo MEDIANA Md MEDIA ARITMÉTICA
No tiene en cuenta los casos extremos No tiene en cuenta los casos extremos Tiene en cuenta todas las puntuaciones
Las puntuaciones se agrupan por los valores Requiere la ordenación de todas las puntuaciones El cálculo no necesita la ordenación de las puntuaciones
Atiende a los valores con mayor frecuencia Puede ser un número que no está en los datos. El resultado del cálculo puede que no esté entre las puntuaciones
La <moda> (Mo) puede aplicarse a datos nominales (modalidades de una variable cualitativa) y, en cierto modo, a los datos de escala de
intervalo (variable cuantitativa continua). Para los datos ordinales se utiliza la <mediana> (Md) y para los datos de intervalo (variable cuantitativa
continua), las medias aritmética, geométrica, cuadrática y armónica. La <moda> es el único índice que puede ser aplicado para datos en escala
nominal.
b. ¿Qué valor numérico de una variable cuantitativa continua presenta la mayor frecuencia?
La <moda> no tiene fórmula de cálculo, no incluye operaciones aritméticas, sólo es suficiente contar los individuos que presentan la misma
puntuación o pertenecen a la misma modalidad. Es suficiente comparar las frecuencias de las distintas modalidades o las frecuencias de los
valores que toman las puntuaciones, para descubrir cuál es la modalidad o la puntuación con la mayor frecuencia.
4. VERSATILIDAD DE LA <MODA>
5. LIMITACIONES DE LA <MODA>
La<moda> presenta numerosas limitaciones que reducen su valor a una superficial medida de una distribución de frecuencias. He aquí
a. El valor con mayor frecuencia es independiente del resto de las frecuencias de los demás valores, por lo que la <moda> hallada es
escasamente representativa de toda la distribución de frecuencias.
b. No siempre se sitúa en el centro de la distribución.
c. Si los valores están agrupados en intervalos, la <moda> depende mucho de del número de intervalos y del número de valores asignado a
cada intervalo.
d. Se espera que la distribución presente un único valor con la mayor frecuencia; pero, si, por el contrario, la distribución tuviera más de un
valor con la mayor frecuencia, se tendría, no una distribución unimodal, sino bimodal, trimodal...
Presentamos tres ejemplos de identificación de la <moda> con tres distintas distribuciones de frecuencias:
a. Distribución de frecuencias de variables cualitativas.
b. Distribución de frecuencias con variables cuantitativas continuas, sin agrupar los valores en intervalos.
c. Distribución de frecuencias con variables cuantitativas continuas, agrupados los valores en intervalos.
Nacionalidad Número
de
nacionales
Francesa 5
Británica 12
Rusa 2
Sueca 6
Alemana 7
Comparamos las cinco frecuencias: 7, 5, 12, 2 y 6. El número mayor de los cinco es: <12>. Este número es el que corresponde a nacionales
británicos. Luego la <moda>, es este caso es la <británica>.
b. EJEMPLO DE <MODA> CON VARIABLES CUANTITATIVAS CONTÍNUAS CON VALORES NO AGRUPADOS EN INTERVALOS
Hallar la <moda> entre las puntuaciones obtenidas por 25 alumnos en una prueba de composición escrita. En la tabla se presentan las
frecuencias de cada uno de los posibles valores que podían tomar las puntuaciones:
1 0
2 1
3 2
4 2
5 6
6 9
7 3
8 2
9 0
10 0
Comparamos las frecuencias (0, 1, 2, 2, 6, 9, 3, 2, 0 y 0) y vemos que la mayor frecuencia de las diez es <9> y <9>, correspondiendo a la
puntuación: <6>. Por tanto, el valor que reúne más puntuaciones es <6> y consecuentemente, la<moda> es <6>. Puede aceptarse que el
resultado de la prueba de composición escrita es bastante satisfactorio: 9 de 25 alumnos tiene una puntuación próxima a la centralidad.
c. EJEMPLO DE <MODA> CON VARIABLES CUANTITATIVAS CONTÍNUAS AGRUPANDO LOS VALORES EN INTERVALOS
Del mismo modo que hemos alcanzado el valor del índice de tendencia central <moda> de una distribución de frecuencias con valores
numéricos no agrupados en intervalos, se podría hacer otro tanto una distribución de frecuencias de valores agrupados en intervalos.
Hallar la <moda> de las puntuaciones obtenidas por 100 sujetos en una prueba en la que los valores que pueden tomar las puntuaciones han
sido agrupados en intervalos de cinco valore cada uno. La distribución de frecuencias se muestra en la adjunta tabla:
INTERVALOS FRECUENCIAS
1-5 6
6-10 22
11-15 10
16-20 8
1. INTRODUCCIÓN
Recordamos que los índices de tendencia central son la moda (Mo), la mediana (Md), la media aritmética (X), la media geométrica (Xg), la media
armónica (Xa) y la media cuadrática (Xc); vamos a dedicar este cuadro a presentar la mediana.
La mediana (Md) es un índice de tendencia central que requiere la ordenación de las puntuaciones, obtenidas por los sujetos de una muestra,
en una serie, creciente o decreciente de puntuaciones a las que se les ha sido asignado rangos correlativos, en una relación biunívoca con las
puntuaciones. Pues bien, la mediana es aquella puntuación que ocupa el rango central de la serie o sea, que deja el mismo número de rangos por
encima, que por debajo de ella.
Limitándonos al primer caso (sin intervalos), tenemos que hacer otras distinciones según dos criterios:
a. Si el número de puntuaciones (n) es impar o, por el contrario, es par.
b. Si la puntuación del rango o rangos centrales comparten la misma o las mismas puntuaciones con otros rangos de la serie ordenada.
Combinando estos dos criterios, encontramos cuatro casos diferentes de calcular la mediana con las puntuaciones no agrupadas en
intervalos:
a. Con un número impar de puntuaciones sin que la puntuación que ocupa el rango central sea compartida con cualquier otro rango.
b. Con un número par de puntuaciones sin que una o las dos puntuaciones que ocupan los dos rangos centrales sean compartidas con
otros rangos.
c. Con un número impar de puntuaciones y con la puntuación del rango central compartida con otro u otros rangos.
d. Con un número par de puntuaciones y con una o las dos puntuaciones de los dos rangos centrales sean compartidas con otros rangos.
En este cuadro, presentamos un ejemplo del procedimiento de cálculo de la <Md> en series con número impar, sin que la puntuación que
ocupa el rango central coincida con las puntuaciones que ocupan los rasgos adyacentes al rango central.
5. EJEMPLO DE PROCEDIMIENTO PARA HALLAR LA MEDIANA DE UNA SERIE FORMADA POR UN NÚMERO IMPAR DE PUNTUACIONES Y
SIN QUE LA PUNTUACIÓN DEL RANGO CENTRAL COINCIDA CON LAS PUNTUACIONES DE OTRO U OTROS RANGOS
Veamos el procedimiento aplicándolo a un problema:
Un grupo de 13 niños han obtenido las siguientes puntuaciones: 5, 7, 5, 9, 9, 6, 7, 5, 4, 8, 5, 4 y 7. Hallar la mediana:
Paso 1º) Ordenamos las puntuaciones en una serie creciente de puntuaciones: 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 8, 9, 9. (el resultado sería el mismo si
las puntuaciones hubieran sido ordenadas en una serie decreciente).
Paso 2º) A cada una de esas puntuaciones de la serie ordenada le corresponde un rango, desde el rango 1º, al rango 13º.
Puntuaciones 4 4 5 5 5 5 6 7 7 7 8 9 9
1. INTRODUCCIÓN
Si el número de puntuaciones (n) es par, el proceso de cálculo de la mediana difiere del expuesto en el anterior <cuadro>, dedicado a presentar
el cálculo de la mediana de una serie impar de rangos.
Concretamente varía el paso 4º del proceso expuesto más arriba. La fórmula es distinta:
Se calcula cuáles son los dos rangos centrales utilizando estas dos fórmulas:
a. Para determinar cuál será el rango inferior de la pareja central de rangos, se divide <n> entre 2: , cuyo resultado es un entero.
b. Para determinar cuál será el rango superior , se suma <1> al valor hallado en el paso anterior: + 1
c.
Aplicando estas fórmulas, se obtiene el número de rangos que quedarán por debajo y por encima de la pareja de rangos centrales. Esta pareja
de rangos centrales aporta dos puntuaciones entre las que se encuentra la Mediana de la serie. La mediana estará entre las puntuaciones que
ocupan los dos rangos centrales. La mediana será el resultado de obtener la media aritmética de ambas puntuaciones.
2. EJEMPLO DE CÁLCULO DE LA MEDIANA DE UNA SERIE FORMADA POR UN NÚMERO PAR DE PUNTUACIONES Y SIN QUE LAS DOS
PUNTUACIONES DE LOS DOS RANGOS CENTRALES COINCIDAN CON LAS PUNTUACIONES DE OTRO U OTROS RANGOS
Para una mejor comprensión del procedimiento de cálculo, lo vamos a aplicar a este problema:
PUNTUACIONES 1 2 3 5 6 7 8 9 11 13
RANGOS 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
Paso 3º) Como vemos, se ha asignado una serie ordenada de rangos a una serie ordenada de puntuaciones.
Como la serie tiene un número par (n=10) de puntuaciones, la mediana será la media aritmética de las puntuaciones que ocupan los dos
rangos centrales. Las fórmulas para determinar cuáles son los dos rangos centrales:
Primer rango de la pareja central = En nuestro caso, = 5º
Segundo rango de la pareja central: = + 1. En nuestro caso, + 1 = 6º
Los rangos centrales serán el 5º y el 6º. Así resultan cuatro rangos (1º, 2º, 3º y 4º) por debajo de los rangos centrales y cuatro rangos (7º, 8º,
9º y 10º) por encima de los dos rangos centrales.
Paso 5º: Se halla la media aritmética de las puntuaciones que ocupan los rangos 5º y 6º.
RANGOS PUNTUACIONES
Rango 5º 6
Rango 6º 7
1. EJEMPLO DE CÁLCULO DE LA MEDIANA CUANDO ESTÁ REPETIDA LA PUNTUACIÓN DEL RANGO CENTRAL
a. Ordenar en una serie creciente o decreciente las puntuaciones alcanzadas por los sujetos.
b. Asignar a cada puntuación un rango creciente o decreciente en una relación biunívoca.
c. Que la mediana es la puntuación que ocupa el rango central (si la serie es impar) o la media de los dos rangos centrales (si la serie es
un número par).
Sin embargo, lo que parece sencillo se complica si la puntuación del rango o rangos centrales es idéntica a otra u otras puntuaciones
del o de los rangos anteriores o posteriores al rango o rangos centrales. Veamos un ejemplo de procedimiento de cálculo cuando esto
sucede:
Hallar la mediana de nueve puntuaciones, las que presentamos ordenadas en esta serie creciente: 3, 4, 5, 5, 5, 6 , 7.
Paso 1º) Como las puntuaciones ya están ordenadas de menor a mayor, asignamos los rangos:
PUNTUACIONES 3 4 5 5 5 8 9
RANGOS 1º 2º 3º 4º 5º 6º 7º
Paso 2º) Como la serie está formada por un número impar (7) de rangos, la mediana es, en principio, la puntuación que ocupa el rango 4º, pues
cumple la regla principal de la mediana: dejar por debajo y por encima del rango central el mismo número de rangos, en nuestro problema: 3 (1º,
2º y 3º) por debajo y 3 (5º, 6º y 7º) por encima.
Paso 3º) Pero advertimos que la puntuación que ocupa el rango 4º (5) es igual a las que ocupan los rangos 3º y 5º (5 y 5). Si tenemos tres
puntuaciones idénticas, no parece correcto afirmar que la mediana es <5>, pues tal puntuación es compartida con otros dos rangos. Será preciso
determinar los límites exactos de los rangos.
Si restamos el límite inferior al límite superior, resulta la unidad: 5.50 - 4.50 = 1. Habrá que dividir <1> entre los tres rangos que coinciden en la
puntuación <5>:
= 0.33
Correspondería añadir 0.33 a cada una de las puntuaciones de los rangos 3º, 4º y 5º.
Paso 4º) Marcamos los límites exactos de la puntuación de cada rango:
SERIE CON NÚMERO IMPAR DE PUNTUACIONES
Rangos 1º 2º 3º 4º 5º 6º 7º
Puntuaciones 3 4 5 5 5 8 9
Luego, la mediana (Md) estará en el rango 4º, que tiene por límite inferior 4.83 y como límite superior 5.16. El punto medio estará hallando la
media aritmética de los dos límites: = = 4.995, o sea: 5
No debe extrañarnos que resulte una mediana de <5>, pues el <5> del rango 3º se equilibraba con el <5> del rango 5º. Hubiera sido muy
distinto si el número de puntuaciones idénticas hubieran ocupado más rangos por encima que por debajo del rango central o viceversa.
Con la resolución de un problema, intentaremos presentar el procedimiento para hallar la mediana cuando las puntuaciones están agrupadas
en intervalos:
Hallar el valor que toma la mediana de una serie de 35 puntuaciones, que, por su alto número es aconsejable que se agrupen en intervalos de
tres valores correlativos cada uno. En la tabla siguiente se muestran los intervalos y sus frecuencias.
INTÉRVALOS FRECUENCIA
DE LOS VALORES (NÚMERO DE
QUE PUEDEN PUNTUACIONES
TOMAR LAS QUE COINCIDEN
PUNTUA-CIONES CON ALGUNO DE
LOS VALORES DEL
INTERVALO)
1-3 6
4-6 4
10-12 4
13-15 6
16-18 6
19-21 3
22-24 3
n=35
El procedimiento para calcular la mediana (Md) cuando los valores están agrupados en intervalos, está formado por los siguientes
pasos:
Paso 1º) Dividir el número total de puntuaciones (35) entre dos (2):
= 17.5
Paso 2º) Comenzamos a sumar las frecuencias de los intervalos a partir del intervalo inferior de la distribución de frecuencias, hasta llegar al
intervalo que contiene el valor 17.5.
El primer intervalo (1-3) aporta 6 puntuaciones.
El segundo intervalo (4-6) aporta 4 puntuaciones, que sumadas con las 6 anteriores resultan 10.
El tercer intervalo (7-9), añade sus 3 puntuaciones (10+3 =13).
El cuarto intervalo (10 – 12) aporta 4 puntuaciones que sumadas a las 13 de las sumas anteriores, resulta 17 (13 + 4 = 17). Por tanto, el valor
17.50 tiene que estar en el intervalo siguiente <13 – 15>, el llamado <intervalo de mediana>.
Paso 3º) Se halla la diferencia entre 17.50 ( = 17.50) y la suma de las frecuencias de todos los intervalos por debajo del <intervalo de mediana>
(6 + 4 +3 + 4 = 17): 17.50 – 17 = 0.50
Paso 4º) Calculamos la proporción del intervalo de mediana que debe ser añadida a su límite inferior con el fin de alcanzar la puntuación de la
mediana.
Paso 5º) Se divide el número obtenido en el paso anterior (0.50) por la frecuencia del <intervalo de mediana>: (6); ( = 0.08).
Paso 6º) Se multiplica el resultado de la anterior división por el tamaño del intervalo (3):
(0.08) (3) = 0.24
Paso 7º) Sumamos el resultado (0.24) obtenido en el paso anterior (6º) con el límite exacto inferior del intervalo de mediana (13 – 15), que es
12.50 :
0.24 + 12.50 = 12.74.
El valor de la mediana es: 12.74
Existe una fórmula que puede facilitar el tránsito por los siete <pasos> del procedimiento de cálculo de la mediana:
Mediana = (l)+ ()
SIMBOLOGÍA:
l : límite exacto inferior del intervalo de mediana.
n : número total de puntuaciones
f : número de puntuaciones del intervalo de mediana.
F: suma de las puntuaciones de todos los intervalos inferiores al <intervalo de mediana>.
i: tamaño de cada intervalo o sea, número de valores agrupados en el intervalo.
1. INTRODUCCIÓN
Cuando aplicamos un instrumento de evaluación a una muestra, no sólo nos interesa describir las características de la muestra reduciendo los
resultados a unos índices descriptivos de tendencia central (mediana y media aritmética, preferentemente), variabilidad, asimetría y apuntamiento,
sino también determinar la posición que ocupa cada individuo en el conjunto del grupo. No es suficiente conocer la puntuación del individuo si no
se sabe, al menos, el número de individuos de la muestra o, mejor aún, la media y la desviación estándar de las puntuaciones de la muestra.
Valorar la posición requiere situarla en el conjunto del grupo. Para ello, existen dos formas de hallar la posición de un individuo en su grupo:
a. Hallar la puntuación estándar <z> del individuo (z = ) y, suponiendo que la variable medida cumple los requisitos exigidos, hallar el
porcentaje de sujetos con puntuaciones inferiores a la obtenida por el sujeto en la tabla de áreas bajo la curva normal para cada<z>.
b. Determinar el percentil del rango que ocupa la puntuación del individuo, en la serie ordenada creciente de las puntuaciones obtenidas
por los individuos que forman la muestra.
2. LOS PERCENTILES
Los percentiles son los resultados de distribuir una serie ordenada creciente de puntuaciones entre cien (100) intervalos, cada uno de los
cuales incluye el 1 % del total de puntuaciones.
1) No requiere calcular los índices descriptivos (media aritméticas, desviación estándar,…) de las puntuaciones de la muestra.
a) Comparar dos puntuaciones obtenidas por dos individuos o por el mismo individuo, cualquiera que hayan sido los valores de la escala de
medida utilizada o del tipo de la variable cuantitativa medida.
b) Interpretar la significación de las puntuaciones individuales en el conjunto de la muestra.
a. FÓRMULAS:
1) P = 100 –
2) Claparede: P= (100)
3) Otis: P= (100)
b. SIMBOLOGÍA:
R : rango correspondiente de una puntuación dada.
n : número de sujetos.
5. UN EJEMPLO DE CÁLCULO:
P = 100 –
El otro posible cálculo consiste en hallar la puntuación que ocupa el rango correspondiente a un determinado percentil.
a. FÓRMULA:
R=–1
b. SIMBOLOGÍA:
Los mismos significados expuestos más arriba.
7. UN EJEMPLO DE CÁLCULO:
Hallar la puntuación que ocupa el rango que tiene el percentil 60 en una muestra de 80 individuos.
R= –1 R= –1 1 R = 48 – 1= 47
Paso 2º: encontrar en la serie de puntuaciones, la puntuación que corresponde al rango 47º, hallado en el paso 1º. Para ello, en la serie de
puntuaciones, contamos desde la que ocupa el rango 1º hasta llegar a la puntuación que ocupa el rango 47, o sea, tantas puntuaciones como
indique el rango hallado cuando aplicamos la fórmula precedente.
8. LOS CUARTILES
Los cuartiles son, como los percentiles y los deciles, <cuantiles>, y son tres: < cuartil 1º> (Q1)), <cuartil 2º> (Q2) y <cuartil 3º> (Q3), que se
corresponden respectivamente con los percentiles <25>, <50> y <75>. El <Q2> coincide con la <mediana> (Md).
Los <cuartiles> pueden ser calculados aplicando las fórmulas presentadas para el cálculo de los percentiles, teniendo presente las
equivalencias existentes entre <cuartiles> y <percentiles>.
1. INTRODUCCIÓN
Recordamos que los índices de tendencia central, también llamados promedios, son la moda (Mo), la mediana (Md), la media aritmética (), la
media geométrica (Xg), la media armónica (Xa) y la media cuadrática (Xc).
Dedicamos este cuadro a presentar la media aritmética, que también puede denominarse simplemente <media> sin añadir ningún adjetivo
(geométrica, armónica o cuadrática).
a. DEFINICIÓN
La media aritmética es la suma de todas las puntuaciones dividida entre el número de puntuaciones.
b. SÍMBOLO
El símbolo de la media aritmética es una (una X mayúscula con un segmento de recta situado sobre la X).
c. FÓRMULAS
1) Fórmula básica =
2) Fórmula para datos con frecuencias: =
3) Fórmula para datos agrupados en intervalos con sus frecuencias: =
d. SIMBOLOGÍA
: media aritmética
X (X mayúscula): puntuación directa
n (n minúscula): número de puntuaciones, una por cada individuo.
∑ (letra griega <sigma> mayúscula): sumatorio: indica que hay que sumar los valores numéricos que toman los símbolos que siguen al
sumatorio.
f (<f> minúscula): frecuencia, número de sujetos cuyas puntuaciones han obtenido el mismo valor.
Xj (X mayúscula con una <j> minúscula como subíndice): punto central o medio de cada intervalo.
En el cálculo de la media aritmética se pueden presentar tres casos, según sea el número de valores que pueden tomar las puntuaciones y el
número de puntuaciones:
a. Menos de 12 valores numérico, con o sin agrupar las puntuaciones por frecuencias.
b. Entre 15 y 20 valores sin agrupar en intervalos, cada valor con su frecuencia.
c. Más de 20 valores, necesariamente agrupados en intervalo, con sus frecuencias.
4. CASO <a>: CÁLCULO DE LA MEDIA ARITMÉTICA CON UN NÚMERO DE VALORES MENOR DE 12, SIN Y CON FRECUENCIAS:
Cuando el número de valores es bajo, menos de 12 o 15, puede calcularse manualmente la media aritmética. Se aplica la fórmula ya conocida;
no es necesario agrupar los valores en intervalos.
SUJETOS PUNTUACIÓN
OBTENIDA POR
CADA SUJETO
Ruth 6
Neftalí 8
Sara 3
Abraham 4
Isaac 5
Moisés 7
Esther 5
Susana 5
Rubén 6
Raquel 5
Noé 7
n = 12 ∑X = 67
Paso 2º) Utilizamos la fórmula general, usada cuando no hay tabla de frecuencias de los valores ni hay intervalos agrupando valores:
=
n= 8
∑X= 6 + 8 + 6 + 3 + 4 + 5 + 7 + 5 + 5 + 6 + 5 + 7 = 67
Paso 3º) Trasladamos esos datos a la fórmula:
= = 5.58
También podríamos haber calculados la media aritmética utilizando la tabla de frecuencias (estaríamos ya en el segundo caso de los tres
posibles en el cálculo de la media aritmética):
1 0 0
2 0 0
3 1 3
4 1 4
5 4 20
6 3 18
7 2 14
8 1 8
9 0 0
10 0 0
n = 12 ∑(x)(f)=67
===5.58
5. CASO <b>: CÁLCULO DE LA MEDIA ARITMÉTICA DE LAS PUNTUACIONES AGRUPADAS POR SUS POSIBLES VALORES CON SUS
RESPECTIVAS FRECUENCIAS.
Cuando el número de puntuaciones es elevado, la mayoría de los valores de las puntuaciones se repiten, presentan frecuencias. En este caso
la fórmula a utilizar para calcular la media aritmética (X) es la siguiente:
a. FÓRMULA:
b. SIMBOLOGÍA:
X= puntuación directa
f= frecuencia, número de puntuaciones que obtienen el mismo valor.
n= ∑ f =número de puntuaciones o sea, sumatorio de las frecuencias de todos los valores..
∑ (X)(f)= sumatorio de los productos de cada valor por su respectiva frecuencia.
0 0
2 1
3 3
4 6
5 8
6 5
7 3
8 2
9 1
10 1
N = 30
0 0 0
1 0 0
2 1 2
3 3 9
4 6 24
5 8 40
6 5 30
7 3 21
8 2 16
9 1 9
10 1 10
= 4.66
1. INTRODUCCIÓN
Cuando el número de valores es superior a 12 0 15, es más práctico agruparlos en intervalos. Los intervalos deberán cumplir las siguientes
condiciones:
De este modo, la aplicación de una escala de medida que acoge un número de valores alto, p. e., 21, puede reducirse a siete intervalos de tres
valores cada uno. Operar con siete (7) es más fácil que operar con veintiuno (21). Ciertamente que unificar las frecuencias obtenidas por cada
valor del intervalo en una única frecuencia para todos los valores incluidos en ese intervalo, se pierde información, pero cuando esta pérdida se
considera despreciable para el resultado de la investigación, parece lícito hacerlo.
Veamos un ejemplo:
Supongamos una distribución de frecuencias de las puntuaciones obtenidas por 137 sujetos en un test de factor numérico de 21 valores (0
-20). En la siguiente tabla se expresa el número de sujetos (frecuencia) que han obtenido cada uno de los 21 valores posibles:
O 1
1 1
2 3
3 4
4 6
5 3
6 6
7 9
8 9
9 8
10 12
11 12
12 16
13 15
14 10
15 7
16 5
17 4
18 3
19 2
20 1
N = 137
Como vemos, tablas con 21 filas son poco manejables, por lo que parece conveniente agrupar los 21 valores en intervalos; por ejemplo, los 21
valores en 7 intervalos de 3 valores cada uno:
Intervalo Frecuencia
(i)
del
intervalo
0–2 5
3-5 13
6–8 24
9 – 11 32
12 - 14 41
15 – 17 16
18 - 20 6
N=137
Las frecuencias de cada intervalo resultan de la suma de las frecuencias de cada valor incluido en el intervalo. Por ejemplo:
Frecuencia del intervalo<12 – 14> (41) proviene de sumar 12 + 15 + 10, las frecuencias de los valores <12>, <13> y <14> respectivamente.
3. FÓRMULA Y SIMBOLOGIA
La fórmula para calcular la media aritmética () de las puntuaciones agrupadas en intervalos es:
=
a. SIMBOLOGÍA:
4. EJEMPLO DEL PROCEDIMIENTO DE CÁLCULO DE LA MEDIA ARITMÉTICA CON LOS VALORES AGRUPADOS EN INTERVALOS
Problema:
Hallar la media aritmética de los valores agrupados en intervalos y sus respectivas frecuencias tal como aparecen en la Tabla I:
Tabla I
A B C D
0–2 1 5
3-5 4 13
6–8 7 24
9 – 11 10 32
12 - 14 13 41
15 – 17 16 16
18 - 20 19 6
n=137
Paso 1º.- Se determina el punto central de cada intervalo <XJ> (X mayúscula con una j minúscula como subíndice). Pueden darse dos casos:
a. Si el número de valores del intervalo es impar, el punto medio del intervalo será aquel que deja a su derecha y a su izquierda el mismo
número de valores.
b. Si el número de valores del intervalo es par, el punto medio será la suma de los dos valores centrales dividido por dos (2). Por ejemplo,
si el intervalo es
8 – 13, el número de valores que lo integran son <6>, hay dos valores centrales (10 y 11). El valor central que represente al intervalo es: =
= 10.50
En nuestro caso el número de valores de cada intervalo es un número impar, por lo que el punto central es un número entero, lo que
simplifica los cálculos.
Paso 2º) La columna <D> acogerá los productos (las multiplicaciones) de los puntos centrales de cada intervalo por su respectiva frecuencia:
el valor central (X¡) por la frecuencia de ese concreto intervalo: (Xj)(f).
Tabla II
A B C D
0–2 1 5 5
3-5 4 13 52
6–8 7 24 168
9 – 11 10 32 320
12 - 14 13 41 533
15 – 17 16 16 256
18 - 20 19 6 114
n=137 1448
2. LA MEDIA GEOMÉTRICA
Se define la media geométrica (Xg) como la media aritmética de los logaritmos de las puntuaciones. También puede definirse como la raíz
enésima del producto de las puntuaciones, entendiendo por <enésima> equivalente a <n>: el número de puntuaciones.
Símbolo de la media geométrica: Xg
a. FÓRMULAS:
Xg =
Xg =
b. SIMBOLOGÍA:
n: número de sujetos
Xa: puntuación obtenida por el sujeto <a>
Xb: puntuación obtenida por el sujeto <b>
Xc : puntuación obtenida por el sujeto <c>
Xn : puntuación obtenida por el sujeto <n>
c. PROCEDIMIENTO:
Paso 1º: Se multiplican las tres, cuatro…<n> puntuaciones, las que sean.
Paso 2º: Se calcula la raíz cúbica si son tres las puntuaciones, o la raíz cuarta si son cuatro, la raíz quinta si son cinco, etc., el índice de la raíz
es el número de puntuaciones (n) obtenidas en una prueba por una muestra.
3. EJEMPLO DE CÁLCULO
Problema:
Ejemplo : Hallar el valor de la media geométrica de las siguientes tres puntuaciones: 5, 8 y 10.
1º) Multiplicamos el (5) (8)= 40. Multiplicamos (40)(10)=400.
2º) A este resultado, se le extrae la raíz cúbica, ya que son tres las puntuaciones. Utilizamos la calculadora científica para calcular la raíz
cúbica:
= 4.47
Otro ejemplo:
Hallar el valor de la media geométrica de las siguientes cuatro puntuaciones: 4, 5, 7 y 8:
1º) multiplicamos los cuatro números: (4)(5)(7)(8) = 1120
2º) Extraemos la raíz cuarta de 1120. Resulta 2.40
a. DEFINICIÓN
La media cuadrática (Xc) es el valor resultante de extraer la raíz cuadrada a la media aritmética de los cuadrados de todas las puntuaciones.
b. SÍMBOLO: Xc
c. FORMULA:
Xc=
d. SIMBOLOGÍA:
X: puntuación directa obtenida por cada sujeto.
Problema:
3 9
5 25
5 25
6 36
8 64
TOTAL 159
1º) Hallamos los cuadrados de las cinco puntuaciones: 9, 25, 25, 36 y 64.
2º) Sumamos estos cinco cuadrados: 9+25+25+36+64=159.
3º) Dividimos la suma de los cuadrados (159) entre el número de puntuaciones (5). Resulta 31.8
4º) Extraemos la raíz cuadrada de 31.8.
a. DEFINICIÓN
1) La <Xa> es el número recíproco de la media aritmética de los números recíprocos de las puntuaciones.
La <Xa > es el valor numérico resultante de dividir el número de sujetos entre la suma de los números recíprocos de las puntuaciones
obtenidas por los sujetos de la muestra. Utilizaremos esta fórmula en el ejemplo de cálculo.
b. SÍMBOLO: Xa (también se la simboliza con la letra <H> mayúscula; procede del término <Harmony>).
c. FÓRMULA :
Xa =
SIMBOLOGÍA:
n: número de puntuaciones
: número recíproco de cada puntuación.
∑: suma de los recíprocos de todas las puntuaciones.
Iván 2
Irene 3
Sandra 4
Sergio 4
Tania 5
Miguel 6
Paso 1º): Se halla con una calculadora científica los valores de los recíprocos de cada puntuación (el recíproco de un número es el resultado
de dividir la unidad <1> entre dicho número).
Los números recíprocos de 2, 3, 4, 4, 5 y 6 son respectivamente: 0.50, 0.33, 0.25, 0,25, 0,20 y 0.16.
A B C
Iván 2 0.50
Irene 3 0.33
Sandra 4 0.25
Sergio 4 0.25
Tania 5 0.20
Miguel 6 0.16
n=6 ∑= 1.69
Paso 3º): Dividimos el número de puntuaciones (n) entre el resultado de la suma anterior (1.69):
Xa = Xa = = 3.55
1. ¿POR QUÉ ES NECESARIO CALCULAR LOS ÍNDICES DE VARIABILIDAD PARA DESCRIBIR LAS PUNTUACIONES DE UNA MUESTRA?.
Los índices de variabilidad/dispersión de las puntuaciones obtenidas por una muestra en una determinada variable son imprescindibles,
porque los índices de tendencia central son insuficientes para describir correctamente la distribución de frecuencias de los valores de una
muestra. Es frecuente que dos muestras de 10 alumnos cada una tengan la misma media aritmética y, sin embargo, sus distribuciones de
frecuencias sean muy distintas. Por ejemplo, las dos distribuciones siguientes:
Muestra (A). Puntuaciones: 3, 5, 7, 9, 9, 10,10, 14,16 y 17. Suma de estas diez puntuaciones es 100: (∑X = 100), luego:
= = 10
Muestra (B). Puntuaciones: 9, 10, 10, 10, 10, 10, 10, 10, 10 y 11. Suma de estas puntuaciones es 100: (∑X = 100).
= = 10
Como vemos, la suma de los diez valores en ambas muestras es 100 (∑ X = 100). Por tanto, las medias aritméticas de ambas
distribuciones coinciden: 10: ( =10).
No obstante, aunque coinciden las medias aritméticas de ambas distribuciones de frecuencias, observamos que son distribuciones
muy distintas. En la distribución de frecuencias <A>, las puntuaciones se extienden, están más dispersas, mientras que en la distribución <B>, las
puntuaciones están muy próximas al valor central. La información que dan las medias aritméticas es insuficiente para representar a toda la
distribución. Se necesitan otros índices que complementen las medidas de tendencia central; son precisos unos nuevos índices, aquellos que
nos van a decir si las puntuaciones se agrupan muy próximas al valor central de la distribución (la media aritmética, en nuestro caso) o, por el
contrario, aparecen dispersas con respecto a ese mismo valor central.
Esos nuevos índices son principalmente los de variabilidad/ dispersión y los índices de asimetría y de apuntamiento de menor importancia.
Las características de los distintos índices de tendencia central (moda, mediana, media aritmética y las otras medias) limitan la aplicación de
los índices de variabilidad:
a. Los datos de variables cualitativas/atributos, medidos por escala nominal, sólo pueden ser tratados con un índice de tendencia central:
la <moda> (Mo), y ningún índice de variabilidad.
b. Los datos de variables cuantitativas discretas únicamente pueden ser tratados con un índice de tendencia central, conocido como
<mediana> (Md), con dos índices de variabilidad:
La <amplitud total o recorrido> (A)
La <amplitud semiintercuartíl> (Q).
c. Finalmente, para aquellos datos de variables cuantitativas continuas, se dispone, además de los dos anteriores, de cuatro índices de
variabilidad más:
a. La desviación media (DM)
b. La varianza ( S2)
c. La desviación estándar o típica (S)
Y derivado de este último, tenemos:
d. El coeficiente de variación (CV).
Están a nuestra disposición seis índices de variabilidad/dispersión de los datos de una distribución de frecuencias, pero conviene conocer
cuál es el más conveniente utilizar según sean las características de cada tipo concreto de datos.
La amplitud total (A) se usa cuando se desea conocer los valores extremos, o sea obtener rápidamente un índice de variabilidad de acceso
inmediato, sin tener que realizar operaciones aritméticas. Pero la amplitud total es el índice de variabilidad menos fiable pues se basa en dos
únicos datos, el más alto y el más bajo de la distribución de frecuencias.
b. La amplitud semi-intercuartil (Q)
La <amplitud semi-intercuartíl> (Q) es un índice de variabilidad útil cuando:
a) Cuando el único índice de tendencia central que se puede calcular es la mediana (Md).
b) Cuando en una distribución los intervalos extremos carecen de límite superior y de límite inferior
c) Cuando la distribución de frecuencias es muy asimétrica.
d) Cuando se desea conocer sólo el 50% central de una distribución o sea, de los casos entre el cuartil 1º (Q1 ) y el cuartil 3º (Q3).
La desviación media (DM) puede usarse cuando la distribución es aproximadamente simétrica y completa, y no se desea realizar los complejos
cálculos necesarios para hallar la varianza (S2 ) o la desviación estándar (S).
d. La <varianza> y la <desviación estándar o típica>
La varianza (S2) y la desviación estándar (S) son los índices de variabilidad/dispersión más fiables y precisos ,y son indispensables para el
cálculo de ulteriores índices estadísticos.
El coeficiente de variación (CV) únicamente puede calcularse cuando los datos proceden de la aplicación de escalas de razón, o sea las que
miden variables cuantitativas continuas que tienen cero absoluto. Las variables implicadas en la problemática psicológica o pedagógica rara vez
cumplen este requisito; prácticamente sólo las variables psicofísicas (estatura, masa, velocidad, tiempo de reacción,...) pueden ser medidas con
escalas de razón. Hace posible comparas datos de dos muestras con diferentes medias y desviaciones estándar.
En primer lugar es necesario distinguir entre puntuaciones directas (X), o sea X mayúscula, y puntuaciones diferenciales (x), o sea x
minúscula. La puntuación diferencial es la diferencia entre cada puntuación directa, la obtenida por cada sujeto, y la media aritmética: x = X-
De todos los índices de variabilidad arriba citados, prácticamente la inmensa mayoría de los problemas estadísticos utilizan la varianza <S2> y
la desviación estándar <S> (véase que estas letras son en mayúscula, y que la varianza es el cuadrado de la desviación estándar). En algunos
textos de estadística descriptiva y calculadoras científicas encontraremos que la <S> y la <S2> son sustituidas por la letra griega sigma
minúscula < s> para la desviación estándar con datos muestrales, y la sigma minúscula al cuadrado <s2> para la varianza también para datos
muestrales. Nosotros preferimos reservarlas para la varianza y la desviación estándar estimadas en la población, ya tema propio de la Estadística
Inferencial.
A nuestro entender, para evitar confusiones, los símbolos de la varianza y la desviación estándar de datos muestrales serán letras del alfabeto
latino (<S2> y <S>), como se hace en este texto. Por el contrario, los símbolos de la desviación estándar y la varianza estimadas en poblaciones
deben ser letras del alfabeto griego: sigma minúscula <s > y sigma minúscula al cuadrado <s2>.
6. CUADRO CON LAS RELACIONES ENTRE VARIABLES, ESCALAS DE MEDIDA, ÍNDICES DE TENDENCIA CENTRAL E ÍNDICES DE
VARIABILIDAD/DISPERSIÓN
1. INTRODUCCIÓN
Hemos visto en el cuadro nº 23 dedicado a la presentación de los índices de variabilidad o dispersión, de las dos formas se les puede
denominar, las siguientes:
a. Amplitud/recorrido total,
a. La amplitud total (A): es el índice de variabilidad más simple, aunque el menos preciso, raramente utilizado, salvo, con datos ordinales,
pues es el único índice de variabilidad que puede aplicarse a datos ordinales.
b. Amplitud semi-intercuartil: amplitud existente entre el valor del cuartil 2º menos el cuartil1º (o lo que es lo mismo: amplitud existente
entre el percentil 75, menos el percentil 25) y dividido entre dos (2).
Comenzamos con:
2. LA AMPLITUD TOTAL
La amplitud o recorrido total puede aplicarse a una distribución de puntuaciones de una variable cuantitativa discreta o continua, ordenadas
en una serie progresiva de menor a mayor puntuación. Su valor es la diferencia entre la puntuación más alta y la más baja más la unidad. Por
supuesto que para calcular la amplitud> es preciso ordenar las puntuaciones de menor a mayor o viceversa. Hecho esto, es fácil determinas las
puntuaciones máxima y mínima.
Si la serie comienza con <1>, será suficiente contar el número de puntuaciones: ese número será la <amplitud>.
En aquellos casos en los que los valores numéricos que portan las puntuaciones no comienzan con la unidad (1), habrá que
determinar cuál es el valor inferior de la serie de puntuaciones y el valor superior de la misma. Por ejemplo, si en un test de razonamiento
numérico, la puntuación menor de la serie es 65 y la puntuación superior de la misma serie es de 90, será preciso calcular la amplitud de esa
serie, cuya puntuación menor el 65 y cuya puntuación superior es 90. La amplitud (A) es la diferencia entre la puntuación superior y la puntuación
inferior +1 (Lsup-Linf +1). En nuestro ejemplo: 90-65 +1 La amplitud (A) de esa serie es 26.
a. FÓRMULA:
A = Xmax – Xmin + 1
b. SIMBOLOGÍA:
A : amplitud
Xmax : la mayor puntuación de la serie ordenada de menor puntuación a mayor puntuación de las obtenidas por los sujetos.
Xmin : la menor puntuación de la misma serie
Un problema:
Un grupo de seis (6) niños han obtenido en una prueba de diez (10) valores, las siguientes puntuaciones: 3, 9, 5, 4, 2, 7. En primer lugar las
ordenamos en una serie desde la puntuación menor hasta la puntuación mayor: <2, 3, 4, 5, 7, 9>.
Aplicamos la fórmula:
A = 9 – 2+1 = 5 + 1 = 8
Otros ejemplos:
a. Una serie ordenada de puntuaciones comienza en <5> y concluye en <24>.
A = 24-5+1 = 19+1 =20
b. Otra serie: <33, 34, 35, …48, 49>
A = 49-33+1 = 16+1 = 17
a. FÓRMULA:
En primer lugar hay que determinar los rangos del primer cuartil (Q1) y del tercer cuartil (Q3) de la serie ordenada de las puntuaciones.
Sabemos que el primer cuartil es igual al percentil 25 y que el tercer cuartil es igual al percentil 75. Para calcular los rangos correspondientes a
los percentiles 25 y 75, utilizamos esta fórmula:
R=–1
Por ejemplo:
Qué rangos de una serie de 80 puntuaciones corresponderán a los percentiles 25 y 75.
R = – 1 = 20 – 1 = 19
R = – 1 = 60 – 1 = 59
Calcular la amplitud semiintercuartil de una serie de puntuaciones, siendo los valores de los cuartiles primero y tercero 20 y 52
respectivamente.
DC = = 16
1. DEFINICIÓN
La desviación media <DM> es uno de los índices de variabilidad o dispersión, como la amplitud o recorrido (A), la varianza (S2), la desviación
estándar o típica (S) y el coeficiente de variación.
Definimos la desviación media (DM) como la media aritmética de las puntuaciones diferenciales (x, x minúscula) en valores absolutos, o
sea, prescindiendo del signo positivo (+) o negativo (-) que las pueda preceder. Podemos preguntarnos por qué debemos prescindir de los signos
que preceden a cada puntuación diferencial (x).La razón de ello reside en la naturaleza de las puntuaciones diferenciales.
Una puntuación diferencial (x minúscula) es el resultado de restar a cada puntuación directa (X, X mayúscula) el valor de la media aritmética
de las puntuaciones directas (). Escrito como ecuación: x = X-
¿Por qué hay que prescindir de los signos positivos o negativos de las puntuaciones diferenciales? Porque la suma de las puntuaciones
diferenciales siempre resulta cero, las puntuaciones diferenciales positivas anulan a las puntuaciones diferenciales negativas. Por tanto, no
podemos calcular su media aritmética, ni operar con ellas, a menos que utilicemos una de estas dos soluciones:
a. Prescindamos de los signos positivos (+) o negativos (-) de las puntuaciones diferenciales (x) o sea, operar con sus valores absolutos.
b. Elevar al cuadrado dichas puntuaciones diferenciales, pues al elevar al cuadrado cualquier número, ya sea positivo o negativo, siempre
será positivo. Recordemos aquella reglas algebraica que decía: <+> por <+>, da <+>; <-> por <->, da <+>; <+> por <->, da <->; <-> por
<+>, da <->.
a. FÓRMULA:
DM=
b. SIMBOLOGÍA:
DM: desviación media
x: puntuación diferencial, o sea, la diferencia entre la puntuación directa (X) y la media aritmética (de las puntuaciones directas de todos los
sujetos de la muestra.
: puntuación diferencial en valores absolutos, o sea, prescindiendo del signo.
∑ : suma de todas las puntuaciones diferenciales en valores absolutos, o sea prescindiendo del signo aritmético. Observemos que los
números absolutos se escriben entre dos líneas rectas verticales: , por ejemplo.
n= número de puntuaciones, o sea, número de sujetos que han obtenido una puntuación.
Problema:
Hallar la desviación media de las puntuaciones obtenidas por 10 alumnos en una prueba de historia. Las puntuaciones fueron: 3, 5, 7, 9, 6, 2, 5,
7, 4 y 8.
Situamos las puntuaciones, la media aritmética y las puntuaciones diferenciales en valores absolutos en la Tabla I
Tabla I
A B C D
∑X = 56 ∑18
= 5.6
Paso 2º) Calculamos las puntuaciones diferenciales, hallando las diferencias entre cada puntuación directa y la media aritmética, como puede
verse en la columna <C> de la anterior tabla.
Paso 3º) Sumamos las puntuaciones diferenciales como valores absolutos, o sea, prescindiendo del signo positivo (+), negativo (-) o nulo (0)
(columna<D>).
Paso 4º) Dividimos el total obtenido en el paso anterior, por el número de puntuaciones:
DM = DM = =
6. PROCEDIMIENTO DE CÁLCULO DE LA DESVIACIÓN MEDIA CUANDO EL NÚMERO DE PUNTUACIONES ES IGUAL O SUPERIOR A DOCE (12)
CON SUS FRECUENCIAS
El procedimiento de cálculo de la DM cuando las puntuaciones llegan a un número demasiado grande y, por tanto, el número de operaciones
aritméticas aumenta, conviene agrupar las puntuaciones repetidas dos o más veces por sus valores y frecuencias. Este procedimiento es casi
idéntico al expuesto más arriba.
a. FÓRMULA:
DM=
Advirtamos que la fórmula anterior es similar a la fórmula del primer caso, salvo que en el numerador de la anterior aparece como factor la <f>
(frecuencia).
b. SIMBOLOGÍA:
DM : desviación media
X: puntuación directa
x: puntuación diferencial, o sea, la diferencia entre la puntuación directa (X) y la media aritmética () de las puntuaciones directas de todos los
sujetos de la muestra.
f : frecuencia, número de puntuaciones de cada valor.
∑ (f)( X) : suma de todos los productos de cada puntuación directa por su respectiva frecuencia.
∑(f)() : suma de los productos de las puntuaciones diferenciales en valores absolutos por sus respectivas frecuencias.
n= número de puntuaciones, o sea, suma de todas las frecuencias.
Problema:
Se aplicó un test de seis valores posibles (1, 2, 3, 4, 5 y 6) a un grupo de 70 estudiantes. Los valores ocupan la columna <A> de Tabla II:
Tabla II
A B C D E F
1 10 10
2 15 30
3 20 60
4 12 48
= = = 3.11
Paso 5º) Restamos de los valores (X), la media aritmética (), los resultados de esas restas son las puntuaciones diferenciales (x) la mitad
llevaran signo positivo y la otra mitad, negativo.(columna <D> de la Tabla III). Todas las diferencias aparecen indicadas: el valor como minuendo
y la media aritmética como sustraendo.
Paso 6º) Se prescinde de los signos de las puntuaciones diferenciales, o sea, se las considera valores absolutos (columna <E> de la Tabla III).
Paso 7º) Multiplicamos cada puntuación diferencial en valores absolutos por sus respectivas frecuencias (columna <F>).
Tabla III
A B C D E F
1. INTRODUCCIÓN
El cálculo de la desviación media (DM) cuando los valores, que pueden tomar las puntuaciones obtenidas por <n> individuos, son más de más
de 12 o 15, por comodidad, agrupamos los valores en intervalos; o sea, se divide el número de valores entre 3, 4, 5 o 6, lo que agrupa los valores
en intervalos, cada uno de estos con el mismo número de valores correlativos. Por ejemplo, si una escala puede tener entre los valores <1> y
<30> y decidimos formar intervalos de 3 valores cada uno, nos resultarán diez (10) intervalos. Si la escala comienza en 21 y concluye en 60, los
cuarenta valores posibles pueden ser repartidos en ocho (8) intervalos de cinco (5) valores consecutivos cada uno.
Recordadas estas nociones básicas sobre los intervalos, proponemos la resolución de un problema a fin de facilitar la comprensión del
procedimiento de cálculo de la desviación media (DM) cuando los valores están agrupados en intervalos. Veamos, en primer lugar, la fórmula y
el significado de los símbolos que aparecen en ella.
a. FÓRMULA:
DM =
b. SIMBOLOGÍA:
Xj: puntuación media del intervalo.
fi : frecuencia de cada intervalo.
n : suma de todas las frecuencias de cada intervalo (n = ∑Xj) o sea: número total de puntuaciones.
x: puntuación diferencial.
: puntuación diferencial en valores absolutos.
∑(f): suma de los productos de las puntuaciones diferenciales en valores absolutos por sus frecuencias.
Problema:
Hallar
la desviación
media de los
datos
presentados en
la Tabla I
Tabla I
A B C D E F G
INTERVALOS PUNTO FRECUENCIA PRODUCTO PUNTUACIÓN PUNTUACIÓN PRODUCTO
MEDI0 DEL f PUNTO MEDIO DIFERENCIAL EN
DIFERENCIAL PUNTUACIÓN
INTERVALO POR VALORES
Xj FRECUENCIA x= Xm- ABSOLUTOS DIFERENCIAL
(Xj)(f) POR
FRECUENCIA
(f)
1-5 3 5
6 - 10 8 20
11 -15 13 30
16 - 20 18 45
21 - 25 23 25
26 – 30 28 10
TOTALES 135
Paso 1º) Sumamos las frecuencias de todos los intervalos, obtenemos <n>.
Paso 2º) Multiplicamos el punto medio de cada intervalo por su respectiva frecuencia.
Paso 3º) Sumamos los productos del <paso> 2º
Paso 4º) Calculamos la media aritmética
= = 16.51
Paso 5º) Calculamos las puntuaciones diferenciales: restamos la media aritmética del punto medio de cada intervalo.
16 - 20 18 45 810 18 – 1.49
16.51=+1.49
21 - 25 23 25 575 23 – 6.49
16.51=+6.49
Paso 6º) Multiplicamos cada puntuación diferencial en valores absolutos (o sea, prescindiendo del signo <+> o del signo <->) por su frecuencia
(tabla III).
Paso 7º) Sumamos los resultados de los productos de las puntuaciones diferenciales en valores absolutos por sus frecuencias (Tabla III).
Tabla III
INTERVALOS PUNTO FRECUENCIA PRODUCTO PUNTUACIÓN PUNTUACIÓN PRODUCTO
MEDI0 <f>
PUNTO DIFERENCIAL DIFERENCIAL PUNTUACIÓN
DEL MEDIO <x= Xm-> EN VALORES DIFERENCIAL
INTERVALO POR
<Xj> POR ABSOLUTOS
FRECUENCIA FRECUENCIA
<(Xj)(f)> (f)>
Como ya hemos expuesto en los anteriores <cuadros>, una puntuación diferencial <x> (x minúscula) es el resultado de restar a cada
puntuación directa <X> (X mayúscula) el valor de la media aritmética de las puntuaciones directas (). Escrito como ecuación: x = X- . Las
puntuaciones diferenciales o son cero o llevan signo positivo o signo negativo; pero, si deseamos calcular la media aritmética de las
puntuaciones diferenciales ( x ), necesariamente el resultado es <0> (cero), porque la suma de las puntuaciones diferenciales positiva es igual a
la suma de las puntuaciones diferenciales negativas, por lo que mutuamente se anulan.
Sólo has dos posibilidades para hacer que desaparezcan los signos positivos y negativos que preceden a las puntuaciones
diferenciales:
Solución <A>: Prescindir de los signos <+> o <-> de las puntuaciones diferenciales (x) o sea, operar con los valores absolutos. Solución <B>:
Elevar al cuadrado las puntuaciones diferenciales, pues al elevar al cuadrado cualquier número, ya sea positivo o negativo, siempre será
positivo. Recordemos aquella reglas algebraica que decía: <+> por <+>, da <+>; <-> por <->, da <+>; <+> por <->, da <->; <-> por <+>, da <->.
Con la solución <A> tenemos la <desviación media> (DM).
Con la solución <B>, tenemos la <varianza> (S2). Si se extrae la raíz cuadrada a la <varianza> (S2), tenemos la <desviación estándar> (S).
Ahora vamos a dedicar este <cuadro> y los dos inmediatos siguientes a los índices de variabilidad o dispersión más precisos y
utilizados: la <varianza> (S2) la <desviación estándar>(S).
Ambas requieren variables cuantitativas continuas que estén medidas en escala de intervalo. Generalmente se calcula previamente la media
aritmética (de las puntuaciones directas (X), para así determinar las puntuaciones diferenciales(x). No obstante, se dispone de una fórmula que
evita calcular las puntuaciones diferenciales, operando directamente con las puntuaciones directas.
Por otra parte hay que subrayar que la desviación estándar es solamente la raíz cuadrada de la varianza. Hallada la varianza, extrayendo su
raíz cuadrada, tenemos la <desviación estándar>. Por consiguiente, nos reducimos a la <desviación estándar>, sin más referencias a la
<varianza>, ya que todo lo que se diga de la <desviación estándar es válido para la <varianza>, pues elevando al cuadrado la <desviación
estándar>, tendremos la <varianza>.
En el presente <cuadro> nos limitamos a exponer el cálculo de la <desviación estándar> más simple: aquellas fórmulas útiles para resolver
problemas cuyos datos cumplan estas dos condiciones:
a. El número de valores que pueden tomar las puntuaciones no supera los 10 0 12 valores.
b. El número de puntuaciones coincidentes en el mismo valor es inferior a cuatro.
En el <cuadro> 28º se tratará la desviación estándar cuando las puntuaciones coincidentes en un uno o más valores es superior a 3, lo que
obliga a agrupar las puntuaciones de un mismo valor en <frecuencias>.
En el <cuadro> 29º se trata el cálculo de <S> cuando el número de valores que pueden tomar las puntuaciones es tan elevado, que conviene
agrupar los valores en <intervalos>.
Distinguimos:
a. Fórmula para operar con puntuaciones diferenciales
b. Fórmula para operar con puntuaciones directas.
a. FÓRMULA:
S=
b. SIMBOLOGÍA:
n: número de puntuaciones. X: puntuación directa
∑X: suma de las puntuaciones directas. ∑x: suma de las puntuaciones diferenciales.
∑x2: suma de los cuadrados de las puntuaciones diferenciales.
c. RESOLUCIÓN DE UN PROBLEMA:
Hallar la desviación estándar de las ocho (8) puntuaciones obtenidas por una muestra de ocho alumnos en una prueba escolar. Los datos son
presentados en la Tabla I.
Pedro 12
Juan 10
Jacob 8
Mateo 9
Marcos 7
Tadeo 11
Tomás 6
Pablo 14
n=8 ∑X = 77
Paso 1º) Calculamos el valor de la media aritmética de las puntuaciones directas con esta fórmula:
= 9.62
Tabla II
SUJETOS PUNTUACIONES MEDIA PUNTUACIONES CUADRADOS DE
DIRECTAS: <X> ARITMÉTICA DIFERENCIALES LAS
PUNTUACIONES
DIFERENCIALES
Totales ∑X = 77 00
Paso 2º) Hemos colocado una columna destinada al valor de la <media aritmética> con el fin de facilitar la comprensión de los cálculos: x = , o
sea, cada puntuación diferencial resulta de restar la media aritmética a cada una de las puntuaciones directas. Adviértase que las puntuaciones
diferenciales llevan signo positivo (+), negativo (-) o son nulas (porque coinciden con la media aritmética).
Paso 3º) Hallamos los cuadrados de las puntuaciones diferenciales. Como sabemos los cuadrados de cualquier número, positivo o negativo,
son positivos.
Paso 4º) Sumamos los cuadrados de las puntuaciones diferenciales
Tabla III
SUJETOS PUNTUACIONES DIRECTAS: <X> MEDIA ARITMÉTICA: PUNTUACIONES DIFERENCIALES: <x> CUADRADOS DE LAS PUNTUACIONES DIFERENCIALES: <x2>
Totales ∑X = 77 00 ∑
Paso 5º) Trasladamos a la fórmula de <S> los valores numéricos resultantes de las operaciones aritméticas reflejadas en la Tabla III:
S = ; S = = = 2.49
7. CÁLCULO DE LA DESVIACIÓN ESTANDAR OPERANDO SÓLO CON LAS PUNTUACIONES DIRECTAS (<X>), SIN TENER QUE HALLAR LAS
PUNTUACIONES DIFERENCIALES (<x>)
a. FÓRMULA:
S
c. SIMBOLOGÍA:
<n>: número de puntuaciones.
<∑X>: suma de las puntuaciones directas
<∑X2>: suma de los cuadrados de las puntuaciones directas.
Pedro 12
Juan 10
Jacob 8
Mateo 9
Marcos 7
Tadeo 11
Tomás 6
Pablo 14
Total ∑X = 77
N=8
Tabla II
Sujetos Puntuaciones Puntuaciones
directas : X directas
elevadas al
cuadrado: X2
Pedro 12 144
Juan 10 100
Jacob 8 64
Mateo 9 81
Marcos 7 49
Tadeo 11 121
Tomás 6 36
Pablo 14 196
n=8 77 791
a. FÓRMULA:
Fórmula para el caso de que los valores sean menos de 12 y, por tanto, no es
preciso agruparlos en intervalos:
S=
b. SIMBOLOGÍA:
∑: sumatorio
X: puntuación directa
x : puntuación diferencial
x2 : cuadrado de la puntuación diferencial
n : número de puntuaciones
2 10
3 35
4 26
5 20
6 9
n = 100
Paso 3º) Sumamos los productos de cada valor por su frecuencia (columna <C>).
Paso 4º) Se halla la media aritmética. Su fórmula:
= = 3.83
Paso 5º) Se calculan las puntuaciones diferenciales <x> (columna <D>), restando el
valor de la media aritmética (3.83) de cada uno de las puntuaciones directas <X>
(columna <A>).
Tabla III
A B C D E F
Paso 6º) Elevamos al cuadrado las puntuaciones diferenciales (columna <D>) y los
resultados aparecen en la columna <E>.
Paso 7º) Multiplicamos los cuadrados de las puntuaciones diferenciales (columna
<E>) por sus frecuencias (columna <B>); los resultados están en la columna <F>.
Paso 8º) Sumamos los productos de la columna <F>.
Paso 9º) Trasladamos esos datos a la fórmula de <S>:
S= S= = S = = 1.12
a. FÓRMULA:
b. SIMBOLOGÍA:
S : desviación estándar; X : puntuación directa ; X2 : cuadrado de la puntuación directa ; : media aritmética; n : número de puntuaciones;
f : frecuencia.
Un problema:
Hallar la desviación estándar de las puntuaciones obtenidas por setenta y ocho estudiantes de Latín. Las puntuaciones están agrupadas por
sus valores en la Tabla I:
Tabla I
A B C D E
1 2
2 6
3 5
4 12
5 20
6 16
7 12
8 4
9 1
10 0
TOTALES n = 78
1 2 2
2 6 12
3 5 15
4 12 48
5 20 100
6 16 96
7 12 84
8 4 32
9 1 9
10 0 0
1 2 2 1 2
2 6 12 4 24
3 5 15 9 45
4 12 48 16 192
5 20 100 25 500
6 16 96 36 576
7 12 84 49 588
8 4 32 64 256
9 1 9 81 81
10 0 0 100 0
TOTALES n = 78 2264
1. PROCEDIMIENTO DE CÁLCULO DE LA DESVIACIÓN ESTÁNDAR (S) CON VALORES AGRUPADOS EN INTERVALOS UTILIZANDO
PUNTUACIONES DIFERENCIALES
Presentamos en primer lugar el procedimiento de cálculo de la desviación estándar con los valores agrupados en intervalos, utilizando
puntuaciones diferenciales <x>, resultado de hallar la diferencia entre puntuaciones directas (X) y la media aritmética ( ). Al estar agrupados los
valores en intervalos, las puntuaciones directas son sustituidas por los puntos medios de cada intervalo.
a. FÓRMULA:
S=
b. SIMBOLOGÍA:
n: número de sujetos
Xj: punto medio del intervalo
f: frecuencia
x: puntuación diferencial
x2: cuadrado de la puntuación diferencial
2. UN EJEMPLO DE CÁLCULO
Tabla I
A B C D E F G
1-5 3 2
6-10 8 8
11-15 13 16
16-20 18 28
21-25 23 14
26-30 28 12
n=80
Paso 1º) Agrupamos los 30 valores posibles en 6 intervalos de cinco valores cada uno. Situamos esos datos en la columna <A>:
Paso 2º) La columna <B> acoge los puntos medios de cada intervalo.
Paso 3º) Las frecuencias de los intervalos irán en la columna <C>.
Paso 4º) Multiplicamos los puntos medios de cada intervalo (columna <B>) por sus frecuencias (columna <C>).Los resultados de estos
productos son colocados en la columna <D>:
Paso 5º) Se halla la media aritmética, dividiendo la suma de los productos (columna <D>) entre <n> (columna <C>.
= = 18
Paso 6º) Hallamos las diferencias entre la media aritmética y los puntos medios (Xj) de cada intervalo; la columna <E> acoge esas
diferencias, las puntuaciones diferenciales.
Paso 7º) Elevamos al cuadrado las puntuaciones diferenciales y las ponemos en la columna <F>):
Tabla II
A B C D E F G
n=80 1440
Paso 8º) Multiplicamos los cuadrados de las puntuaciones diferenciales por sus respectivas frecuencias:
Paso 9º) Sumamos los productos de la columna <G>:
Tabla III
A B C D E F G
a. FÓRMULA:
S=
b. SIMBOLOGÏA: S =
): suma de los cuadrados de los puntos medios de cada intervalo.
: cuadrado de la media aritmética.
4. UN EJEMPLO DE CÁLCULO
Hallar la desviación estándar de las puntuaciones obtenidas por veinte alumnos, cuyos valores agrupados en intervalos y sus respectivas
frecuencias se presentan en la Tabla I:
Observemos que la tabla tiene menos columnas (6) que la tabla del procedimiento antes presentado (8) en la sección precedente, esto es
debido a que desaparecen la columna de las puntuaciones diferenciales y la columna de los cuadrados de las puntuaciones diferenciales.
Tabla I
A B C D E F
10 – 12 11 3 33
7–9 8 6 48
4–6 5 7 35
1–3 2 4 8
Los pasos 1º, 2º, 3º y 4º son los mismos que en el anterior procedimiento (en aquel que operábamos con puntuaciones diferenciales).
Paso5º) Calculamos la media aritmética:
= = = 6.2
Paso6º) Elevamos al cuadrado los puntos medios de los intervalos (columna <B>) y los situamos en la columna<E>.
Paso7º) Multiplicamos los cuadrados de los puntos medios de los intervalos por sus frecuencias. Colocamos los resultados en la columna
<F>.
Tabla II
A B C D E F
10 – 12 11 3 33 121 363
7–9 8 6 48 64 384
4–6 5 7 35 25 125
1-3 2 4 8 4 8
S= S= S= S = = 2.35
1. ÍNDICE DE SIMETRÍA/ASIMETRÍA
Conocemos ya cuáles son y cómo se calculan los índices de tendencia central, y de variabilidad.. El objetivo de estos índices es resumir en
unos pocos valores las características de las distribuciones de frecuencias. generalmente ambos índices son suficientes para caracterizar los
valores de una muestra, pero en ocasiones, si se desea una mayor precisión conviene calcular otros dos índices: el índice de asimetría y el índice
de apuntamiento o curtosis. Veremos en este <cuadro> el índice de simetría/asimetría y en el siguiente <cuadro> nº 31, el índice de apuntamiento
o curtosis.
Es posible que dos distribuciones coincidan tanto en sus medias aritméticas y en sus varianza y, sin embargo su expresión geométrica sean
muy distintas:
Si la media aritmética coincide con la <mediana> (Md) y con la <moda> (Mo) la distribución es simétrica.
Si la media aritmética es mayor que la mediana o la moda, la asimetría es positiva.
a. FÓRMULAS:
1) Fórmula de Pearson
3) Para percentiles:
As = - percentile 50
b. SÍMBOLOGÍA
As: coeficiente de asimetría.
: media aritmética
Md: mediana
S: desviación estándar
x: puntuación diferencial, o sea el resultado de hallar la diferencia entre la puntuación directa de cada individuo (.
x3: cubo de la puntuación diferencial.
n : número de puntuaciones directas o lo que es lo mismo, número de individuos de la muestra.
S3: desviación estándar al cubo.
f: frecuencia: número de individuos con la misma puntuación o con puntuaciones incluidas en el mismo intervalo.
Calcular el índice de asimetría de una distribución de frecuencias con 3 de media aritmética, 2 de mediana y 1.50 de desviación estándar.
Otro ejemplo:
Hallar el índice de asimetría de una distribución de frecuencias con 68 de percentil 90, 12 de percentil 10 y 40 de percentil 50.
As = - 40
As = 28 – 40 = 12
4. INTERPRETACIÓN
Si As la asimetría es negativa.
Si As = 0, la distribución de frecuencias es simétrica
Si As la asimetría es positiva
1. APUNTAMIENTO O CURTOSIS
El apuntamiento o curtosis atiende a la forma de la distribución, a la distribución de la varianza. El índice de apuntamiento indica el grado de
concentración que presentan los valores respecto de la media aritmética.
Cuanto mayor es el valor del índice, mayor es la concentración de datos alrededor de la media aritmética, a la vez que tal hecho coexiste con
una relativamente elevada frecuencia de datos muy alejados de la media aritmética. En ese caso, estamos ante una distribución <leptocúrtica>, o
sea muy apuntada.
Si la distribución extiende las frecuencias a lo largo de muchos valores, hablamos de una distribución <platicúrtica>, muy aplanada.
Si la distribución no es ni <leptocúrtica>, ni <platicúrtica> o sea <normocúrtica> podría ser una distribución normal si además es simétrica.
a. FÓRMULAS
Disponemos de estas fórmulas:
Ku = – 3
Fórmula por percentiles:
He aquí un problema:
Hallar el valor del índice de apuntamiento de una distribución que tiene los siguientes valores en los percentiles:
Percentil Valor
Percentil 10 22
Percentil 25 48
Percentil 75 96
Percentil 90 110
; = 0.18
1. INTRODUCCIÓN
En los <cuadros> anteriores hemos presentado los índices que expresan las características de una distribución de frecuencias de una única
variable en una muestra. En el presente <cuadro> vamos a introducir los índices que expresan una correlación entre dos o más variables
cuantitativas y los índices de asociación entre dos variables cualitativas, también en una sola muestra.
El presente cuadro tiene únicamente una finalidad introductoria al estudio de las relaciones que pueden darse entre dos o más variables. Si
las relaciones son entre variables cuantitativas reciben el nombre de correlaciones; si, por el contrario, son relaciones entre variables
cualitativas, se las conoce como <asociaciones>. Veamos los coeficientes de correlación y los coeficientes de asociación de un modo abreviado e
introductorio.
La correlación expresa la variación concomitante de dos o más variables cuantitativas. Cuando comprobamos que una variación en una de
ellas coincide con una variación con otra u otras, decimos que correlacionan. En ningún caso se dice que una de ellas influya en la otra, esa
relación no sería una correlación, sino una relación causa-efecto, cuya expresión matemática sería una <función>, no una <correlación>. En la
correlación varían dos variables de modo concomitante debido a una tercera variable desconocida, cuya acción influye en las dos variables
correlacionadas.
La tabla siguiente ofrece criterios para interpretar los valores numéricos obtenidos en la aplicación de las fórmulas de los coeficientes de
correlación a datos de variables cuantitativas expresados en escalas de intervalo u ordinales:
Tipos de correlación.
Negativa -1
negativa Entre 0 y
-1
Dos cuantitativas continuas Dos (2) Intervalo Coeficiente de correlación lineal de rxy
Pearson
Una cuantitativa continua y otra cualitativa Dos (2) Una de Coeficiente de correlación biserial puntual rbp
dicotómica Intervalo y
otra
nominal
Cuantitativas continuas Tres (3) o más variables Intervalo Coeficiente de correlación múltiple r1.23
Cuantitativas continuas Tres (3) o mas variables Intervalo Coeficiente de correlación parcial r12.3
1) Si hay alguna relación entre dos variables cualitativas/atributos (en escala nominal) dicotómicas o policotómicas.
2) Si esa relación es positiva o negativa.
3) El grado de intensidad de esa relación.
No todos los coeficientes de asociación sirven para alcanzar los tres cometidos enunciados en a), b) y c). Algunos sólo el
primero, otros los dos primeros y algunos menos, los tres cometidos.
En el siguiente cuadro se ofrece una clasificación de los distintos coeficientes de asociación agrupados por tipologías:
Coeficiente Omega
Coeficiente Q de Yule Q
Coeficiente tetracórico rt
1. DEFINICIÓN:
El coeficiente de correlación lineal <producto momento> de Pearson <rxy> sirve para determinar la relación de variación concomitante,
supuestamente existente, entre dos variables cuantitativas continuas, medidas por escala de intervalo o de razón.
El símbolo es: <rxy> (r minúscula, con una x y una y minúsculas como subíndices)
2. REQUISITOS EXIGIDOS A LAS VARIABLES CUANTITATIVAS CONTINUAS PARA PODER CALCULAR JUSTIFICADAMENTE LA
CORRELACIÓN DE PEARSON
Para este tipo de correlación son requisitos indispensables: Continuidad, función rectilínea y homocedasticidad.
CONTINUIDAD:
Aquellas variables cuantitativas continuas medidas por una escala de intervalo, o sea, de unidad constante. Quedan excluidas las variables
cualitativas/atributos y las variables cuantitativas discretas. La razón es que tenemos que someter los datos a las diversas operaciones
aritméticas, cosa que sólo puede hacerse con las medidas de una escala de intervalo.
FUNCIÓN RECTILÍNEA:
La correlación de Pearson requiere que los datos se relacionen entre si de una manera rectilínea, es decir, que los datos que quedan dentro de
una elipse, puedan representarse de modo aproximado a una línea recta. Cuando la superficie es de tipo curvilíneo, la línea que representa la
relación entre los datos sería una curva. Ahora bien, la correlación de Pearson equivale a hallar la ecuación de una recta. Por lo cual da resultados
incorrectos si la relación es de tipo curvilíneo.
HOMOCEDASTICIDAD:
La dispersión de todas las filas debe ser igual a la dispersión de todas las columnas. Si la dispersión entre las dos variables no es igual a la de
largo de ambas, sino que varía de una parte a otra, no se puede expresar la relación con un índice de correlación único.
Los valores que puede tomar el coeficiente de correlación lineal van desde el < -1 > hasta el < +1 >. Hay, por tanto, coeficientes positivos y
negativos. Los primeros indican que el incremento de una de las variables, conlleva un incremento en la otra. En las correlaciones negativas
(número precedido por signo < - >, <menos>), el incremento en una variable coincide con un decremento en la otra.
(Y)2
1 16 4 2
2 4 18 12
3 6 2 18
fx 26 24 32 ∑f=
(fx)(X)
(X)2
(fx)(X)2
(X)(Y)
(fx)(X)(Y)
Variable <X>
1-3
4-6
7-9
10 - 12
13 - 15
16 - 18
fx
5. FÓRMULAS
zx: puntuación estándar de la variable <X>; zY : puntuación estándar de la variable <Y>; n : número de sujetos.
Comentario: Es poco práctico utilizar esta fórmula pues hay que calcular las medias aritméticas, las desviaciones estándar, las respectivas
puntuaciones diferenciales y las puntuaciones estándar correspondientes a cada puntuación directa. Hay fórmulas, aparentemente más
complejas, pero sus tablas de datos son más sencillas y requieren menos operaciones aritméticas como la utilizada para puntuaciones directas.
b. FÓRMULA PARA PUNTUACIONES DIFERENCIALES
1) FÓRMULA
rxy =
2) SIMBOLOGÍA:
3) UN EJEMPLO DE CÁLCULO:
Advertimos al lector que con una muestra tan pequeña carece de sentido hallar el <rxy >, pero nos servirá para ejemplificar los cálculos.
En la Tabla I hemos colocado los datos relativos a la variable <X> y a la variable <Y>.
Tabla I
A B C D E G H
SUJETOS PUNTUACIONES PUNTUACIONES CUADRADO PUNTUACIONES CUADRADO DE PRODUCTO DE
DIRECTAS DE LAS LAS LAS DOS
DIFERENCIALES DIRECTAS <Y>
PUNTUACIONES PUNTUACIONES PUNTUACIONES
<X> <x> DIFEREN-
DIFERENCIALES DIFERENCIALES
CIALES
<x2>
Iván 10 10
Tánia 7 28
Igor 13 22
30 60
Paso 1º) Para determinar los valores de las puntuaciones diferenciales (x) es indispensable calcular previamente las medias aritméticas:
= = 10
= = 20
Paso 2º) Se resta de cada una de las puntuaciones directas (X) de la variable <X>, su media aritmética (10) y de las puntuaciones directas (Y)
de la variable <Y>, su correspondiente media aritmética (20) (columnas <C> y <F>, respectivamente)
Paso 3º) Elevamos al cuadrado las puntuaciones diferenciales (<x> e <y>) (columnas <D> y <G>).
Paso 4º) Se multiplican los cuadrados de las puntuaciones diferenciales de una variable (<x>) por los de la otra (<y>) (columna <H>).
Tabla II
A B C D E F G H
SUJETOS PUNTUACIONES PUNTUACIONES COADRADO DE PUNTUACIONES PUNTUACIONES CUADRA-DO DE PRODUCTO DE
DIRECTAS DIFERENCIALES LAS LAS LAS
DIRECTAS DIFERENCIALES
<x> PUNTUACIONES
<X> PUNTUACIONES <y> PUNTUACIONES
<Y>
DIFERENCIALES DIFERENCIALES DIFERENCIALES
<x2>
Tánia 7 -3 9 28 +8 64 -24
Igor 13 +3 9 22 +2 4 +6
30 0 18 60 0 168 -18
rxy = rxy =
rxy = = = = 0.68
Aunque puede asustar la fórmula, el cálculo del coeficiente de Pearson utilizando sólo puntuaciones directas (sin tener que hallar las
puntuaciones diferenciales) es mucho más sencillo, la tabla tiene menos columnas.
a. FÓRMULA:
rxy =
b. SIMBOLOGÍA:
n: número de sujetos.
X: puntuación directa de un sujeto en la variable <X>.
Y: puntuación directa de un sujeto en la variable <Y>.
X2: cuadrado de la puntuación directa <X>.
Y2: cuadrado de la puntuación directa <Y>.
(X)(Y): producto de las puntuaciones directas de la variable <X> por las puntuaciones directas de la variable <Y>.
∑(X)(Y): suma de los productos de la puntuación directa <X> por la puntuación directa <Y>.
∑(X): suma de las puntuaciones directas <X>.
∑(Y): suma de las puntuaciones directas <Y>.
∑(X2): suma de los cuadrados de las puntuaciones directas <X>.
∑(Y2): suma de los cuadrados de las puntuaciones directas <Y>.
2. EJEMPLO DE CÁLCULO
Veamos un problema como ejemplo:
Un grupo de diez jóvenes han sido examinados en ortografía y en vocabulario. Se desea conocer el grado de correlación entre las dos
habilidades. Los datos aparecen en la Tabla I
Paso 1º) Situamos las puntuaciones directas de los diez sujetos en la variable <X> y en la variable <Y> en las columnas <B> y <D>
respectivamente.
Paso 2º) Sumamos las puntuaciones directas de la variable <X> y las de variable <Y>.
Tabla I
A B C D E F
Simón 6 8
Juan 7 7
Jacob 4 6
Mateo 6 5
Marcos 5 7
Tomás 4 8
Magdalena 9 7
Isabel 5 6
Judith 7 5
Esther 8 6
n = 10 ∑X = 61 ∑Y = 65
Paso 3º) Elevamos al cuadrado las puntuaciones directas de ambas variables y colocamos los resultados en las columnas <C> y <E>
respectivamente.
Paso 4º) Sumamos los cuadrados situados en la las columnas <C> Y <E> de la Tabla II.
Paso 5º) Multiplicamos la puntuación directa de cada sujeto en la variable <X>, por la puntuación directa en la variable <Y>. Esos productos
ocupan las flas de la columna <F>.
Paso 6º) Sumamos esos productos de la columna <F>.
Simón 6 36 8 64 48
Juan 7 49 7 49 49
Jacob 4 16 6 36 24
Mateo 6 36 5 25 30
Marcos 5 25 7 49 35
Tomás 4 16 8 64 32
Magdalena 9 81 7 49 63
Isabel 5 25 6 36 30
Judith 7 49 5 25 35
Esther 8 64 6 36 48
Paso 7º) Trasladamos los resultados recogidos en las casillas de la última fila de las columnas de la <C> a la <F>, a la fórmula:
rxy =
rxy = ; rxy ;
rxy rxy rxy rxy = - 0.15
El procedimiento de cálculo del coeficiente de correlación lineal utilizando las medias aritméticas aparentemente muy complejo, pero no lo es:
no hay que calcular puntuaciones diferenciales. Veámoslo.
a. FÓRMULA:
La fórmula para el cálculo del coeficiente de correlación lineal de Pearson con datos no agrupados en intervalos, utilizando solamente las
medias aritméticas de las dos distribuciones es la siguiente:
rxy =
c. SIMBOLOGÏA:
media aritmética de los productos de las puntuaciones directas de cada sujeto en ambas variables.
media aritmética de los cuadrados de las puntuaciones directas en la variable <X>.
: media aritmética de los cuadrados de las puntuaciones directas en la variable <Y>.
Hallar el coeficiente de correlación lineal entre las calificaciones obtenidas por ocho estudiantes en dos asignaturas. Los datos están
expuestos en la tabla I.
Guillermo 6 9 54
Federico 4 17 58
Luis 3 16 48
Juan 7 10 70
Carlos 4 8 32
Fernando 5 6 30
Bruno 8 14 112
Otón 3 10 30
Paso 1º) Vemos en la Tabla I situadas las puntuaciones directas de la variable <X> (columna <B>) y de la variable <Y> (columna <C>).
Paso 2º) También podemos ver en la columna <D> de la Tabla I, los resultados de multiplicar la puntuación directa de cada sujeto en la variable
<X> por la puntuación directa del mismo sujeto en la variable <Y>.
Paso 3º) Sumamos los valores de cada columna (<B>, <C> y <D>).
Paso 4º) Elevar al cuadrado las puntuaciones directas en la variable <X>. Las situamos en la columna <E> de la Tabla II.
Paso 5º) Sumamos los cuadrados de la columna <E> de la Tabla II.
Paso 6º) Elevamos al cuadrado las puntuaciones directas de la variable <Y> que aparecen en la columna <C> de la Tabla I o la Tabla II. Esos
cuadrados ocupan la columna <F> de la Tabla II.
Paso 7º) Sumamos los cuadrados que aparecen en la columna <F> de la Tabla II.
Tabla II
A B C D E F
Guillermo 6 9 54 36 81
Federico 4 17 58 16 289
Luis 3 16 48 9 256
Juan 7 10 70 49 100
Carlos 4 8 32 16 64
Fernando 5 6 30 25 36
Otón 3 10 30 9 100
Paso 8º) Calculamos el valor de cada media aritmética: de las puntuaciones <X>, de las puntuaciones <Y>, de los productos de las
puntuaciones <X> por las puntuaciones <Y>, de los cuadrados de las puntuaciones <X>, y de los cuadrados de las puntuaciones <Y>.
=5 ; = 11.25 ; = 54.25 ; = = 28 ; = = 140.25
Paso 9º) Trasladamos esos datos a la fórmula:
rxy = rxy = ;
rxy = rxy = ;
rxy = rxy = = - 0.31
Hemos hallado una correlación <negativa> y <moderada> entre ambas variables.
1. REGRESIÓN LINEAL
Se habla de <regresión> en Estadística a la estimación o predicción de los valores de una variable a partir de los valores de otra variable, y del
valor del coeficiente de correlación lineal de Pearson <rxy> entre las dos variables, siempre que el coeficiente resultante sea imperfecto: ni <+1>,
ni <-1>.
El matemático inglés Francis Galton fue el creador del concepto de <regresión>. Hallar la regresión supone aproximar una línea recta a una
nube de puntos de un diagrama de dispersión. Las expresiones matemáticas para hacer esta estimación o predicción son las <ecuaciones de
regresión> y decimos en plural <ecuaciones> y no <ecuación> porque son distintas las ecuaciones de regresión, pues dependen de si se trata de
<X> sobre <Y>, o de <Y> sobre <X>.
Cada punto es la proyección de la puntuación obtenida por un individuo en una de las dos variables sobre el eje de las abscisas y la
puntuación del mismo individuo en la otra variable sobre el eje de las ordenadas, entre las que ha sido calculado el coeficiente de correlación
lineal de Pearson. Se produce una nube de puntos, tantos puntos como individuos. La recta de regresión busca representar a la nube de puntos y
sirve para predecir las puntuaciones en una variable en función de las puntuaciones en la otra variable.
Se suele usar la recta de regresión porque es la que mejor se ajusta a la nube de puntos, recta que posea la menor distancia a todos los
puntos. El punto () de la recta recibe el nombre de <centro de gravedad>.
2. RECTA DE REGRESIÓN
Para predecir puntuación Y, a partir de la puntuación <X> utilizamos la fórmula de la siguiente ecuación de recta de regresión lineal:
FÓRMULAS:
y´ = ay/x + by/x (X)
(Atención: la notación de los valores estimados Y´ y X´ llevan una <´> como índice para evitar ser confundidos con los valores reales <X> e
<Y>).
Las fórmulas de los coeficientes <a> y <b> son estas:
ay/x = - by/x (
b = (rxy )()
SIMBOLOGÍA:
Y´: puntuación estimada para la variable <Y> para un valor concreto de la variable <X>.
rxy: coeficiente de correlación lineal entre la variable cuantitativa continua <X> y la variable cuantitativa continua <Y>.
: cociente entre la desviación estándar de <Y> y la desviación estándar de <X>
<a>: es la diferencia entre la media aritmética de <Y> y el producto de la media aritmética de <X> por el coeficiente <b>
<b>: es el producto del coeficiente de correlación por la razón de la desviación estándar de <Y> (SY) entre la desviación estándar de <X> (SX).
Sx : desviación estándar en la variable <X>
Sy : desviación estándar en la variable <Y>
Y : puntuación de la variable <Y>
: media aritmética de la variable <X>
: media aritmética de la variable <Y>
¿Qué valor tendrá probablemente <y> cuando <x> tiene un valor <10>, teniendo en cuenta que:
Comenzamos hallando el valor del coeficiente <by/x> ( <b> de <y> sobre <x>), realizando las operaciones aritméticas indicadas en su fórmula
(b = (rxy )()) :
Estadísticos e-Books & Papers
Paso 1º) Dividimos la desviación estándar de <Y> (Sy) entre la desviación estándar de <X> (Sx):
= = 0.55
Paso 2º) Multiplicamos el valor hallado en el paso anterior (0.55) por el coeficiente de correlación lineal de Pearson entre <X> e <Y> (0.90),
resultando: (0.55)(0.90) = 0.49 . Ya tenemos hallado el valor del coeficiente <by/x>.
Paso 3º) Para hallar el valor del coeficiente <ay/x>, atendemos a las operaciones aritméticas indicadas en su fórmula (ay/x = - by/x ( );
multiplicamos la media aritmética de la variable <X> (= 8.00) por el valor del coeficiente <by/X> (by/X = 0.49) (que hemos ya calculado en el paso 2º)
resultando: (8.00)(0.49) = 3.92
Paso 4º) Restamos del valor de la media aritmética de la variable <Y> ( = 9.00) el valor hallado en el paso anterior (3.92): (9.00 – 3.92 = 5.08. Ya
tenemos calculado el valor del coeficiente <by/X>.
Paso 5º) Por tanto, ya podemos integrar en la fórmula de <y´> los resultados hallados en los pasos 2º, 3º y 4º.
y´ = ay/x + by/x (X) y´ = 5.08 – 0.49 (X)
Como el enunciado del problema indica que el valor de X es 10, la anterior ecuación se resuelve sustituyendo <X> por su valor (10):
Y´ = 5.08 + 0.49 (10) = 5.08 -4.9 = 9.98
Cuando un individuo ha obtenido una puntuación de 10 en la variable <X>, estimamos que el mismo individuo obtendrá una puntuación de 9.98
en la variable <Y> si el coeficiente de correlación lineal es 0.90 y los valores de los índices se mantienen.
Las fórmulas correspondientes para calcular el valor estimado de <X> sobre <Y> son las mismas que hemos utilizado en el cálculo del valor
estimado de <Y> sobre <X>, salvo que donde ponía <Y>, ahora debemos poner <X> y donde ponía <X>, ahora debe poner <Y>:
X´ = ax/y + bx/y (Y)
bx/y = (rxy )()
ax/y = - bx/y (
6. EJEMPLO DE CÁLCULO
Problema:
Estimar el valor que tomaría en la variable <X> un alumno que en la variable <Y> hubiera obtenido un <8> y los restantes datos para realizar la
estimación son los siguientes:
=5 Sx = 2 Sy = 3 rxy = 0.80
Como ya conocemos los valores de los dos coeficientes (bx/y y ax/y ), podemos estimar <X´>, conociendo que Y = 8 (como aparece en el
enunciado del problema):
Por tanto, podemos estimar que el alumno que en la variable <Y> obtuvo un <8>, probablemente obtendría un <7.56 > en la variable <X>.
Son tres los tipos de puntuaciones que describen la posición de un individuo en una variable cuantitativa continua en escala de intervalo:
a. La puntuación directa (símbolo: <X>, X mayúscula) es el valor numérico resultante de la aplicación de un instrumento de medida a un
individuo.
b. La puntuación diferencial (símbolos: <x>, x minúscula) es la diferencia entre la puntuación directa (X) obtenida por un individuo y el
valor de la media aritmética (de la muestra de la que forma parte el individuo.
c. La puntuación estándar( o típica (símbolo : <z>, z minúscula) es la puntuación diferencial alcanzada por un individuo, dividida por la
desviación estándar de la muestra a la que pertenece el individuo. Nos indica cuántas unidades de desviación estándar (S) separan la
puntuación directa (X) obtenida por el individuo, de la media aritmética (). La fórmula de <z> es: z = , o lo que es igual: z =
Solamente tienen sentido las puntuaciones <z> cuando la variable cuantitativa tiene una distribución ajustada a la curva normal.
2. INSUFICIENCIA DE LAS PUNTUACIONES DIRECTAS Y DIFERENCIALES PARA COMPARAR LA PUNTUACIÓN OBTENIDA POR UN
INDIVIDUO EN DOS MEDICIONES O CON LAS PUNTUACIONES OBTENIDAS POR OTROS INDIVIDUOS
Dos puntuaciones directas (Xa y Xb) obtenidas por un individuo al medir dos variables distintas (<A> y <B>) no pueden ser comparadas, pues
cada una viene expresada en unidades de medida de magnitudes distintas; no puede compararse: un <7> en Lengua castellana, con un 9 en
Matemáticas. Se necesitaría conocer el número de ambas muestras, las medias aritméticas y las desviaciones estándar de las mismas.
Tampoco permite comparar las puntuaciones directas obtenidas por un mismo individuo en dos aplicaciones de instrumentos de medida
de la misma variable cuantitativa, pues cuando un individuo ha obtenido 17 puntos en una primera prueba y 19 en la segunda, no estaría
justificado inferir que ha mejorado su rendimiento. Para poder afirmar o negar tal hecho, necesitamos haber calculado previamente la media
aritmética y la desviación estándar de las puntuaciones directas obtenidas por los individuos de las muestras (si no era la misma muestra. Si la
media aritmética () de la primera prueba es 12, su puntuación de 17 es <buena>, está por encima de la media. Si la media aritmética de la segunda
prueba es 22, la puntuación directa (19) obtenida por el individuo es <mala>, está por debajo de la media (22), por lo que no podría afirmarse que
el rendimiento del individuo ha mejorado.
Las puntuaciones diferenciales permiten una mayor justificación de nuestras inferencias sobre el valor de una puntuación lograda por un
individuo, ya que las puntuaciones diferenciales nos indican la distancia que una puntuación directa tiene respecto a la media aritmética de la
muestra. Las puntuaciones diferenciales pueden ser comparadas con un cierto fundamento. No obstante, para precisar más la posición de un
individuo no es suficiente conocer su puntuación diferencial, sino que necesitamos conocer si las puntuaciones conseguidas por los individuos
de la muestra, están próximas o alejadas de la medía aritmética. Uno de los índices que miden la dispersión es la desviación estándar. Puede ser
una buena unidad de medida de las puntuaciones diferenciales: la fracción < Pues bien, esas fracciones son conocidas como puntuaciones
estándar <z>.
Podremos comparar las puntuaciones directas (17 y 19) si las transformamos en puntuaciones estándar <z>. Para transformarlas necesitamos
haber calculado previamente la media aritmética () y la desviación estándar (S). Podemos obtener la puntuación estándar (z) aplicando la
fórmula: z = ; si se hubieran calculado ya las puntuaciones diferenciales (x), la fórmula de las puntuaciones estándar <z> ,como hemos dicho,
sería: z =
a. La suma de las puntuaciones estándar de los individuos de una muestra es igual a cero (∑z= 0); por tanto, la media aritmética de las
puntuaciones estándar <z> es igual a cero (.
b. La desviación estándar (S) de las puntuaciones estándar (z) es igual a <1> (uno). Por lo que, la varianza (S2) es igual a <1> ((1)2 = 1).
c. Permite comparar la posición de un sujeto con la de cualquier otro de otra muestra siempre que se conozcan las medias aritméticas y
las desviaciones estándar de cada muestra.
d. Si la variable medida se ajusta a la distribución normal de frecuencias, la comparación entre <z>, es más precisa que la comparación
entre percentiles.
e. También si la variable medida se ajusta a la distribución normal de frecuencias (curva de Gauss) se puede conocer qué proporción de
sujetos están por debajo o por encima de la puntuación <z> de un sujeto.
Una puntuación estándar (z) resulta de restar a la puntuación directa (X) obtenida por el individuo, la media aritmética (de la muestra a la que
pertenece el individuo; el resultado de esa diferencia debe ser dividido entre la desviación estándar de la misma muestra.
Calcular las puntuaciones <z> de siete jóvenes cuyas puntuaciones directas aparecen recogidas en la columna <B> de la Tabla I:
Guillermo 6 36
Ricardo 8 64
Isabel 12 144
Eduardo 18 324
Enrique 15 225
Jorge 6 36
Jacobo 5 25
TOTALES ∑X = 70 ∑854
Paso 3º) Para calcular la desviación estándar, necesitamos haber elevado al cuadrado las puntuaciones directas; los resultados se presentan
en la columna <C>.
Paso 4º) Sumamos los cuadrados de las puntuaciones directas (columna <C>).
S= ; S= ; S = = = 4.69
Paso 6º) Hallamos las puntuaciones diferenciales correspondientes a los siete alumnos: restamos de cada puntuación directa <X> (columna
<B>), la media aritmética (10).
Paso 7º) Dividimos cada puntuación diferencial entre la desviación estándar; los resultados están la columna <E>:
Tabla II
A B C D E
TOTALES ∑X = 70 ∑854
Debido a la dificultad que para el cálculo suponen los valores positivos y negativos de las puntuaciones estándar <z>, se ha propuesto
transformarlas en puntuaciones <T>.
Si multiplicamos las puntuaciones <z> por una constante, desaparecen los decimales; si sumamos a ese producto una constante positiva, los
valores negativos se transforman en números positivos. Se suele usar 10 y 50 como constantes. Las puntuaciones normalizadas <T> resultan de
multiplicar <z> por 10 y sumar 50, o sea, una media de 50 y una desviación estándar de 10.
-1.20 38
+1.30 63
+ 0.50 55
Muchas variables cuantitativas de intervalo, como la<talla>, la <longitud del pie (número de zapato) o, probablemente, el cociente intelectual
tienen una distribución de probabilidades en la población que se ajusta a la curva normal o campana de Gauss. Para que así ocurra, la variable
debe reunir las siguientes condiciones:
a. Linealidad:
b. Homocedasticidad
c. Normalidad
a. Es una distribución continua, cuyas variables pueden medirse con el grado de precisión que se desee. La curva normal tiene las
siguientes características:
1) La media aritmética, la mediana (Md) y la moda (Mo) en la distribución normal de probabilidades coinciden.
2) El eje pasa por la media aritmética.
3) Los puntos de inflexión coinciden con una distancia entre la media aritmética ( y la desviación estándar (S).
b. Es una curva simétrica sobre un eje que divide el espacio bajo la curva en dos mitades iguales.
c. Es una curva asíntota al eje de las abscisas.
d. El área total bajo la curva normal es igual a <1> o sea al 100 %.
e. La media aritmética ( es <0> y la desviación estándar (S) es <1>.
Consultando la tabla de áreas de la curva normal, podemos conocer qué proporción o porcentaje de sujetos están en el área comprendida
entre la puntuación <z> y la media aritmética ( = 0).
Las puntuaciones estándar <z> están formadas por tres cifras, la primera es un entero (incluida su ausencia, el <0>) y dos cifras decimales:
una décima y una centésima.
En la primera columna por la izquierda, de arriba abajo, encontramos los números desde 0.0 hasta 3.0. La cifra de las centésimas determina
qué columna debemos consultar. Las columnas, desde la 2ª a la 11ª, están encabezadas por las cifras de las centésimas, que van desde <0> a
<9>. Según sea la centésima de nuestra puntuación <z>, seleccionaremos la columna pertinente.
Si la centésima fuera, p. e. un <3>, seleccionaríamos la columna encabezada por un <3>. De modo análogo, haríamos con cualquiera de las
otras nueve posibles cifras de las centésimas. Las cifras (0, 1, 2, 3, 4, 5, 6, 7, 8 y 9) de las centésimas nos indican la columna que debemos
observar: aquella columna encabezada por la misma cifra que la centésima.
4. TABLA DE LA DISTRIBUCIÓN DE PROBABILIDAD NORMAL
Presentamos a continuación la tabla de los porcentajes bajo la curva normal de todos los valores numéricos que puede tomar una puntuación
estándar <z>:
5.- ¿CÓMO ENCONTRAR EL AREA (PROPORCIÓN O PORCENTAJE) CORRESPONDIENTE A UNA <z> DADA?
Si, por ejemplo, la <z> es igual a 2.23, vamos a la primera columna por la izquierda de la tabla. En esa columna está la cifra de los enteros y la
primera cifra de los decimales. Buscamos en esa primera columna: <2.2>, pues son el entero y las décimas de <z> (2.23). Encontramos <2.2> en
la fila <24ª> si contamos de arriba abajo. Si contamos de abajo a arriba, <2.2> está en la fila <9ª>.
Ahora ya podemos hallar el área de la curva que le corresponde a nuestra <z> (2.23). Esa área o porcentaje está donde se cruzan la fila <2.2> y
la columna encabezada por el <3>. Hallamos: 0.4871 (proporción) o sea 49.01 % del área entre la media aritmética de la distribución de las <z>
(<0>) y la <z> = 2.23.
Si la puntuación <z> va precedida del signo <+> ( o sea, es una <z> positiva), se sumara <50> al porcentaje hallado en la tabla.
Si, por el contrario, la puntuación <z> va precedida del signo <-> (o sea, es una <z> negativa), se restara a <50>, el porcentaje que aparece en
la tabla.
RELACIONES ENTRE LAS PUNTUACIONES ESTÁNDAR <Z> Y LAS ÁREAS BAJO LA CURVA NORMAL
1. EJEMPLOS DE BUSQUEDA DEL PORCENTAJE QUE CORRESPONDE A UNA PUNTUACIÓN ESTÁNDAR (z) DADA
Pueden darse distintos problemas según sea positiva o negativa la puntuación <z> y entre <z> y <0>, entre dos <z>, (ambas positivas, ambas
negativas o una positiva y otra negativa).
FIGURA <A>
Como puede verse en la figura <A> una puntuación <z> de 1.63, debe aparecer entre la z = 1 y la z= 2 positivas. Para hallar el porcentaje en la
tabla, daremos los siguientes pasos.
Paso 1º) Vemos que 1.63 se compone de un entero (1) y dos cifras decimales (.63). La cifra del entero y la del primer decimal aparece en la
primera columna por la izquierda, la que está encabezada por una <z>. Ya hemos encontrado la fila, la de 1.6. Es la fila 15ª.
Paso 2º) Ahora nos vamos a la columna encabezada por un <3> (5ª columna contando desde la izquierda), pues la centésima de nuestra
<z> (1.63) es <3>.
Paso 3º) Ya tenemos la fila (1.6) y la columna (3). En el punto donde se cortan la fila y la columna está la proporción (0.4484), o sea, un
porcentaje de 44.84%.
Al ser un número positivo (1.63), le sumamos 50 % (el porcentaje de la mitad de puntuaciones <z> negativas):
PROBLEMA 2º
Paso 1º) Miramos la figura <B> y vemos que el área buscada se extiende a la derecha y a la izquierda de la media. Se diferencia del
problema nº 1º en el que la mitad izquierda de la media era total (el 50 %), en el problema nº 2º, el área izquierda no es completa, pues queda
una pequeña cola exterior a la <z> negativa (-2.70).
FIGURA <B>
Paso 2º) Para determinar la proporción o porcentaje del área obscura de la figura <B>, tenemos que hallar por separado en la tabla el área que
va desde la media a la <z> positiva y el área desde la media a la <z> negativa:
PROBLEMA 3º
Hallar el porcentaje de sujetos que han obtenido puntuaciones <z> superiores
a z=+ 2.60
Paso 1º) Vemos la figura <C> y vemos que el área cuyo porcentaje queremos encontrar, es la cola del área derecha (área de las <z> positivas.
Paso 2º) Buscamos en la tabla el porcentaje de sujetos que ocupan el área entre la media (0) y la z= +2.60. Encontramos: 49.53 %.
Paso 3º) Como lo que buscamos no es el porcentaje del área entre la media y la z = +2.60, sino la pequeña área, la cola, de la mitad derecha.
Conocemos que el porcentaje total de la mitad de la distribución es el 50 %, luego si restamos a 50 %, dl porcentaje hallado 49.53, resulta:
50% - 49.53% = 0.47%
FIGURA <C>
PROBLEMA 4º
Hallar el porcentaje de sujetos que ocupan el área ennegrecida de la figura <D>, más allá de la z= - 1.95
FIGURA <D>
PROBLEMA 5º
Hallar el porcentaje de sujetos del área existente entre dos puntuaciones <z> positivas: z= 1.99 y z=2.70 (área ennegrecida de la figura <E>)
Consultamos la tabla: el porcentaje entre la media (0) y la z= 1.99 es de 47.67% . El porcentaje entre la media (0) y la z= 2.70 es de 49.65% .
Como vemos en la figura <E> el área obscurecida es la diferencia entre el área 49.65 y el área 47.67
FIGURA <E>
PROBLEMA 6º
Hallar el porcentaje de sujetos del área ennegrecida de la figura <F>. Es un área entre dos puntuaciones <z>, una positiva (z = +2.11) y otra
negativa
(z = -2.11)
Paso 1º) Consultamos la tabla: a una <z>= 2.11, le corresponde un porcentaje de 48.26.
Paso 2º) Conocemos que tanto el área entre la media (0) y z= +2.11, como el área entre la media (0) y la z= -2.11, tienen cada una de esas
áreas P= 48.26. Por tanto, ambas suman:
48.26% + 48.26% = 96.52%
Es el proceso inverso al que se ha expuesto en la sección <1>: Se busca determinar la puntuación <z> (positiva o negativa) a partir del
porcentaje de área conocido.
PROBLEMA 2º
Hallar la puntuación <z> correspondiente a un porcentaje de75%.
Paso 1º) Un área de 75% supera a 50%, por lo que debemos restar 50% a 75%:
75% - 50% = 25%
Paso 2º) Transformamos 25% a proporción: 0.2500
Paso 3º) Buscamos en la tabla la proporción más próxima a 0.2500. Encontramos: 0.2486. A esta proporción le corresponde una puntuación
<z> de: 0.67 (ya que está en la fila encabezada por 0.6 y en la columna encabezada por un <7>).
Recordamos que el coeficiente de correlación lineal de Pearson <rxy> busca determinar el grado de variación concomitante de dos variables.
Para aquellos casos en que se relacionan más de dos variables en la misma muestra, disponemos de dos coeficientes de correlación, derivados
del coeficiente de correlación lineal de Pearson, que son:
3. DEFINICIÓN:
Cuando una variable interacciona con otras variables y se conoce el grado de correlación que la primera mantiene con cada una de las otras
en particular, puede desearse conocer la correlación de la variable primera con todas las demás conjuntamente. Para estos casos, disponemos
del coeficiente de correlación múltiple. Previamente se ha de conocer las correlaciones entre:
a. la variable <X1> y la variable <X2> (r12).
b. la variable <X1> y la variable <X3>…..(r13).
c. La variable <X2> y la variable <X3>…(r 2 3 ).
b) FÓRMULA:
r1.2 3 =
4) SIMBOLOGÍA
r12 ; coeficiente de correlación entre las variables <1> y <2>
r13 coeficiente de correlación entre las variables <1> y <3>
r23 : coeficiente de correlación entre las variables <2> y <3>
4. PROCEDIMIENTO DE CÁLCULO
Para una mejor comprensión del procedimiento, proponemos un ejemplo de resolución de un problema:
Se desea conocer el grado de dependencia de la variable <rendimiento académico> respecto de las variables <Cociente intelectual> y
<Sociabilidad> conjuntamente. Para ello, debe hallarse el coeficiente de correlación múltiple,
Paso 1º) Se construye la tabla:
VARIABLES COEFICIENTE
DE CORRELACIÓN
<r>
r1.2 3 =
r1.2 3 =
El coeficiente de correlación parcial pretende conocer la correlación existente entre dos variables si una tercera variable permanece constante,
o sea, eliminando el influjo de la tercera.
Un ejemplo de estas correlaciones: el coeficiente de correlación entre <masa corporal> y <habilidad de cálculo aritmético> suele ser alta y
positiva entre niños de 4 a 14 años. De este hecho no podemos deducir que un niño gordo sea mejor calculador que uno delgadito. Claro que tal
a. FÓRMULA:
R12.3
b. SIMBOLOGÍA:
r 1.2 : Coeficiente de correlación entre la variable <1> y la variable <2>.
r1.3 : Coeficiente de correlación entre la variable <1> y la variable <3>.
r2.3 : : Coeficiente de correlación entre la variable <2> y la variable <3>
Hallar la correlación parcial entre l variable <1>, (factor de fluidez verbal) y la variable <2> (cálculo aritmético) si se excluye el influjo de la
variable <3> (ortografía). Las correlaciones entre estas tres variables son las que se muestran en la siguiente tabla:
== 0.042
1. INTRODUCCIÓN:
El coeficiente <r > (rro, letra griega minúscula) de Spearman permite calcular el grado de correlación entre dos variables cuantitativas
medidos en escala ordinal. Las puntuaciones de cada variable han sido ordenadas de menor a mayor (o viceversa) resultando, por tanto dos
series ordenadas por rangos. O sea, <r> mide la relación entre la ordenación de <n> sujetos en una variable y la ordenación de los mismos
sujetos en la otra variable.
Los símbolos del coeficiente de Spearman son: <rs> (una <r> minúscula con una <s> como subíndice) o <r > (letra griega minúscula <rro>)
a. FÓRMULA
Rs =
(Esta fórmula sólo es válida si no hay empates o si estos son pocos. Existe <empate> cuando dos o más sujetos han obtenido la misma
puntuación, lo que se crea un problema de la asignación de rangos. Si hay empates, se necesita hallar la media aritmética de los rangos que
podrían ocupar si no hubiese empate.
b. SIMBOLOGÍA DE LA FÓRMULA
<∑>: sumatorio
<d>: diferencia entre el rango obtenido por el sujeto en la primera variable (X) y el rango del mismo sujeto en la segunda variable (Y).
<d 2>: la diferencia anterior elevada al cuadrado.
<∑d2 >: suma de los cuadrados de las diferencias.
<n>: número de sujetos
2. EJEMPLO DE CÁLCULO DEL COEFICIENTE DE CORRELACIÓN ORDINAL DE SPEARMAN <r>
He aquí un problema:
Hallar el coeficiente de correlación ordinal de Spearman de las puntuaciones en Matemáticas y en Física de 8 estudiantes. Las puntuaciones
aparecen en la Tabla I
Paso 1º) En la Tabla I solamente presentamos rellenas la columna de sujetos, de puntuaciones y de rangos de la variable <X>:
Tabla I
SUJETOS PUNTUACIÓN RANGO EN PUNTUACIÓN RANGO DIFERENCIAS CUADRADOS
EN MATEMÁTICAS EN FÍSICA EN FÍSICA ENTRE RANGOS DE LAS
MATEMÁTICAS DIFERENCIAS
ENTRE RANGOS
Olga 7 3º
Sergio 6 5º
Carmen 7 3º
Paula 5 6º
Pedro 4 7º
Roque 7 3º
Ángela 8 1º
Manuela 3 8º
n= 8
Paso 2º) En la tabla II se ofrecen ya rellenas las columnas de sujetos, de puntuaciones y de rangos de la variable <X>, de puntuaciones y de
rangos de la variable <Y>.
Tabla II
SUJETOS PUNTUACIÓN RANGO EN PUNTUACIÓN RANGO DIFERENCIAS CUADRADOS
EN MATEMÁTICAS EN FÍSICA <Y> EN FÍSICA ENTRE RANGOS DE LAS
MATEMÁTICAS <Rx> <Ry> <d> DIFERENCIAS
<X> ENTRE RANGOS
<d2>
Olga 7 3º 15 3º
Sergio 6 5º 10 6º
Carmen 7 3º 12 4º
Paula 5 6º 11 5º
Pedro 4 7º 7 8º
Ángela 8 1º 19 1º
Manuela 3 8º 9 7º
n=
Olga 7 3º 15 3º 0 0
Sergio 6 5º 10 6º -1 1
Carmen 7 3º 12 4º -1 1
Paula 5 6º 11 5º +1 1
Pedro 4 7º 7 8º -1 1
Roque 7 3º 16 2º +1 1
Ángela 8 1º 19 1º 0 0
Manuela 3 8º 9 7º +1 1
n= 8 ∑ d2 = 6
Paso 6º) Trasladamos las sumas que aparecen en la tabla III a la fórmula:
r = 1- ; r = : r = = 1 – 0.07 = 0.93.
La correlación hallada es muy alta.
3. UN EJEMPLO DE CÁLCULO DEL COEFICIENTE DE CORRELACIÓN ORDINAL DE SPEARMAN <r> EN EL QUE APARECEN <EMPATES>
Problema
Calcular el coeficiente de correlación de Spearman sobre las puntuaciones obtenidas por diez sujetos en dos pruebas, una de ellas sobre
la variable <X> y la otra sobre la variable <Y>, tal como se presenta en la tabla IV
Paso 1º) Tenemos en la Tabla IV rellenadas las columnas de <sujetos>, de <puntuaciones en la variable X> y <puntuaciones en la variable Y>:
Tabla IV
SUJETOS PUNTUACIÓN PUNTUACIÓN RANGO RANGO DIFERENCIA CUADRADO
EN VARIABLE X EN VARIABLE Y EN EN DE RANGOS DE LA
VARIABLE VARIABLE (d) DIFERENCIA
X Y DE RANGOS
2
(d )
LUIS 10 5
MARÍA 9 9
OSCAR 4 6
PILAR 6 7
RAMÓN 2 4
SANTIAGO 3 2
TELMA 1 3
VICTORIA 7 8
YAGO 2 1
ZENOBIA 8 10
TOTAL
Paso 2º) En la tabla V, vamos a rellenar las columnas de rangos de ambas variables. Comenzamos a asignar rangos a las puntuaciones
en la variable <X>: la puntuación más alta es un <10> y por tanto le corresponde el rango <1º>, la puntuación inferior a <10> es un <9>, por tanto
le corresponderá el rango <2º>,… seguimos asignando rangos, pero descubrimos que hay un empate entre dos puntuaciones (un <2>, Ramón y
un <2>, Yago). No sabríamos a quién asignarle el rango 8º y a quién asignarle el rango 9º. Esto es muy relevante porque si asignamos el rango 8º a
Ramón y no a Yago en la variable <X>, puede que no haya empate en la variable <Y>. Pues bien, como sería equivocado conceder a los dos el
rango <8º> o a los dos el rango <9º>, lo correcto es hallar la media aritmética de los dos rangos: se suman estos dos rangos (8+9 = 17) y lo
dividimos entre 2: ( = 8.5). Se coloca 8.5 en las casillas de la variable <X> que tienen un 2 de puntuación.
Paso 3º) Hacemos lo mismo con la segunda variable <Y>. Pero en este caso, como hemos dicho, no hay <empates>.
Tabla V
SUJETOS PUNTUACIÓN PUNTUACIÓN RANGO RANGO DIFERENCIA CUADRADO
EN VARIABLE X EN VARIABLE Y EN EN DE RANGOS DE LA
VARIABLE VARIABLE (d) DIFERENCIA
X Y DE RANGOS
2
(d )
LUIS 10 5 1 6
MARÍA 9 9 2 2
PILAR 6 7 5 4
RAMÓN 2 4 8.5 7
SANTIAGO 3 2 8 9
TELMA 1 3 10 8
VICTORIA 7 8 4 3
YAGO 2 1 8.5 10
ZENOBIA 8 10 3 1
TOTAL
Paso 4º) Hallamos las diferencias entre los rangos de la variable <X> y los rangos de la variable <Y>.
Paso 5º) Elevamos al cuadrado esas diferencias.
Paso 6º) Sumamos los cuadrados de las diferencias.
En la Tabla VI se recogen los resultados de las operaciones aritméticas prescritas en los tres últimos pasos.
LUIS 10 5 1 6 -5 25
MARÍA 9 9 2 2 0 0
OSCAR 4 6 7 5 +2 4
PILAR 6 7 5 4 +1 1
SANTIAGO 3 2 8 9 -1 1
TELMA 1 3 10 8 +2 4
VICTORIA 7 8 4 3 +1 1
ZENOBIA 8 10 3 1 +2 4
TOTAL =
44.50
1. INTRODUCCIÓN
Ya hemos visto el coeficiente de correlación ordinal de uso más frecuente, el coeficiente de Spearman simbolizado por <r > (letra del alfabeto
griego <rro>) o por <rs> (r minúscula con una <s> como subíndice). Ahora vamos a presentar otro coeficiente para datos ordinales: el coeficiente
t (tau, letra minúscula del alfabeto griego que se corresponde a la <t> del alfabeto latino) de Kendall.
Este coeficiente de correlación atiende a la posición (rango) que cada uno de los individuos ocupa en una serie ordenada de puntuaciones en
una variable y la posición (rango) que ocupa el mismo individuo en la serie ordenada de puntuaciones en la otra variable. Este coeficiente
pretende medir el grado de correspondencia entre las dos ordenaciones
2. FÓRMULAS Y SIMBOLOGÍA
a. Fórmulas:
Disponemos de tres fórmulas (las dos primeras son la misma, pero con un desarrollo algebraico distinto):
Fórmula <A>: t (tau) = Fórmula <B>. t =
y Fórmula <C>: t =
b. Simbología:
P: número de sujetos que no invierten sus rangos.
Q: número de sujetos que invierten sus rangos.
Supongamos <n> personas (A, B, C, D,….N) y dos variables (<X> e <Y>). Cada sujeto ocupa un rango en la serie de puntuaciones en la variable
<X> y otro rango en la serie de puntuaciones en la variable <Y>.
Cuando comparamos el rango del sujeto <A> en la variable <X> con el rango del sujeto <B> en la misma variable <X>, puede suceder que el
rango del sujeto <B> sea inferior o superior al rango del sujeto <A> en la misma variable <X>.
Si el rango de <A> es superior al rango de <B> en la variable <X> e inferior a <B> en la variable <Y>, se dice que ha habido una <inversión>.
Otro tanto si <A> es inferior a <B> en <X> y <B> es superior a <A> en <Y>.
Si el rango del sujeto <A> es superior al rango del sujeto <B> en la variable <X> y también el rango de sujeto <A> es superior al rango del
sujeto <B> en la variable <Y>, se dice que hay una <no inversión>.
Esta tabla puede facilitar la comprensión del concepto de <inversión> (los números elegidos para los rangos son arbitrarios y su elección sólo
busca que sirvan como ejemplos):
Tabla I
VARIABLE <X> VARIABLE <Y>
Si el sujeto <A> Si el sujeto <B> Si el sujeto <A> Si el sujeto <B> El resultado es la:
obtiene el: obtiene el: obtiene el: obtiene el:
Si, por ejemplo, los sujetos fueran cinco (A, B, C, D, y E), habría que realizar diez (10) comparaciones:
<A> con <B>, <A> con <C>, <A> con <D>, <A> con <E>, <B> con <C>, <B> con <D>, <B> con <E>, <C> con <D>, <C> con <E>, <D> con<E>.
Problema:
Hallar el coeficiente < t > (tau) de Kendal sobre las puntuaciones obtenidas por cinco sujetos en dos variables (X e <Y>), tal como se presenta
en la Tabla II.
Paso 1º) Para poder determinar cuántas inversiones se dan entre los rangos de una variable con los rangos de la otra y así poder cuantificar el
valor <P> y el valor <Q>, creemos muy conveniente ordenar la serie de rangos del 1º al 5º en una de las dos variables, en nuestro ejemplo será la
variable <X>. Veamos la Tabla II, donde se presentan las puntuaciones y los rangos de cada uno de los cinco sujetos en la variable <X> y en la
variable <Y>:
Antonio 9 1º 6 3º
Benito 8 2º 10 1º
Carlota 6 3º 8 2º
Daniel 4 4º 4 5º
Enrique 2 5º 5 4º
Paso 2º Comparamos:
1) Si los rangos de dos sujetos muestran un orden progresivo en una variable, y uno regresivo en la otra variable, hablamos de
<inversión.
2) Si, por el contrario, las comparaciones entre los rangos de ambos sujetos en una y otra variables coinciden en progresividad o
regresividad, estamos ante una <no inversión>:
Tabla III
SUJETOS VARIABLE <X> VARIABLE <Y> RESULTADO
COMPARADOS
Se puede interpretar este resultado como una correlación discreta entre las dos variables.
1. INTRODUCCIÓN
En los dos <cuadros> precedentes (40º y 41º) hemos presentado dos coeficientes de correlación para datos ordinales (coeficiente <r > y
coeficiente <t >), en el presente vamos a exponer el coeficiente de correlación <W> de Kendall para datos ordinales.
2. DEFINICIÓN
El coeficiente de concordancia <W> de Kendall pretende medir el grado de acuerdo o concordancia entre varios jueces o la asociación entre
tres o más variables.
a. FÓRMULAS:
W=
b. SIMBOLOGÍA:
n: número de sujetos que reciben los rangos otorgados por los calificadores
S: suma de los cuadrados de las diferencias entre la suma de rangos otorgados a cada sujeto menos el promedio de todas las sumas parciales
de rangos de cada sujeto: (a- prom)2 + (b – prom)2 + (c – prom)2+ …….. (n – prom)2.
k: número de calificadores, los que otorgan los rangos a los sujetos.
∑Rk : suma total de las sumas parciales de los rangos otorgados a cada sujeto: (a + b + c + + …..)
li: número de empates.
∑li : ∑
a : suma de los rangos otorgados al sujeto <a>.
b: ídem del sujeto <b>….Otro tanto se puede decir respecto de <c>, <d>, <e>, etc.
a. No hay ninguna puntuación repetida entre las puntuaciones otorgadas por los calificadores. No hay empates y, por tanto, es sencillo
asignar los rangos.
b. Hay, al menos, dos puntuaciones otorgadas por el mismo calificador que coinciden en el mismo valor, o sea, hay empate.
Comenzamos con el primer caso, si bien las fórmulas son las mismas, pero el procedimiento varía; es más sencillo si no hay empates.
Para una mejor comprensión del proceso de cálculo del coeficiente <W>, supongamos un problema como ejemplo:
Hallar el grado de concordancia entre las calificaciones otorgadas por tres calificadores de las redacciones compuestas por seis alumnos. En
la Tabla ya aparecen los rangos asignados a las puntuaciones otorgadas por los tres calificadores.
Paso 1º) Ordenamos, en una serie creciente, las puntuaciones otorgadas a los seis alumnos por cada uno de los tres calificadores. Se
comprueba que no hay empates en ninguna de las tres series.
Paso 2º) Asignamos rangos correlativos a cada puntuación otorgada por cada uno de los calificadores.
Paso 3º) En la tabla I, hemos dado por realizados los dos pasos anteriores y, por tanto, únicamente hemos anotado los rangos asignados a
cada una de las puntuaciones otorgadas por cada uno de los tres calificadores:
Tabla I
SUJETOS RANGOS RANGOS RANGOS SUMA DE
Pedro 6º 5º 5º
Héctor 2º 3º 2º
Esther 5º 4º 4º
Nuria 1º 2º 3º
Esteban 4º 6º 6º
Laura 3º 1º 1º
n=6 ∑Rk =
a+b+c+d+e+f
Paso 4º) Sumamos los rangos otorgados por los tres calificadores a cada uno de los seis individuos. Colocamos los totales de las sumas
horizontales en la columna encabezada por <suma de rangos> de la Tabla II.
Paso 5º) Sumamos verticalmente los resultados de las sumas horizontales colocadas en la columna <suma de rangos> de la Tabla II (∑ Rk).
Tabla II
SUJETOS RANGOS RANGOS RANGOS SUMA DE RANGOS
OTORGADOS OTORGADOS OTORGADOS RJ
POR EL POR EL POR EL
CALIFICADOR CALIFICADOR CALIFICADOR
<A> <B> <C>
Pedro 6º 5º 5º a = 16
Héctor 2º 3º 2º b=7
Esther 5º 4º 4º c= 13
Nuria 1º 2º 3º d=6
Esteban 4º 6º 6º e = 16
Laura 3º 1º 1º f=5
n=6 ∑Rk =
a+b+c+d+e+f = 63
S = (a - )2 + (b - )2 + (c - )2 + (d - )2 + (e - )2 +(f - )2
a. Calculamos el valor de cada diferencia:
S = (16 - )2 + (7 - )2 + (13 - )2+ (6 –10.5)2 + (16 – 10.5)2 + (5 – 10.5)2
b. Elevamos al cuadrado las diferencias indicadas en la fórmula anterior:
S = (5.5)2 + ( -3.5)2 +(2.5)2 + (- 4.5)2 + (5.5)2 + (- 5.5)2
c. Sumamos esos cuadrados:
S = 30.25 + 12.25 + 6.25 + 20.25 + 30.25 + 30.25 = 129.50
Paso 8º) Trasladamos a la fórmula de <W> los valores que resultaron en las operaciones aritméticas indicadas en los <pasos> anteriores:
W= W= W = = = = 0.82
La correlación 0.82 puede considerarse alta
(Hemos suprimido la expresión <>, porque hemos supuesto que no hay puntuaciones repetidas entre las otorgadas por cada calificador: la
Tabla I sólo muestra los rangos que corresponderían a cada puntuación).
Los coeficientes de correlación o de asociación relacionados con el coeficiente de correlación lineal de Pearson son estos cuatro:
El coeficiente de correlación biserial pretende hallar el grado de la posible relación existente entre dos variables:
a. Una variable cuantitativa continua.
b. Una variable cuantitativa continua, pero dicotomizada, o sea, dividida en dos partes, como si fuera una variable cualitativa (atributo) con
dos únicas modalidades/ categorías.
Cuando una variables es realmente cualitativa dicotómica (no continua dicotomizada), se aplica el coeficiente de correlación biserial puntual
(rbp)
3. REQUISITOS:
Para poder aplicar la correlación biserial, es preciso que se cumplan estas condiciones:
4. FÓRMULAS Y SIMBOLOGÍA
a. FÓRMULAS
Observamos que en la fórmula <B>, la expresión (media aritmética de los sujetos del grupo <Q>) de la fórmula <A> ha sido sustituido por la
expresión <> (media aritmética total). También cambia el segundo factor del producto.
b. SIMBOLOGÍA:
Veamos un problema:
Cuarenta alumnos han sido evaluados por un test de inteligencia espacial (variable cuantitativa continua) y calificados por su profesor como
poseedores o no poseedores de la habilidad de coordinación visomotora (variable cuantitativa continua dicotomizada). Se desea conocer el grado
(Advertimos que para simplificar los cálculos, el ejemplo de problema enunciado incumple el requisito de un número de sujetos mayor de
<50>, lo que no impide nos sea útil para la comprensión del procedimiento.)
Paso 1º) Colocamos las marcas de los intervalos y del punto central de cada intervalo en las columnas <A> y <B> respectivamente de la Tabla
I.
Paso 2º) Llenamos las casillas de las columnas <C>, <D> y <E> de la tabla I con las frecuencias de las puntuaciones de los sujetos del
subgrupo <p>, del subgrupo <q> y del grupo total (p+q = n) respectivamente.
Paso 3º) Sumamos las frecuencias de cada una de esas columnas y colocamos sus resultados en la casilla inferior de su respectiva columna
(<C>, <D> y <E>).
Paso 4º) Colocamos en la columna <F> de la tabla II los resultados de multiplicar los puntos medios de cada intervalo por las frecuencias del
grupo <p>.
Paso 5º) Sumamos esos productos y colocamos el resultado en la casilla inferior de la columna <F>.
Tabla I
A B C D E F G H I J
Paso 6º) Ponemos en la
INTERVALOS Punto Frecuencia Frecuencia Frecuencia Producto Producto Producto Cuadrado Producto
medio del intervalo del intervalo total del del punto del punto del punto del punto del
columna <G> de la tabla II los
de cada en <P> fp En <q> fq intervalo ft medio de medio de medio del medio de cuadrado resultados de multiplicar los
intervalo cada cada intervalo cada del Punto puntos medios de cada
Xi intervalo intervalo por su intervalo Xj2 medio por
intervalo por las frecuencias
por su por su frecuencia su
frecuencia frecuencia total Xj)(ft) frecuencia del grupo <q>.
en <p> (Xj) en <q> (Xj) total Xj)2 (ft)
(fp) (fq) Paso 7º) Sumamos esos
productos y situamos los
1-3 2 3 2 5 resultado en la casilla inferior
4-6 5 4 3 7
de la columna <G>.
Paso 8º) Multiplicamos los
7-9 8 10 8 18
puntos medios de cada
10-12 11 2 5 7 intervalo por las frecuencias
del grupo total (<ft>)
13-15 14 1 2 3
(columna <H> de la tabla II)
∑fp = 20 ∑f q = 20 ∑Xt = 40 ∑ (Xj)(fp) ∑(Xj) (fq) ∑(Xj)(ft) ∑
Paso 9º) Sumamos esos
productos y el resultado lo
colocamos en la casilla inferior de la columna <H>.
Tabla II
A B C D E F G H I J
INTERVALOS punto frecuencia Frecuencia Frecuencia Producto Producto Producto Cuadrado Producto
medio de del intervalo del intervalo total del del punto del punto del punto del punto del cuadrado
cada en <p> fp En <q> fq intervalo ft medio de medio de medio del medio de del Punto
intervalo cada cada intervalo por cada medio por su
xi intervalo por intervalo por su intervalo Xj2 frecuencia
su su frecuencia total Xj)2 (ft)
frecuencia frecuencia total
en <p> (Xj) en <q> (Xj)
Xj)(ft)
(fp) (fq)
1-3 2 3 2 5 6 4 10
4-6 5 4 3 7 10 15 35
7-9 8 10 8 18 80 64 144
10-12 11 2 5 7 22 55 77
13-15 14 1 2 3 14 28 42
Paso 10º) Hallar las medias aritméticas de las puntuaciones de los sujetos del grupo <p>, del grupo <q> y del grupo total <t>:
= 6.6
= = = 8.3
= = = 7.70
Paso 11º) Elevamos al cuadrado los puntos medios de cada intervalo (columna <I> de la Tabla III).
Tabla III
B C D E F G H I J
1-3 2 3 2 5 6 4 10 4 20
2204-6 5 4 3 7 20 15 35 25 175
Paso 15º) Trasladamos los resultados obtenidos en las operaciones aritméticas de los pasos anteriores a la fórmula <A> del coeficiente de
correlación biserial:
2. FÓRMULAS
Disponemos de dos fórmulas para el cálculo del coeficiente de correlación biserial puntual:
Fórmula A:
rbp= (( ) Fórmula B rbp= ( ) )
SIMBOLOGÍA:
p: proporción de individuos de la categoría superior de la variable cualitativa dicotómica.
q: proporción de individuos de la categoría inferior de la variable cualitativa dicotómica.
Xp: puntuaciones directas del grupo <p>.
Xq: puntuaciones directas del grupo <q>.
Xt: puntuaciones directas de todo el grupo.
: media aritmética de las puntuaciones en la variable cuantitativa <X> obtenidos por los sujetos pertenecientes al grupo que portan la
modalidad <p> de la variable cualitativa dicotómica <Y>.
: media aritmética de las puntuaciones en la variable cuantitativa <X> obtenidos por los sujetos pertenecientes al grupo que porta la modalidad
<q> de la variable cualitativa dicotómica <Y>.
St: desviación estándar de las puntuaciones obtenías por todos los sujetos de la muestra.
UN EJEMPLO DE CÁLCULO:
Se desea conocer el grado de correlación existente entre la variable cualitativa dicotómica <sexo> y la variable cuantitativa continua
<inteligencia espacial> de una muestra de 60 varones y 40 mujeres de un taller mecánico.
Tabla I
A B C D E F G H I J
INTERVALOS PUNTO FRECUENCIA FRECUENCIA FRECUENCIA Producto Producto Producto Cuadrado Producto
CENTRAL DE <p> DE <q> TOTAL de de la de la de los puntos de los
DEL frecuencia frecuencia frecuencia medios cuadrados
INTERVALO de <P> <q> por el total por el de los
por punto punto medio Punto medio puntos
central del de cada del intervalo medios de
intervalo clase del cada
intervalo intervalo por
la frecuencia
total del
intervalo
1-3 2 6 5 11
4-6 5 10 7 17
7-9 8 18 12 30
10-12 11 16 10 26
13-15 14 10 6 16
Np = 60 Nq = 40 Nt = 100
Paso 7º) Multiplicamos la frecuencia de <p> de cada intervalo por el punto central de ese intervalo (columna <F> de la Tabla II).
Paso 8º) Multiplicamos la frecuencia de <q> de cada intervalo por el punto medio del intervalo (columna <G>).
Paso 9º) Así mismo, multiplicamos la frecuencia total de cada intervalo por el punto medio de cada intervalo (columna <H>).
Intervalos Punto Frecuencia Frecuencia Frecuencia Producto Producto Producto Cuadrados Producto
central de E <p> de <q> Total de de la de la de los de los
de cada frecuencia frecuencia frecuencia puntos cuadrados
intervalo de <P> por <q> por el total de medios de de los
punto punto cada cada intervalo Puntos
central del medio del intervalo medios de
intervalo intervalo por el punto cada
medio de intervalo
cada por la
intervalo frecuencia
total de
cada
intervalo
1-3 2 6 5 11 12 16 22
4-6 5 10 7 17 50 35 85
Paso 10º) Sumamos los resultados de los productos de las frecuencias de <p> por el punto medio de cada intervalo (columna <F>).
Paso 11º) Sumamos los resultados de los productos de las frecuencias de <q> por el punto medio de cada intervalo (columna <G>).
Paso 12º) Así mismo sumamos los resultados de los productos de las frecuencias totales por sus respectivos puntos medios de cada intervalo
(columna <H>).
Paso 13º) Calculamos la media aritmética de las puntuaciones <p>:
= ; = = 8.7
Paso 14º) Del mismo modo, calculamos la media aritmética de las puntuaciones <q>:
= ; = = 8.37
Paso 15º) Así mismo, calculamos la media aritmética de todas las puntuaciones:
= ; = = 5.22
Paso 16º) Elevamos al cuadrado los puntos medios de cada intervalo (columna <I> de la tabla III).
Paso 17) Multiplicamos cada cuadrado de los puntos medios de cada intervalo por la frecuencia total de cada intervalo (columna <J> de la
Tabla III).
Paso 18º) Sumamos los valores numéricos de la columna <J> de la tabla III.
Tabla III
A B C D E F G H I J
INTERVALOS PUNTO FRECUENCIA FRECUENCIA FRECUENCIA Producto Producto Producto Cuadrado Producto
CENTRAL DE <p> DE <q> TOTAL de de la de la del punto del Paso 19º) Calculamos la
DEL frecuencia frecuencia frecuencia medio cuadrado del
INTERVALO de <P> por <q> por el total por el punto medio desviación estándar (St) de todas las
punto central punto medio punto central del intervalo
del intervalo del intervalo del intervalo por la puntuaciones, utilizando para ello la
frecuencia
total del siguiente fórmula:
intervalo
1-3 2 6 5 11 12 10 22 4 44
St = ; St = St = = =
4-6 5 10 7 17 50 35 85 25 425 7.71
7-9 8 18 12 30 144 96 240 64 1920 Paso 20º) Trasladamos los
10-12 11 16 10 26 176 110 280 121 3146 valores obtenidos en las
operaciones aritméticas de los
13-15 14 10 6 16 140 84 224 196 3136
<pasos> anteriores a la fórmula<A>
60 40 100 522 335 857 8671 del coeficiente de correlación
biserial puntual <rbp>:
rbp= (( )
rbp= (( ) ;
rbp= (( ) = (0.04)(0.48) = 0.0192
El valor obtenido (0.0192) es cercano a 0; ambas series de puntuaciones son totalmente independientes: La inteligencia espacial no está
vinculada al sexo anatómico.
Los coeficientes de asociación entre variables cualitativas/atributos pueden ser clasificados según dos criterios:
1) Las variables cualitativas dicotómicas (sólo dos modalidades/categorías) o dicotomizadas (por convención, se las trata como si
fueran dicotómicas) pueden ser objeto de cualquiera de los coeficientes de asociación.
2) Los coeficientes de asociación que sirven tanto para las variables cualitativas, dicotómicas (tienen sólo dos
modalidades/categorías) o policotómicas (tienen más de dos modalidades/categorías ) son sólo dos: el coeficiente <c2 > (<ji
cuadrado>) y el coeficiente de contingencia <C> .
b. Por las propiedades de los coeficientes
LA EXISTENCIA DE Coeficiente
LA RELACIÓN Y LA T2 de
MAGNITUD Tschuprow
Coeficiente
V de Cramer
Por LA EXISTENCIA DE Coeficiente
LA RELACIÓN, LA Q de Yule
c. La relación que algunos coeficientes mantienen con otros coeficientes:
MAGNITUD Y EL Coeficiente
SENTIDO f (Phi)
Distinguimos tres grupos: CUALITATIVA LA Coeficiente c2 (ji
POLICOTÓMICAS EXISTENCIA cuadrado)
DE LA
RELACIÓN Coeficiente f2 (phi
I) Coeficientes de asociación que dependen del coeficiente <c2> (ji cuadrado)
cuadrado):
LA EXISTENCIA DE Coeficiente
LA RELACIÓN Y LA T2 de
1º) Coeficiente de contingencia <C> MAGNITUD Tschuprow
Coeficiente
2º) Coeficiente de contingencia máximo <Cmax >> V de Cramer
3º) Coeficiente de contingencia corregido <Ckor> Coeficiente
C de
contingencia
4º) Coeficiente <V> de Cramer de Pearson
a. TABLA DE CONTINGENCIA
La tabla de contingencia está formada de dos columnas y dos filas. Una variable se sitúa en las columnas y la otra variable en las filas.
Dos columnas X dos filas resultan cuatro casillas:
TABLA I
VARIABLE <Y> VARIABLE <X>
CATEGORÍA <A> a B
CATEGORÍA <B> c D
b. FÓRMULA:
Q=
c. SIMBOLOGÍA:
a: casilla que acoge al número de sujetos que pertenecen a la categoría <A> de la variable <X> y a la categoría <A> de la variable <Y>.
b: casilla que acoge al número de sujetos que pertenecen a la categoría <B> de la variable <X> y a la categoría <A> de la variable <Y>.
c: casilla que acoge al número de sujetos que pertenecen a la categoría <A> de la variable <X> y a la categoría <B> de la variable <Y>.
d: casilla que acoge al número de sujetos que pertenecen a la categoría <B> de la variable <X> y a la categoría <B> de la variable <Y>.
3. UN EJEMPLO DEL PROCEDIMIENTO DE CÁLCULO DE <Q>:
Problema:
Hallar el coeficiente <Q> para conocer el grado de asociación entre dos variables: <X> <sexo anatómico> (hombres y mujeres) e <Y>
<predominancia lateralidad> (diestros y zurdos).
HOMBRES MUJERES
DIESTROS 50 35
ZURDOS 10 5
Q= = = = = 0.16
El coeficiente obtenido puede estimarse como muy bajo: ambas variables son independientes entre sí.
b. SIMBOLOGÍA:
Las casillas <a>, <b>, <c> y <d> tienen idénticos significados que en el coeficiente <Q>, arriba expuesto.
5. UN EJEMPLO DE CÁLCULO
Problema:
Hallar el valor del coeficiente de coaligación <w> omega entre dos variables nominales, <X> e <Y>, con los siguientes datos:
CATEGORÍA <A> a b
CATEGORÍA <B> c d
ABONAN LA CUOTA 40 30
NO ABONAN LA CUOTA 10 5
w= w= w = = = = 0.10
El coeficiente w> hallado es despreciable: ambas muestras son independientes entre sí.
1. DEFINICIÓN
La prueba c2 (ji cuadrado) de Pearson es también un coeficiente de asociación entre variables cualitativas/atributos medidas en escala
nominal. Al carecer la lengua inglesa del sonido de la <c> griega, idéntico al de la <j> del castellano, el mundo anglófono no denomina a este
coeficiente de asociación como <ji cuadrado>, sino como <chi cuadrado> (<chi squared>); la expresión <chi cuadrado> también es usada en
muchos textos de Estadística escritos en lengua castellana; nosotros hemos preferido la expresión <ji cuadrado>.
Se utiliza tanto con variables cualitativas de dos modalidades (variables dicotómicas), como con variables cualitativas policotómicas (tienen
más de dos modalidades).
Se dispone de dos fórmulas para calcular el coeficiente ji cuadrado, si bien en este <cuadro> sólo utilizaremos la más sencilla (fórmula <A>), la
que puede aplicarse solamente a las variables cualitativas dicotómicas; la segunda (fórmula <B>) puede aplicarse a variables cualitativas
dicotómicas o policotómicas:
Fórmula <A>:
c2=
Fórmula <B>:
c2 = ∑
n: Número de sujetos.
a: número de sujetos que pertenecen a la modalidad (L) de la variable <X> y a la modalidad (L) de la variable <Y>.
b: número de sujetos que pertenecen a la modalidad (L) en la variable <X> y a la modalidad (R) de la variable <Y>.
c: número de sujetos que pertenecen a la modalidad (R) de la variable <X> y a la modalidad (L) de la variable <Y>.
d: número de sujetos que pertenecen a la modalidad (R) de la variable <X> y a la modalidad (R) de la variable <Y>
Veamos un problema:
Averiguar si existe asociación entre la variable <estudios veterinarios> y la variable <tener un gato como mascota> entre los
estudiantes, tal como aparecen en Tabla II:
Tabla II
Gato: sí Gato: no Totales
filas
Estudiantes 38 84 a+b
de veterinaria
Paso 1º) Se obtienen los valores marginales sumando las frecuencias de las casillas de cada fila y de cada columna:
Tabla III
Gato: sí Gato: no Totales
filas
Estudiantes 38 84 122
de veterinaria
c2 = = = = = 5.00
5.00
Más importante que hallar el valor del <c2>, que en nuestro ejemplo vale 5.00, es hallar la significación del mismo, comparando ese valor con
los valores de la tabla de valores críticos de ji cuadrado. Esa comparación nos dirás si ambas variables son independientes entre sí (hipótesis
nula: H 0)), o si, por el contrario, existe dependencia entre ellas (hipótesis alternativa: H 1)
Para poder comparar el valor hallado <5> con los valores críticos que aparecen en la tabla, necesitamos determinar el nivel de significación y
los grados de libertad (freedom degrees). Elegimos un nivel de significación del 5% y hallamos los grados de libertad (<gl>); en nuestro caso, los
grados de libertad resultan de multiplicar el número de filas menos <1> (2 – 1 = 1) por el número de columnas menos <1> (2 – 1= 1). Total: (1)(1) =
1*
Buscamos en la Tabla de valores críticos el valor correspondiente a 1 grado de libertad y a un nivel de significación del 0.05 ( o sea: que existe
un 5 % de riesgo de equivocarnos si aceptamos la hipótesis nula. Encontramos: 3.84
* Los grados de libertad (gl) son el número de valores que pueden ser asignados de forma arbitraria antes de que el resto tome un valor
automáticamente. Por ejemplo, si tenemos seis valores y conocemos su media aritmética, cinco de ellos pueden tomar cualquier valor, pero el 6º
necesariamente sólo puede ser uno. Supongamos la siguiente media aritmética: = 10. ¿Qué número es el que hemos puesto entre
interrogaciones? Este número no tiene libertad para ser uno cualquiera, sólo puede ser un <13>, ya que, si fuera otro, no podría obtenerse como
media aritmética: <10>.
1. INTRODUCCIÓN
La fórmula, utilizada en el ejemplo presentado en el <cuadro> precedente, solamente es válida para calcular el coeficiente <ji cuadrado> con
variables dicotómicas. Para las variables policotómicas (aunque también válida para las dicotómicas) tenemos una fórmula más compleja y que
requiere realizar tantas diferencia, cuadrados y divisiones como casillas tiene la tabla de contingencia:
a. FÓRMULA:
c2 = ∑
En esta fórmula se distinguen las <frecuencias empíricas>, también denominadas <frecuencias reales>, las que aporta el problema y las
<frecuencias teóricas>, también conocidas como <frecuencias esperadas>; representan las frecuencias que debería tener cada casilla si las dos
variables no mantuvieran ninguna relación, fueran independientes una de la otra. Necesariamente que habrá que calcular estas frecuencias
teóricas previamente, una a una, para cada casilla.
b. SIMBOLOGÍA:
∑: sumatorio
femp: frecuencia empírica, la frecuencia real, la que aparece en los datos del problema en esa casilla de la tabla de distribución de frecuencias.
fteor: frecuencia teórica, la que debería haber sido si las frecuencias se hubieran repartido en las casillas de modo totalmente independiente
una variable respecto de la otra.
ft =
SIMBOLOGÍA:
ffila: frecuencia marginal de la fila en la que está la casilla de la que se quiere conocer la frecuencia teórica que se trate.
f columna : frecuencia marginal de la columna en la que está la casilla de la que se quiere conocer la frecuencia teórica.
Se entiende por frecuencia marginal de cada fila, la suma de las frecuencias empíricas de las casillas que forman la fila.
Se entiende por frecuencia marginal de cada columna, la suma de las frecuencias empíricas de todas las casillas que forman la columna.
Tabla I
Variable <X>
Mod. M Mod. N Mod. Ñ Mod. P Suma de las frecuencias empíricas de las filas
Como podemos ver, nos encontramos con dos variables <X> e <Y>. La primera variable (<X>) con cuatro modalidades (<M>, <N>, <Ñ> y <P>) y
la segunda variable (<Y>) con tres modalidades (<H>, <I>, <J>). En total, 12 casillas: (4)(3) = 12
Supongamos una tabla de contingencia con las siguientes frecuencias empíricas:
Tabla II
Variables Variable <X>
Suma de las frecuencias empíricas de las Marginal de la Marginal columna Marginal Marginal
columna<M> 115 <N> = 37 columna columna <n> 200
<Ñ> = 33 <P> = 15
Paso 4º) Todas las casilla están en una fila y en una columna. Para calcular el valor que corresponde a la frecuencia teórica de cada casilla,
multiplicamos el valor marginal de la fila en el que está la casilla, por el valor marginal de la columna en la que está la casilla. Comenzamos:
La frecuencia teórica de la casilla de la fila <H> y de la columna <M> resulta demultiplicar la frecuencia marginal de la fila <H> (60), por la
frecuencia marginal de la columna <M> (115) y dividiendo ese producto entre la frecuencia total (200):
Tabla III
Variable
<X>
Mod. Marginal
<L> fila <L> =
9.25 = 13.25 = 3.75 50
En el Cuadro nº 48, expusimos el cálculo de las frecuencias teóricas. En el presente <Cuadro> se expone el procedimiento completo de cálculo
del coeficiente c2. Para ello, traemos las dos tablas de frecuencias empíricas y de frecuencias teóricas presentadas en el <Cuadro nº 48>:
Variable
<X>
c2 = ∑
La fórmula nos indica que el resultado es una suma de tantos sumandos como casillas. En nuestro caso, doce sumandos (3 filas por 4
columnas = 12 casillas).
También nos dice que el valor numérico de cada casilla resulta de una fracción, cuyo numerador es el cuadrado de la diferencia (resta) entre la
frecuencia empírica y la frecuencia teórica, y cuyo denominador es la frecuencia teórica.
Para una más clara presentación de las operaciones aritméticas implicadas en la fórmula y así hacer más fácil la comprensión, hemos trazado
la siguiente tabla formada por seis columnas (una por el resultado de cada una de las operaciones aritméticas que conforman la fórmula) y doce
filas (una por cada casilla de la tabla de nuestro problema), más una primera fila con los encabezamientos:
c2 = + + + + + + + + + + + =
c2 = 10.07
La Tabla III presenta los resultados de las operaciones aritméticas intermedias:
Total:
10.07
Comparamos el valor obtenido (10.07) con el valor de la Tabla de valores críticos de ji cuadrado, para un nivel del 5% (0.05) y para 2 grados de
libertad: (filas – 1) (columnas – 1) = (2 – 1 = 1) (3 – 1 = 2) = (1)(2) = 2 y encontramos un valor tabular de: <5.99>.
Comprobamos que el valor de nuestro ji cuadrado (10.07) es mayor que el valor tabular (5.99), por lo que rechazamos la hipótesis nula (Ho):
<ambas variables son independientes>) y se acepta la hipótesis alternativa (H1): <que ambas variables no son independientes una de la otra>.
Los coeficientes de asociación entre variables cualitativas dicotómicas (solamente dos modalidades/categorías por variable) o policotómicas
(más de dos modalidades/categorías por variable) derivados del coeficiente c2 son:
El coeficiente de contingencia <C> se mueve entre < - 1 > y < + 1 >. De la tabla de contingencia se inferirá si el resultado es negativo < - >
o positivo < +>.
a . FÓRMULA:
C=
b. SIMBOLOGÍA:
Un problema
Calcular el valor de <C> cuando el <ji cuadrado> es 35 y el número de sujetos es 40.
C=
C = = = = 0.67
Se utiliza para determinar el valor máximo que puede tomar <C> según las modalidades que presenta cada variable cualitativa.
a. FÓRMULA:
Cmax =
b. SIMBOLOGÍA DE LA FÓRMULA:
m: el número menor de categorías de entre las categorías de las dos variables nominales de la tabla de contingencia.
C. PROCEDIMIENTO:
Para evitar el cálculo de la raíz cuadrada del cociente de la fórmula, es más práctico consultar la tabla con los valores de Cmax a partir del
valor de <m>:
SI <m> ENTONCES
ES EL VALOR
IGUAL
MÁXIMO
A:
DE
<C> ES
IGUAL A:
2 0.707
3 0.816
4 0.866
5 0.894
6 0.913
7 0.926
8 0.935
9 0.943
10 0.949
Conocidos los valores resultantes de calcular los coeficientes de contingencia <C> y de contingencia máximo <Cmax>, se puede estimar el
valor que hubiera obtenido el coeficiente de correlación lineal, utilizando esta fórmula:
rxy
Atención: el signo < significa <parecido a…>, <próximo a..>, es distinto a < = > que significa <igual a…>.
Supongamos que C = 0.30 y Cmax = 0.913, entonces:
rxy == 0.57
Para precisar el valor del coeficiente de contingencia <C> en ciertos casos, puede utilizarse la versión corregida del coeficiente con la
siguiente fórmula:
a. FÓRMULA:
CKOR = ( ) ( C )
b. SIMBOLOGÍA:
k: el número menor de modalidades que presenta una variable. Puede sustituirse la <k> de la fórmula por una <m>
Hallar el valor del coeficiente de contingencia corregido con los siguientes datos:
C = 0.73
k (o <m>) = 3
a. FÓRMULA
V=
a. SIMBOLOGÍA DE LA FÓRMULA:
m: entre las dos variables, se elige aquella que tiene el menor número de modalidades; ese número es <m>. Por ejemplo, si una
variable presenta 4 modalidades y la otra variable, 3 modalidades, el valor de <m> es 3, por ser 3 el menor de los dos números de
modalidades (3 y 4)
b. PROCEDIMIENTO:
Un ejemplo de cálculo:
Hallar el valor de <v> con los siguientes datos:
c2 0.80
n 20
m 2
V=
V= ; V = ; V = = 0.20
7. COEFICIENTE T2 DE TSCHUPROW
a. FÓRMULA:
T2 =
b. SIMBOLOGÍA DE LA FÓRMULA:
n: número de casos
filas: número de filas de la tabla de contingencia.
columnas: número de columnas de la tabla de contingencia.
c. PROCEDIMIENTO.
Ji cuadrado 0.80
n 20
Filas 3
Columnas 2
T2 = T2 =
T2 = T2 = T2 = T2 = = 2.82
El cuadrado del coeficiente < f2> es igual al cociente de <c2 > (ji cuadrado) entre número de sujetos.
a. FÓRMULA:
b. SIMBOLOGÍA:
n: número de sujetos
c. PROCEDIMIENTO DE CÁLCULO:
f2 = f2 = f2 = 0.01
Antes de considerar el uso de programas informáticos dedicados al análisis estadístico, creemos conveniente advertir al lector que
todos los cálculos de estadígrafos en el ámbito de la Estadística Descriptiva pueden realizarse con:
a. Calculadoras manuales que incluyan entre sus operaciones, la potenciación al cuadrado, la raíz cuadrada y (conveniente, pero no
indispensable) la potenciación con exponente superior a 2.
b. Calculadoras manuales científicas, que ofrecen un <modo> de Estadística. Generalmente con este <modo>, es posible introducir los
datos y recibir los cálculos sobre esos datos pulsando las teclas de <sumatorio de x> (, sumatorio de los cuadrados de x (∑x2) y la
desviación estándar (S, si bien en las calculadores esta tecla lleva la etiqueta: s2).
Estas calculadoras, a nuestro entender, son instrumentos válidos para calcular los índices de tendencia central, de variabilidad, de asimetría,
de apuntamiento, los percentiles y los coeficientes de correlación y de asociación que componen todos los contenidos de la Estadística
Descriptiva, cuando el número de datos (individuos, sujetos) no excede de treinta o cuarenta, según el tiempo y el esfuerzo que estemos
dispuestos a invertir.
Por otra parte, también son útiles para estos mismos cálculos, los programas <EXCEL> de Microsoft Office y <CALC> de Open Office.
Sin embargo, si nos encontramos con fuerzas, nuestro nivel informático es medio o alto y el volumen de datos lo aconseja, iremos a utilizar los
programas informáticos de Estadística a nuestra disposición.
Numerosos programas informáticos sirven para analizar datos estadísticos. La relación de ellos es muy larga, pero vamos a citar los más
conocidos:
SPSS, MINITAB, STATGRAPHICS, STATSOFT, SAS, SPAD, winIDAMS (gratuito, UNESCO), openEPI,…Unos son gratuitos (de código abierto),
otros pueden descargarse en ciertas condiciones y el resto son de pago.
Entre os programas informáticos de aplicación en Estadística, destaca el programa de IBM SPSS (Statistic Package for Social Sciences).
Vamos a intentar describir lo que encontrará un nuevo usuario del programa cuando lo abra.
Cuenta con seis ventanas (windows):
Una ventana principal y cinco ventanas secundarias. Estas últimas llevan las siguientes etiquetas:
NEW DATA (Nuevos datos): parecen los datos que están activos (extensión: .SAV).
OUTPUT (Resultados de los análisis estadísticos (extensión: .SPO).
SYNTAX (Sintaxis): instrucciones y procedimientos de tratamiento y cómputo de los datos en los diversos análisis posibles con los datos de la
ventana <NEW DATA> y los resultados aparecen en la ventana <OUTPUT> (extensión: .SPS).
CHART CAROUSEL: contiene las representaciones gráficas de los análisis (extensión: .CHT).
CHART: editar los datos de las ventanas carousel (extensión: .CHT, la misma que en CHART CAROUSEL).
BARRA DE
MENÚS
Archivo Editar Ver
Datos Transformar
Estadísticos Gráficos
Utilidades Ventana
Ayuda
BARRA DE
ESTADO
LÍNEA DE
ESTADO
Veamos en el siguiente cuadro lo que ofrece cada uno de los diez menús:
Editar el Búsqueda Definir Creación y Procedimientos Elegir entre Configurar Modificar Informa
texto de las y cambio. variables. transformar de cada análisis tipos de (crear y activar las sobre
ventanas de incluye un y cambiar Variables. estadístico. representaciones. grupos de características Funciones
resulta os menú de datos . variables, de la ventana del SPSS.
<Referencias> consultar del programa;
para Variable e presentar las
personalizar Instrucciones,… ventanas en
aspectos del mosaico o en
funciona- cascada,…
miento del
programa.
Para terminar esta brevísima incursión en el SPSS, presentamos dos cuadros, uno sobre los análisis aplicables a datos cuantitativos, y el
otro, a variables cualitativas/atributos (hemos traducido a la lengua castellana, los términos en inglés):
VARIANCE Varianza
KURTOSIS Apuntamiento
SKEWNESS Asimetría
RANGE Amplitud
SUM Suma
Frecuencias (FRECUENCIES) Frecuencias, porcentajes simples, válidos y acumulados, polígono de frecuencias e histogramas
FORMATS Formatos
STATISTICS Opciones:
CHISQ Ji cuadrado
CORR Correlación
Para realizar estos análisis, pulsamos en <STATISTICS/SUMMARIZE/EXPLORE, encontramos las siguientes pestañas:
a. FORMAT
b. MISSING, con dos opciones:
a) INCLUDED: todos los valores perdidos
b) LISTWISE: Excluye los casos que presentan uno o más valores perdidos
c. STATISTICS MEAN. Con las siguientes opciones (el significado de estas expresiones ha sido expuesto en el cuadro <para datos
cuantitativos>):
a) MEAN
b) STDDEV
c) VARIANCE
d) KURTOSIS
e) SKEWNESS
f) RANGE
g) MINIMUM