Sunteți pe pagina 1din 219

Análisis de Datos Unidimensionales

Fecha: 2005

From: Estadística descriptiva y nociones de probabilidad


Publisher: Ediciones Paraninfo, S.A.
Tipo de documento: Topic overview
Páginas: 45
Content Level:  (Level 5)

Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar

Página 25
Análisis de Datos Unidimensionales
Recuadro:  Ocultar

OBJECTIVOS
Definir una serie de medidas (estadisticos descriptivos básicos) que sinteticen la
información contenida en una distribución de frecuencias unidimensional, tanto de
valores agrupados como sin agrupar, y aprendet a calcularlos e interpretarlos.
Comparar la dispersión entre dos o más variables o distribuciones de frecuencias.
Estudiar cómo se ven afectados los estadísticos al transformar los datos de una
variable. Cuantificar e interpretar la concentración de una distribución.

Página 26  |  Inicio del artículo

2.1. MEDIDAS DE POSICIÓN


En general, las medidas de posición indican un valor de la variable en torno al cual
se sitúan un grupo de observaciones. Puede distinguirse entre:

a) Medidas de tendencia central: media aritmética, armónica, geométrica, mediana


y moda.

b) Medidas de tendencia no central: cuantiles.

A continuación se abordan los principales detalles conceptuales y de aplicación de


cada una de las medidas referidas anteriormente.

2.1.1. Media aritmética(1)


Es la suma de todos los valores de la variable divididos por el número total de

observaciones. Se denota por .

Evidentemente, esta medida sólo se puede calcular si la variable estadística objeto


de estudio es de naturaleza cuantitativa.

El valor que toma la media debe estar siempre incluido entre el valor mínimo y
máximo del dominio de la variable analizada.

Ejemplo 2.1

La plantilla de una empresa durante los últimos 4 meses ha estado formada por
16, 14, 15 y 15 empleados. Determinar la plantilla media de la empresa.

Solución

A partir de la información proporcionada, construimos la distribución de


frecuencias. La variable toma I = 3 valores distintos (xi para i = 1, 2, 3), con
frecuencias 1, 2 y 1, respetivamente.
Página 27  |  Inicio del artículo

Si se añade una tercera columna que recoja, para cada elemento, el producto xini,
su suma se corresponderá con el numerador de la expresión de la media, de
manera que se obtendrá al dividir por el número total de observaciones (N), en
este caso N = 4.

La media será: , es decir, la plantilla media de la empresa en los últimos 4 meses


ha sido de 15 empleados.

Obsérvese que la media de empleados (

) se encuentra comprendida entre el


mínimo valor de la variable (x1 = 14) y el máximo (x3 = 16).

Si la distribución de frecuencias con la que se trabaja es de datos agrupados, para


poder calcular la media se toman, a modo de aproximación a los valores de la
variable, las marcas de clase correspondientes a cada uno de los intervalos, lo
que supondrá una pérdida de precisión, que será tanto mayor cuanto mayor sea la
amplitud de los mismos.

Ejemplo 2.2

De un total de 10 asignaturas optativas se ha tomado el número de alumnos


matriculados en cada una de ellas, obteniéndose la siguiente distribución de
frecuencias.
¿Cuál es el número medio de alumnos matriculados?

Solución

Para calcular la media de alumnos matriculados ( ), lo primero es determinar la


marca de clase (xi, i = 1, 2) de cada intervalo. Seguidamente se añade una
columna que recoja el producto xini y se suma.

Página 28  |  Inicio del artículo

Al dividir este resultado entre el número total de observaciones (N = 10) se obtiene
la media,

La media aritmética puede utilizarse si los datos con los que se trabaja son de
naturaleza aditiva, es decir, que al sumar todos los valores, estos representen el
total de la población. Variables aditivas son, por ejemplo, el número de empleados,
la renta, el salario, etc. Por el contrario, variables no aditivas son: tipos de interés,
velocidad, rentabilidad, etc.

Entre las principales ventajas que presenta la media se pueden destacar las
siguientes:

 Se puede calcular siempre que las variables sean de tipo cuantitativo.


 Su cálculo resulta fácil y en él intervienen todos los valores de la
distribución.
 La media aritmética es el centro de gravedad de la distribución, es decir, es
el punto que por término medio dista menos de todas las observaciones de la
distribución.
 Es una medida única y definida de forma objetiva en cada distribución de
frecuencias.

En cuanto a los inconvenientes, tal vez el más importante sea que la media
aritmética de la distribución puede llegar a ser muy poco representativa del
conjunto de los valores observados si existe mucha dispersión en los datos. Se
trata de una medida muy sensible a los valores extremos(2) .

Ejemplo 2.3

Para un total de 4 empresas se dispone de información relativa al tamaño, medido


a través del activo (millones de €):

¿Cuál es el tamaño medio del conjunto de las empresas?

Página 29  |  Inicio del artículo

Solución

El tamaño medio ( ) se obtiene al sumar todos los valores de la variable y


dividir por el número de observaciones (empresas), así:

Como se pone de manifiesto en el ejemplo anterior, los valores del activo son muy
diferentes entre sí, con lo que la media (275 millones de €) será poco
representativa. Cuando ocurre esto, es preferible utilizar otras medidas de posición
central, por ejemplo la mediana (véase Epígrafe 2.1.2.).

Con todo, la media aritmética es la medida de posición central más utilizada, de la


que cabe destacar las siguientes propiedades:

1. La suma de las desviaciones de todos los valores de la variable respecto a


su media es cero.
2. Si (i = 1, 2, …, k) corresponden a las medias
de k grupos distintos de tamaño Ni (i = 1, 2, …, k), respectivamente, se cumple
que la media aritmética del conjunto es:

3. Depende de los cambios de origen y de unidad (véase Apartado 2.5).


Ejemplo 2.4

En una empresa de fabricación de muebles, el departamento de control de calidad


ha inspeccionado cada hora, durante las 3 últimas, un total de 6, 8 y 6 muebles
respectivamente, encontrando en cada una de ellas un número medio de defectos
de 3, 5 y 2. Determinar el número medio de defectos del total de muebles
inspeccionados.

Solución

Aplicando la segunda propiedad de la media:

Página 30  |  Inicio del artículo


2.1.2. Media armónica y geométrica
La media armónica, que se denota por Mh, se define como:

siendo:
En el caso particular de que las frecuencias fuesen unitarias, esto es, ni = 1 ∀ i,
entonces:

Además, a la hora de calcular la media armónica suele utilizarse que la inversa de


la media armónica es la media aritmética de los valores inversos de la variable,
esto es:

Por su parte, la media geométrica, que es empleada cuando las variables son de
naturaleza multiplicativa en el sentido, por ejemplo, que los intereses generan
nuevos intereses o cuando el incremento salarial se efectúa sobre el anterior y no
sobre uno fijo, se denota por Mg y se define como:

En el caso particular de que las frecuencias fuesen unitarias (ni = 1 ∀ i), entonces
se tienen:

Además, a la hora de calcular la media geométrica suele utilizarse que el logaritmo


de la media geométrica que es igual a la media aritmética de los logaritmos de los
valores de la variable, esto es:

Página 31  |  Inicio del artículo


De la misma forma que se indicó para la media aritmética, el valor que tome la
media armónica y la media geométrica(3) debe estar siempre incluido entre el
valor mínimo y máximo del dominio de la variable analizada.

2.1.3. Mediana
Ordenada la distribución de frecuencias de menor a mayor, la mediana, que se
denota por Me, es un valor del recorrido de la variable que deja el mismo número
de observaciones a su izquierda y a su derecha.

Para el cálculo de la mediana es necesario distinguir entre distribuciones de


frecuencias de valores sin agrupar y agrupados, pero la idea que siempre hay que
tener presente es que la mediana es aquel valor de la variable al que corresponde
una frecuencia acumulada igual a N/2.

2.1.3.1. Distribuciones de frecuencias de valores sin agrupar

Al trabajar con valores sin agrupar hay que considerar varias posibles situaciones
(Figura 2.1). Cada una de éstas será tratada a continuación.

Figura 2.1.

Situación 1. Distribución de frecuencias unitarias

Si el número de observaciones es impar, el valor de la mediana coincidirá con el


valor xi (Me = xi) que deje a derecha e izquierda el mismo número de
observaciones.

Si el número de observaciones es par, entonces el valor de la mediana se


obtendrá como la media del valor(4) ): .

Página 32  |  Inicio del artículo


Ejemplo 2.5
Una variable estadística X toma los siguientes 7 valores distintos:

Determinar la mediana.

Solución

Puede verse fácilmente que el valor de la variable xi = 6 deja el mismo número de


observaciones, un total de 3, a cada lado.

Por tanto, el valor de la mediana es:

Ejemplo 2.6

Obtener la mediana de una variable estadística que toma los siguientes 6 valores
distintos:

Solución

En este caso, lo primero que debe hacerse es ordenar la distribución de


frecuencias de menor a mayor.

El valor de la variable que deja el mismo número de observaciones a ambos lados,


la mediana, se sitúa entre 5 y 6. Así:

Situación 2. Distribución de frecuencias no unitarias


Cuando la distribución de frecuencias es no unitaria, se suele utilizar el siguiente
criterio para determinar el valor de la mediana: sea Ni la primera frecuencia
absoluta acumulada igual o superior a N/2, entonces:

Página 33  |  Inicio del artículo


Ejemplo 2.7

Obtener la mediana de la siguiente distribución de frecuencias.

Solución

La mitad de las observaciones corresponde a

. El valor de la variable
que contiene una frecuencia acumulada de 4 es x2 = 3, con N2 = 5.

Por tanto, como entonces Me = x2 → Me = 3.

Ejemplo 2.8
Obtener la mediana de la siguiente distribución de frecuencias.

Solución

El valr de la variable que acumula un número de observactiones igual

ex x2 = 4.

Por tanto, como se tendrá que

. La mediana de la distribución es 5.

Página 34  |  Inicio del artículo


2.1.3.2. Distribuciones de frecuencias agrupadas

Este caso tiene menos interés, pues actualmente no se suele trabajar con datos
agrupados, dado que la informática permite manejar mucha información sin
necesidad de perder parte de ella en agrupaciones.
El problema se resuelve obteniendo en primer lugar el llamado intervalo mediano,
el primero cuya frecuencia absoluta acumuluda Ni alcanza o sobrepasa N/2.

Es decir, .

Para precisar el valor de la variable que corresponde a la mediana(5) se supone


que la frecuencia correspondiente al intervalo se distribuye uniformemente y por
reparto proporcional se obtiene el valor buscado.

Ejemplo 2.9

El número de proyectos de mejora propuestos por los 20 círculos de calidad


existentes en una empresa han sido agrupados de la siguiente forma:

Determinar el intervalo mediano.

Solución

Para saber en qué intervalo estará incluida la mediana lo primero es insertar una
columna que represente la frecuencia absoluta acumulada (Ni), tal y como se
refleja en la siguiente tabla.
Página 35  |  Inicio del artículo

Como la mediana es el valor de la variable que acumula observaciones, ésta


estará contenida en el intervalo [16, 20[, que es el intervalo mediano, puesto que

2.1.4. Moda
La moda de una distribución, a la que se denotará por Mo, representa el valor de
la variable con mayor frecuencia. No tiene por qué ser única. Es decir, si hay dos o
más valores de la variable que tienen la misma frecuencia, siendo esta la mayor,
se estará ante una distribución multimodal (bimodal, dos modas; trimodal, tres
modas; etc.).

Del mismo modo que se procedió con la mediana, para determinar la moda debe
distinguirse entre distribuciones de valores sin agrupar y agrupados.

2.1.4.1. Distribuciones de frecuencias de valores sin agrupar

En este caso, y según la definición de la moda, hay que fijarse en cuál es el valor
de la variable que más se repite, el de mayor frecuencia.

Ejemplo 2.10

Se ha preguntado a 15 estudiantes por el número de horas semanales dedicadas


al estudio, recogiéndose sus respuestas en la siguiente distribución de
frecuencias.

Obtener la moda del número de horas de estudio.

Solución

La moda es 5 (Mo = 5), puesto que es el valor de la variable con mayor frecuencia.
Un total de 8 estudiantes dedican 5 horas a estudiar.
Página 36  |  Inicio del artículo
Ejemplo 2.11

Se ha preguntado a 5 estudiantes por el número de horas semanales dedicadas al


estudio, siendo sus respuestas:

Obtener la moda del número de horas de estudio.

Solución

En esta distribución todos los valores de la variable se considerarían modas


pues ni = 1 ∀ i.

2.1.4.2. Distribuciones de frecuencias de valores agrupados

Cuando se trabaja con valores agrupados en intervalos, lo más sencillo para


determinar el valor modal consiste en dibujar el histograma.

La moda estará contenida en el intervalo de mayor altura, al que se denomina


intervalo modal.

Ejemplo 2.12

Obtener el intervalo modal de la distribución de frecuencias del Ejemplo 2.9.

Solución

Para determinar el intervalo modal se añade una columna que recoja la altura (hi)
asociada a cada intervalo. En este ejemplo todos los intervalos tienen la misma
amplitud (ci = 4), por lo que el intervalo de mayor frecuencia será el que tenga
mayor altura y, por tanto, el intervalo modal.

Así pues, la moda estará contenida en el intervalo [16, 20[.


Existen casos en los que, sin necesidad de realizar ningún cálculo, es posible
aproximar el valor que toma la moda en el intervalo modal. Así, en la Figura 2.2,
Gráfica (a), puede observarse cómo, si los intervalos anterior y posterior al
intervalo modal tienen la misma altura, la moda coincidirá con la marca de clase.
En cambio, si el intervalo posterior al modal es de mayor altura que el anterior,

Página 37  |  Inicio del artículo

Figura 2.2.

Gráfica (b), la moda se desplaza hacia la derecha de la marca de clase,


coincidiendo su valor con el límite superior del intervalo modal cuando la altura del
anterior al mismo sea cero, como puede verse en la Gráfica (c). De forma análoga,
la moda coincidirá con el extremo inferior del intervalo modal cuando la altura del
intervalo posterior a éste sea cero, Gráfica (d).

Siguiendo con el criterio anterior de aproximar el valor de la moda en proporción


inversa a las alturas de los rectángulos del histograma anterior y posterior al
modal, se recurre a la siguiente expresión:

donde ci es la amplitud del intervalo modal, Li-1 su extremo inferior; hi-1 es la altura


asociada al intervalo anterior al modal y hi+1 a la del posterior.

Ejemplo 2.13
En la siguiente distribución de frecuencias se refleja la retribución mensual de los
260 empleados del área de fabricación de una gran empresa industrial.

¿Cuál es la retribución más frecuente en esta área funcional?

Página 38  |  Inicio del artículo

Solución

Como fácilmente puede observarse en la distribución de frecuencias del


enunciado, los intervalos son de distinta amplitud. En consecuencia, y a diferencia
del Ejemplo 2.12, el intervalo al que corresponde mayor frecuencia no
necesariamente tiene que ser el que tenga mayor altura asociada.

Añadiendo a la tabla dos nuevas columnas que recojan la amplitud (ci) y altura (hi)
de cada intervalo:

Como puede verse en la tabla anterior, en este caso existen dos modas (la
distribución es bimodal), la primera estará incluida en el intervalo [800, 1.000] y la
segunda en [1.000, 1.400].

Sin necesidad de realizar ningún cálculo, podría decirse que la primera moda será
1.000, puesto que la altura del intervalo anterior al modal es cero. En cambio,
respecto a la segunda, como el intervalo anterior a [1.000, 1.400] es de mayor
altura que el posterior, sólo puede decirse que su valor se encontrará ligeramente
por debajo de la marca de clase (x2 = 1.200). Una mejor aproximación al valor de
la moda puede obtenerse con la expresión dada en (2.1).
Por tanto, las retribuciones más frecuentes en el área de fabricación de esta
empresa son 1.000 € y 1.177,78 €.

2.1.5. Cuantiles
Ordenados de menor a mayor los valores de la variable y dado un entero
positivo k, las familias de cuantiles serán valores del recorrido de la variable que
dividirán la distribución en k partes, conteniendo cada una de ellas la misma
proporción de observaciones .

Página 39  |  Inicio del artículo

Las familias de cuantiles más utilizadas son aquellas que dividen la distribución de
frecuencias en cuatro, diez y cien partes y se conocen con el nombre de cuartiles,
deciles y percentiles, respectivamente:

a) Cuartiles (k = 4): son tres valores (Cs, s = 1, 2, 3) del recorrido que dividen la
distribución en 4 partes, conteniendo cada una de ellas el 25% de las
observaciones.

b) Deciles (k = 10): son nueve valores del recorrido (Ds, s = 1, 2, …, 9) que dividen
la distribución en 10 partes, de tal forma que cada una de ellas contendrá el 10%
de las observaciones.

c) Percentiles (k = 100): son noventa y nueve valores del recorrido (Ps, s = 1, 2, …,
99) que dividen la distribución en 100 partes, conteniendo cada una de ellas el 1%
de las observaciones.

En general (para cualquier valor de k): una familia de cuantiles de orden

s = 1, 2, …, (k − 1), se identificará como los


(k − 1) valores del recorrido de la variable , que dividirán en k partes la
distribución de la variable conteniendo, cada una de ellas, una proporción de

valores de .
De esta forma, si es el cuantil de orden

, un porcentaje de
de los valores de la variable (como mínimo) serán menores

o iguales que y un porcentaje de

. 100 de los valores (como mínimo) serán mayores o iguales que

Así, por ejemplo, el primer cuartil C1 será el cuantil Q1/4, de tal forma que, al


menos, el 25% de los valores serán menores o iguales que C1 y, al menos, el 75%
restante serán mayores o iguales que C1.

Análogamente, podemos identificar los deciles y percentiles como cuantiles en

general: , etc.

El procedimiento de cálculo es análogo al estudiado en el caso de la mediana, es


decir, suponiendo datos sin agrupar:

Página 40  |  Inicio del artículo

donde Qs/k es el cuantil (cuartil, decil o percentil) que se quiere calcular y que

acumulará una proporción de observaciones.

Si la distribución de frecuencias es de valores agrupados se determinará el


intervalo cuantílico, es decir, aquel que contiene el cuantil que se quiere obtener.

Ejemplo 2.14

Dada la siguiente tabla de frecuencias:


Obtener el segundo cuartil, el cuarto decil y nonagésimo percentil.

Solución

El segundo cuartil (C2) es el valor de la variable que deja a su izquierda, esto es


acumula, un número mínimo de observaciones del 50%.

por tanto, como entonces C2 = Q2/4 = x3 = 18.

Obsérvese que el valor del segundo cuartil coincide con el de la mediana. De


hecho, C2 = D5 = P50 = Me = Q1/2.

El cuarto decil (D4) es el valor que acumula como mínimo un 40% de las
observaciones:

Página 41  |  Inicio del artículo

en consecuencia, como , el cuarto decil será:


Por último, el nonagésimo percentil, P90, es el valor que acumula como mínimo un
90% de las observaciones:

con lo que el percentil noventa será: , dado

que .

2.2. MEDIDAS DE DISPERSIÓN


El término dispersión o variabilidad hace referencia a cómo de distantes, de
separados, se encuentran los datos. En este sentido, si los distintos valores de la
distribución se encuentran próximos entre sí, estos presentarán poca dispersión o
variabilidad; si por el contrario están alejados, mostrarán mucha dispersión.

Pueden calcularse diversas medidas de dispersión, aunque las más habituales


son el rango (o recorrido), la varianza y la desviación típica. Las anteriores son
medidas de dispersión absoluta. Sin embargo, si lo que se quiere es comparar
varias distribuciones de frecuencias en términos de variabilidad, para ver cuál es la
que presenta mayor o menor dispersión, debe obtenerse una medida relativa
como, por ejemplo, el coeficiente de variación de Pearson.

2.2.1. Rango
El rango o recorrido de una distribución es la diferencia entre el valor máximo y
mínimo, es decir, Re = xmax − xmin. La principal desventaja de este tipo de medida
de dispersión es que únicamente tiene en cuenta dos valores de la variable.

2.2.2. Varianza y desviación típica


La varianza, que se denota por S2X, se define como la media aritmética de los
cuadrados de las diferencias de los valores de la variable a la media aritmética:
Página 42  |  Inicio del artículo

Con la varianza se pretende medir la dispersión que presentan los valores de la


variable respecto de su media. Cuanto mayor sea la varianza, cuanto mayor sea la
dispersión, menos representativa resultará ser la media.

Una expresión equivalente a la anterior para calcular la varianza, muy utilizada por
cuanto simplifica considerablemente la operatoria, es:

(6)

De la definición de varianza se desprende que ésta nunca puede ser negativa


(S2X≥0) y que se encuentra expresada en unidades de medida al cuadrado.

Además, la varianza no depende de los cambios de origen, pero sí de los de


unidad (véase Apartado 2.5.).

Por su parte, la desviación típica o estándar, que se denota por Sx, es la raíz


cuadrada positiva de la varianza, es decir:

La desviación típica es una medida de dispersión que suele proporcionarse junto


con la media de la distribución, puesto que ambas magnitudes vienen expresadas
en la misma unidad de medida, lo que facilita enormemente la interpretación de los
resultados.

Otro estadístico que se utiliza mucho, especialmente en inferencia estadística, es


la cuasivarianza, que se denota por S*2X, y se define como:
siendo la cuasidesviación típica,

Ejemplo 2.15

El número de ofertas de empleo publicadas en los últimos cinco números en una


revista especializada ha sido:

Calcular el rango, varianza, desviación típica, cuasivarianza y cuasidesviación


típica.

Solución

El rango o recorrido del número de ofertas de empleo (variable X) es:

Página 43  |  Inicio del artículo

Para calcular la varianza, se puede recurrir a la Expresión (2.2) o (2.3).


Evidentemente el resultado es el mismo, simplemente una forma resulta más
cómoda que la otra, como se verá.

Los cálculos necesarios para obtener la varianza pueden obtenerse añadiendo


una serie de columnas a la tabla de frecuencias de las ofertas de empleo
publicadas, tal y como se muestra a continuación:

(7)

Una vez elaborada la tabla anterior resulta casi inmediato el cálculo de la media y
de la varianza.
o bien,

La desviación típica es: anuncios.

La cuasivarianza se puede obtener a partir de la varianza:

La cuasidesviación típica es: anuncios.

Página 44  |  Inicio del artículo


2.2.3. Coeficiente de variación de Pearson
Es el cociente entre la desviación típica y la media aritmética de la variable
estadística X. Suele representarse por g0(X).

Cuanto más próximo a cero se encuentre el coeficiente de variación menor será la


dispersión (relativa) y mejor la representatividad de la media aritmética.

El coeficiente de variación es una medida de dispersión relativa. Por esta razón,


se utiliza para comparar la dispersión entre dos o más distribuciones,
independientemente del valor de sus medias y de la unidad de medida de las
variables.

Ejemplo 2.16

Dos revistas especializadas en empleo, A y B, han publicado una media de ofertas


de trabajo, que requieren alta cualificación, de

con varianzas, respectivamente, de S2A = 4


2
y S B = 9. ¿Qué revista presenta mayor dispersión absoluta? ¿Y relativa?

Solución

La revista B presenta mayor dispersión absoluta que la revista A, puesto que S2B =


9 > S2A = 4. Ahora bien, para comparar correctamente la dispersión en ambas
publicaciones (con medias distintas), debe calcularse el coeficiente de variación,
medida de dispersión relativa, que mide el número de veces que la desviación
típica contiene a la media. Por tanto:

es decir, como g0(B) < g0(A) puede concluirse que la dispersión relativa de la


revista B es menor que la de la revista A.

2.3. MOMENTOS
A partir de la distribución de frecuencias es posible calcular una serie de valores
específicos que la caracterizan. Estos valores son los denominados momentos.

Los estadísticos obtenidos hasta ahora como media y varianza pueden


considerarse casos particulares de los momentos. A continuación se estudian los
principales detalles de los distintos tipos de momentos que pueden obtenerse,
momentos ordinarios y centrales, así como la relación que puede establecerse
entre ellos.

Página 45  |  Inicio del artículo


2.3.1. Momentos ordinarios o respecto al origen
Dada una variable estadística unidimensional (X) y su distribución de frecuencias,
se define el momento ordinario (o respecto al origen) de orden p, que se denota
por ap(X), como:

Los distintos momentos ordinarios son obtenidos al asignar valores a p.


Seguidamente se presentan algunos casos particulares:

2.3.2. Momentos centrales o respecto a la media


Dada una variable estadística unidimensional (X) y su distribución de frecuencias,
se define el momento central (o respecto a la media) de orden p, que se denota
por mp(X), como:

Algunos casos particulares son:


Página 46  |  Inicio del artículo

Momento central de orden 2: . Es decir, el momento central de orden 2


coincide con la varianza [véase Expresión (2.2)].

2.3.3. Relación entre los momentos ordinarios y centrales


Es posible expresar cualquier momento central en función de los momentos
ordinarios. Para ello se recurre a la siguiente relación:

Por ejemplo, la expresión del momento central de orden 2 en función de los


momentos ordinarios se obtiene para p = 2(8) .

Operando:

Sustituyendo el momento ordinario de orden 2 por la expresión que lo hace


operativo, y recordando que el momento ordinario de orden 1 coincide con la
media:
expresión para la varianza que coincide con la dada en (2.3).

Página 47  |  Inicio del artículo


Ejemplo 2.17

Expresar el momento central de orden 3 de la variable X en función de los


momentos ordinarios.

Solución

Recurriendo a la Expresión (2.4)

Operando:

Es decir:

2.4. MEDIDAS DE FORMA


En este apartado se va a comparar una determinada distribución de frecuencias
con un modelo ideal, la distribución Normal (que tiene forma de campana). La
comparación se centrará, básicamente, en dos aspectos fundamentales. Por una
parte, en determinar si la distribución con la que se está trabajando es simétrica,
como la normal, o bien es asimétrica, esto es, se encuentra desplazada hacia un
lado. Por otro parte, resulta también interesante conocer cómo es la distribución
en cuanto a su apuntamiento respecto al mencionado modelo ideal. Estas
cuestiones pueden ser resueltas al representar gráficamente la distribución de
frecuencias y observar su forma o, caso de no poder hacer esto, calculando las
oportunas medidas, a saber: asimetría y apuntamiento (curtosis).

Página 48  |  Inicio del artículo


2.4.1. Medidas de asimetría
En la Figura 2.3 se ha representado la distribución normal [Gráfica (a)]. Puede
observarse como ésta es una distribución simétrica respecto a la media, «al doblar
la distribución por el eje de simetría ambas partes coinciden» [Figura 2.3, Gráfica
(b)]; en caso contrario se dice que la distribución es asimétrica.

Figura 2.3.

Para medir la asimetría de una distribución pueden utilizarse diferentes


coeficientes, aunque es frecuente obtener el denominado coeficiente de asimetría
(de Fisher), que se denota por g1, y se define como el cociente entre el momento
central de orden 3 y la desviación típica elevada al cubo. Por tanto, el coeficiente
de asimetría de la variable X vendrá dado por:
de tal forma que si la distribución es asimétrica g1(X) tomará un valor distinto de
cero, positivo o negativo, tanto mayor (en términos absolutos) cuanto más
asimétrica sea la distribución. Si g1(X) = 0 la distribución puede ser simétrica o no,
será necesario apoyarse en su representación gráfica (Figura 2.4); ahora bien, si
la distribución es simétrica el coeficiente de asimetría de Fisher siempre será cero.

Puede observarse que, cuando los valores de la variable más frecuentes son los
mayores y la distribución presenta una cola a la izquierda, ésta es asimétrica
negativa. En cambio, cuando los valores más comunes de la distribución son los
menores, cola hacia la derecha, ésta es asimétrica positiva.

En distribuciones unimodales y campaniformes, como las representadas en la


Figura 2.4, se cumple que cuando la distribución es asimétrica negativa y

cuando es
asimétrica positiva.

Página 49  |  Inicio del artículo


Figura 2.4.

Ejemplo 2.18

A partir de las calificaciones en estadística de 50 estudiantes universitarios de


primer curso se han obtenidos los siguientes estadísticos:

¿Es simétrica la distribución de las calificaciones obtenidas en esta asignatura?

Solución

El coeficiente de asimetría se define como el cociente entre el momento central de


tercer orden y el cubo de la desviación típica.

En primer lugar se calculará y SX y a continuación m3(X) a partir de la


expresión dada en la solución del Ejemplo 2.17.
Página 50  |  Inicio del artículo

Resolviendo, m3(X) = − 3,504. Por tanto, .

Es decir, la distribución de las calificaciones obtenidas en la asignatura de


estadística es asimétrica negativa, como puede verse en la Figura 2.6, en el
Ejemplo 2.19, donde se representa gráficamente.

2.4.2. Medidas de apuntamiento (curtosis)


Las medidas de apuntamiento analizan si una distribución de frecuencias es más
apuntada o menos al comparar ésta con una distribución tipo, la distribución
Normal (véase Figura 2.5) con su misma media y varianza.

El hecho de que una distribución sea muy apuntada, o poco, dependerá de la


cantidad de valores de la variable que se encuentren en torno a la zona central y
se agrupen alrededor de la media aritmética. Una medida que permite conocer
este grado de apuntamiento es el coeficiente de curtosis, que se denota por g2, y
que se define, en este caso para una variable X, como:
En la expresión anterior se resta el valor 3, puesto que en la distribución Normal,

que se toma como referencia a la hora de realizar la comparación, .

Si g2(X) > 0, la distribución es leptocúrtica, más apuntada que la Normal.

g2(X) = 0, la distribución es mesocúrtica, igual de apuntada que la Normal.

g2(X) < 0, la distribución es platicúrtica, más achatada que la Normal.

Figura 2.5.

Ejemplo 2.19

En la Figura 2.6 se representa la distribución de frecuencias correspondiente al


Ejemplo 2.18.

Página 51  |  Inicio del artículo


Figura 2.6.

¿Qué puede decir acerca de su apuntamiento o aplastamiento? ¿Qué coeficiente


de curtosis cabe esperar?

Solución

Sobre el diagrama de barras de las calificaciones obtenidas en estadística por los


50 estudiantes universitarios consultados, se ha dibujado la distribución normal

ajustada a esta distribución de media ( ) y desviación típica (Sx = 1,857).


Al comparar ambas se puede intuir que la distribución de las calificaciones es
ligeramente más apuntada que la normal, por ello cabe esperar un coeficiente de
curtosis positivo (leptocúrtica).

2.5. TRANSFORMACIONES LINEALES Y TIPIFICACIÓN DE


VARIABLES
Supóngase que, en principio, se está trabajando con la distribución de frecuencias
de una variable estadística X, de la que se ha obtenido una serie de estadísticos
(media, varianza, etc,) y que por cualquier circunstancia es necesario pasar a
trabajar con otra variable estadística Y, que se obtiene a partir de la anterior como
resultado de:

— Sumar (o restar) una constante a a todos los valores de la variable


estadística X, es decir, de efectuar sobre ésta un cambio de
origen: Y = X + a o Y = X - a.

Página 52  |  Inicio del artículo


— Multiplicar (o dividir) por una constante b todos los valores de la variable X, es
decir, de realizar sobre X un cambio de unidad (o escala): Y = b · X o .

— Practicar sobre la variable X tanto un cambio de unidad como de origen, por


ejemplo: Y = b · X + a.

Pues bien, para obtener aquellas mismas medidas conocidas para la nueva
variable Y no es necesario crear su distribución de frecuencias y realizar de nuevo
todos los cálculos que se efectuaron en su momento para la variable X. Es
suficiente con conocer cómo afectan los cambios de origen y unidad a los distintos
estadísticos y recurrir a la transformación lineal empleada para obtener Y a partir
de X (véase Tabla 2.1).

En la Tabla 2.1, y para algunas transformaciones lineales tipo, a partir de los


estadísticos , S2x, g0(X), g1(X), g2(X) y mp(X) de la variable estadística X,
que se suponen conocidos, se muestran estas mismas medidas para la variable Y.

Tabla 2.1.

Ejemplo 2.20
Determinar la media, varianza y coeficiente de variación de Pearson de la variable

estadística Y, que es obtenida como , sabiendo que

y S2x = 4.

Página 53  |  Inicio del artículo

Solución

La variable Y es obtenida al aplicar, sobre la variable X, un cambio de escala (b =


1/4) y un cambio de origen (a = 2).

La media depende tanto de los cambios de origen como de unidad, ambos deben
ser tenidos en cuenta a la hora de calcular la media de la variable Y, así:

La varianza (en general todos los momentos centrales) únicamente depende de


los cambios de unidad, siendo invariante ante cambios de origen, por tanto:

El coeficiente de variación de Pearson es invariante ante cambios de unidad, pero


no a los de origen; de forma que caso de existir este último queda afectado por
ambos.

Por otra parte, tipificar una variable consiste en obtener, a través de una


transformación lineal «especial», otra variable con media y desviación típica (o
varianza) prefijada. Esto es, tipificar una variable X, con media y
desviación típica SX, consiste en transformar ésta en otra Z con media

y desviación típica SZ. La variable Z se dice que es la variable


tipificada de X.

En general, si el objetivo es conseguir una variable tipificada Z con media

y SZ = k, la transformación lineal a realizar será:


El caso de tipificación más utilizado se conoce como tipificación estándar, y
consiste en transformar la variable X en otra variable Z, con media 0 y desviación
típica 1. En este caso, la transformación lineal consiste en restar al valor de la
variable la media y dividir entre la desviación típica, de esta forma, la variable
resultante Z, será:

Si el coeficiente de variación de Pearson es empleado para comparar la dispersión


entre dos o más distribuciones, la tipificación resulta útil cuando se quiere
comparar individuos o cantidades que en principio no son comparables, bien
porque provienen de poblaciones diferentes, bien porque aluden a conceptos
distintos.Página 54  |  Inicio del artículoEn este sentido, los valores tipificados que
son obtenidos indican la distancia a la que se encuentran cada uno de ellos
respecto a la media, distancia que es medida en términos de desviaciones típicas.
Por tanto, fácilmente puede compararse la posición relativa de cada valor.

Ejemplo 2.21

En la sección de pintura de un taller de reparaciones trabajan tres personas. Sus


salarios son de 900, 950 y 1.000 €. Obtener los salarios tipificados a media cero y
desviación típica 1.

Solución

La media y desviación típica de los salarios será:


Una vez obtenidas y SX pueden determinarse los
valores tipificados:

Figura 2.7.

Puede comprobarse que y SZ = 1. Los valores z1 y z3, que se corresponden


con los salarios de 900 y 1.000 €, respectivamente, se encuentran a 1,225
desviaciones típicas de la media, es decir, se encuentran a la misma distancia de
ésta.

Página 55  |  Inicio del artículo

2.6. MEDIDAS DE CONCENTRACIÓN: CURVA DE LORENZ E


ÍNDICE DE GINI
Las medidas de concentración, que no se deben confundir como opuestas a las
medidas de dispersión, indican el mayor o menor grado de igualdad (o
equidistribución) en el reparto total de los valores de la variable objeto de estudio.

La concentración puede determinarse gráficamente a través de la curva de


Lorenz. Una medida analítica para la concentración es el conocido como índice de
Gini.

2.6.1. Curva de Lorenz


Mediante la curva de Lorenz (véase Figura 2.8) se relaciona el porcentaje
acumulado de frecuencias (pi)—hogares, familias, individuos, trabajadores,
industrias, etc.—, que se representa en el eje de abscisas, con el porcentaje
acumulado del volumen total de la variable (qi)—ingresos, ventas, renta, producto
interior bruto, etc.— que le corresponde, que se representa en el eje de
ordenadas. Dicha curva, que comienza en el punto (0, 0) y finaliza en el (100,
100), es creciente por representar porcentajes acumulados y se encuentra situada
por debajo de la bisectriz al ser pi ≥ qi  ∀ i.

2.6.2. Índice de Gini


El índice de Gini, que se denota por IG, es aproximadamente el cociente entre el
área comprendida entre la bisectriz del primer cuadrante y la curva de Lorenz y el

triángulo (véase Figura 2.8).

Figura 2.8.

Página 56  |  Inicio del artículo

A nivel práctico suele utilizarse, como aproximación, la siguiente expresión:


La ventaja del índice de Gini es que proporciona una medida cuantitativa de la
concentración. Éste puede tomar valores comprendidos entre 0 y 1, es decir, 0
≤ IG ≤ 1, de tal forma que si IG = 0 existe equidistribución (o no concentración),
produciéndose una concentración máxima cuando IG = 1. Por tanto, cuanto más
próximo a cero se encuentre el índice de Gini, menor será el grado de
concentración.

Relacionando curva de Lorenz e índice de Gini (véase Figura 2.9), cuanto menor
sea este último, menor será el área comprendida entre la bisectriz y la curva de
Lorenz. En el caso que la concentración sea mínima (IG = 0), la curva de Lorenz
coincide con la bisectriz, lo que indica que a un porcentaje acumulado de
individuos le corresponde ese mismo porcentaje acumulado del volumen total de
la variable (pi = qi ∀ i).

Figura 2.9.

En caso de máxima concentración (IG = 1), la curva de Lorenz coincide con el


triángulo
. En
este caso extremo, un solo individuo, el último, concentra el volumen total de
variable, no encontrándose nada en manos de los restantes (N − 1) individuos.

2.6.3. Haciendo operativo el índice de Gini y la curva de Lorenz


Para poder representar la curva de Lorenz y obtener el índice de Gini, es
necesario calcular los porcentajes acumulados de individuos y del volumen total
de laPágina 57  |  Inicio del artículovariable. Para ello, lo más práctico consiste en
añadir columnas a la tabla de frecuencias original, tal y como se muestra en la
Tabla 2.2.
Tabla 2.2.

Ejemplo 2.22

Las horas de formación recibidas a lo largo del último año por los 40 directivos de
distinto nivel, de la filial española de una compañía multinacional, se recogen en la
siguiente tabla.

Representar la curva de Lorenz y calcular el índice de Gini.

Solución

Confeccionando una tabla similar a la Tabla 2.2.

Página 58  |  Inicio del artículo

Representando el punto (0, 0) y los distintos pares (pi, qi), esto es, (p1 = 50, q1 =
34,78); (p2 = 75, q2 = 60,87); (p3 = 87,5, q3 = 78,26); la curva de Lorenz se obtiene
al unir los puntos mediante segmentos.
Figura 2.10.

En cuanto al índice de Gini:

es decir, el número de horas de formación destinadas a los diferentes niveles


directivos en esta filial están relativamente bien repartidas.

Página 59  |  Inicio del artículo

CUESTIONES DE AUTOEVALUACIÓN
2.1 En un total de 10 empresas de un determinado sector de actividad se ha
observado el número de empleados, obteniéndose los valores siguientes: 15, 21,
22, 26, 32, 35, 40, 50, 54, 1.000, donde y Me = 33,5.

¿Qué medida de posición es preferible utilizar como resumen del conjunto de


datos de la variable?

a) La media aritmética, porque es la medida de posición central por excelencia y


siempre que se conozca se debe utilizar ésta.

b) La mediana, porque como existe un valor muy alejado del resto, la media es
poco representativa del conjunto de valores de la distribución.

c) Es indiferente.
d) Ninguna de las anteriores es correcta.

2.2 Se estudian los salarios que perciben los empleados de una empresa. El
menor de los salarios es de 600 €/mes y el mayor de 2.400 €/mes. ¿Cuál de los
siguientes resultados puede ser cierto?

a) = 1.200 €, SX = 0 €

b) = 1.000 €, SX = 200 €

c) = 500 €, SX = 200 €

d) = 1.200 €, SX = 150 €

2.3 Se invierten 12.000 € a plazo fijo durante dos años. El primer año el capital se
incrementa en un 3% y el segundo en un 12% acumulativo. El interés o
incremento medio anual es:

a) 7,5 %.

b) 7,406 %

c) 4,8 %

2.4 Si el coeficiente de asimetría de una variable X es 4, y se realiza una


transformación lineal de la forma Y = 50 + 60X, ¿cuál es el coeficiente de
asimetría de la nueva variable?

a) El coeficiente de asimetría vale 24.


b) El coeficiente de asimetría vale 4.

c) El coeficiente de asimetría vale 74.

d) No se puede obtener el coeficiente de asimetría de Y a partir de la información


de la que se dispone.

Página 60  |  Inicio del artículo

2.5 Supóngase una variable estadística X tal que y Sx2 = 35.


Si se realizase un cambio de variable aplicando la transformación Y = 10 + 5X,
entonces:

a) = 165 y Sx2 = 875

b) = 165 y Sx2 = 35

c) = 155 y Sx2 = 875

d) = 155 y Sx2 = 35

2.6 Una empresa de componentes electrónicos dispone de tres plantas de


producción (A, B y C) con 100, 150 y 200 operarios de fabricación
respectivamente. Si el número medio mensual de unidades producidas por cada
empleado en la planta A es de 2.000, en la planta B de 2.500 y en la planta C de
1.750, ¿cual es el número medio mensual de unidades producidas por cada
operario para el global de la empresa?

2.7 Dados los siguientes momentos referentes a una variable estadística:

Se puede decir que la distribución de frecuencias es:

a) Simétrica y leptocúrtica.

b) Asimétrica por la izquierda y platicúrtica.

c) Asimétrica por la izquierda y platicúrtica.

d) Asimétrica por la izquierda y platicúrtica.

2.8 Para que una distribución simétrica con desviación típica igual a 3 sea
mesocúrtica, ¿cuál debe ser el valor del momento central de orden 4?

a) Igual a 243.

b) Mayor a 243.

c) Menor a 243.

d) No se puede calcular el valor de m4.

Página 61  |  Inicio del artículo


2.9 Dada una variable estadística X con media y desviación
típica SX = 3, ¿qué transformación debería realizarse para que la variable tipificada
tuviese media 5 y desviación típica 2?

a)

b)

c)

d) Únicamente pueden obtenerse variables tipificadas con media cero y desviación


típica 1.

2.10 Si el índice de Gini vale 1, se puede afirmar que:

a) No existe concentración, los valores de las variables están equidistribuidos.

b) La curva de Lorenz coincide con la diagonal principal.

c) La curva de Lorenz coincide con los lados del cuadrado, formando un triángulo.

d) Tanto la opción a) como la c) son ciertas.

EJERCICIOS PROPUESTOS
2.1 Se ha preguntado a 9 empresas por el número de personas que emplean,
siendo sus respuestas:

Calcular la media aritmética, mediana y moda.


2.2 A 15 personas que guardaban cola para entrar al museo de «El Prado» se les
ha preguntado por el número de veces que han visitado previamente la
pinacoteca, siendo las respuestas obtenidas:

Calcular la media aritmética, mediana y moda.

2.3 Cierta empresa ha incrementado el salario a sus empleados en los últimos


cinco años en un 1, 2, 3, 4 y 5% acumulativo. Si un trabajador empezó con un
salario 1.000 €, calcular:

a) El incremento medio anual aplicado en estos cinco años.

b) El salario a cobrar cinco años después.

Página 62  |  Inicio del artículo

2.4 Dada la siguiente tabla estadística:

Calcular la media, el intervalo donde está contenida la mediana y el intervalo


modal.

2.5 En la siguiente distribución de frecuencias se recoge el consumo de gas (en


m3), entre los meses de diciembre-enero, de una comunidad de 100 viviendas.

Obtener la media aritmética, el intervalo donde está contenida la mediana y el


intervalo modal de la distribución de consumo de gas.
2.6 Las siguientes cuatro muestras de datos tienen la misma media:

a) 4 4 4 4 4 4 4

b) 1 1 1 1 1 3 20

c) 1 2 3 4 5 6 7

d) 1 12 4 4 8 8

Ordenar el posible valor de sus varianzas (dispersión) de menor a mayor, pero sin
realizar ningún cálculo. Después comprobar el resultado calculando dichas
varianzas.

2.7 Inspeccionadas un total de 40 planchas, el número de defectos (obstrucción


del pulverizador, funcionamiento incorrecto del termostato, etc.) encontrados por el
departamento de calidad ha sido:

Obtener el número medio de defectos y la varianza de estos.

Página 63  |  Inicio del artículo

2.8 El propietario de una tienda de electrodomésticos, tras un descenso en las


ventas del último trimestre, observa el número de clientes que entran en su
establecimiento a lo largo de quince días:

Calcular la media y la desviación típica.

2.9 Una Universidad tiene dos bibliotecas. La información disponible de la variable


«Gasto dedicado a la compra de libros» entre los años 1998 y 2002, en cada una
de las bibliotecas, ha sido el siguiente:
¿En cuál de las dos bibliotecas ha habido menor dispersión en el gasto destinado
a la compra de libros?

2.10 Los directores de producción y recursos humanos han estudiado el


absentismo laboral en dos células de producción. En la célula A el número medio
de horas perdidas resultó ser de 120 horas, con una desviación típica de 36 horas.
En la célula B el absentismo medio se cuantificó en 80 horas de trabajo, con una
desviación típica de 30 horas.

¿En qué célula de producción hay mayor dispersión relativa en el número de horas
perdidas?

2.11 Una compañía, perteneciente a un grupo de grandes empresas (Grupo A),


presenta un beneficio anual de 3,5622 millones de euros. Asimismo, el beneficio
anual de un comercio, perteneciente a una agrupación de pequeñas empresas
(Grupo B), es de 32.280 euros. Si las medias y desviaciones típicas de los
beneficios anuales de las empresas pertenecientes a cada uno de esos grupos
han sido:

Cuál de las dos empresas presenta un beneficio anual relativo mayor, ¿la
compañía o el comercio?

Página 64  |  Inicio del artículo

2.12 Se tiene información acerca del número de goles por partido marcados en
dos ligas europeas:

Liga de fútbol A: Media 3,5 goles y varianza 1,34.

Liga de fútbol B: Media de 2,5 goles y varianza 1,88.


a) ¿En qué liga europea hubo una mayor dispersión relativa?

b) Si en un partido jugado en la liga A el resultado fue 2-0 y en otro partido de la


liga B el resultado fue 1-1. ¿En qué partido el número de goles fue relativamente
mayor?

2.13 Dos empresas del sector químico, A y B, han recogido información sobre el


número de accidentes laborales al mes con baja laboral que se ha producido
durante un determinado periodo de tiempo, obteniendo los siguientes resultados:

Si durante un mes determinado, en la empresa A ha habido 7 accidentes con baja


y en la empresa B se han producido 10 accidentes con baja, ¿en qué empresa el
número de accidentes con baja ha sido relativamente mayor?

2.14 Expresar el momento central de orden 4 en función de los momentos


ordinarios.

2.15 A partir de la siguiente distribución de frecuencias:

Obtener los coeficientes de asimetría y curtosis, y decir cómo es la forma de la


distribución.

2.16 Para una distribución se sabe que , SX2 = 9 obtener


la media, varianza y coeficiente de variación de la variable Y si:
a) Y = X + 4

b) Y = 2X

c) Y = 2X + 4

d)

Página 65  |  Inicio del artículo

2.17 De un estudio realizado en dos poblaciones acerca del tiempo diario (en
minutos) que los niños de 4 a 10 años dedican a ver la televisión, se han obtenido
los siguientes resultados: en la población A dedican una media diaria de 90
minutos con una varianza de 144, mientras que en la población B la media diaria
es de 75 minutos con una varianza de 100.

a) ¿En qué población es mayor la dispersión relativa?

b) Un niño de la población A dedica 82 minutos diarios a ver televisión y otro de la


población B dedica 75 minutos. En términos relativos, ¿qué niño dedica más
tiempo a ver televisión?

2.18 La evolución de la variable X: «Siniestralidad de automóviles (millones de


euros)» en los últimos 6 años ha sido, aproximadamente, la que se recoge a
continuación:
Calcular la media, desviación típica y coeficiente de variación de Pearson de la
variable X partir del cálculo de dichos estadísticos para la variable

2.19 En una empresa hay una sección dedicada a la fabricación de un tipo


especial de piezas. La variable X: «Número de piezas fabricadas al día por un
trabajador», presenta los siguientes momentos:

Asimismo, el «Salario diario de los trabajadores» (variable Y) se compone de 21


euros fijos más una prima de 30 céntimos por pieza producida. Determinar:

a) Los coeficientes de asimetría y apuntamiento de la variable X, comentando la


forma aproximada que tendrá la distribución de esta variable.

b) La media y la desviación típica de la variable Y. ¿Qué forma tendrá la


distribución de esta variable? Justifica las respuestas.

Página 66  |  Inicio del artículo

2.20 Observar las curvas de Lorenz representadas a continuación:

¿Cuál de las dos situaciones representa una distribución más equitativa?


PROBLEMAS REUELTOS
2.1 Una empresa de plásticos se dedica a la realización de piezas para vehículos
de una determinada marca. La distribución del número de piezas que realizan los
250 trabajadores en una hora es la siguiente:

a) Calcular el número medio de piezas terminadas en una hora, la mediana y la


moda.

b) Determinar el primer y el tercer cuartil.

c) Obtener la varianza de las piezas, la desviación típica y el coeficiente de


variación de Pearson.

2.2 Un grupo de expertos lleva a cabo una cata de aceites. A continuación se


facilita la distribución de frecuencias correspondiente a las calificaciones obtenidas
por los aceites de oliva procedentes de 150 almazaras:

Página 67  |  Inicio del artículo

a) Calcular la calificación media obtenida en la cata por el conjunto de los aceites


evaluados.

b) Obtener los intervalos donde están contenidas la mediana y la moda.


c) Calcular la desviación típica de la distribución y el coeficiente de variación de
Pearson.

d) Explicar la forma de la distribución de frecuencias sabiendo que los coeficientes


de asimetría y curtosis son respectivamente g1 = − 0,2 y g2 = − 0,88.

2.3 Sea X la variable estadística que expresa el salario mensual de los


trabajadores de una empresa de la construcción (datos en euros), y de la que es

conocida su media y su
varianza SX2 = 90.000.

Si se definen las siguientes variables:

Y: «Deducción en las nóminas de los trabajadores para la Seguridad Social y


Mutualidad». Esta consiste en deducir un 9,5% del salario más 15 euros fijos.

Z: «Deducción en las nóminas de los trabajadores por retenciones del I.R.P.F».


Esta consiste en deducir un 18% del salario.

Calcular la media y la varianza de las variables estadísticas Y y Z. ¿Cuál presenta


una mayor dispersión relativa?

2.4 El volumen de ventas mensuales de 30 empresas se distribuye como sigue:

Obtener el índice de Gini y la curva de Lorenz.

Página 68  |  Inicio del artículo

PROBLEMAS PROPUESTOS
2.5 Durante el pasado fin de semana, dos agencias de viajes han presentado el
siguiente movimiento en la venta de billetes de avión.

a) Obtener la media, mediana y moda del importe obtenido por la venta de billetes
en cada una de las agencias.

b) ¿En qué agencia ha sido mayor la dispersión en el importe de los billetes


vendidos?

2.6 Una empresa multinacional americana tiene una fábrica en Valencia. Se


realiza un estudio sobre los salarios mensuales (en cientos de euros) de los
empleados de dicha empresa, ofreciendo los siguientes resultados:

a) Calcular los salarios medios de la empresa.

b) ¿Qué porcentaje de trabajadores tiene un sueldo superior a 12 (cientos de €)


mensuales?

c) Si se conocen los siguientes datos correspondientes a los salarios mensuales


(cientos de $) de otra empresa que está situada en Estados Unidos:

¿Cuál de las dos empresas es la que presenta una mayor dispersión relativa?
Página 69  |  Inicio del artículo

2.7 Los salarios de los empleados sin cualificación profesional (en euros) en cierta
empresa se distribuyen como sigue:

Obtener la curva de concentración y el índice de Gini.

(1) Este es, con diferencia, el estadístico (cualquier función de los valores de la


variable) más importante. En adelante, cuando se haga referencia al término
media, sin especificar, deberá entenderse media aritmética.

(2) En este sentido se dice que la media no es un estadístico (medida) robusto.

(3) Se podría comprobar que la media armónica, geométrica y armónica guardan


la siguiente relación: Mh ≤ Mg ≤ x.

(4) Este es el criterio que se utilizará. Otros criterios consideran que son válidos
ambos valores, esto es, Me = xi y Me = xi+1, o incluso cualquier valor comprendido
entre los anteriores.

(5) Identificado el intervalo mediano,

, donde ci es la
amplitud del intervalo mediano y Li-1 su extremo inferior.

(6) En el Apartado 2.3 se verá cómo esta expresión se corresponde con la


obtenida al expresar el momento central de orden 2, que es la varianza, en función
de los momentos ordinarios.

(7) Obsérvese cómo la suma de las desviaciones de cada valor de la variable

respecto a su media es cero , tal y como se indicó en la


primera propiedad de la media aritmética.
Características de Una Distribución de
Frecuencias
Fecha: 2007

From: Estadística descriptiva
Publisher: Ediciones Paraninfo, S.A.
Tipo de documento: Topic overview
Páginas: 45
Content Level:  (Level 5)

Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar

Página 17
Características de Una Distribución de
Frecuencias
Página 18  |  Inicio del artículo

2.1. INTRODUCCIÓN
Como ya se comentó en el Capítulo 1, la información que suministra una tabla de
frecuencias acerca de un carácter estadístico puede ser representada en un
gráfico, o sintetizada en unas medidas numéricas que describan de manera más
precisa el comportamiento del carácter analizado. En este capítulo se van a
estudiar las denominadas medidas de posición, medidas de dispersión y medidas
de forma. Para ello, se hará referencia a los caracteres cuantitativos, es decir, se
utilizarán los términos variable y valor, aunque algunas de estas medidas
(posición) también son de aplicación para el caso de los caracteres cualitativos o
atributos.

Las medidas de posición permiten situar la distribución, es decir, fijan el


comportamiento global de una variable a partir de los valores individuales
recogidos en la tabla. Las primeras medidas de interés son las medidas de
posición o tendencia central de la distribución que, en cierta manera, reflejan el
centro o punto sobre el que gravita el conjunto de valores de la distribución. Otras
medidas de posición más generales son las no centrales. Las medidas de
dispersión determinan la variabilidad existente en los valores de la variable. Las
medidas de forma informan, sin necesidad de representar gráficamente la
distribución, sobre la deformación horizontal (medidas de asimetría) y vertical
(medidas de curtosis o apuntamiento) de la misma.

2.2. MEDIDAS DE POSICIÓN


2.2.1. MEDIDAS DE POSICIÓN CENTRAL
Las medidas de posición central más importantes son las medias (aritmética,
geométrica y armónica), la mediana y la moda.

2.2.1.1. Media aritmética

Dada una distribución de frecuencias (xi; ni), la media aritmética, o simplemente


media, que se denota por x¯, viene definida por la expresión

Como , la media aritmética también puede expresarse como:


Página 19  |  Inicio del artículo

Como puede apreciarse, en la media aritmética cada valor de la variable va


ponderado por su importancia relativa en la distribución. No obstante, no tiene por
qué coincidir con ningún valor de la distribución, siendo su centro de gravedad.

Si los datos estuvieran agrupados en intervalos, la expresión de la media


aritmética sería la misma, pero utilizando, esta vez, la marca de clase (x'i).

Recuadro:  Ocultar

EJEMPLO 2.1
Las pensiones mensuales de jubilación de 50 personas, trabajadores autónomos,
son las siguientes:

La pensión mensual será:

Recuadro:  Ocultar

EJEMPLO 2.2
Agrupando la distribución del ejemplo anterior en cinco intervalos de igual
amplitud, se tiene:
Página 20  |  Inicio del artículo

y la media aritmética toma el valor:

En el primer intervalo, se observa que hay 15 personas que perciben una pensión
comprendida entre 450 y 500 euros; sin embargo, al utilizar la marca de clase lo
que se hace es suponer que la pensión de todas esas personas es de 475 euros;
lo mismo ocurre en los demás intervalos. Como puede observarse, la pensión
media de esta distribución no coincide con la del Ejemplo 2.1, es decir, se ha
cometido un error, denominado error de agrupamiento. Con las distribuciones
agrupadas se simplifican mucho los cálculos pero también se pierde información,
o, dicho de otra manera, la información es menos exacta (lo que lleva en nuestro
ejemplo a una pensión media ligeramente inferior a la real), por lo que habrá que
ver hasta qué punto compensa el agrupar o no los valores de la distribución en
intervalos.

Las principales propiedades de la media aritmética son las siguientes:

1. La suma de las desviaciones de los valores de la variable respecto a su media


aritmética es cero:

2. La media aritmética del cuadrado de las desviaciones de los valores de la


variable respecto a una constante k cualquiera se hace mínima cuando dicha
constante es igual a la media aritmética (Teorema de König). En efecto,
por lo que se hace mínima cuando , ya que en ese caso
se anula.

3. Si de un conjunto de valores se pueden obtener dos o más subconjuntos


disjuntos, la media aritmética de todo el conjunto se encuentra relacionada con las
medias aritméticas de los subconjuntos disjuntos. Considérese la distribución
expuesta en la tabla de la página siguiente, de donde se han
obtenido k subconjuntos disjuntos de tal manera que

Página 21  |  Inicio del artículo


La media aritmética del conjunto total será:

Esta propiedad es muy útil cuando se incorpora algún valor a la distribución,


porque no hace falta calcular nuevamente la media de todos los valores. Si a la
distribución del Ejemplo 2.1 se le añaden las pensiones de 5 trabajadores más,
cada una de 600 euros, la pensión media de los 55 trabajadores es

Página 22  |  Inicio del artículo

4. Si a todos los valores xi de una distribución (xi; ni) se les suma (resta) una
constante b, la media aritmética de la nueva distribución (yi; ni) queda aumentada
(disminuida) en esa constante. En otros términos, a la media aritmética le afectan
los cambios de origen.

Si yi = xi ± b, la media aritmética de la variable y será:

5. Si a todos los valores xi, de una distribución (xi; ni) se les multiplica (divide) por
una constante a, distinta de cero, la media aritmética de la nueva distribución
(yi; ni) queda multiplicada (dividida) por esa constante. Es decir, a la media
aritmética le afectan los cambios de escala.

Si yi = axi, la media aritmética de la variable y será


6. Como consecuencia de las dos propiedades anteriores, si a una variable se le
aplica un cambio de origen b y un cambio de escala a, la media de la nueva
variable y = ax ± b será

La media aritmética tiene una serie de ventajas:

 En su cálculo intervienen todos los valores de la distribución, lo cual parece


un requisito indispensable de un promedio.
 Es fácil de calcular y siempre se puede determinar. En distribuciones
agrupadas es necesario que los intervalos estén perfectamente definidos; si los
intervalos son del tipo menor que o mayor que, al no poderse calcular la marca de
clase tampoco se puede calcular la media.
 Es única.
 La media aritmética es el centro de gravedad de la distribución, en virtud de
la primera propiedad.
Página 23  |  Inicio del artículo
Recuadro:  Ocultar
EJEMPLO 2.3
Considérense las siguientes tres distribuciones de salarios anuales (miles de
euros):

Estas distribuciones tienen idéntica media aritmética: 70 (en otros términos,


idéntico centro de gravedad, representado por ▴). Sin embargo, en las dos
primeras este valor es el resultado de promediar valores muy parecidos entre sí, y
en la tercera valores muy grandes con valores muy pequeños.

El principal inconveniente de la media aritmética es la escasa representatividad


que puede tener, como valor central de la distribución, en el caso de que la
variable tome valores anormalmente extremos (como ocurre en la tercera
distribución del Ejemplo 2.3), dando lugar a conclusiones no muy fiables.

2.2.1.2. Media geométrica

La media geométrica de una distribución de frecuencias (xi; ni), que se representa


por G, se define como la raíz N-ésima del producto de los valores de la variable
elevados a sus correspondientes frecuencias absolutas.

Página 24  |  Inicio del artículo

Nótese que

y utilizando las propiedades de los logaritmos,

Por tanto:
es decir, el logaritmo de la media geométrica es igual a la media aritmética de los
logaritmos de los valores de la variable.

Como puede observarse, en el cálculo de la media geométrica también intervienen


todos los valores de la distribución. Sin embargo, uno de los grandes
inconvenientes de esta medida central es su no representatividad cuando uno (o
varios) de los valores sea cero, ya que G se anula. Por otra parte, cuando algunos
de los valores de la variable son negativos, existen determinados casos en los
cuales no se puede calcular la media geométrica; esto no significa que no exista
sino que no se puede determinar.

La media geométrica se suele utilizar para promediar, por ejemplo, tipos de


interés, tasas de variación, porcentajes y números índice, es decir, cuando los
valores de la variable presentan variaciones acumulativas.

Recuadro:  Ocultar

EJEMPLO 2.4
Un individuo invirtió 12.000 euros en un plan de pensiones. Durante los cinco años
siguientes las tasas de revalorización fueron del 5,6%, 2,25%, 4,15%, 8% y 9%,
respectivamente. Calcúlese la tasa de revalorización media anual de esos cinco
años.

Si a la cantidad inicial invertida, S0, se le aplican sucesivamente las tasas de


revalorización anuales, r1, r2, r3, r4, r5, se obtienen las cantidades resultantes para
los cinco años:

Página 25  |  Inicio del artículo

La tasa media anual que ha de calcularse (r), que debido a su naturaleza se


conoce como tasa media anual acumulativa, debe ser tal que, aplicada
sucesivamente durante cinco años a la cantidad inicial, proporcione el montante
del último año considerado. Es decir, se debe verificar
o bien

Por tanto,

expresión que involucra la media geométrica de (1 + ri), siendo G = 1 + r.

Despejando la tasa media anual r, ésta resulta ser

Por tanto, al individuo le es indiferente que su dinero se incremente un porcentaje


distinto cada año o que aumente todos los años un 5,77%, ya que al final del
quinto año la cuantía de su plan de pensiones va a ser la misma:

Si se hubiese utilizado la media aritmética, el incremento sería

resultado no realista, pues 12.000(1 + 0,058)5 = 15.907,78 euros, cifra que no


coincide con la cantidad total que el individuo en cuestión tiene al final del quinto
año: 15.886,13 euros.

2.2.1.3. Media armónica


La media armónica H de una distribución de frecuencias (xi; ni) se define como la
inversa de la media aritmética de los inversos de los valores de la variable; esto
es,

Página 26  |  Inicio del artículo

Igual que las dos medias anteriores, la media armónica tiene la ventaja de que en
su cálculo intervienen todos los valores de la variable; sin embargo, no tiene
sentido su utilización cuando algún valor de la distribución sea nulo.

La media armónica se suele utilizar para promediar rendimientos, productividades,


etc., es decir, cuando las unidades de medida de la variable analizada vienen
dadas en forma de cociente.

Recuadro:  Ocultar

EJEMPLO 2.5
Una empresa de equipos electrónicos tiene tres talleres de montaje con las
siguientes cifras mensuales:

La productividad media del trabajo (número de equipos por empleado) se calcula


de la siguiente forma:

Nótese que 4.500/30 es el número de empleados del taller A:


Análogamente, 2.400/15 y 3.000/25 son los empleados de los talleres B y C,
respectivamente, esto es, 160 y 120.

Si se calcula la media aritmética de las productividades, se llega a:

resultado erróneo, pues, si se toma como productividad media 23,33 equipos por
empleado, el número total de equipos producidos sería 430 x 23,33 = 10.032,
cuando la cifra real es de 9.900.

Página 27  |  Inicio del artículo


2.2.1.4. Medias ponderadas

Cuando la ponderación de los valores de la variable (wi) es distinta de la


frecuencia (absoluta o relativa) se tienen las denominadas medias (aritmética,
geométrica y armónica) ponderadas, definidas, respectivamente, como

2.2.1.5. Mediana

Suponiendo que los valores de la variable están ordenados de menor a mayor, la


mediana se define como aquel valor que divide la distribución de frecuencias de
forma que el número de frecuencias que quedan a su izquierda es igual al número
de las que quedan a su derecha.

Distribuciones no agrupadas en intervalos

Si el número total de datos es impar, la definición proporciona siempre un único


valor, ya que denominando k al número de observaciones inferiores y superiores a
la mediana resulta que
siendo la mediana el valor que ocupa el lugar k + 1 de la distribución.

Sin embargo, si el número de datos es par, habrá dos valores medianos: el que

ocupa el lugar el que ocupa el lugar puesto que

Página 28  |  Inicio del artículo

En este caso, se conviene en tomar como valor mediano la media aritmética de


ambos. No obstante, esto no es sino un convenio. Perfectamente podría tomarse
como mediana uno u otro.

Distribuciones agrupadas en intervalos


En el caso en que la distribución se encontrase agrupada en intervalos, no se
tendrá un valor mediano sino un intervalo mediano. Una vez establecido dicho
intervalo mediano, hay que determinar un valor dentro de él que se corresponda
con la mediana, valor que no se puede calcular de forma exacta puesto que se
desconocen los diferentes valores que toma la variable en cada uno de los
intervalos. Existen varios criterios para aproximar el valor mediano:

a) Si se asigna ni a un punto, se puede considerar que la mediana es cualquier


valor del intervalo, exceptuando Li-1, puesto que los intervalos se consideran
abiertos por la izquierda y cerrados por la derecha.

b) Si no se asigna ni a un punto sino que se considera que todos los valores del
intervalo están distribuidos de manera uniforme dentro de él, se puede aproximar
la mediana de la forma siguiente:

▪ Número de datos impar

Como se ha visto en distribuciones no agrupadas en intervalos, si el número de


datos es impar la mediana es aquel valor de la variable, supuesta una ordenación
de menor a mayor, que ocupa el lugar:

Página 29  |  Inicio del artículo

Siguiendo este mismo criterio, el intervalo mediano será aquel que contenga la

frecuencia . Si el intervalo mediano es Li-1 – Li y se observa el histograma


acumulativo de frecuencias del Gráfico 2.1 se tiene:
Gráfico 2.1

Evidentemente, Me = Li-1 + m, y m se determina mediante la siguiente reglade tres:

despejando m se tiene que

con lo que

Página 30  |  Inicio del artículo

▪ Número de datos par


En este caso se dispone de dos valores medianos, que son los que ocupan las
posiciones

Si ambos valores están en el mismo intervalo Li-1 – Li (intervalo mediano) se tiene


que

pudiéndose tomar como mediana cualquiera de ellos o la media de los dos:

es decir, la misma expresión que la obtenida para el caso de que la frecuencia


total sea impar.

Si los dos valores medianos se encuentran en distintos intervalos, se procedería


de forma análoga.

La mediana, como medida de posición central, resulta de gran utilidad en los


casos siguientes:

 Cuando existan valores anormalmente bajos o elevados. La mediana es


menos sensible que la media aritmética a estos valores extremos porque en su
determinación no intervienen todos los valores de la variable sino los que ocupan
las posiciones centrales.
 Cuando en las distribuciones agrupadas en intervalos el primero sea del
tipo menor que o el último del tipo mayor que, siempre y cuando ninguno de estos
intervalos sea el intervalo mediano.
 Cuando se analizan variables cualitativas que vienen dadas en escala
ordinal. En este caso, no se puede determinar la media aritmética, siendo la
mediana la medida de tendencia central más representativa.
Página 31  |  Inicio del artículo
Recuadro:  Ocultar
EJEMPLO 2.6
Se dispone de la siguiente información acerca de las prestaciones mensuales por
desempleo (euros) percibidas por 15 personas:

Como el número de datos es impar, la prestación mensual mediana es el valor que


ocupa el lugar

es decir, Me = 631 euros.

Si la distribución anterior tuviera un número par de observaciones como, por


ejemplo,

donde
el primer valor mediano sería 631 y el segundo 644, siendo la media aritmética de
ambos 637,5.

Página 32  |  Inicio del artículo


Recuadro:  Ocultar
EJEMPLO 2.7
El número de beneficiarios de prestaciones de nivel contributivo por desempleo en
España en 2004, según la edad de los mismos, viene recogido en la siguiente
tabla:

Como se dispone de un número par de datos, los dos valores medianos ocupan,
respectivamente, las posiciones:
Dado que ambos se encuentran en el mismo intervalo mediano (35-40), la
mediana es

Recuadro:  Ocultar

EJEMPLO 2.8
Según la «Estadística de Accidentes de Trabajo» del Ministerio de Trabajo y
Asuntos Sociales, entre enero y septiembre de 2005 los accidentes laborales con
baja registrados en España durante la jornada de trabajo fueron, según su
gravedad: leves: 675.190; graves: 7.508; mortales: 770.

Página 33  |  Inicio del artículo

Igual que ocurre en el caso de las variables, al ser el número de observaciones


par, los dos valores medianos corresponderán a aquellas dos modalidades que
ocupen los lugares:

es decir, en cualquier caso, a los accidentes leves. En caso de dos modalidades


medianas distintas, es obvio que no se puede calcular la media aritmética de
ambas, debiéndose proceder con un juicio razonable. Si el número de
observaciones es impar, existiría con una única modalidad central.

2.2.1.6. Moda

La moda es aquel valor de la variable que presenta mayor frecuencia absoluta, es


decir, aquel que más veces se repite. Puede darse el caso de que existan varios
valores que presenten la máxima frecuencia absoluta, teniéndose entonces una
distribución bimodal, trimodal, etc.

Si la distribución está agrupada en intervalos, en primer lugar habrá que


determinar el intervalo modal y, posteriormente, elegir como moda un valor de
dicho intervalo. Se distinguen dos casos:

A. La amplitud de los intervalos es la misma

En este caso, el intervalo modal es aquel que presenta mayor frecuencia absoluta
y, como se desconocen los valores incluidos en dicho intervalo, se puede
aproximar la moda siguiendo varios criterios:

A.1. Si se asigna ni a un punto, se puede elegir cualquier valor del intervalo como
moda (descartando el extremo inferior por considerar el intervalo abierto por la
izquierda).

A.2. Si se considera que todos los valores del intervalo están distribuidos de
manera uniforme dentro de él y el intervalo modal es Li–1 – Li, la moda estará más
cerca (lejos) del intervalo de la derecha cuanto mayor (menor) frecuencia tenga
este intervalo y menor (mayor) tenga el izquierdo (Grífico 2.2).

Página 34  |  Inicio del artículo

Gráfico 2.2.

La semejanza de los triángulos y permite hallar la longitud del segmento


(cantidad que se debe sumar a Li–1, para obtener el valor de la moda).

Por la semejanza de los triángulos, se verifica que


de donde se deduce que

siendo

Por tanto,

B. La amplitud de los intervalos es distinta

En este caso, el intervalo modal no es el que tiene mayor frecuencia absoluta sino
el que tiene mayor frecuencia por unidad de intervalo, es decir, mayor densidad de

frecuencia . Una vez determinado el intervalo modal se puede aproximar la


moda siguiendo los criterios vistos en el caso anterior, siendo el más razonable el
último

Página 35  |  Inicio del artículo

con

Por último, la moda es la mejor medida de tendencia central en el análisis de los


atributos dados en escala nominal, ya que sus modalidades no son susceptibles
de ser ordenadas y tampoco admiten ningún tipo de operación algebraica.
Recuadro:  Ocultar

EJEMPLO 2.9
Los contratos registrados en España durante los ejercicios 2004 y 2005, según
modalidad de contratación y duración del contrato, fueron

El tipo de contrato más frecuente en nuestro país, tanto en el ejercicio 2004 como
en 2005, fue el eventual por circunstancias de la producción, puesto que es el que
presenta en ambos años la mayor frecuencia absoluta.

Página 36  |  Inicio del artículo


Recuadro:  Ocultar
EJEMPLO 2.10
Las prestaciones mensuales por desempleo (euros) de un determinado número de
individuos son las que se recogen en la siguiente tabla:
El intervalo con mayor densidad de frecuencia es (500-600) y la moda sería

2.2.2. MEDIDAS DE POSICIÓN NO CENTRAL


Estas medidas, como su nombre indica, no reflejan ninguna tendencia central. Se
denominan genéricamente cuantiles y son aquellos valores de la variable,
odenados en sentido creciente, que dividen la distribución en partes, de tal manera
que cada una de ellas contiene el mismo número de frecuencias. Si la mediana
divide la distribución en dos partes con idéntico número de observaciones, por
extensión, los cuartiles (Ci), deciles (Di) y percentiles (Pi) dividen a la misma en 4,
10 y 100 partes, respectivamente, con el mismo número de frecuencias.

A. Distribuciones no agrupadas en intervalos

La explicación se centrará en los cuartiles, si bien es fácilmente generalizable a los


deciles y percentiles.

Los cuartiles quedan perfectamente determinados si el número total de


observaciones es inferior en una unidad a cualquier múltiplo de 4. Sin embargo, en
otros casos es necesario recurrir a procedimientos que permitan determinar un
valor concreto. Los procedimientos que se proponen son los siguientes:

a) Si el número total de observaciones es múltiplo de 4: el primer y tercer cuartil


quedan perfectamente determinados; sin embargo, como segundo cuartil se tienen
dos valores medianos, ya que el número total de observaciones es par, optando
por calcular la media aritmética de ambos.

Página 37  |  Inicio del artículo


El primer cuartil ocupa el lugar:

El segundo cuartil o mediana: media aritmética de los dos valores medianos.

Los dos valores medianos ocupan los lugares:

El tercer cuartil ocupa el lugar

b) Si el número total de observaciones es inferior en una unidad a un múltiplo de


4:

Los cuartiles C1 C2 y C3 son los valores que ocupan los lugares:


c) Si el número total de observaciones es inferior en 2 unidades a un múltiplo de 4:
en este caso, existen dos valores para cada cuartil, por lo que se considera la
media aritmética de ambos.

Página 38  |  Inicio del artículo

El primer y segundo valor del primer cuartil ocupan los lugares

El primer y segundo valor del segundo cuartil o mediana ocupan los lugares

El primer y segundo valor del tercer cuartil ocupan los lugares


d) Si el número total de observaciones es inferior en 3 unidades a un múltiplo de 4:
como el número total de observaciones es impar se tomará un valor mediano y
dos valores para el primer y tercer cuartil, y se procede posteriormente a
promediar éstos.

El primer y segundo valor del primer cuartil ocupan los lugares

Página 39  |  Inicio del artículo

El segundo cuartil o mediana ocupa el lugar

El primer y segundo valor del tercer cuartil ocupan los lugares

B. Distribuciones agrupadas en intervalos

Como en el caso anterior, se hará referencia a los cuartiles, si bien se puede


proceder de forma similar para la determinación de deciles y percentiles.

En primer lugar, hay que establecer el intervalo que contiene a cada uno de ellos
y, posteriormente, asignar un valor de dicho intervalo al cuartil correspondiente. De
manera análoga a como se procedía en la determinación de la mediana, se puede
tomar como cuartil cualquier valor del intervalo excepto el correspondiente al
extremo inferior, por considerarse los intervalos abiertos por la izquierda, o bien
aplicar la siguiente expresión:

siendo NCi el lugar que ocupa el cuartil i-ésimo.

Recuadro:  Ocultar

EJEMPLO 2.11
A partir de la siguiente distribución de salarios mensuales (euros), determínese el
primer cuartil:

Como N es inferior en dos unidades a un múltiplo de cuatro, hay dos primeros


cuartiles. Para el primero:

Página 40  |  Inicio del artículo

y, para el segundo:

es decir, 12 y 13, respectivamente. Por tanto, el primer y segundo valor del primer
cuartil son
por lo que, promediando ambos, se considera como primer cuartil 1.550 euros.

2.3. MEDIDAS DE DISPERSÓN


Supóngase, por ejemplo, que el coste extra salarial (en euros) que cuatro
trabajadores de una empresa A y otros cuatro de una empresa B les suponen a
ambas un determinado mes es:

pudiéndose apreciar que en la empresa B los valores de la variable varían poco y


en la A mucho. Si se calcula el coste extra salarial medio de ambas distribuciones,
el resultado obtenido es 235 euros. Sin embargo, estas dos distribuciones son
bien distintas, ya que a la empresa A ningún trabajador le supone un coste extra
salarial próximo a 235 euros y a la B sí. Es decir, se puede considerar que el coste
extra salarial medio de los cuatro trabajadores de la empresa B es más
representativo que el de los cuatro de la empresa A.

Esto indica que, para caracterizar una distribución, además de calcular las
medidas de posición, también resulta necesario analizar su variabilidad. Dicha
variabilidad, habitualmente, se mide respecto a una medida de posición central,
pretendiendo, de esta manera, conocer la representatividad de los valores
centrales de la distribución, es decir, si estos valores sintetizan de forma
satisfactoria o no toda la información de la distribución.

Página 41  |  Inicio del artículo

Existen dos tipos de medidas de dispersión: las absolutas y las relativas. Las
primeras se utilizan cuando se trata de analizar la variabilidad de, únicamente, una
distribución de frecuencias y, las segundas, cuando se pretende comparar la
variabilidad de dos o más.
2.3.1. MEDIDAS DE DISPERSIÓN ABSOLUTAS
A Medidas de dispersión obtenidas por comparación directa entre los valores de la
variable

Recorrido o rango

Se define como la diferencia entre el máximo y mínimo valor de la variable:

En el ejemplo anterior, el recorrido de la distribución de la empresa A es 270 euros


y en la empresa B 20 euros. Al tener ambas el mismo número de observaciones y
ser el recorrido de la distribución de la empresa B mucho más pequeño, en
principio, se puede suponer que esta distribución está menos dispersa que la de la
empresa A; o dicho de otra manera, las diferencias entre sus valores son
menores.

Esta medida tiene la ventaja de ser muy sencilla de calcular. Sin embargo, el
inconveniente que presenta es que sólo depende de los valores extremos, por lo
que si éstos se encuentran alejados del resto de los valores de la distribución (es
decir, son valores anómalos) puede dar lugar a conclusiones erróneas.

Recorrido o rango intercuartílico

Para evitar el problema de los valores anómalos, se suele emplear el denominado


recorrido o rango intercuartílico, que se define como la diferencia entre el tercer y
primer cuartil

donde el intervalo de longitud RI contiene el 50% de lo valores centrales de la


distribución. Cuanto mayor sea el recorrido intercuartílico mayor será la
variabilidad o dispersión de la distribución de frecuencias.

Diferencia media de Gini

Se define como

Página 42  |  Inicio del artículo


esto es, el promedio de las diferencias (en valor absoluto) entre cada par de
valores de la distribución. Su principal incoveniente radica en la tediosidad de su
cálculo.

B Medidas de dispersión obtenidas por comparación entre los valores de la


variable y una medida de posición central

Si lo que se pretende es analizar la mayor o menor representatividad de los


valores centrales de la distribución, es necesario utilizar otro tipo de medidas que
hagan referencia a algún promedio. De todos los promedios estudiados se ha
elegido la media aritmética, porque es la medida de posición central por
excelencia habida cuenta de sus propiedades y ventajas. Dentro de las medidas
de dispersión absolutas respecto a la media aritmética, la varianza y la desviación
típica son las más utilizadas.

Varianza

Para determinar la mayor o menor separación entre los valores de la variable y la


media aritmética, se podrían promediar las desviaciones de cada valor respecto a
la media aritmética

sin embargo, por la primera propiedad de la media aritmética, esta expresión es


nula ya que las desviaciones positivas se compensan con las negativas. Una
forma de evitar esta circunstancia es considerar las desviaciones elevadas al
cuadrado, con lo cual tiene que

Esta expresión se denomina varianza y se define como la media aritmética de los


cuadrados de las desviaciones entre los valores de la variable y la media
aritmética, siendo, por la segunda propiedad de la media aritmética, una medida
de dispersión óptima.

La varianza mide la mayor o menor dispersión de los valores de la variable


respecto a la media aritmética. Cuanto mayor sea la varianza mayor dispersión
existirá y, por tanto, menor representatividad tendrá la media aritmética.
Las propiedades de la varianza son las siguientes:

1. La varianza siempre es mayor o igual a cero.

Página 43  |  Inicio del artículo

2. La varianza se puede expresar como:

3. Si de un conjunto de valores se pueden obtener dos o más subconjuntos


disjuntos, la varianza de todo el conjunto se encuentra relacionada con las
varianzas de los subconjuntos disjuntos. Considerése la siguiente distribución:
de donde se han obtenido k subconjuntos disjuntos de tal manera que

Página 44  |  Inicio del artículo

La varianza del conjunto total será

Ya se vio que es la media total de los k grupos

De la misma forma se podría expresar

Por tanto,
Pero los dos últimos términos de la expresión anterior no son sino la varianza de
una distribución cuyos valores son las medias de los grupos y sus frecuencias
absolutas los tamaños de los mismos. En consecuencia, la varianza global de la
distribución se puede expresar como la media ponderada de la varianza de los
grupos más la varianza de la distribución de medias anteriormente citada.

O, en otros términos, como

ya que la media de la distribución de medias grupales es la media de la variable.

Página 45  |  Inicio del artículo

Por consiguiente, la varianza global se puede obtener como una suma ponderada
de las varianzas de cada grupo (primer sumando) más una suma ponderada de
las diferencias cuadráticas de las medias de cada grupo con respecto a la media
global. En definitiva, la varianza global se puede descomponer en dos sumandos:
el primero hace referencia a la variabilidad intrínseca de cada grupo (variabilidad
intragrupos) y el segundo a la variabilidad de las medias de cada grupo
(variabilidad intergrupos).

4. Si a todos los valores (xi) de una distribución (xi; ni) se les suma (resta) una
constante b, la varianza de la nueva distribución (yi; ni) no varía, es decir, a la
varianza no le afectan los cambios de origen (si por ejemplo a todos los
trabajadores de una empresa les suben el sueldo mensual 100 euros, la
variabilidad de los salarios sigue siendo la misma).

Si yi = xi ± b, la varianza de la variable y será

5. Si a todos los valores xi de una distribución (xi; ni) se les multiplica (divide) por
una constante a, distinta de cero, la varianza de la nueva distribución (yi; ni) queda
multiplicada (dividida) por esa constante al cuadrado; es decir, a la varianza le
afectan los cambios de escala.

Si yi = axi, la varianza de la variable y será


6. Teniendo en cuenta las dos propiedades anteriores, si a una variable se le
aplica un cambio de origen b y un cambio de escala a, la varianza de la nueva
variable yi = axi + b es

Desviación típica o estándar

La varianza viene expresada en las mismas unidades de medida que la variable


analizada pero elevadas al cuadrado, lo que dificulta su interpretación (piénsese
que en una distribución de salarios la varianza vendrá dada en euros2). Ante esta
situación, es necesario definir otra medida que venga expresada en las mismas
unidades de medida que la variable. Esta medida es la desviación típica o
estándar.

Página 46  |  Inicio del artículo

Se define la desviación típica como la raíz cuadrada con signo positivo de la


varianza, esto es,

Cuanto mayor sea la desviación típica, mayor dispersión existirá entre los valores
de la distribución y la media aritmética y, por tanto, la media aritmética será menos
representativa.

Las propiedades de la desviación típica se deducen directamente de las de la


varianza:

1. La desviación típica siempre es mayor o igual que cero.

2. La desviación típica también puede expresarse como


3. A la desviación típica no le afectan los cambios de origen: si yi = xi ± b, entonces

4. A la desviación típica le afectan los cambios de escala: si yi = axi, entonces

5. Si a una variable se le aplica un cambio de origen b y un cambio de escala a, la


desviación típica pasa a ser

6. La desviación típica, igual que la varianza, es una medida de dispersión óptima.

Recuadro:  Ocultar

EJEMPLO 2.12
La siguiente tabla contiene la distribución de altas diarias de afiliados a la
Seguridad Social en España durante el mes de enero de 2006 (en miles).
Calcúlese la media diaria de dichas altas, así como su desviación típica.

Página 47  |  Inicio del artículo


El núimero medio de altas diarias, en miles, será

y su desviación típica, también en miles,

2.3.2. MEDIDAS DE DISPERSIÓN RELATIVAS


Supóngase, por ejemplo, que se dispone de las distribuciones de edades de los
trabajadores afiliados a la Seguridad Social en los regímenes especiales agrícola y
marítimo: en el agrícola la edad media es de 43 años y la desviación típica de 5
años, y en el marítimo la edad media también es de 43 años pero la desviación es
de 8 años. Evidentemente, puesto que la edad media es la misma en ambos
regímenes, la distribución del régimen marítimo presenta mayor dispersión, ya que
tiene mayor desviación típica y, por tanto, la edad media es menos representativa
que en el régimen agrícola. Sin embargo, si las edades medias fueran distintas, no
se podría utilizar la desviación típica para determinar la representatividad de las
mismas, ni tampoco enPágina 48  |  Inicio del artículoel caso de que las unidades
de medida fuesen diferentes (por ejemplo, si se tiene una distribución de salarios y
otra de edades).

Para evitar estos inconvenientes, hay que poner en relación la medida de


dispersión con la de tendencia central, y ello en forma de cociente para que la
medida resultante sea adimensional. Este tipo de cocientes son las denominadas
medidas de dispersión relativas, de las que existen varias en la literatura
estadística, siendo la más utilizada el coeficiente de variación de Pearson.

Este coeficiente se define como el cociente entre la desviación típica y el valor


absoluto de la media aritmética

Se puede apreciar que:

 Como las unidades de medida de la desviación típica y de la media


aritmética son las mismas, este cociente es adimensional; por tanto, es útil para
comparar varias distribuciones.
 Como el coeficiente de variación representa el número de veces que la
desviación típica contiene a la media, cuanto mayor sea este coeficiente, mayor
dispersión existirá (más veces contendrá la desviación típica a la media
aritmética), por lo que menor será la representatividad de la media aritmética y
menor será la homogeneidad de los valores de la distribución.
 El coeficiente de variación utiliza toda la información de la distribución.
 El coeficiente de variación se anula cuando la desviación típica es cero. En
este caso no existiría dispersión y todos los valores de la distribución son iguales.
 Cuando la media aritmética es cero, no tiene sentido su cálculo.
 Este coeficiente puede expresarse también en porcentaje, simplemente
multi-plicando la expresión anterior por 100.
Recuadro:  Ocultar

EJEMPLO 2.13
En el Ejemplo 2.12 se ha procedido al cálculo de la media y la desviación típica de
las altas diarias de afiliados a la Seguridad Social en España durante el mes de
enero de 2006. Ahora, en la tabla adjunta, se presenta la información relativa a las
bajas diarias de afiliados en España durante dicho mes (también en miles). ¿Cuál
de las dos medias diarias, la de altas o la de bajas, es más representativa?

Página 49  |  Inicio del artículo


Procediendo de la misma manera que en el ejemplo anterior, el número medio de
bajas, en miles, seraá

y su variabilidad en torno a este valor medio, también en miles,

Para determinar cuál de las dos medias es más representativa, se procede al


cálculo de los coeficientes de variación de ambas distribuciones de frecuencias,
llegándose a la conclusión de que, si bien ambos son muy similares, la media de
las bajas diarias en los registros de afiliación a la Seguridad Social es ligeramente
más representativa.

Página 50  |  Inicio del artículo


2.3.3. VARIABLE TIPIFICADA
Supóngase que se dispone de una distribución de frecuencias (xi; ni) con una
determinada media y desviación típica. Si a todos los valores de la distribución se
les resta la media y se les divide por la desviación típica, la variable resultante se
denomina variable tipificada:

y se caracteriza porque su media es cero y su varianza uno, como puede


comprobarse fácilmente aplicando las propiedades de la media y varianza.

Recuadro:  Ocultar

EJEMPLO 2.14
Un individuo tiene que elegir entre dos ofertas de trabajo: una propuesta por una
empresa española y la otra por una americana. La empresa española le ofrece un
sueldo anual bruto de 53.000 euros, mientras que la oferta de la americana es de
50.000 $. Por otro lado, esta persona tiene información sobre el sueldo medio y la
desviación típica salarial de las distribuciones de ambas empresas:

¿En cuál de las dos empresas la posición relativa de este individuo es mejor
respecto a los demás trabajadores?

Como las unidades de medida de ambas distribuciones no son iguales, no se


pueden comparar las remuneraciones de las dos empresas, por lo que habrá que
transformar estos valores de manera que las distribuciones tengan la misma
media y la misma desviación típica, es decir, habrá que tipificar los salarios.

En el caso de los salarios ofertados al individuo en cuestión, se tiene que


Como las distribuciones de los salarios tipificados tienen media igual a cero y
desviación típica igual a 1, se observa que en ambas empresas la remuneración
de ese individuo está por encima de la media. Sin embargo, en la empresa
española estaría 3,71 desviaciones típicas por encima de la media, mientras que
en la americana su salario sería 7,82 desviaciones típicas superior al salario
medio, lo que refleja que su posición relativa frente a los demás trabajadores es
mejor en la empresa americana.

Página 51  |  Inicio del artículo


2.3.4. DESIGUALDAD DE TCHEBICHEFF
En caso de no disponer de la distribución de frecuencias nada se puede saber
sobre el número de frecuencias mayores que un determinado valor de la variable,
o menores que él, o comprendidos entre dos valores de la variable. Sin embargo,
si se conocen la media y la desviación típica de dicha distribución es posible
conocer el número mínimo de frecuencias contenidas en un intervalo simétrico
respecto de la media, aunque no se disponga de la distribución de frecuencias. Tal
aportación, sin duda importante, se debe al matemático ruso Tchebicheff.

Sea una distribución de frecuencias (xi; ni). Se divide en dos clases: la primera, C1,
contiene los valores de la variable que distan de la media de la distribución (en
valor absoluto) más que una distancia k positiva. La segunda, C2, contiene el resto
de valores.

En consecuencia:

y como en C1 resulta que , se tiene que


y despejando se obtiene que

o bien,

Página 52  |  Inicio del artículo

En el caso particular en que k = k*Sx, siendo k* una constante mayor que cero, se


tiene que

La interpretación de este resultado es como sigue: el porcentaje del total de


valores de la distribución que se encuentran comprendidos entre la media
aritmética ± k* veces la desviación típica de la distribución es, como mínimo, 1 –
1/k*2. De este resultado se desprende que, para cualquier distribución de
frecuencias:

— Entre están comprendidas, al menos, el 75% de las


frecuencias de la distribución.

— Entre están comprendidas, al menos, el 89% de las


frecuencias de la distribución.

— Entre están comprendidas, al menos, el 94% de las


frecuencias de la distribución.

2.4. MEDIDAS DE FORMA


Para realizar un resumen completo de la variable objeto de estudio se deben
analizar, además de las medidas de posición y dispersión, otra serie de medidas
que caracterizan de forma más precisa el comportamiento de dicha variable, ya
que pueden existir distribuciones que presenten el mismo valor central e igual
grado de dispersión, y diferir, sin embargo, en la forma o aspecto de sus
histogramas o diagramas de barras. Estas medidas se conocen con el nombre
de medidas de forma y pueden ser de dos tipos: de asimetría y de apuntamiento o
curtosis.

2.4.1. MEDIDAS DE ASIMETRÍA


El objetivo de estas medidas es determinar, sin necesidad de dibujar la
distribución de frecuencias, la deformación horizontal de los valores de la variable
analizada respecto a un valor central, generalmente la media aritmética.

Una distribución es simétrica cuando a la izquierda y derecha de su media existe


el mismo número de valores, de manera que equidisten dos a dos de la media y
tengan, además, cada uno de ellos la misma frecuencia. Sin embargo, no siempre
ocurre esto; por ello, resulta necesario el uso de medidas que determinen la mayor
o menor asimetría de los valores de la variable respecto a la media aritmética,
siendo deseable que estas medidas vengan dadas en forma de cociente y, por
tanto, sean adimensionales.

Página 53  |  Inicio del artículo

Para ver el grado y la dirección de la asimetría de una distribución se podrían


promediar las desviaciones de los valores de la variable respecto a la media
aritmética, ya que podría pensarse que un promedio negativo implicaría asimetría
a la izquierda, un promedio positivo asimetría a la derecha, un promedio grande
mucha asimetría y un promedio pequeño poca asimetría. Pero, como ya se ha
visto, dicho promedio es cero. Como interesa mantener los signos de estas
desviaciones, no pueden elevarse a un número par pues se perderían; por tanto,
habrá que elevarlas al número impar más pequeño: 3. Por último, se dividen por la
desviación típica al cubo con el fin de que la medida resultante sea adimensional,
es decir,
La expresión resultante, la más habitual por otra parte, es conocida como
el coeficiente de asimetría de Fisher.

Para calcular m3 se utiliza la expresión del Apéndice del final de este capítulo:

El Gráfico 2.3 recoge los tres casos posibles que pueden darse:

Gráfico 2.3

Página 54  |  Inicio del artículo


 Si la distribución es simétrica: g1 = 0.
 Si la distribución es asimétrica positiva o a la derecha: g1 > 0.
 Si la distribución es asimétrica negativa o a la izquierda: g1 < 0.

También se puede señalar que:

 Si la distribución es simétrica: .
 Si la distribución es asimétrica positiva o a la derecha: .
 Si la distribución es asimétrica negativa o a la izquierda: .
2.4.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS
El coefíciente de curtosis de una distribución determina el grado de apuntamiento
que ésta tiene respecto a otra distribución denominada distribución normal1 , que,
por otra parte, es la que sigue una gran mayoría de distribuciones económicas.
Este coefíciente se utiliza cuando las distribuciones son simétricas o ligeramente
asimétricas, ya que en este tipo de distribuciones frecuentemente se da el caso de
que las más altas que la normal en las colas también lo son en el centro.

Igual que ocurre con el coeficiente de asimetría, el de curtosis también es


adimensional y su expresión es la siguiente:

Para calcular m4 se utiliza la expresión del Apéndice del final de este capítulo:

El coeficiente de curtosis de la distribución normal es nulo, de tal forma que:

 Si la distribución es mesocúrtica o igual de apuntada que la normal: g2 = 0.


 Si la distribución es platicúrtica o menos apuntada que la normal2 : g2 < 0.
 Si la distribución es leptocúrtica o más apuntada que la normal: g2 > 0.
Página 55  |  Inicio del artículo

Gráfico 2.4.
Las denominaciones de mesocúrtica, platicúrtica y leptocúrtica fueron dadas
originariamente porque entre ciertas distribuciones simétricas regulares se podía
percibir que las que tenían frecuencias relativas más elevadas en las colas eran
también las que tenían mayores frecuencias relativas en la parte central.
Evidentemente, esto no tiene por qué ocurrir para otro tipo de distribuciones
simétricas o para las asimétricas y, aunque la nomenclatura anterior es útil, debe
ser entendida como que describe el signo del coeficiente de apuntamiento más
que la forma de la distribución.

Algunas particularidades importantes relativas al coeficiente de apuntamiento son


las siguientes:

1. El coeficiente de apuntamiento es siempre mayor que – 2.

Considérese la desigualdad de Cauchy

salvo que ai y bi sean proporcionales, en cuyo caso la relación es de igualdad.

Hágase

Entonces, se tiene que

Página 56  |  Inicio del artículo

siendo sólo la relación de igualdad cuando la distribución de frecuencias se


encuentra concentrada en dos valores.

Es decir,
y, por consiguiente,

2. En distribuciones regulares, simétricas y unimodales el coeficiente de


apuntamiento es siempre menor que 1,2.

3. Existe una relación entre los coeficientes de asimetría y apuntamiento, que


viene dada por

Recuadro:  Ocultar

EJEMPLO 2.15
En una empresa con 150 empleados, el número de horas extraordinarias/año de
los mismos sigue la distribución expuesta en las dos primeras columnas de la
tabla:

Determínense los coeficientes de asimetría y curtosis.


Los momentos m3 y m4 se calculan en función de los momentos respecto al origen,
utilizando las expresiones del Apéndice de este capítulo.

Página 57  |  Inicio del artículo

El coeficiente de asimetría de Fisher es:

y la distribución es asimétrica positiva o a la derecha.

Por otra parte, el coeficiente de curtosis resulta:

y la distribución es leptocúrtica (más apuntada que la normal).

2.5. BOX AND WHISKER PLOTS (GRÁFICOS DE CAJA Y


BIGOTES)
Un box and whisker plot permite determinar fácilmente de forma visual la
tendencia central, la variabilidad, la asimetría y la existencia de valores anómalos
en una distribución de frecuencias.

Página 58  |  Inicio del artículo

Un box and whisker plot incluye las siguientes características de la distribución


(véase Ejemplo 2.16):

1. Box (caja): la línea interior de la caja representa la mediana, la de la


izquierda el primer cuartil y la de la derecha el tercer cuartil. La caja, que recoge el
50% de las observaciones centrales de la distribución, se determina uniendo los
extremos de estas tres líneas por dos segmentos paralelos.
2. Whiskers (bigotes): la observación más grande (pequeña) que no se aleja
más de 1,5 veces el recorrido intercuartílico (C3 – C1) desde el tercer (primer)
cuartil se encuentra unida a la caja por el denominado whisker derecho
(izquierdo).
3. Valores sospechosos de ser anómalos (o): los puntos que sobrepasan
los extremos de los whiskers pero no están a más de 3 veces el recorrido
intercuartílico desde el lado derecho (izquierdo) de la caja.
4. Valores anómalos (*): puntos que se alejan del lado derecho (izquierdo) de
la caja 3 o más veces el recorrido intercuartílico.

Como ya se ha visto, la mediana proporciona una idea de la tendencia central de


la distribución y el recorrido intercuartílico indica la variabilidad de la misma (a
mayor/menor recorrido intercuartílico mayor/menor variabilidad).

La proximidad de la mediana a los extremos de la caja y la longitud de


los whiskers indicarán la asimetría de la distribución: si la asimetría es a derechas
la mediana estará próxima al extremo de la derecha de la caja y/o la longitud
del whisker derecho será mayor que la del izquierdo. Si la asimetría es a
izquierdas, la mediana estará próxima al extremo izquierdo de la caja y/o la
longitud del whisker izquierdo será mayor que la del derecho. Si la distribución es
simétrica, la mediana se ubicará en el centro de la caja y los whiskers serán
simétricos respecto de la mediana.

Los extremos de los whiskers representan los valores más grandes y más


pequeños de la distribución que no son considerados anómalos. Los valores
sospechosos de ser anómalos deberán ser considerados con prudencia y los
anómalos pueden no considerarse como pertenecientes a la distribución en
cuestión.

Recuadro:  Ocultar

EJEMPLO 2.16
Se dispone de la distribución sobre las bajas laborales (en días) de los
trabajadores de una empresa (véase la tabla de la página siguiente).

Si se observa el Gráfico 2.5, la mediana es de 2 días de baja laboral, no


pudiéndose considerar excesiva la dispersión de la distribución ya que el recorrido
intercuartílico es también 2. La asimetría de la distribución es hacia la derecha ya
que la longitud del whisker derecho es mayor que la del izquierdo (g1 = 1,506).

La longitud de los whiskers es, como máximo, de 1,5 veces el recorrido


intercuartílico (1,5 x 2 = 3) desde ambos extremos de la caja, es decir, los valores
que no son considerados

Página 59  |  Inicio del artículo

Gráfico 2.5. Box and whisker plot.


anómalos son los comprendidos entre – 2 y 6. En este caso, como la variable no
toma valores negativos ni tampoco el valor 6, se consideran como mínimo y
máximo valor no anómalos de la distribución el 0 y el 5, respectivamente.

Por otra parte, existe un valor sospechoso de ser anómalo, el correspondiente a la


observación 30 (x = 7), pues sobrepasa al whisker derecho y está entre 1,5 y 3
veces el recorrido intercuartílico desde el extremo derecho de la caja.

Finalmente, existen dos valores anómalos, que son los correspondientes a las
observaciones 31 y 32 (x = 9 y x = 10), ya que se alejan más de 3 veces el
recorrido intercuartílico desde el extremo derecho de la caja.

Como ya se había avanzado, el valor sospechoso de ser anómalo deberá ser


considerado con prudencia, mientras que los dos anómalos pueden ser
considerados no representativos de la distribución.

Página 60  |  Inicio del artículo

APÉNDICE. MOMENTOS POTENCIALES


Los momentos de una distribución son valores característicos de la misma
deducidos a partir de todos los valores de la distribución, de modo que si dos
distribuciones son iguales, todos sus momentos son también iguales.

Los momentos potenciales se definen como:

donde c es un número real cualquiera y r el orden del momento.

En función de los valores que tome c, se pueden considerar dos tipos de


momentos: momentos respecto al origen y momentos respecto a la media
aritmética o momentos centrales.

A) MOMENTOS RESPECTO AL ORIGEN


Generalmente se representan por ar y se obtienen cuando c = 0, es decir,
Los primeros momentos respecto al origen son:

B) MOMENTOS RESPECTO A LA MEDIA ARITMÉTICA O


MOMENTOS CENTRALES
Se representan por mr y se obtienen cuando , por lo que

Página 61  |  Inicio del artículo

Los primeros momentos centrales son

A efectos prácticos, una cuestión relevante de los momentos centrales es que se


pueden expresar, utilizando el binomio de Newton3 , en función de los momentos
respecto al origen:
Casos particulares

1 La representación gráfica de la distribución normal es una campana (campana


de Gauss) que se caracteriza por ser simétrica respecto al eje de abscisas. El
coeficiente de apuntamiento de este tipo de distribuciones, tal y como se ha
definido, es nulo.

2 No obstante, como se verá posteriormente, este coeficiente no puede tomar


valores inferiores a – 2.

3 .

Texto completo: COPYRIGHT 2007 Cengage Learning Paraninfo, S.A.

Cita de fuente   
 MLA 8
 
 APA 6
 
 Chicago 17
Montero Lorenzo, Jóse Maria. "Características de Una Distribución de Frecuencias." Estadística
descriptiva, Paraninfo, 2007, pp. 17-61. Gale eBooks,
https://link.gale.com/apps/doc/CX4052100008/GVRL?u=unad&sid=GVRL&xid=d49ed557.
Accessed 15 June 2020.

Liberación de responsabilidad
Seleccionar
Export To:
 NoodleTools
 
 EasyBib
 
 RefWorks
 
 Google Drive™
 
 OneDrive™
 
 Download RIS*
*The RIS file format can be used with EndNote, ProCite, Reference Manager, and Zotero.

Número de documento de Gale: GALE|CX4052100008

 Anterior
 Siguiente
Ver otros artículos vinculados a estos términos de índice:

Los localizadores de página que refieren a este artículo no están vinculados.

 Box and whisker plot

o 1: 57
 Coeficiente de asimetría de Fisher

o 1: 53
 Coeficiente de curtosis

o 1: 54
View All Terms
EXPLORE
Article Contents
 2.1. Introducción
 2.2. Medidas de posición.
    2.2.1. Medidas de posición central
    2.2.2. Medidas de posición no central
 2.3. Medidas de dispersión
    2.3.1. Medidas de dispersión absolutas
    2.3.2. Medidas de dispersión relativas
    2.3.3. Variable tipificada
    2.3.4. Desigualdad de Tchebicheff
 2.4. Medidas de forma
    2.4.1. Medidas de asimetría
    2.4.2. Medidas de apuntamiento o curtosis
 2.5. Box and whisker plots (Gráficos de caja y bigotes)
 Apéndice. Momentos potenciales
(8) Para calcular el número combinatorio se procede de la
siguiente forma:

Texto completo: COPYRIGHT 2005 Cengage Learning Paraninfo, S.A.

Cita de fuente   
 MLA 8
 
 APA 6
 
 Chicago 17
Estaban García, Jesús, et al. "Análisis de Datos Unidimensionales." Estadística descriptiva y
nociones de probabilidad, Paraninfo, 2005, pp. 25-69. Gale eBooks,
https://link.gale.com/apps/doc/CX4052300007/GVRL?u=unad&sid=GVRL&xid=c94d9295.
Accessed 15 June 2020.

Liberación de responsabilidad
Seleccionar
Export To:
 NoodleTools
 
 EasyBib
 
 RefWorks
 
 Google Drive™
 
 OneDrive™
 
 Download RIS*
*The RIS file format can be used with EndNote, ProCite, Reference Manager, and Zotero.

Número de documento de Gale: GALE|CX4052300007

 Anterior
 Siguiente
Ver otros artículos vinculados a estos términos de índice:

Los localizadores de página que refieren a este artículo no están vinculados.

 Coeficiente(s)

o de asimetría de Fisher

 1: 48
 1: 282
o de curtosis

 1: 50
 1: 282
View All Terms
EXPLORE
Article Contents
 2.1. Medidas de posición.
 2.2. Medidas de dispersión.
 2.3. Momentos.
 2.4. Medidas de forma.
 2.5. Transformaciones lineales y tipificación de variables.
 2.6. Medidas de concentración. Curva de Lorenz e índice de Gini.
 Cuestiones de autoevaluación.
 Ejercicios propuestos.
 Problemas resueltos.
 Problemas propuestos.

Regresión y Correlación Simple


Fecha: 2007
From: Estadística descriptiva
Publisher: Ediciones Paraninfo, S.A.
Tipo de documento: Topic overview
Páginas: 61
Content Level:  (Level 5)

Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar

Página 129
Regresión y Correlación Simple
Página 130  |  Inicio del artículo

5.1. INTRODUCCIÓN
En el capítulo precedente se puso de manifiesto el interés de estudiar
simultáneamente dos o más caracteres, X e Y, sobre la misma población, con el
propósito de detectar si existe dependencia estadística entre ellos o si, por el
contrario, son independientes.

A modo de ejemplo, en el caso de caracteres cuantitativos (marco en el cual se


engloba este capítulo), se puede pensar que existe relación entre el salario de los
trabajadores y su antigüedad en la empresa, entre el número de afiliados en alta a
la Seguridad Social y la producción de la economía española, entre el tiempo de
búsqueda de empleo de los parados y su edad, etc.

Pues bien, en este capítulo el punto de partida será la existencia de relación o


dependencia estadística entre las variables objeto de estudio, y el interés se
centrará en estimar la forma o estructura de tal relación y determinar la intensidad
de la misma. En este sentido, se distingue entre teoría de la regresión y teoría de
la correlación, orientadas al primer y segundo tipo de análisis, respectivamente.
Ambos están íntimamente ligados, de manera que siempre se hará referencia a la
correlación según una determinada estructura de dependencia entre las variables.

En definitiva, la teoría de la regresión trata de «explicar»1 el comportamiento de


una variable, denominada explicada (dependiente o endógena), en función de otra
u otras, denominadas explicativas (independientes o exógenas). Se puede
establecer una primera clasificación en función del número de variables
explicativas: la regresión (y correlación) será simple si únicamente hay una
variable explicativa; por el contrario, será múltiple si el número de variables
explicativas son varias. Así, si se quiere explicar el salario de los trabajadores en
función de su antigüedad en la empresa la regresión será simple. Si, además de la
antigüedad en la empresa, se considera también el grado de formación de los
trabajadores a la hora de explicar su salario, la regresión será múltiple.

En cualquiera de las dos situaciones anteriores (regresión simple o múltiple), la


cuestión que se plantea es qué valor de la variable explicada le corresponde a
cada uno de los valores de la variable o variables explicativas. En el caso de una
sola variable explicativa, si ésta es X la regresión será de Y sobre X (Y/X de forma
abreviada), mientras que si es Y, la regresión será de X sobre Y (X/Y de forma
abreviada). En el caso múltiple las variables explicativas se denotan, en general,
porPágina 131  |  Inicio del artículoX1, X2, …, Xp, y la explicada por Y, denotándose
por Y/X1, X2, …, Xp la regresión de Y sobre X1, X2, …, Xp.

Este capítulo abordará la regresión simple, dejando la regresión múltiple para el


Capítulo 6.

Atendiendo al criterio de estimación de los valores de la variable explicada, se


puede establecer otra clasificación de la regresión:

 Regresión de tipo I. Se asigna a cada valor de la variable explicativa (o


conjunto de valores de las variables explicativas, en el caso múltiple) la media de
la variable explicada condicionada a tal valor(es) de la(s) variable(s) explicativa(s).
Por consiguiente, sólo proveerá estimaciones de Y para los valores
de X contenidos en la distribución de frecuencias.
 Regresión de tipo II. Se supone que la función y = f(x) o y = f(x1, x2, …, xp)
que liga la variable explicada con la explicativa (o explicativas) tiene forma
paramétrica, es decir, Y se relaciona con X a través de una serie de coeficientes o
parámetros. En consecuencia, proporciona estimaciones de Y para cualquier valor
de X, esté contenido en la distribución o no. En este sentido, se puede establecer
una clasificación de la regresión de tipo II atendiendo al tipo de función que
relaciona la(s) variable(s) explicativa(s) con la variable explicada. Así, la regresión
(y correlación) será lineal2 cuando tal función sea una recta (si la regresión es
simple), un plano o un hiperplano (si la regresión es múltiple). En caso contrario, la
regresión (y correlación) será no lineal. Dicha función se elegirá de modo que se
ajuste «lo mejor posible» a las observaciones, resultando de gran utilidad a estos
efectos la representación gráfica de las mismas, también llamada nube de puntos
o gráfico de dispersión.

El Gráfico 5.1 muestra distintas situaciones: el Gráfico 5.1(a) refleja ausencia de


relación entre las variables X e Y; los Gráficos 5.1(b) y 5.1(c) sugieren una relación
lineal, positiva y negativa, respectivamente; el Gráfico 5.1(d) indica un tipo de
relación no lineal.

La información a partir de la cual se llevará a cabo el análisis de regresión y


correlación se supondrá que viene dada de la forma más general, es decir:

Página 132  |  Inicio del artículo


Gráfico 5.1.

donde el número de valores distintos de X son n y los de Y son m, siendo el total


de observaciones N.

Evidentemente, la regresión de una variable sobre otra(s) no proporciona el valor


real de la primera, por lo que dicho valor real, yj, se puede obtener como el valor
estimado mediante la regresión, Ŷi = f(xi), más o por un término de error (estimado,
puesto que se obtiene por diferencia entre el valor real y el valor estimado):

Página 133  |  Inicio del artículo

Nótese que para cada valor xi de la distribución bidimensional de frecuencias la


regresión proporciona un valor estimado de Y, Ŷi. Sin embargo, existen j valores

observados de errores de estimación (êij = yj - ŷi).


Recuadro:  Ocultar

En lo que sigue, y salvo que se manifieste lo contrario, se considerará que


dicho término de error se incorpora en la relación entre yj e ŷi de forma
aditiva y que no se impone restricción alguna sobre los parámetros o
coeficientes.

Una vez introducido el problema de la regresión y la correlación, el resto del


capítulo, dedicado a regresión y correlación simple, se estructura como sigue: en
el apartado 5.2 se plantea la regresión de tipo I y la medición del grado de
dependencia estadística entre dos variables de acuerdo con tal regresión; en el
5.3 se aborda la regresión de tipo II y la cuantificación de la dependencia
estadística entre las variables objeto de estudio bajo la función de regresión
seleccionada; el apartado 5.4 se detiene en la regresión de tipo II de carácter
lineal, en el 5.5 se abordan las relaciones no lineales, y en el 5.6 se ofrecen
algunas reflexiones finales.

5.2. REGRESIÓN DE TIPO I Y RAZÓN DE CORRELACIÓN


5.2.1. REGRESIÓN DE TIPO I
Sea la distribución bidimensional (xi; yj; nij) genérica

representada gráficamente por la nube de puntos que se muestra en la página


siguiente.

Tomando Y como variable a explicar y X como variable explicativa, la primera


cuestión que se plantea es la siguiente: ¿Qué valor de Y se le hace corresponder
aPágina 134  |  Inicio del artículocada valor de X? O, en otros términos: ¿Cuál es
el valor estimado de Y para cada valor de X, xi?3 .
Denotando el valor estimado de Y para un determinado xi como ŷ/xi, un criterio
basado en el sentido común es que la suma de los cuadrados de los N errores de
estimación4 se haga mínima. ¿Y cuándo se hace mínima la suma de los
cuadrados de los errores de estimación (SCE)? Según la propiedad 2 de la media
aritmética:

Página 135  |  Inicio del artículo

En general, para cualquier valor xi, cuando

siendo la media de las observaciones de Y que van acompañadas en la


distribución de frecuencias por el valor X = xi.

Veáse de otra forma. Teniendo en cuenta que el valor estimado


para Y correspondiente al i-ésimo valor de la variable
denota el error cometido en la estimación
de Y correspondiente al valor de xi mediante la regresión de tipo I
de Y sobre X (recuérdese que hay N errores de estimación), considérese la
identidad

Elevando al cuadrado (para evitar compensaciones de los errores de estimación


positivos y negativos) y sumando para todas las observaciones bidimensionales,
se tiene

donde el término de la izquierda es SCE. Por consiguiente,

Para obtener los valores ŷi que minimizan SCE se procede como sigue5 :

Página 136  |  Inicio del artículo

Finalmente se comprueba que se trata de un mínimo:


A este tipo de regresión, en la cual a cada valor de la variable X se le asigna la
media de los valores de Y que aparecen con dicho valor x, se le
denomina regresión de tipo I de Y sobre X. En consecuencia, la regresión de
tipo I de Y sobre X está formada por los pares de valores ( ). Análogamente,
la regresión de tipo I de X sobre Y estaría formada por los pares de valores (
).

Por consiguiente, en el caso de la regresión de tipo I de Y sobre X se tiene que el


valor de las observaciones de Y plasmadas en la distribución bidimensional de
frecuencias, yj, se puede expresar como yj = ŷi + êij, donde , siendo /xi la
media de las observaciones de Y que aparecen conjuntamente con X = xi y êij el
error que se comete al estimar yj a través de

/xi.

Recuadro:  Ocultar

EJEMPLO 5.1
Las ventas (en euros) realizadas en 2006 por una muestra de comerciales de
empresas del sector farmacéutico español, así como la antigüedad de los mismos
en el sector (en años), se refleja en la siguiente tabla:
Llévese a cabo la regresión de tipo I del nivel de ventas de los comerciales del
sector farmacéutico español sobre la antigüedad en su profesión como comercial
en el sector.

Página 137  |  Inicio del artículo

Solución:

La regresión de tipo I establece, como estimación del nivel de ventas realizadas


por los comerciales, para cada nivel de antigüedad, la media de las ventas
realizadas por dichos comerciales.

El cálculo de las medias de las ventas, condicionadas a cada nivel de antigüedad,


se puede llevar a cabo fácilmente a partir de la tabla expuesta en el enunciado. No
obstante, para el lector que lo prefiera, se ofrece a continuación dicha tabla en la
forma convencional de una distribución de frecuencias bidimensionales.
Dichas medias condicionadas, para cada nivel de antigüedad de los comerciales
en el sector, son las siguientes:

Página 138  |  Inicio del artículo

obteniéndose como:
Por tanto, la regresión de tipo I vendría dada por los pares de valores6 :

La nube de puntos o gráfico de dispersión se muestra en el Gráfico 5.2 (si bien


hay que tener en cuenta que muchos de los puntos confluyen, dada la similitud de
las ventas realiza-das por los comerciales de los menores niveles de antigüedad).
En él también se muestran las medias condicionadas a cada nivel de antigüedad
(representadas por un rombo).

Página 139  |  Inicio del artículo


Gráfico 5.2.

Los N = 30 errores de estimación êij (en miles de euros) son:

Página 140  |  Inicio del artículo

Recuadro:  Ocultar

EJEMPLO 5.2
En una empresa de software trabajan 10 asalariados diplomados en informática, 8
licencia-dos en informática y 6 con el grado de doctor en dicha materia. Sus
retribuciones mensuales, que entre otras cosas están en función de su nivel de
formación, son las que se ofrecen a continuación. Si un trabajador eleva su nivel
de formación, automáticamente cambia su contrato, de tal forma que se le
considera el nuevo nivel alcanzado:

A partir de la información anterior, llévese a cabo la regresión de tipo I de la


retribución mensual de los trabajadores de la empresa en cuestión sobre su nivel
de formación. ¿Cómo mejoraría el salario de un diplomado si se licenciase? ¿Y el
de un licenciado si obtuviese el grado de doctor?

Solución:

Aunque en este capítulo las variables que se consideran son de carácter


cuantitativo, se hará una pequeña excepción y se abordará este caso, donde la
variable explicativa es cualitativa (es un factor), con tres niveles. El objeto de este
ejemplo es introducir al lector en la técnica estadística del Análisis de la
Varianza.

La regresión de tipo I de Y (salario) sobre X (nivel de formación) viene dada por:

En cuanto al efecto sobre el salario que tiene el paso de diplomado a licenciado y


de licenciado a doctor, su estimación es la siguiente:

Este resultado es el resultado fundamental del Análisis de la Varianza, en el cual


se pretende estimar el efecto en una variable cuantitativa Y de pasar de uno a otro
de los niveles de la variable X; lógicamente, al haber dicho «niveles» se está
presuponiendo que la variable X es cualitativa.

Página 141  |  Inicio del artículo

No obstante, en el Análisis de la Varianza, la estimación del nivel salarial mensual


para cada uno de los tres tipos de formación puede expresarse, entre otras
muchas maneras, así:
es decir, con una parte común. En este caso, se ha tomado como parte común de
cada estimación el salario medio mensual de los trabajadores de la empresa
(2.089,5833 euros/mes); por tanto, el salario estimado de un trabajador de dicha
empresa es la suma de dos componentes: uno común a todos ellos (el salario
medio) y otro diferencial que incrementa o disminuye la retribución estimada sobre
el salario medio en función del nivel de formación. La estimación del cambio en el
salario al pasar de un nivel de formación a otro se llevaría a cabo mediante las
diferencias entre los segundos sumandos de los segundos términos.

En el caso en que la variable explicativa sea cualitativa, la regresión de tipo I sólo


tiene sentido cuando dicha variable presenta un número predeterminado de
niveles.

5.2.2. RAZÓN DE CORRELACIÓN


Vayamos un poco más lejos. En el apartado anterior se ha minimizado SCE pero
esto no significa que ésta sea muy pequeña. Pudiera ser grande y resultar que con
otras estimaciones de Y distintas de las medias condicionadas fuera aún más
grande. Evidentemente, cuanto más pequeña sea SCE mejor es la regresión en el
sentido de que, globalmente, se cometen menores errores de estimación. Es más,
lo ideal sería que SCE = 0.

Ahora la cuestión es: ¿Cómo idear una medida que cuantifique la bondad de la
regresión llevada a cabo? Es decir, ¿cómo medir la ganancia derivada del hecho
de conocer los valores de X que se dan conjuntamente con los de Y a la hora de
«explicar» o estimar estos últimos? La respuesta es la siguiente:

1. Si no se conociese con qué valor de X va emparejado cada valor de Y la mejor
estimación de Y (también por la propiedad 2 de la media aritmética) sería la media
de la variable Y, siendo la suma de cuadrados de los errores de estimación
cometidos

2. Ahora bien, conociendo el valor de X que va emparejado con cada valor de Y, la
mejor estimación de esta última es la media de las observaciones
de Y emparejadas con el valor en cuestión de X, siendo la suma de cuadrados de
los errores de estimación cometidos, como se ha visto anteriormente,
Página 142  |  Inicio del artículo

3. Por consiguiente, la reducción proporcional en el error cometido (respecto del


que se cometía cuando no se disponía de información alguna sobre la variable X)
es una buena medida de lo que ayuda la variable X en la explicación de la
variabilidad de la variable Y. Tal reducción proporcional en el error de estimación
cometido es:

que se denomina razón de correlación7 (en este caso concreto de Y sobre X) y


se denota por νY/X.

La razón de correlación de Y sobre X también puede expresarse como sigue:

Descomponiendo la varianza de Y en varianza intragrupos y varianza intergrupos


(propiedad 3 de la varianza) se tiene

de donde
Página 143  |  Inicio del artículo

llegándose a

Por su propia construcción, la razón de correlación está comprendida entre 0 y 1,


puesto que si como consecuencia de la inclusión de la variable X la suma de
cuadrados del error de estimación no se reduce nada, entonces la razón de
correlación vale 0, mientras que si se reduce a 0 la razón de correlación valdrá la
unidad.

Lo anterior es lógico puesto que, como se ha visto anteriormente, cuando ŷi =

/xi se tiene que

donde (1) es N veces la varianza de los valores observados de Y o la SCE que se


comete al estimar sin información alguna sobre los valores de X que acompañan a
los de Y; (3) es la SCE que se alcanza cuando se estima con el conocimiento de
los xi; y (2) es la diferencia entre ambos o reducción (en valor absoluto)
en SCE como consecuencia de conocer el valor de X al que va asociado cada
observación de Y (es decir, como consecuencia de la regresión). Evidentemente,
es deseable que (2) sea máximo y (3) mínimo o nulo. Pero el mínimo valor de (3)
es 0 y el máximo es (1) y de ahí que la razón de correlación tome valores entre 0 y
1.

Obviamente, cuanto mayor sea la razón de correlación mayor será la potencia


de X a la hora de explicar el valor que toma Y. La variable Y no toma siempre los
mismos valores sino que presenta cierta variabilidad (mucha o poca, depende de
cada caso concreto), y, si la razón de correlación es elevada, dicha variabilidad
de Y cabe ser atribuida a la variabilidad de X. ¿Por qué varían los valores que
toma Y? Porque varían los que toma X. Si la razón de correlación es elevada, X es
la manija que mueve a Y. En caso de que la razón de correlación sea pequeña
(cercana a cero) la variabilidad que tiene Y no cabe ser atribuida (o sólo en
pequeña medida) a X, sino a otras causas no consideradas en el análisis. En otros
términos: X no es el factor que explica los movimientos de Y; o su participación en
la explicación de la variabilidad de Y es muy pequeña y, por tanto, no debe ser
utilizada como instrumenta para estimar Y.

Página 144  |  Inicio del artículo

Hay que tener en cuenta la siguiente circunstancia: en caso de que la distribución


bidimensional de frecuencias sea unitaria, la razón de correlación vale
necesariamente la unidad. Ello, más que significar un ajuste perfecto, lo que viene
a significar es la inconveniencia de llevar a cabo un procedimiento de regresión de
tipo I, pues si a cada valor de X le corresponde uno y sólo uno de Y dicha
regresión carece de sentido8 .

Finalmente, cabe señalar que (supóngase la regresión de Y sobre X), únicamente


si ηy/x es de una cierta intensidad, tiene sentido utilizar los valores ŷi =
/xi como estimaciones de los valores de Y correspondientes a los
valores de X que aparecen en la distribución de frecuencias. En caso contrario, si
el valor de la razón de correlación está cercano a 0, carece de sentido utilizar tales
valores como estimadores; es decir, carece de sentido la regresión de tipo I: ¿Qué
sentido tendría estimar los valores de Y a través de los de X (por el procedimiento
que sea) si no existe dependencia estadística, o existe muy poca, de Y respecto
de X?

Recuadro:  Ocultar

EJEMPLO 5.3
A partir de la información contenida en el Ejemplo 5.1, calcule la razón de
correlación de las ventas de los comerciales sobre su antigüedad como
profesionales en el sector.

Solución:

En la tabla de la página siguiente se muestran los cálculos necesarios para


obtener la razón de correlación.

A partir de ella se obtiene la varianza de las ventas de los comerciales como


siendo

y, por tanto, su varianza:

Página 145  |  Inicio del artículo

Finalmente, se obtiene la razón de correlación de Y (ventas de los comerciales)


sobre X (nivel de antigüedad de los mismos en el sector) como
Este valor de ηY/X = 0,9957 indica que la suma de los cuadrados de los errores
cometidos en la estimación de las ventas mediante la regresión I se reduce en un
99,57% respecto de la cometida en caso de no conocer la antigüedad de los
comerciales en el sector, de donde se deduce que la variable X aporta mucha
información sobre la variable Y, y por consiguiente, las ventas de los comerciales
pueden explicarse muy bien en función de los niveles de antigüedad considerados
en la distribución.

5.2.3. VARIANZA DEBIDA A LA REGRESIÓN Y VARIANZA


RESIDUAL
Como ha podido verse en el apartado 5.2.2,

Página 146  |  Inicio del artículo

Por tanto,

de donde se puede apreciar que la varianza total de la variable Y se puede


descomponer en la suma de dos componentes: la varianza de los errores de
estimación (también denominados residuos de la regresión) y un porcentaje de la
varianza de Y que se debe a la inclusión de la variable X en el análisis, que se
denominará varianza de Y «explicada» por la regresión de tipo I de Y sobre X, o
por la inclusión de la variable X en la regresión. En consecuencia, la razón de
correlación de Y sobre X no es sino la varianza debida a la regresión de tipo I
de Y sobre X dividida entre la varianza de la variable Y.

Pero como también


entonces

donde el primer término del lado derecho de la expresión es la anteriormente


denominada varianza de Y «explicada» por la regresión de tipo I o varianza de las
estimaciones proporcionadas por la regresión de tipo I9 (S2y) y, el segundo, la
varianza de los errores de estimación (S2e). Evidentemente, la varianza
de Y «explicada» por la regresión de tipo I es un porcentaje de su varianza total
que viene determinado por la razón de correlación. En otros términos: los valores
de Y no son siempre los mismos, y parte de su variabilidad se debe al valor
de X que los acompaña; en este sentido, la razón de correlación se interpreta
como el porcentaje de la variabilidad de Y que viene determinado
estadísticamente por la variabilidad de los valores de X y por ello puede
considerarse como el porcentaje de la variabilidad de Y que se debe al hecho de
considerar X como factor explicativo de la misma mediante una regresión de tipo I.
En términos más intuitivos: el porcentaje del comportamiento de la
variable Y provocado, en términos estadísticos, por el comportamiento de la
variable X.

Página 147  |  Inicio del artículo

Recuadro:  Ocultar

EJEMPLO 5.4
En este ejemplo se procede a la descomposición de la varianza de las ventas
realizadas por los comerciales del sector farmacéutico español considerados en el
Ejemplo 5.1 en la varianza explicada por la regresión de tipo I (S2r) y la varianza
de los errores de estimación (S2e). Para ello, se construye la siguiente tabla:

De ella se deduce fácilmente el valor de la varianza debida a la regresión

y el de la varianza de los errores de estimación

Se puede comprobar que

Página 148  |  Inicio del artículo

5.3. REGRESIÓN DE TIPO II Y COEFICIENTE DE


DETERMINACIÓN
5.3.1. CONCEPTO DE REGRESIÓN DE TIPO II
La forma de proceder en la regresión de tipo I es asignar a cada uno de los
valores de una variable cuantitativa X que aparecen en la distribución (que en
algunos casos pudieran ser los únicos que toma la variable X), o a un número
predeterminado de niveles de una variable cualitativa (como se vio en el Ejemplo
5.2), un valor estimado de Y. En definitiva, asignar estimaciones de Y al conjunto
finito de valores de X con el que se trabaja.

Ahora la pregunta es la siguiente: cuando la variable explicativa es cuantitativa y


puede tomar cualquier valor razonable, ¿cómo habría que proceder para estimar
su relación con la variable a explicar cuando se dispone únicamente de los valores
(xi; yj) contenidos en la distribución de frecuencias, pero que no son todos los que
puede tomar la variable bidimensional?

En este caso, si se estima Y mediante las medias de dicha variable


correspondientes a cada valor de X se cometerá el menor error de estimación
posible pero no se podrán realizar estimaciones de Y para otros valores de X no
contenidos en la distribución. Sólo se dispondrá de estimaciones de Y para los
valores de X que aparecen en la misma.

Ante esta tesitura, la mejor solución es observar la nube de puntos y elegir un tipo
de función continua que se adecue a ella. Posteriormente, se estimarán los
valores de los parámetros de dicha función que hacen mínima la suma de
cuadrados del error de estimación. Dicho de otra forma: se trata de obtener la
función que pasa más cerca de todos los puntos de la nube y que, por
consiguiente, genera los menores errores de estimación.

El lector podría pensar que tal función es sencilla. Según la propiedad 2 de la


media aritmética será una que pase por las medias de Y para cada valor de X.
Esto es cierto, pero entonces habría que ajustar un polinomio de grado demasiado
elevado, es decir, la función sería demasiado compleja; además, sería el mejor
ajuste posible para los datos de la distribución (lo que no quiere decir
necesariamente que sea muy bueno, pues ello dependerá de la variabilidad de los
valores de Y condicio-nada a cada valor de X) pero, muy probablemente,
generalizaría mal para otros distintos. Es preferible una función más sencilla que
proporcione el comportamiento general de la variable Y a medida que evoluciona
la variable X. Tal función se denomina función de regresión de tipo II y entre
ellas la más común es la recta, si bien existen otras como la parábola, la función
exponencial, la potencial, etc.

Por consiguiente, en el caso que se está tratando, puede surgir un trade-off entre


minimización de SCE (estimación mediante medias condicionadas) y
generalizaciónPágina 149  |  Inicio del artículo(estimación mediante una función
sencilla que proporcione el comportamiento del movimiento conjunto de las
variables X e Y), puesto que a medida que esta función se aleje de las medias
condicionadas aumentará SCE. En el caso en que las medias condicionadas sigan
la función sencilla tendencial este trade-off habrá desaparecido; pero esta
situación es inusual.

Ahora bien, una cuestión importante es la siguiente. Antes de buscar la función


sencilla tendencial (función de regresión de tipo II) se debe calcular la razón de
correlación, puesto que al calcularse ésta con las medias condicionadas
proporciona la máxima reducción proporcional de SCE al incluir la variable X en el
procedimiento de estimación de Y (el grado de dependencia estadística
de Y respecto de X). Si dicha reducción es pequeña (por ejemplo, el 20%, es
decir, ηY/X = 0,2), no tendrá sentido buscar una función de regresión de tipo II
de Y sobre X en aras de la generalización, puesto que la reducción en SCE será,
utilizando esta función, inferior al 20% y, dado que el grado de dependencia
estadística de Y respecto de X a través de dicha función de regresión de tipo II es
muy pequeño, tal función carecerá de utilidad a la hora de estimar Y a través
de X. Por el contario, cuando la razón de correlación es elevada, sí tiene sentido
buscar una estructura de dependencia sencilla puesto que, aunque se pierda en
reducción en SCE, ésta puede ser todavía elevada.

5.3.2, COEFICIENTE DE DETERMINACIÓN


10

Una vez elegido el modelo de función de regresión de tipo II y estimados los


valores de sus parámetros que hacen mínima SCE11 , la cuestión que se plantea
es cómo medir el grado de dependencia de Y respecto de X bajo la suposición de
que se estima Y mediante dicha función concreta de X. Tal grado de dependencia
será denotado por R2Y/X, y se denomina coeficiente de determinación de la
regresión de Y sobre X (R2X/Y, cuando la regresión sea de X sobre Y).

En consonancia con la definición de ηY/X, R2Y/X deberá ser definido como la


reducción proporcional en SCE que se consigue al estimar los valores de Y a
través de los de X mediante la función de regresión de tipo II elegida en vez de

mediante . Es decir,

Página 150  |  Inicio del artículo

Análogamente,
La «eficiencia relativa» de la regresión de Y sobre X, es decir, el porcentaje de la
dependencia estadística de Y respecto de X (νY/X) que recoge la función de
regresión de tipo II elegida, viene dada por la expresión

interpretándose como lo efectiva que es la curva o función ajustada a la hora de


recoger la dependencia estadística de Y respecto de X. En definitiva, como ya se
indicó anteriormente, representa el porcentaje de ηY/X que recoge la función de
regresión de tipo II elegida.

En el caso de la regresión de X sobre Y se tiene


La función de regresión de tipo II más comúnmente utilizada para relacionar
estadísticamente Y con X es la recta, ya que es de fácil manejo y, con cierta
frecuencia, se ajusta bastante bien a la realidad. Por esta razón, el siguiente
apartado está dedicado a la regresión lineal.

Página 151  |  Inicio del artículo

5.4. REGRESIÓN LINEAL


Antes de comenzar con este apartado resulta esencial entender qué se entiende
por lineal, ya que hay dos posibles interpretaciones: linealidad en las variables y
linealidad en los parámetros.

Una función y = f(x) se dice que es lineal en X si la variable X aparece con


potencia unitaria (por tanto, se excluyen términos como x2, x3, 1/x, √x, por ejemplo)
y no está multiplicada ni dividida por otra variable. Por
ejemplo, yj = a + bxi + cxi2 no es una función lineal en las variables puesto que la
variable X aparece elevada al cuadrado.

Se dice que una función es lineal en los parámetros si éstos aparecen con
frecuencia unitaria y no están multiplicados ni divididos por cualquier otro
parámetro. A modo de ejemplo, yj = a + √bxi no es una función lineal en los
parámetros. Sin embargo, yj = a + bxi + cxi2 sí lo es.

De las dos interpretaciones de linealidad, la linealidad en los parámetros es la más


relevante en el contexto de la teoría de la regresión y de la correlación. Sin
embargo, en lo que sigue, se exigirá tanto la linealidad en los parámetros como en
las variables para que la regresión sea calificada de lineal12 .

5.4.1. ESTIMACIÓN DE LOS PARÁMETROS DE LA REGRESIÓN


LINEAL
En el caso en que se presuma que la relación de dependencia de Y sobre X es de
carácter lineal, yj = a + bxi + eij, donde eij representa el error que se comete como
consecuencia de que pudiera haber otras variables que influyesen en el
comportamiento de la variable Y, la cuestión es: ¿Cómo estimar los
parámetros a y b de la misma?

Gráfico 5.4.

Página 152  |  Inicio del artículo

Como en esta tesitura la función de regresión de tipo II elegida sería


representando el valor de Y que se estima a través de tal función lineal
para X = xi en base a la información disponible, obviamente las estimaciones de

dichos parámetros, â y , serán aquellas que


minimicen SCE:

Derivando parcialmente respecto a â y e


igualando a cero, se tiene que

y operando:

sistema denominado de ecuaciones normales.


Dividiendo ambas ecuaciones por N se obtiene

y restando de la segunda la primera multiplicada por a10 se llega a

de donde

y despejando de la primera de las ecuaciones del sistema se tiene que

con lo que la recta de regresión se puede escribir en forma explícita como

o bien, en forma punto-pendiente, como

Página 153  |  Inicio del artículo

Obviamente, a y b son dos parámetros (no varían), mientras que â y son


estimaciones obtenidas a partir de un conjunto finito de observaciones. Si en lugar
de las observaciones disponibles se tuviesen otras, los valores de â y diferirían de
los estimados previamente.

A los valores â y se les denomina coeficientes de la regresión lineal de Y sobre

X o, simplemente, coeficientes de regresión. El coeficiente , cuyo signo


es el de la covarianza entre las variables, es la pendiente de la recta de regresión
de Y sobre , e indica la variación de Y ante un incremento
unitario de X. El término independiente u ordenada en el origen, desde un enfoque
geométrico, es el punto de corte entre la recta de regresión y el eje de ordenadas.
Analíticamente puede interpretarse como el valor estimado para Y cuando X = 0,
aunque esta interpretatión analítica puede no tener sentido alguno en la realidad.

Dividiendo por SY en ambos lados de la ecuación de regresión lineal se obtiene

es decir, en la regresión lineal, dado que es menor o igual que la


unidad en valor absoluto, el valor estimado de Y para un valor de X determinado
es menos «raro» en la distribución de Y que tal valor de X en la distribución
de X (en el sentido de que, en términos relativos a su desviación típica, está más
cercano a la media), ya que

La expresión puede denominarse, de forma


introductoria, «covarianza relativa». No obstante, en el apartado 5.4.2 recibirá el
nombre de coeficiente de correlación lineal entre X e Y, denominación por la que
es conocida, y se denotará por r.

En la estimación de los coeficientes a y b (o de la recta de regresión) es


indiferente trabajar con los valores observados de la variable Y o con sus medias
condicionadas repetidas ni. veces13 puesto que como

Página 154  |  Inicio del artículo


entonces

y sumando para todas las observaciones

y como el tercer término del lado derecho de la ecuación se anula (véase nota a


pie de página 134), se tiene que

Obsérvese el segundo término del lado derecho de la anterior ecuación. Por la


segunda propiedad de la media aritmética, para cada valor xi la diferencia
cuadrática se minimiza cuando el sustraendo de yj es precisamente

/xi. Como esto


ocurre cualquiera que sea el valor xi, resultará que la suma para todo i de dichas
diferencias cuadráticas será la mínima posible y, en consecuencia:

Además, analíticamente, al derivar SCE respecto de â y , como el


segundo término de la derecha no los incluye, no influye para nada en los
resultados que se obtengan, pues su derivada respecto de cualquiera de ellos es
nula.

Evidentemente, lo expuesto es válido para cualquier función que se ajuste a los


datos (o medias), no teniendo por qué ser exclusivo del caso lineal.
De forma análoga a como se ha realizado la regresión lineal de Y sobre X se

llevaría a cabo la regresión de X sobre Y, , con

Página 155  |  Inicio del artículo

Ambas regresiones lineales, la de Y sobre X y la de X sobre Y, pasan por el punto

( ; ), que se
denomina centro de gravedad de la distribución de frecuencias.

Recuadro:  Ocultar

EJEMPLO 5.5
Suponiendo que se ha optado por una recta como la mejor función que puede
ajustar la nube de puntos del Ejemplo 5.1, obténgase la estimación de los
coeficientes de la recta de regresión e interprétense. Utilice dicha recta para
estimar las ventas de un comercial con 17 años de antigüedad en el sector.
Solución:

Para el cálculo de los coeficientes de regresión, se construye la siguiente tabla, en


la que se incorporan las marcas de clase de los intervalos de antigüedad:

De ella se deducen el valor medio de la antigüedad de los comerciales en el


sector:

Página 156  |  Inicio del artículo

Gráfico 5.5.

su varianza
Página 157  |  Inicio del artículo

y la covarianza entre la antigüedad como comerciales en el sector y las ventas de


los mismos,

necesarias para el cálculo de los coeficientes de regresión:

Finalmente, la recta de regresión de la variable Y sobre la variable X viene dada


por

En cuanto a la interpretación de los coeficientes de regresión, de dicha recta se


deduce que, cuando la antigüedad de un comercial en el sector aumenta un año,
sus ventas se incrementan en 46.488,89 €. Sin embargo, respecto a la
interpretación del coeficiente â, éste sería uno de los casos en los que carece de
sentido tal interpretación, ya que resulta que las ventas generadas por un
comercial sin antigüedad en el sector serían de – 62.508,57 €, lo cual es absurdo
ya que las ventas no pueden ser negativas.

Esta recta de regresión, a diferencia de la regresión de tipo I, permite estimar


valores de Y correspondientes a valores de X que no se encuentran en la
distribución. Por ejemplo, se pueden estimar las ventas que le corresponderían a
un comercial con 17 años de antigüedad en el sector como

5.4.2. COEFICIENTE DE DETERMINACIÓN LINEAL


Una vez elegida la función rectilínea para representar la relación de dependencia
de Y sobre X y estimados sus parámetros a y b, a continuación se procede al
cómputo del coeficiente de determinación lineal con objeto de medir el grado de
dependencia de Y sobre X bajo la función de regresión lineal estimada.

En el caso lineal, , el coeficiente


de determinación adopta la siguiente expresión:

Página 158  |  Inicio del artículo

Dicha expresión se denomina, lógicamente, coeficiente de determinación lineal


simple, r2, por ser una particularización de la razón de correlación, y más
concretamente del coeficiente de determinación14 .

Su campo de variación es [0; 1], interpretándose como sigue:

 r2 = 0 significa que la relación lineal entre Y y X no reduce en absoluta


la SCE que tiene lugar a la hora de proceder a la estimación de los valores
de Y sin conocimiento de los valores de X (ŷi = ) y, por consiguiente, la regresión
lineal no aporta nada a la hora de mejorar las estimaciones de Y (seguirá siendo la

recta ŷi = ).
 2
r  = 1 indica que la estimación de los valores de Y a través de la recta de
regresión es perfecta, por cuanto es capaz de hacer nula SCE. En otros
términos: Y depende funcionalmente de X a través de la recta estimada.
 Cuanto más se acerque a cero r2, menor será la capacidad de la recta
estimada a la hora de explicar la relación de dependencia
de Y sobre X. Lógicamente, cuanto más se acerque a la unidad, mayor será su
capacidad de explicar tal relación.

En el caso de la regresión lineal de X sobre Y el coeficiente de determinación sería


el mismo, sin que ello implique que la varianza de los errores de
estimaciónPágina 159  |  Inicio del artículosea la misma que en la regresión
de Y sobre X, lo cual únicamente ocurriría en el caso de que ésta fuese nula. Lo
que sí coincide es la razón entre la varianza de los errores de estimación en la
regresión de Y sobre X y la varianza de Y con la razón de los errores de
estimación en la regresión de X sobre Y y la varianza de X. Efectivamente,

de donde se deduce que

Dado que en ambos casos, en la regresión de Y sobre X y en la de X sobre Y, el


coeficiente de determinación lineal es el mismo, éste viene a indicar el grado de
dependencia mutua de las variables a través de una recta.

Es fácil comprobar que

′ = r2.
La eficiencia relativa de la regresión lineal de Y sobre X se mide a través de la
expresión

y se interpreta como la capacidad que tiene la regresión lineal a la hora de recoger


la dependencia de la variable a explicar respecto de la explicativa.

En el caso de la regresión de X sobre Y se tiene que

La raíz cuadrada del coeficiente de determinación lineal se conoce


como coeficiente de correlación lineal simple (en el Capítulo 4, así como en el
epígrafePágina 160  |  Inicio del artículoprecedente, se denominó covarianza
relativa a modo introductorio) y también coincide en la regresión de Y sobre X y en
la de X sobre Y.

Dado que r2 varía entre 0 y 1, r variará entre – 1 y 1, no existiendo problema


alguno con el signo, puesto que es el mismo que el de la covarianza entre ambas
variables. Por consiguiente, obviando la cuestión de la ambigüedad del signo, se
tiene que

Los valores de r se interpretan como sigue:

 r = 1: en este caso las variables presentan una relación funcional y positiva
(la pendiente de la recta de regresión es positiva). En otros términos, todos los
valores estimados coinciden con los observados, por lo cual SCE es nula. En este
caso, además, las rectas de regresión de Y sobre X y de X sobre Y coinciden.
 r = – 1: en esta tesitura las variables presentan una relación funcional y
negativa. También en este caso todos los valores estimados coinciden con los
observados, por lo cual SCE es nula, y las dos rectas de regresión coinciden, si
bien son decrecientes.

 r = 0: en este caso no existe correlación lineal entre las variables y las
rectas de regresión son perpendiculares. En concreto, la recta de regresión
de Y sobre X es una paralela al eje X trazada por el punto del eje de ordenadas y

la de X sobre Y una paralela al eje Y trazada por el punto del eje de


abscisas.

Página 161  |  Inicio del artículo

Gráfico 5.6.

Es importante resaltar que la ausencia de correlación lineal se identifica con la


incapacidad de la variable X para explicar mejor (con menor SCE) los valores de la
variable Y a través de una recta que en la situación en la que no se dispone de
información sobre X y se estiman los valores de Y a través de su media aritmética

(ŷj = ).

Por tanto, lo que significa realmente un coeficiente de correlación lineal r = 0 es


que la introducción de X en forma lineal no reduce la variabilidad de Y respecto de
cuando no se conocía X y se estimaban los valores de Y mediante la media de
esta variable.

 −1 < r < 0: la correlación lineal entre las variables es negativa y tanto más


cuanto más se acerque r a −1. Ambas rectas de regresión tienen pendiente
negativa, si bien son distintas.
 0 < r < 1: la correlación lineal entre las variables es positiva y tanto más
cuanto más se acerque r a 1. Ambas rectas de regresión tienen pendiente positiva,
si bien son distintas.

Otras características de r a tener en cuenta son las siguientes:

1. Es invariante a los cambios de origen, ya que tanto la covarianza como la


varianza lo son.
2. Es invariante a los cambios de escala en cuanto a su valor absoluto. Si

entonces

Página 162  |  Inicio del artículo

Sin embargo, no lo es en cuanto al signo. Si el cambio de escala se realiza en una


sola de las variables cambiará de signo cuando k1 o k2 (depende de la variable en
la cual se opere el cambio de escala) sea negativo y no lo hará cuando sea
positivo Si el cambio de escala se lleva a cabo en las dos variables, cambiará de
signo cuando k1 y k2 tengan signo distinto y no lo hará cuando su signo sea el
mismo.

A pesar de la ligazón existente entre los coeficientes de determinación y


correlación lineal, en la práctica, la utilización de ambos suele ser diferente: el
primero es más utilizado para medir la variabilidad de la variable a explicar que se
debe a la variabilidad de la variable explicativa a través de una relación lineal,
mientras que el segundo suele emplearse para medir el grado de relación lineal
entre dos variables, ya sea porque la tengan de forma directa o debido a la
influencia sobre ambas de una tercera variable.

Recuadro:  Ocultar

EJEMPLO 5.6
Estüdiese la bondad de la regresión llevada a cabo en el Ejemplo 5.5.

Solutión:

La regresión llevada a cabo en el Ejemplo 5.5 será tanto más fiable cuanto mayor
sea el coeficiente de determinación lineal. Por tanto, basta proceder a su cálculo

para concluir que la regresión lineal (o ajuste) realizada es muy satisfactoria, ya


que el valor de dicho coeficiente está muy cercano a la unidad. Ello indica que
la SCE en ausencia de información acerca de la antigüedad del comercial en el
sector es rebajada en un 92,52% cuando se dispone de tal información y se
incorpora en una recta de regresión para estimar los valores de la variable Y.

5.4.3. VARIANZA DEBIDA A LA REGRESIÓN LINEAL Y


VARIANZA RESIDUAL
Del apartado 5.2.3 se sabe que

donde el primer término del lado derecho de la igualdad es la varianza debida a la


regresión y el segundo la varianza residual.

Página 163  |  Inicio del artículo

En el caso de la regresión de tipo II, la expresión anterior se transforma en15


y si dicha regresión es de tipo lineal, es decir,

, se tiene que

Ahora bien, en el caso lineal la suma de los residuos (y, por tanto, su media) es
nula, igual que ocurría en la regresión de tipo I, ya que

y, por consiguiente, el segundo término de la derecha en la expresión


que no es sino el momento de orden 2 de los errores de estimación (o residuos),
coincide con la varianza de los mismos, pudiéndose concluir que la varianza de la
variable Y se puede descomponer en dos partes: la varianza debida a la regresión,
o parte de la variabilidad de Y que se explica por la inclusión de X en el análisis, y
la varianza de los errores de estimación o varianza residual.

Recuadro:  Ocultar

EJEMPLO 5.7
Descompóngase la varianza de las ventas de los comerciales del sector
farmacéutico del Ejemplo 5.1 en varianza debida a la regresión lineal y varianza de
los errores de estimación.

Solución:

Como pudo verse en el Ejemplo 5.3, S2y = 271.460.888.888,89. Ahora, a partir de


la siguiente tabla:

Página 164  |  Inicio del artículo


se deduce el valor de la varianza debida a la regresión

y el valor de la varianza de los errores

pudiendo comprobarse fácilmente que

Página 165  |  Inicio del artículo


5.4.4. CORRELACIÓN LINEAL E INDEPENDENCIA
ESTADÍSTICA
En el apartado 5.4.2 se ha visto que

donde SXSY no es sino el valor absoluto del máximo valor de la covarianza entre


dos variables (Capítulo 4, apartado 4.4.4), por lo que el coeficiente de correlación
lineal no hace sino redimensionar el campo de variación de la covarianza entre −1
y 1. Dicho esto, ahora se puede entender por qué la covarianza entre dos

variables indica su grado de correlación lineal a través de la recta .


La ventaja del coeficiente de correlación lineal respecto de la covarianza, a la hora
de medir la correlación lineal entre X e Y, es que, mientras el campo de variación
de la covarianza [−SXSY; + SXSY] depende de cada distribución bidimensional, el
del coeficiente de correlación lineal es [−1; 1] para todas las distribuciones.

En el apartado 4.4.4 también se puso de manifiesto que en el caso de que dos


variables X e Y fuesen estadísticamente independientes su covarianza era nula.
Obviamente, en el caso de independencia, al ser la covarianza nula, el coeficiente
de correlación r también será nulo: si las variables son independientes, también lo
serán linealmente. Ahora bien, el recíproco no tiene por qué ser cierto
necesariamente: la correlación lineal entre las variables X e Y puede ser nula (r =
0) y sin embargo no ser independientes.

Si las variables X e Y son estadísticamente independientes, entonces también lo


serán linealmente y SXY = r = 0. Sin embargo, puede ocurrir que SXY = r = 0 y las
variables no sean independientes, ya que la covarianza se puede anular sin que
se cumpla la condición de independencia. Veáse con un ejemplo.

Recuadro:  Ocultar

EJEMPLO 5.8
Sea la siguiente distribución de frecuencias:

Página 166  |  Inicio del artículo

donde las variables X e Y están relacionadas como sigue: Y = X2.

Gráfico 5.7.

En la distribución anterior se tiene que


con lo que SXY = 0, r = 0 y las variables están incorrelacionadas linealmente. Sin
embargo, las variables son dependientes bajo una forma parabólica.

Si se llevara a cabo una regresión lineal de Y sobre X, la recta sería ŷi = 2,5 =

, es decir, se
estimaría Y por su media aritmética fuese cual fuese el valor de X, igual que se
haría en la tesitura en que los valores de X que acompañan a los de Y fuesen
desconocidos. La regresión lineal no ha reducido ni un ápice la SCE = S2Y que se
tenía al estimar los valores de Y sin «ayuda» de los de X. Ello se debe a que no
existe relación lineal alguna entre Y y X.

Por consiguiente, dos variables pueden estar incorrelacionadas linealmente y ser


dependientes bajo cualquier otro tipo de función. El hecho de que r = 0 lo único
que implica es la inexistencia de dependencia estadística entre X e Y de carácter
lineal, pero sólo eso; las variables pueden depender según otro tipo de función.

5.5 REGRESIÓN Y CORRELACIÓN NO LINEAL


5.5.1. INTRODUCCIÓN
La regresión simple de tipo II no lineal es una regresión entre dos variables pero,
como su propio nombre indica, la función y = f(x) no tiene carácter lineal, por no
serlo en los parámetros o/y en las variables.

Ejemplos de funciones de regresión de tipo II no lineales son los siguientes:

Página 167  |  Inicio del artículo

En lo que sigue, se abordará el caso de la regresión polinómica y de algunas


funciones que son susceptibles de ser reducidas a lineales (las más relevantes
son las expuestas como ejemplos, a excepción de la última).
5.5.2. REGRESIÓN POLINÓMICA Y COEFICIENTE DE
DETERMINACIÓN
16

5.5.2.1. Regresión polinómica

Como se ha indicado anteriormente, en este caso la función de regresión de tipo II


es .

El error de estimación se obtiene como sigue:

siendo la suma de cuadrados del error de estimación

Para obtener el valor estimado de los parámetros a, b, c, … que


minimizan SCE mediante la función en cuestión, se deriva parcialmente respecto

de , igualando posteriormente dichas


derivadas a cero y resolviendo finalmente el sistema de ecuaciones:

Como ya es conocido, estas ecuaciones se denominan ecuaciones normales, y de

su solución se obtienen
Página 168  |  Inicio del artículo

Denominando êij a la diferencia entre el valor estimado y el valor observado


de Y en el i-ésimo par (xi; yj), las ecuaciones anteriores se pueden reescribir como:

La regresión polinómica de X sobre Y se llevaría a cabo de forma análoga.

5.5.2.2. Coeficiente de determinación polinómico

A partir de la expresión del coeficiente de determinación general

el coeficiente de determinación polinómico se obtiene sin más que hacer

Su campo de variación, evidentemente, es [0; 1] con la interpretación ya conocida.

Recuadro:  Ocultar

EJEMPLO 5.9
A partir de los datos del Ejemplo 5.1, llévese a cabo un ajuste parabólico y
compruébese si es capaz de mejorar al ajuste lineal anteriormente realizado en el
Ejemplo 5.5.

Solución:

En el caso concreto de un polinomio de orden 2,


las ecuaciones normales, resultado de minimizar la SCE, son las siguientes

Página 169  |  Inicio del artículo

de donde

Dividiendo entre N a ambos lados de la igualdad en las tres ecuaciones del


sistema se obtiene:

que expresado en forma matricial equivale a


El cálculo de los elementos de la matriz de coeficientes del sistema se obtiene a
partir de la siguiente tabla, que incluye las marcas de clase de los intervalos de
antigüedad:

Página 170  |  Inicio del artículo

De ella se deducen los valores de


y recordando de los Ejemplos 5.3 y 5.5 el resto de valores necesarios: = 9,02,

= 356.666,67, a11 =
8.618.333,33, a20 = 197,51 y a02 = 398.672.000.000, se obtiene el sistema:

Su solución viene dada por

de donde se deduce que la parábola que mejor ajusta la nube de puntos es

A partir de la tabla que se expone en la página siguiente, se procede al cálculo del


coeficiente de determinación parabólico con la finalidad de determinar la bondad
del ajuste realizado.

De ella se deduce que SCE = 44.785.676.397,82 y, por tanto,


Como el coeficiente de determinación lineal simple es r2 = 0,9252 (véase Ejemplo
5.6), se concluye que el modelo parabólico estimado ajusta mejor que la recta (ŷi =
−62.508,5754 + 46.488,89xi) los datos relativos a las ventas de los comerciales y
su antigüedad en el sector.

Página 171  |  Inicio del artículo


Gráfico 5.8.

Página 172  |  Inicio del artículo

Además, como ηy/X = 0,9957 (véase Ejemplo 5.3), la regresión parabólica llevada a


cabo es capaz de recoger la práctica totalidad de la dependencia de Y respecto
de X, ya que la eficiencia relativa de la misma es

5.5.3. ALGUNAS REGRESIONES DE TIPO II NO LINEALES


SUSCEPTIBLES DE REDUCCIÓN A LINEALES
Algunas funciones de regresión de tipo II no lineales pueden reducirse a lineales
haciendo una transformación adecuada. Algunos ejemplos son los siguientes:

Función exponencial: ŷi = â xi

Lo primero que es necesario poner de manifiesto es que el error teórico debe


intervenir de forma multiplicativa, esto es,
con lo cual, tomando logaritmos17 , la función exponencial se transforma en una
lineal.

Nótese que si el término de error interviniese sumando la linealización no sería


posible.

Una vez realizada la transformación logarítmica se estima el modelo transformado


(lineal), obteniéndose la recta de regresión , donde la regresión lineal de

In Y sobre X proporciona los valores de . Evidentemente, no se


quiere estimar In a y In b, sino a y b; sin embargo, las estimaciones de a y b se
obtienen fácilmente sin más que deshacer la transformación logarítmica.

Puede apreciarse que, suponiendo dos observaciones contiguas (x1; y1) y (x2; y2),


con x2 = x1 + 1, y prescindiendo del término de error, se tiene que

Página 173  |  Inicio del artículo

con lo que

es decir, ( - 1) · 100 estima el


incremento porcentual (constante) que experimenta la variable Y ante incrementos
unitarios en el valor de X.

Como
el coeficiente de la pendiente del modelo en logaritmos, esto es, , estima,
aproximadamente, el incremento en tantos por uno de Y ante un aumento de X en
una unidad. Obviamente, 100 es una estimación aproximada de la variación
porcentual de Y ante un aumento de X en una unidad.

Los modelos del tipo In Yj = a + bxi + eij lineales en los parámetros a y b y en las


variables X y In Y, se denominan, como consecuencia de dicha linealidad,
modelos log-lin, debido a que Y se encuentra en forma logarítmica (si fuese X la
variable que se encontrase en forma logarítmica, el modelo se denominaría lin-log)
y su característica fundamental es que el coeficiente de la pendiente (b) mide,
aproximadamente, la variación relativa constante en Y, en tantos por uno, ante un
cambio unitario en el valor de X18 . Por ello, los modelos log-lin resultan
especialmente útiles en situaciones en las que X es una variable de tendencia en
el tiempo, puesto que en ese caso 100b proporciona la tasa porcentual de
crecimiento o decrecimiento constante en la variable Y ante variaciones unitarias
en el valor de la variable X. Por ello también es denominado modelo de
crecimiento (constante).

Obviamente, el modelo transformado In yj = In a + xi In b + In eij es un caso


particular de los modelos log-lin en el que el coeficiente de la pendiente es In b.

Función potencial: ŷi = âx i

Igual que en el caso exponencial, para que la función potencial sea linealizable el
término de error debe entrar en forma multiplicativa,

ya que si entra aditivamente la linealización no es factible.

Página 174  |  Inicio del artículo

El modelo transformado adopta la forma

por lo que la regresión lineal que se lleva a cabo inicialmente es , regresión de


In Y sobre In X, que proporciona . Posteriormente, la regresión ŷi = âx

i se obtiene sin más que calcular â mediante el


antilogaritmo neperiano de â.
El modelo In yj = In a + b In xi + In eij, lineal en los parámetros In a y b y lineal en
los logaritmos neperianos de las variables X e Y, se denomina, debido a dicha
linealidad, modelo log-log, doble log o log-lineal. Una característica atractiva de
este tipo de modelos, por la cual se han hecho bastante populares, es que el
coeficiente b mide la elasticidad de Y respecto a X. Por otra parte, el modelo log-
log asume que el coeficiente de elasticidad b permanece constante, por lo que
también se ha dado en denominar modelo de elasticidad constante.

Efectivamente,

de donde

También se puede comprobar que, suponiendo dos observaciones contiguas


(x1: y1) y (x2; y2), y prescindiendo del término de error, se tiene que

con lo que

y como

Página 175  |  Inicio del artículo


es decir, que para cambios infinitesimales en X el cambio absoluto en el In X es
igual a la variación relativa en X, se tiene que, para cambios pequeños (no
infinitesimales):

por lo que

estima,
aproximadamente, la variación porcentual de Y ante una variación de un 1% en X.

Como muestra el Gráfico 5.9, el cambio en el In Y por unidad de cambio en el In X,


es decir, la elasticidad b, permanece constante independientemente del
In X donde se mida la elasticidad.

Gráfico 5.9.

Un modelo de elasticidad constante proporciona un cambio porcentual constante


en Y ante un cambio porcentual dado en X, independientemente del nivel absoluta
de éste. A efectos de las oportunas comparaciones, la función de regresión lineal ŷ

= ä + x proporciona la variación absoluta en Y por unidad (absoluta) de


cambio en X.

A modo de ejemplo, en el modelo ŷi = 5x2i si los valores de X se incrementan


sucesivamente en un 1%, los de Y aumentan en un 2,01%, y, si los valores
de X se incrementan sucesivamente en un 10%, los de Y aumentan en un 21%.

En el modelo de dos variables, la manera más sencilla de decidir si el modelo log-


lineal ajusta bien los datos consiste en realizar un gráfico del diagrama de
dispersión del In X y In X y ver si los puntos de la nube se encuentran
aproximadamente sobre una línea recta (como en el gráfico de la derecha).
Página 176  |  Inicio del artículo

Función hiperbólica equilátera o recíproca:

Haciendo , la regresión lineal de Y sobre Z proporciona â y .

El modelo recíproco no es lineal en la variable X (está expresada en forma inversa


o recíproca), pero sí en los parámetros. El modelo transformado

es lineal tanto en los parámetros como en las


variables Y y Z.

Un ejemplo clásico de este modelo es la relación del coste fijo medio con el nivel
de producción, pues a medida que aumenta este último el primero declina
continuamente (debido a que el coste total fijo se reparte entre un gran número de
unidades de producto) y finalmente se vuelve asintótico con el eje de producción al
nivel a. Otra de sus aplicaciones más populares es la conocida curva de Phillips. A
modo de ejemplo, con base en la información suministrada en la tabla que se
expone a continuación, relativa a los incrementos interanuales de la tasa de
salarios (Y) y la tasa de paro (X) para el Reino Unido durante el periodo 1950–
1966, cuando se ajustó el modelo recíproco se obtuvo el siguiente resultado:
Página 177  |  Inicio del artículo

Salvo en este último caso (el recíproco), en el que

en los otros dos (exponencial y potencial) no se debe utilizar la expresión del


coeficiente de determinación lineal con las variables transformadas (en el caso
exponencial X no se transforma) para medir el grado de dependencia lineal
de Y sobre X, ya que lo que se obtendría, realmente, sería el grado de
dependencia lineal de In Y sobre X, en el caso exponencial, y de In Y sobre In X,
en el caso potencial. Además, en

con en el caso exponencial y en el caso


potencial, se puede apreciar que

no representa el porcentaje de varianza de Y no explicada por la regresión llevada


a cabo. Lo que expresa es el porcentaje de varianza de In Y no explicada por
dicha regresión.

Lógicamente, esta circunstancia supone un problema a la hora de comparar la


bondad de dos regresiones, en base a la misma distribución bidimensional de
frecuencias, cuando una de ellas ha sufrido algún tipo de transformación. En la
literature estadística se pueden encontrar varias soluciones prácticas a este
problema. No obstante, existe práctica unanimidad en que una solución útil y
sencilla consiste en comparar la suma de las diferencias cuadráticas entre los
valores observados de la variable a explicar y sus valores estimados, eligiendo
aquella con menor resultado (criterio de la mínima SCE, considerando, en
cualquier caso, êij = yj − ŷi).
Recuadro:  Ocultar

EJEMPLO 5.10
A la vista de la nube de puntos del Ejemplo 5.1, se podría elegir una función
exponencial o bien una potencial para intentar caracterizar el comportamiento
general de las ventas de los comerciales del sector farmacético. Por tanto, en este
ejemplo se procede inicialmente a la estimación de los parámetros de regresión en
ambos tipos de modelo. Posteriormente, se compara la bondad de la regresión
exponencial, la regresión potencial y las demás regresiones realizadas con los
datos del Ejemplo 5.1 (la regresión de tipo I, la regresión lineal y la regresión
parabólica) a la hora de ajustar la nube de puntos.

Página 178  |  Inicio del artículo

Solución:

Función exponencial:

Dado que se pretende obtener ŷk = â · xi, para facilitar la obtención


de las estimaciones de los parámetros a y b del modelo exponencial se considera,
como paso previo, la transformation logarítmica de dicho modelo, que conduce a
la siguiente regresión lineal:
Por tanto, a la vista de la recta de regresión anterior, para estimar los parámetros
In a y In b se procede a la construcción de la siguiente tabla, cuya primera
columna hace referencia a las marcas de clase de los intervalos de antigüedad:

De ella se desprenden los valores de la media de Z = In Y

y de la covarianza entre X y Z = In Y

Página 179  |  Inicio del artículo


por lo que la recta de regresión de Z sobre X sería

es decir, en forma explícita:

De aquí se deduce que , de donde se


obtienen las estimaciones de los parámetros del modelo exponencial:

Finalmente, la función exponencial estimada es

donde ( −1) · 100 = 11,15% estima el incremento porcentual (constante)


que experimenta la variable Y ante incrementos unitarios en el valor de = 10,57%
es una estimación aproximada de la variación porcentual de Y ante un aumento
de X en una unidad.

Función potencial:

Procediendo de forma análoga con la función potential, dado que se pretende


obtener ŷi = â · x i, para facilitar la obtención de las estimaciones
de los parámetros a y b del modelo potencial se considera, como paso intermedio,
la transformación logarítmica de dicho modelo, que conduce a la siguiente
regresión lineal:
Para obtener las estimaciones de los parámetros In a y b de la regresión lineal de
In Y sobre In X se construye la siguiente tabla, donde también la primera columna
incorpora las marcas de clase de los estratos de antigüedad considerados:

Página 180  |  Inicio del artículo

a partir de la cual se obtienen los valores de la media de W = In X:


de la varianza de W = In X

y de la covarianza entre W = In X y Z = In Y

por lo que la recta de regresión del In Y sobre el In X adopta la expresión

Despejando se tiene

De la expresión anterior se deduce que y que = 0,7215, por


lo que la estimación de a sería

Finalmente, la función potencial estimada es

Página 181  |  Inicio del artículo

donde = 0,72 estima la elasticidad


de Y respecto a X e indica, aproximadamente, la variación porcentual de Y ante
una variación de un 1% en X.

Una vez obtenidas las estimaciones de las funciones exponential y potencial, para
dilucidar cuál de ellas es mejor, en términos de la bondad del ajuste, y dado que
en ambos modelos las estimaciones y los errores de estimación se relacionan en
forma multiplicativa, se procede al cálculo de la SCE derivada de cada una de
ellas. A estos efectos, recuérdese que el error de estimación se toma como

Función exponencial:

Para el cálculo de la suma de los cuadrados de los errores de estimación, SCE, se


construye la siguiente tabla:
de donde SCE = 3.669.078.152.200,63.

Función potencial:

Igual que en el caso exponencial, se procede inicialmente al cálculo de las


estimaciones obtenidas mediante la regresión potencial para los distintos
intervalos de antigüedad, de los errores cometidos en la estimación y de la suma
de sus cuadrados:

Página 182  |  Inicio del artículo

obteniéndose que SCE = 2.784.042.217.387,24.


A partir de los cálculos realizados, y dado que SCEpotencial < SCEexponencial, parece
intuitivo que la función potencial ajusta mejor la nube de puntos que la función
exponencial.

La reducción proporcional en la SCE obtenida cuando se estima sin información


alguna sobre X que proporcionan los modelos exponencial y potencial es,
respectivamente:

Sin embargo, a dichas reducciones proporcionales en el error cometido cuando no


se disponía de información alguna sobre X, RPSCEpotencial y RPSCEexponencial, no
cabe denominarlas coeficientes de determinación y, además, su interpretación es
confusa, por cuanto el término de error entra multiplicando en ambos modelos y,
como consecuencia, la media de las observaciones de Y no coincide con la media
de sus estimaciones, motivo por el cual la varianza de las observaciones no puede
descomponerse en varianza debida a la regresión y varianza residual, y por el
cual RPSCEpotencial y RPSCEexponencial no pueden entenderse como la varianza
debida a la regresión dividida por la varianza de la variable Y.

Página 183  |  Inicio del artículo

Por último, comparando todos los ajustes realizados,


se concluye que:

1. La menor SCE la proporciona la regresión de tipo I, que es la mejor


regresión aunque no sea una función continua y, por tanto, no sirva para estimar
en cualquier punto.
2. SCEparábola > SCErecta > SCEpotencial > SCEexponencial, de donde se intuye que,
entre las funciones continuas planteadas, el mejor ajuste, en términos de SCE, es
el parabólico, seguido del lineal, del potencial y, por último, del exponencial.

Gráficamente,
Gráfico 5.10.

Página 184  |  Inicio del artículo

5.6 ALGUNAS CONSIDERACIONES FINALES SOBRE LA


REGRESIÓN
Antes de proceder a llevar a cabo una regresión entre dos variables se ha de
reflexionar sobre la posible relación real entre ellas, pues proceder directamente a
regresar una variable sobre otra puede conducir a situaciones absurdas. Por
ejemplo: se puede regresar la antigüedad de los trabajadores de una empresa
sobre el salario de los mismos y estimar la función de regresión, pero no tiene
sentido económico alguno que la antigüedad dependa del salario; es justo al
revés.

También puede darse la circunstancia de que dos variables estén relacionadas


estadísticamente pero no tengan ningún tipo de relación teórica. Por ejemplo,
pudiera suceder que exista una relación estadística intensa entre las toneladas de
carbón producidas anualmente en el Reino Unido y el número de accidentes
laborales anuales en España en el sector de la construcción. Sin embargo, tal
relación estadística se debería al azar, no existiendo ninguna fundamentación
teórica latente.

Igualmente, pudiera ocurrir que hubiese una correlación lineal fuerte entre los
salarios anuales y el número de accidentes laborales, también anualmente, en el
sector de la construcción en España. De nuevo, no existe ninguna relación teórica
entre ambas variables, pero si se llevase a cabo una regresión lineal se obtendría
una correlación positiva de cierta intensidad entre ambas. Ello lo único que
significaría es que una tercera variable, la actividad del sector de la construcción,
está influenciando tanto los salarios del sector (que se mueven en función del nivel
de actividad) como el número de accidentes laborales que se producen en el
mismo (que también están en relación directa con la actividad del sector), pero
nada más.

Por tanto, un paso previo a la regresión entre dos variables es la reflexión previa y
la constatación de que existe fundamento teórico para llevar a cabo tal regresión.

Por otra parte, una de las labores más solicitadas a los economistas es la labor de
predicción (pronóstico a futuro) y ésa es una tarea que se ha encomendado
durante mucho tiempo, y se sigue encomendando, a los modelos de regresión. A
modo de ejemplo, se puede llevar a cabo una regresión del salario medio en
España en función del tiempo y utilizar la función de regresión estimada para
predecir el salario medio en España en un año venidero. Sin embargo, como
apuntan Croxton y Cowden «que nosotros sepamos, no hay fórmulas mágicas
para predecir los acontecimientos… Cualquier procedimiento de predicción que
implique simplemente la prolongación de una curva o la aplicación automática de
una fórmula, sin hacer al mismo tiempo un estudio minucioso de los elementos
modificadores de mayor influencia, merece poca confianza, sobre todo si las
condiciones económicas son inestables».

Página 185  |  Inicio del artículo

¿Esta circunstancia elimina la validez de la regresión o cualquier otro modelo


como instrumento de predicción? Evidentemente no, sobre todo si la bondad del
ajuste llevado a cabo es satisfactoria, pero hay que tener en cuenta que la función
de regresión, o cualquier otra expresión, constituye únicamente un muro,
importante pero sólo uno, del complicado edificio de la predicción. Como apuntan
los autores anteriormente citados, «tratar de prever lo que sucederá en el futuro
requiere una comprensión perfecta del fenómeno a predecir, un conocimiento
minucioso de los últimos acontecimientos en las actividades afines y el
reconocimiento de las limitaciones de cualquier artificio mecánico para predecir».

En el mundo real, sin embargo, no es inusual estimar funciones de regresión con


ánimo de predicción sin tener en cuenta los consejos de los autores anteriormente
citados, utilizándose, en no pocas ocasiones, los artificios de predicción para
justificar determinadas hipótesis de conveniencia. No obstante, con esto no se
pretende invalidar las técnicas estadísticas que se destinan a la prediccián puesto
que, por lo menos, están basadas en la observación de la realidad. Lo que se
pretende poner de manifiesto es que hay que manejarlas con cuidado y ser
conscientes de sus limitaciones pues, parafraseando una vez más a Croxton y
Cowden, «la predicción es incierta y peligrosa».

Finalmente, cabe señalar que las estimaciones de las funciones de regresión


necesitan datos y que de la exactitud y/o veracidad de los mismos dependerá el
éxito de la labor de regresión. Si los datos a partir de los cuales se estima la
función de regresión son malos, la regresión y sus estimaciones no valen de nada.
En consecuencia, otro paso previo a la estimación de la función de regresión es el
análisis de la calidad de la información disponible.

Página 186  |  Inicio del artículo

APÉNDICE. Origen del término «regresión»

Considérese la siguiente distribución de alturas medias de padres (media entre la


del padre y la madre) e hijos adultos (hijos de dichos padres) (en pulgadas)19 :

De la simple observación de la tabla anterior se desprende que existe una cierta


relación estadística entre la estatura media paternal y la estatura media filial:
padres altos tienen, por lo general, hijos altos y padres bajos, hijos bajos.

Analícese el Gráfico 5.11, donde la línea gris discontinua marca la altura media de
los hijos en caso de que fuese igual a la media de la de los padres; la línea negra
continua es la curva de medianas20 filiales condicionadas a las alturas promedio
de los padres; la línea negra discontinua es la regresión lineal de las alturas
medias de los hijos sobre las de los padres; y la línea gris continua es la altura
mediana de laPágina 187  |  Inicio del artículopoblación. La altura mediana de la
población (padres e hijos) se sitúa en el corte entre la línea negra discontinua y la
línea gris discontinua (68,25 pulgadas; 68,25 pulgadas).

Gráfico 5.11.

¿Qué se observa?: Que las alturas promedio de los hijos se acercan más a la
mediana poblacional que las de los padres. Galton determinó que la proporción en
cualquier punto (cualquiera que sea la altura promedio paternal) entre las
distancias de la línea negra discontinua a la gris continua y de la línea gris
discontinua a la gris continua era de 2/3; es decir, la desviación filial al promedio
poblacional es dos tercios de la desviación paterna a dicho promedio. «Yo llamo a
esta proporción de 2 a 3 la proporción de regresión filial. Es la proporción en la
cual el hijo es, en promedio, menos excepcional que el padre», señala Galton.

Y prosigue más adelante: «Este valor de dos tercios se aceptará, por lo tanto,
como la cantidad de regresión, a partir de la media de muchos casos, de la
estatura media paternal hacia la media filial, cualquiera que sea la estatura media
paternal (…) Por tanto, de padres promedio altos saldrán hijos promedio altos,
pero no tan altos como ellos pues revertirán hacia la media poblacional;
igualmente, de padres promedio bajos saldrán hijos promedios bajos, pero no
tanto como ellos porque la altura de los hijos revertirá a la media general. Lo
mismo pasa con otros muchos dones».

Otro ejemplo clásico

Otro ejemplo clásico es el que proporciona K. Pearson en su Gramática de la


Ciencia, concretamente en la página 414.

Página 188  |  Inicio del artículo

Pearson propone trabajar con 5.513 plantas de adormidera silvestre recogidas en


la cumbre de Chilterns. De cada planta arranca dos hojas y en la caja o cápsula de
cada una de ellas cuenta el número de bandas estigmáticas. Los resultados
obtenidos fueron los siguientes:

Como puede apreciarse, el total no son los 5.513 pares de adormidera sino
justamente el doble. La razón es que Pearson cuenta cualquiera de las dos cajas
como la primera (por eso la tabla de correlación es simétrica respecto de la
diagonal principal). Pero esto no afecta al razonamiento. Podría suponerse que
existen 11.026 pares de cajas sin problema alguno.

De la tabla expuesta, sin ningún tipo de análisis estadístico, se puede extraer la


siguiente conclusión: a medida que aumenta el número de bandas estigmáticas en
un miembro del par aumenta también la media del número de bandas estigmáticas
del otro miembro del par. En otros términos, la media del segundo miembro del par
depende del número de bandas estigmáticas del primero. Difiere de él (del número
de bandas estigmáticas del primero) en la dirección de la media de la población
general (de adormideras), que es 10,4. Así, para 5 la media es 6,33, para 6 la
media es 7,11,…, para 11 es 10,73, para 12 es 10,96, etc.

Página 189  |  Inicio del artículo

Éste es el fenómeno de regresión, a saber, que en pares asociados y correlativos


si se selecciona un miembro con un valor dado del carácter, el segundo tiene, por
término medio, un valor menor (o mayor) que regresa algo hacia la media de la
población general. Por ejemplo, para una planta en la que uno de sus miembros
tiene 9 bandas estigmáticas, la media de bandas del otro miembro no es 9 ni
10,04 sino 9,51, es decir, regresa desde 9 hacia la media general de la población.

La fila de medias demuestra que esta ley es universal: el promedio de cápsulas


asociadas tiende a la media general.
1 En general, se utiliza el término «explicar» sólo en sentido estadístico, sin que
ello implique relación causa-efecto, puesto que no existe ninguna técnica
estadística que pueda determinar de manera estricta la existencia de causalidad
entre las variables, correspondiendo dicha labor a los expertos en la materia
objeto de estudio. Ahora bien, como las relaciones de interés son las de carácter
causal, se determinarán las variables explicada y explicativa(s) de tal manera que
la regresión realizada tenga sentido teórico, puesto que el fundamento teórico de
la relación establecida permitirá dar el paso de relación estadística a relación de
causalidad.

2 Véanse los primeros párrafos del Apartado 5.4 para mayor abundamiento en la
cuestión.

3 Obviamente, también podría considerarse Y como variable explicativa y X como


variable a explicar y plantear la cuestión relativa a qué valor de X se le hace
corresponder a cada valor de Y. Si éste fuese el caso, en lo que sigue no habría
más que cambiar las X por Y y las Y por X.

4 Inicialmente, podría pensarse en minimizar la suma de los errores de estimación


(yi - ŷ/xi) pero este criterio, además de otros inconvenientes, podría provocar la
compensación de grandes errores positivos y negativos. Para evitar dichos
inconvenientes, otra opción podría consistir en minimizar la suma de los valores
absolutos de los errores de estimación |yi - ŷ/xi|, pero este criterio no se presta a
manipulaciones algebraicas. Por ello, la solución que se adopta finalmente es
minimizar la suma de los cuadrados de los errores de estimación (yj - ŷ/xi)2, ya que
evita la compensación de los errores negativos y positivos, es una expresión
manipulable algebraicamente y resulta un criterio óptimo frente a otros alternativos
cuando se cumplen ciertas condiciones.

5 El procedimiento se denomina estimación mínimo cuadrática por cuanto se trata


de obtener los valores ŷi que hacen mínima la suma de cuadrados del error de
estimación.

6 En realidad, en este caso, está formada por pares de intervalos y valores.

7 En realidad, lo que se ha denominado varianza del error de estimación es el


momento de orden 2 respecto del origen del error de estimación, pero dado que la
media del error de estimación es nula en la regresión de tipo I, puede denominarse
también varianza de los errores de estimación. A continuación se comprueba que,
efectivamente, la media de los errores de estimación en la regresión de tipo I es
nula:

8 No obstante, en el caso en que el número de elementos de la tabla


bidimensional sea escaso y, sin embargo, el número de celdas de dicha tabla sea
elevado, Pearson proporcionó una corrección de la razón de correlación. Pero esta
cuestión sobrepasa el ámbito de este manual. Obviamente, cuanto mayores sean
las frecuencias conjuntas contenidas en la tabla bidimensional de frecuencias,
más representativo será el valor obtenido de la razón de correlación.

9 Téngase en cuenta que, al considerar que el término de error se suma a la


estimación proporcionada por la regresión de tipo I, la media de las estimaciones
coincide con la media de las observaciones.

10 Recuérdese que, salvo que se diga lo contrario, se supone que los errores y las
estimaciones tienen una relación aditiva y que no existen restricciones sobre los
coeficientes o parámetros de la regresión.

11 En los apartados 5.4.1 y 5.5.1 puede verse el procedimiento de estimación de


dichos parámetros en el caso lineal y algunos casos no lineales, respectivamente.

12 Algunos autores consideran que basta la linealidad en los parámetros para que
la regresión sea considerada lineal.

13 Siempre que el término de error entre en forma aditiva.

14 Dada la sencillez de su expresión, en la práctica pudiera ser recomendable su


cálculo antes de proceder a la estimación de la recta de regresión, pues no tendría
sentido la estimación de ésta si el valor de r2 no es razonablemente elevado. No
obstante, los cálculos necesarios para la estimación de los parámetros a y b son
prácticamente los mismos que para el cómputo de r2.

15 Con el error y las estimaciones relacionados en forma aditiva y sin restricciones


en los parámetros o coeficientes de la regresión.

16 Aunque la regresión polinómica podría tratarse como un caso particular de la


regresión múltiple, se ha preferido incluirla en este capítulo dado que sólo existe
una variable explicativa.

17 Se ha optado por tomar logaritmos neperianos por ser aquellos con los que
está más familiarizado el alumno, si bien, puede utilizarse cualquier otra base.

18 En el caso del modelo lin-log, yj = a + b In xi + eij, el coeficiente de la pendiente


(b) mide, aproximadamente, la variación constante en Y ante un cambio relativo
unitario en el valor de X. Esto es,

19 Tomado de Galton, F. (1988): Herencia y Eugenesia. Reimpresión. Alianza


Universidad. Madrid. Pag. 157.

20 Galton trabajaba con medianas pero puede utilizarse la media sin pérdida de
generalidad.

Texto completo: COPYRIGHT 2007 Cengage Learning Paraninfo, S.A.


Cita de fuente   
 MLA 8
 
 APA 6
 
 Chicago 17
Montero Lorenzo, Jóse Maria. "Regresión y Correlación Simple." Estadística descriptiva, Paraninfo,
2007, pp. 129-189. Gale eBooks, https://link.gale.com/apps/doc/CX4052100011/GVRL?
u=unad&sid=GVRL&xid=696103db. Accessed 15 June 2020.

Liberación de responsabilidad

Análisis de Correlación y de Regresión


Simple
Fecha: 1999

From: Investigación de mercados(4th ed.)
Publisher: Cengage Learning Mexico
Tipo de documento: Topic overview
Páginas: 12
Content Level:  (Level 5)

Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar
Página 675
Análisis de Correlación y de Regresión Simple
Los análisis de correlación y de regresión son de uso frecuente entre los
investigadores de mercados para estudiar la relación entre dos o más variables.
Aunque es común el uso indistinto de estos términos, existe una diferencia en su
propósito. El análisis de correlación mide la cercanía de la relación entre dos o
más variables (véase el ejemplo del anuncio de leche), considerando la variación
conjunta de las dos mediciones, ninguna de las cuales está sujeta a restricción por
el experimentador. Por su parte, el análisis de regresión se usa para derivar una
ecuación que relaciona la variable de criterio con una o más variables de
predicción. En ello se considera la distribución de frecuencias de la variable de
criterio cuando se mantienen fijas en diversos valores una o más de las variables
de predicción.2

Recuadro:  Ocultar

Análisis de correlación

Técnica estadística usada para medir la cercanía de la relación lineal entre dos o
más variables en una escala de intervalo.

Recuadro:  Ocultar

Análisis de regresión

Técnica estadística usada para derivar una ecuación que relacciona una variable
de criterio con una o más variables de predicción; cuando se usa sólo una variable
de predicción, es el análisis de regresión simple, y si se utilizan dos o más, es el
análisis de regresión múltiple.

Es totalmente válido medir la cercanía de la relación entre variables sin derivar


una ecuación estimada. De igual manera, puede entenderse el análisis de
regresión sin investigar la cercanía de la relación de las variables. Empero, es
común derivar la ecuación y estudiar tal cercanía, por lo que el conjunto de estas
técnicas, no una u otra, suele denominarse análisis de regresión o correlación.

En cuanto a éste, debe comentarse también la distinción entre correlación y


causalidad. El uso de los términos variable dependiente (de criterio) y variable
independiente (de predicción) para referirse a las mediciones en el análisis de
correlación se deriva de la relación matemática funcional entre las variables y no
tiene nada que ver con la dependencia de una variable con respecto de otra en
sentido causal. Por ejemplo, las técnicas podrían mostrar cierta correlación del
ingreso alto con la tendencia a tomar vacaciones invernales en islas caribeñas, si
bien sería un error suponer que el ingreso alto es causa de que una persona viaje
al sur cuando se desploman las temperaturas ambientales.

No existe nada en el análisis de correlación ni en ningún otro procedimiento


matemático que pueda usarse para establecer la causalidad. Lo único para lo que
sirven estos procedimientos es para

El National Fluid Milk Processors Promotion Board tiene a su cargo los anuncios de bigotes de
leche de celebridades. Una de sus promociones actuales es un “Milk Mustache Celebrity Calendar
Event” anual, en que se envían calendarios a diversos hogares. El consejo mencionado está
interesado en averiguar la correlación de su presentación de calendaríos de celebridades con las
ventas de leche en galones. Según información de Nielsen Homescan Data, las ventas de leche en
galones aumentaron 3.6%, en relación con las de un año atrás, en los hogares que recibieron el
Calendario de 1997, además de incrementos de 9.7% de las mismas ventas en hogares con niños
de 6-12 años de edad.Kroger no es ajeno a los beneficios del Milk Mustache Celebrity Calendar
Event. Para quienes gustan de los números, Nielsen Homescan Data reportó un aumento de 3.6%
en las ventas de leche en galón, contra las de un año atrás, en los hogares que recibieron el
calendario 1999. Además, otro de 9.7% en las ventas de un año antes en los hogares con niños de
6 a 12 años. Los desplegados publicitarios acerca del producto, como éste, son una manera
certera de impulsar la compra de galones de leche y mover el lechímetro. ¿Desea el Celebrity
Calendar 2000? Escríbame.

Página 676  |  Inicio del artículo


medir la naturaleza y grado de relación o covarianza de las variables. Las
afirmaciones de causalidad deben provenir de los conocimientos y teorías del
fenómeno que se investiga. De ninguna manera se originan en las
matemáticas.3 En la Ventana de investigación 21.1, el exdirector de investigación
de mercados de General Mills insta a que los investigadores vean más allá de los
datos a cuya recopilación dedican sus energías y consideren la teoría que rige los
estudios de mercados. Las matemáticas son inútiles sin una teoría que las
sustente.

A manera de ejemplo, en el análisis de los resultados de una encuesta que


patrocinó Bank Network News, sacó conclusiones de la forma en que sus editores
entendían el comportamiento y tendencias de los consumidores en el giro
bancario. El estudio reveló que el uso mensual de cajerosPágina 677  |  Inicio del
artículoautomáticos disminuyó durante el periodo estudiado. Al mismo tiempo, las
transacciones en puntos de venta con tarjetas de débito (es decir, pagar con
tarjetas de débito en las cajas registradoras) aumentaron en un sorprendente 35%.
Los editores atribuyeron esta correlación inversa al desagrado de los
consumidores con los cargos por servicios en los cajeros automáticos. Señalaron
que muchos establecimientos minoristas no sólo permiten que sus clientes paguen
las compras con tarjetas de débito, sino que también les permiten hacer retiros de
efectivo. Además, los minoristas, a diferencia de una porción creciente de cadenas
de cajeros automáticos, no cobran ese servicio.4

El tema de los análisis de regresión y correlación se analiza a la luz de un ejemplo.


Así, considere que un fabricante nacional de bolígrafos está interesado en
investigar la eficacia de sus actividades de mercadotecnia. La compañía usa
mayoristas para distribuir los bolígrafos y complementa sus esfuerzos con
representantes de ventas y anuncios televisivos. La empresa planea usar las
ventas anuales por territorio como medición de eficacia. Esos datos y la
información del número de representantes de ventas que atienden un territorio
están disponibles ya en los registros de la compañía. Son más difíciles de
determinar las otras características, con las cuales el fabricante busca relacionar
las ventas: anuncios televisivos y eficiencia de los mayoristas. A efecto de obtener
información sobre los anuncios televisivos en un territorio, los investigadores
deben analizar las cédulas de publicidad y la cobertura de área de estudio por
canal, a fin de determinar a cuáles áreas llegan los canales televisivos. Evaluar la
eficiencia de los mayoristas requiere calificarlos en diversos criterios y sumar las
calificaciones en una medición global, en que 4 es sobresaliente, 3 es bueno, 2 es
promedio y 1 es deficiente. El tiempo y gastos necesarios para generar datos de
estas características de publicidad y distribución ha hecho que la compañía decida
analizar sólo una muestra de los territorios de ventas. Los datos de una muestra
aleatoria simple de 40 territorios se presentan en el anexo 21.1.

El efecto de cada una de las variables de la mezcla de mercadotecnia en las


ventas puede estudiarse de diversas maneras. Una más bien evidente sería
granear las ventas como función de cada una de las variables. En la figura 21.1 se
muestran las gráficas, llamadas diagramas de dispersión. La parte A hace suponer
que las ventas se incrementan cuando aumenta el número de anuncios televisivos
mensuales, y la parte B, que aumentan con el número de representantes de
ventas que atiende el territorio. Por último, la parte C indica que existe poca
relación entre las ventas de un territorio y la eficiencia del mayorista que los
atiende.

Un vistazo más cercano a las partes A y B también refleja que sería posible
resumir la relación entre las ventas y cada una de las variables de predicción si
simplemente se traza una recta por los puntos de datos. Una forma de generar la
relación de las ventas con los anuncios televisivos por número de representantes
sería “imaginarla”, es decir, trazar visualmente una recta que pase por los puntos
de las gráficas. Esa recta correspondería a la línea de la relación “promedio” e
indicaría el valor promedio de la variable de criterio, las ventas, con los valores
dados de cualquiera de las variables de predicción, anuncios televisivos o número
de representantes. Luego, podría añadirse a las gráficas, por ejemplo, el número
de anuncios televisivos en el territorio y leer el valor promedio de ventas
esperadas en el territorio mismo. La dificultad del enfoque gráfico es que dos
analistas podrían generar rectas distintas para describir la relación. Ello hace
surgir la pregunta de cuál sería la recta más correcta o cuál de ellas encajaría
mejor en los datos.

Un enfoque alterno es generar matemáticamente una recta que una los datos. La
ecuación general de una recta es y = α + βX, donde α es la intersección Y, y β el
coeficiente de la pendiente. En este caso de Y ventas y X1 anuncios televisivos, la
ecuación podría escribirse como Y= α1 + β1X1, mientras que la relación entre las Y
ventas y los X2 representantes de ventas se representaría como Y = α2 + β2X2,
donde el subíndice corresponde a la variable de predicción que se considera. Tal
como está escrito, cada uno de estos es un modelo determinista. Cuando se
sustituye el valor de la variable de predicción en la ecuación con los valores
especificados de α y β, se determina un valor único de Y, sin considerar un
margen de error.

En la investigación de fenómenos sociales pocas veces, si acaso, el error es cero.


Así, podría sustituirse el modelo determinista por un modelo probabilístico, que
debería incluir algunos supuestos acerca del error. Por ejemplo, para trabajar con
la relación de las ventas y el número de anuncios televisivos, considere el modelo:

Yi = α1 + β1Xi1 + εi

Página 678  |  Inicio del artículo


ANEXO 21.1 Datos de territorios de ventas de los bolígrafos
Publicidad
(anuncios Número de Índice de
Territori Ventas (en televisivos por representantes de eficiencia de
o miles), Y mes) X1 ventas X2 mayoristas X3
005 260.3 5 3 4
ANEXO 21.1 Datos de territorios de ventas de los bolígrafos
Publicidad
(anuncios Número de Índice de
Territori Ventas (en televisivos por representantes de eficiencia de
o miles), Y mes) X1 ventas X2 mayoristas X3
019 286.1 7 5 2
033 279.4 6 3 3
039 410.8 9 4 4
061 438.2 12 6 1
082 315.3 8 3 4
091 565.1 11 7 3
101 570.0 16 8 2
115 426.1 12 4 3
118 315.3 7 3 4
133 403.6 10 6 1
149 220.5 4 4 1
162 343.6 9 4 3
164 644.6 7 8 4
178 520.4 19 7 2
187 220.5 9 3 2
189 426.0 11 6 4
205 343.2 8 3 3
222 520.4 13 5 4
237 421.8 14 5 2
242 245.6 7 4 4
205 503.3 18 6 3
260 375.7 9 5 3
266 265.5 5 3 3
279 245.6 18 6 4
298 503.3 18 5 3
306 270.1 5 3 2
332 368.0 7 6 2
347 556.1 12 7 1
358 450.5 13 6 4
306 318.5 8 4 3
ANEXO 21.1 Datos de territorios de ventas de los bolígrafos
Publicidad
(anuncios Número de Índice de
Territori Ventas (en televisivos por representantes de eficiencia de
o miles), Y mes) X1 ventas X2 mayoristas X3
370 260.2 6 3 2
391 667.0 16 8 2
408 618.3 19 8 2
412 525.3 17 7 8
370 332.2 10 4 3
442 393.2 12 5 3
467 283.5 8 3 3
412 376.2 10 5 4
488 481.8 12 5 2
ANEXO 21.1 Datos de territorios de ventas de los bolígrafos

donde Yi es el valor de ventas en el territorio i-ésimo, Xi1 es la intensidad de la


publicidad en ese mismo territorio y ɛi es el error relacionado con la observación i-
ésima. Ésta es la forma del modelo que se usa en el análisis de regresión. El
término de error es parte del modelo. Representa el hecho de no incluir todos los
factores en el modelo, que hay un elemento impredecible en el comportamiento
humano y que ocurren errores de medición.5 El modelo probabilístico considera el
hecho de que el valor

Página 679  |  Inicio del artículo


FIGURA 21.1 Diagramas de dispersión de ventas contra las variables de la mezcla de
mercadotecnia

FIGURA 21.2 Relación entre Yy X1 en el modelo probabilistic


Y no está determinado de manera unívoca por un valor dado de Xi En vez de ello,
lo único determinado por este último valor es el “valor promedio” de Y. Cabe
esperar que sus valores fluctúen en torno a ese promedio.

La solución matemática para encontrar la línea de ajuste óptimo del modelo


probabilistic requiere de ciertos supuestos acerca de la distribución del término de
error. La recta de ajuste óptima podría definirse de maneras diversas. Es habitual
considerar que es la línea que minimiza la suma de desviaciones al cuadrado
alrededor de la línea (la solución de cuadrados mínimos). Considere la figura 21.2
y suponga que la línea trazada en la figura es una ecuación estimada. Use el
acento circunflejo (^) para indicar un valor estimado y el error en la observación z-
ésima es la diferencia entre el valor real de

Página 680  |  Inicio del artículo

Y, Yi, con el valor estimado de Y, Ŷi, es decir, ei = Y – Ŷi. La solución de cuadrados


mínimos se basa en el principio de que la suma de estos errores al cuadrado debe
ser tan pequeña como resulte posible, es decir, que se debe minimizar Las
estimaciones de muestras â1 y β̂1 de los parámetros poblacionales verdaderos
â1 y β1 se determinan para satisfacer esta condición.

Son tres los supuestos simplificadores del término de error en la solución de


cuadrados mínimos:

1. La media o valor promedio del término de error es cero.


2. La varianza del término de error es constante e independiente de los
valores de la variable de predicción.
3. Los valores del término de error son independientes entre sí.

Dados estos supuestos, es posible despejar fórmulas para obtener estimaciones


seguras de los parámetros poblacionales â1 la intersección, y β la pendiente, pero
es más usual calcularlos mediante computadora.6

Si se usan los datos del anexo 21.1 respecto de ventas (Y) y anuncios televisivos
mensuales (X1), las estimaciones de â1 y β serían 135.4 y 25.3,
respectivamente.7 La ecuación se representa gráficamente en la figura 21.3. La
pendiente de la recta está dada por β1. El valor de ésta, 25.3, hace suponer que
las ventas aumentan en 25 300 dólares por cada unidad de aumento en los
anuncios televisivos. Como se mencionó, se trata del estimado de una condición
poblacional verdadera basada en una muestra específica de 40 observaciones.
Sin duda alguna, otra muestra distinta generaría un estimado diferente. Por
añadidura, todavía no se ha planteado si se trata de un resultado estadísticamente
significativo o que podría haber ocurrido al azar. No obstante, es un elemento de
información de suma importancia, que ayuda a determinar si el gasto en publicidad
vale su rendimiento esperado. El estimado del parámetro de intersección es â1 =
135.4, lo cual indica dónde cruza la recta al eje Y, puesto que se trata del valor
estimado de Y cuando la variable de predicción es igual a cero.

FIGURA 21.3 Gráfica de la ecuación que relaciona las ventas con los anuncios televisivos

Página 681  |  Inicio del artículo

ERROR ESTÁNDAR DE LA ESTIMACIÓN


El examen de la figura 21.3 muestra que, a pesar de que la línea parece encajar
razonablemente bien en los puntos, todavía existe desviación de éstos en torno a
ella. La magnitud de su desviación mide el ajuste. Es posible calcular una
medición numérica de la variación de los puntos alrededor de la línea, de manera
similar al cálculo de la desviación estándar de una distribución de frecuencias. Al
igual que la media de la muestra es una estimación de la media verdadera de la
población original, la recta dada por Ŷi = â1 + β1Xi1 + ei es una estimación de la
recta de regresión verdadera, Yi = â1 + β1Xi1 + ∊i. Considere la varianza del error
aleatorio ∊ en torno a la recta de regresión verdadera σ2∊ es decir, σY/X2. Cuando se
desconoce la varianza poblacional σ2, una estimación sin sesgo está dada por la
raíz cuadrada de la desviación estándar de la muestra, ŝ, a saber:
En forma similar, suponga que sY/X2 es una estimación sin sesgo de la varianza
poblacional alrededor de la recta de regresión, σY/X2. Ahora bien, puede
demostrarse que la estimación de la muestra de la varianza alrededor de la recta
de regresión se relaciona con la suma de los errores al cuadrado; de manera
específica, es igual a:

donde n es nuevamente el tamaño de la muestra, y sY/X2, el estimador sin sesgo


de σY/X2, con Yi y Ŷi como valores observado Y estimado de Y para la
observación i-ésima. La raíz cuadrada de esa cantidad, sY/X, se llama
frecuentemente error estándar de la estimación, si bien es más descriptivo el
término desviación estándar de la regresión.

Recuadro:  Ocultar

Error estándar de la estimación

Término usado en el análisis de regresión para referirse al valor absoluto de la


variación en la variable de criterio, que se deja sin explicación, o que no cuenta, en
la ecuación de regresión ajustada.

La interpretación del error estándar de la estimación guarda paralelismo con el de


la desviación estándar. Considere un valor Xiy. El error estándar de la estimación
significa que Yi (ventas) tiende a distribuirse en torno al valor Ŷi correspondiente –
el punto en la recta– con desviación estándar igual al error estándar de la
estimación, con cualquier valor dado Xi1 de anuncios televisivos. Además, la
variación en torno a la línea es la misma en toda la longitud de la recta. La media
aritmética, que es el punto en la recta, cambia al hacerlo Xi1; pero la distribución de
los valores Yi alrededor de la línea no se modifica con el número de anuncios
televisivos. En la figura 21.4 se muestra la situación en el supuesto de que el
término de error tiene distribución rectangular, por dar un ejemplo.8 Note que
FIGURA 21.4 Distribución rectangular del término de error

Página 682  |  Inicio del artículo

el supuesto de sY/X constante sin importar el valor de Xi1 produce bandas paralelas


en torno a la recta de bandas paralelas en torno a la recta de regresión.

Cuanto menor sea el error estándar de la estimación, mayor será la coincidencia


de la recta con los datos. En el caso de la recta relacionada con las ventas y los
anuncios televisivos se trata de sY/X = 59.6.

INFERENCIAS ACERCA DEL COEFICIENTE DE PENDIENTE


Se calculó anteriormente que el valor del coeficiente de pendiente β̂1 era 25.3. En
dicho momento, no se planteó la pregunta de si el resultado era estadísticamente
significativo o aleatorio. Responder a dicha pregunta requiere un supuesto
adicional, a saber, que los errores se distribuyen de manera normal, no
rectangular, como se había pensado. Empero, antes de continuar debe resaltarse
que los estimadores de cuadrados mínimos de los parámetros de la población
original son los mejores estimadores lineales sin sesgo de los parámetros
poblacionales verdaderos, sin importar la forma de la distribución del término de
error. Basta que se satisfagan los supuestos previos. Éste es un resultado notable
del teorema de Gauss-Markov. Se requieren supuestos de errores con distribución
normal sólo si se pretende elaborar inferencias estadísticas acerca de los
coeficientes de regresión.

Puede demostrarse que si ∊1 son variables aleatorias de distribución normal,


entonces β̂1 también tiene distribución normal. En otras palabras, si se seleccionan
muestras repetidas de la población de territorios de ventas y se calcula un valor
de β̂1 para cada muestra, la distribución de estas estimaciones seria normal
y centrada en el parámetro poblacional verdadero β1. Por añadidura, es posible
demostrar que la varianza de la distribución de los valores β̂1 o σβ̂12, es igual a:

Puesto que es desconocida la población (σY/X2, tampoco se conoce σβ̂2 y se precisa


estimarla. Esta estimación, que se denota como sβ̂2, se genera al sustituir σY/X con
el error estándar de la estimación sY/X:

Hasta este punto, la situación es la siguiente: dado el supuesto de errores de


distribución normal, β̂1 también tiene distribución normal, con media β1, y varianza
a σβ̂2 desconocida. Puesto que se carece de la varianza de la distribución de la
muestra, es necesario usar un procedimiento similar al utilizado cuando se derivó
una inferencia de la media con desconocimiento de la varianza poblacional. Ese
conjunto de condiciones requiere una prueba t para examinar la significancia
estadística. La prueba de significancia de β1 tiene un requisito similar. La hipótesis
nula consiste en la ausencia de relación lineal entre las variables y la hipótesis
alternativa, si existe tal relación, es decir:

H0: β1 =0

Hα β1 ≠ 0

El estadístico de prueba es t = (β̂1 – β̂1)/sβ̂1, es decir, la pendiente estimada a partir


de la muestra menos la pendiente hipotética, resultado que se divide entre el error
estándar de la estimación que tiene distribución t con n – 2 grados de libertad. En
el ejemplo:

Página 683  |  Inicio del artículo


Con un nivel de significancia de 0.05, el valor de t en tablas con v = n - 2 = 38
grados de libertad es 2.02. Puesto que el valor calculado de t excede su valor
crítico, se rechaza la hipótesis nula; β̂1 difiere de cero en grado suficiente para
justificar el supuesto de la relación lineal entre las ventas y anuncios televisivos.
Ahora bien, ello no significa que esa relación en verdad sea necesariamente lineal,
sino sólo que la evidencia indica que Y (ventas) cambia al hacerlo X1 (anuncios
televisivos) y que si se usan X1y la ecuación lineal podría tenerse una predicción
de Y mejor que en caso de simplemente omitir X1.

¿Qué pasa si no se rechaza la hipótesis nula? Como se señaló, β̂1 es la pendiente


de la recta supuesta sobre la región de observación e indica el cambio lineal en Y
con el cambio de una unidad en X1. Que no se rechace la hipótesis nula, de
que β̂1 = 0, no significa que sea inexistente la relación de Y y X1. Son dos las
posibilidades. En primer término, simplemente podría ser que se cometa un error
de tipo II al no rechazar una hipótesis nula falsa. En segundo lugar, sería factible
que Y y X1 tengan una relación curvilínea perfecta y que se haya escogido el
modelo incorrecto para describir la situación verdadera.

COEFICIENTE DE CORRELACIÓN
Hasta este punto, se ha analizado la relación funcional de Y con X. Suponga que
también interesa la intensidad de la relación lineal entre esas dos variables, lo cual
lleva al concepto de coeficiente de correlación. Se partió de dos supuestos
adicionales al analizar el modelo de correlación. El primero, que Xi es una variable
aleatoria. Una observación de muestra permite obtener valores de Xi y Yi. El
segundo, que las observaciones provienen de una distribución normal de dos
variables, es decir, una en que la variable X tiene distribución normal, al igual que
la variable Y.

Recuadro:  Ocultar

Coeficiente de correlación

Término usado en el análisis de regresión para designar la fuerza de la relación


lineal entre las variables de criterio y predictivas.

Ahora bien, considere la representación gráfica de una muestra


de n observaciones, de una distribución normal de dos variables. Sea p la fuerza
de la relación lineal entre dos variables en la población original, y r la estimación
de la muestra de p. Suponga también que la muestra de n observaciones genera

FIGURA 2 1.5 Dispersión de puntos de una muestra de n observaciones

Página 684  |  Inicio del artículo

la dispersión de puntos que se presenta en la figura 21.5 y divida la figura en


cuatro cuadrantes, que se forman al trazar líneas perpendiculares a los ejes x̄ y ȳ.

Considere las desviaciones de estos bisectores. Tome cualquier punto P con


coordenadas (Xi, Yi) y defina las desviaciones:

xi = Xi – x̄

yi = Yi – ȳ

donde las minúsculas indican desviaciones en torno a una media. Está claro, con
la observación de la figura 21.5, que el producto Xiyi es:

 Positivo en cualquier punto del cuadrante I


 Negativo en cualquier punto del cuadrante II
 Positivo en cualquier punto del cuadrante III
 Negativo en cualquier punto del cuadrante IV

Por ende, parecería que es factible usar la cantidad como medición de la


relación lineal entre X y Y, y:
 Si la relación es positiva, de modo que gran parte de los puntos se sitúa en
los cuadrantes I y III, tiende a ser positiva.
 Si la relación es negativa, con muchos de los puntos en los cuadrantes II y
III, tiende a ser negativa.
 Si no existe relación entre Xy Y, los puntos se dispersan en los cuatro
cuadrantes y tiende a ser muy pequeña.

No obstante lo anterior, la cantidad tiene dos defectos como medida de la


relación lineal entre Xy Y. El primero, que se puede incrementar arbitrariamente
con la inclusión de más observaciones, es decir, al incrementar el tamaño de la
muestra. El segundo, que también puede recibir influencia arbitraria del cambio en
la unidad de medición de X, Y o ambas, por ejemplo, al cambiar de metros a
centímetros. Estos defectos pueden eliminarse al hacer que la medición de la
fuerza de la relación lineal sea una cantidad sin dimensiones y dividir entre n. El
resultado es el coeficiente de correlación pear-soniano o de producto-momento, a
saber:

donde sX es la desviación estándar de la variable X, y sy, la desviación estándar


de la variable Y.

El coeficiente de correlación calculado a partir de los datos de la muestra es un


estimado del parámetro de la población original p, y una parte del trabajo del
investigador es usar r para poner a prueba hipótesis acerca de p. Ello resulta
innecesario en el ejemplo, ya que la prueba de la hipótesis nula Ho: β1 = 0 es
equivalente a la prueba de la hipótesis nula Ho: β = 0. En virtud de que ya se
realizó esta última prueba, la evidencia de la muestra lleva al rechazo de la
hipótesis de que no existe relación lineal entre las ventas y los anuncios
televisivos, es decir, al rechazo de Ho: p = 0.

El coeficiente de correlación de producto-momento puede variar de – 1 a +1. La


correlación positiva perfecta, en que un aumento dado de X determina con
exactitud otro de Y, tiene coeficiente +1. La correlación negativa perfecta, en que
un incremento de X determina exactamente una disminución de Y, produce un
coeficiente –1. En la figura 21.6 se ilustran estas situaciones y otros diagramas de
dispersión y sus coeficientes de correlación respectivos. El examen de estos
diagramas brinda cierta apreciación de la magnitud del coeficiente de correlación
relacionado con un grado de dispersión específico.

Página 685  |  Inicio del artículo


FIGURA 21.6 Ejemplos de diagramas de dispersión y sus coeficientes de correlaciónFuente:
Ronald. E. Frank, Alfred A. Kuehn y William F. Massy, Quantitative Techniques in Marketing
Analysis, Homewood, IL., Richard D. Irwin, 1962, p. 71. Reproducido con autorización.

El cuadrado del coeficiente de correlación es el coeficiente de determinación.


Ciertas manipulaciones algebraicas permiten demostrar que es igual a:

Recuadro:  Ocultar

Coeficiente de determinación

Término usado en el análisis de regresión para denotar la proporción relativa de la


variación total en la variable de criterio que puede explicarse mediante la ecuación
de regresión ajustada.
es decir, r2 = 1 menos el error estándar del estimado al cuadrado, dividido entre la
varianza de la muestra de la variable de criterio. A falta de variable de predicción,
el mejor estimado de la variable de criterio sería la media de la muestra. Si hubiera
poca variabilidad en las muestras de un territorio a otro, la media de la muestra
sería un buen estimado de las ventas esperadas en cualquier territorio. Empero, la
variabilidad considerable haría que fuese una estimación deficiente. Así, la
varianza de las muestras, sY 2, es una medición del grado de “deficiencia” de ese
procedimiento de estimación. La introducción de la covariable X podría mejorar los
estimados de las ventas por territorio. Ello dependePágina 686  |  Inicio del
artículode cuan bien se adecué la ecuación a los datos. Puesto que sY/X 2 mide la
dispersión de los puntos en tomo a la recta de regresión, puede considerarse que
es una medición de cuan “deficiente” es un procedimiento de estimación que toma
en cuenta la covariable. Ahora bien, si sY/X2 es de poca cuantía en relación con
sY/X 2, sería factible afirmar que añadir la covariable mediante la ecuación de
regresión mejora sustantivamente las predicciones de la variable de criterio, las
ventas. A la inversa, cuando sY/x2 es aproximadamente igual a sY/X 2, se
consideraría que agregar la covariable X no sirve para mejorar las predicciones de
Y. Por tanto, la proporción sY/X 2/sY 2 se conceptuaría como la proporción de la
variación que no se explica con la recta de regresión dividida entre la variación
total, es decir:

El miembro derecho de esta ecuación puede combinarse en una sola fracción, de


modo que se tenga:

Al restar la variación inexplicada de la variación total, queda la “variación


explicada”, o sea, la variación de Y que se explica con la inclusión de X. De tal
suerte, puede considerarse que el coeficiente de determinación es igual a:

donde se entiende que la variación total se mide con la varianza de Y. En el


ejemplo de las ventas y anuncios televisivos, r2 = 0.77. Ello significa que 77% de la
variación en las ventas de un territorio a otro se explica con la variación de la
publicidad televisiva entre territorios. Por consiguiente, la estimación de las ventas
en un territorio es mejor si se toman en cuenta los anuncios televisivos que al
hacer caso omiso de esa actividad publicitaria.
Texto completo: COPYRIGHT 2003 International Cengage Editores, S.A. de C.V.

Cita de fuente   
 MLA 8
 
 APA 6
 
 Chicago 17
Churchill, Gilbert6 A., Jr. "Análisis de Correlación y de Regresión Simple." Investigación de
mercados, 4th ed., Cengage Learning, 1999, pp. 675-686. Gale eBooks,
https://link.gale.com/apps/doc/CX4058900232/GVRL?u=unad&sid=GVRL&xid=a2479593.
Accessed 15 June 2020.

Liberación de responsabilidad
Seleccionar

Análisis de Regresión Múltiple


Fecha: 1999

From: Investigación de mercados(4th ed.)
Publisher: Cengage Learning Mexico
Tipo de documento: Topic overview
Páginas: 10
Content Level:  (Level 5)

Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar

Página 686
Análisis de Regresión Múltiple
La idea básica subyacente al análisis de regresión múltiple es la misma que en la
regresión simple: determinar la relación entre las variables independientes y
dependiente, o variables de predicción y de criterio. El análisis de regresión
múltiple permite añadir diversas variables, de modo que la ecuación refleje los
valores de un cierto número de variables de predicción, no una sola. El objetivo de
esto es mejorar las predicciones de la variable de criterio.

Un observador irónico de muchos proyectos de investigación hizo diversos


comentarios astutos acerca del comportamiento de las variables y la forma en que
suelen correlacionarse (Ventana de investigación 21.2). Convendría que el lector
los tenga en mente mientras lee este apartado del análisis de regresión múltiple.

NOMENCLATURA MODIFICADA
Un marco de notación modificado y más formal es valioso para comentar el
análisis de regresión múltiple. Considere el modelo de regresión general con tres
variables de predicción. La ecuación modificada:

Y = α + β1 X1 + β3X3 + ∊

la cual es una estado simplificado de la más elaborada y precisa ecuación.

Recuadro:  Ocultar

Página 687  |  Inicio del artículo

Disyuntiva ética 21.1

Se le asignó ia responsabilidad de desarrollar un método para estimar el potencial


de mercado de los productos de la compañía por regiones geográficas pequeñas a
un analista recién contratado del departamento de investigación de mercados de
una empresa. El analista se dedicó a la tarea de recopilar tantos datos
secundarios como le fue posible. Luego, emprendió una sucesión de análisis de
regresión, en que usó las ventas como variable de criterio y los factores
demográficos como variables de predicción. Aunque se dio cuenta de que varios
de los factores de predicción estaban muy correlacionados (por ejemplo, ingreso
promedio en la región con el nivel de estudios promedio!, optó por no considerar
este hecho cuando presentó los resultados a los directivos.

 ¿Cuál es la consecuencia de que estén muy correlacionados los factores


prédictives en una ecuación de regresión?
 ¿Está obligado moralmente el analista de investigación a aprender todo lo
que sea posible acerca de una técnica dada antes de aplicarla a un problema,
para evitar la interpretación errónea de los resultados?
 ¿Tiene el analista la obligación moral de recomendar cautela en la
interpretación de los resultados cuando se violan los supuestos básicos del
método usado para producir los resultados?
 ¿Cuáles son las responsabilidades del investigador si los directivos no se
interesan en los detalles técnicos que produc ir los resultados?

Recuadro:  Ocultar

Coeficiente de regresión parcial (o neta)

Cantidad que resulta de un análisis de regresión múltiple e indica el cambio


promedio en la variable de criterio por cambio unitario en una variable predictiva,
en igualdad de circunstancias en todas los como variable de crición. La
interpretación se aplica sólo cuando las variables de predicción son
independientes entre sí, como se requiere para la aplicación válida del modelo de
regresión múltiple.

En esta ecuación más precisa, tiene validez lo siguiente:

 Y(123) es e‘ valor de Y que se calcula a partir de la ecuación de regresión,


con Y como variable de criterio y X1, X2 y X3 como variables de predicción
 α(123) es el parámetro de intersección en la ecuación de regresión múltiple,
con F como variable de criterio Y X1 X2 y X3 como variables de predicción
 β(123) es el coeficiente de X1 en la ecuación de regresión, con Y como
variable de criterio y X, X2 y X3 como variables de predicción o explicatorias. Se le
llama coeficiente de regresión parcial (o neta). Note los subíndices. Los dos
situados a la izquierda del punto decimal se llaman subíndices primarios. El
primero identifica la variable de criterio, Y el segundo, la variable de predicción de
la cual es coeficiente este valor de β. Los subíndices primarios son siempre dos.
Los otros dos subíndices,Página 688  |  Inicio del artículoa la derecha del punto
decimal, se denominan subíndices secundarios e indican cuáles otras variables de
predicción son parte de la ecuación de regresión. Su número varía desde cero en
la regresión simple hasta cualquier número k – 1, donde se tienen k variables de
predicción en el problema. En este caso, el modelo contiene tres variables de
predicción (k = 3) y dos subíndices secundarios
 ε(123) es el error relacionado con la predicción de Y cuando Xi X2 y X3 son
las variables de predicción.
Es práctica común usar la versión simplificada de este modelo cuando se tiene
clara la identidad de las variables. Empero, la versión detallada es útil al interpretar
la solución del problema de regresión.

SUPUESTO DE MULTICOLINEALIDAD
Los supuestos relativos al término de error en el modelo de regresión simple se
aplican también a la ecuación de regresión múltiple. Además, esta última es un
modelo que requiere el supuesto adicional de que las variables de predicción no
se correlacionan entre ellas. Cuando el investigador puede definir los niveles de
estas variables, resulta fácil satisfacer dicho supuesto. Es frecuente que se viole el
supuesto cuando las observaciones resultan de una encuesta, no de un
experimento, ya que muchas variables de interés en mercadotecnia varían
conjuntamente. Por ejemplo, los ingresos altos suelen relacionarse con niveles de
escolaridad elevados. Así pues, la predicción del comportamiento de compra con
los ingresos y nivel de estudios violaría el supuesto de que las variables de
predicción son independientes unas de otras. Se dice que
hay multicolinealidad en un problema de regresión múltiple cuando las variables
de predicción están correlacionadas.

Recuadro:  Ocultar

Multicolinealidad

Condición existente en un análisis de regresión múltiple, que consiste en que las


variables de predicción no son independientes unas de otras, como se requiere,
sino que están correlacionadas.

COEFICIENTES DE REGRESIÓN PARCIAL


Considere qué ocurriría si se agrega cierto número de representantes de ventas al
problema de la predicción de las ventas por territorio. Podría investigarse la
relación de dos variables, entre las ventas y el número de representantes. Por
supuesto, ello requeriría calcular la ecuación de regresión simple que relaciona a
dichos factores. Los cálculos guardarían paralelismo con los de la relación entre
las ventas y los anuncios televisivos. En forma alterna, sería posible considerar el
efecto simultáneo de los anuncios televisivos y el número de representantes de
ventas, con el análisis de regresión múltiple. En el supuesto de que se trate de un
problema de investigación, el modelo de regresión correspondería a la ecuación
siguiente:
indicativa de que la variable de criterio, las ventas en un territorio, se predecirá con
dos variables de predicción, X1 (anuncios televisivos mensuales) y X2 (número de
representantes de ventas).

Una vez más, los parámetros del modelo podrían estimarse a partir de los datos
de la muestra con los procedimientos de cuadrados mínimos. De nuevo, se
distinguirá entre los estimados de la muestra y los valores poblacionales
verdaderos, que son desconocidos, con el uso del acento circunflejo para denotar
el valor estimado. En este punto, no se considerarán las fórmulas para el cálculo
de los coeficientes de regresión. De cualquier manera, es habitual que se
obtengan con computadora y son parte de casi todos los textos de fundamentos
de estadística. La necesidad del analista de mercadotecnia es cómo interpretar los
resultados que le proporciona la computadora.

En este problema, la ecuación resulta ser:

Esta ecuación de regresión puede usarse para estimar el nivel de ventas esperado
en un territorio, dados el número de anuncios televisivos y el de representantes de
ventas que atienden el territorio. Al igual que en otras ecuaciones de cuadrados
mínimos, la línea (en este caso una recta, puesto que es un problema
tridimensional) se adecúa a los puntos de manera tal que la suma de las
desviaciones enPágina 689  |  Inicio del artículotomo a la línea es igual a cero. En
otras palabras, si se estimaran las ventas de cada uno de los 40 territorios a partir
de esta ecuación, cabría esperar que las desviaciones positivas y negativas en
torno a la línea se contrarresten casi con exactitud.

El nivel en que el plano interseca al eje Y está dado por â(12) = 69.3. Considere
ahora los coeficientes de regresión parcial, β̂Y1 y β̂Y1.2 y β̂Y2.1En e‘ entendido de que
se cumplió el supuesto de multico-linealidad, esos coeficientes pueden
interpretarse como el cambio promedio de la variable de criterio relacionado con el
cambio unitario de la variable de predicción apropiada, al tiempo que se mantienen
constantes las otras variables de predicción. Así, al suponer que no existe
multicolinealidad, β̂Y1.2 = 14.2 indica que, en promedio, cabe esperar un aumento
de 14 200 dólares en las ventas con cada anuncio televisivo adicional en el
territorio, si no cambia el número de representantes de ventas. En forma similar,
β̂Y2.1= 37.5 apuntaría en el sentido de que cada representante de ventas adicional
en un territorio producirá 37 500 dólares de ventas, en promedio, si se mantiene
constante el número de anuncios televisivos.

En el análisis de regresión simple, se puso‘a prueba la significancia de la ecuación


de regresión mediante el examen de la significancia del coeficiente de pendiente
con la prueba t. El valor calculado de t fue 11 .4 en cuanto a la relación de las
ventas con los anuncios televisivos. También habría sido posible verificar la
significancia de la regresión con una prueba F. En el caso de una regresión de dos
variables, el valor calculado de F es igual al calculado para t, elevado a la segunda
potencia, es decir, F = t2 (11.4)2 = 130.6, mientras que en general el valor
calculado de F equivale a la proporción entre el cuadrado medio debido a la
regresión y el cuadrado medio debido a los residuos. En la regresión simple, el
valor de F calculado se consultaría en una tabla de F con v1 = n – 2 grados de
libertad. Esta conclusión sería equivalente a la derivada mediante la prueba de
significancia del coeficiente de pendiente con la prueba t.

En el análisis de regresión múltiple, es imperativo examinar la significancia de la


regresión global con iaprueba F. Los grados de libertad apropiados equivalen
a v1 = k y v2 n – k – 1 con k variables de predicción. Se tiene como valor crítico
de F, con v1 = 2 y v2 = 40 – 2 – 1 = 37 grados de libertad, mientras que el nivel de
significancia de 0.05 es 3.25. El valor de F calculado para la regresión que
relaciona las ventas con los anuncios televisivos y el número de representantes de
ventas es 128.1. Puesto que resulta mayor que el valor crítico de F, se rechaza la
hipótesis nula de la ausencia de relación. Existe una relación lineal
estadísticamente significativa entre las ventas y las variables de predicción, o sea,
el número de anuncios televisivos y el de representantes de ventas.

También es posible evaluar uno por uno los coeficientes de pendiente en cuanto a
su significancia estadística en un problema de regresión múltiple, puesto que la
función global es significativa. De nuevo, se usa la prueba t, si bien la validez del
procedimiento depende mucho de la multicolinealidad existente entre los datos. Si
esta última es alta, se tiende a cometer errores tipo II, es decir, se juzga que
muchas de las variables de predicción no se relacionan con la de criterio cuando
en realidad sí guardan tal relación. Inclusive podría llegarse a la conclusión de que
la regresión global es estadísticamente significativa y ninguno de los coeficientes
globales lo es. La dificultad con las pruebas de significancia t de los coeficientes
de pendiente surge porque el error estándar de la estimación de los coeficientes
de cuadrados mínimos, s$, aumenta al hacerlo la dependencia entre las variables
de predicción. Por tanto, a medida que se incrementa el denominador del
valor t calculado disminuye su valor, lo que en ocasiones lleva a la conclusión de
que no existe relación entre la variable de criterio y la variable de predicción.

¿Es la multicolinealidad un problema en el ejemplo? Considere una vez más la


regresión simple de las ventas en relación con los anuncios televisivos: β̂1 (β̂Y1 en
el sistema de notación formal) equivale a 25.3. Así, cuando se excluyó el número
de representantes de ventas en el territorio, el cambio promedio de las ventas
relacionado con los anuncios televisivos fue de 25 300 dólares. Sin embargo, al
considerar el número de representantes, el cambio promedio de las ventas
relacionado con los anuncios televisivos fue de 14200 dólares, con β̂Y1.2 = 14.2.
Una parte del efecto en las ventas atribuido a los anuncios televisivos en realidad
se debió al número de representantes en el territorio. Por ello, se sobrestimó el
efecto de los anuncios televisivos por la forma histórica de tomar las decisiones en
la compañía. De manera específica, los territorios con mayor número de
representantes de ventas tuvieron más apoyo publicitario en la televisión, o
viceversa. Tal vez eso sea lógico, ya que cuentan con una mayor proporción del
público consumidor. No obstante, el hecho de que las dos variables de predicción
no hayan sido independientes (el coeficiente de la correlación simple entre los
anuncios televisivos y el número de representantes de ventas fue 0.78) constituye
unaPágina 690  |  Inicio del artículoviolación del supuesto de factores de
predicción independientes. Existe multicolinealidad en este conjunto de datos:

La multicolinealidad en un conjunto de datos reduce la eficiencia de la estimación


de los parámetros de regresión. Ello se debe a que la cantidad de información
acerca del efecto de cada variable de predicción sobre la variable de criterio
disminuye conforme la correlación entre las variables de predicción aumenta. Tal
disminución de eficiencia puede apreciarse fácilmente en el caso límite, en que la
correlación entre las dos variables de predicción del modelo se acerca a la unidad.
Esta situación se ilustra en la figura 21.7, donde se supone que existe una relación
lineal perfecta entre esas dos variables, los anuncios televisivos y el número de
representantes de ventas, además de que es fuerte la relación lineal de la variable
de criterio, las ventas, con los anuncios televisivos. Considere el cambio en las
ventas de 75000 a 100000 dólares. Se acompaña de la modificación del número
de anuncios televisivos, de tres a cuatro. A su vez, este último cambio guarda
relación con el número de representantes de ventas, de cuatro a cinco. ¿Cuál es
el efecto de un anuncio televisivo en las ventas? ¿Puede decirse que es de 25 000
= 100000 - 75 000? Lo más probable es que no, ya que históricamente se ha
agregado un representante de ventas al territorio cuando se incrementa en uno el
número de anuncios televisivos, o viceversa. Los números de representantes y
anuncios varían en proporción
FIGURA 21.7 Reiación hipotética de las ventas con los anuncios televisivos y de éstos con el
número de representantes de ventas

Página 691  |  Inicio del artículo

perfecta y es imposible distinguir su efecto separado en las ventas, es decir, el que


ejercen cuando se mantiene constante la otra variable.

Es mínimo el significado que puede atribuirse a los coeficientes de regresión


parcial cuando existe multicolinealidad, como en el ejemplo. Simplemente no
resulta válida la interpretación “normal” de esos coeficientes, como “el cambio
promedio de la variable de criterio relacionado con el cambio unitario de la variable
de predicción apropiada cuando se mantienen constantes las demás variables de
predicción“.9 La ecuación todavía sería útil para fines de predicción, en el supuesto
de que las condiciones sean estables. En otras palabras, se usaría para predecir
las ventas en los diversos territorios con valores dados de anuncios televisivos y
representantes de ventas si cabe esperar que continúe la relación histórica entre
las ventas y cada una de las variables de predicción, o la existente entre estas
últimas.10 Empero, no deben usarse los coeficientes de regresión parcial como
base para la toma de decisiones mercadológicas estratégicas cuando es
significativa la multicolinealidad.11
COEFICIENTES DE CORRELACIÓN MÚLTIPLE Y DE
DETERMINACIÓN MÚLTIPLE
Un tema de gran importancia para analizar la regresión simple es la medida de la
magnitud de la relación entre las variables de criterio y de predicción. Se usan
para dicho propósito el coeficiente de correlación y su valor elevado a la segunda
potencia, el coeficiente de determinación múltiple. En la regresión múltiple
existen coeficientes similares para el mismo propósito.

Recuadro:  Ocultar

Coeficiente de determinación múltiple

En el análisis de determinación múltip ple, la proporción de variación en la variable


de criterio que se explica con la covariación de las variables predictivas.

Recuadro:  Ocultar

Coeficiente de correlación múltiple

En el análisis de regresión múltiple, la raíz cuadrada del coeficiente de


determinación múltiple.

El coeficiente de correlación múltiple se denota formalmente con Ry123, donde el


subíndice primario es la variable de criterio, y los subíndices secundarios, las
variables de predicción. Cuando es evidente cuáles variables forman parte de la
relación, se usa la forma abreviada, R. Por su parte, el coeficiente de
determinación múltiple se denota formalmente con Ry.1232 e informalmente con R2 y
es la proporción de la variación de la variable de criterio que se compone de la
covariación en las variables de predicción. Cuando se investiga la relación de las
ventas con los anuncios televisivos y el número de representantes de
ventas, Ry.122 = 0.874. Ello significa que 87.4% de la variación de las ventas se
relaciona con la existente en el número de anuncios y representantes. La inclusión
del número de estos últimos mejora el ajuste de la línea de regresión; 87.4% de la
variación en las ventas se explica con el modelo de dos variables de predicción,
mientras que apenas 77.5% se explica con el de una variable de predicción. La
raíz cuadrada de dicha cantidad, Ry.12 = 0.935, es el coeficiente de correlación
múltiple, que siempre se expresa como número positivo.

COEFICIENTES DE CORRELACIÓN PARCIAL


Existen dos cantidades adicionales que se consideran al interpretar los resultados
de análisis de regresión múltiple y no se incluyen en el de regresión simple: el
coeficiente de correlación parcial y su valor elevado al cuadrado, el coeficiente de
determinación parcial.

Recordará el lector que en el análisis de regresión simple de las ventas y con los


anuncios televisivos X1 podía expresarse el coeficiente de determinación simple
como sigue:

y que la variación inexplicada estaba dada por el error estándar de la estimación a


la segunda potencia, Sy-12, puesto que dicho error mide la variación de la variable
de criterio no explicada con la variable de predicción, X1. Por supuesto, la
variación total está dada por la variación de la variable de criterio Sy2. Así, se tiene:

Página 692  |  Inicio del artículo

El último término de la fórmula es la proporción de la variación residual de la


variable de criterio, después de considerar la variable de predicción X1 sobre la
variación total de la variable de criterio. Es una medición del grado relativo en que
la relación de las dos variables aporta información sobre la variable de criterio.

Ahora bien, considere el caso de la regresión múltiple con dos variables de


predicción, X1 Y X2. El error estándar de la estimación se denota con sy.12, y su
valor a la segunda potencia, con sy.122. Dicho error mide la variación residual de la
variable de criterio Y después de tomar en cuenta las dos variables de predicción,
yX2. Puesto que sY.i2 mide la variación de la variable de criterio que queda
después de considerar la primera variable de predicción, es posible interpretar
sY.122/Sy.12 como la medición del grado relativo en que la relación de las tres
variables Y, X1 y X2 proporcionan información sobre Y más allá de la obtenida con
la relación de la variable de criterio Y la primera variable de predicción, X1. En
otras palabras, la proporción sY.122/SY.12 mide el grado relativo en que X2 amplía los
conocimientos acerca de Y después de utilizar plenamente X1. Esta razón es la
base del coeficiente de determinación parcial, que en el ejemplo de las ventas
(Y) contra los anuncios televisivos (X1) y número de representantes (X2) se calcula
como sigue:

Recuadro:  Ocultar

Coeficiente de determinación parcial


Cantidad que resulta del análisis de regresión múltiple e indica la proporción de
variación de la variable de criterio que no se explica con una o más variables
previas y sí con la inclusión de una nueva variable a la ecuación de regresión.

Lo anterior significa que 42.4% de la variación de las ventas que no guarda


relación con los anuncios televisivos la tiene de manera creciente con el número
de representantes de ventas. En forma alterna, los errores cometidos al estimar
las ventas a partir de los anuncios televisivos se reducen, según se mide con la
varianza, en 42.4% cuando se agrega el número de representantes de ventas (X2)
a X1, como segunda variable de predicción. La raíz cuadrada del coeficiente de
determinación parcial es el coeficiente de correlación parcial.

Recuadro:  Ocultar

Coeficiente de correlación parcial

En el análisis de regresión múltiple, la raíz cuadrada del coeficiente de


determinación parcial.

En el ejemplo, eran dos las variables de predicción. Por tanto, se definió el


coeficiente de determinación parcial para el número de representantes de ventas
(X2) como rY2.12. Habría sido posible definir de manera similar un coeficiente de
determinación parcial para los anuncios televisivos. Se denotaría como rY1.22 y
sería el porcentaje de la variación de las ventas no relacionado con X2 que guarda
relación creciente coneste último coeficiente mostraría la contribución incremental
de X1 después de considerar la relación de Y con X2.

Cuando se tienen más de dos variables de predicción, es posible definir muchos


más coeficientes de determinación parcial. Cada uno tiene dos subíndices
primarios, que indican la variable de criterio Y la variable de predicción recién
añadida. Podría haber muchos subíndices secundarios, que siempre
corresponden a las variables de predicción ya consideradas. Así, si se tienen tres
variables de predicción, se calcularían rY2.1rY3.1rY1.2rY3.2rY1.3 y rY2.3. Todos serían
coeficientes de correlación parcial de primer orden, ya que tienen un subíndice
secundario indicativo de que se toma en cuenta una variable de predicción más.
Asimismo, sería factible calcular rY1.23, rY2.13 y rY3.12, que son coeficientes de
correlación parcial de segundo orden. Cada uno de éstos tienen dos subíndices
secundarios, los cuales denotan la contribución creciente de la variable después
de haber tomado en cuenta las otras dos variables de predicción. Por supuesto,
los coeficientes de correlación simple no tienen subíndices secundarios, de modo
que es frecuente denominar los coeficientes de correlación parcial como de orden
cero.

VARIABLES BINARIAS
El análisis de los datos de ventas del anexo 21.1 todavía está incompleto. No se
ha prestado atención al efecto de la distribución en las ventas, en particular como
medida del índice de eficiencia de los mayoristas. Una forma de considerar el
efecto de tal eficiencia en las ventas sería introducir el índice directamente, es
decir, el valor X3 de cada observación simplemente sería el valor registrado en la
última columna del anexo mencionado. Sea X3 el índice de eficiencia de los
mayoristas, en cuyo caso la ecuación de regresión múltiple con la notación
informal sería:

Y = α + β1X1 + β2 X2 + β3X3+ ε

Página 693  |  Inicio del artículo

El estimador de cuadrados mínimos de β3 en esta ecuación sería β̂3 = 11.5.


Observe qué implica este número si las variables de predicción son
independientes: significa que el cambio promedio estimado de las ventas es de 11
500 dólares por cada cambio unitario del índice de eficiencia de mayoristas. En
otras palabras, se espera que un distribuidor regular venda en promedio 11500
dólares más que un distribuidor malo; que un distribuidor bueno venda en
promedio 11 500 dólares más que un distribuidor regular, y que un distribuidor
excelente venda en promedio 11 500 dólares más que un distribuidor bueno. Se
supone que los incrementos de ventas son constantes con cada cambio de
categoría de distribuidor. La consecuencia es que el índice de eficiencia de
distribuidores es una variable de escala a intervalos y que la diferencia entre
distribuidores malos y regulares es la misma que entre distribuidores buenos y
regulares. Ése seria un supuesto cuestionable con un índice que refleje
calificaciones.

Una forma alterna de proceder sería la conversión del índice en un conjunto


de variables binarias, que asumen uno de dos valores, 0 o 1, de modo que
pueden representarse con un solo dígito binario. Estas variables se usan
principalmente por la flexibilidad a la hora de definirlas. Pueden constituir la
representación numérica de atributos o características no esencialmente
cuantitativos. Por ejemplo, podría agregarse el género (sexo) en una ecuación de
regresión con la variable binaria Xi, donde

Recuadro:  Ocultar

Variable binaría
Una a la que se asigna uno de dos valores, 0 o 1, y se usa para representar en
forma numérica los atributos o características que no son esencialmente
cuantitativos.

Xi = 0, si se trata de una mujer

Xi= 1, si se trata de un hombre

Esta técnica se amplía fácilmente para el manejo de clasificaciones de dos o más


categorías. Por ejemplo, suponga que se requiere añadir la variable de clase
social a una ecuación de regresión y que son tres sus valores, a saber, clases alta,
media y baja. La situación se podría manejar con dos variables binarias, por
ejemplo, X1 y X2, como sigue:

  X1 X2
• Si la persona es de clase alta 1 0
• Si la persona es de clase
media 0 1
• Si la persona es de clase baia 0 0

Existen otros esquemas de codificación lógicamente equivalentes, por ejemplo, el


siguiente:

  Xi X2
• Si la persona es de clase alta 0 0
• Si la persona es de clase
media 1 0
• Si la persona es de clase baia 0 1

Por lo anterior, es de máxima importancia que el analista preste atención a la


codificación de las variables cuando interpreta los resultados de una regresión en
que se utilizan variables binarias. Debe estar claro que una clasificación con m
categorías puede representarse de manera no ambigua con un conjunto de m – 1
variables binarias, en que el w-ésimo binario sería superfluo. De hecho, el uso
de m variables para codificar una variable de clasificación con m elementos haría
inoperantes muchos programas de regresión.

Suponga que se utilizan tres variables binarias para representar las cuatro
categorías del índice de eficiencia de distribuidores, en el ejemplo de bolígrafos,
como sigue:

  X3 X4 X5
• Si el distribuidor es malo 0 0 0
• Si el distribuidor es regular 1 0 0
• Si el distribuidor es bueno 0 1 0
• Si el distribuidor es
excelente 0 0 1
Página 694  |  Inicio del artículo

El modelo de regresión es:

Y α + β1X1 + β2X2 + β3X3 + β4X4 + β5X5 ε

Los estimadores de cuadrados mínimos de los parámetros de eficiencia de


distribuidores son como sigue:

Esos coeficientes indican que, en promedio, cabe esperar que un distribuidor


regular, uno bueno y uno excelente vendan 9200, 20 300 y 33 300 dólares más
que uno deficiente, respectivamente. Note que estos coeficientes se interpretan en
relación con el estado “nulo”, es decir, la categoría respecto de la cual se define
que todas las variables binarias equivalen a cero: la categoría “malo” en este
caso.12

Un analista que pretenda indagar la diferencia entre la eficacia de ventas entre


otras clasificaciones debe estudiar esas diferencias de coeficientes. Por ello, si el
investigador trata de calcular la diferencia estimada en las ventas esperadas de un
distribuidor bueno Y otro regular, la diferencia promedio sería
. De igual modo, cabría esperar que un
distribuidor excelente venda en promedio β̂5 – β4 = 33.3 – 20.3 = 13 (13 000
dólares) más que otro bueno.

El uso de variables binarias indica que la relación entre las ventas Y el índice de
eficiencia de mayoristas no es lineal, como se habría supuesto cuando se añadió
como variable de escala a intervalos. En vez de un aumento de 11 500 dólares
con cada cambio de categoría, los aumentos respectivos son de 9.2 (9200) de la
categoría mala a la regular, 11.1 (11 100) de la regular a la buena y 13 (13 000) ue
la rela a la entrelasventasyel

TRASFORMACIONES DE VARIABLES
El uso de variables binarias amplía mucho el alcance del modelo de regresión.
Hace posible añadir variables con escalas de clasificación y nominales a los
problemas de regresión. Como se mencionó, también posibilita manejar relaciones
no lineales de variables de criterio y de predicción. Otra técnica que amplía el
alcance evidente del modelo de regresión es la transformación de variable.

Recuadro:  Ocultar

Transformación de variable

Dícese del cambio en la escala con que se expresa una variable.

Una transformación de variable es simplemente un cambio en la escala con que


se expresa una variable dada. Considere el modelo siguiente:

donde se supone que es multiplicativa la relación entre las variables de


predicción Y de éstas con el error. A primera vista, parecería imposible estimar los
parámetros α, β1, β2 y β3 con los procedimientos normales de cuadrados mínimos.
Ahora, considere el modelo:

W = α, + β1Z1 + β2Z2 + β3Z3 + ε,

Se trata de un modelo lineal, por lo que puede adecuarse a los procedimientos


estándar de cuadrados mínimos. Sin embargo, es equivalente precisamente al
modelo multiplicativo si:

W = In Y

α’ = In α

Z1 = In X1

Z2 = In X2

Z3 = In X3

ε, = In ε

Página 695  |  Inicio del artículo


Recuadro:  Ocultar

Disyuntivo ética 21.2


Sara estaba totalmente convencida de que existía relación entre las ventas del
producto de la compañía y las familias y su ingreso personal disponible total. Por
tanto, ía desanimó mucho que el primer vistazo a los datos del panel de diarios, de
cuya contratación había convencido a su superior, revelara la ausencia casi virtual
de relación entre las compras del producto por familia y su ingreso en la regresión
simple de uno sobre el otro. Una serie de revisiones posteriores, en que se
intentaron diversas trasformaciones, resultó igualmente desalentadora. Por último,
Sara optó por dividir la variable de ingresos en categorías mediante un conjunto de
variables binarias. Cuando efectuó la regresión de las compras del producto por
vivienda contra las categorías de ingresos, descubrió una relación muy irregular a
la vez que intensa, medida con R?. Las compras aumentaban al hacerlo el
ingreso, hasta 24 999 dólares, luego disminuían con ingresos de 25 000 a 59 999,
aumentaban de nuevo con ingresos de 60 000 a 104 999 y no parecían ser
afectadas cuando los ingresos excedían de 105 000 dólares.

 ¿Cómo evaluaría el enfoque de Sara?


 ¿Piensa que es un buen procedimiento continuar la búsqueda de datos que
sustenten una hipótesis de la cual se está totalmente convencido o recomendaría
una sola revisión de los datos con el procedimiento que se consideró mejor a
priori?
 ¿Cuáles son las responsabilidades éticas de Sara al presentar los
resultados de su análisis? ¿Está obligada a comentar todos los análisis que realizó
o es satisfactorio que informe únicamente de los resultados de la regresión con
variables binarias?

Se convirtió un modelo no lineal en otro lineal con las trasformaciones de


variables. A fin de resolver los parámetros del modelo multiplicativo, simplemente:
1) se toman los logaritmos naturales de Y y de cada una de las X; 2) se despejan
las ecuaciones resultantes con los procedimientos normales de cuadrados
mínimos; 3) se toma el antilogaritmo de α‘ para derivar una estimación de a, y 4)
se leen los valores de βi; ya que son los mismos en ambos modelos.

La transformación en logaritmos naturales incluye la de las variables de criterio y


de predicción. También es posible cambiar la escala de ambos tipos de variables.
Las trasformaciones exponenciales y logarítmicas son algunas de las más útiles,
ya que sirven para resolver las limitaciones que imponen los supuestos que
siguen:13

 La relación entre la variable de criterio y las variables de predicción es


aditiva
 La relación entre las variables de criterio y de predicción es lineal
 Los errores son homoscedásticos (es decir, son iguales a una constante sin
importar el valor de las variables de prediccióne
Las variables binarias son un tipo de transformación, además de que se analizó de
qué modo permiten el tratamiento de las relaciones no lineales.

Texto completo: COPYRIGHT 2003 International Cengage Editores, S.A. de C.V.

Cita de fuente   
 MLA 8
 
 APA 6
 
 Chicago 17
Churchill, Gilbert6 A., Jr. "Análisis de Regresión Múltiple." Investigación de mercados, 4th ed.,
Cengage Learning, 1999, p. 686. Gale eBooks,
https://link.gale.com/apps/doc/CX4058900234/GVRL?u=unad&sid=GVRL&xid=dead9829.
Accessed 15 June 2020.

Liberación de responsabilidad
Seleccionar
Export To:

S-ar putea să vă placă și