Documente Academic
Documente Profesional
Documente Cultură
Fecha: 2005
Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar
Página 25
Análisis de Datos Unidimensionales
Recuadro: Ocultar
OBJECTIVOS
Definir una serie de medidas (estadisticos descriptivos básicos) que sinteticen la
información contenida en una distribución de frecuencias unidimensional, tanto de
valores agrupados como sin agrupar, y aprendet a calcularlos e interpretarlos.
Comparar la dispersión entre dos o más variables o distribuciones de frecuencias.
Estudiar cómo se ven afectados los estadísticos al transformar los datos de una
variable. Cuantificar e interpretar la concentración de una distribución.
El valor que toma la media debe estar siempre incluido entre el valor mínimo y
máximo del dominio de la variable analizada.
Ejemplo 2.1
La plantilla de una empresa durante los últimos 4 meses ha estado formada por
16, 14, 15 y 15 empleados. Determinar la plantilla media de la empresa.
Solución
Si se añade una tercera columna que recoja, para cada elemento, el producto xini,
su suma se corresponderá con el numerador de la expresión de la media, de
manera que se obtendrá al dividir por el número total de observaciones (N), en
este caso N = 4.
Ejemplo 2.2
Solución
Al dividir este resultado entre el número total de observaciones (N = 10) se obtiene
la media,
La media aritmética puede utilizarse si los datos con los que se trabaja son de
naturaleza aditiva, es decir, que al sumar todos los valores, estos representen el
total de la población. Variables aditivas son, por ejemplo, el número de empleados,
la renta, el salario, etc. Por el contrario, variables no aditivas son: tipos de interés,
velocidad, rentabilidad, etc.
Entre las principales ventajas que presenta la media se pueden destacar las
siguientes:
En cuanto a los inconvenientes, tal vez el más importante sea que la media
aritmética de la distribución puede llegar a ser muy poco representativa del
conjunto de los valores observados si existe mucha dispersión en los datos. Se
trata de una medida muy sensible a los valores extremos(2) .
Ejemplo 2.3
Solución
Como se pone de manifiesto en el ejemplo anterior, los valores del activo son muy
diferentes entre sí, con lo que la media (275 millones de €) será poco
representativa. Cuando ocurre esto, es preferible utilizar otras medidas de posición
central, por ejemplo la mediana (véase Epígrafe 2.1.2.).
Solución
siendo:
En el caso particular de que las frecuencias fuesen unitarias, esto es, ni = 1 ∀ i,
entonces:
Por su parte, la media geométrica, que es empleada cuando las variables son de
naturaleza multiplicativa en el sentido, por ejemplo, que los intereses generan
nuevos intereses o cuando el incremento salarial se efectúa sobre el anterior y no
sobre uno fijo, se denota por Mg y se define como:
En el caso particular de que las frecuencias fuesen unitarias (ni = 1 ∀ i), entonces
se tienen:
2.1.3. Mediana
Ordenada la distribución de frecuencias de menor a mayor, la mediana, que se
denota por Me, es un valor del recorrido de la variable que deja el mismo número
de observaciones a su izquierda y a su derecha.
Al trabajar con valores sin agrupar hay que considerar varias posibles situaciones
(Figura 2.1). Cada una de éstas será tratada a continuación.
Figura 2.1.
Determinar la mediana.
Solución
Ejemplo 2.6
Obtener la mediana de una variable estadística que toma los siguientes 6 valores
distintos:
Solución
Solución
. El valor de la variable
que contiene una frecuencia acumulada de 4 es x2 = 3, con N2 = 5.
Ejemplo 2.8
Obtener la mediana de la siguiente distribución de frecuencias.
Solución
ex x2 = 4.
. La mediana de la distribución es 5.
Este caso tiene menos interés, pues actualmente no se suele trabajar con datos
agrupados, dado que la informática permite manejar mucha información sin
necesidad de perder parte de ella en agrupaciones.
El problema se resuelve obteniendo en primer lugar el llamado intervalo mediano,
el primero cuya frecuencia absoluta acumuluda Ni alcanza o sobrepasa N/2.
Es decir, .
Ejemplo 2.9
Solución
Para saber en qué intervalo estará incluida la mediana lo primero es insertar una
columna que represente la frecuencia absoluta acumulada (Ni), tal y como se
refleja en la siguiente tabla.
Página 35 | Inicio del artículo
2.1.4. Moda
La moda de una distribución, a la que se denotará por Mo, representa el valor de
la variable con mayor frecuencia. No tiene por qué ser única. Es decir, si hay dos o
más valores de la variable que tienen la misma frecuencia, siendo esta la mayor,
se estará ante una distribución multimodal (bimodal, dos modas; trimodal, tres
modas; etc.).
Del mismo modo que se procedió con la mediana, para determinar la moda debe
distinguirse entre distribuciones de valores sin agrupar y agrupados.
En este caso, y según la definición de la moda, hay que fijarse en cuál es el valor
de la variable que más se repite, el de mayor frecuencia.
Ejemplo 2.10
Solución
La moda es 5 (Mo = 5), puesto que es el valor de la variable con mayor frecuencia.
Un total de 8 estudiantes dedican 5 horas a estudiar.
Página 36 | Inicio del artículo
Ejemplo 2.11
Solución
Ejemplo 2.12
Solución
Para determinar el intervalo modal se añade una columna que recoja la altura (hi)
asociada a cada intervalo. En este ejemplo todos los intervalos tienen la misma
amplitud (ci = 4), por lo que el intervalo de mayor frecuencia será el que tenga
mayor altura y, por tanto, el intervalo modal.
Figura 2.2.
Ejemplo 2.13
En la siguiente distribución de frecuencias se refleja la retribución mensual de los
260 empleados del área de fabricación de una gran empresa industrial.
Solución
Añadiendo a la tabla dos nuevas columnas que recojan la amplitud (ci) y altura (hi)
de cada intervalo:
Como puede verse en la tabla anterior, en este caso existen dos modas (la
distribución es bimodal), la primera estará incluida en el intervalo [800, 1.000] y la
segunda en [1.000, 1.400].
Sin necesidad de realizar ningún cálculo, podría decirse que la primera moda será
1.000, puesto que la altura del intervalo anterior al modal es cero. En cambio,
respecto a la segunda, como el intervalo anterior a [1.000, 1.400] es de mayor
altura que el posterior, sólo puede decirse que su valor se encontrará ligeramente
por debajo de la marca de clase (x2 = 1.200). Una mejor aproximación al valor de
la moda puede obtenerse con la expresión dada en (2.1).
Por tanto, las retribuciones más frecuentes en el área de fabricación de esta
empresa son 1.000 € y 1.177,78 €.
2.1.5. Cuantiles
Ordenados de menor a mayor los valores de la variable y dado un entero
positivo k, las familias de cuantiles serán valores del recorrido de la variable que
dividirán la distribución en k partes, conteniendo cada una de ellas la misma
proporción de observaciones .
Las familias de cuantiles más utilizadas son aquellas que dividen la distribución de
frecuencias en cuatro, diez y cien partes y se conocen con el nombre de cuartiles,
deciles y percentiles, respectivamente:
a) Cuartiles (k = 4): son tres valores (Cs, s = 1, 2, 3) del recorrido que dividen la
distribución en 4 partes, conteniendo cada una de ellas el 25% de las
observaciones.
b) Deciles (k = 10): son nueve valores del recorrido (Ds, s = 1, 2, …, 9) que dividen
la distribución en 10 partes, de tal forma que cada una de ellas contendrá el 10%
de las observaciones.
c) Percentiles (k = 100): son noventa y nueve valores del recorrido (Ps, s = 1, 2, …,
99) que dividen la distribución en 100 partes, conteniendo cada una de ellas el 1%
de las observaciones.
valores de .
De esta forma, si es el cuantil de orden
, un porcentaje de
de los valores de la variable (como mínimo) serán menores
general: , etc.
Ejemplo 2.14
Solución
El cuarto decil (D4) es el valor que acumula como mínimo un 40% de las
observaciones:
que .
2.2.1. Rango
El rango o recorrido de una distribución es la diferencia entre el valor máximo y
mínimo, es decir, Re = xmax − xmin. La principal desventaja de este tipo de medida
de dispersión es que únicamente tiene en cuenta dos valores de la variable.
Una expresión equivalente a la anterior para calcular la varianza, muy utilizada por
cuanto simplifica considerablemente la operatoria, es:
(6)
Ejemplo 2.15
Solución
(7)
Una vez elaborada la tabla anterior resulta casi inmediato el cálculo de la media y
de la varianza.
o bien,
Ejemplo 2.16
Solución
2.3. MOMENTOS
A partir de la distribución de frecuencias es posible calcular una serie de valores
específicos que la caracterizan. Estos valores son los denominados momentos.
Operando:
Solución
Operando:
Es decir:
Figura 2.3.
Puede observarse que, cuando los valores de la variable más frecuentes son los
mayores y la distribución presenta una cola a la izquierda, ésta es asimétrica
negativa. En cambio, cuando los valores más comunes de la distribución son los
menores, cola hacia la derecha, ésta es asimétrica positiva.
cuando es
asimétrica positiva.
Ejemplo 2.18
Solución
Figura 2.5.
Ejemplo 2.19
Solución
Pues bien, para obtener aquellas mismas medidas conocidas para la nueva
variable Y no es necesario crear su distribución de frecuencias y realizar de nuevo
todos los cálculos que se efectuaron en su momento para la variable X. Es
suficiente con conocer cómo afectan los cambios de origen y unidad a los distintos
estadísticos y recurrir a la transformación lineal empleada para obtener Y a partir
de X (véase Tabla 2.1).
Tabla 2.1.
Ejemplo 2.20
Determinar la media, varianza y coeficiente de variación de Pearson de la variable
y S2x = 4.
Solución
La media depende tanto de los cambios de origen como de unidad, ambos deben
ser tenidos en cuenta a la hora de calcular la media de la variable Y, así:
Ejemplo 2.21
Solución
Figura 2.7.
Figura 2.8.
Relacionando curva de Lorenz e índice de Gini (véase Figura 2.9), cuanto menor
sea este último, menor será el área comprendida entre la bisectriz y la curva de
Lorenz. En el caso que la concentración sea mínima (IG = 0), la curva de Lorenz
coincide con la bisectriz, lo que indica que a un porcentaje acumulado de
individuos le corresponde ese mismo porcentaje acumulado del volumen total de
la variable (pi = qi ∀ i).
Figura 2.9.
Ejemplo 2.22
Las horas de formación recibidas a lo largo del último año por los 40 directivos de
distinto nivel, de la filial española de una compañía multinacional, se recogen en la
siguiente tabla.
Solución
Representando el punto (0, 0) y los distintos pares (pi, qi), esto es, (p1 = 50, q1 =
34,78); (p2 = 75, q2 = 60,87); (p3 = 87,5, q3 = 78,26); la curva de Lorenz se obtiene
al unir los puntos mediante segmentos.
Figura 2.10.
CUESTIONES DE AUTOEVALUACIÓN
2.1 En un total de 10 empresas de un determinado sector de actividad se ha
observado el número de empleados, obteniéndose los valores siguientes: 15, 21,
22, 26, 32, 35, 40, 50, 54, 1.000, donde y Me = 33,5.
b) La mediana, porque como existe un valor muy alejado del resto, la media es
poco representativa del conjunto de valores de la distribución.
c) Es indiferente.
d) Ninguna de las anteriores es correcta.
2.2 Se estudian los salarios que perciben los empleados de una empresa. El
menor de los salarios es de 600 €/mes y el mayor de 2.400 €/mes. ¿Cuál de los
siguientes resultados puede ser cierto?
a) = 1.200 €, SX = 0 €
2.3 Se invierten 12.000 € a plazo fijo durante dos años. El primer año el capital se
incrementa en un 3% y el segundo en un 12% acumulativo. El interés o
incremento medio anual es:
a) 7,5 %.
b) 7,406 %
c) 4,8 %
b) = 165 y Sx2 = 35
d) = 155 y Sx2 = 35
a) Simétrica y leptocúrtica.
2.8 Para que una distribución simétrica con desviación típica igual a 3 sea
mesocúrtica, ¿cuál debe ser el valor del momento central de orden 4?
a) Igual a 243.
b) Mayor a 243.
c) Menor a 243.
a)
b)
c)
c) La curva de Lorenz coincide con los lados del cuadrado, formando un triángulo.
EJERCICIOS PROPUESTOS
2.1 Se ha preguntado a 9 empresas por el número de personas que emplean,
siendo sus respuestas:
a) 4 4 4 4 4 4 4
b) 1 1 1 1 1 3 20
c) 1 2 3 4 5 6 7
d) 1 12 4 4 8 8
Ordenar el posible valor de sus varianzas (dispersión) de menor a mayor, pero sin
realizar ningún cálculo. Después comprobar el resultado calculando dichas
varianzas.
¿En qué célula de producción hay mayor dispersión relativa en el número de horas
perdidas?
Cuál de las dos empresas presenta un beneficio anual relativo mayor, ¿la
compañía o el comercio?
2.12 Se tiene información acerca del número de goles por partido marcados en
dos ligas europeas:
b) Y = 2X
c) Y = 2X + 4
d)
2.17 De un estudio realizado en dos poblaciones acerca del tiempo diario (en
minutos) que los niños de 4 a 10 años dedican a ver la televisión, se han obtenido
los siguientes resultados: en la población A dedican una media diaria de 90
minutos con una varianza de 144, mientras que en la población B la media diaria
es de 75 minutos con una varianza de 100.
conocida su media y su
varianza SX2 = 90.000.
PROBLEMAS PROPUESTOS
2.5 Durante el pasado fin de semana, dos agencias de viajes han presentado el
siguiente movimiento en la venta de billetes de avión.
a) Obtener la media, mediana y moda del importe obtenido por la venta de billetes
en cada una de las agencias.
¿Cuál de las dos empresas es la que presenta una mayor dispersión relativa?
Página 69 | Inicio del artículo
2.7 Los salarios de los empleados sin cualificación profesional (en euros) en cierta
empresa se distribuyen como sigue:
(4) Este es el criterio que se utilizará. Otros criterios consideran que son válidos
ambos valores, esto es, Me = xi y Me = xi+1, o incluso cualquier valor comprendido
entre los anteriores.
, donde ci es la
amplitud del intervalo mediano y Li-1 su extremo inferior.
From: Estadística descriptiva
Publisher: Ediciones Paraninfo, S.A.
Tipo de documento: Topic overview
Páginas: 45
Content Level: (Level 5)
Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar
Página 17
Características de Una Distribución de
Frecuencias
Página 18 | Inicio del artículo
2.1. INTRODUCCIÓN
Como ya se comentó en el Capítulo 1, la información que suministra una tabla de
frecuencias acerca de un carácter estadístico puede ser representada en un
gráfico, o sintetizada en unas medidas numéricas que describan de manera más
precisa el comportamiento del carácter analizado. En este capítulo se van a
estudiar las denominadas medidas de posición, medidas de dispersión y medidas
de forma. Para ello, se hará referencia a los caracteres cuantitativos, es decir, se
utilizarán los términos variable y valor, aunque algunas de estas medidas
(posición) también son de aplicación para el caso de los caracteres cualitativos o
atributos.
Recuadro: Ocultar
EJEMPLO 2.1
Las pensiones mensuales de jubilación de 50 personas, trabajadores autónomos,
son las siguientes:
Recuadro: Ocultar
EJEMPLO 2.2
Agrupando la distribución del ejemplo anterior en cinco intervalos de igual
amplitud, se tiene:
Página 20 | Inicio del artículo
En el primer intervalo, se observa que hay 15 personas que perciben una pensión
comprendida entre 450 y 500 euros; sin embargo, al utilizar la marca de clase lo
que se hace es suponer que la pensión de todas esas personas es de 475 euros;
lo mismo ocurre en los demás intervalos. Como puede observarse, la pensión
media de esta distribución no coincide con la del Ejemplo 2.1, es decir, se ha
cometido un error, denominado error de agrupamiento. Con las distribuciones
agrupadas se simplifican mucho los cálculos pero también se pierde información,
o, dicho de otra manera, la información es menos exacta (lo que lleva en nuestro
ejemplo a una pensión media ligeramente inferior a la real), por lo que habrá que
ver hasta qué punto compensa el agrupar o no los valores de la distribución en
intervalos.
4. Si a todos los valores xi de una distribución (xi; ni) se les suma (resta) una
constante b, la media aritmética de la nueva distribución (yi; ni) queda aumentada
(disminuida) en esa constante. En otros términos, a la media aritmética le afectan
los cambios de origen.
5. Si a todos los valores xi, de una distribución (xi; ni) se les multiplica (divide) por
una constante a, distinta de cero, la media aritmética de la nueva distribución
(yi; ni) queda multiplicada (dividida) por esa constante. Es decir, a la media
aritmética le afectan los cambios de escala.
Nótese que
Por tanto:
es decir, el logaritmo de la media geométrica es igual a la media aritmética de los
logaritmos de los valores de la variable.
Recuadro: Ocultar
EJEMPLO 2.4
Un individuo invirtió 12.000 euros en un plan de pensiones. Durante los cinco años
siguientes las tasas de revalorización fueron del 5,6%, 2,25%, 4,15%, 8% y 9%,
respectivamente. Calcúlese la tasa de revalorización media anual de esos cinco
años.
Por tanto,
Igual que las dos medias anteriores, la media armónica tiene la ventaja de que en
su cálculo intervienen todos los valores de la variable; sin embargo, no tiene
sentido su utilización cuando algún valor de la distribución sea nulo.
Recuadro: Ocultar
EJEMPLO 2.5
Una empresa de equipos electrónicos tiene tres talleres de montaje con las
siguientes cifras mensuales:
resultado erróneo, pues, si se toma como productividad media 23,33 equipos por
empleado, el número total de equipos producidos sería 430 x 23,33 = 10.032,
cuando la cifra real es de 9.900.
2.2.1.5. Mediana
Sin embargo, si el número de datos es par, habrá dos valores medianos: el que
b) Si no se asigna ni a un punto sino que se considera que todos los valores del
intervalo están distribuidos de manera uniforme dentro de él, se puede aproximar
la mediana de la forma siguiente:
Siguiendo este mismo criterio, el intervalo mediano será aquel que contenga la
con lo que
donde
el primer valor mediano sería 631 y el segundo 644, siendo la media aritmética de
ambos 637,5.
Como se dispone de un número par de datos, los dos valores medianos ocupan,
respectivamente, las posiciones:
Dado que ambos se encuentran en el mismo intervalo mediano (35-40), la
mediana es
Recuadro: Ocultar
EJEMPLO 2.8
Según la «Estadística de Accidentes de Trabajo» del Ministerio de Trabajo y
Asuntos Sociales, entre enero y septiembre de 2005 los accidentes laborales con
baja registrados en España durante la jornada de trabajo fueron, según su
gravedad: leves: 675.190; graves: 7.508; mortales: 770.
2.2.1.6. Moda
En este caso, el intervalo modal es aquel que presenta mayor frecuencia absoluta
y, como se desconocen los valores incluidos en dicho intervalo, se puede
aproximar la moda siguiendo varios criterios:
A.1. Si se asigna ni a un punto, se puede elegir cualquier valor del intervalo como
moda (descartando el extremo inferior por considerar el intervalo abierto por la
izquierda).
A.2. Si se considera que todos los valores del intervalo están distribuidos de
manera uniforme dentro de él y el intervalo modal es Li–1 – Li, la moda estará más
cerca (lejos) del intervalo de la derecha cuanto mayor (menor) frecuencia tenga
este intervalo y menor (mayor) tenga el izquierdo (Grífico 2.2).
Gráfico 2.2.
siendo
Por tanto,
En este caso, el intervalo modal no es el que tiene mayor frecuencia absoluta sino
el que tiene mayor frecuencia por unidad de intervalo, es decir, mayor densidad de
con
EJEMPLO 2.9
Los contratos registrados en España durante los ejercicios 2004 y 2005, según
modalidad de contratación y duración del contrato, fueron
El tipo de contrato más frecuente en nuestro país, tanto en el ejercicio 2004 como
en 2005, fue el eventual por circunstancias de la producción, puesto que es el que
presenta en ambos años la mayor frecuencia absoluta.
El primer y segundo valor del segundo cuartil o mediana ocupan los lugares
En primer lugar, hay que establecer el intervalo que contiene a cada uno de ellos
y, posteriormente, asignar un valor de dicho intervalo al cuartil correspondiente. De
manera análoga a como se procedía en la determinación de la mediana, se puede
tomar como cuartil cualquier valor del intervalo excepto el correspondiente al
extremo inferior, por considerarse los intervalos abiertos por la izquierda, o bien
aplicar la siguiente expresión:
Recuadro: Ocultar
EJEMPLO 2.11
A partir de la siguiente distribución de salarios mensuales (euros), determínese el
primer cuartil:
y, para el segundo:
es decir, 12 y 13, respectivamente. Por tanto, el primer y segundo valor del primer
cuartil son
por lo que, promediando ambos, se considera como primer cuartil 1.550 euros.
Esto indica que, para caracterizar una distribución, además de calcular las
medidas de posición, también resulta necesario analizar su variabilidad. Dicha
variabilidad, habitualmente, se mide respecto a una medida de posición central,
pretendiendo, de esta manera, conocer la representatividad de los valores
centrales de la distribución, es decir, si estos valores sintetizan de forma
satisfactoria o no toda la información de la distribución.
Existen dos tipos de medidas de dispersión: las absolutas y las relativas. Las
primeras se utilizan cuando se trata de analizar la variabilidad de, únicamente, una
distribución de frecuencias y, las segundas, cuando se pretende comparar la
variabilidad de dos o más.
2.3.1. MEDIDAS DE DISPERSIÓN ABSOLUTAS
A Medidas de dispersión obtenidas por comparación directa entre los valores de la
variable
Recorrido o rango
Esta medida tiene la ventaja de ser muy sencilla de calcular. Sin embargo, el
inconveniente que presenta es que sólo depende de los valores extremos, por lo
que si éstos se encuentran alejados del resto de los valores de la distribución (es
decir, son valores anómalos) puede dar lugar a conclusiones erróneas.
Se define como
Varianza
Por tanto,
Pero los dos últimos términos de la expresión anterior no son sino la varianza de
una distribución cuyos valores son las medias de los grupos y sus frecuencias
absolutas los tamaños de los mismos. En consecuencia, la varianza global de la
distribución se puede expresar como la media ponderada de la varianza de los
grupos más la varianza de la distribución de medias anteriormente citada.
Por consiguiente, la varianza global se puede obtener como una suma ponderada
de las varianzas de cada grupo (primer sumando) más una suma ponderada de
las diferencias cuadráticas de las medias de cada grupo con respecto a la media
global. En definitiva, la varianza global se puede descomponer en dos sumandos:
el primero hace referencia a la variabilidad intrínseca de cada grupo (variabilidad
intragrupos) y el segundo a la variabilidad de las medias de cada grupo
(variabilidad intergrupos).
4. Si a todos los valores (xi) de una distribución (xi; ni) se les suma (resta) una
constante b, la varianza de la nueva distribución (yi; ni) no varía, es decir, a la
varianza no le afectan los cambios de origen (si por ejemplo a todos los
trabajadores de una empresa les suben el sueldo mensual 100 euros, la
variabilidad de los salarios sigue siendo la misma).
5. Si a todos los valores xi de una distribución (xi; ni) se les multiplica (divide) por
una constante a, distinta de cero, la varianza de la nueva distribución (yi; ni) queda
multiplicada (dividida) por esa constante al cuadrado; es decir, a la varianza le
afectan los cambios de escala.
Cuanto mayor sea la desviación típica, mayor dispersión existirá entre los valores
de la distribución y la media aritmética y, por tanto, la media aritmética será menos
representativa.
6. La desviación típica, igual que la varianza, es una medida de dispersión óptima.
Recuadro: Ocultar
EJEMPLO 2.12
La siguiente tabla contiene la distribución de altas diarias de afiliados a la
Seguridad Social en España durante el mes de enero de 2006 (en miles).
Calcúlese la media diaria de dichas altas, así como su desviación típica.
EJEMPLO 2.13
En el Ejemplo 2.12 se ha procedido al cálculo de la media y la desviación típica de
las altas diarias de afiliados a la Seguridad Social en España durante el mes de
enero de 2006. Ahora, en la tabla adjunta, se presenta la información relativa a las
bajas diarias de afiliados en España durante dicho mes (también en miles). ¿Cuál
de las dos medias diarias, la de altas o la de bajas, es más representativa?
Recuadro: Ocultar
EJEMPLO 2.14
Un individuo tiene que elegir entre dos ofertas de trabajo: una propuesta por una
empresa española y la otra por una americana. La empresa española le ofrece un
sueldo anual bruto de 53.000 euros, mientras que la oferta de la americana es de
50.000 $. Por otro lado, esta persona tiene información sobre el sueldo medio y la
desviación típica salarial de las distribuciones de ambas empresas:
¿En cuál de las dos empresas la posición relativa de este individuo es mejor
respecto a los demás trabajadores?
Sea una distribución de frecuencias (xi; ni). Se divide en dos clases: la primera, C1,
contiene los valores de la variable que distan de la media de la distribución (en
valor absoluto) más que una distancia k positiva. La segunda, C2, contiene el resto
de valores.
En consecuencia:
o bien,
Para calcular m3 se utiliza la expresión del Apéndice del final de este capítulo:
El Gráfico 2.3 recoge los tres casos posibles que pueden darse:
Gráfico 2.3
Si la distribución es simétrica: .
Si la distribución es asimétrica positiva o a la derecha: .
Si la distribución es asimétrica negativa o a la izquierda: .
2.4.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS
El coefíciente de curtosis de una distribución determina el grado de apuntamiento
que ésta tiene respecto a otra distribución denominada distribución normal1 , que,
por otra parte, es la que sigue una gran mayoría de distribuciones económicas.
Este coefíciente se utiliza cuando las distribuciones son simétricas o ligeramente
asimétricas, ya que en este tipo de distribuciones frecuentemente se da el caso de
que las más altas que la normal en las colas también lo son en el centro.
Para calcular m4 se utiliza la expresión del Apéndice del final de este capítulo:
Gráfico 2.4.
Las denominaciones de mesocúrtica, platicúrtica y leptocúrtica fueron dadas
originariamente porque entre ciertas distribuciones simétricas regulares se podía
percibir que las que tenían frecuencias relativas más elevadas en las colas eran
también las que tenían mayores frecuencias relativas en la parte central.
Evidentemente, esto no tiene por qué ocurrir para otro tipo de distribuciones
simétricas o para las asimétricas y, aunque la nomenclatura anterior es útil, debe
ser entendida como que describe el signo del coeficiente de apuntamiento más
que la forma de la distribución.
Hágase
Es decir,
y, por consiguiente,
Recuadro: Ocultar
EJEMPLO 2.15
En una empresa con 150 empleados, el número de horas extraordinarias/año de
los mismos sigue la distribución expuesta en las dos primeras columnas de la
tabla:
Recuadro: Ocultar
EJEMPLO 2.16
Se dispone de la distribución sobre las bajas laborales (en días) de los
trabajadores de una empresa (véase la tabla de la página siguiente).
Finalmente, existen dos valores anómalos, que son los correspondientes a las
observaciones 31 y 32 (x = 9 y x = 10), ya que se alejan más de 3 veces el
recorrido intercuartílico desde el extremo derecho de la caja.
3 .
Cita de fuente
MLA 8
APA 6
Chicago 17
Montero Lorenzo, Jóse Maria. "Características de Una Distribución de Frecuencias." Estadística
descriptiva, Paraninfo, 2007, pp. 17-61. Gale eBooks,
https://link.gale.com/apps/doc/CX4052100008/GVRL?u=unad&sid=GVRL&xid=d49ed557.
Accessed 15 June 2020.
Liberación de responsabilidad
Seleccionar
Export To:
NoodleTools
EasyBib
RefWorks
Google Drive™
OneDrive™
Download RIS*
*The RIS file format can be used with EndNote, ProCite, Reference Manager, and Zotero.
Anterior
Siguiente
Ver otros artículos vinculados a estos términos de índice:
o 1: 57
Coeficiente de asimetría de Fisher
o 1: 53
Coeficiente de curtosis
o 1: 54
View All Terms
EXPLORE
Article Contents
2.1. Introducción
2.2. Medidas de posición.
2.2.1. Medidas de posición central
2.2.2. Medidas de posición no central
2.3. Medidas de dispersión
2.3.1. Medidas de dispersión absolutas
2.3.2. Medidas de dispersión relativas
2.3.3. Variable tipificada
2.3.4. Desigualdad de Tchebicheff
2.4. Medidas de forma
2.4.1. Medidas de asimetría
2.4.2. Medidas de apuntamiento o curtosis
2.5. Box and whisker plots (Gráficos de caja y bigotes)
Apéndice. Momentos potenciales
(8) Para calcular el número combinatorio se procede de la
siguiente forma:
Cita de fuente
MLA 8
APA 6
Chicago 17
Estaban García, Jesús, et al. "Análisis de Datos Unidimensionales." Estadística descriptiva y
nociones de probabilidad, Paraninfo, 2005, pp. 25-69. Gale eBooks,
https://link.gale.com/apps/doc/CX4052300007/GVRL?u=unad&sid=GVRL&xid=c94d9295.
Accessed 15 June 2020.
Liberación de responsabilidad
Seleccionar
Export To:
NoodleTools
EasyBib
RefWorks
Google Drive™
OneDrive™
Download RIS*
*The RIS file format can be used with EndNote, ProCite, Reference Manager, and Zotero.
Anterior
Siguiente
Ver otros artículos vinculados a estos términos de índice:
Coeficiente(s)
o de asimetría de Fisher
1: 48
1: 282
o de curtosis
1: 50
1: 282
View All Terms
EXPLORE
Article Contents
2.1. Medidas de posición.
2.2. Medidas de dispersión.
2.3. Momentos.
2.4. Medidas de forma.
2.5. Transformaciones lineales y tipificación de variables.
2.6. Medidas de concentración. Curva de Lorenz e índice de Gini.
Cuestiones de autoevaluación.
Ejercicios propuestos.
Problemas resueltos.
Problemas propuestos.
Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar
Página 129
Regresión y Correlación Simple
Página 130 | Inicio del artículo
5.1. INTRODUCCIÓN
En el capítulo precedente se puso de manifiesto el interés de estudiar
simultáneamente dos o más caracteres, X e Y, sobre la misma población, con el
propósito de detectar si existe dependencia estadística entre ellos o si, por el
contrario, son independientes.
/xi.
Recuadro: Ocultar
EJEMPLO 5.1
Las ventas (en euros) realizadas en 2006 por una muestra de comerciales de
empresas del sector farmacéutico español, así como la antigüedad de los mismos
en el sector (en años), se refleja en la siguiente tabla:
Llévese a cabo la regresión de tipo I del nivel de ventas de los comerciales del
sector farmacéutico español sobre la antigüedad en su profesión como comercial
en el sector.
Solución:
obteniéndose como:
Por tanto, la regresión de tipo I vendría dada por los pares de valores6 :
Recuadro: Ocultar
EJEMPLO 5.2
En una empresa de software trabajan 10 asalariados diplomados en informática, 8
licencia-dos en informática y 6 con el grado de doctor en dicha materia. Sus
retribuciones mensuales, que entre otras cosas están en función de su nivel de
formación, son las que se ofrecen a continuación. Si un trabajador eleva su nivel
de formación, automáticamente cambia su contrato, de tal forma que se le
considera el nuevo nivel alcanzado:
Solución:
Ahora la cuestión es: ¿Cómo idear una medida que cuantifique la bondad de la
regresión llevada a cabo? Es decir, ¿cómo medir la ganancia derivada del hecho
de conocer los valores de X que se dan conjuntamente con los de Y a la hora de
«explicar» o estimar estos últimos? La respuesta es la siguiente:
1. Si no se conociese con qué valor de X va emparejado cada valor de Y la mejor
estimación de Y (también por la propiedad 2 de la media aritmética) sería la media
de la variable Y, siendo la suma de cuadrados de los errores de estimación
cometidos
2. Ahora bien, conociendo el valor de X que va emparejado con cada valor de Y, la
mejor estimación de esta última es la media de las observaciones
de Y emparejadas con el valor en cuestión de X, siendo la suma de cuadrados de
los errores de estimación cometidos, como se ha visto anteriormente,
Página 142 | Inicio del artículo
de donde
Página 143 | Inicio del artículo
llegándose a
Recuadro: Ocultar
EJEMPLO 5.3
A partir de la información contenida en el Ejemplo 5.1, calcule la razón de
correlación de las ventas de los comerciales sobre su antigüedad como
profesionales en el sector.
Solución:
Por tanto,
Recuadro: Ocultar
EJEMPLO 5.4
En este ejemplo se procede a la descomposición de la varianza de las ventas
realizadas por los comerciales del sector farmacéutico español considerados en el
Ejemplo 5.1 en la varianza explicada por la regresión de tipo I (S2r) y la varianza
de los errores de estimación (S2e). Para ello, se construye la siguiente tabla:
Ante esta tesitura, la mejor solución es observar la nube de puntos y elegir un tipo
de función continua que se adecue a ella. Posteriormente, se estimarán los
valores de los parámetros de dicha función que hacen mínima la suma de
cuadrados del error de estimación. Dicho de otra forma: se trata de obtener la
función que pasa más cerca de todos los puntos de la nube y que, por
consiguiente, genera los menores errores de estimación.
mediante . Es decir,
Análogamente,
La «eficiencia relativa» de la regresión de Y sobre X, es decir, el porcentaje de la
dependencia estadística de Y respecto de X (νY/X) que recoge la función de
regresión de tipo II elegida, viene dada por la expresión
Se dice que una función es lineal en los parámetros si éstos aparecen con
frecuencia unitaria y no están multiplicados ni divididos por cualquier otro
parámetro. A modo de ejemplo, yj = a + √bxi no es una función lineal en los
parámetros. Sin embargo, yj = a + bxi + cxi2 sí lo es.
Gráfico 5.4.
y operando:
de donde
( ; ), que se
denomina centro de gravedad de la distribución de frecuencias.
Recuadro: Ocultar
EJEMPLO 5.5
Suponiendo que se ha optado por una recta como la mejor función que puede
ajustar la nube de puntos del Ejemplo 5.1, obténgase la estimación de los
coeficientes de la recta de regresión e interprétense. Utilice dicha recta para
estimar las ventas de un comercial con 17 años de antigüedad en el sector.
Solución:
Gráfico 5.5.
su varianza
Página 157 | Inicio del artículo
recta ŷi = ).
2
r = 1 indica que la estimación de los valores de Y a través de la recta de
regresión es perfecta, por cuanto es capaz de hacer nula SCE. En otros
términos: Y depende funcionalmente de X a través de la recta estimada.
Cuanto más se acerque a cero r2, menor será la capacidad de la recta
estimada a la hora de explicar la relación de dependencia
de Y sobre X. Lógicamente, cuanto más se acerque a la unidad, mayor será su
capacidad de explicar tal relación.
′ = r2.
La eficiencia relativa de la regresión lineal de Y sobre X se mide a través de la
expresión
r = 1: en este caso las variables presentan una relación funcional y positiva
(la pendiente de la recta de regresión es positiva). En otros términos, todos los
valores estimados coinciden con los observados, por lo cual SCE es nula. En este
caso, además, las rectas de regresión de Y sobre X y de X sobre Y coinciden.
r = – 1: en esta tesitura las variables presentan una relación funcional y
negativa. También en este caso todos los valores estimados coinciden con los
observados, por lo cual SCE es nula, y las dos rectas de regresión coinciden, si
bien son decrecientes.
r = 0: en este caso no existe correlación lineal entre las variables y las
rectas de regresión son perpendiculares. En concreto, la recta de regresión
de Y sobre X es una paralela al eje X trazada por el punto del eje de ordenadas y
Gráfico 5.6.
(ŷj = ).
entonces
Recuadro: Ocultar
EJEMPLO 5.6
Estüdiese la bondad de la regresión llevada a cabo en el Ejemplo 5.5.
Solutión:
La regresión llevada a cabo en el Ejemplo 5.5 será tanto más fiable cuanto mayor
sea el coeficiente de determinación lineal. Por tanto, basta proceder a su cálculo
, se tiene que
Ahora bien, en el caso lineal la suma de los residuos (y, por tanto, su media) es
nula, igual que ocurría en la regresión de tipo I, ya que
Recuadro: Ocultar
EJEMPLO 5.7
Descompóngase la varianza de las ventas de los comerciales del sector
farmacéutico del Ejemplo 5.1 en varianza debida a la regresión lineal y varianza de
los errores de estimación.
Solución:
Recuadro: Ocultar
EJEMPLO 5.8
Sea la siguiente distribución de frecuencias:
Gráfico 5.7.
Si se llevara a cabo una regresión lineal de Y sobre X, la recta sería ŷi = 2,5 =
, es decir, se
estimaría Y por su media aritmética fuese cual fuese el valor de X, igual que se
haría en la tesitura en que los valores de X que acompañan a los de Y fuesen
desconocidos. La regresión lineal no ha reducido ni un ápice la SCE = S2Y que se
tenía al estimar los valores de Y sin «ayuda» de los de X. Ello se debe a que no
existe relación lineal alguna entre Y y X.
su solución se obtienen
Página 168 | Inicio del artículo
Recuadro: Ocultar
EJEMPLO 5.9
A partir de los datos del Ejemplo 5.1, llévese a cabo un ajuste parabólico y
compruébese si es capaz de mejorar al ajuste lineal anteriormente realizado en el
Ejemplo 5.5.
Solución:
de donde
= 356.666,67, a11 =
8.618.333,33, a20 = 197,51 y a02 = 398.672.000.000, se obtiene el sistema:
con lo que
Como
el coeficiente de la pendiente del modelo en logaritmos, esto es, , estima,
aproximadamente, el incremento en tantos por uno de Y ante un aumento de X en
una unidad. Obviamente, 100 es una estimación aproximada de la variación
porcentual de Y ante un aumento de X en una unidad.
Función potencial: ŷi = âx i
Igual que en el caso exponencial, para que la función potencial sea linealizable el
término de error debe entrar en forma multiplicativa,
Efectivamente,
de donde
con lo que
y como
por lo que
estima,
aproximadamente, la variación porcentual de Y ante una variación de un 1% en X.
Gráfico 5.9.
Un ejemplo clásico de este modelo es la relación del coste fijo medio con el nivel
de producción, pues a medida que aumenta este último el primero declina
continuamente (debido a que el coste total fijo se reparte entre un gran número de
unidades de producto) y finalmente se vuelve asintótico con el eje de producción al
nivel a. Otra de sus aplicaciones más populares es la conocida curva de Phillips. A
modo de ejemplo, con base en la información suministrada en la tabla que se
expone a continuación, relativa a los incrementos interanuales de la tasa de
salarios (Y) y la tasa de paro (X) para el Reino Unido durante el periodo 1950–
1966, cuando se ajustó el modelo recíproco se obtuvo el siguiente resultado:
Página 177 | Inicio del artículo
EJEMPLO 5.10
A la vista de la nube de puntos del Ejemplo 5.1, se podría elegir una función
exponencial o bien una potencial para intentar caracterizar el comportamiento
general de las ventas de los comerciales del sector farmacético. Por tanto, en este
ejemplo se procede inicialmente a la estimación de los parámetros de regresión en
ambos tipos de modelo. Posteriormente, se compara la bondad de la regresión
exponencial, la regresión potencial y las demás regresiones realizadas con los
datos del Ejemplo 5.1 (la regresión de tipo I, la regresión lineal y la regresión
parabólica) a la hora de ajustar la nube de puntos.
Solución:
Función exponencial:
Función potencial:
Despejando se tiene
Una vez obtenidas las estimaciones de las funciones exponential y potencial, para
dilucidar cuál de ellas es mejor, en términos de la bondad del ajuste, y dado que
en ambos modelos las estimaciones y los errores de estimación se relacionan en
forma multiplicativa, se procede al cálculo de la SCE derivada de cada una de
ellas. A estos efectos, recuérdese que el error de estimación se toma como
Función exponencial:
Función potencial:
Gráficamente,
Gráfico 5.10.
Igualmente, pudiera ocurrir que hubiese una correlación lineal fuerte entre los
salarios anuales y el número de accidentes laborales, también anualmente, en el
sector de la construcción en España. De nuevo, no existe ninguna relación teórica
entre ambas variables, pero si se llevase a cabo una regresión lineal se obtendría
una correlación positiva de cierta intensidad entre ambas. Ello lo único que
significaría es que una tercera variable, la actividad del sector de la construcción,
está influenciando tanto los salarios del sector (que se mueven en función del nivel
de actividad) como el número de accidentes laborales que se producen en el
mismo (que también están en relación directa con la actividad del sector), pero
nada más.
Por tanto, un paso previo a la regresión entre dos variables es la reflexión previa y
la constatación de que existe fundamento teórico para llevar a cabo tal regresión.
Por otra parte, una de las labores más solicitadas a los economistas es la labor de
predicción (pronóstico a futuro) y ésa es una tarea que se ha encomendado
durante mucho tiempo, y se sigue encomendando, a los modelos de regresión. A
modo de ejemplo, se puede llevar a cabo una regresión del salario medio en
España en función del tiempo y utilizar la función de regresión estimada para
predecir el salario medio en España en un año venidero. Sin embargo, como
apuntan Croxton y Cowden «que nosotros sepamos, no hay fórmulas mágicas
para predecir los acontecimientos… Cualquier procedimiento de predicción que
implique simplemente la prolongación de una curva o la aplicación automática de
una fórmula, sin hacer al mismo tiempo un estudio minucioso de los elementos
modificadores de mayor influencia, merece poca confianza, sobre todo si las
condiciones económicas son inestables».
Analícese el Gráfico 5.11, donde la línea gris discontinua marca la altura media de
los hijos en caso de que fuese igual a la media de la de los padres; la línea negra
continua es la curva de medianas20 filiales condicionadas a las alturas promedio
de los padres; la línea negra discontinua es la regresión lineal de las alturas
medias de los hijos sobre las de los padres; y la línea gris continua es la altura
mediana de laPágina 187 | Inicio del artículopoblación. La altura mediana de la
población (padres e hijos) se sitúa en el corte entre la línea negra discontinua y la
línea gris discontinua (68,25 pulgadas; 68,25 pulgadas).
Gráfico 5.11.
¿Qué se observa?: Que las alturas promedio de los hijos se acercan más a la
mediana poblacional que las de los padres. Galton determinó que la proporción en
cualquier punto (cualquiera que sea la altura promedio paternal) entre las
distancias de la línea negra discontinua a la gris continua y de la línea gris
discontinua a la gris continua era de 2/3; es decir, la desviación filial al promedio
poblacional es dos tercios de la desviación paterna a dicho promedio. «Yo llamo a
esta proporción de 2 a 3 la proporción de regresión filial. Es la proporción en la
cual el hijo es, en promedio, menos excepcional que el padre», señala Galton.
Y prosigue más adelante: «Este valor de dos tercios se aceptará, por lo tanto,
como la cantidad de regresión, a partir de la media de muchos casos, de la
estatura media paternal hacia la media filial, cualquiera que sea la estatura media
paternal (…) Por tanto, de padres promedio altos saldrán hijos promedio altos,
pero no tan altos como ellos pues revertirán hacia la media poblacional;
igualmente, de padres promedio bajos saldrán hijos promedios bajos, pero no
tanto como ellos porque la altura de los hijos revertirá a la media general. Lo
mismo pasa con otros muchos dones».
Como puede apreciarse, el total no son los 5.513 pares de adormidera sino
justamente el doble. La razón es que Pearson cuenta cualquiera de las dos cajas
como la primera (por eso la tabla de correlación es simétrica respecto de la
diagonal principal). Pero esto no afecta al razonamiento. Podría suponerse que
existen 11.026 pares de cajas sin problema alguno.
2 Véanse los primeros párrafos del Apartado 5.4 para mayor abundamiento en la
cuestión.
6 En realidad, en este caso, está formada por pares de intervalos y valores.
10 Recuérdese que, salvo que se diga lo contrario, se supone que los errores y las
estimaciones tienen una relación aditiva y que no existen restricciones sobre los
coeficientes o parámetros de la regresión.
12 Algunos autores consideran que basta la linealidad en los parámetros para que
la regresión sea considerada lineal.
17 Se ha optado por tomar logaritmos neperianos por ser aquellos con los que
está más familiarizado el alumno, si bien, puede utilizarse cualquier otra base.
20 Galton trabajaba con medianas pero puede utilizarse la media sin pérdida de
generalidad.
Liberación de responsabilidad
From: Investigación de mercados(4th ed.)
Publisher: Cengage Learning Mexico
Tipo de documento: Topic overview
Páginas: 12
Content Level: (Level 5)
Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar
Página 675
Análisis de Correlación y de Regresión Simple
Los análisis de correlación y de regresión son de uso frecuente entre los
investigadores de mercados para estudiar la relación entre dos o más variables.
Aunque es común el uso indistinto de estos términos, existe una diferencia en su
propósito. El análisis de correlación mide la cercanía de la relación entre dos o
más variables (véase el ejemplo del anuncio de leche), considerando la variación
conjunta de las dos mediciones, ninguna de las cuales está sujeta a restricción por
el experimentador. Por su parte, el análisis de regresión se usa para derivar una
ecuación que relaciona la variable de criterio con una o más variables de
predicción. En ello se considera la distribución de frecuencias de la variable de
criterio cuando se mantienen fijas en diversos valores una o más de las variables
de predicción.2
Recuadro: Ocultar
Análisis de correlación
Técnica estadística usada para medir la cercanía de la relación lineal entre dos o
más variables en una escala de intervalo.
Recuadro: Ocultar
Análisis de regresión
Técnica estadística usada para derivar una ecuación que relacciona una variable
de criterio con una o más variables de predicción; cuando se usa sólo una variable
de predicción, es el análisis de regresión simple, y si se utilizan dos o más, es el
análisis de regresión múltiple.
El National Fluid Milk Processors Promotion Board tiene a su cargo los anuncios de bigotes de
leche de celebridades. Una de sus promociones actuales es un “Milk Mustache Celebrity Calendar
Event” anual, en que se envían calendarios a diversos hogares. El consejo mencionado está
interesado en averiguar la correlación de su presentación de calendaríos de celebridades con las
ventas de leche en galones. Según información de Nielsen Homescan Data, las ventas de leche en
galones aumentaron 3.6%, en relación con las de un año atrás, en los hogares que recibieron el
Calendario de 1997, además de incrementos de 9.7% de las mismas ventas en hogares con niños
de 6-12 años de edad.Kroger no es ajeno a los beneficios del Milk Mustache Celebrity Calendar
Event. Para quienes gustan de los números, Nielsen Homescan Data reportó un aumento de 3.6%
en las ventas de leche en galón, contra las de un año atrás, en los hogares que recibieron el
calendario 1999. Además, otro de 9.7% en las ventas de un año antes en los hogares con niños de
6 a 12 años. Los desplegados publicitarios acerca del producto, como éste, son una manera
certera de impulsar la compra de galones de leche y mover el lechímetro. ¿Desea el Celebrity
Calendar 2000? Escríbame.
Un vistazo más cercano a las partes A y B también refleja que sería posible
resumir la relación entre las ventas y cada una de las variables de predicción si
simplemente se traza una recta por los puntos de datos. Una forma de generar la
relación de las ventas con los anuncios televisivos por número de representantes
sería “imaginarla”, es decir, trazar visualmente una recta que pase por los puntos
de las gráficas. Esa recta correspondería a la línea de la relación “promedio” e
indicaría el valor promedio de la variable de criterio, las ventas, con los valores
dados de cualquiera de las variables de predicción, anuncios televisivos o número
de representantes. Luego, podría añadirse a las gráficas, por ejemplo, el número
de anuncios televisivos en el territorio y leer el valor promedio de ventas
esperadas en el territorio mismo. La dificultad del enfoque gráfico es que dos
analistas podrían generar rectas distintas para describir la relación. Ello hace
surgir la pregunta de cuál sería la recta más correcta o cuál de ellas encajaría
mejor en los datos.
Un enfoque alterno es generar matemáticamente una recta que una los datos. La
ecuación general de una recta es y = α + βX, donde α es la intersección Y, y β el
coeficiente de la pendiente. En este caso de Y ventas y X1 anuncios televisivos, la
ecuación podría escribirse como Y= α1 + β1X1, mientras que la relación entre las Y
ventas y los X2 representantes de ventas se representaría como Y = α2 + β2X2,
donde el subíndice corresponde a la variable de predicción que se considera. Tal
como está escrito, cada uno de estos es un modelo determinista. Cuando se
sustituye el valor de la variable de predicción en la ecuación con los valores
especificados de α y β, se determina un valor único de Y, sin considerar un
margen de error.
Yi = α1 + β1Xi1 + εi
Si se usan los datos del anexo 21.1 respecto de ventas (Y) y anuncios televisivos
mensuales (X1), las estimaciones de â1 y β serían 135.4 y 25.3,
respectivamente.7 La ecuación se representa gráficamente en la figura 21.3. La
pendiente de la recta está dada por β1. El valor de ésta, 25.3, hace suponer que
las ventas aumentan en 25 300 dólares por cada unidad de aumento en los
anuncios televisivos. Como se mencionó, se trata del estimado de una condición
poblacional verdadera basada en una muestra específica de 40 observaciones.
Sin duda alguna, otra muestra distinta generaría un estimado diferente. Por
añadidura, todavía no se ha planteado si se trata de un resultado estadísticamente
significativo o que podría haber ocurrido al azar. No obstante, es un elemento de
información de suma importancia, que ayuda a determinar si el gasto en publicidad
vale su rendimiento esperado. El estimado del parámetro de intersección es â1 =
135.4, lo cual indica dónde cruza la recta al eje Y, puesto que se trata del valor
estimado de Y cuando la variable de predicción es igual a cero.
FIGURA 21.3 Gráfica de la ecuación que relaciona las ventas con los anuncios televisivos
Recuadro: Ocultar
H0: β1 =0
Hα β1 ≠ 0
COEFICIENTE DE CORRELACIÓN
Hasta este punto, se ha analizado la relación funcional de Y con X. Suponga que
también interesa la intensidad de la relación lineal entre esas dos variables, lo cual
lleva al concepto de coeficiente de correlación. Se partió de dos supuestos
adicionales al analizar el modelo de correlación. El primero, que Xi es una variable
aleatoria. Una observación de muestra permite obtener valores de Xi y Yi. El
segundo, que las observaciones provienen de una distribución normal de dos
variables, es decir, una en que la variable X tiene distribución normal, al igual que
la variable Y.
Recuadro: Ocultar
Coeficiente de correlación
xi = Xi – x̄
yi = Yi – ȳ
donde las minúsculas indican desviaciones en torno a una media. Está claro, con
la observación de la figura 21.5, que el producto Xiyi es:
Recuadro: Ocultar
Coeficiente de determinación
Cita de fuente
MLA 8
APA 6
Chicago 17
Churchill, Gilbert6 A., Jr. "Análisis de Correlación y de Regresión Simple." Investigación de
mercados, 4th ed., Cengage Learning, 1999, pp. 675-686. Gale eBooks,
https://link.gale.com/apps/doc/CX4058900232/GVRL?u=unad&sid=GVRL&xid=a2479593.
Accessed 15 June 2020.
Liberación de responsabilidad
Seleccionar
From: Investigación de mercados(4th ed.)
Publisher: Cengage Learning Mexico
Tipo de documento: Topic overview
Páginas: 10
Content Level: (Level 5)
Traducir
Reducir el tamaño de la fuente
Aumentar el tamaño de la fuente
Font Size
Escuchar
Página 686
Análisis de Regresión Múltiple
La idea básica subyacente al análisis de regresión múltiple es la misma que en la
regresión simple: determinar la relación entre las variables independientes y
dependiente, o variables de predicción y de criterio. El análisis de regresión
múltiple permite añadir diversas variables, de modo que la ecuación refleje los
valores de un cierto número de variables de predicción, no una sola. El objetivo de
esto es mejorar las predicciones de la variable de criterio.
NOMENCLATURA MODIFICADA
Un marco de notación modificado y más formal es valioso para comentar el
análisis de regresión múltiple. Considere el modelo de regresión general con tres
variables de predicción. La ecuación modificada:
Y = α + β1 X1 + β3X3 + ∊
Recuadro: Ocultar
Recuadro: Ocultar
SUPUESTO DE MULTICOLINEALIDAD
Los supuestos relativos al término de error en el modelo de regresión simple se
aplican también a la ecuación de regresión múltiple. Además, esta última es un
modelo que requiere el supuesto adicional de que las variables de predicción no
se correlacionan entre ellas. Cuando el investigador puede definir los niveles de
estas variables, resulta fácil satisfacer dicho supuesto. Es frecuente que se viole el
supuesto cuando las observaciones resultan de una encuesta, no de un
experimento, ya que muchas variables de interés en mercadotecnia varían
conjuntamente. Por ejemplo, los ingresos altos suelen relacionarse con niveles de
escolaridad elevados. Así pues, la predicción del comportamiento de compra con
los ingresos y nivel de estudios violaría el supuesto de que las variables de
predicción son independientes unas de otras. Se dice que
hay multicolinealidad en un problema de regresión múltiple cuando las variables
de predicción están correlacionadas.
Recuadro: Ocultar
Multicolinealidad
Una vez más, los parámetros del modelo podrían estimarse a partir de los datos
de la muestra con los procedimientos de cuadrados mínimos. De nuevo, se
distinguirá entre los estimados de la muestra y los valores poblacionales
verdaderos, que son desconocidos, con el uso del acento circunflejo para denotar
el valor estimado. En este punto, no se considerarán las fórmulas para el cálculo
de los coeficientes de regresión. De cualquier manera, es habitual que se
obtengan con computadora y son parte de casi todos los textos de fundamentos
de estadística. La necesidad del analista de mercadotecnia es cómo interpretar los
resultados que le proporciona la computadora.
Esta ecuación de regresión puede usarse para estimar el nivel de ventas esperado
en un territorio, dados el número de anuncios televisivos y el de representantes de
ventas que atienden el territorio. Al igual que en otras ecuaciones de cuadrados
mínimos, la línea (en este caso una recta, puesto que es un problema
tridimensional) se adecúa a los puntos de manera tal que la suma de las
desviaciones enPágina 689 | Inicio del artículotomo a la línea es igual a cero. En
otras palabras, si se estimaran las ventas de cada uno de los 40 territorios a partir
de esta ecuación, cabría esperar que las desviaciones positivas y negativas en
torno a la línea se contrarresten casi con exactitud.
El nivel en que el plano interseca al eje Y está dado por â(12) = 69.3. Considere
ahora los coeficientes de regresión parcial, β̂Y1 y β̂Y1.2 y β̂Y2.1En e‘ entendido de que
se cumplió el supuesto de multico-linealidad, esos coeficientes pueden
interpretarse como el cambio promedio de la variable de criterio relacionado con el
cambio unitario de la variable de predicción apropiada, al tiempo que se mantienen
constantes las otras variables de predicción. Así, al suponer que no existe
multicolinealidad, β̂Y1.2 = 14.2 indica que, en promedio, cabe esperar un aumento
de 14 200 dólares en las ventas con cada anuncio televisivo adicional en el
territorio, si no cambia el número de representantes de ventas. En forma similar,
β̂Y2.1= 37.5 apuntaría en el sentido de que cada representante de ventas adicional
en un territorio producirá 37 500 dólares de ventas, en promedio, si se mantiene
constante el número de anuncios televisivos.
También es posible evaluar uno por uno los coeficientes de pendiente en cuanto a
su significancia estadística en un problema de regresión múltiple, puesto que la
función global es significativa. De nuevo, se usa la prueba t, si bien la validez del
procedimiento depende mucho de la multicolinealidad existente entre los datos. Si
esta última es alta, se tiende a cometer errores tipo II, es decir, se juzga que
muchas de las variables de predicción no se relacionan con la de criterio cuando
en realidad sí guardan tal relación. Inclusive podría llegarse a la conclusión de que
la regresión global es estadísticamente significativa y ninguno de los coeficientes
globales lo es. La dificultad con las pruebas de significancia t de los coeficientes
de pendiente surge porque el error estándar de la estimación de los coeficientes
de cuadrados mínimos, s$, aumenta al hacerlo la dependencia entre las variables
de predicción. Por tanto, a medida que se incrementa el denominador del
valor t calculado disminuye su valor, lo que en ocasiones lleva a la conclusión de
que no existe relación entre la variable de criterio y la variable de predicción.
Recuadro: Ocultar
Recuadro: Ocultar
Recuadro: Ocultar
Recuadro: Ocultar
VARIABLES BINARIAS
El análisis de los datos de ventas del anexo 21.1 todavía está incompleto. No se
ha prestado atención al efecto de la distribución en las ventas, en particular como
medida del índice de eficiencia de los mayoristas. Una forma de considerar el
efecto de tal eficiencia en las ventas sería introducir el índice directamente, es
decir, el valor X3 de cada observación simplemente sería el valor registrado en la
última columna del anexo mencionado. Sea X3 el índice de eficiencia de los
mayoristas, en cuyo caso la ecuación de regresión múltiple con la notación
informal sería:
Recuadro: Ocultar
Variable binaría
Una a la que se asigna uno de dos valores, 0 o 1, y se usa para representar en
forma numérica los atributos o características que no son esencialmente
cuantitativos.
X1 X2
• Si la persona es de clase alta 1 0
• Si la persona es de clase
media 0 1
• Si la persona es de clase baia 0 0
Xi X2
• Si la persona es de clase alta 0 0
• Si la persona es de clase
media 1 0
• Si la persona es de clase baia 0 1
Suponga que se utilizan tres variables binarias para representar las cuatro
categorías del índice de eficiencia de distribuidores, en el ejemplo de bolígrafos,
como sigue:
X3 X4 X5
• Si el distribuidor es malo 0 0 0
• Si el distribuidor es regular 1 0 0
• Si el distribuidor es bueno 0 1 0
• Si el distribuidor es
excelente 0 0 1
Página 694 | Inicio del artículo
El uso de variables binarias indica que la relación entre las ventas Y el índice de
eficiencia de mayoristas no es lineal, como se habría supuesto cuando se añadió
como variable de escala a intervalos. En vez de un aumento de 11 500 dólares
con cada cambio de categoría, los aumentos respectivos son de 9.2 (9200) de la
categoría mala a la regular, 11.1 (11 100) de la regular a la buena y 13 (13 000) ue
la rela a la entrelasventasyel
TRASFORMACIONES DE VARIABLES
El uso de variables binarias amplía mucho el alcance del modelo de regresión.
Hace posible añadir variables con escalas de clasificación y nominales a los
problemas de regresión. Como se mencionó, también posibilita manejar relaciones
no lineales de variables de criterio y de predicción. Otra técnica que amplía el
alcance evidente del modelo de regresión es la transformación de variable.
Recuadro: Ocultar
Transformación de variable
W = In Y
α’ = In α
Z1 = In X1
Z2 = In X2
Z3 = In X3
ε, = In ε
Cita de fuente
MLA 8
APA 6
Chicago 17
Churchill, Gilbert6 A., Jr. "Análisis de Regresión Múltiple." Investigación de mercados, 4th ed.,
Cengage Learning, 1999, p. 686. Gale eBooks,
https://link.gale.com/apps/doc/CX4058900234/GVRL?u=unad&sid=GVRL&xid=dead9829.
Accessed 15 June 2020.
Liberación de responsabilidad
Seleccionar
Export To: