Capitulo 4

Capitulo IV
Es la medida ms comn de localizacin y

representa el centro de un grupo de datos
El valor obtenido es ms preciso que la precisin
asociada con cada observacin por lo cual
siempre se representa con un dgito ms que los
utilizados en la medicin
Datos no agrupados
X
X
i 1
X
i 1
Datos agrupados
n
M
i 1
fi
Frecuencia
Mi= punto medio de la clase

fi = frecuencia de la clase i
n= fi=tamao de la muestra
Media
Ingresos mensuales en dlares

1000
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
30
X
i 1
1000 1150 1050 1230 1100 1110 990 1030 1170L 1210
30
30
32800
X
1.093,33
30
INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
6
30/30=1
955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)

n
30
30
955 7035 5275 8840 6930 3615 32650
X
1.088,333
30
30
X
i 1
i i
i 1
i i
La mediana m de un conjunto de datos x1,x2,,xn, es el

valor xi que se encuentra en el punto medio o centro,
cuando se ordenan los valores de menor a mayor.
La interpretacin geomtrica de la mediana, es que es el
valor que divide un histograma en dos partes iguales.
Procedimiento de clculo:
Datos no agrupados
Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,,n
Identificar si n es impar o par
x%
x([ n 1]) / 2)
x( n / 2) x( n / 2 1)
2
Encontrar la mediana del siguiente conjunto de datos que

corresponden al tiempo en segundos, requerido por una cajera
para marcar la compra de artculos en un supermercado que
utiliza verificadores automticos
{ 10, 15, 62, 53, 11, 38, 75, 112, 40, 22, 57 }.
Ordenamos el conjunto de datos:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
n = 11, impar. Entonces la mediana m es:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Datos
1 2 3 4
5 6 7 8 9 10 11
Indice
m x n 1
2
n 1 11 1 12
6
2
2
2
x n 1 x6 40
2
m x6 40
En el caso de que los datos estn agrupados, se obtiene primero la

clase de la mediana
La clase de la mediana se define como la primera clase que aparece
en la tabla, para la cual la frecuencia acumulada, Fi, sea igual o mayor
a la mitad de la suma de todas las frecuencias absolutas, esto es:
n
n
2
2
con j 1, 2,..., k ,
k - nmero de intervalos
Fj
i 1
Paso 1.- Obtener la Clase de la Mediana, es decir, el primer intervalo

que cumpla la condicin:
Fj
donde
n
2
n - es el nmero total de datos del conjunto

j - es el nmero del intervalo de clase que cumple la condicin,
j = 1, 2,,k
Fj- es la frecuencia acumulada del intervalo de clase j
Paso 2.- Calcular la mediana con la
siguiente ecuacin:
n
2 FL
m Lm
C
fm
Donde:
Lm = Lmite inferior del intervalo que corresponde a la clase mediana.
n = Total de datos
FL = Suma de frecuencias de todas las clases por debajo de la clase
mediana, (frecuencia acumulada absoluta de las clases anteriores a
la clase mediana)
fm = Frecuencia absoluta en la clase mediana.
C = Tamao del intervalo de clase. (amplitud o distancia del
intervalo)
INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
30/30=1
Paso 1.- Obtener la Clase de la Mediana

n = 30 y n/2 = 15,
k = 6 intervalos de clase
En el 4 intervalo se cumple que: F4 = 21 15.
Por tanto el cuarto intervalo se identificar como la clase
mediana, esto es:
(1080, 1130] es el intervalo de clase.
F4 = 21
Paso 2.- Calcular la mediana:
Lm = 1080
Limite inferior de la clase de la mediana
n = 30
Datos u observaciones
n/2 = 15
Datos u observaciones
FL = F3 = 13 Frec.acumul.absoluta inf.
fm = f4 = 8 Frec. Absoluta de la clase de la mediana
C = Lsup Linf = 50
No
Intervalo
fi
Fi
(1030,1080]
13
(1080,1130]
21
F
L
2
m Lm
C
f
m
(15 13)
m 1080
50 1.092,50
8
La interpretacin de este valor, es que la mitad de las familias
entrevistadas ganan menos de 1.092,50 dlares.
Es la observacin que se presenta con mayor

frecuencia en la muestra o poblacin
Si los datos tienen una sola moda son
unimodales, si tienen 2 son bimodales y as
sucesivamente
No son comparables en su totalidad los
resultados obtenidos entre datos individuales y
agrupados
Procedimiento de clculo (datos no agrupados):

Paso 1. Ordenar los datos en forma ascendente
Paso 2. Identificar el o los datos con mayor frecuencia
En el conjunto de datos dados para medir el ingreso promedio anual de las familias que
habitan en un determinado sector, se tiene:
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060, 1070, 1080, 1090, 1100,
1100, 1105, 1110, 1110, 1120, 1130, 1150, 1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }
En este conjunto hay dos valores que aparecen ms veces :

1030 ( 3 veces)
1150 ( 3 veces)
por tanto la moda es = 1030 y 1150, y en este caso se dice que el conjunto de datos es
bimodal
La Moda estar representada por la clase que posee la ms alta frecuencia,
denominndose clase modal.
El clculo de la Moda se obtiene con la siguiente expresin:
Donde:
1
Moda LI
C
2 1
LI = Lmite inferior del intervalo de clase, la clase modal.

1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior, f i
nmero de intervalo de la clase modal
- fi-1, con i
2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. f i

nmero de intervalo de la clase modal
- fi+1, con i
C = Tamao del intervalo de clase.
Datos agrupados
Calcular la moda del ingreso promedio mensual de las
familias que habitan en un determinado sector
Intervalo de clase modal: el 4, (1080 1130] ya que
f4 = 8 (la mayor frecuencia absoluta de la tabla)
LI = 1080 dlares
No.
Intervalo
fi
Fi
1 = f4 f3 = 8 - 5 = 3
3
(1030,1080]
5
13
2 = f4 f5 = 8 - 6 = 2
C = 50
4
(1080,1130]
8
21
Sustituyendo los datos:
(1130, 1180]
27
1
3
Moda LI
C 1080
50 1.110,0
2 3
2 1
Este valor de $ 1.110,0 se interpreta como el ingreso familiar que con ms
frecuencia se da
Una
de las caracterstica ms importante que describe
un conjunto de datos, es la dispersin

La
dispersin
es
la
cantidad
de
variacin,
diseminacin en los datos. Determina si los valores estn

relativamente cercanos entre s, o no
Tiene
como propsito ofrecer informacin adicional que
permita
juzgar
tendencia central
la
confiabilidad
de
la
medida
de
Es la medida de dispersin ms fcil de

calcular
Rango Valor maximo - Valor minimo
No estn usada ya que slo considera los

valores extremos de la serie de datos
Indica qu tan dispersos se

los datos, en promedio, de la
poblacin
Para representar la varianza
y la varianza muestral se
siguientes dos smbolos:
encuentran
media de la
poblacional
utilizan los
2 - donde es la letra griega (sigma ) al

cuadrado que determinar la varianza de una
poblacin
s2 determina la varianza de la muestra
analizada
La frmula para calcular la varianza de una

poblacin est dada por la expresin:
2
(
x
)
i
i 1
N 1
1
N 1
2
x
i 1
x
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin.
2 = La varianza de la poblacin
Para calcular la varianza muestral para datos

no agrupados se utiliza la misma frmula
reemplazando las variables 2, y N por s2,x y
n, respectivamente, esto es:
s
2
2
(
x
x
)
i
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2, 3,...,n
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos No Agrupados
Para calcular la varianza muestral para

datos agrupados se utiliza la frmula:
k
s
2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
i 1
f M
i 1
donde:
xi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
s2 - La varianza de la muestra
Datos Agrupados
En la varianza, los resultados se expresan en

unidades originales al cuadrado, por lo que
se requiere de una medida de desviacin que
sea til en unidades originales que no estn
elevadas
Esta medida es llamada desviacin estndar
y es la raz cuadrada de la varianza
Para representar la desviacin estndar
poblacional y la desviacin estndar muestral
se utilizan los siguientes dos smbolos:
- donde sigma es la letra griega que

determinar la desviacin estndar de una
poblacin
s -determina la desviacin estndar de la
muestra analizada
La frmula para calcular la desviacin estndar de

una poblacin est dada por la expresin:
N
(x )
i 1
N 1
N 1
2
x
i
i 1
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin
= La desviacin estndar de la poblacin
Para Desviacin estndar muestral de datos

individuales se utiliza la misma frmula
reemplazando las variables y N por s, x y n,
respectivamente, esto es:
n
(x x)
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
xi - son las observaciones que componen la muestra, i = 1, 2,
3,...,n
s - la desviacin estndar de la muestra
Datos No Agrupados
Para datos agrupados se utiliza la frmula:

k
f (M
i 1
x)
n 1
1
n 1
i 1
f i M i2
f M
i 1
donde:
Mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
s - la desviacin estndar de la muestra
Datos Agrupados
Datos No Agrupados
Ingresos mensuales en dlares

1000
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
Datos No Agrupados
Xi
Xi2
Xi
Xi2
935
874225
1100
1210000
990
980100
1105
1221025
1000
1000000
1110
1232100
1000
1000000
1110
1232100
1010
1020100
1120
1254400
1030
1060900
1130
1276900
1030
1060900
1150
1322500
1030
1060900
1150
1322500
1050
1102500
1150
1322500
1050
1102500
1160
1345600
1060
1123600
1170
1368900
1070
1144900
1180
1392400
1080
1166400
1200
1440000
1090
1188100
1210
1464100
1100
1210000
1230
1512900
Total
32800
36013050
Datos No Agrupados
Varianza
n
s2
(x
i 1
x)
n 1
n 1
2
x
i
i 1
x
i 1
(
32800
)
1

36013050
29
30
(32800) 2
1
1
36013050
36013050 35861333.3 5231.6092
29
30
29
Desviacin estndar
n
(x
i 1
x)
n 1
1
n 1
2
x
i
i 1
s s 2 5231.6092 72.33
x
i 1
Este ltimo clculo significa que existe una

dispersin de $ 72.33 con respecto a la media
Esta unidad de medida es congruente con la

obtenida al calcular la media aritmtica, por
lo tanto, se pueden hacer inferencias con
respecto a la poblacin objeto de estudio a
travs de los intervalos de confianza
Consideremos los valores expuestos en el

ejemplo anterior y definamos las clases
Datos Agrupados
INT.
DE CLASE
MARCA
DE
CLASE
Mi
FREC.
ABS.
fi
X i2
fMi
fiMi2
(930 - 980]
955
912025
955
912025
(980 1030]
1005
1010025
7035
7070175
(1030 1080]
1055
1113025
5275
5565125
(1080 1130]
1105
1221025
8840
9768200
(1130 1180]
1155
1334025
6930
8004150
(1180 1230]
1205
1452025
3615
4356075
32650
35675750
30=n
29= n-1
Total
Datos Agrupados
Varianza
k
s2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
f M
i 1
1
(32650)

35675750
29
30
i 1
1
35675750 35534083.3 4885.057
29
Desviacin estndar
k
f (M
i 1
x)
n 1
1
n 1
fM
i 1
4885.057 69.89
2
i
f M
i 1
Este ltimo clculo significa que existe una

dispersin de $ 69.89 con respecto a la
media
Esta unidad de medida es congruente con

la obtenida al calcular la media aritmtica,
por lo tanto, se pueden hacer inferencias
con respecto a la poblacin objeto de
estudio a travs de los
intervalos de
confianza
Es la dispersin relativa existente entre la

desviacin estndar y la media aritmtica
de los datos
Este coeficiente est dado como el
cociente
resultante
de
dividir
la
desviacin estndar entre la media:
S
C.V .
X
El coeficiente de variacin se puede

expresar como porcentaje
Esta medida de variabilidad expresa la

desviacin
estndar
por
unidad
experimental como una medida general
del experimento.
De esta forma se puede comparar entre

dos o ms coeficientes de variacin, y
observar cul muestra tiene mayor
variabilidad.
Se puede obtener la estimacin de la

desviacin estndar conociendo nicamente
el rango (amplitud) de los datos, ya que
Rango = 4 S aprox
Donde
Rango = Xmax Xmin
S aprox es la desviacin estndar
Por tanto
Saprox = Rango/4.
Ejemplo: Encontrar los intervalos para el conjunto de datos agrupados

del ingreso de familias, aproximando la desviacin estndar:
Saprox = Rango/4 = (1230-935)/4 = 295/4 = 73.75
% DE DATOS
INTERVALOS
68
1088.3373.75
(1014.58, 1162.08)
95
1088.332(73.75)
(940.83, 1235.83)
99 o 100
1088.333(73.75)
(867.08, 1309.58)
AJUSTE DE
CURVAS
Introduccin
Existen dos mtodos generales para el ajuste de
curvas, se distinguen entre si al considerar la
cantidad de error asociado con los datos :
Regresin por mnimos cuadrados- los datos presentan
un grado de error significativo
Interpolacin los datos son precisos
Introduccin
En la investigacin las variables que estn
asociadas entre si pueden ser relacionadas
matemticamente una en funcin de la otra
Las variables pueden tener una relacin clara o
absurda
Nota: estadsticamente interesa analizar una relacin
existente o lgica entre variables
Objetivo: proporcionar los procedimientos y las

tcnicas para expresar y medir la relacin entre
variables
Nubes de Puntos
Sea un conjunto de pares de valores de las variables X e Y. Si

los
representamos
en
un
diagrama
de
dispersin
obtendremos una nube de puntos que nos dar una idea
grfica de la posible correlacin entre ambas variables.
No hay relacin
Relacin positiva
Relacin negativa
Algunos tipos de
relaciones
Modelo Lineal
relacin lineal positiva
relacin lineal negativa

Potencial
Logartmica
Otros tipos
Potencial
Potencial
inversa
Exponencial
positiva
Exponencial
negativa
Otros tipos
Otros tipos
Relaciones entre variables

El aleatorias
trmino regresin fue introducido por Galton
en
su libro Natural inheritance (1889) refirindose a
la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por
sus descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos
fsicos de los descendientes (una variable) a partir de
los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de
1000 registros de grupos familiares observando una
relacin del tipo:
Altura del hijo = 85cm + 0,5 altura del padre
(aprox.)
Conclusin: los padres muy altos tienen tendencia a
tener hijos que heredan parte de esta altura,
aunque tienen tendencia a acercarse (regresar) a la
media. Lo mismo puede decirse de los padres muy
bajos.
Hoy en da el sentido de regresin es el de

prediccin de una medida basndonos en el
conocimiento de otra.
Francis Galton
Estudio conjunto de dos variables

aleatorias
A la derecha tenemos una posible manera de

recoger los datos obtenido observando dos
variables aleatorias en varios individuos de
una muestra.
En cada fila tenemos los datos de un individuo

Cada columna representa los valores que toma
una variable aleatoria sobre los mismos.
Las individuos no se muestran en ningn orden
particular.
Dichas
observaciones
pueden
ser
representadas
en
un
diagrama
de
dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas
son los valores de las variables.
Nuestro objetivo ser intentar reconocer a
partir del mismo si hay relacin entre las
variables, de qu tipo, y si es posible predecir
el valor de una de ellas en funcin de la otra.
Altura
en cm.
Peso en
Kg.
162
61
154
60
180
78
158
62
171
66
169
60
166
54
176
84
163
68
...
...
Diagramas de dispersin o nube de

puntos
Tenemos las alturas y los pesos de 30 individuos representados en un

diagrama de dispersin. Cada punto es un valor particular de la variable
aleatoria bidimensional (X, Y).
Pesa 50 kg.
Mide 161 cm.
Mide 187 cm.
Pesa 76 kg.
Relacin entre variables

Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
ue
q
ce
e
r
Pa ra
altu
s
e
p
el
nta
e
um
a
o
la
n
co
Prediccin de una variable en funcin

de otra
Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea,
el peso aumenta en una unidad por cada unidad de altura.
10 kg.
10 cm.
Cmo reconocer relacin directa e

inversa
330
280
Incorrelacin
230
180
130
80
30
140
150
160
170
180
190
200
Para valores de X por encima de la media

tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelacin.
Para los valores de X mayores

que la media le corresponden
valores de Y mayores tambin.
Para los valores de X menores
que la media le corresponden
valores de Y menores tambin.
Esto se llama relacin directa o
creciente entre X e Y.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
Cmo reconocer buena o mala

relacin
Dado un valor de X no podemos decir

gran cosa sobre Y. Mala relacin.
Independencia.
Conocido X sabemos que Y se mueve

por una horquilla estrecha. Buena
relacin.
Lo de horquilla estrecha hay que
entenderlo con respecto a la dispersin
que tiene la variable Y por si sola, cuando
no se considera X.
Relaciones deterministas:
en este tipo de relacin, las variables estn
relacionadas a travs de una frmula
matemtica exacta, y cualquier variacin en
las observaciones se atribuye al error
experimental.
Ejemplo: Ley del inters compuesto.
Saldo Saldo Inicial * (1 Interes ) meses
Las relaciones Semideterminsticas:

en otras situaciones, hay una expresin
matemtica que relaciona las variables, pero
no todos sus parmetros son conocidos, y es
necesario
estimarlos.
Ejemplo:
la
concentracin de una sustancia despus de un
tiempo t depende de una reaccin especfica
tasa
constante
k,
obtenidos
experimentalmente:
c c0 .e
k .t
Relaciones empricas:
en muchas otras situaciones, la relacin entre las
variables es desconocida. Entonces la demanda
expresa una relacin posible entre ellos mediante la
determinacin de una ecuacin que mejor se adapte
a los puntos experimentales. Por ejemplo: la
relacin entre la productividad de una granja y la
cantidad de fertilizante utilizado en la agricultura.
Hay varios factores que pueden contribuir a la
productividad, pero tienen un inters en slo uno de
ellos.
Regresin y
correlacion
Regresin
Definicin
Mtodo estadstico que investiga y define la relacin
funcional entre las variables.
Funcin o lnea de regresin

Y= f(X)
Tipos de regresin
Regresin simple
Regresin lineal
Regresin no lineal
Regresin mltiple
Regresin lineal
Regresin no lineal
Ajuste de una lnea de regresin

El problema del ajuste comprende tres etapas:
Diagrama de nubes
Elegir el tipo de lnea
Determinar el valor numrico de los coeficientes
Mtodo de los cuadrados inferiores
Mtodo de los medios
Regresin lineal simple

El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias:
regresin mltiple).
Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
Regresin lineal simple

El ejemplo del estudio de la altura en grupos familiares de
Pearson es del tipo que desarrollaremos en el resto del tema.
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 +
0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Si el padre mide 120cm cunto mide el hijo?

Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Es decir, nos interesaremos por modelos de regresin lineal

simple.
Modelo de regresin lineal simple
En el modelo de regresin lineal simple, dado dos

variables
Y (dependiente)
X (independiente, explicativa)
buscamos encontrar una funcin de X muy simple (lineal)

que nos permita aproximar Y mediante
= b 0 + b 1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)
Y e rara vez coincidirn por muy bueno que sea el

modelo de regresin. A la cantidad
e = Y- se le denomina residuo o error residual.
En el ejemplo de Pearson y las alturas, l encontr:

= b 0 + b1X
b0 = 85 cm (No interpretar como altura de un hijo cuyo
padre mide 0 cm Extrapolacin salvaje!)
b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del
padre.)
b1=0,5
b0=85 cm
La relacin entre las variables no es exacta. Es natural

preguntarse entonces:
Cul es la mejor recta que sirve para predecir los valores
de Y en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).
b1=0,5
b0=85 cm
El modelo lineal de regresin se construye utilizando la tcnica

de
estimacin de mnimos cuadrados:
Buscar b0, b1 de tal manera que se minimice la

cantidad
i ei2 = i (Yi - )2
Se comprueba que para lograr dicho resultado basta con

elegir:
S
b1 r
Sy
Sx
b0 y b1 x
xy
SxS y
y y b1 ( x x )
La recta de regresin estimada ser:
Se obtiene adems unas ventajas de regalo:
El error residual medio es nulo.

La varianza del error residual es mnima para dicha
estimacin.
Que el error medio de las

predicciones sea nulo no
quiere decir que las
predicciones sean buenas.
Hay que encontrar un
medio de expresar la
bondad del ajuste (bondad
de la prediccin).
No importa. Con los dos
ltimos clientes me
equivoqu en +10 y
+20. En trmino medio
el error es cero.
Cometi un
error de - 30 en
su ltima
prediccin
Cmo medir la bondad de una

regresin?
Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.
Interpretacin de la variabilidad en
Y
En primer lugar olvidemos que
existe la variable X. Veamos cul
es la variabilidad en el eje Y.
La franja sombreada indica la zona

donde varan los valores de Y.
Proyeccin sobre el
eje Y = olvidar X.
Interpretacin del residuo

Fijmonos ahora en los errores de
prediccin (lneas verticales). Los
proyectamos sobre el eje Y.
Se observa que los errores de
prediccin, residuos, estn menos
dispersos que la variable Y original.
Cuanto menos dispersos sean los
residuos, mejor ser la bondad del
ajuste.
Bondad de un ajuste
Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.
Eso hace que definamos como medida

de bondad de un ajuste de regresin,
o coeficiente de determinacin a:
S e2 SY2
S
R 1
S
2
2
e
2
y
La covarianza entre dos variables, Sxy, nos

indica si la posible relacin entre dos
variables es directa o inversa:
Directa: Sxy > 0
Inversa: Sxy < 0
Incorreladas: Sxy = 0
El signo de la covarianza nos dice si el

aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de
relacin entre las variables.
Coeficiente de correlacin lineal de

Pearson
El coeficiente de correlacin lineal de
Pearson de dos variables, r, nos indica si los
puntos tienen una tendencia a disponerse
alineadamente
(excluyendo
rectas
horizontales y verticales).
Tiene el mismo signo que Sxy . Por tanto de

su signo obtenemos el que la posible relacin
sea directa o inversa.
r es til para determinar si hay relacin
lineal entre dos variables, pero no servir
para otro tipo de relaciones (cuadrtica,
logartmica,...)
S xy
SxS y
Ejemplo: dado el conjunto de puntos abajo,

traza su diagrama de dispersin.
x
y
0,3
1,8
2,7
1,9
4,5
3,1
5,9
3,9
7,8
3,3
Resolucin: Marcar en un
localizacin de puntos x e y:
mapa
la
Al parecer hay aproximadamente la relacin

lineal entre las variables.
Para apreciar los parmetros b0 y b1,

debemos recurrir al mtodo de los mnimos
cuadrados.
Esta tcnica calcula los
parmetros para que la distancia total entre
la ecuacin ajustada y experimento puntos
sea el menor posible.
Las ecuaciones para la determinacin de

parmetros b0 y b1 son:
y b0 b1.x
b1
x . y n. ( x . y )
x n. x
y b . x
i
2
2
i
b0
Ejemplo: los puntos de datos del ejemplo

anterior, calcular el mejor ajuste: recta
i
1
2
3
4
5
x
0,3
2,7
4,5
5,9
7,8
21,2
y
1,8
1,9
3,1
3,9
3,3
14,0
x2
0,09
7,29
20,25
34,81
60,84
123,2
8
x.y
y2
0,54 3,24
5,13 3,61
13,95 9,61
23,01 15,21
25,74 10,89
68,37 42,56
Clculo de los parmetros:

xi . yi n. ( xi . yi )
b1
2
xi n. xi2
21,2.14,0 5.68,37
b1
0,2698
2
(21,2) 5.123,28
b0
b1. xi
n
14,0 0,2698.21,2
b0
1,6560
5
Este derecho estaran representado en el

grfico de dispersin como:
y=1,6560+0,2698.x
F(x)
Regresin lineal:
P1 ( x) a0 a1 x
x
n
Q Pm ( xi ) yi 0
i 0
n
Q
2 yi (a0 a1 xi ) 0
a0
i 0
n
Q
2 xi yi (a0 a1 xi 0
a1
i 0
Q yi ( a0 a1 xi ) 0
i 0
n 1
xi
x
x
n 1
a0

xi
a1
i
2
a0
a1
x
x
y
x y
i
i
2
y
x y
La calidad del ajuste lineal se mide por el

coeficiente de determinacin y de la varianza
residual, calculada como sigue:
y y
1
1
y n . y
y y
ci
2
i
n2
ci
Ejemplo: Determinar la calidad del modelo

para el ejemplo anterior.
i
yc
y-yc
(yyc)2
0,3
1,8 1,7369 0,0631 0,004

0
2,7
1,9 2,3845
4,5
3,1 2,8701 0,2299 0,052

8
5,9
3,9 3,2478 0,6522 0,425

4
7,8
3,3 3,7604
- 0,234
0,4845
7
- 0,212
0,4604
0
Resolver las ecuaciones:

r2 1
y
i ci
2
1
y n . yi
0,9289
2
r 1
0,7235
1
2
42,56 .14,0
5
2
yi yci
2

n2
0,9289
2

0,3096
52
2
i
Correlacin
Definicin
Anlisis del grado de asociacin o afinidad entre las
variables expresada a travs de la funcin o modelo
de regresin
r
donde
S y2*
S
2
y
- Varianza
S 2 explicada (terica )
2 total (experimental)
- Varianza
y*
Sy
Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente negativa: es decreciente.
No hay
correlacin
r 0
Hay correlacin
no lineal
r 0
Correlacin lineal
positiva
r 1
Correlacin lineal
negativa
r 1
Entrenando el ojo: correlaciones

positivas.
Entrenando el ojo: casi perfectas y

positivas
Entrenando el ojo: correlaciones

negativas
Si r = 0 eso quiere decir que

las variables son independientes?
En la prctica, casi siempre

s, pero no tiene por qu ser
cierto en todos los casos.
Lo contrario si es cierto:
Independencia implica
incorrelacin.
Me ha salido r = 1,2 La relacin es superlineal ?
Superqu? Eso es un error de clculo. Siempre debe tomar

un valor entre -1 y +1.
A partir de qu valores se considera que hay buena relacin

lineal?
Es difcil dar un valor concreto (mirad los grficos

anteriores). Para este curso digamos que si |r| > 0,7 hay
buena relacin lineal y que si |r| > 0,4 hay cierta relacin
(por decir algo... la cosa es un poco ms complicada:
observaciones anmalas,...)
EJEMPLOS DE REGRESIN
LINEAL SIMPLE
Ejemplo 1. Regresin
Lineal
x
y
8
2
3
4
5
y = x+ 2
6
5
4
3
0
1
2
3
2
1
n xi yi xi yi
n xi2 xi
y b x
a
i
0
-4
-3
-2
-1 -1 0
-2
X
Bondad de los ajustes

Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar
mediante cualquiera de las dos expresiones siguientes:
x y
i
2
i
x y
y
n
2
i
n x
n xi yi xi yi
2
i
xi n yi2 yi
2
Coeficiente de Determinacin,
R2
Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el

Coeficiente de Determinacin, R2, que es el Coeficiente de Correlacin elevado
al cuadrado.
Se determina mediante cualquiera de las dos expresiones siguientes:
R2
x y
i
xi2 x 2
x y
yi2
2
y
n
n x y x y
n x x n y y
2
R2
2
i
2
i
Su valor oscila entre 0 y +1.

Cuando hay una buena correlacin lineal, R 2 es muy cercano a +1.
Normalmente se acepta para valores de R 2 >= 099.
Cuando no hay correlacin o bien sta no es lineal, R 2 es bajo e incluso
cercano a cero
Ejemplo 2: Relacin Profesores/Alumnos

en las Universidades
Universidades
Alumnos Profesores
Aragn
Asturias
Baleares
Cantabria
Castilla la Mancha
Castilla Len
Extremadura
Madrid
Murcia
1.
Trazar la grfica de la distribucin
2.
Calcular parmetros de la distribucin
3.
Cul es la Universidad con mejor proporcin

profesor/alumno?
R2=0.998
b=0.0515
a=-17
36154
34441
9519
11962
15123
74272
17678
214402
26407
2043
1442
385
737
787
4030
865
10971
1248
4.
Qu Universidad tiene la peor ratio y cuntos

profesores necesitara para equilibrarla?
5.
Calcular los valores tericos de profesores de la

Universidad de Granada si sta tena 55123
alumnos en el curso 1994-95.
6.
Calcular los valores de la FBD si sta tena 1100

alumnos
Ejemplo 2: Grfica de distribucin

Relacin Profesores/Alumnos en
Universidades
14000
3000
12000
2500
Profesores
Profesores
10000
8000
6000
4000
2000
1500
1000
2000
500
0
0
100000
200000
Alumnos
300000
10000
20000
30000
Alumnos
40000
50000
Interpretacin fsica de las constantes de la regresin:

Marco de estudio: Anlisis de costos, por ejemplo la variable independiente,
corresponde a la cantidad de productos y la variable dependiente
corresponde a los costos asociados:
Ejemplo:
Se ha adquirido un aditivo para la electro-refinacin de la forma dada en los
siguientes datos:
Costo
Cantidad 5
11
6
12
8
14
2
20
a0 1.363
f( x)
Y
10
a1 1.624
0
5
x X
10
5
8
13
7
14
9
15
$ 1.363
es el costo fijo
$ 1.624
es el costo marginal
EXCEL
Solucin del ejemplo anterior:
Datos:
Costo
Cantidad 5
11
6
12
8
Paso 1.- Ingresar datos al Excel
14
2
5
8
13
7
14
9
15
Picar par hacer grafico
Seleccin del tipo de datos a graficar regresin
Modelos No Lineales
Antes de proceder a la regresin, hay que transformar la ecuacin no lineal,

y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x,
a y b respectivamente.
Modelo
Potencial
Exponencial
y ax b
Ecuacin
Ecuacin
Linealizada
Logartmico
y aebx
log y log a b log x
ln y ln a bx
Log y
y a b log x
----------
Ln y
Grfica
Log x
Log x
Log y
Ln y
Log x
Log x
Log a
Ln a
a
b
eA
10 A
B
A
B
(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)
Ejemplos de transformaciones:
y=a.xb ln(y)=ln(a)+b.ln(x)
y=a.bx ln(y)=ln(a)+ln(b).x
y=a.eb.x ln(y)=ln(a)+b.x
y=e(a+b.x1+c.x2) ln(y)=a+b.x1+c.x2
y a.x1b .x2c ln( y ) ln(a ) b. ln( x1 ) c. ln( x2 )
1
1
y
a b.x1 c.x2
a b.x1 c.x2
y
y
1
1 e a b. x1 c. x2
1
ln 1 a b.x1 c.x2
y
Ajuste
Polinomial
Aproximacin polinomial por mnimos

cuadrados
El concepto
Forma de aproximar una funcin g(x) a diferentes f(x).
Nos proporciona informacin acerca de las relaciones existentes entre x e y
Causa una suavizacin de la curva formada por un conjunto de datos y
elimina en algn grado los errores de observador, de medicin, de registro,
de transmisin y de conversin
Se tiene una secuencia de datos dados por n puntos de la forma (xi,yi)
Tambin se tiene un polinomio de grado m, con m<n de la forma
m
Pm ( x) a0 x a1 x a2 x am x ai x i
0
i 0
Como los puntos (xi,yi), son datos se evala los cuadrados de los residuos
para obtener los coeficientes del polinomio P(x) de la forma que:
n
Q ri 2 Pm ( xi ) yi
i 0
Sea mnima
i 0
Sea m=2 entonces

n
P2 ( x) a0 a1 x a2 x 2
2
Q Pm ( xi ) yi 0
Q yi ( a0 a1 xi a2 xi2 ) 0
i 0
i 0
n
Q
2 yi (a0 a1 xi a2 x i2 ) 0
a0
i 0
n
Q
2 xi yi (a0 a1 xi a2 x i2 ) 0
a1
i 0
n
Q
2 xi2 yi (a0 a1 xi a2 x i2 ) 0
a2
i 0
y
n
i 0
(a0 a1 xi a2 x i2 ) yi a 0 a1 xi a 2 x i2 0
2
2
3
x
y
(
a
a
x
a
x
)
x
y
a
x
a
x
a
x
i
i i 0 1i 2
i i 0 i 1 i 2 i 0
i 0
x y
n
i 0
(a0 a1 xi a2 x i2 ) x i2 yi a 0 x i2 a1 x 3i a 2 x i4 0
2
y
a
x
a
x
i 0 1i 2i
2
3
x
y
a
x
a
x
a
x
i i 0i 1i 2i
x
n 1
xi
x
i
2
i
yi a 0 x i2 a1 x 3i a 2 x i4
x x
x x
x x
i
2
3
i
a0

3
a
1
i
4

a
2

i
2
y
x y
x y
i
i i
2
i
i
CASO GENERAL
n 1
xi
xi
2
x
i
x x
m
i
3
i
2
x
i
3
x
i
m
x
i a0
m 1
x
i a1
4
m2
x i x i a2

2m
.. x i am
C a b
1
a C b
y
x y
x y
i i
2
i
i
m
x i yi
Para este caso particular, el anterior sistema

de ecuaciones se simplifica a:
x
x
i
2
g
x
i
xi
2
x
i
3
x
i
g 1
x
i
2
x
i
3
x
i
4
x
i
g 2
x
i
g
x
i b0
g 1
x
i b1
x ig 2 . b2

x i2. g bg
y
x .y
x . y
i
i
2

g
x
i . yi
Ejemplo:
Se tiene la siguiente secuencia de datos:
X
Y
0.0
1.7
1.0
0.3
2.0
5.6
3.0
7.8
4.0
10.
5.0
11.
15
10
Y
5
4
X
6.0
12.
7.0
14.
Se prueba un polinomio de 2
P2 ( x) a0 a1 x a2 x 2
m=2
x x
x x
x x
n 1
xi
x
i
2
a0

3
a

1
i
4
a2
i
2
y
x y
x y
i
i i
2
i
i
n 1 9
x
y
28
61.4
28 140
9
28 140 784
140 784 4676
x
x y
140
292.9
x 784
x
x y 1597
P( x) 0.115 2.879 x 0.145 x 2
4676
a0 61.4

292
.
9
1
a 1597
2
a0 0.115

2
.
879
1
a 0.145
2
15
10
P2( x)
Y
4
x X
n 1
Se prueba un polinomio de 3
P3 ( x) a0 a1 x a2 x a3 x
2
x
x
m=3
3
i
x
x
x
x
i
2
3
i
4
i
x
x
x
x
2
i
3
i
4
i
x
x
x
x
a0
4

a
i
1
5

a
2

6
a3
3
i
y
x y
x y
x y
i
i i
2
i
i
3
i
n 1 9
x
y
28
61.4
x 140
x 784
x y 292.9
x
2
a2
a4
4
i
a0 61.4
a1 292.9

a2 1597
a3 9321.7
467
yi 1597
28 140
784
9
28 140 784

4676

140 784 4676
29008
784 4676 29008 184820
a0
a
1
3
i
5
i
29008
6
i
184820
yi 9321.7
15
10
P2( x)
P3( x) 5
0.446
1.519
0
.
408
0.054
P( x) 0.446 1.519 x 0.408 x 0.054 x

2
4
x x X
Cual de las soluciones es mejor?

La forma intuitiva para determinar cual de las curvas es la que mejor
representa el comportamiento de los datos, nos indica que la suma de las
distancias al cuadrado sea lo mas prxima a cero.
n
i 0
i 0
Q ri 2 Pm ( xi ) yi
n
R2
P (x ) y
m
i 0
y
i 0
Coeficiente de correlacin
R cuadrtica
R cbica
=0.9426
=0.9492
Ejemplo: dada la siguiente tabla, encontrar el

mejor polinomio de grado 3 que se ajusta a
los datos:
i
xi
0
1
0,0
1
0
2
0,1
0
0
3
0,2
0
0
4
0,3
0
0
5
0,4
0
0
6
0,5
0
0
7
0,6
0
0
8
0,7
0
yi
xi2
0,10
00 0,0001
0,31
62
0,01
0,44
72
0,04
0,54
77
0,09
0,63
25
0,16
0,70
71
0,25
0,77
46
0,36
0,83
67
0,49
xi3
xi4
xi5
xi6
xiyi
xi2yi
xi3yi
1E-06 1E-08 1E-10 1E-12 0,001 1E-05 1E-07

0,001 0,0001 1E-05 1E-06 0,0316 0,0032 0,0003
0,008 0,0016 0,0003
6,4E05 0,0894 0,0179 0,0036
0,0007
0,027 0,0081 0,0024
3 0,1643 0,0493 0,0148
0,064 0,0256 0,0102 0,0041 0,253 0,1012 0,0405
0,0156
0,125 0,0625 0,0313
3 0,3536 0,1768 0,0884
0,0466
0,216 0,1296 0,0778
6 0,4648 0,2789 0,1673
0,1176
0,343 0,2401 0,1681
5 0,5857
0,41 0,287
La tabla con las sumatorias es:

xi
yi
xi2
xi3
xi4
xi5
xi6
xiyi
xi2yi
xi3yi
7,205 3,850
2,533 2,208 1,978 4,512
2,751
3,025
3,378
1
1
3
3
41
7
4
5,51
Colocacin de los valores de la matriz:
11
3,025
2,5333
5,51
5,51
3,8501
3,8501
3,025
3,025
2,5333
2,5333 2,2083 1,97841
3,8501
3,025
2,2083
b0 7,2051
b 4,5127
. 1
b2 3,378

b3 2,7514
Para resolver este sistema de ecuaciones a travs de

cualquier mtodo ya ha visto (Gauss):
Solucin del sistema:

b0=0,1011
b1=2,0685
b2=-2,1782
b3=1,0186
Y el polinomio de ajuste ser:
y=0,1011+2,0685.x-2,1782.x2+1,0186.x3

Capitulo 4

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Capitulo 4

Încărcat de

Drepturi de autor:

Formate disponibile

Capitulo IV

Es la medida ms comn de localizacin y

Mi= punto medio de la clase

Ingresos mensuales en dlares

955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)

La mediana m de un conjunto de datos x1,x2,,xn, es el

Identificar si n es impar o par

Encontrar la mediana del siguiente conjunto de datos que

En el caso de que los datos estn agrupados, se obtiene primero la

Paso 1.- Obtener la Clase de la Mediana, es decir, el primer intervalo

n - es el nmero total de datos del conjunto

Paso 2.- Calcular la mediana con la

Paso 1.- Obtener la Clase de la Mediana

Paso 2.- Calcular la mediana:

Es la observacin que se presenta con mayor

Procedimiento de clculo (datos no agrupados):

En este conjunto hay dos valores que aparecen ms veces :

El clculo de la Moda se obtiene con la siguiente expresin:

LI = Lmite inferior del intervalo de clase, la clase modal.

2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. f i

C = Tamao del intervalo de clase.

Sustituyendo los datos:

de las caracterstica ms importante que describe

un conjunto de datos, es la dispersin

diseminacin en los datos. Determina si los valores estn

como propsito ofrecer informacin adicional que

Es la medida de dispersin ms fcil de

No estn usada ya que slo considera los

Indica qu tan dispersos se

2 - donde es la letra griega (sigma ) al

La frmula para calcular la varianza de una

Para calcular la varianza muestral para datos

Para calcular la varianza muestral para

En la varianza, los resultados se expresan en

- donde sigma es la letra griega que

La frmula para calcular la desviacin estndar de

Para Desviacin estndar muestral de datos

Para datos agrupados se utiliza la frmula:

Ingresos mensuales en dlares

36013050 35861333.3 5231.6092

Este ltimo clculo significa que existe una

Esta unidad de medida es congruente con la

Consideremos los valores expuestos en el

Este ltimo clculo significa que existe una

Esta unidad de medida es congruente con

Es la dispersin relativa existente entre la

El coeficiente de variacin se puede

Esta medida de variabilidad expresa la

De esta forma se puede comparar entre

Se puede obtener la estimacin de la

Ejemplo: Encontrar los intervalos para el conjunto de datos agrupados

Objetivo: proporcionar los procedimientos y las

Sea un conjunto de pares de valores de las variables X e Y. Si

relacin lineal positiva

relacin lineal negativa

Relaciones entre variables

Hoy en da el sentido de regresin es el de

Estudio conjunto de dos variables

A la derecha tenemos una posible manera de

En cada fila tenemos los datos de un individuo

Diagramas de dispersin o nube de

Tenemos las alturas y los pesos de 30 individuos representados en un

Mide 187 cm.