Sunteți pe pagina 1din 110

Capitulo IV

Es la medida ms comn de localizacin y


representa el centro de un grupo de datos
El valor obtenido es ms preciso que la precisin
asociada con cada observacin por lo cual
siempre se representa con un dgito ms que los
utilizados en la medicin

Datos no agrupados
X

X
i 1

X
i 1

Datos agrupados
n

M
i 1

fi

Frecuencia

Mi= punto medio de la clase


fi = frecuencia de la clase i
n= fi=tamao de la muestra

Media

Ingresos mensuales en dlares


1000

1110

1010

1070

1030

1000

1150

990

1090

1080

1150

1200

1050

1030

1120

1050

1030

1150

1230

1170

1180

1110

1160

1100

1100

1060

1130

1105

935

1210

30

X
i 1

1000 1150 1050 1230 1100 1110 990 1030 1170L 1210
30

30
32800
X
1.093,33
30

INTERVALO
DE CLASE

MARCA
DE CLASE

FRECUENCIA
ABSOLUTA
fi

FRECUENCIA
ABSOLUTA
ACUMULADA
Fi

FRECUENCIA
RELATIVA
Fi /n

FRECUENCIA
RELATIVA
ACUMULADA
FI /n

(930-980]

955

1/30

1/30

(980-1030]

1005

7/30

8/30

(1030-1080]

1055

13

5/30

13/30

(1080, 1130]

1105

21

8/30

21/30

(1130-1180]

1155

27

6/30

27/30

(1180-1230]

1205

30

3/30

30/30=1

30
6

30/30=1

955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)


n
30
30
955 7035 5275 8840 6930 3615 32650
X

1.088,333
30
30
X

i 1

i i

i 1

i i

La mediana m de un conjunto de datos x1,x2,,xn, es el


valor xi que se encuentra en el punto medio o centro,
cuando se ordenan los valores de menor a mayor.
La interpretacin geomtrica de la mediana, es que es el
valor que divide un histograma en dos partes iguales.

Procedimiento de clculo:

Datos no agrupados
Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,,n

Identificar si n es impar o par

x%

x([ n 1]) / 2)

x( n / 2) x( n / 2 1)
2

Encontrar la mediana del siguiente conjunto de datos que


corresponden al tiempo en segundos, requerido por una cajera
para marcar la compra de artculos en un supermercado que
utiliza verificadores automticos
{ 10, 15, 62, 53, 11, 38, 75, 112, 40, 22, 57 }.
Ordenamos el conjunto de datos:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
n = 11, impar. Entonces la mediana m es:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Datos
1 2 3 4
5 6 7 8 9 10 11
Indice

m x n 1
2

n 1 11 1 12

6
2
2
2
x n 1 x6 40
2

m x6 40

En el caso de que los datos estn agrupados, se obtiene primero la


clase de la mediana
La clase de la mediana se define como la primera clase que aparece
en la tabla, para la cual la frecuencia acumulada, Fi, sea igual o mayor
a la mitad de la suma de todas las frecuencias absolutas, esto es:
n

n
2
2
con j 1, 2,..., k ,
k - nmero de intervalos
Fj

i 1

Paso 1.- Obtener la Clase de la Mediana, es decir, el primer intervalo


que cumpla la condicin:

Fj
donde

n
2

n - es el nmero total de datos del conjunto


j - es el nmero del intervalo de clase que cumple la condicin,
j = 1, 2,,k
Fj- es la frecuencia acumulada del intervalo de clase j

Paso 2.- Calcular la mediana con la

siguiente ecuacin:
n

2 FL
m Lm
C
fm

Donde:
Lm = Lmite inferior del intervalo que corresponde a la clase mediana.
n = Total de datos
FL = Suma de frecuencias de todas las clases por debajo de la clase
mediana, (frecuencia acumulada absoluta de las clases anteriores a
la clase mediana)
fm = Frecuencia absoluta en la clase mediana.
C = Tamao del intervalo de clase. (amplitud o distancia del
intervalo)

INTERVALO
DE CLASE

MARCA
DE CLASE

FRECUENCIA
ABSOLUTA
fi

FRECUENCIA
ABSOLUTA
ACUMULADA
Fi

FRECUENCIA
RELATIVA
Fi /n

FRECUENCIA
RELATIVA
ACUMULADA
FI /n

(930-980]

955

1/30

1/30

(980-1030]

1005

7/30

8/30

(1030-1080]

1055

13

5/30

13/30

(1080, 1130]

1105

21

8/30

21/30

(1130-1180]

1155

27

6/30

27/30

(1180-1230]

1205

30

3/30

30/30=1

30

30/30=1

Paso 1.- Obtener la Clase de la Mediana


n = 30 y n/2 = 15,
k = 6 intervalos de clase
En el 4 intervalo se cumple que: F4 = 21 15.
Por tanto el cuarto intervalo se identificar como la clase
mediana, esto es:
(1080, 1130] es el intervalo de clase.
F4 = 21

Paso 2.- Calcular la mediana:

Lm = 1080
Limite inferior de la clase de la mediana
n = 30
Datos u observaciones
n/2 = 15
Datos u observaciones
FL = F3 = 13 Frec.acumul.absoluta inf.
fm = f4 = 8 Frec. Absoluta de la clase de la mediana
C = Lsup Linf = 50
No

Intervalo

fi

Fi

(1030,1080]

13

(1080,1130]

21

F
L
2
m Lm
C
f
m

(15 13)
m 1080
50 1.092,50
8
La interpretacin de este valor, es que la mitad de las familias
entrevistadas ganan menos de 1.092,50 dlares.

Es la observacin que se presenta con mayor


frecuencia en la muestra o poblacin
Si los datos tienen una sola moda son
unimodales, si tienen 2 son bimodales y as
sucesivamente
No son comparables en su totalidad los
resultados obtenidos entre datos individuales y
agrupados

Procedimiento de clculo (datos no agrupados):


Paso 1. Ordenar los datos en forma ascendente
Paso 2. Identificar el o los datos con mayor frecuencia

En el conjunto de datos dados para medir el ingreso promedio anual de las familias que
habitan en un determinado sector, se tiene:
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060, 1070, 1080, 1090, 1100,
1100, 1105, 1110, 1110, 1120, 1130, 1150, 1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }

En este conjunto hay dos valores que aparecen ms veces :


1030 ( 3 veces)

1150 ( 3 veces)

por tanto la moda es = 1030 y 1150, y en este caso se dice que el conjunto de datos es
bimodal
La Moda estar representada por la clase que posee la ms alta frecuencia,
denominndose clase modal.

El clculo de la Moda se obtiene con la siguiente expresin:

Donde:

1
Moda LI
C
2 1

LI = Lmite inferior del intervalo de clase, la clase modal.


1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior, f i
nmero de intervalo de la clase modal

- fi-1, con i

2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. f i


nmero de intervalo de la clase modal

- fi+1, con i

C = Tamao del intervalo de clase.

Datos agrupados
Calcular la moda del ingreso promedio mensual de las
familias que habitan en un determinado sector
Intervalo de clase modal: el 4, (1080 1130] ya que
f4 = 8 (la mayor frecuencia absoluta de la tabla)
LI = 1080 dlares
No.
Intervalo
fi
Fi
1 = f4 f3 = 8 - 5 = 3
3
(1030,1080]
5
13
2 = f4 f5 = 8 - 6 = 2
C = 50
4
(1080,1130]
8
21

Sustituyendo los datos:

(1130, 1180]

27

1
3
Moda LI
C 1080
50 1.110,0
2 3
2 1
Este valor de $ 1.110,0 se interpreta como el ingreso familiar que con ms
frecuencia se da

Una

de las caracterstica ms importante que describe

un conjunto de datos, es la dispersin


La

dispersin

es

la

cantidad

de

variacin,

diseminacin en los datos. Determina si los valores estn


relativamente cercanos entre s, o no
Tiene

como propsito ofrecer informacin adicional que

permita

juzgar

tendencia central

la

confiabilidad

de

la

medida

de

Es la medida de dispersin ms fcil de


calcular
Rango Valor maximo - Valor minimo

No estn usada ya que slo considera los


valores extremos de la serie de datos

Indica qu tan dispersos se


los datos, en promedio, de la
poblacin
Para representar la varianza
y la varianza muestral se
siguientes dos smbolos:

encuentran
media de la
poblacional
utilizan los

2 - donde es la letra griega (sigma ) al


cuadrado que determinar la varianza de una
poblacin
s2 determina la varianza de la muestra
analizada

La frmula para calcular la varianza de una


poblacin est dada por la expresin:

2
(
x

)
i
i 1

N 1

1
N 1

2
x

i 1

x
i 1

donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin.
2 = La varianza de la poblacin

Para calcular la varianza muestral para datos


no agrupados se utiliza la misma frmula
reemplazando las variables 2, y N por s2,x y
n, respectivamente, esto es:

s
2

2
(
x

x
)
i
i 1

n 1

n 1

2
x
i
i 1

i 1

donde:

x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2, 3,...,n
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos No Agrupados

Para calcular la varianza muestral para


datos agrupados se utiliza la frmula:
k

s
2

f (M
i 1

x)

n 1

n 1

2
f
M

i i

i 1

f M
i 1

donde:
x - es la media muestral
xi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos Agrupados

En la varianza, los resultados se expresan en


unidades originales al cuadrado, por lo que
se requiere de una medida de desviacin que
sea til en unidades originales que no estn
elevadas
Esta medida es llamada desviacin estndar
y es la raz cuadrada de la varianza
Para representar la desviacin estndar
poblacional y la desviacin estndar muestral
se utilizan los siguientes dos smbolos:

- donde sigma es la letra griega que


determinar la desviacin estndar de una
poblacin
s -determina la desviacin estndar de la
muestra analizada

La frmula para calcular la desviacin estndar de


una poblacin est dada por la expresin:
N

(x )
i 1

N 1

N 1

2
x
i

i 1

i 1

donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin
= La desviacin estndar de la poblacin

Para Desviacin estndar muestral de datos


individuales se utiliza la misma frmula
reemplazando las variables y N por s, x y n,
respectivamente, esto es:
n

(x x)
i 1

n 1

n 1

2
x
i

i 1

i 1

donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2,
3,...,n
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos No Agrupados

Para datos agrupados se utiliza la frmula:


k

f (M
i 1

x)

n 1

1
n 1

i 1

f i M i2

f M
i 1

donde:
x - es la media muestral
Mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos Agrupados

Datos No Agrupados

Ingresos mensuales en dlares


1000

1110

1010

1070

1030

1000

1150

990

1090

1080

1150

1200

1050

1030

1120

1050

1030

1150

1230

1170

1180

1110

1160

1100

1100

1060

1130

1105

935

1210

Datos No Agrupados
Xi

Xi2

Xi

Xi2

935

874225

1100

1210000

990

980100

1105

1221025

1000

1000000

1110

1232100

1000

1000000

1110

1232100

1010

1020100

1120

1254400

1030

1060900

1130

1276900

1030

1060900

1150

1322500

1030

1060900

1150

1322500

1050

1102500

1150

1322500

1050

1102500

1160

1345600

1060

1123600

1170

1368900

1070

1144900

1180

1392400

1080

1166400

1200

1440000

1090

1188100

1210

1464100

1100

1210000

1230

1512900

Total

32800

36013050

Datos No Agrupados

Varianza
n

s2

(x
i 1

x)

n 1

n 1

2
x

i
i 1

x
i 1

(
32800
)
1

36013050

29
30

(32800) 2
1
1

36013050

36013050 35861333.3 5231.6092

29
30
29

Desviacin estndar
n

(x
i 1

x)

n 1

1
n 1

2
x
i

i 1

s s 2 5231.6092 72.33

x
i 1

Este ltimo clculo significa que existe una


dispersin de $ 72.33 con respecto a la media

Esta unidad de medida es congruente con la


obtenida al calcular la media aritmtica, por
lo tanto, se pueden hacer inferencias con
respecto a la poblacin objeto de estudio a
travs de los intervalos de confianza

Consideremos los valores expuestos en el


ejemplo anterior y definamos las clases

Datos Agrupados

INT.
DE CLASE

MARCA
DE
CLASE
Mi

FREC.
ABS.
fi

X i2

fMi

fiMi2

(930 - 980]

955

912025

955

912025

(980 1030]

1005

1010025

7035

7070175

(1030 1080]

1055

1113025

5275

5565125

(1080 1130]

1105

1221025

8840

9768200

(1130 1180]

1155

1334025

6930

8004150

(1180 1230]

1205

1452025

3615

4356075

32650

35675750

30=n
29= n-1

Total

Datos Agrupados
Varianza
k

s2

f (M
i 1

x)

n 1

n 1

2
f
M
i i

f M

i 1

1
(32650)

35675750

29
30

i 1

1
35675750 35534083.3 4885.057
29

Desviacin estndar
k

f (M
i 1

x)

n 1

1
n 1

fM
i 1

4885.057 69.89

2
i

f M
i 1

Este ltimo clculo significa que existe una


dispersin de $ 69.89 con respecto a la
media

Esta unidad de medida es congruente con


la obtenida al calcular la media aritmtica,
por lo tanto, se pueden hacer inferencias
con respecto a la poblacin objeto de
estudio a travs de los
intervalos de
confianza

Es la dispersin relativa existente entre la


desviacin estndar y la media aritmtica
de los datos
Este coeficiente est dado como el
cociente
resultante
de
dividir
la
desviacin estndar entre la media:

S
C.V .
X

El coeficiente de variacin se puede


expresar como porcentaje

Esta medida de variabilidad expresa la


desviacin
estndar
por
unidad
experimental como una medida general
del experimento.

De esta forma se puede comparar entre


dos o ms coeficientes de variacin, y
observar cul muestra tiene mayor
variabilidad.

Se puede obtener la estimacin de la


desviacin estndar conociendo nicamente
el rango (amplitud) de los datos, ya que
Rango = 4 S aprox
Donde
Rango = Xmax Xmin
S aprox es la desviacin estndar
Por tanto
Saprox = Rango/4.

Ejemplo: Encontrar los intervalos para el conjunto de datos agrupados


del ingreso de familias, aproximando la desviacin estndar:
Saprox = Rango/4 = (1230-935)/4 = 295/4 = 73.75

% DE DATOS

INTERVALOS

68

1088.3373.75

(1014.58, 1162.08)

95

1088.332(73.75)

(940.83, 1235.83)

99 o 100

1088.333(73.75)

(867.08, 1309.58)

AJUSTE DE
CURVAS

Introduccin
Existen dos mtodos generales para el ajuste de
curvas, se distinguen entre si al considerar la
cantidad de error asociado con los datos :
Regresin por mnimos cuadrados- los datos presentan
un grado de error significativo
Interpolacin los datos son precisos

Introduccin
En la investigacin las variables que estn
asociadas entre si pueden ser relacionadas
matemticamente una en funcin de la otra
Las variables pueden tener una relacin clara o
absurda
Nota: estadsticamente interesa analizar una relacin
existente o lgica entre variables

Objetivo: proporcionar los procedimientos y las


tcnicas para expresar y medir la relacin entre
variables

Nubes de Puntos

Sea un conjunto de pares de valores de las variables X e Y. Si


los
representamos
en
un
diagrama
de
dispersin
obtendremos una nube de puntos que nos dar una idea
grfica de la posible correlacin entre ambas variables.

No hay relacin

Relacin positiva

Relacin negativa

Algunos tipos de
relaciones
Modelo Lineal

relacin lineal positiva

relacin lineal negativa


Potencial
Logartmica
Otros tipos

Potencial

Potencial
inversa

Exponencial
positiva

Exponencial
negativa

Otros tipos

Otros tipos

Relaciones entre variables


El aleatorias
trmino regresin fue introducido por Galton

en
su libro Natural inheritance (1889) refirindose a
la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por
sus descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos
fsicos de los descendientes (una variable) a partir de
los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de
1000 registros de grupos familiares observando una
relacin del tipo:
Altura del hijo = 85cm + 0,5 altura del padre
(aprox.)
Conclusin: los padres muy altos tienen tendencia a
tener hijos que heredan parte de esta altura,
aunque tienen tendencia a acercarse (regresar) a la
media. Lo mismo puede decirse de los padres muy
bajos.

Hoy en da el sentido de regresin es el de


prediccin de una medida basndonos en el
conocimiento de otra.

Francis Galton

Estudio conjunto de dos variables


aleatorias

A la derecha tenemos una posible manera de


recoger los datos obtenido observando dos
variables aleatorias en varios individuos de
una muestra.

En cada fila tenemos los datos de un individuo


Cada columna representa los valores que toma
una variable aleatoria sobre los mismos.
Las individuos no se muestran en ningn orden
particular.

Dichas
observaciones
pueden
ser
representadas
en
un
diagrama
de
dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas
son los valores de las variables.
Nuestro objetivo ser intentar reconocer a
partir del mismo si hay relacin entre las
variables, de qu tipo, y si es posible predecir
el valor de una de ellas en funcin de la otra.

Altura
en cm.

Peso en
Kg.

162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

...

...

Diagramas de dispersin o nube de


puntos

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersin. Cada punto es un valor particular de la variable
aleatoria bidimensional (X, Y).

Pesa 50 kg.
Mide 161 cm.

Mide 187 cm.

Pesa 76 kg.

Relacin entre variables


Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.

ue
q
ce
e
r
Pa ra
altu

s
e
p
el

nta
e
um
a
o

la
n
co

Prediccin de una variable en funcin


de otra
Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea,
el peso aumenta en una unidad por cada unidad de altura.

10 kg.

10 cm.

Cmo reconocer relacin directa e


inversa

330
280

Incorrelacin

230
180
130
80
30
140

150

160

170

180

190

200

Para valores de X por encima de la media


tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelacin.

Para los valores de X mayores


que la media le corresponden
valores de Y mayores tambin.
Para los valores de X menores
que la media le corresponden
valores de Y menores tambin.
Esto se llama relacin directa o
creciente entre X e Y.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.

Cmo reconocer buena o mala


relacin

Dado un valor de X no podemos decir


gran cosa sobre Y. Mala relacin.
Independencia.

Conocido X sabemos que Y se mueve


por una horquilla estrecha. Buena
relacin.
Lo de horquilla estrecha hay que
entenderlo con respecto a la dispersin
que tiene la variable Y por si sola, cuando
no se considera X.

Relaciones deterministas:
en este tipo de relacin, las variables estn
relacionadas a travs de una frmula
matemtica exacta, y cualquier variacin en
las observaciones se atribuye al error
experimental.
Ejemplo: Ley del inters compuesto.
Saldo Saldo Inicial * (1 Interes ) meses

Las relaciones Semideterminsticas:


en otras situaciones, hay una expresin
matemtica que relaciona las variables, pero
no todos sus parmetros son conocidos, y es
necesario
estimarlos.
Ejemplo:
la
concentracin de una sustancia despus de un
tiempo t depende de una reaccin especfica
tasa
constante
k,
obtenidos
experimentalmente:

c c0 .e

k .t

Relaciones empricas:
en muchas otras situaciones, la relacin entre las
variables es desconocida. Entonces la demanda
expresa una relacin posible entre ellos mediante la
determinacin de una ecuacin que mejor se adapte
a los puntos experimentales. Por ejemplo: la
relacin entre la productividad de una granja y la
cantidad de fertilizante utilizado en la agricultura.
Hay varios factores que pueden contribuir a la
productividad, pero tienen un inters en slo uno de
ellos.

Regresin y
correlacion

Regresin
Definicin
Mtodo estadstico que investiga y define la relacin
funcional entre las variables.

Funcin o lnea de regresin


Y= f(X)
Tipos de regresin
Regresin simple
Regresin lineal
Regresin no lineal

Regresin mltiple
Regresin lineal
Regresin no lineal

Ajuste de una lnea de regresin


El problema del ajuste comprende tres etapas:
Diagrama de nubes
Elegir el tipo de lnea
Determinar el valor numrico de los coeficientes
Mtodo de los cuadrados inferiores
Mtodo de los medios

Regresin lineal simple


El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias:
regresin mltiple).
Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X

Regresin lineal simple


El ejemplo del estudio de la altura en grupos familiares de
Pearson es del tipo que desarrollaremos en el resto del tema.
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 +
0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresin lineal


simple.

Modelo de regresin lineal simple

En el modelo de regresin lineal simple, dado dos


variables
Y (dependiente)
X (independiente, explicativa)

buscamos encontrar una funcin de X muy simple (lineal)


que nos permita aproximar Y mediante

= b 0 + b 1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el


modelo de regresin. A la cantidad

e = Y- se le denomina residuo o error residual.

En el ejemplo de Pearson y las alturas, l encontr:


= b 0 + b1X
b0 = 85 cm (No interpretar como altura de un hijo cuyo
padre mide 0 cm Extrapolacin salvaje!)
b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del
padre.)

b1=0,5

b0=85 cm

La relacin entre las variables no es exacta. Es natural


preguntarse entonces:
Cul es la mejor recta que sirve para predecir los valores
de Y en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).

b1=0,5

b0=85 cm

El modelo lineal de regresin se construye utilizando la tcnica


de

estimacin de mnimos cuadrados:

Buscar b0, b1 de tal manera que se minimice la


cantidad

i ei2 = i (Yi - )2

Se comprueba que para lograr dicho resultado basta con


elegir:
S

b1 r

Sy
Sx

b0 y b1 x

xy

SxS y

y y b1 ( x x )

La recta de regresin estimada ser:

Se obtiene adems unas ventajas de regalo:

El error residual medio es nulo.


La varianza del error residual es mnima para dicha
estimacin.

Que el error medio de las


predicciones sea nulo no
quiere decir que las
predicciones sean buenas.
Hay que encontrar un
medio de expresar la
bondad del ajuste (bondad
de la prediccin).
No importa. Con los dos
ltimos clientes me
equivoqu en +10 y
+20. En trmino medio
el error es cero.

Cometi un
error de - 30 en
su ltima
prediccin

Cmo medir la bondad de una


regresin?

Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.

Interpretacin de la variabilidad en
Y
En primer lugar olvidemos que
existe la variable X. Veamos cul
es la variabilidad en el eje Y.

La franja sombreada indica la zona


donde varan los valores de Y.
Proyeccin sobre el
eje Y = olvidar X.

Interpretacin del residuo


Fijmonos ahora en los errores de
prediccin (lneas verticales). Los
proyectamos sobre el eje Y.
Se observa que los errores de
prediccin, residuos, estn menos
dispersos que la variable Y original.
Cuanto menos dispersos sean los
residuos, mejor ser la bondad del
ajuste.

Bondad de un ajuste
Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.

Eso hace que definamos como medida


de bondad de un ajuste de regresin,
o coeficiente de determinacin a:
S e2 SY2

S
R 1
S
2

2
e
2
y

La covarianza entre dos variables, Sxy, nos


indica si la posible relacin entre dos
variables es directa o inversa:
Directa: Sxy > 0
Inversa: Sxy < 0
Incorreladas: Sxy = 0

El signo de la covarianza nos dice si el


aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de
relacin entre las variables.

Coeficiente de correlacin lineal de


Pearson
El coeficiente de correlacin lineal de
Pearson de dos variables, r, nos indica si los
puntos tienen una tendencia a disponerse
alineadamente
(excluyendo
rectas
horizontales y verticales).

Tiene el mismo signo que Sxy . Por tanto de


su signo obtenemos el que la posible relacin
sea directa o inversa.
r es til para determinar si hay relacin
lineal entre dos variables, pero no servir
para otro tipo de relaciones (cuadrtica,
logartmica,...)

S xy
SxS y

Ejemplo: dado el conjunto de puntos abajo,


traza su diagrama de dispersin.
x
y

0,3
1,8

2,7
1,9

4,5
3,1

5,9
3,9

7,8
3,3

Resolucin: Marcar en un
localizacin de puntos x e y:

mapa

la

Al parecer hay aproximadamente la relacin


lineal entre las variables.

Para apreciar los parmetros b0 y b1,


debemos recurrir al mtodo de los mnimos
cuadrados.
Esta tcnica calcula los
parmetros para que la distancia total entre
la ecuacin ajustada y experimento puntos
sea el menor posible.

Las ecuaciones para la determinacin de


parmetros b0 y b1 son:

y b0 b1.x
b1

x . y n. ( x . y )

x n. x
y b . x

i
2

2
i

b0

Ejemplo: los puntos de datos del ejemplo


anterior, calcular el mejor ajuste: recta
i
1
2
3
4
5

x
0,3
2,7
4,5
5,9
7,8
21,2

y
1,8
1,9
3,1
3,9
3,3
14,0

x2
0,09
7,29
20,25
34,81
60,84
123,2
8

x.y
y2
0,54 3,24
5,13 3,61
13,95 9,61
23,01 15,21
25,74 10,89
68,37 42,56

Clculo de los parmetros:


xi . yi n. ( xi . yi )

b1
2
xi n. xi2

21,2.14,0 5.68,37
b1
0,2698
2
(21,2) 5.123,28
b0

b1. xi

n
14,0 0,2698.21,2
b0
1,6560
5

Este derecho estaran representado en el


grfico de dispersin como:
y=1,6560+0,2698.x

F(x)

Regresin lineal:

P1 ( x) a0 a1 x
x
n

Q Pm ( xi ) yi 0
i 0

n
Q
2 yi (a0 a1 xi ) 0
a0
i 0
n
Q
2 xi yi (a0 a1 xi 0
a1
i 0

Q yi ( a0 a1 xi ) 0
i 0

n 1

xi

x
x

n 1
a0

xi
a1

i
2

a0

a1

x
x

y
x y
i

i
2

y
x y

La calidad del ajuste lineal se mide por el


coeficiente de determinacin y de la varianza
residual, calculada como sigue:

y y

1
1
y n . y
y y

ci

2
i

n2

ci

Ejemplo: Determinar la calidad del modelo


para el ejemplo anterior.
i

yc

y-yc

(yyc)2

0,3

1,8 1,7369 0,0631 0,004


0

2,7

1,9 2,3845

4,5

3,1 2,8701 0,2299 0,052


8

5,9

3,9 3,2478 0,6522 0,425


4

7,8

3,3 3,7604

- 0,234
0,4845
7

- 0,212
0,4604
0

Resolver las ecuaciones:


r2 1

y
i ci

2
1
y n . yi
0,9289
2
r 1
0,7235
1
2
42,56 .14,0
5
2
yi yci

2

n2
0,9289
2

0,3096
52
2
i

Correlacin
Definicin
Anlisis del grado de asociacin o afinidad entre las
variables expresada a travs de la funcin o modelo
de regresin

r
donde

S y2*
S

2
y

- Varianza
S 2 explicada (terica )

2 total (experimental)
- Varianza

y*

Sy

Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente negativa: es decreciente.

No hay
correlacin

r 0

Hay correlacin
no lineal

r 0

Correlacin lineal
positiva

r 1

Correlacin lineal
negativa

r 1

Entrenando el ojo: correlaciones


positivas.

Entrenando el ojo: casi perfectas y


positivas

Entrenando el ojo: correlaciones


negativas

Si r = 0 eso quiere decir que


las variables son independientes?

En la prctica, casi siempre


s, pero no tiene por qu ser
cierto en todos los casos.
Lo contrario si es cierto:
Independencia implica
incorrelacin.

Me ha salido r = 1,2 La relacin es superlineal ?

Superqu? Eso es un error de clculo. Siempre debe tomar


un valor entre -1 y +1.

A partir de qu valores se considera que hay buena relacin


lineal?

Es difcil dar un valor concreto (mirad los grficos


anteriores). Para este curso digamos que si |r| > 0,7 hay
buena relacin lineal y que si |r| > 0,4 hay cierta relacin
(por decir algo... la cosa es un poco ms complicada:
observaciones anmalas,...)

EJEMPLOS DE REGRESIN
LINEAL SIMPLE

Ejemplo 1. Regresin
Lineal
x
y
8

2
3
4
5

y = x+ 2

6
5
4
3

0
1
2
3

2
1

n xi yi xi yi
n xi2 xi

y b x

a
i

0
-4

-3

-2

-1 -1 0

-2
X

Bondad de los ajustes


Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar
mediante cualquiera de las dos expresiones siguientes:

x y
i

2
i

x y

y
n

2
i

n x

n xi yi xi yi

2
i

xi n yi2 yi
2

Coeficiente de Determinacin,
R2

Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el


Coeficiente de Determinacin, R2, que es el Coeficiente de Correlacin elevado
al cuadrado.
Se determina mediante cualquiera de las dos expresiones siguientes:

R2

x y
i

xi2 x 2

x y

yi2
2

y
n

n x y x y

n x x n y y
2

R2

2
i

2
i

Su valor oscila entre 0 y +1.


Cuando hay una buena correlacin lineal, R 2 es muy cercano a +1.
Normalmente se acepta para valores de R 2 >= 099.
Cuando no hay correlacin o bien sta no es lineal, R 2 es bajo e incluso
cercano a cero

Ejemplo 2: Relacin Profesores/Alumnos


en las Universidades
Universidades

Alumnos Profesores

Aragn
Asturias
Baleares
Cantabria
Castilla la Mancha
Castilla Len
Extremadura
Madrid
Murcia
1.

Trazar la grfica de la distribucin

2.

Calcular parmetros de la distribucin

3.

Cul es la Universidad con mejor proporcin


profesor/alumno?

R2=0.998

b=0.0515

a=-17

36154
34441
9519
11962
15123
74272
17678
214402
26407

2043
1442
385
737
787
4030
865
10971
1248

4.

Qu Universidad tiene la peor ratio y cuntos


profesores necesitara para equilibrarla?

5.

Calcular los valores tericos de profesores de la


Universidad de Granada si sta tena 55123
alumnos en el curso 1994-95.

6.

Calcular los valores de la FBD si sta tena 1100


alumnos

Ejemplo 2: Grfica de distribucin


Relacin Profesores/Alumnos en
Universidades

14000

3000

12000

2500
Profesores

Profesores

10000
8000
6000
4000

2000
1500
1000

2000

500

0
0

100000

200000

Alumnos

300000

10000

20000

30000

Alumnos

40000

50000

Interpretacin fsica de las constantes de la regresin:


Marco de estudio: Anlisis de costos, por ejemplo la variable independiente,
corresponde a la cantidad de productos y la variable dependiente
corresponde a los costos asociados:
Ejemplo:
Se ha adquirido un aditivo para la electro-refinacin de la forma dada en los
siguientes datos:
Costo
Cantidad 5

11
6

12
8

14
2

20

a0 1.363

f( x)
Y

10

a1 1.624
0

5
x X

10

5
8

13
7

14
9

15

$ 1.363
es el costo fijo
$ 1.624
es el costo marginal

EXCEL
Solucin del ejemplo anterior:
Datos:
Costo
Cantidad 5

11
6

12
8

Paso 1.- Ingresar datos al Excel

14
2

5
8

13
7

14
9

15

Picar par hacer grafico

Seleccin del tipo de datos a graficar regresin

Modelos No Lineales

Antes de proceder a la regresin, hay que transformar la ecuacin no lineal,


y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x,
a y b respectivamente.
Modelo

Potencial

Exponencial

y ax b

Ecuacin
Ecuacin
Linealizada

Logartmico

y aebx

log y log a b log x

ln y ln a bx

Log y

y a b log x
----------

Ln y

Grfica
Log x

Log x

Log y

Ln y

Log x

Log x

Log a

Ln a

a
b

eA

10 A
B

A
B

(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)

Ejemplos de transformaciones:
y=a.xb ln(y)=ln(a)+b.ln(x)
y=a.bx ln(y)=ln(a)+ln(b).x
y=a.eb.x ln(y)=ln(a)+b.x
y=e(a+b.x1+c.x2) ln(y)=a+b.x1+c.x2
y a.x1b .x2c ln( y ) ln(a ) b. ln( x1 ) c. ln( x2 )
1
1
y
a b.x1 c.x2
a b.x1 c.x2
y
y

1
1 e a b. x1 c. x2

1
ln 1 a b.x1 c.x2
y

Ajuste
Polinomial

Aproximacin polinomial por mnimos


cuadrados
El concepto
Forma de aproximar una funcin g(x) a diferentes f(x).
Nos proporciona informacin acerca de las relaciones existentes entre x e y
Causa una suavizacin de la curva formada por un conjunto de datos y
elimina en algn grado los errores de observador, de medicin, de registro,
de transmisin y de conversin
Se tiene una secuencia de datos dados por n puntos de la forma (xi,yi)
Tambin se tiene un polinomio de grado m, con m<n de la forma
m

Pm ( x) a0 x a1 x a2 x am x ai x i
0

i 0

Como los puntos (xi,yi), son datos se evala los cuadrados de los residuos
para obtener los coeficientes del polinomio P(x) de la forma que:
n

Q ri 2 Pm ( xi ) yi
i 0

Sea mnima

i 0

Sea m=2 entonces


n

P2 ( x) a0 a1 x a2 x 2
2

Q Pm ( xi ) yi 0

Q yi ( a0 a1 xi a2 xi2 ) 0

i 0

i 0

n
Q
2 yi (a0 a1 xi a2 x i2 ) 0
a0
i 0

n
Q
2 xi yi (a0 a1 xi a2 x i2 ) 0
a1
i 0

n
Q
2 xi2 yi (a0 a1 xi a2 x i2 ) 0
a2
i 0

y
n

i 0

(a0 a1 xi a2 x i2 ) yi a 0 a1 xi a 2 x i2 0

2
2
3
x
y

(
a

a
x

a
x
)

x
y

a
x

a
x

a
x
i
i i 0 1i 2
i i 0 i 1 i 2 i 0
i 0

x y
n

i 0

(a0 a1 xi a2 x i2 ) x i2 yi a 0 x i2 a1 x 3i a 2 x i4 0
2
y

a
x

a
x
i 0 1i 2i

2
3
x
y

a
x

a
x

a
x
i i 0i 1i 2i

x
n 1

xi
x
i

2
i

yi a 0 x i2 a1 x 3i a 2 x i4

x x
x x
x x
i
2

3
i

a0

3
a

1
i
4

a
2


i
2

y
x y
x y
i

i i
2
i
i

CASO GENERAL

n 1

xi

xi
2
x
i

x x

m
i

3
i

2
x
i
3
x
i

m
x
i a0
m 1

x
i a1

4
m2
x i x i a2



2m
.. x i am

C a b
1
a C b

y
x y
x y

i i
2
i
i

m
x i yi

Para este caso particular, el anterior sistema


de ecuaciones se simplifica a:

x
x

i
2

g
x
i

xi
2
x
i
3
x
i

g 1
x
i

2
x
i
3
x
i
4
x
i

g 2
x
i

g
x
i b0
g 1
x
i b1
x ig 2 . b2


x i2. g bg

y
x .y
x . y
i

i
2


g
x
i . yi

Ejemplo:
Se tiene la siguiente secuencia de datos:
X
Y

0.0
1.7

1.0
0.3

2.0
5.6

3.0
7.8

4.0
10.

5.0
11.

15

10
Y
5

4
X

6.0
12.

7.0
14.

Se prueba un polinomio de 2

P2 ( x) a0 a1 x a2 x 2
m=2

x x
x x
x x

n 1

xi
x

i
2

a0

3
a


1
i
4
a2
i
2

y
x y
x y
i

i i
2
i
i

n 1 9

x
y

28

61.4

28 140
9
28 140 784

140 784 4676

x
x y

140
292.9

x 784
x
x y 1597

P( x) 0.115 2.879 x 0.145 x 2

4676

a0 61.4

292
.
9
1

a 1597
2

a0 0.115

2
.
879
1

a 0.145
2

15

10

P2( x)
Y

4
x X

n 1

Se prueba un polinomio de 3

P3 ( x) a0 a1 x a2 x a3 x
2

x
x

m=3

3
i

x
x
x
x

i
2

3
i

4
i

x
x
x
x

2
i

3
i

4
i

x
x
x
x

a0
4

a

i
1

5

a
2

6
a3
3
i

y
x y
x y
x y
i

i i
2
i
i

3
i

n 1 9

x
y

28

61.4

x 140
x 784
x y 292.9
x
2

a2
a4

4
i

a0 61.4
a1 292.9

a2 1597
a3 9321.7

467

yi 1597

28 140
784
9
28 140 784

4676


140 784 4676
29008

784 4676 29008 184820

a0
a
1

3
i

5
i

29008

6
i

184820

yi 9321.7

15

10
P2( x)
P3( x) 5

0.446
1.519

0
.
408

0.054

P( x) 0.446 1.519 x 0.408 x 0.054 x


2

4
x x X

Cual de las soluciones es mejor?


La forma intuitiva para determinar cual de las curvas es la que mejor
representa el comportamiento de los datos, nos indica que la suma de las
distancias al cuadrado sea lo mas prxima a cero.
n

i 0

i 0

Q ri 2 Pm ( xi ) yi
n

R2

P (x ) y
m

i 0

y
i 0

Coeficiente de correlacin

R cuadrtica
R cbica

=0.9426
=0.9492

Ejemplo: dada la siguiente tabla, encontrar el


mejor polinomio de grado 3 que se ajusta a
los datos:
i

xi

0
1

0,0
1

0
2

0,1
0

0
3

0,2
0

0
4

0,3
0

0
5

0,4
0

0
6

0,5
0

0
7

0,6
0

0
8

0,7
0

yi

xi2

0,10
00 0,0001
0,31
62
0,01
0,44
72
0,04
0,54
77
0,09
0,63
25
0,16
0,70
71
0,25
0,77
46
0,36
0,83
67
0,49

xi3

xi4

xi5

xi6

xiyi

xi2yi

xi3yi

1E-06 1E-08 1E-10 1E-12 0,001 1E-05 1E-07


0,001 0,0001 1E-05 1E-06 0,0316 0,0032 0,0003
0,008 0,0016 0,0003

6,4E05 0,0894 0,0179 0,0036

0,0007
0,027 0,0081 0,0024
3 0,1643 0,0493 0,0148
0,064 0,0256 0,0102 0,0041 0,253 0,1012 0,0405
0,0156
0,125 0,0625 0,0313
3 0,3536 0,1768 0,0884
0,0466
0,216 0,1296 0,0778
6 0,4648 0,2789 0,1673
0,1176
0,343 0,2401 0,1681
5 0,5857

0,41 0,287

La tabla con las sumatorias es:


xi

yi

xi2

xi3

xi4

xi5

xi6

xiyi

xi2yi

xi3yi

7,205 3,850
2,533 2,208 1,978 4,512
2,751
3,025
3,378
1
1
3
3
41
7
4

5,51

Colocacin de los valores de la matriz:

11

3,025
2,5333

5,51

5,51

3,8501

3,8501

3,025

3,025

2,5333

2,5333 2,2083 1,97841

3,8501
3,025

2,2083

b0 7,2051
b 4,5127

. 1
b2 3,378

b3 2,7514

Para resolver este sistema de ecuaciones a travs de


cualquier mtodo ya ha visto (Gauss):

Solucin del sistema:


b0=0,1011
b1=2,0685
b2=-2,1782
b3=1,0186
Y el polinomio de ajuste ser:
y=0,1011+2,0685.x-2,1782.x2+1,0186.x3

S-ar putea să vă placă și