Documente Academic
Documente Profesional
Documente Cultură
Datos no agrupados
X
X
i 1
X
i 1
Datos agrupados
n
M
i 1
fi
Frecuencia
Media
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
30
X
i 1
1000 1150 1050 1230 1100 1110 990 1030 1170L 1210
30
30
32800
X
1.093,33
30
INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
6
30/30=1
1.088,333
30
30
X
i 1
i i
i 1
i i
Procedimiento de clculo:
Datos no agrupados
Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,,n
x%
x([ n 1]) / 2)
x( n / 2) x( n / 2 1)
2
m x n 1
2
n 1 11 1 12
6
2
2
2
x n 1 x6 40
2
m x6 40
n
2
2
con j 1, 2,..., k ,
k - nmero de intervalos
Fj
i 1
Fj
donde
n
2
siguiente ecuacin:
n
2 FL
m Lm
C
fm
Donde:
Lm = Lmite inferior del intervalo que corresponde a la clase mediana.
n = Total de datos
FL = Suma de frecuencias de todas las clases por debajo de la clase
mediana, (frecuencia acumulada absoluta de las clases anteriores a
la clase mediana)
fm = Frecuencia absoluta en la clase mediana.
C = Tamao del intervalo de clase. (amplitud o distancia del
intervalo)
INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
30/30=1
Lm = 1080
Limite inferior de la clase de la mediana
n = 30
Datos u observaciones
n/2 = 15
Datos u observaciones
FL = F3 = 13 Frec.acumul.absoluta inf.
fm = f4 = 8 Frec. Absoluta de la clase de la mediana
C = Lsup Linf = 50
No
Intervalo
fi
Fi
(1030,1080]
13
(1080,1130]
21
F
L
2
m Lm
C
f
m
(15 13)
m 1080
50 1.092,50
8
La interpretacin de este valor, es que la mitad de las familias
entrevistadas ganan menos de 1.092,50 dlares.
En el conjunto de datos dados para medir el ingreso promedio anual de las familias que
habitan en un determinado sector, se tiene:
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060, 1070, 1080, 1090, 1100,
1100, 1105, 1110, 1110, 1120, 1130, 1150, 1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }
1150 ( 3 veces)
por tanto la moda es = 1030 y 1150, y en este caso se dice que el conjunto de datos es
bimodal
La Moda estar representada por la clase que posee la ms alta frecuencia,
denominndose clase modal.
Donde:
1
Moda LI
C
2 1
- fi-1, con i
- fi+1, con i
Datos agrupados
Calcular la moda del ingreso promedio mensual de las
familias que habitan en un determinado sector
Intervalo de clase modal: el 4, (1080 1130] ya que
f4 = 8 (la mayor frecuencia absoluta de la tabla)
LI = 1080 dlares
No.
Intervalo
fi
Fi
1 = f4 f3 = 8 - 5 = 3
3
(1030,1080]
5
13
2 = f4 f5 = 8 - 6 = 2
C = 50
4
(1080,1130]
8
21
(1130, 1180]
27
1
3
Moda LI
C 1080
50 1.110,0
2 3
2 1
Este valor de $ 1.110,0 se interpreta como el ingreso familiar que con ms
frecuencia se da
Una
dispersin
es
la
cantidad
de
variacin,
permita
juzgar
tendencia central
la
confiabilidad
de
la
medida
de
encuentran
media de la
poblacional
utilizan los
2
(
x
)
i
i 1
N 1
1
N 1
2
x
i 1
x
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin.
2 = La varianza de la poblacin
s
2
2
(
x
x
)
i
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2, 3,...,n
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos No Agrupados
s
2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
i 1
f M
i 1
donde:
x - es la media muestral
xi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos Agrupados
(x )
i 1
N 1
N 1
2
x
i
i 1
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin
= La desviacin estndar de la poblacin
(x x)
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2,
3,...,n
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos No Agrupados
f (M
i 1
x)
n 1
1
n 1
i 1
f i M i2
f M
i 1
donde:
x - es la media muestral
Mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos Agrupados
Datos No Agrupados
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
Datos No Agrupados
Xi
Xi2
Xi
Xi2
935
874225
1100
1210000
990
980100
1105
1221025
1000
1000000
1110
1232100
1000
1000000
1110
1232100
1010
1020100
1120
1254400
1030
1060900
1130
1276900
1030
1060900
1150
1322500
1030
1060900
1150
1322500
1050
1102500
1150
1322500
1050
1102500
1160
1345600
1060
1123600
1170
1368900
1070
1144900
1180
1392400
1080
1166400
1200
1440000
1090
1188100
1210
1464100
1100
1210000
1230
1512900
Total
32800
36013050
Datos No Agrupados
Varianza
n
s2
(x
i 1
x)
n 1
n 1
2
x
i
i 1
x
i 1
(
32800
)
1
36013050
29
30
(32800) 2
1
1
36013050
29
30
29
Desviacin estndar
n
(x
i 1
x)
n 1
1
n 1
2
x
i
i 1
s s 2 5231.6092 72.33
x
i 1
Datos Agrupados
INT.
DE CLASE
MARCA
DE
CLASE
Mi
FREC.
ABS.
fi
X i2
fMi
fiMi2
(930 - 980]
955
912025
955
912025
(980 1030]
1005
1010025
7035
7070175
(1030 1080]
1055
1113025
5275
5565125
(1080 1130]
1105
1221025
8840
9768200
(1130 1180]
1155
1334025
6930
8004150
(1180 1230]
1205
1452025
3615
4356075
32650
35675750
30=n
29= n-1
Total
Datos Agrupados
Varianza
k
s2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
f M
i 1
1
(32650)
35675750
29
30
i 1
1
35675750 35534083.3 4885.057
29
Desviacin estndar
k
f (M
i 1
x)
n 1
1
n 1
fM
i 1
4885.057 69.89
2
i
f M
i 1
S
C.V .
X
% DE DATOS
INTERVALOS
68
1088.3373.75
(1014.58, 1162.08)
95
1088.332(73.75)
(940.83, 1235.83)
99 o 100
1088.333(73.75)
(867.08, 1309.58)
AJUSTE DE
CURVAS
Introduccin
Existen dos mtodos generales para el ajuste de
curvas, se distinguen entre si al considerar la
cantidad de error asociado con los datos :
Regresin por mnimos cuadrados- los datos presentan
un grado de error significativo
Interpolacin los datos son precisos
Introduccin
En la investigacin las variables que estn
asociadas entre si pueden ser relacionadas
matemticamente una en funcin de la otra
Las variables pueden tener una relacin clara o
absurda
Nota: estadsticamente interesa analizar una relacin
existente o lgica entre variables
Nubes de Puntos
No hay relacin
Relacin positiva
Relacin negativa
Algunos tipos de
relaciones
Modelo Lineal
Potencial
Potencial
inversa
Exponencial
positiva
Exponencial
negativa
Otros tipos
Otros tipos
en
su libro Natural inheritance (1889) refirindose a
la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por
sus descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos
fsicos de los descendientes (una variable) a partir de
los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de
1000 registros de grupos familiares observando una
relacin del tipo:
Altura del hijo = 85cm + 0,5 altura del padre
(aprox.)
Conclusin: los padres muy altos tienen tendencia a
tener hijos que heredan parte de esta altura,
aunque tienen tendencia a acercarse (regresar) a la
media. Lo mismo puede decirse de los padres muy
bajos.
Francis Galton
Dichas
observaciones
pueden
ser
representadas
en
un
diagrama
de
dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas
son los valores de las variables.
Nuestro objetivo ser intentar reconocer a
partir del mismo si hay relacin entre las
variables, de qu tipo, y si es posible predecir
el valor de una de ellas en funcin de la otra.
Altura
en cm.
Peso en
Kg.
162
61
154
60
180
78
158
62
171
66
169
60
166
54
176
84
163
68
...
...
Pesa 50 kg.
Mide 161 cm.
Pesa 76 kg.
ue
q
ce
e
r
Pa ra
altu
s
e
p
el
nta
e
um
a
o
la
n
co
10 kg.
10 cm.
330
280
Incorrelacin
230
180
130
80
30
140
150
160
170
180
190
200
Relaciones deterministas:
en este tipo de relacin, las variables estn
relacionadas a travs de una frmula
matemtica exacta, y cualquier variacin en
las observaciones se atribuye al error
experimental.
Ejemplo: Ley del inters compuesto.
Saldo Saldo Inicial * (1 Interes ) meses
c c0 .e
k .t
Relaciones empricas:
en muchas otras situaciones, la relacin entre las
variables es desconocida. Entonces la demanda
expresa una relacin posible entre ellos mediante la
determinacin de una ecuacin que mejor se adapte
a los puntos experimentales. Por ejemplo: la
relacin entre la productividad de una granja y la
cantidad de fertilizante utilizado en la agricultura.
Hay varios factores que pueden contribuir a la
productividad, pero tienen un inters en slo uno de
ellos.
Regresin y
correlacion
Regresin
Definicin
Mtodo estadstico que investiga y define la relacin
funcional entre las variables.
Regresin mltiple
Regresin lineal
Regresin no lineal
= b 0 + b 1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)
b1=0,5
b0=85 cm
b1=0,5
b0=85 cm
i ei2 = i (Yi - )2
b1 r
Sy
Sx
b0 y b1 x
xy
SxS y
y y b1 ( x x )
Cometi un
error de - 30 en
su ltima
prediccin
Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.
Interpretacin de la variabilidad en
Y
En primer lugar olvidemos que
existe la variable X. Veamos cul
es la variabilidad en el eje Y.
Bondad de un ajuste
Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.
S
R 1
S
2
2
e
2
y
S xy
SxS y
0,3
1,8
2,7
1,9
4,5
3,1
5,9
3,9
7,8
3,3
Resolucin: Marcar en un
localizacin de puntos x e y:
mapa
la
y b0 b1.x
b1
x . y n. ( x . y )
x n. x
y b . x
i
2
2
i
b0
x
0,3
2,7
4,5
5,9
7,8
21,2
y
1,8
1,9
3,1
3,9
3,3
14,0
x2
0,09
7,29
20,25
34,81
60,84
123,2
8
x.y
y2
0,54 3,24
5,13 3,61
13,95 9,61
23,01 15,21
25,74 10,89
68,37 42,56
b1
2
xi n. xi2
21,2.14,0 5.68,37
b1
0,2698
2
(21,2) 5.123,28
b0
b1. xi
n
14,0 0,2698.21,2
b0
1,6560
5
F(x)
Regresin lineal:
P1 ( x) a0 a1 x
x
n
Q Pm ( xi ) yi 0
i 0
n
Q
2 yi (a0 a1 xi ) 0
a0
i 0
n
Q
2 xi yi (a0 a1 xi 0
a1
i 0
Q yi ( a0 a1 xi ) 0
i 0
n 1
xi
x
x
n 1
a0
xi
a1
i
2
a0
a1
x
x
y
x y
i
i
2
y
x y
y y
1
1
y n . y
y y
ci
2
i
n2
ci
yc
y-yc
(yyc)2
0,3
2,7
1,9 2,3845
4,5
5,9
7,8
3,3 3,7604
- 0,234
0,4845
7
- 0,212
0,4604
0
y
i ci
2
1
y n . yi
0,9289
2
r 1
0,7235
1
2
42,56 .14,0
5
2
yi yci
2
n2
0,9289
2
0,3096
52
2
i
Correlacin
Definicin
Anlisis del grado de asociacin o afinidad entre las
variables expresada a travs de la funcin o modelo
de regresin
r
donde
S y2*
S
2
y
- Varianza
S 2 explicada (terica )
2 total (experimental)
- Varianza
y*
Sy
Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente negativa: es decreciente.
No hay
correlacin
r 0
Hay correlacin
no lineal
r 0
Correlacin lineal
positiva
r 1
Correlacin lineal
negativa
r 1
EJEMPLOS DE REGRESIN
LINEAL SIMPLE
Ejemplo 1. Regresin
Lineal
x
y
8
2
3
4
5
y = x+ 2
6
5
4
3
0
1
2
3
2
1
n xi yi xi yi
n xi2 xi
y b x
a
i
0
-4
-3
-2
-1 -1 0
-2
X
x y
i
2
i
x y
y
n
2
i
n x
n xi yi xi yi
2
i
xi n yi2 yi
2
Coeficiente de Determinacin,
R2
R2
x y
i
xi2 x 2
x y
yi2
2
y
n
n x y x y
n x x n y y
2
R2
2
i
2
i
Alumnos Profesores
Aragn
Asturias
Baleares
Cantabria
Castilla la Mancha
Castilla Len
Extremadura
Madrid
Murcia
1.
2.
3.
R2=0.998
b=0.0515
a=-17
36154
34441
9519
11962
15123
74272
17678
214402
26407
2043
1442
385
737
787
4030
865
10971
1248
4.
5.
6.
14000
3000
12000
2500
Profesores
Profesores
10000
8000
6000
4000
2000
1500
1000
2000
500
0
0
100000
200000
Alumnos
300000
10000
20000
30000
Alumnos
40000
50000
11
6
12
8
14
2
20
a0 1.363
f( x)
Y
10
a1 1.624
0
5
x X
10
5
8
13
7
14
9
15
$ 1.363
es el costo fijo
$ 1.624
es el costo marginal
EXCEL
Solucin del ejemplo anterior:
Datos:
Costo
Cantidad 5
11
6
12
8
14
2
5
8
13
7
14
9
15
Modelos No Lineales
Potencial
Exponencial
y ax b
Ecuacin
Ecuacin
Linealizada
Logartmico
y aebx
ln y ln a bx
Log y
y a b log x
----------
Ln y
Grfica
Log x
Log x
Log y
Ln y
Log x
Log x
Log a
Ln a
a
b
eA
10 A
B
A
B
(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)
Ejemplos de transformaciones:
y=a.xb ln(y)=ln(a)+b.ln(x)
y=a.bx ln(y)=ln(a)+ln(b).x
y=a.eb.x ln(y)=ln(a)+b.x
y=e(a+b.x1+c.x2) ln(y)=a+b.x1+c.x2
y a.x1b .x2c ln( y ) ln(a ) b. ln( x1 ) c. ln( x2 )
1
1
y
a b.x1 c.x2
a b.x1 c.x2
y
y
1
1 e a b. x1 c. x2
1
ln 1 a b.x1 c.x2
y
Ajuste
Polinomial
Pm ( x) a0 x a1 x a2 x am x ai x i
0
i 0
Como los puntos (xi,yi), son datos se evala los cuadrados de los residuos
para obtener los coeficientes del polinomio P(x) de la forma que:
n
Q ri 2 Pm ( xi ) yi
i 0
Sea mnima
i 0
P2 ( x) a0 a1 x a2 x 2
2
Q Pm ( xi ) yi 0
Q yi ( a0 a1 xi a2 xi2 ) 0
i 0
i 0
n
Q
2 yi (a0 a1 xi a2 x i2 ) 0
a0
i 0
n
Q
2 xi yi (a0 a1 xi a2 x i2 ) 0
a1
i 0
n
Q
2 xi2 yi (a0 a1 xi a2 x i2 ) 0
a2
i 0
y
n
i 0
(a0 a1 xi a2 x i2 ) yi a 0 a1 xi a 2 x i2 0
2
2
3
x
y
(
a
a
x
a
x
)
x
y
a
x
a
x
a
x
i
i i 0 1i 2
i i 0 i 1 i 2 i 0
i 0
x y
n
i 0
(a0 a1 xi a2 x i2 ) x i2 yi a 0 x i2 a1 x 3i a 2 x i4 0
2
y
a
x
a
x
i 0 1i 2i
2
3
x
y
a
x
a
x
a
x
i i 0i 1i 2i
x
n 1
xi
x
i
2
i
yi a 0 x i2 a1 x 3i a 2 x i4
x x
x x
x x
i
2
3
i
a0
3
a
1
i
4
a
2
i
2
y
x y
x y
i
i i
2
i
i
CASO GENERAL
n 1
xi
xi
2
x
i
x x
m
i
3
i
2
x
i
3
x
i
m
x
i a0
m 1
x
i a1
4
m2
x i x i a2
2m
.. x i am
C a b
1
a C b
y
x y
x y
i i
2
i
i
m
x i yi
x
x
i
2
g
x
i
xi
2
x
i
3
x
i
g 1
x
i
2
x
i
3
x
i
4
x
i
g 2
x
i
g
x
i b0
g 1
x
i b1
x ig 2 . b2
x i2. g bg
y
x .y
x . y
i
i
2
g
x
i . yi
Ejemplo:
Se tiene la siguiente secuencia de datos:
X
Y
0.0
1.7
1.0
0.3
2.0
5.6
3.0
7.8
4.0
10.
5.0
11.
15
10
Y
5
4
X
6.0
12.
7.0
14.
Se prueba un polinomio de 2
P2 ( x) a0 a1 x a2 x 2
m=2
x x
x x
x x
n 1
xi
x
i
2
a0
3
a
1
i
4
a2
i
2
y
x y
x y
i
i i
2
i
i
n 1 9
x
y
28
61.4
28 140
9
28 140 784
x
x y
140
292.9
x 784
x
x y 1597
4676
a0 61.4
292
.
9
1
a 1597
2
a0 0.115
2
.
879
1
a 0.145
2
15
10
P2( x)
Y
4
x X
n 1
Se prueba un polinomio de 3
P3 ( x) a0 a1 x a2 x a3 x
2
x
x
m=3
3
i
x
x
x
x
i
2
3
i
4
i
x
x
x
x
2
i
3
i
4
i
x
x
x
x
a0
4
a
i
1
5
a
2
6
a3
3
i
y
x y
x y
x y
i
i i
2
i
i
3
i
n 1 9
x
y
28
61.4
x 140
x 784
x y 292.9
x
2
a2
a4
4
i
a0 61.4
a1 292.9
a2 1597
a3 9321.7
467
yi 1597
28 140
784
9
28 140 784
4676
140 784 4676
29008
a0
a
1
3
i
5
i
29008
6
i
184820
yi 9321.7
15
10
P2( x)
P3( x) 5
0.446
1.519
0
.
408
0.054
4
x x X
i 0
i 0
Q ri 2 Pm ( xi ) yi
n
R2
P (x ) y
m
i 0
y
i 0
Coeficiente de correlacin
R cuadrtica
R cbica
=0.9426
=0.9492
xi
0
1
0,0
1
0
2
0,1
0
0
3
0,2
0
0
4
0,3
0
0
5
0,4
0
0
6
0,5
0
0
7
0,6
0
0
8
0,7
0
yi
xi2
0,10
00 0,0001
0,31
62
0,01
0,44
72
0,04
0,54
77
0,09
0,63
25
0,16
0,70
71
0,25
0,77
46
0,36
0,83
67
0,49
xi3
xi4
xi5
xi6
xiyi
xi2yi
xi3yi
0,0007
0,027 0,0081 0,0024
3 0,1643 0,0493 0,0148
0,064 0,0256 0,0102 0,0041 0,253 0,1012 0,0405
0,0156
0,125 0,0625 0,0313
3 0,3536 0,1768 0,0884
0,0466
0,216 0,1296 0,0778
6 0,4648 0,2789 0,1673
0,1176
0,343 0,2401 0,1681
5 0,5857
0,41 0,287
yi
xi2
xi3
xi4
xi5
xi6
xiyi
xi2yi
xi3yi
7,205 3,850
2,533 2,208 1,978 4,512
2,751
3,025
3,378
1
1
3
3
41
7
4
5,51
11
3,025
2,5333
5,51
5,51
3,8501
3,8501
3,025
3,025
2,5333
3,8501
3,025
2,2083
b0 7,2051
b 4,5127
. 1
b2 3,378
b3 2,7514