Documente Academic
Documente Profesional
Documente Cultură
I: INTRODUCCIN
1.1
LA ESTADSTICA EN LA FSICA
Al estudiar muchos fenmenos fsicos en forma experimental se est obligado a dar un resultado generalizado de los datos tomados en un experimento. La Estadstica se llega a utilizar para poder extraer conclusiones sobre el fenmeno fsico bajo estudio.
Como un procedimiento de toma de decisiones, la Estadstica se emplea hoy en da para toda clase de estudios cientficos. Al realizar un experimento lo nico que se obtiene son datos, los cuales indican el comportamiento del fenmeno estudiado. Estos datos se obtienen de los diferentes aparatos de medicin; es necesario realizar procedimientos de anlisis para poder dar un resultado genrico para lo cual necesitamos una teora que proporcione este resultado, la Estadstica nos permitir realizar esto.
Hoy en da la estadstica es una herramienta muy utilizada en la fsica, pues para dar cualquier resultado generalizado de un experimento en la forma de conclusiones junto con la confiabilidad de los mismos, es
1.2
ORGANIZACIN DE DATOS
Cuando se compilan datos, es mejor que estn ordenados de forma ascendente o descendente para poder procesarlos. Pueden ser clasificados en cierta forma sistemtica para transmitir su significado ms sencillamente.
Los datos, el conjunto de valores especficos observados en un experimento comprenden lo que se conoce como una muestra, de la cual deseamos deducir algunas propiedades acerca del estado del sistema fsico bajo consideracin.
Para decidir como deben ser organizados y presentados los datos, debemos conocer la naturaleza de ellos y el objeto de la investigacin para segn eso clasificarlos en cuadros de frecuencia, datos univariables, datos bivariables, datos multivariables, etc.
Luego se calculan medidas descriptivas, tales como: proporciones, promedios o desviaciones estndares, los cuales nos indican el
1.3
LA
NECESIDAD
DE
LA
COMPUTADORA
EN
EL
ANLISIS DE DATOS
Al realizar un experimento lo nico que se obtienen son datos y stos, despus de un anlisis, dan los resultados buscados. Los clculos para este anlisis son a veces muy tediosos y mecnicos. Adems cuando se busca mayor precisin en los resultados hay la necesidad de tomar grandes cantidades de datos o realizar varias veces el mismo. Estos clculos tediosos que son mecnicos pueden ser implementados en un computador, de esta forma se evitara errores humanos y se ganara tiempo, liberando al estudiante para realizar otras actividades como repetir el experimento o tomar medidas adicionales.
La tendencia actual con el abaratamiento de los costos de los microcircuitos, es la de cada vez mas, automatizar los instrumentos de medida, los cuales dan los resultados de medidas en forma digital, lo cual
hace natural el uso de computadoras no slo en la etapa de toma de datos sino tambin en el procesamiento de los mismos.
1.4
Si bien la computadora posee un error de truncamiento y aproximacin al hacer clculos con nmeros de punto fluctuante, tambin da resultados muy precisos, siempre que se use la forma correcta de programacin para reducir estos errores. Por lo tanto, es un objetivo importante del presente trabajo obtener el menor error posible en el clculo del anlisis de datos debido a los errores de truncamiento y aproximacin cometidos por la unidad matemtica de procesamiento de punto flotante del computador. La forma como son manejados estos errores es tratando de evitar las operaciones que acarrean mayor error, as como buscando formas de racionalizacin ms convenientes y funciones apropiadas al
Por ejemplo en el caso de los mnimos cuadrados para evitar los errores de truncamiento de la diferencia de dos nmeros grande y prximos se usa una transformacin lineal para
2.1
Supongamos que deseamos saber la temperatura en una habitacin y tenemos varios termmetros en la habitacin cul sera la temperatura de la habitacin?. La respuesta sera el promedio de estas temperaturas pues ste nos indicara la temperatura media en la habitacin. Entonces los primeros conceptos que debemos definir son:
EXPERIMENTO ALEATORIO.- Es un experimento en el cual no se puede precisar un resultado analtico del mismo sino slo la probabilidad de cierta hiptesis dada.
VARIABLE ALEATORIA.- Es una funcin que nos permite asignar un nmero real a cada elemento asociado con un experimento aleatorio por ejemplo:
En un experimento que consiste en lanzar 3 monedas la variable aleatoria del nmero de sellos S obtenidas en dicho experimento es:
Donde, por ejemplo, CXC significa que la primera moneda cayo cara la segunda sello y la tercera cara.
Si bien existen variables aleatorias de tipo discretas y continuas. Este capitulo se ocupara de los momentos de las variables discretas que son variables numerables.
VARIABLE ALEATORIA DISCRETA.- Si el rango de todos los valores de X esta formada por una agrupacin de valores finito o infinito numerable entonces se dice que la variable aleatoria es discreta puesto que proviene de un experimento aleatorio. Las variables estn asociadas a una funcin f(x) = P(X=x), caracterizada por los siguientes principios: P(X=x)=p(x) 0 x Rx
a)
(2.1)
b)
xRx
p(x) = 1
(2.2)
VARIABLE ALEATORIA CONTINUA.- Sea x una variable aleatoria, se dice que x es una Variable Aleatoria Continua si su rango de valores posibles es un intervalo o una coleccin de intervalos de la recta real. La variable est asociada a una funcin f(x) llamada funcin de densidad de probabilidad que cumple las siguientes condiciones:
i.
f ( x) 0
(2.3)
ii.
f ( x)dx = 1
(2.4)
iii.
P(a x b) =
a f ( x)dx
5
(2.5)
NOTA.- La funcin de Densidad de Probabilidades por si solo no es una probabilidad. Para hallar la probabilidad es necesario integrar dicha funcin y est caracterizada por:
a)
densidad y el eje x como aparece en la figura (2.1). El rea total acotada por la funcin f(x) los puntos externos del x y el
b)
eje x siempre se expresar en la parte (+) del eje y de las coordenadas cartesianas.
(2.6) (2.7)
FUNCIN DE DISTRIBUCIN ACUMULADA.- Sea x una variable aleatoria, la funcin de distribucin acumulada de una variable aleatoria x esta definida como la probabilidad de todos los valores del rango de X hasta el valor x.
F(x) = P (X x)
(2.8)
a)
F(x) = P(X x) =
x j xRx
p( x j )
(2.9)
b)
F ( x) = f ( s )ds
CARACTERISTICAS DE LA FUNCIN DE DISTRIBUCIN:
(2.10)
i.
Fig. 2.2 funciones de distribucin acumulada (a) para una variable aleatoria discreta, y (b) para una variable aleatoria continua.
ii.
lim F(x) = 0 F( ) = 0
(2.11)
lim F ( x) = 1 F () = 1
(2.12)
iii.
Si x es una variable aleatoria continua la probabilidad de x se encuentra en algn intervalo (a,b) es:
(2.13)
v.
La funcin de probabilidad o densidad de una variable aleatoria se puede definir a travs de la funcin de distribucin, esto es:
x Rx
(2.14)
f ( x) =
dF ( x ) dx
(2.15)
MEDIA O PROMEDIO DE UNA VARIABLE.- Indica el valor central de la distribucin de una variable y se define como:
x=
Donde:
fi xi fi
(2.16)
VARIANZA MUESTRAL DE UNA VARIABLE.- Da la medida de la dispersin relativo a la media al cuadrado y se define:
2 1 V = (xi x ) f i n 1
n = fi
(2.17)
Donde: n-1: Son los grados de libertad que se define como el nmero de observaciones linealmente independientes que ocurren.
SESGO DE UNA VARIABLE.- Nos indica la simetra de la distribucin de la variable definida por:
1 xi x = fi n V
n = fi
(2.18)
Como la varianza resulta engorrosa para dar resultados prcticos porque las unidades estn al cuadrado, podemos sacarle la raz cuadrada y obtendremos lo que llamamos la desviacin estndar.
LA DESVIACION ESTANDAR DE UNA VARIABLE.- Nos indica el ancho de la dispersin y esta definida por:
(xi x )
n 1
fi
= V ;
n = fi
(2.19)
2.2
Supongamos que tenemos dos variables aleatorias y queremos saber el comportamiento simultneo de stas y si hay o no una relacin de dependencia para poder saber como se van a estudiar estas variables.
MEDIA O PROMEDIO DE DOS VARIABLES.- Se define como en el apartado anterior para cada variable.
x=
Donde:
fi xi fi
y=
fi yi fi
(2.20)
fi : Es la frecuencia con que se repiten los (xi , yi) (datos de las variables aleatorias)
Vx
(x i x ) =
n 1
fi
Vy
(y y) = i
n 1
fi
(2.21)
COVARIANZA DE DOS VARIABLES.- Es la dependencia lineal mas simple entre dos variables, cuanto ms grande el valor absoluto de la covarianza mayor es la dependencia entre las variables y se define como:
Cov( x, y ) =
(xi x )( yi y ) fi
n 1
(2.22)
x = Vx
y = Vy
(2.24)
10
COEFICIENTE DE CORRELACION DE DOS VARIABLES.- Nos indica el grado de covariabilidad entre las variables o grado de relacin entre las variables y se define como:
( x, y ) =
Cov( x, y ) ( x ) ( y )
(2.23)
Si existe una relacin lineal exacta entre ambas variables x, y y todos los puntos estn en una lnea y=a+bx el coeficiente de correlacin es = 1 (b>0), si lo hacen en sentido opuesto = -1 (b<0) y si = 0 ya no hay correlacin.
11
Para poder definir algunas distribuciones de probabilidad como la Chi Cuadrado y otras necesitamos, definir la funcin Gamma.
Funcin Gamma.- Sea a un valor real mayor que cero (a>0) la funcin Gamma se define como la integral.
( a ) = 0 x a 1e x dx
al desarrollar esta integral por partes obtenemos:
(3.1)
(a ) = 0 x a 1e x dx = ( a 1)! si a es un entero
(3.2)
Combinacin.-Es un arreglo sin considerar el orden de los elementos y se define como el nmero de combinaciones diferentes de n elementos tomados de x en x.
n! n = x x!(n x)!
(3.3)
3.1
DISTRIBUCIONES
DE
PROBABILIDAD
DE
UNA
Son distribuciones de una variable aleatoria cuyo rango es finito o infinito numerable, entonces esta variable podr seguir ciertas distribuciones de probabilidad segn sea el experimento. Nosotros trataremos las ms
12
frecuentes: la Binomial, y la de Poisson pero existen otras como la Hipergeomtrica, Multinomial, Geomtrica, etc.
Si se producen n pruebas independientes de un experimento aleatorio donde se producen dos eventos mutuamente excluyentes (xito o fracaso) y adems la probabilidad de xito p permanece constante de prueba a prueba, entonces la variable aleatoria X que se define como el nmero de xitos en las n pruebas independientes del experimento, se dice que esta variable sigue una distribucin binomial que se denomina por:
X B ( n, p )
(3.4)
n x n x p( x ) = P( X = x ) = W = p (1 p ) x
n x
(3.5)
x = 0,1,2,..........,n
Donde:
Rx = { 0,1,2,..........,n }
CARACTERISTICAS:
i.
; ;
x=0,1,2,3,.,n x Rx
(3.6)
13
ii.
n n x n x ( ) p x = p (1 p ) = 1 x =0 x =0 x n
(3.7)
F ( x ) = P( X x ) =
(3.8)
E(x) = np
(3.9)
V(x) = np (1-p)
Definiendo q = 1-p, la probabilidad de fracaso
(3.10)
V(x) = npq
; x = npq
(3.11)
Si se producen fenmenos en intervalos continuos tales como emisiones de partculas por segundo, molculas de gas por m3, es decir cuando se hace conteo de xitos en estos intervalos continuos o cuando s hace conteo de xitos en muestras aleatorias bastante grandes con probabilidad de xito bastante pequeo, entonces a la variable aleatoria X que se define como el nmero de xitos en un intervalo continuo o nmero de xitos de las n pruebas (n ), se dice que esta variable X tiene una Distribucin de Poisson.
X P ( x)
(3.12)
14
p( x ) = P( X = x ) =
e - x x!
; Rx = { 0,1,2,.......... }
(3.13)
CARACTERSTICAS:
1) i. p(x) 0 ; ; ; x=0,1,2,3,.,n
e x 0 x!
p(x)=0
x Rx
x Rx
(3.14)
ii.
e - x x! = 1 x =0
(3.15)
2)
e - k F (x ) = P ( X x ) = k! k =0 x = 0,1,2....
x
(3.16)
15
Esta distribucin se aplica cuando el tamao de la poblacin es finito y el muestreo que se realiza es sin reemplazo adems en ella se producen dos eventos mutuamente excluyentes xito o fracaso luego la variable aleatoria X que se define como el nmero de xitos en la muestra
Definiendo : N : el tamao de la poblacin de un muestreo sin reemplazo. n : el tamao de la muestra de un muestreo sin reemplazo. m : el nmero de xitos en la poblacin de un muestreo sin reemplazo. Entonces X tiene una funcin de distribucin hipergeomtrica
X H ( N , n, m )
(3.18)
m N m x n x p(x ) = P( X = x ) = N n
x = 0,1,2,..........,min(n,m) ;
(3.19)
Rx = { 0,1,2,..........,min(n,m )}
CARACTERSTICAS:
1) p(x) 0 ; x=0,1,2,3,.,n
m N m x n x = 1 = p(x) N x =0 xR n
x
(3.20)
16
2)
m N m x nk F ( x) = P( X x) = k N k =0 n
3)
(3.21)
E ( x) = n
V ( x) = n
m N
m m N n 1 N N N 1
(3.22)
(3.23)
3.2
DISTRIBUCIONES
DE
PROBABILIDAD
DE
UNA
Son distribuciones de una variable aleatoria cuyo rango es un intervalo o una coleccin de intervalos. Las distribuciones continuas ms frecuentes en la experimentacin son: la Normal, la Chi-Cuadrada, la F y la T student.
La distribucin normal es la distribucin de probabilidad ms importante en la estadstica pues se ha observado que muchos fenmenos siguen esta distribucin o se aproximan a ella; adems se puede utilizar para aproximar diversas distribuciones de probabilidad.
17
DEFINICION.- Sea x una variable aleatoria continua que toma valores en cualquier intervalo de la recta real, se dice que x tiene una distribucin normal si su funcin de densidad est definida como:
f (x ) =
1 1 2 e 2
; - x
(3.24)
Donde:
= E(x)
>0
(3.25)
= Desviacin estndar
CARACTERSTICAS:
i. ii.
f(x)>0
;
x
2
(3.26) (3.27)
x
2
1 1 2 e 2
dx = 1
iii.
P (a x b ) = a
1 1 2 e 2
dx
(3.28)
18
DISTRIBUCION NORMAL ESTANDAR.- Sea z una variable aleatoria continua que sigue una Distribucin Normal, se dice que esa distribucin es una distribucin normal estndar si su media es cero y su varianza es uno. La funcin de densidad esta definida por:
f (z ) =
1 z e 2
; - z
(3.29)
Z N( 0 ,1 )
(3.30)
CARACTERSTICAS:
i. ii.
f(x)>0
;
2
(3.31) (3.32)
1 s 2 e ds = 1 2
b
iii.
P( a z b ) = a
1 s 2 e ds 2
(3.33)
Si x es una variable aleatoria continua, se dice que x tiene una distribucin Chi Cuadrado si su funcin de densidad es igual a:
n
(3.34)
x (2n)
donde n es llamado grados de libertad de la distribucin
(3.35)
Su grfica es:
Fig. 3.3 Curvas de distribucin Chi Cuadrado para varios grados de libertad.
E ( x) = x = n
(3.36)
20
V ( x ) = 2 = 2n
La funcin de distribucin acumulada
F ( x ) = P( X x ) = 0
1 s n / 21e s / 2 ds n 2 n / 2 2
(3.37)
3.2.3 DISTRIBUCION F
Es una distribucin de probabilidad de la razn de dos variables aleatorias Chi Cuadrado. Sean u y v variables aleatorias continuas que siguen una distribucin Chi Cuadrado cada una con f1 y f2 grados de libertad, es decir
u 12 ( f1 )
2 ( f2 ) v 2
(3.38)
f 2 12 w= 2 f1 2
f1 f (w ) = f 2
(3.39)
1 f 2 1
+ f2 )
(3.40)
Si 0 < w <
A esta funcin se conoce como la funcin de densidad de la distribucin F.
CARACTERSTICAS:
21
La Distribucin F depende de los parmetros, f1 y f2 que corresponden a los grados de libertad del numerador y del denominador respectivamente.
Notacin
w F ( f1 , f 2 )
E (w ) = f2 f2 2 f2 2
(3.41) (3.42)
V (w ) =
f1 ( f 2 2) ( f 2 4)
2
2 f 22 ( f 1 + f 2 2)
f2 4
(3.43)
F (w) = P (W w) = 0
f1 f 2
1 f1 2
1 1 ( f 1 + f 2 ) ( f +f 1 1 f f 2 w 2 1 + 1 w 2 f2 1 1 f 1 f 2 2 2
1 1
22
Sea u una variable aleatoria continua definida como la distribucin normal estndar entre la raz cuadrada de 2 sobre el grado de libertad r ,es decir.
u=
N (0,1)
2
r
(3.45)
Se dice que u tiene una distribucin t-Student con r grados de libertad si su funcin de densidad esta definida por:
r +1 2 f (u ) = r r 2
CARACTERISTICAS:
u2 1 + r
1 ( r +1) 2
- < u <
(3.46)
Esta funcin es muy importante porque tiene gran aplicacin en inferencia de muestras pequeas.
Notacin
u t(r )
(3.48)
Media y varianza
E (u ) = = 0
(3.49)
V (u ) = 2 =
r r2
r>2
23
1 1 (r + 1) 2 2 (u +1) u 2 u + 1 du F (u ) = P (U u ) = r 1 r r 2
(3.50)
3.3
PRUEBA DE HIPTESIS
S se est interesado en determinar si existe o no una diferencia significativa entre las medias de dos muestras A, B que tienen la misma varianza entonces se debe llevar a cabo una prueba t para comparar las
24
medias de las muestras a partir de la distribucin t-de Student para lo cual se realiza:
1)
SD =
(n A 1)V A + (n B 1)VB n A + nB 2
1 1 + n n B A
(3.51)
VA
( xi x A ) 2 = nA 1
; VB
( xi x B ) 2 = nB 1
(3.52)
donde VA y VB son las varianzas, nA y nB son el nmero de datos de las muestras respectivamente.
2)
Se calcula t para:
t=
xA xB SD
(3.53)
3)
t-de Student con nA + nB - 2 grados de libertad. Se calcula el valor descriptivo del estadstico de prueba es decir la probabilidad que la variable aleatoria t sea mayor que el estadstico de prueba P(t>tc). Si el valor del descriptivo estadstico es menor que 0.05 indica que hay diferencia significativa entre las medias.
25
Si se consideran dos muestras A y B, y se desea saber s hay una diferencia significativa entre las varianzas, entonces se debe realizar una prueba F para comparar las varianzas a partir de la distribucin F, siendo F como sigue:
F=
VA VB VB VA
s V A > VB
(3.54)
F=
s VB > V A
(3.55)
donde VA, VB son las varianzas de las muestras respectivamente. Para calcular la significacin del valor de F con fA = nA -1 y fB = nB 1, grados de libertad. Se calcula el valor descriptivo del estadstico de prueba es decir la probabilidad que la variable aleatoria F sea mayor que el estadstico de prueba. Si el valor del descriptivo estadstico es menor que 0.05 indica que hay diferencia significativa entre las varianzas.
S se tiene una muestra y se desea comparar el nmero real de eventos con el nmero esperado del mismo; para determinar s tienen una diferencia significativa, bajo la suposicin de que las variables aleatorias de la muestra siguen una distribucin conocida entonces se aplica una distribucin
26
Chi Cuadrado para comparar las frecuencias o eventos observados con los esperados, siendo Chi Cuadrado :
(ni ei ) 2 = ei i
2
(3.56)
con ni, nmero de eventos observados y ei, el nmero de eventos esperados. Despus evaluamos la significacin del valor 2 con n -1 grados de libertad, donde:
n = ni = ei
(3.57)
Para tal efecto, se calcula el valor descriptivo del estadstico de prueba es decir la probabilidad que la variable aleatoria 2sea mayor que el estadstico de prueba. Si el valor del descriptivo estadstico es menor que 0.05 indica que hay diferencia significativa entre los eventos ni y ei .
27
4.1
El caso ms simple de los mnimos cuadrados es el de las medidas directas, es decir, cuando uno realiza n medidas de una misma magnitud de un experimento por mtodos o instrumentos diferentes en el cual el resultado es una constante a desconocida, por ejemplo: la longitud de una barra medida con un vernier ,una regla etc.. Entonces los n valores medidos yi contienen cada uno un error i en general diferentes y se desea que el error de la medida sea mnimo para y=a. En este caso, el uso de la media no es correcto por que cada dato tiene un error; siendo lo mas recomendable, usar la distribucin Chi-Cuadrado para a. Aplicando esta distribucin se obtiene:
yi a (a ) = i =1 i
2
(4.1)
(4.2)
0=
i =1
yi
2 i
a
i =1
i2
(4.3)
a=
i2 2
i =1 i i =1 n i
(4.4)
28
Sea
S=
2 i =1 i
Sy =
yi
2 i =1 i
(4.5)
a = y i =1 i
2 a n 2 i
(4.6)
a = yi
2 i
2
i =1 i
i2 S
(4.7)
1 = 2 S i =1 i
2 a n 2 i
2 = a
(4.8)
n S 1 1 2 = = a 2 2 S S i =1 i
(4.9)
a =
1 = S
2
i =1 i
(4.10)
Despus se realiza una prueba Chi Cuadrado para saber que tan bueno es el ajuste, sea Q la probabilidad de que variable aleatoria continua u con funcin de distribucin Chi Cuadrado, con n -1 grados de libertad sea mayor o igual que 2, es decir:
Q = P (u 2 )
(4.11)
29
Si Q es mucho menor que 0,01 no es aceptable. Si Q no es aceptable entonces se debe usar uno de los siguientes mtodos para minimizar el error.
Fig. 4.1 Grfica de los datos para los mnimos cuadrados caso directo .
i '= i
yi a i =1 i n 1
n
(4.12)
30
4.2
(caso lineal)
Cuando en un experimento tomamos 2 datos simultneamente lo que nos interesa es saber la relacin entre los 2 datos y cual es la variable dependiente y cual la independiente; frecuentemente esta relacin es del tipo lineal o se puede linealizar a una recta y = a + bx. Usando el mtodo de los mnimos cuadrados se pueden hallar los parmetros a y b con los datos de xi ,yi y el error i de yi, suponiendo que los parmetros a y b siguen una distribucin Chi-Cuadrado.
yi a bxi (a, b ) = i i =1
2 n
(4.13)
yi a bxi (a, b ) = i i =1
2 n
(4.14)
Lo que nos interesa es minimizar esta ecuacin para as poder determinar los valores de a y b en forma ms precisa. Esto se logra derivando 2 (a,b) respecto a a y b e igualando a cero, obtenindose:
n y a bxi 2 =-2 i 0= a i2 i =1
(4.15)
31
n x ( y a bx ) 2 i =-2 i i 2 0= b i i =1
(4.16)
Luego
0=
i =1
yi a bxi
i2
xi yi axi bxi2
(4.17)
0=
i =1
i2
(4.18)
Sea
S =
i =1
i2
xi
(4.19)
Sx =
i =1
i2
xi2
Sy =
i =1
yi
i2
xi y i
(4.20)
S xx =
i =1
2 i
; S xy =
i =1
i2
(4.21)
(4.22)
(4.23)
= SS xx (S x ) a= b= SS xy - S x S y
(4.24) (4.25)
S xx S y S x S xy
(4.26)
32
Para calcular el error de los parmetros a y b usamos la propagacin de errores de la transformacin lineal para cada parmetro, es decir:
a = y i =1 i
2 a n 2 i
(4.27)
a S xx S x xi = yi i2
b = y i =1 i
2 b n 2 i
(4.28)
(4.29)
b Sxi S x = yi i2
entonces:
(4.30)
2 a =
S xx
2 ; b =
(4.31)
S xx
; b =
33
4.2.3 PRUEBA
CHI
CUADRADO
PARA
LOS
MINIMOS
CUADRADOS(caso lineal)
Para saber que tan bueno es el ajuste realizado a la recta se hace una prueba Chi Cuadrado, siendo:
yi a bxi (a, b ) = i i =1
2 n
(4.32)
Con n-2 grados de libertad. Sea Q la probabilidad de la variable aleatoria continua u con funcin de distribucin Chi Cuadrado con n -2 grados de libertad sea mayor o igual que 2, es decir:
Q = P (u 2 )
Si Q es ms grande que 0,1 es un buen ajuste. Si Q es mayor que 0,01 es aceptable.
(4.33)
Si Q es mucho menor que 0,01 no es aceptable, es un mal ajuste. Esto nos quiere decir que hemos cometido muchos errores o que la distribucin de los datos no sigue una lnea recta. Si estamos seguros de que s sigue una lnea recta, podemos obviar los datos mas alejados de la recta, como aparece en la figura (4.2) el punto descartado.
Fig. 4.2 Grfica de los datos para los mnimos cuadrados caso indirecto (caso lineal).
34
i '= i
y i a bxi i i =1 n2
n
(4.34)
4.2.4 MNIMOS CUADRADOS EN MEDIDAS INDIRECTAS (caso lineal cuando pasa por el origen)
En este caso se considera que la relacin lineal entre dos variables tomadas simultneamente en un experimento es una recta que pasa por el origen y = bx. Usando el mtodo de los mnimos cuadrados se pueden hallar el parmetro b con los datos de xi ,yi y el error i de yi, suponiendo que el parmetro b siguen una distribucin Chi-Cuadrado.
yi bxi (b ) = i =1 i
2 n
(4.35)
Luego minimizamos derivando la distribucin Chi Cuadrado respecto a b e igualando a cero, obtenindose:
n x ( y bx ) 2 =-2 i i 2 i b i i =1
0=
(4.36)
Luego
0=
i =1
xi yi bxi2
i2
(4.37)
Sea 35
S =
i =1
i2
xi
(4.38)
Sx =
i =1
i2
xi2
Sy =
i =1
yi
i2
xi y i
(4.39)
S xx =
i =1
2 i
; S xy =
i =1
i2
(4.40)
bS xx = S xy b =
S xy S xx
(4.41)
Para calcular el error del parmetro b usamos la propagacin de errores de la transformacin lineal, es decir:
b = y i =1 i
2 b n 2 i
x b = 2i yi i S xx
(4.42)
entonces:
2 b =
1 S xx
(4.43)
1 S xx
Despus para saber que tan bueno es el ajuste realizado a la recta se hace una prueba Chi Cuadrado, siendo:
y i bxi (b ) = i =1 i
2 n
(4.44)
36
Con n-1 grados de libertad. Sea Q la probabilidad de la variable aleatoria continua u con funcin de distribucin Chi Cuadrado con n -1 grados de libertad sea mayor o igual que 2, es decir:
Q = P (u 2 )
Si Q es ms grande que 0,1 es un buen ajuste. Si Q es mayor que 0,01 es aceptable.
(4.45)
Si Q es mucho menor que 0,01 no es aceptable, es un mal ajuste.Esto nos quiere decir que hemos cometido muchos errores o que la distribucin de los datos no sigue una lnea recta. Si estamos seguros de que s sigue una lnea recta, podemos obviar los datos mas alejados de la recta, como aparece en la figura (4.3) el punto descartado.
Fig. 4.3 Grfica de los datos para los mnimos cuadrados caso indirecto (caso lineal cuando pasa por el origen).
i '= i
y i bxi i =1 i n 1
n
(4.46)
37
CAPTULO. V: REGRESIN
5.1
REGRESIN LINEAL
Estudia la relacin entre dos variables x y y a travs de un modelo lineal que se ajusta a una recta y = a+bx donde a y b son los parmetros. Nosotros estudiaremos la regresin lineal como un caso simple de los mnimos cuadrados, es decir sin considerar el error de yi , i.
5.2
DETERMINACION
DE
LOS
PARAMETROS
DE
LA
REGRESION LINEAL
2 (a ,b ) = ( yi a bxi )2
i =1
(5.1)
Luego, minimizamos esta ecuacin derivando con respecto a a y b e igualamos a cero para:
n 2 0= = - 2 ( yi a bxi ) a i =1
(5.2)
0=
n 2 = - 2 xi y i axi bxi2 b i =1
(5.3)
luego
38
yi = na + b xi
i =1 n i =1
(5.4)
n
yi xi = a xi + b xi2
i =1 i =1 i =1
(5.5)
Que son dos rectas. Resolviendo estas ecuaciones obtenemos los valores de a y b:
a=
xi2 yi xi xi yi
i =1
n x ( xi )
i =1 2 i i =1 n n n
i =1 n
i =1 n
i =1
(5.6)
b=
n x i y i xi
i =1 n 2 i i =1 n
yi
i =1
n x ( xi )
i =1 i =1
(5.7)
5.3
PROPAGACION
DE
LOS
ERRORES
DE
LOS
Para calcular el error de los parmetros a y b primero tenemos que calcular el error tpico de estimacin, que est definido por:
xy =
( yi a bxi ) 2
i =1
n2
(5.8)
2 2 = yx a
a y i
39
(5.9)
a = yi
x
i =1 n i =1
2 i 2 i
xi xi
i =1 n
n x ( xi )
i =1
(5.10)
2
a = yx
xi2
i =1
n x ( xi )
i =1 2 i i =1
(5.11)
2
2 2 b = yx b y i n
(5.12)
b = yi
nxi xi n x ( xi )
i =1 2 i i =1 n i =1 n
(5.13)
2
b = yx
n n x ( xi )
i =1 2 i i =1 n n 2
(5.14)
5.4
EL ORIGEN
40
En este caso estudiamos la relacin entre dos variables x y y a travs de un modelo lineal que se ajusta a una recta que pasa por el origen de coordenadas de la forma y = bx donde b es el parmetro que deseamos conocer entonces consideraremos que:
2 (b ) = ( yi bxi )2
i =1
(5.15)
Luego, minimizamos esta ecuacin derivando con respecto a b e igualamos a cero para:
n x 2 = - 2 xi yi bxi2 0= b i =1
(5.16)
luego
yi xi = b xi2
i =1 i =1
(5.17)
entonces:
b=
xi y i
i =1 n
x
i =1
(5.18)
2 i
Para calcular el error del parmetro b primero tenemos que calcular el error tpico de estimacin, que est definido por:
xy =
( yi bxi ) 2
i =1
n 1
(5.19)
41
2 2 b = yx
b yi
b = yi
xi
x
i =1
(5.20)
2 i
entonces
b = yx
x
i =1
(5.21)
2 i
Donde b es el error de b.
Fig. 5.2 Grfica mostrado por el programa para la regresin lineal (caso lineal cuando pasa por el origen).
5.5
COEFICIENTE DE CORRELACION
Es la medida del grado de relacin entre dos variables x y y que se representa por r y su valor esta comprendido entre: -1 r 1. El coeficiente de correlacin lineal se define como:
42
r=
n i =1
xi x yi y
i =1
xi x y i y
i =1
cov( x, y ) x . y
(5.22)
El coeficiente de correlacin r que nos indica que tan buena es la relacin y se interpreta como:
Si r=1 entonces la relacin entre las variables es perfecta. Si 0 < r 1 entonces la relacin entre las variables es directa. Si -1 r < 0 entonces la relacin entre las variables es indirecta. Si 0,8 r 1 -1 r -0,8 entonces la relacin entre las variables es muy buena. Si 0,5 r 0,8 -0,8 r -0,5 entonces la relacin entre las variables es regular a buena. Si 0 < r < 0,5 -0,5 < r < 0 entonces podemos afirmar que casi no existe relacin entre las variables.
5.6
LOGARITMICAS, POTENCIALES.
La linealizacin se hace cuando el ajuste no es lineal para lo cual se hace unos cambios de variables; los casos ms frecuentes son:
y = AeBx
(5.23)
43
(5.24) (5.25)
y=A+Blnx,
(5.26)
y = A + BX
(5.27)
y = AxB
(5.28)
(5.29) (5.30)
44