Sunteți pe pagina 1din 44

CAPTULO.

I: INTRODUCCIN

1.1

LA ESTADSTICA EN LA FSICA

Al estudiar muchos fenmenos fsicos en forma experimental se est obligado a dar un resultado generalizado de los datos tomados en un experimento. La Estadstica se llega a utilizar para poder extraer conclusiones sobre el fenmeno fsico bajo estudio.

Como un procedimiento de toma de decisiones, la Estadstica se emplea hoy en da para toda clase de estudios cientficos. Al realizar un experimento lo nico que se obtiene son datos, los cuales indican el comportamiento del fenmeno estudiado. Estos datos se obtienen de los diferentes aparatos de medicin; es necesario realizar procedimientos de anlisis para poder dar un resultado genrico para lo cual necesitamos una teora que proporcione este resultado, la Estadstica nos permitir realizar esto.

Hoy en da la estadstica es una herramienta muy utilizada en la fsica, pues para dar cualquier resultado generalizado de un experimento en la forma de conclusiones junto con la confiabilidad de los mismos, es

necesario hacer un anlisis de datos mediante la estadstica

1.2

ORGANIZACIN DE DATOS

Cuando se compilan datos, es mejor que estn ordenados de forma ascendente o descendente para poder procesarlos. Pueden ser clasificados en cierta forma sistemtica para transmitir su significado ms sencillamente.

Los datos, el conjunto de valores especficos observados en un experimento comprenden lo que se conoce como una muestra, de la cual deseamos deducir algunas propiedades acerca del estado del sistema fsico bajo consideracin.

Para decidir como deben ser organizados y presentados los datos, debemos conocer la naturaleza de ellos y el objeto de la investigacin para segn eso clasificarlos en cuadros de frecuencia, datos univariables, datos bivariables, datos multivariables, etc.

Luego se calculan medidas descriptivas, tales como: proporciones, promedios o desviaciones estndares, los cuales nos indican el

comportamiento de nuestros experimentos.

1.3

LA

NECESIDAD

DE

LA

COMPUTADORA

EN

EL

ANLISIS DE DATOS

Al realizar un experimento lo nico que se obtienen son datos y stos, despus de un anlisis, dan los resultados buscados. Los clculos para este anlisis son a veces muy tediosos y mecnicos. Adems cuando se busca mayor precisin en los resultados hay la necesidad de tomar grandes cantidades de datos o realizar varias veces el mismo. Estos clculos tediosos que son mecnicos pueden ser implementados en un computador, de esta forma se evitara errores humanos y se ganara tiempo, liberando al estudiante para realizar otras actividades como repetir el experimento o tomar medidas adicionales.

La tendencia actual con el abaratamiento de los costos de los microcircuitos, es la de cada vez mas, automatizar los instrumentos de medida, los cuales dan los resultados de medidas en forma digital, lo cual

hace natural el uso de computadoras no slo en la etapa de toma de datos sino tambin en el procesamiento de los mismos.

1.4

MANEJO DE ERRORES EN COMPUTADOR

Si bien la computadora posee un error de truncamiento y aproximacin al hacer clculos con nmeros de punto fluctuante, tambin da resultados muy precisos, siempre que se use la forma correcta de programacin para reducir estos errores. Por lo tanto, es un objetivo importante del presente trabajo obtener el menor error posible en el clculo del anlisis de datos debido a los errores de truncamiento y aproximacin cometidos por la unidad matemtica de procesamiento de punto flotante del computador. La forma como son manejados estos errores es tratando de evitar las operaciones que acarrean mayor error, as como buscando formas de racionalizacin ms convenientes y funciones apropiadas al

funcionamiento de la unidad matemtica de procesamiento (coprocesador matemtico).

Por ejemplo en el caso de los mnimos cuadrados para evitar los errores de truncamiento de la diferencia de dos nmeros grande y prximos se usa una transformacin lineal para

CAPTULO. II. DISTRIBUCIONES DE VARIABLES ALEATORIA

2.1

DISTRIBUCIN DE UNA VARIABLE ALEATORIA

Supongamos que deseamos saber la temperatura en una habitacin y tenemos varios termmetros en la habitacin cul sera la temperatura de la habitacin?. La respuesta sera el promedio de estas temperaturas pues ste nos indicara la temperatura media en la habitacin. Entonces los primeros conceptos que debemos definir son:

EXPERIMENTO ALEATORIO.- Es un experimento en el cual no se puede precisar un resultado analtico del mismo sino slo la probabilidad de cierta hiptesis dada.

VARIABLE ALEATORIA.- Es una funcin que nos permite asignar un nmero real a cada elemento asociado con un experimento aleatorio por ejemplo:

En un experimento que consiste en lanzar 3 monedas la variable aleatoria del nmero de sellos S obtenidas en dicho experimento es:

S = {CCC, CCX, CXC, XCC, CXX, XCX, XXC, XXX}

Donde, por ejemplo, CXC significa que la primera moneda cayo cara la segunda sello y la tercera cara.

Si bien existen variables aleatorias de tipo discretas y continuas. Este capitulo se ocupara de los momentos de las variables discretas que son variables numerables.

VARIABLE ALEATORIA DISCRETA.- Si el rango de todos los valores de X esta formada por una agrupacin de valores finito o infinito numerable entonces se dice que la variable aleatoria es discreta puesto que proviene de un experimento aleatorio. Las variables estn asociadas a una funcin f(x) = P(X=x), caracterizada por los siguientes principios: P(X=x)=p(x) 0 x Rx

a)

(2.1)

b)

xRx

p(x) = 1

(2.2)

VARIABLE ALEATORIA CONTINUA.- Sea x una variable aleatoria, se dice que x es una Variable Aleatoria Continua si su rango de valores posibles es un intervalo o una coleccin de intervalos de la recta real. La variable est asociada a una funcin f(x) llamada funcin de densidad de probabilidad que cumple las siguientes condiciones:

i.

f ( x) 0

(2.3)

ii.

f ( x)dx = 1

(2.4)

iii.

(a, b) x entonces la probabilidad de encontrar un valor en este rango es:

P(a x b) =

a f ( x)dx
5

(2.5)

NOTA.- La funcin de Densidad de Probabilidades por si solo no es una probabilidad. Para hallar la probabilidad es necesario integrar dicha funcin y est caracterizada por:

a)

El rea acotada entre los puntos a y b, la curva de la funcin de

densidad y el eje x como aparece en la figura (2.1). El rea total acotada por la funcin f(x) los puntos externos del x y el

b)

eje x siempre se expresar en la parte (+) del eje y de las coordenadas cartesianas.

Fig. 2.1 rea de la funcin de densidad de probabilidad.

Para una variable aleatoria continua:

P(a x b) = P(a < x b) = P(a x < b) = P(a < x < b) P(X=x0) = 0

(2.6) (2.7)

FUNCIN DE DISTRIBUCIN ACUMULADA.- Sea x una variable aleatoria, la funcin de distribucin acumulada de una variable aleatoria x esta definida como la probabilidad de todos los valores del rango de X hasta el valor x.

F(x) = P (X x)

(2.8)

a)

Si x es una variable aleatoria discreta entonces:

F(x) = P(X x) =

x j xRx

p( x j )

(2.9)

b)

Si x es una variable aleatoria continua entonces:

F ( x) = f ( s )ds
CARACTERISTICAS DE LA FUNCIN DE DISTRIBUCIN:

(2.10)

i.

La funcin de distribucin F es una funcin no decreciente

Fig. 2.2 funciones de distribucin acumulada (a) para una variable aleatoria discreta, y (b) para una variable aleatoria continua.

ii.

lim F(x) = 0 F( ) = 0

(2.11)

lim F ( x) = 1 F () = 1

(2.12)

iii.

Si x es una variable aleatoria continua la probabilidad de x se encuentra en algn intervalo (a,b) es:

P(a x b)= F(b) - F(a)


iv. F puede ser una funcin continua o a saltos, figura (2.2). 7

(2.13)

v.

La funcin de probabilidad o densidad de una variable aleatoria se puede definir a travs de la funcin de distribucin, esto es:

Si x es una variable aleatoria discreta:

P(xi ) = F(xi ) - F(xi -1 )

x Rx

(2.14)

Si x es una variable aleatoria continua:

f ( x) =

dF ( x ) dx

(2.15)

2.1.1 MOMENTOS DE LA DISTRIBUCION DE UNA VARIABLE ALEATORIA


Los momentos de una variable discreta son:

MEDIA O PROMEDIO DE UNA VARIABLE.- Indica el valor central de la distribucin de una variable y se define como:

x=
Donde:

fi xi fi

(2.16)

fi : Es la frecuencia con que se repiten los xi (datos de las variables aleatorias)

VARIANZA MUESTRAL DE UNA VARIABLE.- Da la medida de la dispersin relativo a la media al cuadrado y se define:
2 1 V = (xi x ) f i n 1

n = fi

(2.17)

Donde: n-1: Son los grados de libertad que se define como el nmero de observaciones linealmente independientes que ocurren.

SESGO DE UNA VARIABLE.- Nos indica la simetra de la distribucin de la variable definida por:

1 xi x = fi n V

n = fi

(2.18)

2.1.2 ESTADSTICOS DERIVADOS DE LOS MOMENTOS.

Como la varianza resulta engorrosa para dar resultados prcticos porque las unidades estn al cuadrado, podemos sacarle la raz cuadrada y obtendremos lo que llamamos la desviacin estndar.

LA DESVIACION ESTANDAR DE UNA VARIABLE.- Nos indica el ancho de la dispersin y esta definida por:

(xi x )
n 1

fi

= V ;

n = fi

(2.19)

2.2

DISTRIBUCIN DE DOS VARIABLES ALEATORIA

Supongamos que tenemos dos variables aleatorias y queremos saber el comportamiento simultneo de stas y si hay o no una relacin de dependencia para poder saber como se van a estudiar estas variables.

2.2.1 MOMENTOS DE LA DISTRIBUCIN DE DOS VARIABLES ALEATORIA

MEDIA O PROMEDIO DE DOS VARIABLES.- Se define como en el apartado anterior para cada variable.

x=
Donde:

fi xi fi

y=

fi yi fi

(2.20)

fi : Es la frecuencia con que se repiten los (xi , yi) (datos de las variables aleatorias)

VARIANZA DE DOS VARIABLES.- Se define para cada variable como:

Vx

(x i x ) =
n 1

fi

Vy

(y y) = i
n 1

fi

(2.21)

COVARIANZA DE DOS VARIABLES.- Es la dependencia lineal mas simple entre dos variables, cuanto ms grande el valor absoluto de la covarianza mayor es la dependencia entre las variables y se define como:

Cov( x, y ) =

(xi x )( yi y ) fi
n 1

(2.22)

2.2.2 ESTADSTICOS DERIVADOS DE LOS MOMENTOS.


DESVIACION ESTANDAR DE DOS VARIABLES.-

x = Vx

y = Vy

(2.24)

10

COEFICIENTE DE CORRELACION DE DOS VARIABLES.- Nos indica el grado de covariabilidad entre las variables o grado de relacin entre las variables y se define como:

( x, y ) =

Cov( x, y ) ( x ) ( y )

(2.23)

y se debe encontrar entre -1 < < 1

Si existe una relacin lineal exacta entre ambas variables x, y y todos los puntos estn en una lnea y=a+bx el coeficiente de correlacin es = 1 (b>0), si lo hacen en sentido opuesto = -1 (b<0) y si = 0 ya no hay correlacin.

11

CAPTULO. III. DISTRIBUCIONES DE PROBABILIDADES

Para poder definir algunas distribuciones de probabilidad como la Chi Cuadrado y otras necesitamos, definir la funcin Gamma.

Funcin Gamma.- Sea a un valor real mayor que cero (a>0) la funcin Gamma se define como la integral.

( a ) = 0 x a 1e x dx
al desarrollar esta integral por partes obtenemos:

(3.1)

(a ) = 0 x a 1e x dx = ( a 1)! si a es un entero

(3.2)

Combinacin.-Es un arreglo sin considerar el orden de los elementos y se define como el nmero de combinaciones diferentes de n elementos tomados de x en x.

n! n = x x!(n x)!

(3.3)

3.1

DISTRIBUCIONES

DE

PROBABILIDAD

DE

UNA

VARIABLE ALEATORIA DISCRETA

Son distribuciones de una variable aleatoria cuyo rango es finito o infinito numerable, entonces esta variable podr seguir ciertas distribuciones de probabilidad segn sea el experimento. Nosotros trataremos las ms

12

frecuentes: la Binomial, y la de Poisson pero existen otras como la Hipergeomtrica, Multinomial, Geomtrica, etc.

3.1.1 DISTRIBUCIN BINOMIAL

Si se producen n pruebas independientes de un experimento aleatorio donde se producen dos eventos mutuamente excluyentes (xito o fracaso) y adems la probabilidad de xito p permanece constante de prueba a prueba, entonces la variable aleatoria X que se define como el nmero de xitos en las n pruebas independientes del experimento, se dice que esta variable sigue una distribucin binomial que se denomina por:

X B ( n, p )

(3.4)

cuya funcin de probabilidad se caracteriza por:

n x n x p( x ) = P( X = x ) = W = p (1 p ) x
n x

(3.5)

x = 0,1,2,..........,n
Donde:

Rx = { 0,1,2,..........,n }

n : Nmero de pruebas o tamao de la muestra aleatoria. p : Probabilidad de xito en cada prueba.

CARACTERISTICAS:

Cumple con las condiciones: p(x) 0 p(x)=0

i.

; ;

x=0,1,2,3,.,n x Rx

(3.6)

13

ii.

n n x n x ( ) p x = p (1 p ) = 1 x =0 x =0 x n

(3.7)

Funcin de Distribucin Acumulada


n n k nk ( ) p x = i k p (1 p ) x x k =0
i

F ( x ) = P( X x ) =

(3.8)

E(x) = np

(3.9)

V(x) = np (1-p)
Definiendo q = 1-p, la probabilidad de fracaso

(3.10)

V(x) = npq

; x = npq

(3.11)

3.1.2 DISTRIBUCION DE POISSON

Si se producen fenmenos en intervalos continuos tales como emisiones de partculas por segundo, molculas de gas por m3, es decir cuando se hace conteo de xitos en estos intervalos continuos o cuando s hace conteo de xitos en muestras aleatorias bastante grandes con probabilidad de xito bastante pequeo, entonces a la variable aleatoria X que se define como el nmero de xitos en un intervalo continuo o nmero de xitos de las n pruebas (n ), se dice que esta variable X tiene una Distribucin de Poisson.

X P ( x)

(3.12)

14

cuya funcin de probabilidad es:

p( x ) = P( X = x ) =

e - x x!
; Rx = { 0,1,2,.......... }

(3.13)

x = 0,1,2,.......... : nmero de xitos

= np (n pruebas independientes (n )(p 0))

CARACTERSTICAS:

1) i. p(x) 0 ; ; ; x=0,1,2,3,.,n

e x 0 x!
p(x)=0

x Rx
x Rx

(3.14)

ii.

e - x x! = 1 x =0

(3.15)

2)

e - k F (x ) = P ( X x ) = k! k =0 x = 0,1,2....
x

(3.16)

3) E(x) = V(x) = (3.17)

15

3.1.3 DISTRIBUCIN HIPERGEOMTRICA

Esta distribucin se aplica cuando el tamao de la poblacin es finito y el muestreo que se realiza es sin reemplazo adems en ella se producen dos eventos mutuamente excluyentes xito o fracaso luego la variable aleatoria X que se define como el nmero de xitos en la muestra

Definiendo : N : el tamao de la poblacin de un muestreo sin reemplazo. n : el tamao de la muestra de un muestreo sin reemplazo. m : el nmero de xitos en la poblacin de un muestreo sin reemplazo. Entonces X tiene una funcin de distribucin hipergeomtrica

X H ( N , n, m )

(3.18)

cuya distribucin de probabilidad es:

m N m x n x p(x ) = P( X = x ) = N n
x = 0,1,2,..........,min(n,m) ;

(3.19)

Rx = { 0,1,2,..........,min(n,m )}

CARACTERSTICAS:

1) p(x) 0 ; x=0,1,2,3,.,n

m N m x n x = 1 = p(x) N x =0 xR n
x

(3.20)

16

2)

m N m x nk F ( x) = P( X x) = k N k =0 n
3)

(3.21)

E ( x) = n
V ( x) = n

m N
m m N n 1 N N N 1

(3.22)

(3.23)

N n Factor de correccin para poblacin finita N 1

3.2

DISTRIBUCIONES

DE

PROBABILIDAD

DE

UNA

VARIABLE ALEATORIA CONTINUA

Son distribuciones de una variable aleatoria cuyo rango es un intervalo o una coleccin de intervalos. Las distribuciones continuas ms frecuentes en la experimentacin son: la Normal, la Chi-Cuadrada, la F y la T student.

3.2.1 DISTRIBUCIN NORMAL

La distribucin normal es la distribucin de probabilidad ms importante en la estadstica pues se ha observado que muchos fenmenos siguen esta distribucin o se aproximan a ella; adems se puede utilizar para aproximar diversas distribuciones de probabilidad.

17

DEFINICION.- Sea x una variable aleatoria continua que toma valores en cualquier intervalo de la recta real, se dice que x tiene una distribucin normal si su funcin de densidad est definida como:

f (x ) =

1 1 2 e 2

; - x

(3.24)

Donde:

y son los parmetros que definen la distribucin.

= E(x)

>0

(3.25)

= Desviacin estndar
CARACTERSTICAS:

i. ii.

f(x)>0

;
x
2

(3.26) (3.27)
x
2

1 1 2 e 2

dx = 1

iii.

P (a x b ) = a

1 1 2 e 2

dx

(3.28)

Fig. 3.1 Grafico general de la distribucin Normal.

La mas usada es la Distribucin Normal Estndar.

18

DISTRIBUCION NORMAL ESTANDAR.- Sea z una variable aleatoria continua que sigue una Distribucin Normal, se dice que esa distribucin es una distribucin normal estndar si su media es cero y su varianza es uno. La funcin de densidad esta definida por:

f (z ) =

1 z e 2

; - z

(3.29)

A la variable aleatoria z se le denota como:

Z N( 0 ,1 )

(3.30)

CARACTERSTICAS:

i. ii.

f(x)>0

;
2

(3.31) (3.32)

1 s 2 e ds = 1 2
b

iii.

P( a z b ) = a

1 s 2 e ds 2

(3.33)

Fig. 3.2 Grafico de la distribucin Normal Estndar =0, =1.

3.2.2 DISTRIBUCIN CHI-CUADRADO


19

Si x es una variable aleatoria continua, se dice que x tiene una distribucin Chi Cuadrado si su funcin de densidad es igual a:

1 x n / 21 e x / 2 x 0 n n 2 f ( x ) = 2 2 0 cualquier otro caso


CARACTERSTICAS:

n
(3.34)

Esta distribucin Chi Cuadrado (2) es denotada por

x (2n)
donde n es llamado grados de libertad de la distribucin

(3.35)

Su grfica es:

Fig. 3.3 Curvas de distribucin Chi Cuadrado para varios grados de libertad.

E ( x) = x = n

(3.36)

20

V ( x ) = 2 = 2n
La funcin de distribucin acumulada

F ( x ) = P( X x ) = 0

1 s n / 21e s / 2 ds n 2 n / 2 2

(3.37)

3.2.3 DISTRIBUCION F

Es una distribucin de probabilidad de la razn de dos variables aleatorias Chi Cuadrado. Sean u y v variables aleatorias continuas que siguen una distribucin Chi Cuadrado cada una con f1 y f2 grados de libertad, es decir

u 12 ( f1 )

2 ( f2 ) v 2

(3.38)

Adems u,v son variables aleatorias independientes entonces:

f 2 12 w= 2 f1 2
f1 f (w ) = f 2

tiene una funcin de densidad


1 1 ( f 1 + f 2 ) (f 1 1 f f1 2 2 w2 1 w + f2 1 1 f 1 f 2 2 2
1

(3.39)

1 f 2 1

+ f2 )

(3.40)

Si 0 < w <
A esta funcin se conoce como la funcin de densidad de la distribucin F.

CARACTERSTICAS:

21

La Distribucin F depende de los parmetros, f1 y f2 que corresponden a los grados de libertad del numerador y del denominador respectivamente.

Notacin

w F ( f1 , f 2 )
E (w ) = f2 f2 2 f2 2

(3.41) (3.42)

V (w ) =

f1 ( f 2 2) ( f 2 4)
2

2 f 22 ( f 1 + f 2 2)

f2 4

(3.43)

La funcin de distribucin acumulada

F (w) = P (W w) = 0

f1 f 2

1 f1 2

1 1 ( f 1 + f 2 ) ( f +f 1 1 f f 2 w 2 1 + 1 w 2 f2 1 1 f 1 f 2 2 2
1 1

(3.44) Su grfica es:

Fig. 3.4 Curvas de distribucin F para varios grados de libertad.

22

3.2.4 DISTRIBUCION T DE STUDENT

Sea u una variable aleatoria continua definida como la distribucin normal estndar entre la raz cuadrada de 2 sobre el grado de libertad r ,es decir.

u=

N (0,1)

2
r

(3.45)

Se dice que u tiene una distribucin t-Student con r grados de libertad si su funcin de densidad esta definida por:

r +1 2 f (u ) = r r 2
CARACTERISTICAS:

u2 1 + r

1 ( r +1) 2

- < u <

(3.46)

Esta funcin es muy importante porque tiene gran aplicacin en inferencia de muestras pequeas.

Notacin

u t(r )

(3.48)

Media y varianza

E (u ) = = 0

(3.49)

V (u ) = 2 =

r r2

r>2

Funcin de distribucin acumulada

23

1 1 (r + 1) 2 2 (u +1) u 2 u + 1 du F (u ) = P (U u ) = r 1 r r 2

(3.50)

El grfico de la funcin de densidad tiene forma acampanada y simtrica.

Fig. 3.5 Curvas de distribucin t para n=1 y n>30 grados de libertad.

3.3

PRUEBA DE HIPTESIS

3.3.1 PRUEBA t PARA DIFERENCIA DE MEDIAS.

S se est interesado en determinar si existe o no una diferencia significativa entre las medias de dos muestras A, B que tienen la misma varianza entonces se debe llevar a cabo una prueba t para comparar las

24

medias de las muestras a partir de la distribucin t-de Student para lo cual se realiza:

1)

Se estima el error estndar de la diferencia de medias, SD, a

partir de la combinacin de las varianzas:

SD =

(n A 1)V A + (n B 1)VB n A + nB 2

1 1 + n n B A

(3.51)

VA

( xi x A ) 2 = nA 1

; VB

( xi x B ) 2 = nB 1

(3.52)

donde VA y VB son las varianzas, nA y nB son el nmero de datos de las muestras respectivamente.

2)

Se calcula t para:

t=

xA xB SD

(3.53)

donde x A y x B son las medias de las muestras respectivamente.

3)

Para calcular la significacin del valor de t, para la distribucin

t-de Student con nA + nB - 2 grados de libertad. Se calcula el valor descriptivo del estadstico de prueba es decir la probabilidad que la variable aleatoria t sea mayor que el estadstico de prueba P(t>tc). Si el valor del descriptivo estadstico es menor que 0.05 indica que hay diferencia significativa entre las medias.

25

3.3.2 PRUEBA F PARA LA DIFERENCIA DE VARIANZAS.

Si se consideran dos muestras A y B, y se desea saber s hay una diferencia significativa entre las varianzas, entonces se debe realizar una prueba F para comparar las varianzas a partir de la distribucin F, siendo F como sigue:

F=

VA VB VB VA

s V A > VB

(3.54)

F=

s VB > V A

(3.55)

donde VA, VB son las varianzas de las muestras respectivamente. Para calcular la significacin del valor de F con fA = nA -1 y fB = nB 1, grados de libertad. Se calcula el valor descriptivo del estadstico de prueba es decir la probabilidad que la variable aleatoria F sea mayor que el estadstico de prueba. Si el valor del descriptivo estadstico es menor que 0.05 indica que hay diferencia significativa entre las varianzas.

3.3.3 PRUEBA CHI CUADRADO DE BONDAD DE AJUSTE.

S se tiene una muestra y se desea comparar el nmero real de eventos con el nmero esperado del mismo; para determinar s tienen una diferencia significativa, bajo la suposicin de que las variables aleatorias de la muestra siguen una distribucin conocida entonces se aplica una distribucin

26

Chi Cuadrado para comparar las frecuencias o eventos observados con los esperados, siendo Chi Cuadrado :

(ni ei ) 2 = ei i
2

(3.56)

con ni, nmero de eventos observados y ei, el nmero de eventos esperados. Despus evaluamos la significacin del valor 2 con n -1 grados de libertad, donde:

n = ni = ei

(3.57)

Para tal efecto, se calcula el valor descriptivo del estadstico de prueba es decir la probabilidad que la variable aleatoria 2sea mayor que el estadstico de prueba. Si el valor del descriptivo estadstico es menor que 0.05 indica que hay diferencia significativa entre los eventos ni y ei .

27

CAPTULO. IV: MNIMOS CUADRADOS

4.1

MNIMOS CUADRADOS EN MEDIDAS DIRECTAS

El caso ms simple de los mnimos cuadrados es el de las medidas directas, es decir, cuando uno realiza n medidas de una misma magnitud de un experimento por mtodos o instrumentos diferentes en el cual el resultado es una constante a desconocida, por ejemplo: la longitud de una barra medida con un vernier ,una regla etc.. Entonces los n valores medidos yi contienen cada uno un error i en general diferentes y se desea que el error de la medida sea mnimo para y=a. En este caso, el uso de la media no es correcto por que cada dato tiene un error; siendo lo mas recomendable, usar la distribucin Chi-Cuadrado para a. Aplicando esta distribucin se obtiene:

yi a (a ) = i =1 i
2

(4.1)

Para minimizar derivamos respecto a a y obtenemos:


n yi a 2 = - 2 0= 2 a i =1 i

(4.2)

0=
i =1

yi

2 i

a
i =1

i2

(4.3)

de donde el valor de a ser:

a=

i2 2
i =1 i i =1 n i

(4.4)

28

Sea

S=

2 i =1 i

Sy =

yi

2 i =1 i

(4.5)

El error de a se obtiene a travs de la propagacin de errores de una transformacin lineal.

a = y i =1 i
2 a n 2 i

(4.6)

a = yi

2 i

2
i =1 i

i2 S

(4.7)

sustituyendo la ecuacin (4.7) en (4.6).

1 = 2 S i =1 i
2 a n 2 i
2 = a

(4.8)

n S 1 1 2 = = a 2 2 S S i =1 i

(4.9)

que es la varianza de a y el error es

a =

1 = S

2
i =1 i

(4.10)

Despus se realiza una prueba Chi Cuadrado para saber que tan bueno es el ajuste, sea Q la probabilidad de que variable aleatoria continua u con funcin de distribucin Chi Cuadrado, con n -1 grados de libertad sea mayor o igual que 2, es decir:

Q = P (u 2 )

(4.11)

Si Q es ms grande que 0,1 es un buen ajuste Si Q es mayor que 0,01 es aceptable .

29

Si Q es mucho menor que 0,01 no es aceptable. Si Q no es aceptable entonces se debe usar uno de los siguientes mtodos para minimizar el error.

a) Descartar los datos ms alejados segn una observacin grfica.

Fig. 4.1 Grfica de los datos para los mnimos cuadrados caso directo .

y luego proceder con el anlisis anterior.

b) Aumentar el error de cada dato de la forma:

i '= i

yi a i =1 i n 1
n

(4.12)

y luego proceder con el anlisis anterior.

30

4.2

MNIMOS CUADRADOS EN MEDIDAS INDIRECTAS

(caso lineal)

Cuando en un experimento tomamos 2 datos simultneamente lo que nos interesa es saber la relacin entre los 2 datos y cual es la variable dependiente y cual la independiente; frecuentemente esta relacin es del tipo lineal o se puede linealizar a una recta y = a + bx. Usando el mtodo de los mnimos cuadrados se pueden hallar los parmetros a y b con los datos de xi ,yi y el error i de yi, suponiendo que los parmetros a y b siguen una distribucin Chi-Cuadrado.

yi a bxi (a, b ) = i i =1
2 n

(4.13)

4.2.1 DETERMINACION DE LOS PARAMETROS (caso lineal)

Partimos de que los parmetros a y b siguen una distribucin Chi Cuadrado:

yi a bxi (a, b ) = i i =1
2 n

(4.14)

Lo que nos interesa es minimizar esta ecuacin para as poder determinar los valores de a y b en forma ms precisa. Esto se logra derivando 2 (a,b) respecto a a y b e igualando a cero, obtenindose:
n y a bxi 2 =-2 i 0= a i2 i =1

(4.15)

31

n x ( y a bx ) 2 i =-2 i i 2 0= b i i =1

(4.16)

Luego

0=
i =1

yi a bxi

i2
xi yi axi bxi2

(4.17)

0=
i =1

i2

(4.18)

Sea

S =
i =1

i2
xi

(4.19)

Sx =
i =1

i2
xi2

Sy =
i =1

yi

i2
xi y i

(4.20)

S xx =
i =1

2 i

; S xy =
i =1

i2

(4.21)

Sustituyendo en las ecuaciones (4.17) y (4.18) tenemos:

aS+bSx=Sy aSx+bSxx =Sxy


Resolviendo este sistema de ecuaciones obtenemos:

(4.22)

(4.23)

= SS xx (S x ) a= b= SS xy - S x S y

(4.24) (4.25)

S xx S y S x S xy

(4.26)

32

Siendo esta la solucin de a y b.

4.2.2 PROPAGACION DE ERRORES DE LOS PARAMETROS (caso lineal)

Para calcular el error de los parmetros a y b usamos la propagacin de errores de la transformacin lineal para cada parmetro, es decir:

a = y i =1 i
2 a n 2 i

(4.27)

a S xx S x xi = yi i2
b = y i =1 i
2 b n 2 i

(4.28)

(4.29)

b Sxi S x = yi i2
entonces:

(4.30)

2 a =

S xx

2 ; b =

(4.31)

que son la varianza de a y b y sus errores son a =

S xx

; b =

33

4.2.3 PRUEBA

CHI

CUADRADO

PARA

LOS

MINIMOS

CUADRADOS(caso lineal)

Para saber que tan bueno es el ajuste realizado a la recta se hace una prueba Chi Cuadrado, siendo:

yi a bxi (a, b ) = i i =1
2 n

(4.32)

Con n-2 grados de libertad. Sea Q la probabilidad de la variable aleatoria continua u con funcin de distribucin Chi Cuadrado con n -2 grados de libertad sea mayor o igual que 2, es decir:

Q = P (u 2 )
Si Q es ms grande que 0,1 es un buen ajuste. Si Q es mayor que 0,01 es aceptable.

(4.33)

Si Q es mucho menor que 0,01 no es aceptable, es un mal ajuste. Esto nos quiere decir que hemos cometido muchos errores o que la distribucin de los datos no sigue una lnea recta. Si estamos seguros de que s sigue una lnea recta, podemos obviar los datos mas alejados de la recta, como aparece en la figura (4.2) el punto descartado.

Fig. 4.2 Grfica de los datos para los mnimos cuadrados caso indirecto (caso lineal).

34

si no minimizamos el error de la siguiente forma:

i '= i

y i a bxi i i =1 n2
n

(4.34)

4.2.4 MNIMOS CUADRADOS EN MEDIDAS INDIRECTAS (caso lineal cuando pasa por el origen)

En este caso se considera que la relacin lineal entre dos variables tomadas simultneamente en un experimento es una recta que pasa por el origen y = bx. Usando el mtodo de los mnimos cuadrados se pueden hallar el parmetro b con los datos de xi ,yi y el error i de yi, suponiendo que el parmetro b siguen una distribucin Chi-Cuadrado.

yi bxi (b ) = i =1 i
2 n

(4.35)

Luego minimizamos derivando la distribucin Chi Cuadrado respecto a b e igualando a cero, obtenindose:
n x ( y bx ) 2 =-2 i i 2 i b i i =1

0=

(4.36)

Luego

0=
i =1

xi yi bxi2

i2

(4.37)

Sea 35

S =
i =1

i2
xi

(4.38)

Sx =
i =1

i2
xi2

Sy =
i =1

yi

i2
xi y i

(4.39)

S xx =
i =1

2 i

; S xy =
i =1

i2

(4.40)

Sustituyendo en la ecuacin (4.37) tenemos el valor de b:

bS xx = S xy b =

S xy S xx

(4.41)

Para calcular el error del parmetro b usamos la propagacin de errores de la transformacin lineal, es decir:

b = y i =1 i
2 b n 2 i

x b = 2i yi i S xx

(4.42)

entonces:

2 b =

1 S xx

(4.43)

que es la varianza de b y su error es: b =

1 S xx

Despus para saber que tan bueno es el ajuste realizado a la recta se hace una prueba Chi Cuadrado, siendo:

y i bxi (b ) = i =1 i
2 n

(4.44)

36

Con n-1 grados de libertad. Sea Q la probabilidad de la variable aleatoria continua u con funcin de distribucin Chi Cuadrado con n -1 grados de libertad sea mayor o igual que 2, es decir:

Q = P (u 2 )
Si Q es ms grande que 0,1 es un buen ajuste. Si Q es mayor que 0,01 es aceptable.

(4.45)

Si Q es mucho menor que 0,01 no es aceptable, es un mal ajuste.Esto nos quiere decir que hemos cometido muchos errores o que la distribucin de los datos no sigue una lnea recta. Si estamos seguros de que s sigue una lnea recta, podemos obviar los datos mas alejados de la recta, como aparece en la figura (4.3) el punto descartado.

Fig. 4.3 Grfica de los datos para los mnimos cuadrados caso indirecto (caso lineal cuando pasa por el origen).

si no minimizamos el error de la siguiente forma:

i '= i

y i bxi i =1 i n 1
n

(4.46)

37

CAPTULO. V: REGRESIN

5.1

REGRESIN LINEAL

Estudia la relacin entre dos variables x y y a travs de un modelo lineal que se ajusta a una recta y = a+bx donde a y b son los parmetros. Nosotros estudiaremos la regresin lineal como un caso simple de los mnimos cuadrados, es decir sin considerar el error de yi , i.

5.2

DETERMINACION

DE

LOS

PARAMETROS

DE

LA

REGRESION LINEAL

Al igual que en los mnimos cuadrados consideramos que:

2 (a ,b ) = ( yi a bxi )2
i =1

(5.1)

Luego, minimizamos esta ecuacin derivando con respecto a a y b e igualamos a cero para:
n 2 0= = - 2 ( yi a bxi ) a i =1

(5.2)

0=

n 2 = - 2 xi y i axi bxi2 b i =1

(5.3)

luego

38

yi = na + b xi
i =1 n i =1

(5.4)
n

yi xi = a xi + b xi2
i =1 i =1 i =1

(5.5)

Que son dos rectas. Resolviendo estas ecuaciones obtenemos los valores de a y b:

a=

xi2 yi xi xi yi
i =1

n x ( xi )
i =1 2 i i =1 n n n

i =1 n

i =1 n

i =1

(5.6)

b=

n x i y i xi
i =1 n 2 i i =1 n

yi
i =1

n x ( xi )
i =1 i =1

(5.7)

5.3

PROPAGACION

DE

LOS

ERRORES

DE

LOS

PARAMETROS DE LA REGRESION LINEAL

Para calcular el error de los parmetros a y b primero tenemos que calcular el error tpico de estimacin, que est definido por:

xy =

( yi a bxi ) 2
i =1

n2

(5.8)

Luego usamos el error de la transformacin lineal, entonces:

2 2 = yx a

a y i


39

(5.9)

a = yi

x
i =1 n i =1

2 i 2 i

xi xi
i =1 n

n x ( xi )
i =1

(5.10)
2

a = yx

xi2
i =1

n x ( xi )
i =1 2 i i =1

(5.11)
2

2 2 b = yx b y i n

(5.12)

b = yi

nxi xi n x ( xi )
i =1 2 i i =1 n i =1 n

(5.13)
2

b = yx

n n x ( xi )
i =1 2 i i =1 n n 2

(5.14)

Donde a y b son los errores de a y b.

Fig. 5.1 Grfica mostrado por el programa para la regresin lineal .

5.4

REGRESIN LINEAL EN EL CASO DE QUE PASE POR

EL ORIGEN
40

En este caso estudiamos la relacin entre dos variables x y y a travs de un modelo lineal que se ajusta a una recta que pasa por el origen de coordenadas de la forma y = bx donde b es el parmetro que deseamos conocer entonces consideraremos que:

2 (b ) = ( yi bxi )2
i =1

(5.15)

Luego, minimizamos esta ecuacin derivando con respecto a b e igualamos a cero para:
n x 2 = - 2 xi yi bxi2 0= b i =1

(5.16)

luego

yi xi = b xi2
i =1 i =1

(5.17)

entonces:

b=

xi y i
i =1 n

x
i =1

(5.18)
2 i

Para calcular el error del parmetro b primero tenemos que calcular el error tpico de estimacin, que est definido por:

xy =

( yi bxi ) 2
i =1

n 1

(5.19)

Luego usamos el error de la transformacin lineal, entonces:

41

2 2 b = yx

b yi

b = yi

xi

x
i =1

(5.20)
2 i

entonces

b = yx

x
i =1

(5.21)
2 i

Donde b es el error de b.

Fig. 5.2 Grfica mostrado por el programa para la regresin lineal (caso lineal cuando pasa por el origen).

5.5

COEFICIENTE DE CORRELACION

Es la medida del grado de relacin entre dos variables x y y que se representa por r y su valor esta comprendido entre: -1 r 1. El coeficiente de correlacin lineal se define como:

42

r=
n i =1

xi x yi y
i =1

xi x y i y

i =1

cov( x, y ) x . y

(5.22)

El coeficiente de correlacin r que nos indica que tan buena es la relacin y se interpreta como:

Si r=1 entonces la relacin entre las variables es perfecta. Si 0 < r 1 entonces la relacin entre las variables es directa. Si -1 r < 0 entonces la relacin entre las variables es indirecta. Si 0,8 r 1 -1 r -0,8 entonces la relacin entre las variables es muy buena. Si 0,5 r 0,8 -0,8 r -0,5 entonces la relacin entre las variables es regular a buena. Si 0 < r < 0,5 -0,5 < r < 0 entonces podemos afirmar que casi no existe relacin entre las variables.

5.6

LINEALIZACIN DE LAS CURVAS EXPONENCIALES,

LOGARITMICAS, POTENCIALES.

La linealizacin se hace cuando el ajuste no es lineal para lo cual se hace unos cambios de variables; los casos ms frecuentes son:

LA CURVA EXPONENCIAL.- Esta curva toma la forma general:

y = AeBx

(5.23)

y su linealizacin se realiza usando las propiedades de los logaritmos es decir:

43

lny = ln (AeBx ) lny =lnA + Bx


Sea Y=ln y, linealizada. y

(5.24) (5.25)

A=ln A entonces Y= A+Bx que es la curva

LA CURVA LOGARITMICA.- Esta curva toma la forma general:

y=A+Blnx,

(5.26)

haciendo que X=lnx tenemos:

y = A + BX

(5.27)

que es la curva linealizada.

LA CURVA POTENCIAL.- Esta curva toma la forma general:

y = AxB

(5.28)

y su linealizacin se realiza usando las propiedades de los logaritmos

lny = ln AxB lny = lnA + Blnx


Sea Y=lny, A=lnA linealizada.

(5.29) (5.30)

y X= lnx entonces Y = A + Bx que es la curva

44

S-ar putea să vă placă și