Introduccion Al Tratamiento Estadistico de Datos

CAPTULO 1
NTRODUCCIN AL
TRATAMIENTO DE DATOS
1.1 CONCEPTOS FUNDAMENTALES
La estadstica es una disciplina matemtica formada por un conjunto de mtodos adecuados para
manejar (recoger, representar, clasificar y resumir) datos, as como para hacer inferencias (extraer
consecuencias) cientficas a partir de ellos. Segn esta definicin podemos distinguir entre:
a) ESTADSTICA DESCRIPTIVA, estudia la poblacin de la que derivan los datos.
b) INFERENCIA ESTADSTICA, predice el comportamiento y extrae conclusiones a partir de una
informacin incompleta. Esta permite, a partir de los resultados de una(s) muestra(s), obtener
conclusiones vlidas para una poblacin entera.
Una POBLACIN de medidas son todas las posibles medidas que puedan ser realizadas, mientras que
MUESTRA es un conjunto de medidas seleccionadas de esa poblacin.
1.2 VARIABLES
Son propiedades respecto a las cuales los elementos de una muestra se diferencian entre s. Las variables
pueden ser medidas en tres tipos de escalas estadsticas:
a) ESCALA NOMINAL. Se utiliza cuando los individuos u objetos pueden slo ser descritos con palabras
(ejemplo un objeto puede ser blanco, negro, etc.). Estas suelen llamarse variables cualitativas,
categricas o atributos.
b) ESCALA ORDINAL. Se utiliza cuando se dan valores de rango a las variables. La calidad de un objeto
puede ser muy mala, mala, media, buena o excelente. Las variables medidas en esta escala se
denominan variables de rango.
c) ESCALA DE DIVISIONES E INTERVALOS. Se utilizan cuando la distancia o diferencia a lo largo de la
escala puede medirse con un nmero, por ejemplo las medidas de temperatura. Estas se denominan
variables cuantitativas o variables de medida.
Dentro de las VARIABLES CUANTITATIVAS podemos distinguir entre variables discretas y continuas.
a) VARIABLE DISCRETA cuando toma un nmero finito de valores o aunque dicho nmero sea infinito, si
pueden ser ordenados en una secuencia es una variable discreta. As los das del ao son variables
discretas.
b) VARIABLE CONTINUA cuando puede tomar cualquier valor dentro de un intervalo. As, son variables
continuas la concentracin, la longitud o la temperatura.
1.2.1 FRECUENCIA DE CLASE

Cuando se desean representar grficamente los valores de una determinada variable, es til agrupar dichos
valores en intervalos o clases y contar cuntas veces el valor de la variable se encuentra comprendido en
dicho intervalo. Al nmero de veces en que una variable se encuentra en dicho intervalo se le denomina
frecuencia de clase.
As por ejemplo si tomamos en cuenta al conjunto de estudiantes de una clase y los agrupamos por edades
entre 16 a 18, 19 a 21, 22 a 24 y 25 a ms aos, encontrando 10 estudiantes en el primer rango, 12 en el
segundo, 4 en el tercero y 3 en el cuarto, las frecuencias de clase para los intervalos serian estos valores.
Esto se observa mejor en la siguiente tabla:
Intervalo de edades
Nmero de estudiantes
16 a 18 aos
10
19 a 21 aos
12
22 a 24 aos
4
25 a ms aos
3
Frecuencia de clase
10
12
4
3
La representacin de los intervalos de la variable en funcin de la Frecuencia de los mismos se denomina

HISTOGRAMA (Figura 1). Si el valor del intervalo tiende a cero y se unen las frecuencias de cada uno de
dichos intrvalos, se obtienen una curva denominada funcin de densidad de probabilidad.
Figura 1. Histograma de concentracin y funcin de densidad de probabilidad.

1.3 MEDIDAS DE POSICIN Y DE DISPERSIN
1.3.1 MEDIDAS DE POSICIN
Las medidas de posicin dividen un conjunto de datos en grupos con el mismo nmero de individuos. En
general para calcular las medidas de posicin es necesario que los datos estn ordenados de menor a
mayor. Las principales medidas de posicin son:
1.3.1.1 MODA (M).

Es el valor ms frecuente de una distribucin y coincide con el mximo de la funcin de distribucin, ste
slo tiene sentido ante un gran nmero de datos, no ante unos pocos. Es un poco utilizado, ya que al utilizar
un nico dato de la poblacin implica una gran prdida de informacin.
= 1 , 2 , 3 , 2 , 4 , 5 , 2 ,
1.3.1.2 MEDIANA (m).

Si los datos de una variable se ordenan de mayor a menor, la mediana es aquel dato que deja tantas
observaciones de la variable por debajo como por encima de ella.
Para un conjunto de n datos, la mediana se calcula como:
1.3.1.2.1 Si el nmero de datos (n) es IMPAR (1, 3, 5, 7,), la mediana es:
m = xm (el valor central de la serie)
1.3.1.2.2 S i el nmero de datos (n) es PAR (2, 4, 6, 8,), la mediana es:
+ +1
=
2
Donde xm y xm+1, son los valores que se encuentran en el centro de la serie.
1.3.1.4 MEDIA.
Representa el valor ms probable de la variable. Si se cuenta con una gran cantidad de datos esto es una
poblacin, la media se estima a travs de la siguiente ecuacin:

=
Donde es la media poblacional, Xi es el valor de cada observacin y N es el nmero total de datos de la

poblacin.
Si la cantidad de datos es pequea y la media viene dada por la siguiente expresin:

=
Donde es la media de la muestra, Xi es el valor de cada observacin y n es el nmero total de datos de la

poblacin.
La media es el parmetro de posicin ms frecuente, sin embargo, tiene la desventaja de estar fuertemente
afectado por los valores extremos.
1.3.2 MEDIDAS DE DISPERSIN
Las medidas de dispersin nos informan sobre cuanto se alejan del centro los valores de la distribucin de
un conjunto de datos. Las medidas de dispersin ms frecuentes son:
1.3.2.1 RANGO (RECORRIDO O AMPLITUD)

Se define como la diferencia entre el valor ms grande y ms pequeo de una poblacin, siendo el parmetro
ms simple y de mayor valor intuitivo. Es de fcil clculo y se expresa en las mismas unidades que los datos
originales.
=
1.3.2.2 RANGO MEDIO
Es la media del menor y mayor valor, o la mitad del camino entre el dato de menor valor y el dato de mayor
valor.
+
=
2
1.3.2.3 DESVIACIN MEDIA ()

Se usa para definir una medida de dispersin en la que participen de modo efectivo todas las observaciones
de la poblacin.
| |
=
Suele interpretarse como la media aritmtica de las desviaciones absolutas respecto a la media.
1.3.2.4 DESVIACIN ESTNDAR O TPICA
Se calcula mediante las siguientes expresiones:
( )2
=
( )2
=
1
Donde es la desviacin estndar poblacional y s es la desviacin estndar muestral. La desviacin estndar

es la medida de dispersin que ms se utiliza en las ciencias.
1.3.2.5 VARIANZA
Es el cuadrado de la desviacin estndar, viene dada por las siguientes expresiones:
( )2
( )2
2
2
=
=
1
Donde 2 es la varianza poblacional y 2 es la varianza muestral. Es tambin muy utilizada ya que es fcil
de calcular. El principal inconveniente es que viene expresada en unidades que son el cuadrado de las
unidades de las observaciones originales.
1.3.2.6 DESVIACIN ESTNDAR RELATIVA (DER). Tambin llamada coeficiente de variacin (CV) se
estima a travs de la expresin:
= 100
= 100
La DER se expresa en % siendo un nmero independiente de las unidades de medida. Es muy utilizada
espacialmente cuando queremos informar del % de dispersin de datos.
4
1.4 LMITES DE CONFIANZA DE LA MEDIA

El intervalo dentro del cual podemos suponer de manera razonable que se encuentra el valor verdadero se
conoce como intervalo de confianza, y los valores extremos de dicho intervalo se llaman lmites de
confianza.
El tamao del intervalo de confianza depender de la certeza que queramos tener de que se incluya el valor
verdadero: cuanto ms grande sea la certeza, ms grande ser el intervalo requerido.
En la prctica generalmente disponemos de una poblacin de datos, con una media l () y una desviacin
estndar (S) conocidas por lo que el intervalo de confianza para la media a un 95% de probabilidad se calcula
como:
(0.05;1) ( ) < < + (0.05;1) ( )
El que podemos resumir como:
= (0.05;1) ( )
Donde t es el estadstico t de student; 0.05 es el nivel de riesgo de la prueba y que equivale a asumir un 5%
de error en su aplicacin; n-1 son los grados de libertad con los que se aplica la prueba, n es el nmero de
datos de la prueba. Los valores del estadstico t, se encuentran tabulados para un nivel de riesgo () y grados
de libertad (n-1) determinados.
1.5 TEST DE HIPTESIS
Los test de hiptesis se usan para aceptar o rechazar una hiptesis que se emite sobre un parmetro de una
poblacin. Los test de hiptesis, tambin llamados test de significacin o prueba de hiptesis, son un conjunto
de reglas que permiten decidir que hiptesis debe aceptarse o rechazarse a partir del resultado obtenido en
una muestra.
En un test de significacin se plantean dos hiptesis: la HIPTESIS NULA (H0) y la HIPTESIS
ALTERNATIVA (H1). Las siguientes reglas son de gran inters para la aplicacin de un test de hiptesis:
1. La hiptesis nula siempre debe plantearse como una igualdad: H0: 1 = 2
2. Toda hiptesis nula tiene su hiptesis alternativa, la cual es confirmada si la hiptesis nula es rechazada,
es decir si el test conduce a un resultado negativo: 1 : 1 2
3. Si la hiptesis nula no resulta rechazada ello no implica su aceptacin, sino que para los datos existentes
las diferencias no son concluyentes.
4. En todo test de hiptesis se pueden cometer dos tipos de errores: (tipo 1) y (tipo 2) (ver Figura 2).
5. Cada resultado de un test es slo vlido para un cierto nivel de significacin, P, libremente elegido. En
general se utiliza un nivel P = 0.95 que corresponde a un riesgo = 0.05 ( = 1 - P).
Figura 2. Errores tipo 1 y 2.

1.6 TIPOS DE ERRORES
1.
Error o de tipo 1: Concluir por H1 cuando es cierta H0 (falso positivo).
2.
Error o de tipo 2: Concluir por H0 cuando es cierta H1 (falso negativo).
Un investigador slo puede controlar el error , ya que puede elegir de antemano qu valor del error quiere
admitir. Generalmente se usa un = 0.05, lo que indica que estamos dispuestos a aceptar un error del 5%
cuando concluimos por H0. Al valor (1 - ) se le denomina nivel de confianza, lo que indica que tenemos un
95% de confianza en nuestra conclusin por H0. El error toma un valor distinto para cada alternativa que
consideremos.
As, si estima la probabilidad de decidir H0 cuando es cierta H1, entonces el valor 1- = ser la probabilidad
de decidir H1 cuando en realidad es cierta. Este valor se conoce como potencia de un test. Un test ser
tanto mejor cuando mayor sea su potencia (menor ).
1.7 TEST DE UNA Y DOS COLAS
Anteriormente hemos planteado la hiptesis nula y alternativa como:
H0: 1 = 2 (los dos conjuntos de medias 1 2, pertenecen a la misma poblacin)
H1: 1 2 (las medias comparadas 1 2 , son diferentes y pertenecen a poblaciones diferentes).
En muchas situaciones, el investigador NO TIENE UNA IDEA PREVIA a la realizacin del experimento con
relacin a si la diferencia entre las medias ser positiva o negativa. En estos casos es necesario aplicar una
prueba que cubra esta posibilidad la que se denomina prueba o TEST DE DOS COLAS (O BILATERAL).
Sin embargo cuando de ANTEMANO SABEMOS que un determinado valor puede ser mayor o menor que
otro, pero no las dos cosas, es ms adecuado utilizar un tipo diferente de prueba, plantendose las hiptesis:
H0: 1> 0 (la media es mayor que un determinado valor)
H1: 1 < 0 (la media es menor que un determinado valor)
Este tipo de test se llama de TEST UNA COLA (O UNILATERAL).
6
Para realizar un test, es necesario representar numricamente H0 y H1 y para ello es indispensable realizar
medidas experimentales.
Estas permiten el clculo de una cantidad numrica, Ccal, denominada estadstico calculado. Esta cantidad
se compara con otra cantidad terica, denominada estadstico de control o de contraste, obtenida en funcin
del tamao de muestra, del nivel de confianza (1-) fijado y del tipo de prueba (una o dos colas).
Generalmente el estadstico de contraste se encuentra tabulado (Ctab) y corresponde a los valores P(x) de
una distribucin de determinada probabilidad. En general los resultados de esta comparacin pueden ser:
Ccal < Ctab H0 (No significacin) (Se acepta H0)
Ccal Ctab H1 (Significacin) (Se rechaza H0)
1.7.1 TEST DE DETECCIN DE ANMALOS
La presencia de datos anmalos (outliers) o muestras errneas que no son representativas del resto de los
datos tiene una gran influencia en la estimacin de parmetros como la media y la desviacin estndar. Por
ello es necesario su deteccin y eliminacin del conjunto de datos. Para tal fin existen diferentes test, siendo
el de Dixon, Grubbs y Hubber de los ms populares. En este curso usaremos el test de Dixn.
1.7.1.1 TEST DE DIXON
Es uno de los ms utilizados ya que es muy fcil de calcular. Para su aplicacin los datos deben estar
ordenados en orden creciente de magnitud. Est basado en la comparacin de la diferencia entre el valor
sospechoso y su vecino ms cercano sobre el rango de los datos o el rango modificado. Este se calcula
como:
( 1 )
=
( )
Dnde: Q cal es el estadstico de Dixon calculado, X n es el valor sospechoso, Xn-1 es el valor ms prximo al
sospechoso, X mayor es el valor mayor de la serie de datos y X menor es el menor valor de la serie de datos.
Las hiptesis nula y alternativa planteadas son:
H0: X n no es un valor sospechoso y no debe ser eliminado de la serie de datos
H1: X n es un valor sospechoso y debe ser eliminado de la serie de datos
El valor de Q cal se compara con el Q tab a un determinado nivel de significacin (P).
CONCLUYENDO QUE:
Si el Q calculado es mayor que el valor de Q tabulado (Q cal > Q tab) el dato sospechoso es errneo y hay
que eliminarlo de la serie de datos.
Si el Q calculado es menor que el valor de Q tabulado (Q cal < Q tab) el dato sospechoso NO es errneo y
NO hay que eliminarlo de la serie de datos.
1.7.2 TEST DE COMPARACIN DE MEDIAS

1.7.2.1 COMPARACIN DE UNA MEDIA CON UN VALOR CONOCIDO
Se debe comprobar que la diferencia entre el valor conocido considerado como verdadero () y la media
calculada no es significativa. Por tanto H0 se formula como:
0 : = ( = 0)
Mientras que H1 se formula:
1 : ( 0) Para un test de dos colas
1 : > ( > 0)
Para un test de una cola
1 : < ( < 0)
Para comprobar estas hiptesis, partimos de la siguiente ecuacin:
(0.05;1)
= (
)
Reorganizando, esta ecuacin para ponerla en funcin t, tenemos la ecuacin de clculo de la t de student
para esta prueba:
| |
=
Mediante esta ecuacin se calcula el valor de t, y se compara con el valor del estadstico t de student tabulado
a un nivel de confianza () de 0.05 y n-1 grados de libertad. Las hiptesis nula y alternativa planteadas en
este caso son:
0 : = (La media de la serie de datos es igual al valor verdadero o de referencia)
1 : (La media de la serie de datos es distinta al valor verdadero o de referencia)
CONCLUYENDO QUE:
Si el t calculado es mayor que el valor de t tabulado (tcal > ttab) La media de la serie de datos es distinta al
valor verdadero o de referencia.
Si el t calculado es menor que el valor de t tabulado (tcal < ttab) La media de la serie de datos es igual al
valor verdadero o de referencia.
1.7.2.2 COMPARACIN DE LAS MEDIAS DE DOS MUESTRAS INDEPENDIENTES
En funcin del tamao de muestra, dos diferentes aproximaciones pueden ser consideradas.
1.7.2.2.1 COMPARACIN DE LAS MEDIAS DE DOS MUESTRAS INDEPENDIENTES CON VARIANZAS
IGUALES
Si las varianzas S21 y S22 SON IGUALES, es necesario estimar inicialmente una varianza conjunta (S2conj),
la que se calcula de la manera siguiente:
(1 1)12 + (2 1)22
(1 + 2 2)
Donde S21 y n1 son la varianza y el nmero de datos del primer conjunto de datos y S 22 y n2 son la varianza
y el nmero de datos del segundo conjunto de datos. Posteriormente se realiza el clculo del estadstico t de
la forma siguiente:
1 2
=
1
1
2
( + )
2
El t calculado (t cal), se compara con el valor del estadstico t de student tabulado a un nivel de confianza ()
de 0.05 y n1 + n2 - 2 grados de libertad. Las hiptesis nula y alternativa planteadas en este caso son:
0 : 1 = 2 (La media de la serie de datos 1 es igual a la media de la serie de datos 2)
1 : 1 2 (La media de la serie de datos 1 es distinta a la media de la serie de datos 2)
CONCLUYENDO QUE:
Si el t calculado es mayor que el valor de t tabulado (tcal > ttab), la media de la serie de datos 1 es distinta
a la media de la serie de datos 2.
Si el t calculado es menor que el valor de t tabulado (tcal < ttab), la media de la serie de datos 1 es igual a
la media de la serie de datos 2.
1.7.2.2.2 COMPARACIN DE LAS MEDIAS DE DOS MUESTRAS INDEPENDIENTES CON VARIANZAS
DIFERENTES
Si las varianzas S21 y S22 SON DISTINTAS O DIFERENTES, NO es necesario estimar una varianza conjunta
(S2conj) por lo que el test en este caso vara. Y es necesario aplicar el llamado t test de Cochran, que se basa
en la comparacin de t calculado con un valor critico de t tabulado, para esto es necesario calcular
inicialmente el valor de t de la forma siguiente:
1 2
=
2 2
( 1 + 2 )
1 2
Para encontrar el valor crtico de t tabulado, es necesario calcular los grados de libertad () para lo cual se
utiliza la siguiente formula:
2
2 2
(1 + 2 )
1
2
2
2
2
(1 )
(2 )
1
2
1 + 1 + 2 + 1
El valor de es el nmero entero ms prximo al resultado obtenido, y proporciona los grados de libertad
que deben usarse para encontrar el valor de t tabulado a un nivel de confianza () de 0.05. Las hiptesis
nula y alternativa planteadas en este caso son:
0 : 1 = 2 (La media de la serie de datos 1 es igual a la media de la serie de datos 2)
1 : 1 2 (La media de la serie de datos 1 es distinta a la media de la serie de datos 2)
9
CONCLUYENDO QUE:
Si el t calculado es mayor que el valor de t tabulado (tcal > ttab), la media de la serie de datos 1 es distinta
a la media de la serie de datos 2.
Si el t calculado es menor que el valor de t tabulado (tcal < ttab), la media de la serie de datos 1 es igual a
la media de la serie de datos 2.
1.7.2.3 COMPARACIN DE LAS MEDIAS DE DOS MUESTRAS APAREADAS
Hablamos de muestras apareadas cuando existe correspondencia entre los miembros de las muestras o
series de datos. Para el clculo del estadstico se obtiene las diferencias entre los pares de observaciones:
= 1 2
Donde X1i son los datos i de la serie 1 y X2j, son los datos j de la serie 2.
A continuacin se calcula la media de las diferencias mediante la siguiente ecuacin:

=
Donde n representa el nmero de parejas de muestras; es una aproximacin de la verdadera, pero

desconocida, diferencia de medias . As, si no hay diferencias entre las medias obtenidas por ambos
procedimientos = 0. A continuacin se calcula el estadstico t mediante la siguiente ecuacin:

=
En este caso la H0 se plantea como:

H0: =0 (No hay diferencias entre las medias de las 2 series de datos)
Y la hiptesis alternativa:
H1: 0 Para un test de dos colas
H1: > 0
H1: < 0
Para un test de dos colas
El t calculado (t cal), se compara con el valor del estadstico t de student tabulado a un nivel de confianza ()
de 0.05 y n - 1 grados de libertad.
CONCLUYENDO QUE:
Si el t calculado es mayor que el valor de t tabulado (tcal > ttab), las medias de la serie de datos apareados
son distintas.
Si el t calculado es menor que el valor de t tabulado (tcal < ttab), las medias de la serie de datos apareados
son iguales.
10
1.7.3 TEST DE COMPARACIN DE VARIANZAS

1.7.3.1 COMPARACIN DE DOS VARIANZAS
La comparacin de las varianzas de dos conjuntos o series de datos (S21 y S22) se realiza por medio del test
de la Fisher:
12
= 2
2
Siendo S12 la mayor de las dos varianzas.
El valor de F calculado (Fcal) se compara con el valor de F tabulado al nivel de significacin elegido (por lo
general = 0.05). El valor tabulado de F, depende del tamao de las dos muestras, se determina haciendo
coincidir la columna 1 para n1 - 1 grados de libertad de la primera serie de la que se obtuvo S12 y la fila 2
para n2 - 1 grados de libertad de la segunda serie de la que se obtuvo S22.
En este caso la H0 se plantea como:
H0: S12 = S22 (Las varianzas de las dos series de datos son iguales)
H1: S12 S22 Para un test de dos colas
H1: S12 > S22 Para un test de dos colas
H1: S12 < S22
El F calculado (Fcal), se compara con el valor del estadstico F de Fisher tabulado 1 (n1-1) y 2 (n2-1) grados
de libertad y a un nivel de confianza () de 0.05.
CONCLUYENDO QUE:
Si el F calculado es mayor que el valor de F tabulado (Fcal > Ftab), las varianzas de las dos serie de datos
son distintas.
Si el F calculado es menor que el valor de F tabulado (Fcal < Ftab), las varianzas de las dos serie de datos
son iguales.
1.7.3.2 ANLISIS DE VARIANZA (ANOVA)
El Anlisis de la Varianza es una tcnica estadstica que se utiliza para separar y estimar las posibles fuentes
de variacin en un resultado y as poder separar la variacin debida al error aleatorio y cualquier otra variacin
provocada al cambiar el factor de control. Cuando en el anlisis estadstico solo existe una variable o factor,
la tcnica se denomina ANOVA de 1 factor o va. Que compara diversos conjuntos de resultados que difieren
slo en una variable, lo que nos permite detectar si alguno de estos conjuntos de resultados difiere de forma
significativa de los dems.
Las hiptesis a contrastar en este caso sern:
0 : 1 = 2 = = (Todas las medias de las series de datos son iguales)
1 : 1 2 (Todas las medias de las series de datos son diferentes)
11
Para la aplicacin de la tcnica ANOVA, se han de cumplir tres hiptesis, aunque se aceptan ligeras
desviaciones respecto a las condiciones ideales:
1.
Cada conjunto de datos es aleatorio e independiente de los dems.
2.
Los resultados obtenidos para cada conjunto de datos siguen una distribucin normal.
3.
Las varianzas de cada conjunto de datos deben ser homogneas u homocedasticas.
1.7.3.2.1 HOMOGENEIDAD DE VARIANZAS
Para la comparacin de varias varianzas independientes se aplican tres test: test de Bartlett, test de Levene
y test de Cochran. En este curso usaremos el test de Cochran por su sencillez y rapidez de clculo.
1.7.3.2.2 TEST DE COCHRAN
Es de aplicacin fundamentalmente cuando los tamaos de las series de datos son iguales, es decir, cuando
el nmero de repeticiones realizadas para cada nivel de la variable X es siempre el mismo (n 1 = n2 = .... =
nk).
2()
= 2
1 + 12 + + 2
Donde S2i (mxima), es la varianza mayor de las serie de datos, S21, S2i y S2k son las varianzas de cada una
de las series de datos. En este caso la H0 se plantea como:
0 : 12 = 12 = = 2 (Las varianzas de todas las series de datos son iguales)
1 : 12 12 2
1 : 12 > 12 > > 2
1 : 12 < 12 < < 2
El valor de G calculado (Gcal) se compara con el valor de G tabulado a un nmero de series k y n-1 grados
de libertad.
CONCLUYENDO QUE:
Si el G calculado es mayor que el valor de G tabulado (Gcal > Gtab (n1,k)), las varianzas de todas las series
de datos son distintas.
Si el G calculado es menor que el valor de G tabulado (Gcal < Gtab (n1,k)), las varianzas de todas las series
de datos son iguales.
El valor de la G terica de Cochran se busca en la correspondiente tabla (ver tabla 7).
1.7.3.2.3 CLCULOS DE ANALISIS DE VARIANZA (ANOVA) DE UN FACTOR
El ANOVA es una herramienta que permite comparar simultneamente varias medias de series de datos.
Estas se comparan para establecer si todas son iguales (H0) o si al menos una de ellas es distinta (H1).
Para una serie de resultados 1, 2,., j ,..h, la H0 se plantea como:
0 : 1 = 2 = = = = (Todas las medias de las series de datos son iguales)
12
Mientras que la H1, plantea como:

1 : 1 2 (Todas las medias de las series de datos son diferentes)
Para el caso de un modelo unifactorial (de un factor), se emplea para estudiar el efecto de un cierto Factor
sobre unas determinadas series o grupos de datos. Siendo el total de grupos = a, y el nmero de
determinaciones o medidas realizadas a cada grupo = n.
Podemos considerar que Xn,j es la medida de la determinacin n del grupo j o que X3,2, es la medida de la
determinacin 3 realizada en el grupo 2.
Si consideramos a T.j como la suma de la n observaciones del grupo j, entonces la media del grupo j sera:
.
=
Por otra parte la suma total de todas las observaciones es:

Total = T.1 + T.2 + T.3 + + T.J+.Ta
Mientras que el nmero total de datos de las series a ser comparadas es:
N=nxa
Si consideramos al nmero total de datos de las series (N), entonces la media general de todos los datos se
calcula como:
1
1 1

=
= [
]=[
]
La varianza total:
1 1( )2
2
=
=
( 1)
La varianza total de los datos es el cociente entre la suma de cuadrados totales (SST) y los grados de libertad
totales = N - 1.
Mientras que la suma de los cuadrados totales es la sumatoria para N datos del cuadrado de las diferencias
entre cada valor y su promedio general.
= ( )2 = [( ) + ( )]
1
Efectuando el desarrollo del cuadrado y simplificando nos queda:
2
= ( ) + ( )
De manera simplificada lo anterior se puede expresar como:

= +
La suma de los cuadrados dentro de las muestras (SSD) se calcula como la sumatoria del cuadrado de las
diferencias entre cada observacin y el promedio del grupo al cual pertenece.
13
La suma de los cuadrados entre las muestras (SSE) se calcula como la sumatoria al cuadrado de las
diferencias entre los promedios de cada grupo y el promedio general o media muestral.
Los grados de libertad se calculan como:
= N - 1 = N a + a 1 = (N - a) + (a 1) = +
Donde N es el nmero total de datos y a es el nmero total de grupos. Los grados de libertad dentro de
grupos ( ) se calcula como:
=
Los grados de libertad entre los grupos ( ) se calcula como:
= 1
Si dividimos la suma de los cuadrados por sus grados de libertad obtendremos una cantidad con las
caractersticas de una varianza, denominada cuadrados medios o MS (Mean of Squares). Estos seran:
Cuadrados medios dentro de grupos:

=
Cuadrados medios entre grupos:
Podemos calcular un estadstico F para contrastar la H0 de la manera siguiente:
Este lo podemos contrastar con un valor de F de tabla a una determinado significacin (a) y (a-1); (N-a)
grados de libertad (Fa;(a-1);(N-a)) se rechaza H0 si Fcal > Ftab.
=
De todos los clculos anteriores obtenemos los que se denomina cuadro de ANOVA:
14
1.8 REGRESIN LINEAL POR MNIMOS CUADRADOS

En el caso que se desee ajustar los datos de respuesta de una medida frente una determinada concentracin,
estos generalmente se ajustan a una funcin lineal, mediante un AJUSTE REGRESIN LINEAL por mnimos
cuadrados (RLMC), que es lo ms frecuente en las calibraciones indirectas para ensayos qumicos o
farmacuticos.
El modelo implica dos nicas variables: El MESURANDO que es la variable independiente que se ubica en
el eje de las X y la RESPUESTA que es la variable dependiente que se ubica en el eje de las Y.
La regresin lineal de ste modo se realiza desde loa valores del eje Y sobre el eje X: Y = f(X). No en forma
inversa ya que, aunque no parezca lgico, los resultados pueden ser diferentes dependiendo del algoritmo
de ajuste. El modelo matemtico terico en estas condiciones viene dado por la siguiente expresin:
= 0 + 1 +
En la situacin real, los coeficientes de regresin del modelo ajustado: intercepto (b 0) y pendiente (b1) son
desconocidos y slo pueden ser estimados a partir de datos experimentales del ajuste del modelo emprico
y el trmino es el error que se asume al realizar el ajuste.
Para cada valor de X, el modelo permite calcular o predecir un determinado valor de Y, al que se le
denominada "Y predicha " y que se suele representar por , de modo que para el clculo de valor de Y
predicho, se emplea la siguiente ecuacin:
= 0 + 1
A la diferencia entre el valor obtenido de la variable respuesta, Y, y el valor predicho, , se le denomina
residuo o resto, ei, el que se calcula de la forma siguiente:
=
Este suele ser conocido ms comnmente como "residual", literalmente del ingls.
El objetivo es buscar los valores de ambos coeficientes de forma tal que la suma de los cuadrados de los
residuos de los diferentes valores de respuesta sea mnima. El residuo representa la distancia vertical entre
el punto experimental y la recta y es esta distancia la que se busca minimizar; esto lo que se busca con el
ajuste.
1.8.1 PARMETROS DE AJUSTE DEL MODELO DE REGRESIN LINEAL
La pendiente de la recta de ajuste se calcula a partir de la expresin siguiente:
( )( )
1 =
( )2
El intercepto se calcula a partir de:
0 = 1
15
La desviacin estndar de los residuos (o desviacin estndar residual de la regresin), Sy/x o Sres, que
expresa la variabilidad de los valores de la respuesta con relacin a los predichos por el modelo con n 2
grados de libertad, se calcula por:
/
)2
(
=
2
Donde n es el nmero total de parejas de valores respuesta/mesurando utilizadas para la elaboracin de la

recta de regresin. A partir del valor de la desviacin estndar residual, se calcula la desviacin estndar
asociada a la estimacin de los coeficientes, pendiente e intercepto como:
/
1 =
( )2
( )2
0 = /
( )2
Como veremos ms adelante, estos parmetros, Sb0 y Sb1, sern utilizados para el clculo de la incertidumbre
de calibracin.
Otro parmetro es el denominado coeficiente de determinacin, r2 que representa la fraccin de la
variabilidad total de los datos que es explicada por el modelo. Es una medida de la idoneidad del modelo
matemtico elegido pero no de la calidad del ajuste.
2
2
( )
2
=
=
= 2
( )2
Su raz cuadrada es el denominado coeficiente de correlacin lineal simple, r, que mide el grado de
dependencia entre las dos variables respuesta y mesurando, pero en absoluto indica nada sobre la linealidad.
( )( )
=
( )2 ( )2
1.8.2 CALCULO DE UNA CONCENTRACIN Y SU ERROR ALEATORIO
En general la concentracin de una muestra a partir de los coeficientes de regresin de una recta se realizan
mediante:
0
=
1
Sin embargo conviene estimar el error asociado a la concentracin calculada, mediante la siguiente ecuacin:
Para una recta en la que slo se ha realizado una lectura de cada punto de la recta o de la muestra (m = 1),
la ecuacin para el clculo de la incertidumbre o error de la determinacin viene dada por la siguiente
ecuacin.
16
0 =
/
( )2
1
1 + + 2 0
1
1 ( )2
Para una recta en la que se han realizado lecturas por triplicado de cada punto de la recta o de la muestra
(m = 3), la ecuacin para el clculo de la incertidumbre o error de la determinacin viene dada por la siguiente
ecuacin.
0 =
/ 1 1
( )2
+ + 2 0
1
1 ( )2
Donde Y0 es el valor experimental de Y a partir del cual se determina la concentracin X0, Sxo es la desviacin
estndar estimada de X0, n es el nmero de puntos de la recta de regresin y m es la cantidad de veces que
se ha realizado la lectura de cada punto de la recta o de la muestra.
Una vez calculado esto se expresa la concentracin de la muestra como un intervalo, como sigue:
0 (0.05,2) 0
Las rectas de regresin en adicin patrn se construyen de similar forma que en el caso de la regresin lineal
simple. En este caso la concentracin del analito se encuentra como el cociente de:
0
0 = | |
1
Ya que b0 y b1, estn sujetos a error, el valor calculado tambin lo estar, en este caso la desviacin estndar
de la prediccin de la concentracin vendr dada por:
0 =
/ 1
()2
+ 2
1
1 ( )2
La concentracin calculada de esta forma se expresara de la siguiente forma:

0 (0.05,2) 0
17
1.9 EJERCICIOS
1.9.1 Las calificaciones de historia del arte de 40 alumnos de una clase viene dada por la tabla siguiente:
Calificaciones (Xi)
1
2
3
4
5
6
7
8
9
Frecuencia de clase (Fi)
2
2
4
5
8
9
3
4
3
a) Encuentre la media, la moda y la mediana.
c) Encuentre la varianza, la desviacin estndar y el coeficiente variacin (DER)
1.9.2 El nmero de personas en distintos autobuses en una carretera son: 15,17,14,16,19,15,16,11,15,13,17.
Cul es la moda?
1.9.3 Calcule la mediana del nmero de hijos de un conjunto de trece familias, cuyos respectivos hijos son:
3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1.
1.9.4 Durante el anlisis de hierro en muestras de frijoles blancos, negros y rojos, se obtuvieron los siguientes
resultados en mg/100g.
Replica
Blancos
Negros
Rojos
1
12.16
11.90
16.41
2
12.25
11.82
16.49
3
12.34
11.90
16.41
Calcule la media de cada serie de resultados.
1.9.5 Determine para el siguiente conjunto de valores: 8, 7, 6, 9, 4, 5, el rango.
1.9.6 Determine para el siguiente conjunto de datos 2, 3, 3, 4, 5, 6, 7, 8, el rango medio.
1.9.7 Calcule la desviacin estndar del siguientes conjunto de datos: 17, 14, 2, 5, 8, 7, 6, 8, 5, 4, 3, 15, 9,
15, 9, 12, 11, 6
1.9.8 Calcule la varianza del siguientes conjunto de datos: 25.5, 21.0, 3.0, 7.5, 12.0, 10.5, 9.0, 12.0, 7.5, 6.0,
4.5, 22.5, 13.5, 22.5, 13.5, 18.0, 16.5, 9.0
1.9.9 Calcule la desviacin estndar relativa del siguiente conjunto de datos: 19.87, 27.17, 34.48, 32.04,
29.61, 34.48, 27.17, 24.74, 22.30.
1.9.10 Se sabe que la desviacin estndar de la determinacin de ocratoxina A en muestras de caf verde
es 0.05 ppb. En un laboratorio se analizan 4 muestras de caf verde y se encuentra que contienen 2.5 ppb
de ocratoxina A, Cul es el intervalo de confianza del 95% para la media de la muestra?
1.9.11 Comprueba de la siguiente serie de resultados si 26.5 es un valor anmalo: 22.1, 22.4, 22.9, 23.0,
23.5, 23.7, 23.9, 26.5.
18
1.9.12 Comprueba de la siguiente serie de resultados si 14.7 es un valor anmalo: 12.3, 12.9, 12.7, 13.0,
12.7, 14.7. Usando el test de Dixon.
1.9.13 En la determinacin de Hg por AA se obtuvieron los siguientes resultados: 38.9, 37.4 y 37.1% para un
material de referencia que contiene 38.9% de Hg. Qu se puede decir de la media respecto al valor
verdadero?
1.9.14 En la determinacin de Ca por volumetra se obtuvieron los siguientes resultados: 17.5, 17.4 y 18.3
ppm para un material de referencia que contiene 18.0 ppm de Ca. Qu se puede decir de la media respecto
al valor verdadero?
1.9.15 En la comparacin de dos procedimientos de digestin previos a la determinacin de Nitrgeno en
harina se obtuvieron los siguientes resultados:
Procedimiento 1: media 1 = 2.05g /100g s12 = 0.050
(n1= 30)
Procedimiento 2: media 2 = 2.21g /100g s22 = 0.040
(n2= 32)
Es conocido que mediante el procedimiento 1 hay alguna prdida de Nitrgeno durante la digestin.
Muestran ambos procedimientos resultados similares?
1.9.16 Consideremos el caso del ejemplo anterior en el que se varia el nmero de muestras n1 y n2:
Procedimiento 1: media1 = 2.05g/100g s12 = 0.050
(n1= 8)
2
Procedimiento 2: media 2 = 2.21g/100g s2 = 0.040
(n2= 7)
Son iguales las medias de ambos procedimientos?
1.9.17 Consideremos una situacin en la se obtuvieron los siguientes datos:
Mtodo 1: media1 = 5.08
s12 = 0.035
(n1= 4)
2
Mtodo 2: media 2 = 7.09
s2 = 0.038
(n2= 3)
Son iguales las medias de ambos mtodos?
1.9.18 Consideremos otro ejemplo en el que se quiere comparar 2 mtodos:
Mtodo1: media 1 = 2.05g/100g s12 = 0.050
(n1= 9)
2
Mtodo 2: media 2 = 2.21g/100g s2 = 0.010
(n2= 8)
1.9.19 Consideremos una situacin en la se obtuvieron los siguientes datos:
Mtodo 1: media1 = 19.6
s12 = 1.439
(n1= 6)
2
Mtodo 2: media 2 = 23.9
s2 = 0.123
(n2= 5)
19
1.9.20 En un laboratorio se desarroll para el anlisis de un antibitico y se contrast con los resultados de
un mtodo de referencia, indique si existe una diferencia significativa entre los 2 mtodos. Los resultados de
ambos mtodos fueron:
Desarrollado
89.6
76.6
52.2
50.4
72.4
75.0
34.1 60.3
Referencia
91.0
73.6
58.2
49.9
82.1
73.4
38.1 60.1
1.9.21 Se determina la pureza de sal comn en dos almacenes determinndose el cloruro por argentometra.
Los resultados se muestran en la tabla siguiente:
Punto
Almacn 1
Almacn 2
1
98.6
98.5
2
98.7
98.6
3
99.5
99.1
4
99.9
100
5
99.7
99.3
Son iguales las medias de los 2 almacenes?
1.9.22 Los valores de la varianzas para dos conjuntos de datos fueron: S12 = 0.035 (n1 = 7) y S22 = 0.044 (n2
= 8) son iguales las varianza de los dos conjuntos de datos?
1.9.23 Se realiza ejercicio de determinacin de cido actico en vinagre por volumetra acido base, en dos
muestras obteniendo los siguientes resultados:
n
Muestra 1
Muestra 2
1
5.7
5.4
2
5.9
5.3
3
6.1
5.2
4
5.8
Son iguales las varianzas de las 2 muestras?
1.9.24 Un anlisis de Cadmio en 5 muestras, produjo los siguientes resultados:
n
1
2
M1
32.9
34.1
M2
33.0
33.3
3
36.4
37.1
4
37.5
37.4
5
36.3
6
Determine si las varianzas de las muestras son iguales.
M3
32.5
34.7
M4
35.0
35.2
M5
33.2
34.0
35.0
37.5
36.2
35.9
36.3
37.1
34.5
37.5
34.8
20
1.9.25 Un anlisis de Cadmio en 5 muestras, produjo los siguientes resultados:

Durante el anlisis de aflatoxina B1 en 5 muestras de man, se obtuvieron los siguientes resultados:
n
M1
M2
M3
M4
M5
1
2.6
3.3
1.7
5.1
3.2
2
4.5
3.9
1.8
5.2
3.4
3
6.6
3.7
1.9
6.3
3.5
4
7.3
3.4
1.6
7.1
3.7
5
5.3
1.4
3.8
6
1.9
Determine si las varianzas de las muestras son iguales.
1.9.26 Considere el ejemplo de anlisis de Hierro en 3 muestras de frijoles cocidos, determine la
homogeneidad de las varianzas.
n
Frijol Blanco
Frijol Negro
Frijol Rojo
1
3.039
3.497
1.931
2
3.059
3.639
2.214
3
3.215
3.487
2.072
1.9.27 Considere el caso del anterior de determinacin de aflatoxina B1, pero con los siguientes resultados.
n
M1
M2
M3
1
3.2
1.7
5.1
2
3.4
1.8
5.2
3
3.5
1.9
6.3
Determine la homogeneidad de las varianzas usando el test de Cochran
1.9.28 En un laboratorio se determina plomo en agua en muestras provenientes de 3 ros, los resultados
obtenidos en ppm se muestran en la tabla siguiente.
n
Rio1
Rio2
Rio3
2.94
3.01
3.30
2.96
3.10
3.20
2.95
3.04
3.20
2.96
3.06
3.10
5
2.94
3.04
3.30
Determine si existen similitudes entre las medias de los resultados de los 3 ros.
21
1.9.29 Se ha realizado el anlisis 3 vinos en relacin a sus grados alcohlicos (GA), pH y acidez total (Aci
Tot), con el objetivo de comparar estos parmetros. Los resultados se muestran en la tabla siguiente:
GA
pH
Aci Tot
Vino 1
8.03
2.57
4.17
Vino 2
12.00
3.79
5.23
Vino 3
8.00
2.51
4.17
Determine la si las medias de los parmetros son iguales.
1.9.30 Considrese el caso de los siguientes datos:
n
x
y
1
0.5
0.123
2
1.0
0.248
3
1.5
0.499
4
2.0
0.994
5
2.5
1.983
Obtenga la grfica de x vs y, determine los coeficientes de regresin, los residuos, la grfica de los residuos.
Esta informacin se puede obtener a partir del software MS Excel, usando la herramienta de anlisis de datos
y la opcin regresin.
1.9.31 Se ha realizado una curva de calibrado de un mtodo espectrofotomtrico para el anlisis de fsforo.
Los resultados se muestran en la tabla siguiente:
Concentracin
Absorbancia
0.053
0.085
10
0.097
20
0.155
40
Determine los coeficientes de regresin y los residuos.
0.240
1.9.32 Calcular la desviacin estndar del intercepto, de la pendiente de la recta y los lmites de confianza
para la pendiente y el intercepto, para el siguiente conjunto de datos:
xi
yi
2.1
12.6 17.3
10
12
21
24.7
22
1.9.33 Tomando los datos de determinacin de hierro mostrados en la tabla siguiente, determine la
concentracin de hierro en una muestra y su error aleatorio asociado.
Concentracin
0.00
0.25
0.50
0.75
1.00
Replica1
0.006
0.029
0.047
0.07
0.094
Replica2
0.001
0.034
0.047
0.07
0.094
Replica3
0.002
0.031
0.047
0.069
0.094
Media
0.003
0.031
0.047
0.070
0.094
Muestra
0.048
0.049
0.047
0.0480
Media
1.9.34 Tomando los datos del problama19.31, determine la concentracin de fosforo en una muestra de
pinol y su error aleatorio asociado.
Muestra de Pinol
0.155
0.156
0.157
23

Introduccion Al Tratamiento Estadistico de Datos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Introduccion Al Tratamiento Estadistico de Datos

Încărcat de

Drepturi de autor:

Formate disponibile

CAPTULO 1

1.2.1 FRECUENCIA DE CLASE

La representacin de los intervalos de la variable en funcin de la Frecuencia de los mismos se denomina

Figura 1. Histograma de concentracin y funcin de densidad de probabilidad.

1.3.1.1 MODA (M).

1.3.1.2 MEDIANA (m).

Donde es la media poblacional, Xi es el valor de cada observacin y N es el nmero total de datos de la

Donde es la media de la muestra, Xi es el valor de cada observacin y n es el nmero total de datos de la

1.3.2.1 RANGO (RECORRIDO O AMPLITUD)

1.3.2.3 DESVIACIN MEDIA ()

Donde es la desviacin estndar poblacional y s es la desviacin estndar muestral. La desviacin estndar

1.4 LMITES DE CONFIANZA DE LA MEDIA

(0.05;1) ( ) < < + (0.05;1) ( )

El que podemos resumir como:

Figura 2. Errores tipo 1 y 2.

1.7.2 TEST DE COMPARACIN DE MEDIAS

Para un test de una cola

Donde n representa el nmero de parejas de muestras; es una aproximacin de la verdadera, pero

En este caso la H0 se plantea como:

Para un test de dos colas

1.7.3 TEST DE COMPARACIN DE VARIANZAS

Para un test de dos colas

Mientras que la H1, plantea como:

Por otra parte la suma total de todas las observaciones es:

Efectuando el desarrollo del cuadrado y simplificando nos queda:

De manera simplificada lo anterior se puede expresar como:

Cuadrados medios dentro de grupos:

Cuadrados medios entre grupos:

Podemos calcular un estadstico F para contrastar la H0 de la manera siguiente:

1.8 REGRESIN LINEAL POR MNIMOS CUADRADOS

Donde n es el nmero total de parejas de valores respuesta/mesurando utilizadas para la elaboracin de la

La concentracin calculada de esta forma se expresara de la siguiente forma:

1.9.25 Un anlisis de Cadmio en 5 muestras, produjo los siguientes resultados:

S-ar putea să vă placă și