Apuntes Diseños

ESTADSTICA INFERENCIAL
MOTIVACION A LA INFERENCIA
La estadstica se caracteriza por que a travs de una muestra se pueden
realizar inferencias de toda una poblacin en estudio. De manera que utilizando
modelos estadsticos se puede asignar un nivel de confiabilidad a las
conclusiones que se obtengan, proporcionando soporte para la toma de
decisiones.
Poblacin y muestra
En cualquier proceso de produccin es demasiado costoso, en recursos o en
tiempo, revisar uno a uno todos los elementos que conforman una poblacin, de
ah la necesidad de revisar unos cuantos, que sean representativos, y a partir
de ellos predecir el comportamiento de toda la poblacin.
Figura 1. Seleccionando una muestra con criterio estadstico
El primer viaje a la estadstica implica seleccionar una muestra de manera
aleatoria, es decir, sin privilegiar o descartar de antemano elemento alguno;
garantizando que todos tengan la misma posibilidad de ser elegidos. La mejor
forma de hacer esto es utilizando herramientas como tablas de nmeros
aleatorios, una urna, o algn proceso de nmeros pseudoaleatorios como los
que vienen integrados en la mayora de los paquetes estadsticos. Cualquiera
de estas opciones es mejor que cerrar los ojos y estirar la mano o establecer
criterios personales de seleccin de muestras.
Poblacin
Muestra
Estadstica
Armando Cervantes S., Raquel Lpez A.
2
Uno de los ejemplos ms simples, pero nada estadstico, es lo que hacen
quienes cocinan ya que a travs de pequeas probadas saben si un guiso
est o no en su punto, esto previa homogeneizacin del contenido de la cazuela
y sin consumir todo su contenido.
Es conveniente aclarar que el tema de muestreo es una de las grandes ramas
de la estadstica, para la cual existen libros completos que analizan a detalles
cada una de las opciones, dependiendo del propsito del muestreo.
Figura 2. Inferencia, de la muestra a la poblacin.
El segundo viaje a la estadstica consiste en analizar la muestra mediante
alguna de las muchas tcnicas de la estadstica inferencial para tomar
decisiones con respecto a la poblacin, apoyndose en el conocimiento de
causa evidenciado a partir de los datos y asignndole un nivel de confiabilidad o
de incertidumbre a las conclusiones obtenidas.
Incertidumbre y distribuciones estadsticas
La estadstica es la disciplina que estudia los procesos estocsticos, es decir
aquellos que presentan variaciones, sin causa asignable (debidas al azar). Por
lo que se han desarrollado tcnicas que permiten detectar y diferenciar
variaciones por efecto de algn factor, de las debidas al azar, con el fin de
identificar su comportamiento y reducir estas ltimas a un nivel aceptable para
que no altere las caractersticas de calidad de los productos en
manufacturacin.
Con el apoyo de la teora de la probabilidad se ha demostrado que las variables
aleatorias tienen un comportamiento bien definido, que se puede representar
Poblacin
M
u
e
s
t
r
a
Estadstica
Estadstica inferencial.
3
4
mediante funciones de probabilidad y funciones de densidad de probabilidad,
que dependiendo del tipo de unidades de medicin generan las distribuciones
estadsticas, base fundamental de las tcnicas inferenciales. Debido a su
importancia algunas de ellas se han tabulado, para facilitar su uso; entre las
ms conocidas, sin ser las nicas, se encuentran:
- Binomial
- Poisson
- Normal (Z)
- t-student
- F-Fisher
- Chi-cuadrada (
2
)
Estas distribuciones realmente corresponden a modelos matemticos, por
ejemplo la funcin de densidad de la distribucin normal tiene como expresin
matemtica la siguiente ecuacin.
Donde se puede ver que la distribucin queda totalmente representada por dos
parmetros: (la media) y (la desviacin estndar). Con las siguientes
propiedades.
- Toda el rea bajo la curva suma a 1.
- Los puntos de inflexin se localizan a ms menos 1 desviacin estndar.
- A se encuentra la mayor parte del rea bajo la curva (99.994%).
- Ya tabulada, esta distribucin corresponde a valores de Z, con valores
mximos de ms menos 4.
2
2
2
) (
2
1
) (

=
y
e y f
LI LS
4

Figura 3. Distribucin Normal, con intervalo de confianza para la media.
Cada conjunto de datos genera una distribucin con sus propios valores de ,
y f(y), adems es difcil que el valor estimado a partir de la media sea
exactamente , por lo que es comn establecer intervalos de confianza en los
que se espera que el verdadero valor se encuentre entre un lmite inferior (LI) y
uno superior (LS). Valores que al representarse en la distribucin, como rea
bajo la curva, indican una probabilidad.
Figura 4. Area bajo la curva delimitada por los lmites de confianza.
Los valores de Z asociados a LI y LS acotan o delimitan cierta proporcin del
rea, de ah la importancia de saber, por ejemplo, que -1.96 Z 1.96
delimita el 95% del rea bajo la curva de una distribucin normal y que el rea
que no est sombreada corresponde al complemento a 1 y expresado en
probabilidades se le conoce como nivel de significancia, , y a (1-) como nivel
de confianza. De la misma forma el valor de Z = 2.575 delimita el 99%, con un
complemento de 1% que dividido entre 2 corresponde al 0.5%(
0.01/2
=0.005), lo
interesante es que al asociar estos valores a los datos muestrales se pueden
establecer intervalos de confianza para estimar los valores poblacionales.
Antes de pasar a revisar algunos conceptos de estadstica inferencial,
repasemos algunos conceptos bsicos.
UNA RPIDA REVISIN DE ALGUNOS CONCEPTOS BSICOS
Estadstica: Se le puede considerar como el arte de tomar decisiones con
respecto a una poblacin o un proceso en base al anlisis de la informacin de
una muestra.
LI LS
5
La estadstica proporciona mtodos por los cuales un producto se puede
muestrear, examinar y evaluar; utilizando esta informacin para controlar y
mejorara el proceso de manufacturacin. Adems de ser el lenguaje mediante
el cual toda una organizacin puede hablar de calidad de un proceso. Por lo
que para dominar el lenguaje propio de la estadstica, se presentan a
continuacin los conceptos ms comunes.
Poblacin: Cualquier coleccin de unidades de inters en un estudio. Esta
coleccin debe estar bien definida, de tal forma que se puedan distinguir entre
sus miembros aquellos que los son y los que no lo son.
Muestra: Cualquier subconjunto de la poblacin en estudio.
Unidad de observacin: Un solo miembro de la poblacin en estudio.
Medicin cualitativa y cuantitativa: Una medida es un nmero o
denominacin que se puede asignar a la unidad de observacin. Si este
nmero expresa dimensiones o capacidades se le llama medicin cuantitativa.
Si la denominacin registra caractersticas, atributos o actitudes, se le nombra
medicin cualitativa.
Parmetro: Nmero que describe alguna propiedad de una poblacin. En
estadstica es comn representarlo por letras griegas.
Estadstica: Nmero que describe alguna propiedad de una muestra. Se
representa por letras latinas.
Obtener parmetros frecuentemente resulta imposible, imprctico o muy
costoso, por lo que una alternativa para obtener los parmetros de una
poblacin consiste en obtener las estadsticas de una muestra y a partir de ellas
estimar los parmetros poblacionales.
Muestra aleatoria: Se dice que una muestra es aleatoria cuando es
seleccionada de tal forma que todos los elementos de la poblacin tienen la
misma oportunidad de ser seleccionados.
El mecanismo de aleatorizacin debe dar a toda unidad, de una poblacin bien
definida, la misma oportunidad de ser seleccionada. Este mecanismo puede
ser: Lanzamiento de una moneda; una urna; generacin de nmeros aleatorios
por computadora o el uso de una tabla de nmeros aleatorios.
6
Muestra no aleatoria: Si la muestra se escoge por medio de un proceso
subjetivo o arbitrario, de modo que las probabilidades no puedan precisarse, a
esta muestra se le llama no aleatoria. En este tipo de procedimiento, los sesgos
pueden influir para evitar que ciertos elementos de la poblacin no sean
seleccionados.
Probabilidad: Se puede considerar como un grado racional de confianza o
como una medida de la posibilidad de ocurrencia de un evento.
Evento: Resultado de una medicin en una unidad de observacin.
Probabilidad = #de eventos presentes/# eventos posibles
Teora de la probabilidad: Se ocupa de establecer las reglas que gobiernan
los fenmenos de azar. La teora de la probabilidad proporciona herramientas
para evaluar de manera cuantitativa aspectos importantes de lo que puede
obtenerse al observar acontecimientos aleatorios.
Inferencia estadstica: Es el proceso por el cual se atribuyen a una poblacin
las caractersticas ms significativas que se observaron y midieron en la
muestra. Obviamente, dicho proceso no es infalible, pero en la mayora de los
casos se puede predecir u margen de error y asignar un nivel de confianza al
estudio.
Recoleccin de datos en un experimento: En un experimento, la recoleccin
de datos requiere de ciertos tratamientos impuestos sobre las unidades
muestreadas de una poblacin bajo condiciones bien definidas y controladas.
Se hacen mediciones sobre cada una de las unidades para evaluar los efectos
de los tratamientos.
Recoleccin de datos en una muestra: En un estudio muestra, los datos
deben ser recolectados por medio del diseo de una muestra al azar de una
poblacin bien definida. A diferencia de un experimento, un estudio muestra no
requiere que se aplique algn tratamiento a las unidades despus de
seleccionarlas.
ESTADSTICA DESCRIPTIVA
Tiene por intencin describir un conjunto de datos, en forma resumida. Se
utiliza para organizar y resumir grandes conjuntos de datos, ya sea en forma
tabular o forma grfica o en ambas.
7
Distribucin de Frecuencias e Histogramas
La distribucin de frecuencias es un arreglo sistemtico de los valores
agrupados en intervalos de clase. Arreglo que proporciona una visin general
de la variacin en el conjunto de datos, dando respuesta a cuestiones como:
- Hay alguna tendencia central? y si la hay en dnde se encuentra?
- Qu tan homogneos son los datos?. Ya que cuando el nmero de casos es
grande, las distribuciones de los datos de produccin generalmente son
unimodales. Una distribucin multimodal es una indicacin probable de que los
datos no son homogneos. Tal distribucin se presentara si parte de la
produccin se fabrica bajo unas condiciones y la otra parte en otras
condiciones.
- Cunta variacin existe en los datos?. Esta variacin se puede manejar en
un aspecto comparativo entre distribuciones dibujadas en la misma escala
horizontal.
- Es la distribucin simtrica a ambos lados del punto de tendencia central, o
est cargada haca un lado?. En caso de cargarse haca un lado se dice que la
distribucin es asimtrica.
- Qu tan concentrados estn los puntos haca el centro y a lo largo de los
extremos de la distribucin?.
A la representacin grfica de una distribucin de frecuencias se le conoce
como histograma y se construye marcando los intervalos de clase en el eje
horizontal, de acuerdo a la escala de la variable medida, y las frecuencias
correspondientes a cada intervalo en el eje vertical.
Si su construccin es correcta, el rea de cada rectngulo debe ser
proporcional a la probabilidad de que una medicin caiga dentro de un intervalo
de clase dado, siempre y cuando la medicin sea coleccionada aleatoriamente.
Medicin numrica de las caractersticas de una distribucin
Despus de visualizar un histograma es importante utilizar medidas numricas
de tendencia central y dispersin, lo cual proporciona, entre otras, las siguientes
ventajas:
8
1.- Cuatro o cinco cifras ocupan menos espacio que una tabla o diagrama, y en
muchos casos proporciona toda la informacin necesaria.
2.- Las mediciones numricas obligan al estadstico a agudizar sus ideas
respecto a una caracterstica, y en esta forma mejora su comprensin de la
misma.
3.- Las mediciones numricas permiten comparar rpidamente dos o ms
distribuciones.
4.- Apoyan la toma de decisiones o conclusiones acerca de un universo,
tomando como base una muestra del mismo.
Medidas de Tendencia Central
Las medidas de tendencia central pueden servir como resmenes numricos de
un conjunto de mediciones. Estas medidas definen el centro del conjunto o la
posicin de l. Las medidas ms comunes son: la media, la mediana y la moda.
Media Aritmtica. La media de un conjunto de datos representa el centro fsico
del conjunto. Y se calcula mediante la frmula
Y Y Y Y Y
Y
n
n
i
i
n
= + + + + =
=
1 2 3
1
.. .
.) 1,1,2,3,4,4 media=2.5 1 1 2 3 4 4
..) 1,3,4,7,8,9,9 1 2 3 4 5 6 7 8 9 9 media = 5.857
...) 1,2,3,4,20 1 2 3 4 5 6 7 8 9 10 11 12 13 ....... 20
Mediana (Md). Es el nmero que est a la mitad de un conjunto ordenado de
mediciones. Si hay un nmero impar de mediciones en el conjunto existe un
nmero y slo uno colocado a la mitad. Si el nmero de datos es par, la
mediana se calcula al obtener la media aritmtica de los dos nmeros de
enmedio.
.) 1,3,4,6,20 En este caso el valor 4 no se ve afectado por el valor extremo 20.
..) 2,3,4,6,10,11,11,17 Md = (6+10)/2 = 8
...) 1,7,10,11,11,12,20,32 Md =11
9
Moda (Mo). Es el nmero que se presenta con mayor frecuencia en un conjunto
de mediciones.
Medidas de variabilidad
Una medida de variabilidad es un slo nmero que representa la dispersin de
un conjunto de datos. Las ms comunes son el rango, la varianza y la
desviacin estndar.
Rango. Mide la extensin total de un conjunto de datos, y se calcula utilizando
slo el valor mximo y mnimo.
Rango = Valor mximo - Valor mnimo
La eficiencia del rango, como medida de dispersin, decrece rpidamente
conforme el tamao de muestra se incrementa.
Varianza. Es una medida de las distancias de cada una de las observaciones
con respecto a la media.
S
y y
n
i
i
n
2
2
1
1
=
=
( )
Puesto que las unidades de la varianza estn al cuadrado de las unidades
originales de los datos, generalmente se prefiere usar la raz cuadrada de S
2
,
llamada la desviacin estndar.
S
y y
n
i
i
n
=
=
( )
2
1
1
Coeficiente de Variacin. Es una medida adimensional de variabilidad de los
datos, se representa por la expresin:
C V
S
Y
. . =
10
Ejemplo:
muestra 1 muestra 2 muestra 3
y
1
1 1 101
y
2
3 5 103
y
3
5 9 105
__________ _________ _________
Media 3 5 103
S 2 4 2
En las muestras 1 y 3 se observa que la desviacin estndar refleja nicamente
la desviacin con respecto a la media y NO la magnitud de los datos.
PROBABILIDAD Y FUNCIN DE DISTRIBUCIN
variable aleatoria. Si se le asigna un valor real a cada uno de los posibles
resultados de un experimento, al conjunto de todos los valores asignados se le
llama variable aleatoria, la cual es diferente de una variable ordinaria en que
sus valores slo se pueden determinar probabilsticamente.
Funcin de Probabilidad y Funcin de distribucin acumulada.
Si hay una probabilidad asociada a cada posible valor de una variable aleatoria
discreta X. Al conjunto de todas las probabilidades se le denota por f(X) y se le
conoce como funcin de probabilidad.
Por ejemplo, al lanzar dos monedas balanceadas y pagar un peso por cada
guila que caiga se tienen los siguientes resultados:
X (pesos) 0 1 2
resultados (S,S) (S,A)(A,S) (A,A)
De aqu que
X 0 1 2
f(X) 0.25 0.50 0.25
La funcin de distribucin acumulada FDA de una variable aleatoria X se define
por
11
F(X)= P(X =< x) = P(X tome valores que incluyan a x)
Por ejemplo: la probabilidad de pagar hasta 1 peso en un lanzamiento de dos
monedas es
F(1) = P(X =< 1) = F(0) + F(1)= 0.25 + 0.5 = 0.75
Funcin de densidad de probabilidad
Si una variable aleatoria X es continua, se requiere de una funcin de densidad
de probabilidades, fdp, que asocie sus respectivas probabilidades. La cual debe
cumplir las siguientes condiciones
f(X) >= 0 para toda X ; adems
f X dx ( ) = 1 sobre el intervalo de X
La correspondiente funcin de distribucin acumulada de una variable continua
con fdp f(x) est dada por
F(X) = P(X =< x) = f t dt
x
( )
Ejemplo:
Una variable aleatoria X tiene una fdp f(x) = 0.5x, 0 =< X =< 2. La probabilidad
de X menor a 1.5 es
F(1.5) = 0 5
0
1 5
.
.
tdt = 0.25t
2
|
.
0
1 5
= 0.5625
0.8
0.5
0 0.5 1.0 1.5 2.0
De manera anloga, si F(2)= 1 y F(1)= 0.25. la probabilidad de que X tome
valores entre 1 y 1.5 est dada por:
12
P(1 < X < 1.5) = F(1.5) - F(1) = 0.5625 - 0.25 = 0.3125
0.8
0.5
0 0.5 1.0 1.5 2.0
Distribucin Normal
Definida por el modelo
f x e
x
x
x
( )
( )( )
=

1
2
1
2

Distribucin normal estndar

Z
X
i
i
x
=

de la cual ya se habl al principio de este captulo

TEOREMA DEL LMITE CENTRAL
Este teorema establece que la distribucin de las medias muestrales es normal
an cuando las muestras se toman de una distribucin no-normal.
Si x
1
,x
2
, ... , x
n
son resultados de una muestra de n observaciones
independientes de una variable aleatoria X con media
x
y desviacin
2
, la
media de las Xs se distribuir aproximadamente como una distribucin normal
con media
x
y varianza
n
x
X
2
2

=
La aproximacin es mucho mejor cuando n se hace grande. En general, la
poblacin de la cual se toman las muestras no necesita ser normal, para que la
13
distribucin de las medias muestrales sea normal. Esto constituye lo ms
notorio y poderoso de este teorema.
ESTIMACIN (INTERVALOS DE CONFIANZA)
La estimacin hace referencia al clculo de intervalos de confianza para los
parmetros de una distribucin, a partir de datos muestrales.
Por ejemplo, para la estimacin de la media se tiene:
P{LI LS} = 1 -
que puede leerse como: la probabilidad de que el verdadero valor de est en
el intervalo acotado por LI y LS es 1-, cuyo resultado numrico es LI LS.
De aqu podemos empezar a plantear las siguientes frmulas de clculo.
Parmetro Intervalo
1) 1) Con varianza conocida
o n > 30 (donde n es el
tamao de muestra).
n
Z y

n
Z y
n
Z y

2 2
+
2) 2) Con varianza descono-
cida o n 30.
n
S
t y
n 1 ,
2

n
S
t y
n
S
t y
n n 1 ,
2
1 ,
2

+

3) 3)
2 2
Varianza distribucin
normal.
2
1 ,
2
1
2
2
2
1 ,
2
2
) 1 ( ) 1 (

n n
S n S n

Cuadro 1. Intervalos de confianza para un parmetro.

El cuadro 1 muestra los intervalos para los parmetros de una distribucin
normal: la media y la varianza. En la frmula 1 se establece que la varianza es
conocida, esto se logra cuando se tiene un proceso o fenmeno bien estudiado
y se tiene una buena estimacin del valor de la varianza poblacional. Cuando el
tamao de muestra es mayor a 30 se asume que S
2
=
2
.
14
En la frmula 2 slo se conoce la varianza muestral, as que para trabajar con
ella hay que apoyarse en una distribucin conocida como t de student, la cual
tambin es simtrica y considera el manejo de n 1 grados de libertad.
La frmula 3 corresponde al intervalo para una varianza poblacional, a partir de
la varianza muestral, aqu se debe utilizar una distribucin conocida como Chi-
cuadrada, y que se requieren dos valores de Chi, uno para el lmite inferior y
otro para el lmite superior, ya que esta distribucin no es simtrica y no tiene
valores negativo, ya que al elevar al cuadrado un valor y luego sumarlo no hay
posibilidades de obtener valores negativos.
Cuadro 2. Intervalos de confianza para dos parmetros.
4) 4)
1 1
-
2 2
Con varianzas conocidas o n
1
> 30 y n
2
> 30.
2
2
2
1
2
1
2
2 1 2 1
2
2
2
1
2
1
2
2 1
) ( ) (
n n
Z y y
n n
Z y y

+ + +
5) 5)
1 1
-
2 2
Con varianzas desconocidas e iguales.
2
1
1
1
1
2 1
,
2
)
2 1
(
2 1
2
1
1
1
1
2 1
,
2
)
2 1
(
n n
p
S
n n
t y y
n n
p
S
n n
t y y +
+
+ +
+

con
2
2 1
2
2
) 1
2
(
2
1
) 1
1
(
2
+
+
=
n n
S n S n
p
S
Es importante recordar que se asume o supone
2
2
2
1
=
6) 6)
1 1
-
2 2
Con varianzas desconocidas y diferentes.
2
2
2
1
2
1
,
2
)
2 1
(
2 1
2
2
2
1
2
1
,
2
)
2 1
(
n
S
n
S
t y y
n
S
n
S
t y y + + +
con
= grados de libertad =
1 1
2
2
2
2
2
1
2
1
2
1
2
2
2
1
2
1
+
n
n
S
n
n
S
n
S
n
S
Se asume o supone
2
2
2
1

15
7) Razn o cociente de varianzas de dos poblaciones normales
1
1
, 1
2
,
2
2
2
2
1
2
2
2
1
1
1
, 1
2
,
2
1 2
2
2
1

n n
F
S
S
n n
F
S
S
Es importante notar los dos valores de F, aunque si se obtiene uno el otro es su

inverso, esto es:
v u
v u
F
F
, ,
, , 1
1
Cuadro 2. Intervalos de confianza para dos parmetros (continuacin).

Intervalos de confianza para los parmetros de una distribucin binomial
Estos parmetros generalmente corresponden a una fraccin de lote o proceso
que no cumple con algn requisito (no-conforme).
De manera que si se toma una muestra aleatoria de n observaciones y se
encuentran x no conformes, se puede obtener un estimador puntual insesgado
de p, con $ p
x
n
=
Se tienen varias formas de construir un intervalo de confianza para p. Si n es
grande y p 01 . , entonces se puede utilizar una aproximacin normal para
construir un intervalo de confianza, el cual queda como:
$
$ ( $)
$
$( $ )
p Z
p p
n
p p Z
p p
n

+

2 2
1 1
PRUEBAS DE HIPOTESIS
Una hiptesis estadstica es una aseveracin acerca de los parmetros de una
distribucin de probabilidad.
Los procedimientos estadsticos de prueba de hiptesis se pueden utilizar para
checar la conformidad de los parmetros del proceso a sus valores
especificados o para apoyar la modificacin del proceso y lograr que se
obtengan los valores deseados o especificados.
16
Para probar una hiptesis se toma una muestra aleatoria de la poblacin en
estudio, se calcula un estadstico de contraste adecuado, y se toma la decisin
de rechazar o no rechazar la hiptesis nula Ho.
Ho. Hiptesis nula
Ha. Hiptesis alternativa
Al realizar una prueba de hiptesis pueden cometerse dos tipos de errores
= P{error tipo I}
= P{rechazar Ho/Ho es verdadera}
= P{error tipo II}
= P{no rechazar Ho/Ho es falsa}
=0.025
=0.005
$
alfa gorra o el nivel de significancia estimado a partir de los datos, es un
resultado importante, ya que es como preguntarle a los datos si su error tipo I
es mayor o menor que el nivel preestablecido (0.05 o 0.01) y que con el uso del
software estadstico se ha vuelto fundamental para la interpretacin de
resultados. Reemplazando al uso de valores de tablas, para un nivel de
significancia dado.
No rechazo de Ho
No rechazo de Ho
17
PRUEBAS DE HIPOTESIS BASADAS EN LA DISTRIBUCION NORMAL
Prueba de medias con varianza conocida
Hiptesis Estadstico de prueba Regla de decisin
Comparacin de una media contra un valor definido por el investigador
Ho: =
0
|Z
c
| > Z
/2
Ha:
0
Zc =
n
Y
Ho:
0
Z
c
< -Z
Ha: <
0
Ho:
0
Z
c
> Z
Ha: >
0
Comparacin de un par de medias
Ho:
1
=
2
|Z
c
| > Z
/2
Ha: 1
2
Zc =
2
2
2
1
2
1
2 1
n n
Y Y

+
Ho:
1

2
Z
c
< -Z
Ha:
1
<
2
Ho:
1

2
Z
c
> Z
Ha:
1
>
2
Prueba de medias con varianza desconocida
Ho: =
0
|t
c
| > t
/2, n-1
Ha:
0
t
c
=
n
S
Y
0

Ho:
0
t
c
< -t
, n-1
Ha: <
0
18
Ho:
0
t
c
> t
, n-1
Ha: >
0
Ho:
1
=
2
|t
c
| > t
/2,
Ha: 1
2
t
c
=
2 1
2 1
1 1
n n
S
Y Y
p
+
Ho:
1

2
t
c
< -t
,
Ha:
1
<
2
Ho:
1

2
t
c
> t
,
Ha:
1
>
2
Esta prueba corresponde a la comparacin de dos medias, cuando las
varianzas son iguales, en cuyo caso.
Sp =
2
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
+
+
n n
S n S n
= grados de libertad = n
1
+ n
2
-1
Cuando las varianzas son diferentes se obtiene el estadstico t
c
de la siguiente
manera.
t
c
=
2
2
2
1
2
1
2 1
n
S
n
S
Y Y
+
y los grados de libertad con =

1 1
2
2
2
2
2
1
2
1
2
1
2
2
2
1
2
1
+
n
n
S
n
n
S
n
S
n
S
Esto ltimo quiere decir que para hacer una comparacin de medias con la t de
student se requiere previamente un anlisis de comparacin de varianzas.
Pruebas de varianza
Comparacin de una varianza contra un valor definido por el investigador
Ho:
2
=
2
0

2
c
>
2
/2, n-1
Ha:
2

2
0

2
c
<
2
1-/2, n-1
2
c
=
2
0
2
) 1 (
S n
19
Ho:
2

2
0

2
c
<
2
1-, n-1
Ha:
2
<
2
0
Ho:
2

2
0

2
c
>
2
, n-1
Ha:
2
>
2
0
Comparacin de un par de varianza
Ho:
2
1
=
2
2
F
c
> F
/2, n1-1, n2-1
Ha:
2
1

2
2
F
c
> F
1 /2, n1-1, n2-1
F
c
=
2
2
2
1
S
S
Ho:
2
1

2
2
F
c
> F
, n2-1, n1-1
Ha:
2
1
<
2
2
F
c
=
2
1
2
2
S
S
Ho:
2
1

2
2
F
c
> F
, n1-1, n2-1
Ha:
2
1
>
2
2
F
c
=
2
2
2
1
S
S
El siguiente paso es revisar algunos ejemplos que permitan visualizar la
aplicacin de estos conceptos.
20
EJERCICIOS
1. Se realizaron seis determinaciones del contenido de hidrgeno de un
compuesto cuya composicin terica es del 9.55%, Difiere el valor promedio
del terico?
%H 9.17, 9.09, 9.14, 9.10, 9.13, 9.27
Las hiptesis de trabajo son: Ho: = 9.55 Ha: 5 5 . 9
Resolviendo en MINITAB, mediante las opciones:
STAT BASIC STATISTICS 1 SAMPLE t y solicitando algunos grficos
Despus de teclear los valores en la columna C1.
Welcome to Minitab, press F1 for help.
One-Sample T: C1
Test of mu = 9.55 vs mu not = 9.55
Variable N Mean StDev SE Mean
C1 6 9.1500 0.0654 0.0267
Variable 95.0% CI T P
C1 ( 9.0813, 9.2187) -14.98 0.000
ANALISIS:
1. Se tiene una media muestral de 9.15, con una desviacin estndar muestral
de 0.0654.
21
2. El intervalo de confianza al 95% va de 9.0813 hasta 9.2187, lo que permite
ver que no contiene al valor de 9.55, y nos da evidencia de que el contenido
de hidrgeno est por abajo de valor terico.
3. Se comprueba esto con los valores de t = -14.98 que en colaboracin con el
de P, aportan evidencias estadstica que permite rechazar Ho y afirmar con
un 95% de confianza o con una significancia de 0.05 que el contenido de
hidrgeno es diferente al 9.55%.
Hay algunos grficos que nos permiten observar esto de manera visual.
t Dotplot of C1
t Boxplot of C1
22
El histograma es un grfico de los ms tradicionales y permite visualizar la
distribucin en relacin al intervalo de confianza.
El grfico de puntos permite ver que hay valores en la muestra que estn por
arriba del intervalo de confianza.
La grfica boxplot (de cajas y alambres) tiene la siguiente informacin: una caja
cuyos lmites corresponden al cuartil 1 (Q1) y el cuartil 3 (Q3), la marca interior
de la caja corresponde a la mediana y los extremos de los alambres
corresponden a los valores mnimo y mximo. En este grfico se puede ver que
la media y la mediana no coinciden y que los datos estn sesgados hacia
valores pequeos, con un valor muy grande que no alcanza a equilibrar la caja
del grfico.
2. Se analiz el contenido de silicio de una muestra de agua por dos mtodos,
uno de los cuales es una modificacin del otro, en un intento por mejorar la
precisin de la determinacin. De acuerdo a los siguientes datos.
Mtodo original Mtodo modificado
149 ppm 150 ppm
139 147
135 152
140 151
155 145
Es el mtodo modificado ms preciso que el regular?
Una medida de la precisin o dispersin est dada por la varianza, de manera
que se pide una comparacin de varianzas, con Ho:
2
2
2
1
vs Ha:
2
2
2
1
f .
Haciendo el anlisis en MINITAB, con C2 el mtodo original y C3 el modificado:
STAT BASIC STATISTICS 2 VARIANCES
Se obtienen los siguientes resultados
Test for Equal Variances
Level1 C2
Level2 C3
ConfLvl 95.0000
23
Bonferroni confidence intervals for standard deviations
Lower Sigma Upper N Factor Levels
4.57574 8.17313 28.2753 5 C2
1.63223 2.91548 10.0862 5 C3
F-Test (normal distribution)
Test Statistic: 7.859
P-Value : 0.071
Levene's Test (any continuous distribution)
P-Value : 0.225
ANALISIS:
De acuerdo a las pruebas de hiptesis, no se tiene evidencia estadstica para
afirmar que las varianzas son diferentes, aunque puede verse que hay menos
variabilidad en el mtodo modificado, por el intervalo de confianza de las
sigmas, lo que podra interpretarse como ms precisin sin tener evidencia
estadstica que la soporte.
El apoyo grfico, se muestra a continuacin
Test for Equal Variances: C2 vs C3
Aqu se aprecia de manera grfica lo que se planteaba en el anlisis previo, al
tener a la vista los intervalos de confianza y los boxplot de las desviaciones
estndar.
24
3. Se analiza el contenido de agua en dos lotes de productos, por el mtodo
estndar de Karl Fischer. En base a los datos del siguiente cuadro, difieren los
lotes en su contenido de agua?
Contenido de agua
Lote A Lote B
0.50 0.53
0.53 0.56
0.47 0.51
0.53
0.50
Realizando el anlisis con MINITAB, STAT Basic Statistics 2 Sample t.
Two-Sample T-Test and CI: C5, C6
N Mean StDev SE Mean
C5 3 0.5000 0.0300 0.017
C6 5 0.5260 0.0230 0.010
Difference = mu C5 - mu C6
Estimate for difference: -0.0260
95% CI for difference: (-0.0901, 0.0381)
T-Test of difference = 0 (vs not =): T-Value = -1.29 P-Value = 0.287 DF = 3
Dotplots of C5, C6
25
Boxplots of C5, C6
ANALISIS:
La hiptesis a trabajar (Ho:) es que la diferencia entre las medias es igual a
cero, en otras palabras, las medias son iguales vs la Ha: de que la diferencia no
es cero y por lo tanto las medias son diferentes.
Del intervalo para las diferencias se ve que este incluye al valor de cero lo que
da indicios de que las medias son iguales, de la misma forma P-value aporta
evidencia para no rechazar Ho. Otra evidencia de la igualdad de medias la
tenemos en la grfica de boxplot, donde para fines prcticos se puede
considerar que si las cajas se intersectan no hay evidencia estadstica de
diferencias entre las medias.
4. Se analiza un lote de productos para detectar concentraciones de hierro,
antes y despus de someterlos a un tratamiento para remover impurezas. De
acuerdo a los siguientes datos, hay evidencia de que el tratamiento es
adecuado?
Este problema plantea una Ho: d = 0, donde d es la diferencia de los valores
entre antes y despus del tratamiento, si la diferencia es cero entonces no hay
efecto del tratamiento.
26
Lote A
Lote A
Despus del tratamiento
6.1 5.9
5.8 5.7
7.0 6.1
6.1 5.8
5.8 5.9
6.4 5.6
6.1 5.6
6.0 5.9
5.9 5.7
5.8 5.6
Realizando el anlisis con MINITAB, Stat Basic statistics Paired t, se
obtienen los siguientes resultados.
Paired T for C1 - C2
C1 10 6.100 0.368 0.116
C2 10 5.780 0.169 0.053
Difference 10 0.320 0.319 0.101
95% CI for mean difference: (0.092, 0.548)
T-Test of mean difference = 0 (vs not = 0): T-Value = 3.17 P-Value = 0.011
27
ANALISIS
Se puede ver en el intervalo de confianza para la diferencia que est por arriba
de los valores de cero, corroborando con el valor de P-value que se puede
rechazar la Ho. Confirmndolo de manera visual con el grfico donde se ve que
la Ho queda por abajo de la caja y entonces se tiene evidencia para afirmar con
un 95% de confianza que si hay mejora en la eliminacin de impurezas.
5. Se analiza el contenido de agua en diez muestras de produccin,
comparando el mtodo estndar de Karl Fischer y una versin coulombimtrica
del mtodo KF, Hay evidencia de una diferencia real en los valores del
contenido de agua?
Coul KF 12.1 10.9 13.1 14.5 9.6 11.2 9.8 13.7 12.0 9.1
Regular KF 14.7 14.0 12.9 16.2 10.2 12.4 12.0 14.8 11.8 9.7
Se puede aprovechar el material revisado para analizar el concepto de tamao
de muestra
SELECCIONANDO EL TAMAO DE MUESTRA
Al comparar un par de medias, uno de los aspectos ms importantes consiste
en seleccionar el tamao apropiado de la muestra. Esta seleccin y la
probabilidad de error tipo II estn muy relacionadas. De manera que si al
probar las hiptesis
Ho:
1
=
2
Ha:
1

2
se encuentra que las medias son diferentes se tiene una =
1
-
2.
Entonces el
problema consiste en errneamente no rechazar Ho. Y la probabilidad del error
tipo II depende de la diferencia verdadera que hay entre las medias .
A la grfica de contra , en el caso particular de un tamao de muestra, se le
conoce como curva caracterstica de operacin o curva OC de la prueba. Es
importante hacer notar que el error est en funcin del tamao de la muestra,
de manera que a tamaos de muestra grandes es posible detectar s ms
pequeas.
28
En la siguiente figura se muestra un conjunto de curvas caractersticas de
operacin para el caso donde las dos varianzas poblacionales
1
2
y
2
2
son
desconocidas pero iguales,
1
2
2
2
= = , y para un nivel de significancia de =
0.05. Estas curvas son especficas para probar las hiptesis
Ho:
1
=
2
Ha:
1

2
y suponen que el tamao de muestra es igual para las dos poblaciones, es
decir que n
1
=n
2
=n. Donde el parmetro del eje horizontal de la figura est dado
por
d =

=

1 2
2 2
Ya que el tamao de muestra utilizado en la construccin de estas curvas es.
n* = 2n - 1.
29
En estas curvas se puede apreciar la siguiente informacin:
1) A mayor diferencia de las medias, menor es el valor de error tipo II, dado el
tamao de la muestras y el valor de .
2) A medida que el tamao de la muestra aumenta la probabilidad de error tipo
II disminuye, cuando el nivel de diferencia de las medias y el valor de estn
dados.
Ejemplo
Se realiz un experimento para comparar dos poblaciones, obteniendo los
siguientes resultados
Se desea detectar con alta probabilidad una diferencia mnima de 0.5 entre
ambas medias poblacionales, de manera que
d =

= =

1 2
2
05
2
025 . .
Desafortunadamente d contiene el parmetro desconocido . Sin embargo se
puede suponer, en base a la experiencia, que no es posible que la desviacin
estndar de cualquier observacin sea mayor al valor de 0.25, por lo que
d =
025
025
.
.
A partir de la curva caracterstica de operacin, con = 0.05 y d = 1 se obtiene
n*=16, aproximadamente. Y puesto que n* = 2n - 1, el tamao de muestra
requerido es
n
n
=
+
=
+
=
*
.
1
2
16 1
2
85 9
lo que indica que se deben utilizar muestras con tamaos n
1
= n
2
= 9 o mayores
Poblacin
1
Poblacin
2
Media 16.76 17.92
Varianza 0.100 0.061
Desviacin
Estndar
0.316 0.247
n 10 10
ANVA y DISEO DE EXPERIMENTOS
MOTIVACION AL ANALISIS DE VARIANZA
Suponga un experimento donde se quieren comparar 5 tratamientos, para ver si
su respuesta promedio es la misma para los 5 o si hay algunas diferentes.
De antemano el investigador asume que hay diferencia, si no que sentido tiene
el experimento. Tambin se sabe que en cada tratamiento debe haber un efecto
de variaciones debida a la causa que se est controlando (temperatura,
presin, etc.) y una variacin debida al azar, la cual es inevitable.
La variacin entre tratamientos se mide como una varianza de la media de cada
tratamiento con respecto a la gran media.
La variacin dentro de tratamientos se mide comparando cada observacin o
medicin con respecto a la media del respectivo tratamiento y en trminos del
anlisis de varianza se le conoce como cuadrado medio del error.
Ahora, si se tienen dos varianzas lo que se puede hacer es compararlas
mediante una prueba de F.
os tratamient dentro Varianza
os tratamient entre Varianza
F
_ _
_ _
=
Si no se puede establecer diferencia estadstica entre estas varianzas,
entonces no hay efecto de tratamiento y la variacin se debe al azar.
Media Media Media Media Media
Media
2
DESPUES DEL ANALISIS DE VARIANZA
Cul de todos los pares de medias son diferentes?
Para responder a esta pregunta se realizan pruebas de comparaciones
mltiples de medias, como la de Tukey.
TUKEY
Este mtodo se basa en utilizar el cuadrado medio del error, que se
obtiene de un ANVA. Para calcular un valor que se compara con las
diferencias de cada par de medias, si el resultado es mayor de se
asumen medias diferentes en caso contrario se consideran semejantes o
iguales.
La frmula de clculo es.
= q

(k, )
g
n
CME
donde:
k = nmero de tratamientos o niveles
= grados de libertad asociados al CME, con = n - k
n
g
= nmero de observaciones en cada uno de los k niveles
= nivel de significancia
q
(k,) = valor crtico de rangos estudentizados (tablas)

La bibliografa reporta una amplia gama de pruebas, siendo las ms comunes,
adems de la de Tukey, la de Fisher y la de Dunnet.
La prueba de Tukey y la de Fisher comparan todos los pares de medias,
aunque Tukey genera intervalos ms amplios que la de Fisher. Recomendando
Tukey en estudios iniciales y la de Fisher en estudios finales o concluyentes.
La prueba de Dunnet permite comparar las medias contra un valor de referencia
o control.
Despus de comparar las medias, se recomienda verificar el cumplimiento de
supuestos, para avalar la calidad de las conclusiones a las que se llega a travs
2
del anlisis realizado: Homocedasticidad, Normalidad y comportamiento de
residuales.
Homocedasticidad, varianzas homogneas o iguales entre todos los
tratamientos, aqu se recomienda una prueba de Barttlet
PRUEBA DE BARTTLET PARA HOMOGENEIDAD DE VARIANZAS
Esta prueba considera el siguiente juego de hiptesis.
Ho: Todas las varianzas son iguales
Ha: Al menos dos varianzas son diferentes
1) Calcular
S
S
k
2
2
=

log log( ) S S
2 2
=
M gl k S S = 2 3026
2 2
. ( )[ log log ]
C = 1 +
k
gl k
+1
3( )
2
=
M
C
gl = grados de libertad por varianza
= k -1
Regla de decisin: Si

2
calculada
>
,
, rechazar Ho.
Otra prueba consiste en verificar si los datos se comportan de acuerdo a una
distribucin normal, para lo cual existen pruebas numricas y grficas. Las
numricas bsicamente plantean una curva normal terica y mediante una
prueba de falta de ajuste someten a prueba la hiptesis nula de que los datos
ANVA y Diseo de Experimentos.
3
se apegan a la distribucin (Mtodo de Kolmogorov-Smirnov, Anderson-
Darling). Otro mtodo es el grfico, el cual es ms utilizado por su impacto
visual y lo fcil que es interpretarlo.
GRFICOS DE PROBABILIDAD NORMAL
Estos grficos permiten juzgar hasta donde un conjunto de datos puede o no
ser caracterizado por una distribucin de probabilidad especfica, en este caso
la normal.
Grficos de probabilidad acumulada.
Observacin
(i)
X
i
Xi en orden
ascendente
p
i
(%) Z
i
q
i
1 9.63 9.34 2.5 -1.96 -1.99
2 9.86 9.51 7.5 -1.44 -1.49
3 10.20 9.63 12.5 -1.15 -1.13
4 10.48 9.69 17.5 -0.94 -0.95
5 9.82 9.75 22.5 -0.76 -0.77
6 10.07 9.82 27.5 -0.60 -0.56
7 10.39 9.86 32.5 -0.46 -0.44
8 10.03 9.89 37.5 -0.32 -0.35
9 9.34 9.96 42.5 -0.19 -0.14
10 10.26 9.98 47.5 -0.06 -0.08
11 9.89 10.03 52.5 0.06 0.07
12 10.67 10.07 57.5 0.19 0.19
13 9.69 10.13 62.5 0.32 0.37
14 10.15 10.15 67.5 0.46 0.43
15 10.32 10.20 72.5 0.66 0.58
16 9.98 10.26 77.5 0.76 0.76
17 9.51 10.32 82.5 0.94 0.94
18 10.13 10.39 87.5 1.15 1.15
19 9.96 10.48 92.5 1.44 1.42
20 9.75 10.67 97.5 1.96 1.98
p
i
n
i
=
100 0 5 ( . )
q
i
=
X i X
S x
Un grfico de los pares (X

i
, p
i
) se espera que tenga una forma de S para
asegurar una aproximacin normal, aunque es ms comn hacer este grfico
en papel normal para obtener una lnea recta.
4
Si todos los puntos de los datos aparecen aleatoriamente distribuidos a lo largo
de la lnea recta y si la lnea pasa sobre o cercanamente a la interseccin de la
media de X, el 50% de probabilidad, el ajuste de los datos a la distribucin
normal se considera adecuado.
Contrariamente, si los puntos aparecen con forma de S, la sugerencia es que
los datos no se distribuyen normalmente.
Con la ayuda de una tabla de probabilidad normal, las probabilidades
acumuladas, P
i
pueden convertirse en sus correspondientes valores normales
estandarizados z
i
.
P(Z Z
i
)= p
i
Si se conoce la media y la varianza la variable X
i
, los datos muestreados se
pueden estandarizar utilizando la transformacin:

q
i
X
i i
i
=

dado que la
x
y
x
generalmente no se conocen, se usa la ecuacin:

q
i
X X
S
i
x
=

A continuacin se puede hacer un grfico de los puntos (q
i
, z
i
) que sirve para
juzgar la normalidad de un conjunto de datos.
Si se traza una grfica con la misma escala para q
i
y

Z
i
, se espera que los
puntos se distribuyen aleatoriamente a lo largo de la lnea recta dibujada a 45
o
.
EJERCICIO
Observacin
(i)
Datos
(Xi)
Datos
ordenados
Probabilidad
acumulada
Zi
asociado
con p
i
Datos
estandarizados
q
i
1 172.6 158.2 1.1 -2.29 -1.87
2 171.8 158.6 3.4 -1.83 -1.80
3 158.2 159.2 5.7 -1.58 -1.70
4 175.8 160.2 8.0 -1.41 -1.52
5 176.8 160.2 10.2 -1.27 -1.52
6 158.6 161.4 12.5 -1.15 -1.32
7 167.0 162.0 14.8 -1.05 -1.21
8 172.4 162.2 17.0 -0.95 -1.18
9 161.4 162.4 19.3 -0.87 -1.14
10 171.8 163.4 21.6 -0.79 -0.97
11 167.2 165.0 23.9 -0.71 -0.69
12 159.2 165.8 26.1 -0.64 -0.56
5
13 179.0 166.2 28.4 -0.57 -0.49
14 174.6 166.2 30.7 -0.51 -0.49
15 162.2 166.6 33.0 -0.44 -0.42
16 167.2 167.0 35.2 -0.38 -0.35
17 177.6 167.2 37.5 -0.32 -0.31
18 168.0 167.2 39.8 -0.26 -0.31
19 160.2 167.6 42.0 -0.20 -0.25
20 165.0 167.6 44.3 -0.14 -0.25
21 175.8 168.0 46.6 -0.09 -0.18
22 167.6 168.4 48.9 -0.03 -0.11
23 160.2 169.8 51.1 0.03 0.13
24 163.4 170.0 53.4 0.09 0.17
25 175.4 170.6 55.7 0.14 0.27
26 170.6 171.4 58.0 0.20 0.41
27 166.2 171.8 60.2 0.26 0.48
28 170.0 171.8 62.5 0.32 0.48
29 166.2 171.8 64.8 0.38 0.48
30 171.4 172.4 67.0 0.44 0.58
31 176.6 172.4 69.3 0.51 0.58
32 167.6 172.6 71.6 0.57 0.62
33 172.4 174.2 73.9 0.64 0.89
34 169.8 174.6 76.1 0.71 1.96
35 168.4 174.8 78.4 0.79 1.00
36 174.2 175.4 80.7 0.87 1.10
37 162.0 175.6 83.0 0.95 1.14
38 175.6 175.6 85.2 1.05 1.14
39 175.6 175.8 87.5 1.15 1.17
40 165.8 175.8 89.8 1.27 1.17
41 162.4 176.6 92.0 1.41 1.31
42 166.6 176.8 94.3 1.58 1.34
43 171.8 177.6 96.6 1.83 1.48
44 174.8 179.0 98.9 2.29 1.72
n=44 x = 169 022 . s
x
= 5 790 .
EJEMPLOS
Analizando algunos ejemplos se tiene:
1. Un fabricante supone que existe diferencia en el contenido de calcio en lotes
de materia prima que le son suministrados por su proveedor. Actualmente hay
una gran cantidad de lotes en la bodega. Cinco de estos son elegidos
aleatoriamente. Un qumico realiza cinco pruebas sobre cada lote y obtiene los
siguientes resultados.
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
6
23.40 23.50 23.49 23.39 23.38
Hay variacin significativa en el contenido de calcio de un lote a otro?
El juego de hiptesis a probar es:
Ho:
1
=
2
=
3
=
4
=
5
Ha: al menos un par de medias es diferente
Haciendo el anlisis en MINITAB, con STAT ANOVA ONEWAY
One-way ANOVA: C2 versus C1
Analysis of Variance for C2
Source DF SS MS F P
C1 4 0.09698 0.02424 5.54 0.004
Error 20 0.08760 0.00438
Total 24 0.18458
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev --------+---------+---------+--------
l1 5 23.4580 0.0687 (------*-------)
l2 5 23.4920 0.0630 (-------*------)
l3 5 23.5240 0.0688 (-------*------)
l4 5 23.3800 0.0652 (-------*------)
l5 5 23.3640 0.0650 (-------*------)
--------+---------+---------+--------
Pooled StDev = 0.0662 23.360 23.440 23.520
Tukey's pairwise comparisons
Family error rate = 0.0500
Individual error rate = 0.00722
Critical value = 4.23
Intervals for (column level mean) - (row level mean)
l1 l2 l3 l4
l2 -0.15920
0.09120
l3 -0.19120 -0.15720
7
0.05920 0.09320
l4 -0.04720 -0.01320 0.01880
0.20320 0.23720 0.26920
l5 -0.03120 0.00280 0.03480 -0.10920
0.21920 0.25320 0.28520 0.14120
ANALISIS:
La tabla del anlisis de varianza permite rechazar Ho (P = 0.004, menor a 0.05),
es decir existe evidencia de que al menos un par de medias es diferente,
surgiendo la pregunta: cul o cuales son los pares de medias diferentes? Para
lo que la comparacin de medias de Tukey es la mejor opcin para responder a
esta interrogante.
La matriz de comparaciones de Tukey realmente muestra un intervalo de
confianza para la diferencia de cada par de medias, por lo que hay diferencia
estadsticamente significativa entre aquellas medias cuyo intervalo no contenga
el valor de cero, en este caso L2-L5, L3-L4 y L3-L5, todas las dems medias
son iguales entre si.
Esto se puede analizar mejor en un grfico boxplot
Donde como ya se mencion, la diferencia se presenta entre las medias cuyas
cajas no se interceptan, aunque esta conclusin se debe reforzar con los
valores de la prueba de Tukey.
8
Para darle confiabilidad a las conclusiones se requiere verificar el cumplimiento
de supuestos, como la igualdad de varianzas y la normalidad de los residuales.
En MINITAB se obtienen los siguientes resultados
Response C2
Factors C1
ConfLvl 95.0000
3.56E-02 6.87E-02 0.302014 5 l1
3.27E-02 6.30E-02 0.276982 5 l2
3.57E-02 6.88E-02 0.302334 5 l3
3.38E-02 6.52E-02 0.286583 5 l4
3.37E-02 6.50E-02 0.285908 5 l5
Bartlett's Test (normal distribution)
P-Value : 1.000
P-Value : 0.998
Analizando los valores de la prueba de Bartlett se observa que no se puede
rechazar la hiptesis nula de que toda las varianzas son estadsticamente
iguales, por lo tanto se cumple con la homogeneidad de varianzas.
Esto tambin se puede ver de manera grfica.
9
Donde se aprecia una interseccin de todos los intervalos de confianza para la
desviacin estndar de cada uno de los 5 lotes.
Otro supuesto a verificar es la normalidad de los datos, el cual se puede checar
con un grfico de probabilidades normales.
Aunque se observa cierta desviacin de la normalidad, ya que debera verse
una tendencia lineal. La mejor forma de verificar este supuesto es mediante una
prueba numrica, como la Kolmogorov-Smirnov, cuya Ho: es que los datos
siguen una distribucin normal, contra una Ha: de que los datos no siguen una
distribucin normal.
10
El valor de P nos indica que no se puede rechazar la Ho y por lo tanto se tiene
evidencia de que los datos se comportan como una distribucin normal.
Esta ltima fase del anlisis es la manera de darle validez a las conclusiones,
ya que de otra forma se corre el riesgo de hacer conclusiones errneas.
2. Tres diferentes soluciones para lavar estn siendo comparadas con el objeto
de estudiar su efectividad en el retraso del crecimiento de bacterias en envases
de leche de 5 galones. El anlisis se realiza en un laboratorio y slo pueden
efectuarse tres pruebas en un mismo da. Se hicieron conteos de colonias
durante cuatro das. Analizar los datos y obtener conclusiones acerca de las
soluciones.
Das
Solucin 1 2 3 4
I 13 22 18 39
II 16 24 17 44
III 5 4 1 22
Realizando el anlisis con MINITAB, mediante STAT ANOVA- GLM se
obtienen los siguientes resultados
General Linear Model: y versus sol, dias
Factor Type Levels Values
11
sol fixed 3 1 2 3
dias fixed 4 1 2 3 4
Analysis of Variance for y, using Adjusted SS for Tests
Source DF Seq SS Adj SS Adj MS F P
Sol 2 703.50 703.50 351.75 40.72 0.000
Dias 3 1106.92 1106.92 368.97 42.71 0.000
Error 6 51.83 51.83 8.64
Total 11 1862.25
Los valores de P indican que hay evidencia estadstica de que hay diferencias
entre las soluciones, ahora hay que decir cuales son las que realmente son
diferentes y cul seria la mejor. Para esto hay que realizar una prueba de tukey,
tomando el valor del CME de la tabla de ANVA.
Aunque tambin se requieren los valores de las medias, que al pedirlas en
MINITAB dan.
Descriptive Statistics: y by sol
Variable sol N Mean Median TrMean StDev
Y 1 4 23.00 20.00 23.00 11.28
2 4 25.25 20.50 25.25 13.00
3 4 8.00 4.50 8.00 9.49
Despus hay que verificar los supuestos de la prueba
Response y
Factors sol
ConfLvl 95.0000
5.70451 11.2842 61.3724 4 1
6.57027 12.9968 70.6868 4 2
4.79588 9.4868 51.5969 4 3
12
P-Value : 0.880
P-Value : 0.870
Probando la normalidad se tienen
3. Se encuentra
bajo estudioel efecto de
tienen 5 reactivos distintos (A, B, C, D y E) sobre el tiempo de reaccin de un
proceso qumico.Cada lote de material nuevo es lo suficientemente grande para
permitir que slo se realicen 5 ensayos. Ms an, cada ensayo tarda
aproximadamente una hora y media por lo que slo pueden realizarse cinco
ensayos por da. En el experimento se busca controlar sistemticamente las
variables lote de material y da, qu se puede decir del tiempo de reaccin de
los 5 reactivos diferentes?
Da
Lote 1 2 3 4 5
1 A,8 B,7 D,1 C,7 E,3
2 C,11 E,2 A,7 D,3 B,8
3 B,4 A,9 C,10 E,6 D,5
4 D,6 C,8 E,6 B,1 A,10
5 E,4 D,2 B,3 A,8 C,8
4. En un experimento para comparar el porcentaje de eficiencia de cuatro
diferentes resinas quelantes (A, B, C y D) en la extraccin de iones de Cu
2+
de
solucin acuosa, el experimentador slo puede realizar cuatro corridas con
13
cada resina. De manera que durante tres das seguidos se preparo una
solucin fresca de iones Cu
2+
y se realiz la extraccin con cada una de las
resinas, tomadas de manera aleatoria, obteniendo los siguientes resultados.
Cul es el modelo ms adecuado para analizar este experimento y cuales son
sus conclusiones?
Da A B C D
1 97 93 96 92
2 90 92 95 90
3 96 91 93 91
4 95 93 94 90
TAMAOS DE MUESTRA EN DISEOS UNIFACTORIALES
Curvas caractersticas de operacin.
Una curva caracterstica de operacin es una grfica de la probabilidad del error
tipo II de una prueba estadstica, para un tamao de muestra particular, contra
el parmetro que refleja la extensin en la cual la hiptesis nula es falsa. Estas
curvas se utilizan para la seleccin del nmero de repeticiones, con el objeto de
que el diseo sea sensible a diferencias potenciales importantes entre los
tratamientos.
De manera que considerando la probabilidad de error tipo II en el caso de
muestras del mismo tamao en cada tratamiento
= 1 - P(Rechazar Ho/Ho es falsa)
= 1 - P(Fo > F
,a-1,N-a
/Ho es falsa)
Para calcular esta probabilidad se requiere conocer la distribucin de Fo si Ho
es falsa. Siendo posible mostrar que Fo = C. M de Tratamientos/C. M del Error,
tiene una distribucin F no centrada con a-1 y N-a grados de libertad y un
parmetro de descentralizacin . Donde si = 0, la distribucin F no centrada
se transforma en la usual distribucin F (centrada).
Las curvas de operacin que se encuentran en la bibliografa se utilizan para
evaluar la probabilidad de , indicando la probabilidad del error tipo II () contra
el parmetro , donde
14
2
2
1
2
=
=
n
a
i
i
a
2
est relacionado con el parmetro de descentralizacin .
Aqu el experimentador debe especificar el valor de , esto en la prctica
generalmente resulta difcil. Una forma de hacerlo es elegir los valores de las
medias de los tratamientos para los cuales se desea rechazar la hiptesis nula
con una probabilidad alta. Por lo tanto, si
1
,
2
, ...,
a
son las medias de
tratamiento propuestas, el valor de
i
se calcula con
i
=
i
- = (1/a)
i
i
a
=
1
el
promedio de las medias individuales de tratamientos. Tambin es necesaria
una estimacin de
2
. En ocasiones esta puede obtenerse de experiencias
previas o de una estimacin propuesta. Cuando no hay seguridad sobre el valor
de
2
, el tamao de las muestras puede determinarse para un intervalo de
valores posibles de
2
y estudiar el efecto de este parmetro sobre el tamao
de la muestra antes de tomar una decisin final.
Ejemplo
Supngase un experimento donde se tiene inters en rechazar la hiptesis nula
con una probabilidad mnima de 0.90 cuando las medias de tratamiento son
1
= 11
2
= 12

= 15
4
= 18 y
5
= 19
Se planea usar = 0.01. En este caso,
i
i
a
=
1
= 75, porque = (1/5)75 = 15 y
1
=
1
- = 11 - 15 = -4
2
=
2
- = 12 - 15 = -3
3
=
3
- = 15 - 15 = 0
4
=
4
- = 18 - 15 = 3
5
=
5
- = 19 - 15 = 4
Por lo tanto
i i
2
1
5
=
= 50. Si se cree que la desviacin estndar no excede a =3,
de manera que
2
2
1
5
2 2
50
5 3
111 = = =
=
n
a
n
n
i
i

( )
( )
.
15
Usando la curva caracterstica de operacin con a-1=5-1 = 4, N-a=a(n-1)=5(n-1)
grados de libertad del error y = 0.01. Como primera aproximacin del nmero
de repeticiones se prueba n = 4. Esto da
2
=1.11(4)=4.44, =2.11 y 5(4-1)=15
grados de libertad del error, de manera que de acuerdo a la curva caracterstica
de operacin = 0.30 y se concluye que 4 repeticiones no son suficientes
porque la potencia de la prueba es aproximadamente 1- = 1-0.30 = 0.70, valor
menor al requerido de 0.90. De forma similar se puede construir la siguiente
tabla.
Por lo tanto, se requieren al menos 6 repeticiones para tener una prueba con la
potencia deseada.
El problema del enfoque anterior es que usualmente resulta difcil seleccionar el
conjunto de medias de tratamiento sobre el cual se basar la decisin sobre el
tamao de muestra. Un enfoque alterno es seleccionar el tamao de muestra
de manera que la hiptesis nula se rechace si la diferencia entre cualquier par
de medias de tratamiento excede un valor dado. Si la diferencia entre dos
medias de tratamiento es cuando mucho D, se puede demostrar que el valor
mnimo de
2
es
2
=
nD
a
2
2
2
Como ste es el valor mnimo de
2
, el tamao de las muestras
correspondientes que se obtiene con las curvas de operacin caracterstica
toma un valor conservador, esto es proporciona una potencia igual al menos a
la especificada por el investigador.
Ejemplo
En el ejemplo anterior considere que el investigador desea rechazar la hiptesis
nula con una probabilidad de 0.90 como mnimo, si la diferencia entre cualquier
par de medias de tratamiento es a lo sumo igual a 10. Suponiendo que = 3, el
valor mnimo de
2
es
n
2
a(n-1) poder (1- )
4 4.44 2.11 15 0.30 0.70
5 5.55 2.36 20 0.15 0.85
6 6.66 2.58 25 0.04 0.96
16
2
2
2
10
2 5 3
111 = =
n
n
( )
( )( )
.
Y del anlisis ya realizado se concluye que n = 6, para obtener el nivel de
sensibilidad deseado cuando =0.01.
ANALISIS DE REGRESION SIMPLE Y MULTIPLE
Problemas que se plantean:
1) Cul es el modelo matemtico ms apropiado para describir la relacin
entre una o ms variables independientes (Xs) y una variable dependiente (Y)?
2) Dado un modelo especifico, qu significa ste y cmo se encuentran los
parmetros del modelo que mejor ajustan a nuestros datos? Si el modelo es
una lnea recta: cmo se encuentra la mejor recta?
La ecuacin de una lnea recta es:
Y = f(x) =
0
+
1
X
0
ordenada al origen
1
pendiente
En un anlisis de regresin lineal simple, el problema es encontrar los valores
que mejor estimen a los parmetros
0
y
1
. A partir de una muestra aleatoria.
El modelo de regresin lineal es:
Y
i
=
y/Xi
+
i
=
0
+
1
X
i
+
i
(i = 1,2, 3, ..., n)
Para cada observacin el modelo es:
Y
1
=
0
+
1
X
1
+
1
Y
2
=
0
+
1
X
2
+
2
. . .
Y
n
=
0
+
1
X
n
+
n
El cual se puede escribir como:
n
y
1
=
Y
Y
Y
n
1
2
.
_
,

n
X
2
=
1
1
1
1
2
X
X
X
n
. .
. .
. .
_
,

2

1
=
0
1
_
,

n

1
=
1
2
.
.
.
n
_
,
donde:
2
Y
Y
Y
n
1
2
.
.
.
_
,
=
1
1
1
1
2
X
X
X
n
. .
. .
. .
_
,
0
1
_
,
+
1
2
n
_
,
= y =X +
Estimacin por mnimos cuadrados
Sea
$ $ $
Y X
i i
+
0 1
la respuesta estimada en Xi en base a la lnea de regresin
ajustada. La distancia vertical entre el punto (Xi,Yi) y el punto (Xi,
$
Y
i
) de la recta
ajustada esta dada por el valor absoluto de |Yi -
$
Y
i
| o |Yi - (
$ $

0 1
+ X
i
)|, cuya
suma de cuadrados es:
(
$
) (
$ $
) Y Y Y X
i
i
n
i i i
i
n

1
2
0 1
2
1

El problema ahora es encontrar los valores de
0
y
1
(
$
0
y
$
1
) tales que
(
$ $
) Y X
i i
i
n

0 1
2
1
sea mnima.
Solucin:
Si Q = (
$ $
) Y X
i i
i
n

0 1
2
1
, entonces
Q
0
= -2 (
$ $
) Y X
i i
i
n

0 1
1
= 0 ....... (1)
Q
1
= -2 (
$ $
) Y X
i i
i
n

0 1
1
(-X
i
)= 0 ....... (2)
que conduce a las ecuaciones
Y
i
-
0
-
1
X
i
= Y
i
- n
0
-
1
X
i
.. (1)
-X
i
Y
i
+
0
X
i
+
1
X
i
X
i
.. (2)
ordenando
0
n +
1
X
i
= Y
i
0
Xi +
1
X
i
2
= X
i
Y
i
.... Ecuaciones Normales
n X
X X
i
i i
_
,
0
1
_
,
=
Y
X Y
i
i i
_
,
Anlisis de Regresin Simple y Mltiple.

3
XX = Xy
= (XX)
-1
Xy
Solucin para calcular los parmetros de la ecuacin de regresin.
Algo de Geometra
1) Y Y
i

2)
$
Y Y
i

3) Y Y
i i
$
Y Y
i
= (
$
Y Y
i
) + (Y Y
i i
$
)
TOTAL = REGRESION + ERROR
Al aplicar sumatorias y elevar al cuadrado se tiene:
( ) [(
$
) (
$
)] Y Y Y Y Y Y
i i i i
i
n
i
n
+

2 2
1 1
( ) (
$
) (
$
) Y Y Y Y Y Y
i i i i
i
n
i
n
+

2 2 2
1 1
S.C. TOTAL = S.C. REGRESION + S.C. ERROR
Cantidades que permiten realizar un ANVA, para probar el juego de hiptesis:
Ho:
1
= 0 v.s. Ha:
1
0.
F.V. g.l. S.C. C.M. Fc Ft
REGRESION 1 CM
CM
REGRESION
RESIDUAL
F
1,n-2,
RESIDUAL N -
2
TOTAL N -
1
X
f(X)
( , ) X Y
( ,
$
) X Y
i i
(X
i
,Y
i
)
4
Interpretando a
0 y
1
H
0
:
1
= 0
1.- H
0
:
1
= 0 No se rechaza
a) Si la suposicin de lnea recta es correcta significa que X no proporciona
ayuda para predecir Y, esto quiere decir que Y predice a Y.
Y
H
0
:
1
= 0

0
b) La verdadera relacin entre X e Y no es lineal, esto es que el modelo puede
involucrar funciones cuadrticas cbicas o funciones ms complejas.
2.- Ho:
1
= 0 si se rechaza
a) X proporciona informacin significativa para predecir Y
X
Y
X
X
Y
5
b). El modelo puede tener un trmino lineal ms, quizs un trmino cuadrtico.
Prueba. Ho:
0
= 0
Si NO se rechaza esta Ho, puede ser apropiado ajustar un modelo sin
0
,
siempre y cuando exista experiencia previa o teora que sugiera que la recta
ajustada debe pasar por el origen y que existan datos alrededor del origen para
mejorar la informacin sobre
0
.
CORRELACION
Si X e Y son dos variables aleatorias, entonces el coeficiente de correlacin se
define como:
1) r [-1,1]
2) r es independiente de las unidades de X e Y
3)
$
1
> 0 r > 0

$
1
< 0 r < 0

$
1
= 0 r = 0
r es una medida de la fuerza de asociacin lineal entre X e Y
Coeficiente de determinacin r
2
r
SC SC
SC
total error
total
2

=
SC
SC
regresin
total
X
Y
6
donde r
2
[0,1]
Esta r-cuadrada es una medida de la variacin de Y explicada por los cambios
o variacin en la X.
REGRESION MULTIPLE
La regresin mltiple hace referencia al establecimiento de modelos cuando se
consideran dos o ms variables independientes.
Y = f(X
1
, X
2
, ..., X
K
) = f(x)
Comparando la regresin simple contra la mltiple se tiene que:
1) Es ms difcil la eleccin del mejor modelo, ya que casi siempre hay varias
opciones razonables.
2) Se dificulta visualizar el modelo, por la dificultad de pintar ms de tres
dimensiones.
3) Clculos complejos, requiere recursos computacionales con software
especializado.
Mnimos Cuadrados
Y
i
=
0
+
1
X
1
+
2
X
2
+ ... +
k
X
k
+
donde:
Y
i
- (
0
+
1
X
1
+
2
X
2
+ ... +
k
X
k
)
X
1
X
2
Y
7
En base a los datos muestrales
Y
i
-
$
Y
i
= Y
i
- (
$ $ $
...
$

o k k
X X X + + + +
1 1 2 2
)
Suma de cuadrados
(
$
)
$ $ $ $
Y Y
i i
i
n

2
1
2
(Yi - ( + X + X +. ..+ X ))
0 1 1 2 2 k k
n
i=1

El mtodo consiste en encontrar los valores
$
,
$
,
$
, . ..
0 1 2
llamados estimadores
de mnimos cuadrados, para los cuales la suma de cuadrados es mnima.
Tabla de ANVA para la hiptesis Ho:
i
= 0; Ha: al menos un
i
0
F.V. g.l. S.C. C.M. F r
2
Regresin k SCt - SCr SCReg/k CMReg/CMres (SCt-SCe)/SCt
Residual n-k-
1
(
$
) Y Y
i i
i
n
2
1
SCres/(n-k-1)
Total n-1
( ) Y Y
i
i
n
2
1
Supuestos del anlisis de regresin
NI(
Y/X1,X2, ..., Xk
,
2
)
CORRELACIN PARCIAL y PARCIAL MULTIPLE
Medida de la fuerza de relacin lineal entre dos variables, despus de haber
controlado los efectos de otras variables.
r
y,x1/x2
r
y,x1/x2,x3
r
y,(x3,x4,x5)/x1,x2
CORRELACION MULTIPLE
r
y/x1,x2, ..., xk
=
( )(
$ $
)
( ) (
$ $
)
Y Y Y Y
Y Y Y Y
i i
i
n
i
i
n
i

1
]
1

1
2
1
2
1
2
8
r
2
y/x1,x2, ..., xk
=
( ) (
$
)
( )
Y Y Y Y
Y Y
i i i
i
n
i
n
i
i
n

2 2
1 1
2
1
= (SCtotal - SCerror)/SCtotal
F PARCIALES
Suponiendo 3 variables X
1
, X
2
y X
3
1) Se puede predecir el valor de Y utilizando slo X
1
?
2) Adicionar X
2
contribuye significativamente en la prediccin de Y, una vez
que se considera la contribucin de X
1
?
3) Contribuye X
3
, dados X
1
y X
2
en el modelo?
Ho: La adicin de X* al modelo, incluyendo X
1
, X
2
, ..., X
k
, no mejora
significativamente la prediccin de Y.
Ho: * = 0, donde * es el coeficiente de X*, en la ecuacin de regresin.
t =
$
*
$*
S
9
EJEMPLOS
RELACION DE GASTOS MEDICOS MENSUALES CON EL TAMAO DE
FAMILIA
TAMAO DE
FAMILIA
GASTOS MEDICOS
MENSUALES
2 20
2 28
4 52
5 50
7 78
3 35
8 102
10 88
5 51
2 22
3 29
5 49
2 25
EXISTE EVIDENCIA PARA ESTABLECER UNA RELACION LINEAL ENTRE
EL TAMAO DE LA FAMILIA Y LOS GASTOS MEDICOS?
SI SU RESPUESTA ES AFIRMATIVA, CUAL ES LA ECUACION DE ESTA
RELACION ?
SE CUMPLEN LOS SUPUESTOS DEL ANALISIS DE REGRESION?
Realizando el anlisis con MINITAB, STAT Regression Regression
Regression Analysis: Y versus X
The regression equation is
Y = 4.70 + 9.79 X
10
Predictor Coef SE Coef T P
Constant 4.705 4.789 0.98 0.347
X 9.7903 0.9392 10.42 0.000
S = 8.360 R-Sq = 90.8% R-Sq(adj) = 90.0%
En el ajuste se puede ver que existe evidendencia para considerar al
coeficiente de las Xs diferente de cero, pero la ordenada al origen se puede
considerar cero.
Adems el modelo que se obtiene explica un 90% de la variacin de Y, en otras
palabras es un buen modelo.
Analysis of Variance
Source DF SS MS F P
Regression 1 7594.3 7594.3 108.66 0.000
Residual Error 11 768.8 69.9
Total 12 8363.1
El anlisis de varianza muestra que al menos uno de los coeficientes del
modelo es diferente de cero, en otras palabras, si hay modelo.
Se puede realizar un mejor anlisis viendo los resultados de manera grfica
11
Este grfico corresponde al modelo ajustado, los datos originales y las bandas
de confianza para cada valor de X.
Para verificar los supuestos se le pide a MINITAB una prueba de normalidad
sobre los residuales, encontrando el siguiente resultado.
Donde se puede ver que los residuales cumplen con el supuesto de normalidad.
12
EJERCICIO 2.
Y X1 X2 X3
506 10 6 55
811 18 10 32
816 20 11 34
752 16 9 48
610 15 5 58
903 21 12 29
685 11 7 52
830 18 10 36
650 14 8 60
793 15 6 49
961 19 8 24
692 18 10 63
752 12 7 45
488 10 7 61
848 17 8 38
611 15 9 59
709 14 10 41
919 22 10 26
827 20 9 39
526 9 6 65
HAY RELACION LINEAL ENTRE X1-X3 CON Y?
Regression Analysis: y versus x1, x2, x3
y = 837 + 17.5 x1 - 9.96 x2 - 6.42 x3
Constant 837.2 127.2 6.58 0.000
x1 17.476 5.406 3.23 0.005
x2 -9.961 9.046 -1.10 0.287
x3 -6.421 1.330 -4.83 0.000
S = 50.59 R-Sq = 88.6% R-Sq(adj) = 86.5%
13
Source DF SS MS F P
Regression 3 319121 106374 41.56 0.000
Residual Error 16 40948 2559
Total 19 360069
Si hay un modelo, aunque existe evidencia de la poca influencia de X2, por lo
que se recomienda un ajuste eliminando esta variable.
Regression Analysis: y versus x1, x3
y = 801 + 14.1 x1 - 6.31 x3
Constant 801.0 123.7 6.48 0.000
x1 14.145 4.509 3.14 0.006
x3 -6.315 1.335 -4.73 0.000
S = 50.90 R-Sq = 87.8% R-Sq(adj) = 86.3%
Source DF SS MS F P
Regression 2 316018 158009 60.98 0.000
Total 19 360069
Como puede verse todos las variables son importantes en el modelo y existe un
86.3% de variacin explicada.
Stepwise Regression: y versus x1, x2, x3
Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15
Response is y on 3 predictors, with N = 20
14
Step 1 2
Constant 1165.6 801.0
x3 -9.4 -6.3
T-Value -8.67 -4.73
P-Value 0.000 0.000
x1 14.1
T-Value 3.14
P-Value 0.006
S 62.2 50.9
R-Sq 80.68 87.77
R-Sq(adj) 79.61 86.33
C-p 11.2 3.2
Como apoyo grfico se tienen los siguientes elementos
Ntese el patrn en los residuales, lo que indica que es posiblemente un
polinomio cuadrtico o cbico ajuste mejor a estos datos.
15
EJERCICIO 3.
Y X1 X2
100 7 28
104 11 27
106 13 29
109 15 31
115 16 26
118 18 24
123 20 20
131 23 18
136 25 22
139 28 20
150 33 19
151 34 17
153 39 14
158 41 12
159 42 14
164 44 13
IDENTIFICAR LA ECUACIN DE REGRESION?
HAY EVIDENCIA SUFICIENTE PARA ESTABLECER UNA RELACION
LINEAL POSITIVA ENTRE X1 CON Y?
HAY EVIDENCIA PARA ESTABLECER UNA RELACION LINEAL NEGATIVA
ENTRE X2 CON Y?
HAY SUFICIENTE EVIDENCIA PARA ESTABLECER QUE EL MODELO DE
REGRESION ES UTIL?
DISEOS FACTORIALES
Este tipo de diseos permiten analizar varios factores a la vez, considerando
inclusive su interaccin.
La construccin tpica de un factorial axb se presenta a continuacin, donde a
indica el nmero de niveles del primer factor y b el del segundo factor.
FACTOR B TOTAL
FACTOR A 1 2 . . . b Y
i..
1 Y
111
, Y
112
,
Y
113
, Y
114
Y
121
, Y
122
,
Y
123
, Y
124
. . . Y
1b1
, Y
1b2
,
Y
1b3
, Y
1b4
Y
1..
2 Y
211
, Y
212
,
Y
213
, Y
214
Y
221
, Y
222
,
Y
223
, Y
224
. . . Y
1b1
, Y
1b2
,
Y
1b3
, Y
1b4
Y
2..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A Y
a11
, Y
a12
,
Y
a13
, Y
a14
Y
a21
, Y
a22
,
Y
a23
, Y
a24
. . . Y
ab1
, Y
ab2
,
Y
ab3
, Y
ab4
Y
a..
Total Y
.j.
Y
.1.
Y
.2.
... Y
.b.
Y...
Y
ijk
= +
i
+
j
+ ( )
ij
+
ijk
con: i = 1,2,3, ... a; j = 1,2,3, ... b; k = 1,2,3, ..., k
1. Ho:
i
= 0 vs Ha:
i
0; para al menos una i.
2. Ho:
j
= 0 vs Ha:
j
0; para al menos una j.
3. Ho:
i
j
= 0 vs Ha:
i
j
0 para al menos un par i j.
SC
TOTAL
= ( )
...
Y Y
ijk
k
n
j
b
i
a
= = =

2
1 1 1
SC
A
= ( )
.. ...
Y Y
i
k
n
j
b
i
a
= = =

2
1 1 1
= bn ( )
.. ...
Y Y
i
i
a
2
1
SC
B
= ( )
. . ...
Y Y
j
k
n
j
b
i
a
= = =

2
1 1 1
= an ( )
. . ...
Y Y
j
j
b
2
1
SC
AB
= ( )
. .. . . ...
Y Y Y Y
ij i j
k
n
j
b
i
a
+
= = =

2
1 1 1
= n ( )
. .. . . ...
Y Y Y Y
ij i j
j
b
i
a
+
= =

2
1 1
SC
ERROR
= ( )
.
Y Y
ijk ij
k
n
j
b
i
a
= = =

2
1 1 1
2
GRADOS DE LIBERTAD
A = a - 1
B = b - 1
AB = (a - 1)(b - 1)
ERROR = ab(n - 1)
TOTAL = abn - 1
TABLA DE ANALISIS DE VARIANZA, PARA UN DISEO: AxBxCxD?
Visualicmosla mediante algunos ejemplos
EJEMPLOS
1. Se encuentra en estudio el rendimiento de un proceso qumico. Se cree que
las dos variables ms importantes son la temperatura y la presin.
Seleccionando para el estudio tres temperaturas y tres presiones diferentes,
obteniendo los siguientes resultados de rendimiento.
Temperatura\Presin Baja Media Alta
Baja 90.4
90.2
90.7
90.6
90.2
90.4
Intermedia 90.1
90.3
90.5
90.6
89.9
90.1
Alta 90.5
90.7
90.8
90.9
90.4
90.1
Aplicar el modelo adecuado, sacar las conclusiones pertinentes.
Realizando el anlisis con la opcin Two-way de ANOVA, se tienen los
Two-way ANOVA: y versus p, t
Analysis of Variance for y
Source DF SS MS F P
P 2 0.3011 0.1506 8.47 0.009
t 2 0.7678 0.3839 21.59 0.000
Interaction 4 0.0689 0.0172 0.97 0.470
Error 9 0.1600 0.0178
Total 17 1.2978
Diseos factoriales.
3
Individual 95% CI
p Mean --+---------+---------+---------+---------
a 90.567 (-------*-------)
b 90.417 (-------*-------)
i 90.250 (--------*-------)
--+---------+---------+---------+---------
90.150 90.300 90.450 90.600
Individual 95% CI
t Mean -------+---------+---------+---------+----
a 90.183 (-----*-----)
b 90.367 (-----*-----)
i 90.683 (-----*-----)
-------+---------+---------+---------+----
90.200 90.400 90.600 90.800
Realizando el anlisis con ANOVA GLM
General Linear Model: y versus p, t
P fixed 3 a b i
T fixed 3 a b i
P 2 0.30111 0.30111 0.15056 8.47 0.009
T 2 0.76778 0.76778 0.38389 21.59 0.000
p*t 4 0.06889 0.06889 0.01722 0.97 0.470
Error 9 0.16000 0.16000 0.01778
Total 17 1.29778
Term Coef SE Coef T P
Constant 90.4111 0.0314 2876.86 0.000
p
a 0.15556 0.04444 3.50 0.007
b 0.00556 0.04444 0.13 0.903
t
4
a -0.22778 0.04444 -5.12 0.001
b -0.04444 0.04444 -1.00 0.343
p*t
a a -0.08889 0.06285 -1.41 0.191
a b 0.07778 0.06285 1.24 0.247
b a 0.11111 0.06285 1.77 0.111
b b -0.07222 0.06285 -1.15 0.280
Se puede observar que slo hay efecto de los factores principales y que no hay
efecto de interaccin. Esto se puede apreciar mejor en las siguientes grficas,
donde se aprecia que el mayor rendimiento se obtiene con una temperatura alta
y una presin intermedia.
Diseos factoriales.
5
2. En una operacin de lotes se produce un qumico viscoso, donde cada lote
produce suficiente producto para llenar 100 contenedores. El ensayo del
producto es determinado por anlisis infrarrojo que realiza duplicado alguno de
los 20 analistas del laboratorio. En un esfuerzo por mejorar la calidad del
producto se realiz un estudio para determinar cual de tres posibles fuentes de
variabilidad eran significativas en el proceso y su magnitud.
Las fuentes seleccionadas fueron: la variable A lotes, se seleccionaron
aleatoriamente tres lotes de produccin mensual, la variable analistas, B,
seleccionando dos de manera aleatoria, la variable C corresponde a dos
contenedores seleccionados de manera aleatoria de cada lote. Obteniendo los
Lote No. de Contenedor
I II
Analista Analista
M P M P
23 94.6
95.2
95.8
95.8
97.7
98.1
97.8
98.6
35 96.2
96.4
96.5
96.9
98.0
98.4
99.0
99.0
2 97.9
98.1
98.4
98.6
99.2
99.4
99.6
100.0
DISEOS 2
k
y 3
k
DISEO 2
k
2 NIVELES k factores
TABLA DE ANVA
K efectos principales S.C. g.l.
A SC
A
1
B SC
B
1
.
.
.
K SC
K
1
k
2
=
k
k
!
!( )! 2 2
Interacciones dobles
AB SC
AB
1
AC SC
AC
1
.
.
.
JK SC
JK
1
k
3
Interacciones triples
ABC SC
ABC
1
ABD SC
ABD
1
.
.
.
IJK SC
IJK
1
k
2
Interacciones de k factores
ABC...K SC
ABC...K
1
ERROR SC
ERROR
2
k
(n-1)
TOTAL SC
TOTAL
n2
k
- 1
2
NOTACIONES EN LOS DISEOS FACTORIALES
Los niveles o tratamientos del factor se representan a partir de notaciones,
como muestra el cuadro 1.
Cuadro 1.- Notaciones
Notacin geomtrica Notacin con letras Notacin con dgitos
Corrida A B C
Combinacin de
Tratamientos A B C
1 - - - (1) 0 0 0
2 + - - a 1 0 0
3 - + - b 0 1 0
4 + + - ab 1 1 0
5 - - + c 0 0 1
6 + - + ac 1 0 1
7 - + + bc 0 1 1
8 + + + abc 1 1 1
REPRESENTACION GRAFICA DE LOS DISEOS FACTORIALES
Los diseos factoriales 2
k
y 3
k
se representan a partir de las siguientes
grficas:
Figura a.- Representacin grfica del diseo factorial 2
2
y Figura b.
Representacin grfica del diseo factorial 2
3
.
Diseos 2
k
y 3
k
.
3
En los diseos donde se manejan tres dimensiones, los efectos principales e
interacciones corresponden a una cara del cubo como muestra la figura 5.
-
+
-
A
-
+
-
+
-
-
+
+
+
+
-
-
B C
(a) EFECTOS PRINCIPALES
(b)INTERACCIONES DE LOS DOS FACTORES
AB
AC
BC
CORRIDAS +
=
= CORRIDAS -
(c) INTERACCION DE TRES FACTORES
(a) Representacin grfica de los efectos principales (b) dobles interacciones
(c) triple interaccin del Diseo Factorial
CODIFICACION
X
i
* =
2X X X
X X
i iBAJO iALTO
iALTO iBAJO
+
( )
4
Ejemplo: Evaluacin en estudios de estabilidad del Acido Acetilsalicilico, para
tres factores:
A Temperatura, B Excipiente (Encompress%), C Tratamiento mecnico
BLOQUES de un 2
3
MEDIA = (15.1 + 26.9 + 19.3 + 10.7 + 22.9 + 15.1 + 26.7 + 39.3)/8 = 22.0
A = (26.9 + 10.7 + 15.1 + 39.3)/4 - (15.1 + 19.3 + 22.9 + 26.7)/4 = 2.0
B = 4.0
C = 8.0
AB = 0.0
AC = 0.4
BC = 10.0
ABC = 10.2
VALOR
FACTOR NIVEL BAJO NIVEL ALTO
A 40C 60C
B 0% 50%
C ASA Cristalino
sin tratamiento
ASA molido
20 hrs
MEDIA A B C AB AC BC ABC
(1) +1 -1 -1 -1 +1 +1 +1 -1 15.1 0.287
a +1 +1 -1 -1 -1 -1 +1 +1 3.473 3.442
b +1 -1 +1 -1 -1 +1 -1 +1 0.300 0.304
ab +1 +1 +1 -1 +1 -1 -1 -1 3.127 3.602
c +1 -1 -1 +1 +1 -1 -1 +1 0.448 0.545
ac +1 +1 -1 +1 -1 +1 -1 -1 4.228 4.083
bc +1 -1 +1 +1 -1 -1 +1 -1 0.290 0.308
abc +1 +1 +1 +1 +1 +1 +1 +1 4.230 4.092
(1) +1 -1 -1 -1 +1 +1 +1 -1 15.1
a +1 +1 -1 -1 -1 -1 +1 +1 26.9
b +1 -1 +1 -1 -1 +1 -1 +1 19.3
ab +1 +1 +1 -1 +1 -1 -1 -1 10.7
c +1 -1 -1 +1 +1 -1 -1 +1 22.9
ac +1 +1 -1 +1 -1 +1 -1 -1 15.1
bc +1 -1 +1 +1 -1 -1 +1 -1 26.7
abc +1 +1 +1 +1 +1 +1 +1 +1 39.3
Diseos 2
k
y 3
k
.
5
BLOQUE (+)
BLOQUE(-)
Al hacer un diseo en bloques surge confusin entre el efecto de la
interaccin ABC y el efecto de bloques.
FRACCION de un 2
3
(2
3-p
)
Ejemplo 2
3-1
Primero se tiene un 2
3
completo
Del cual se selecciona la interaccin ms alta para obtener una fraccin 2
3-1
.
a +1 +1 -1 -1 -1 -1 +1 +1 26.9
b +1 -1 +1 -1 -1 +1 -1 +1 19.3
c +1 -1 -1 +1 +1 -1 -1 +1 22.9
abc +1 +1 +1 +1 +1 +1 +1 +1 39.3
(1) +1 -1 -1 -1 +1 +1 +1 -1 15.1
ab +1 +1 +1 -1 +1 -1 -1 -1 10.7
ac +1 +1 -1 +1 -1 +1 -1 -1 15.1
bc +1 -1 +1 +1 -1 -1 +1 -1 26.7
I A B C AB AC BC ABC
(1) +1 -1 -1 -1 +1 +1 +1 -1
a +1 +1 -1 -1 -1 -1 +1 +1
b +1 -1 +1 -1 -1 +1 -1 +1
ab +1 +1 +1 -1 +1 -1 -1 -1
c +1 -1 -1 +1 +1 -1 -1 +1
ac +1 +1 -1 +1 -1 +1 -1 -1
bc +1 -1 +1 +1 -1 -1 +1 -1
abc +1 +1 +1 +1 +1 +1 +1 +1
6
En el cuadro anterior, se est considerando la fraccin con el signo menos,
pero tambin hay una fraccin en base a los signos ms de la interaccin
mayor.
Adems, en las columnas sealadas sus efectos tienen la misma magnitud,
pero signo contrario, por ejemplo:
A = (ab + ac)/2 - ((1) + bc) y BC = ((1) + bc)/2 - (ab + ac)/2
A este tipo de efectos se les conoce como alias, ya que al medir uno se est
midiendo al otro pero con signo contrario.
EJEMPLOS
El primer paso es generar el diseo o la matriz experimental, lo cual en
MINITAB se logra con la opcin STAT-DOE-FACTORIAL-CREATE
FACTORIAL DESIGN, opcin que aleatoriza las corridas experimentales.
Para un diseo 23 completo se tiene la siguiente matriz, que de acuerdo a la
aleatorizacin si la genero de nuevo tendra un orden diferente
A B C
-1 1 1
-1 -1 1
1 1 -1
1 -1 1
-1 -1 -1
1 -1 -1
-1 1 -1
1 1 1
(1) +1 -1 -1 -1 +1 +1 +1 -1
ab +1 +1 +1 -1 +1 -1 -1 -1
ac +1 +1 -1 +1 -1 +1 -1 -1
bc +1 -1 +1 +1 -1 -1 +1 -1
Diseos 2
k
y 3
k
.
7
El siguiente paso es ir al laboratorio y realizar el experimento para obtener los
resultados a analizar.
A B C AB AC BC ABC y
-1 1 1 -1 -1 1 -1 2175
-1 -1 1 1 -1 -1 1 1525
1 1 -1 1 -1 -1 -1 2350
1 -1 1 -1 1 -1 -1 1800
-1 -1 -1 1 1 1 -1 1550
1 -1 -1 -1 -1 1 1 1925
-1 1 -1 -1 1 -1 1 2150
1 1 1 1 1 1 1 2200
Que con las opciones STAT-DOE-FACTORIAL-ANALYZE
Fractional Factorial Fit: y versus A, B, C
Estimated Effects and Coefficients for y (coded units)
Term Effect Coef
Constant 1959.38
A 218.75 109.37
B 518.75 259.37
C -68.75 -34.37
A*B -106.25 -53.12
A*C -68.75 -34.37
B*C 6.25 3.13
A*B*C -18.75 -9.37
Analysis of Variance for y (coded units)
Main Effects 3 643359 643359 214453 * *
2-Way Interactions 3 32109 32109 10703 * *
Residual Error 0 0 0 0
Total 7 676172
8
Least Squares Means for y
Mean
A
-1 1850
1 2069
B
-1 1700
1 2219
C
-1 1994
1 1925
A *B
-1 1 1538
1 1 1863
-1 1 2163
1 1 2275
A *C
-1 1 1850
1 1 2138
-1 1 1850
1 1 2000
B *C
-1 1 1738
1 1 2250
-1 1 1663
1 1 2188
A *B *C
-1 -1 1 1550
1 -1 1 1925
-1 1 1 2150
1 1 1 2350
-1 -1 1 1525
1 -1 1 1800
-1 1 1 2175
1 1 1 2200
Diseos 2
k
y 3
k
.
9
El anlisis grfico muestra lo siguiente
Este Pareto muestra la importancia de cada efecto en el experimento, y los
efectos conjuntos se pueden analizar en la siguiente grfica.
Aqu se puede analizar el experimento en su totalidad visualizando cual es la
combinacin de efectos que optimiza el resultado de la variable. Ya sea que se
busque un mnimo o un mximo.
10
Siguiendo con el mismo ejemplo pero en bloques. Primero se tiene la matriz de
diseos pero con la aleatorizacin de bloques.
Blocks A B C y
2 1 1 1 2200
2 -1 -1 1 1525
2 1 -1 -1 1925
2 -1 1 -1 2150
1 1 1 -1 2350
1 -1 1 1 2175
1 -1 -1 -1 1550
1 1 -1 1 1800
Donde se puede ver que en al anlisis se toma la interaccin ms alta para
hacer el bloque, y se considera este para el anlisis.
Factorial Design
Factors: 3 Base Design: 3, 8 Resolution with blocks: IV
Runs: 8 Replicates: 1
Blocks: 2 Center pts (total): 0
Block Generators: ABC
Alias Structure
Blk = ABC
A
B
C
AB
AC
BC
Term Effect Coef
Constant 1959.38
Block 9.38
A 218.75 109.37
Diseos 2
k
y 3
k
.
11
B 518.75 259.37
C -68.75 -34.38
A*B -106.25 -53.12
A*C -68.75 -34.37
B*C 6.25 3.13
Blocks 1 703 703 703 * *
Main Effects 3 643359 643359 214453 * *
Total 7 676172
El resultado final del anlisis es el mismo que el realizado para el diseo
completo.
Hagamos el mismo ejemplo pero como un diseo fraccionado 2
3-1
, desarrollo
que se muestra a continuacin.
A B C Y
1 1 1 2200
-1 1 -1 2150
-1 -1 1 1525
1 -1 -1 1925
Aqu slo se realiza una parte del experimento, cuyos resultados son:
Factorial Design
Fractional Factorial Design
Factors: 3 Base Design: 3, 4 Resolution: III
Runs: 4 Replicates: 1 Fraction: 1/2
Blocks: none Center pts (total): 0
*** NOTE *** Some main effects are confounded with two-way interactions
12
Design Generators: C = AB
Alias Structure
I + ABC
A + BC
B + AC
C + AB
Alias Information for Terms in the Model.
Totally confounded terms were removed from the analysis.
I + A*B*C
A + B*C
B + A*C
C + A*B
NOTE * Some of the terms requested in MEANS were removed from the
analysis.
Diseos 2
k
y 3
k
.
13
SUPERFICIES DE RESPUESTA Y DISEOS DE MEZCLAS
La estadstica es una herramienta que se ha convertido en un apoyo primordial en la
industria farmacutica, a tal grado que la FDA mediante los GMPs y GLPs
recomienda su uso de forma rutinaria para el control de procesos, para el
establecimiento de proyectos de desarrollo, as como para el tratamiento y la
interpretacin de nuevas formas de dosificacin de activos.
Esbozando el uso de la estadstica en el rea farmacutica podemos hacer mencin
que se emplea en control de calidad, en pruebas de estabilidad, en validacin y
desarrollo de mtodos analticos, en protocolos de diseos preclnicos, en validacin
de procesos y en desarrollo farmacutico: siendo en estos dos ltimos puntos donde
se puede enfatizar su utilidad mediante el uso de diseo de experimentos y procesos
de optimizacin.
Dada la importancia que existe actualmente por eficientizar los recursos con que se
cuenta en la industria y en las universidades es importante conocer la existencia de
herramientas que nos apoyen en la localizacin de la mejor respuesta a las variables
estudiadas, de una forma segura, rpida y con el menor nmero de experimentos.
Dentro de la metodologa de superficie de respuesta se encuentra el diseo de
mezclas; esta tcnica que se utiliza poco en nuestro pas, debido probablemente a que
no es poco conocida, pero no por ello deja de ser una herramienta potencialmente til
en farmacia.
Por consiguiente el presente trabajo pretende dar un en enfoque prctico y
proporcionarle al lector los tpicos fundamentales del diseo de mezclas, Qu es?
Para que se utiliza? Cundo se utiliza? Y Cmo se utiliza? Son las preguntas que
se desean responder. En caso que el lector precise de un anlisis ms profundo sobre
este tema al final recomendamos literatura especializada al respecto.
REGRESIN LINEAL MLTIPLE
(1)
Cuando utilizamos esta metodologa se desea determinar la relacin entre varias
variables de regresin X y la respuesta Y. El problema general consiste en ajustar el
modelo.
y= o +1X1+2X2+...+kXk+
Usualmente los parmetros desconocidos (k) se denominan coeficientes de
regresin y pueden determinarse mediante mnimos cuadrados. Donde
denominado error aleatorio deber de presentar una media igual a cero y que su
varianza
2
no debern de estar correlacionadas.
PRUEBAS DE HIPTESIS DE LA REGRESIN LINEAL MLTIPLE
CRITERIO PARA CONSIDERAR LA SIGNIFICANCIA DE LA REGRESIN.
(1)
A menudo se desea probar la hiptesis que se refieren a que tan significantes son los
parmetros del modelo de regresin lo cual se logra probando que dichos coeficientes
son iguales a cero; es decir las hiptesis son:
Ho o=1=..=k=0
Ha: i0
Cuando se rechaza Ho implica que al menos una de variables del modelo contribuye
significativamente al ajuste. El parmetro para probar esta hiptesis es una
generalizacin del utilizado en regresin lineal simple. La suma total de cuadrados
(SCy) se descompone en la suma de cuadrados de regresin (SCr) y en las sumas de
cuadrados del error (SCe).
SCy = SCr+-SCe
Consecuentemente el valor de F estimado se obtiene de la ecuacin:
F
SSR
k
SS n k
MSR
MS
=

=
( ) 1
Valor que se compara con F de tablas con , n,k grados de libertad.
CRITERIO PARA LA SELECCIN DE LAS VARIABLES
Es importante probar las hiptesis respecto a los coeficientes de regresin
individuales; tales pruebas son tiles para evaluar cada variable de regresin en el
modelo. En ocasiones el modelo puede ser ms efectivo si se le introducen variables
adicionales o, quiz si se desechan una o ms variables que se encuentran en el
mismo.
Introducir variables al modelo de regresin provoca que la suma de cuadrados de la
regresin aumente y que la del error disminuya. Debemos decidir si el incremento de
la suma de cuadrados de la regresin es suficiente para garantizar el uso de la variable
adicional en el modelo. Adems si agregamos una variable poco importante al
modelo podemos aumentar la media de cuadrados del error, disminuyendo as la
utilidad del mismo.
La hiptesis para probar la significancia de cualquier coeficiente individual, por
ejemplo i son:
Ho: i=0
Ha: i0
Y la estadstica apropiada para probar la ecuacin es:
to
i
MS Cii
=

Donde si Ho i=0 se rechaza si to>t/2,n-k-1

El estimador de mnimos cuadrados
es una variable aleatoria, adems la

distribucin ~N(
2
(XX)
-1
es debida a que una combinacin lineal de
observaciones Yj Por lo tanto la varianza del coeficiente de regresin
es igual a
2
veces el (i+1)-isimo elemento de la diagonal (XX)
-1
, es decir Cii. As cada
coeficiente de regresin tiene la propiedad distribucional:
~N(i,
2
Cii )
COEFICIENTE DE DETERMINACIN R
2
Despus de haber encontrado la recta de regresin, se debe de investigar que tan bien
se ajusta a los datos mediante el calculo de R
2
.
Este factor se construye con base en dos cantidades. La primera es la suma de los
cuadrados minimizada denominada suma de cuadrados del error (SSe), la cual
representa la suma de las desviaciones al cuadrado de los datos a la recta que mejor
se ajusta. La segunda cantidad es la suma de cuadrados alrededor de la media Y
, y se
conoce como la suma de cuadrados totales (SST).
El valor de R
2
se define de la siguiente forma:
R
2
=
SST SSE
SST
E identifica el porcentaje de la suma de cuadrados total que es explicada por la

relacin lineal. Conviene aclarar que a pesar que R
2
es un buen indicador de la
calidad del ajuste de la recta de regresin, no se debe usar como un criterio nico de
seleccin del modelo.
SUPERFICIES DE RESPUESTA
El uso de diseos de superficie de respuesta (RSM) es la alternativa mas adecuada en
experimentos cuyo objetivo es establecer la relacin entre los factores y la variable
dependiente, dentro de una regin experimental. La MSR se refiere por consiguiente
al paquete de diseos estadsticos e instrumentos de anlisis que se emplean en las
siguientes etapas:
1. Diseo y recopilacin de datos experimentales, los cuales se usan en la
determinacin de una ecuacin general que se empleara para predicciones
2. Aplicacin de las tcnicas de regresin lineal mltiple para seleccionar la mejor
ecuacin que represente el comportamiento de los datos.
3. Anlisis de la superficie ajustada mediante grficas de contorno y otros tcnicas
matemticas y numricas.
Este tipo de diseos tiene la ventaja de explorar la relacin entre los factores y la
variable dependiente dentro de la regin experimental, y no solamente en las
fronteras.
MODELACIN EMPRICA.
En la mayora de los problemas de MRS se desconoce la forma de la relacin entre la
respuesta y las variables independientes; por ello, el primer paso en la RMS consiste
en determinar una aproximacin apropiada en la relacin funcional real entre Y y
dichas variables independientes.. Por lo general se emplea un polinomio de orden
bajo, si la respuesta es descrita adecuadamente por una funcin lineal de las variables
independientes, la funcin de aproximacin en el modelo de primer orden es:
Y= o+i+....+kXk
Cuando existen curvaturas en el sistema deber utilizarse un polinomio de mayor
grado; por ejemplo el modelo de segundo orden:
Y o iXi ijXi ijXiXj
i
k
i
k
i j
k
= + + +
= = <

1
2
1
Este ltimo modelo a pesar de parecer sencillo es un modelo bastante flexible y con
coeficientes adecuados tiene la capacidad de caracterizar una gran variedad de
superficies.
Algunas de la propiedades que debera tener un diseo experimental de segundo
orden son:
Poder estimar los coeficientes del modelo cuadrtico
Tener un nmero pequeo de experimentos
Facilidad para detectar falta de ajuste
Uso de bloques
Para poder satisfacer el primero de estos criterios cada variable debe tener al menos
tres niveles. El diseo ms sencillo que cumple con estos requisitos es el factorial 3
k
(-1,0 y +1),. la desventaja de este diseo es que para valores grandes de k se requieren
un nmero demasiado elevado de experimentos. (Ver tabla)
No. de factores k No. de exp. en un
diseo 3 a la k, N
No. De coeficientes en
la ecuacin cuadrtica
2 9 6
3 27 10
4 81 15
5 243 21
6 729 28
7 2187 36
DISEOS COMPUESTOS CENTRALES
Otra clase de diseos que poseen la ventaja de requerir menos experimentos que los
factoriales 3
k
son los diseos compuestos centrales. Estos diseos se construyen con
base en factoriales con dos niveles (lo cual permite la estimacin de efectos
principales e interacciones). Adems incluyen un conjunto de puntos en los ejes
(llamados puntos estrella)los cuales; junto con el punto central (por lo general
repetido) permite estimar trminos cuadraticos puros; la combinacin de los puntos
centrales y estrella requiere de tres niveles de cada variable independiente, denotados
por -,0 y +.
La magnitud de alfa (distancia del origen al punto de interseccin) y las repeticiones
de los puntos centrales estn en relacin con la rotabilidad y la variacin uniforme,
respectivamente. El primero de ellos indica que la precisin de las predicciones de la
ecuacin cuadratica solamente depende de la distancia de dicho punto al origen y no
de su direccin, este criterio define el valor de . El segundo expresa que la precisin
en las predicciones es la misma en la parte media que en las orillas y fija el numero
de puntos centrales.
DISEOS DE BOX-BEHNKEN
Otra alternativa para la estimacin de superficies de respuestas es el uso de diseos
de Box-Behnken. Estos tiene dos ventajas sobre los diseos compuestos centrales; la
primera es que utilizan menos experimentos (este ahorro es mnimo cuando se tiene
de 5 a 7 factores y la segunda es que en estos diseos existen solamente tres niveles
(+1.0,-1)).
Estos diseos satisfacen el criterio de rotabilidad; de varianza uniforme y se pueden
estructurar en bloques; sin embargo tiene la desventaja de que al utilizar
experimentacin secuencial no se basan en los factoriales 2k.
REPRESENTACIN GRFICA
Debido a que se evala a Y como una funcin de variables independientes, es decir
y=f (X1,X2..Xk)+ donde representa el ruido o error observado en la respuesta. Si
la repuesta esperada se denota por E(y)= f(X1,X2..Xk) entonces la superficie
representada por =f(X1,X2..Xk) se denomina superficie de respuesta. Es posible
representar grficamente la respuesta, por ejemplo, para un problema en el cual se
desea maximizar el rendimiento y de un proceso que esta determinado por dos
factores X1 (temperatura) y X2 presin obtenemos la siguiente figura, donde la
respuesta se representa como una superficie slida en un espacio tridimensional.
Con la finalidad de visualizar mejor la superficie de respuesta, a menudo se grafican
los contornos de dicha superficie ; en la cual se trazan lneas de respuesta en el plano
X1, X2. Cada contorno corresponde a una altura especifica de la superficie de
respuesta, tal grfica es til para estudiar los niveles de X1 y X2 que dan por
resultado cambios en la forma o altura de la superficie, y por consiguiente con este
tipo de grficas se facilita visualizar las relaciones cuando existen mas de dos
factores.
CRITERIOS DE SELECCIN DE MODELOS
Con anterioridad se menciono que los valores de t, R
2
y F que se obtuvieron con la
regresin lineal mltiple no son suficientes para evaluar la precisin de un modelo;
por lo cual se requieren de otros mtodos para verificar el ajuste de dichos modelos.
ERROR PURO Y FALTA DE AJUSTE
Con el fin de investigar si el modelo refleja el comportamiento de los datos
correctamente, la suma de cuadrados del error se divide en dos partes: el error puro
de la repeticin y la falta de ajuste de la suma de cuadrados del error puro.
La suma de cuadrados del error puro se calcula con los valores de las repeticiones en
el punto central del diseo de superficie de respuesta.
La suma de cuadrados de l error puro se calcula de la forma
SSPE = ( ) Yi Y

2
La suma de cuadrados de la falta de ajuste es la diferencia entre la suma de cuadrados
del error (SSE) de la regresin y la SSPE
SSLOF= SSE-SSPE
El valor de F para probar la falta de ajuste es:
F n k r c
SSLOF
n k
SSPE
C
( ), ( )
( )
( )
=

1
1
1
Cuando Fcal es menor que Ftab implica que la falta de ajuste en el modelo no es
significativa
GRFICA DE RESIDUALES
Los residuales son los valores observados menos los estimados con el modelo
establecido. Cuando se ajusta un modelo de regresin mltiple y se calculan los
residuales se encuentra que sus diagramas de dispersin son muy importantes al igual
que los diagramas obtenidos con una variable independiente. Por ejemplo, si se
tratara de ajustar la funcin lineal Y=o+1X1+2X2 a los datos de la figura A, los
resultados se muestran en la figura B. La forma de U de los residuales contra X1,
refleja que la curvatura esta en la direccin de X1, la cual no esta considerada en el
modelo y es obvio que la ecuacin Y=o+1X1+2X2+11X
2
tendr un mejor
ajuste.
De la misma manera este tipo de grficas ayudan a identificar observaciones
aberrantes u otro tipo de problemas con los datos o con el modelo ajustado.
Las grficas de residuales ms sencillas, son los diagramas de dispersin de los
residuales con respecto a cada una de las variables independientes. Este tipo de
grficas es til en la deteccin de no linealidad. Cuando sus puntos para cada variable
independiente, no muestran ninguna tendencia es fcil suponer que el modelo
ajustado es adecuado
BSQUEDA DE PUNTOS PTIMOS.
LOCALIZACIN DEL PUNTO ESTACIONARIO.
Suponiendo que se desea determinar los niveles de X1, X2,...Xk que mximizan la
respuesta predicha. Este mximo si existe ser el conjunto de X1, X2,..Xk. Tal que
las derivadas parciales dy/dx=dy/dx2=...dy/dxk=0. Dicho punto se denomina punto
estacionario. El punto estacionario podra representar:
1) Un punto de respuesta mxima
2)Un punto de respuesta mnima.
3) Un punto silla.
1 )
40
50
60
X2
X1
( 2 )
X1
X2
50
55
60
65
70
70
65
60
55
50
Puede obtenerse una solucin general par el punto estacionario. Usando la notacin
matricial para el modelo de segundo orden se obtiene:
Y=o+xb+xBx
Una vez obtenindose el punto estacionario, suele ser necesario caracterizar la
superficie de respuesta en la vecindad inmediata de este punto. Por caracterizar se
entiende determinar a cual de la situaciones antes descritas (mximo, mnimo o
punto silla) corresponde el punto estacionario, as como la sensibilidad relativa de la
respuesta a las variables X1,X2,..Xk.
La forma ms directa de hacer esto consiste en examinar la grfica de contornos del
modelo ajustado. Es conveniente primero transformar el modelo en un nuevo sistema
de coordenadas con el origen en el punto estacionario denominado xo y entonces
rotar (girar) los ejes de este sistema hasta que sean paralelos a los ejes principales de
la superficie de respuesta ajustada. De esta manera obtenemos un modelo ajustado de
la forma:
y
= y
o+ 1w
2
+ 2w2+.kwk
donde las (wi) son las variables independientes transformadas y las (i) son los
valores propios. La naturaleza de la superficie de respuesta puede determinarse a
partir del punto estacionario y el signo y la magnitud de (i). Si todas las son
positivas , entonces xo es un punto de respuesta mnima, si todas las son negativas ,
entonces xo es un punto de respuesta mxima; y si las tienen distintos signos xo
corresponde a un punto silla.
DISEOS EXPERIMENTALES DE MEZCLAS
Con anterioridad se han presentado diseos de superficie de respuesta para aquellas
situaciones en que los niveles de cada factor son independientes de los otros niveles
de los factores; pero existen otro tipo de diseos de superficie de respuesta en los
cuales los factores son los componentes o ingredientes de una mezcla; en
consecuencia sus niveles no son independientes, por que al aumentar o disminuir
alguno de ellos ser necesario disminuir a aumentar algn otro componente de la
mezcla, en estos diseos la variable dependiente solo es resultado de la cantidad de
los elementos de la mezcla.
Retomando lo anterior un camino conveniente para evaluar el desempeo de la
ecuacin matemtica en la representacin de un diseo de mezclas, es a travs del
concepto de superficie de respuesta y esto es el asumir que existe alguna correlacin
funcional de la forma Y=(X1, X2,...Xk), la cual defina la dependencia n en la
proporciones X1, X2,...Xk de los componentes. la funcin es una funcin continua en
Xi, y es representada por un polinomio de primer o segundo grado que define una
rea de respuesta.
DEFI NI CI N
Es una metodologa estadstica donde el objetivo es conseguir una respuesta optima
(mximos o mnimos) debida a los elementos constitutivos de una mezcla.
Cuando se establece un programa experimental de este tipo de diseos se desea
modelar el rea experimental de combinaciones de la mezcla asociada a alguna
ecuacin matemtica para:
Predecir con modelo una respuesta debida a algn o algunos de los ingredientes de
la mezcla
Obtener alguna medida de la influencia en la respuesta de cada componente o de
sus combinaciones.
Un programa experimental consistir de N ensayos, de los cuales observaremos la
respuesta den isimo ensayo denotado por Yi ; asumiendo que la varianza de la
media Y es sigma de todas las U=1,2,3..k. Donde observamos un valor aditivo del
error Yu=n+u, 1 u N.
Donde u asumimos que no son correlacionados e idnticamente distribuidos con
media 0 y varianza
2
.
Cuando en diseo de red simplex es usado en problemas de mezclas; las respuestas
son bien proporcionadas por los puntos de este diseo: se facilita la obtencin del
polinomio con el cual generamos la superficie de respuesta consiguiendo los puntos
mximos o mnimos.
CONSIDERACIONES
Una caracterstica de los experimentos con mezclas es que las proporciones de los
factores pueden ser dadas en volumen, peso, fraccin mol y porcentaje.
Si la porcin del i-simo componente es Xi y existen k componentes en la mezcla, las
proporciones deben satisfacer las restricciones
1. 0.0 Xi 1.0
2. Xi
i
k
=
=
1
1 0 .
Debido a estas restricciones la regin experimental o rea de inters es un simplex
regular con q-1 dimensiones.
Si deseramos analizar una mezcla con dos componentes tenemos las siguientes
restricciones 0.0 X1 1.0 y0.0 X2 1.0 y X1+X2=1.0, lo cual limita el empleo
de los diseos experimentales factoriales. Comparando el rea experimental para un
diseo 2
2
esta incluye el rea y las esquinas de un cuadrado, en el anlisis de mezclas
nuestra rea experimental para una mezcla binaria corresponder a los puntos de la
lnea X1=1-X2. Cuando la mezcla es de tres componentes, la regin experimental
restringida corresponde a un tringulo equiltero, y para interpretarlo podemos
utilizar coordenadas trilineales, donde cada uno de los lados de la grfica representa
una mezcla que carece en absoluto de uno de los tres componentes (el componente
indicado en el vrtice opuesto). Las nueve lneas de malla en cada direccin indican
incrementos de 10% en los componentes respectivos (figura ).
COMPONENTE 2
COMPONENTE 1
0 1.0
1.0
X1 + X2 = 1
Cuando la mezcla es de tres componentes, la regin experimental restringida
corresponde a un tringulo equiltero, y para interpretarlo podemos utilizar
coordenadas trilineales, donde cada uno de los lados de la grfica representa una
mezcla que carece en absoluto de uno de los tres componentes (el componente
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
0.2
0.4
X
1
=1
X
3
=1
X
2
=1
Para una mezcla con cuatro elementos la regin corresponder a un tetraedro
rectangular.
COMPONENTE 1
COMPONENTE 2
COMPONENTE 3
REGION EXPERIMENTAL
(X1+X2+X3=1)
DISEO SIMPLEX Y CENTROIDE SIMPLEX.
Los diseos simplex se emplean para estudiar los efectos de los componentes de
mezclas en la variable de respuesta. Como mencionamos la respuesta en los diseos
de mezclas se obtienen en una regin simplex completa; obviamente que
seleccionaremos un modelo que se posesione de manera uniforme sobre todo este
espacio simplex; una clase de diseos que tienen esta propiedad de uniformidad es el
q,m simplex en red, en donde p se refiere al numero de componentes y m es el
numero de combinaciones binarias sobre los vrtices de la figura geomtrica de
respuesta (las proporciones asumidas por cada componente toman valores
equiespaciados m+1 desde 0 hasta 1).
Xi = 0, 1/m, 2/m,...,1 i=1,2,.....,p
y se emplean todas las posibles combinaciones (mezclas) de las proporciones de la
ecuacin.
Por ejemplo si suponemos que un sistema consta de 3 componentes ( p=3 y m=2.)
cada componente llevara las proporciones:
Xi= 0.1/2,1 i=1,2 y 3
y la red simplex consiste en las seis corridas siguientes:
(X1, X2, X3) = (1,0,0),(0.1.0),(0,0,1),(1/2,1/2,0),(1/2,1/2,0),(0,1/2,1/2)
x1=1
x2=1 x2=1
(1,0,0)
(0,1/2,1/2)
(1/2,1/2,0)
(0,0,1)
(0,1,0)
(1/2,0,1/2)
Donde los tres primeros corresponden a los componentes puros y los tres siguientes
corresponden a mezclas binarias, localizadas en los puntos centrales de las tres aristas
del tringulo.
Una alternativa al diseo de red simplex es el diseo de centroide simplex. En este
tipo de diseos de p componentes hay 2
p
-1 puntos, que corresponden a las p
permutaciones de (1,0,0,...,0), las (p/2) permutaciones de (1/2,1/2,0,...,0), las (p/3)
permutaciones de (1/3,1/3,0,...,0) y el centroide global (1/p,1/p,..,1/p). Estos ltimos
tienen la ventaja de considerar puntos en el interior de la regin a diferencia de los
diseos simplex que solo consideran la frontera de o la regin y en consecuencia solo
consideran los p-1 componentes de los p componentes.
Para localizar el punto central mediante la determinacin del nivel medio de todos los
niveles de la mezcla. El anlisis del centroide simplex es similar que el de red
simplex asumiendo la restriccin que la suma de todos los niveles de los factores
debe de ser igual a 1.
x1=1
x2=1 x2=1
(1,0,0)
(0,1/2,1/2)
(1/2,1/2,0)
(0,0,1)
(0,1,0)
(1/2,0,1/2)
(1/3,1/3,1/3)
As mismo existen diseos variantes del centroide donde incluimos mas
combinaciones dentro del rea respuesta. Por ejemplo el siguiente diseo con tres
factores que presenta 3 puntos en el interior del tringulo.
Con estos diseos podemos dilucidar la forma del rea de respuesta dentro del rea
del tringulo con mayor precisin.
x1=1
x2=1 x2=1
(1,0,0)
(0,1/2,1/2)
(1/2,1/2,0)
(0,0,1)
(0,1,0)
(1/2,0,1/2)
(1/3,1/3,1/3)
MODELOS PARA LOS DISEOS DE MEZCLAS
La forma cannica del polinomio de mezclas es derivado por la aplicacin de la
restriccin X1+X2+...+Xk=1 para simplificar los trminos del polinomio estndar.
Por ejemplo para dos componentes X1 y X2 el polinomio estndar de primer grado
es:
Y= o+1X1+2X2
Sin embargo como X1+X2=1, se puede remplazar o por o(X1+X2=1) en Y para
obtener:
Y= (o+1)X1+(o+2)X2
Y=1X1+2X2
De esta manera el termino o es removido del modelo. En el caso del polinomio de
segundo grado los trminos cuadrticos 11X1
2
y 22
2
son removidos del modelo, as
como el termino constante o. Por consiguiente los modelos de mezcla tienen menos
trminos que los polinomios estndar; a este tipo de formas cannicas de polinomios
se les denomina modelos tipo Scheff.
En general los modelos ms importantes de mezclas son:
Modelo lineal
Y iXi
i
k
=
=
1
El modelo lineal se usara en los casos en que la mezcla de los componentes sea
aditivo y la calidad del producto se defina como una combinacin lineal de sus
proporciones.
Modelo cuadrtico
Y iXi ijXiXj
i j
k
i
k
= + +
< =

1
El modelo cuadrtico se emplea si existe interaccin (antagonismo o sinergismo)
entre los constituyentes de la mezcla, y por consiguiente la calidad fue superior o
inferior a la que se hubiera obtenido con la combinacin lineal de sus proporciones.
Modelo Cbico Especial
Y iXi ijXiXj ijkXiXjXk
i
k
i j k
k
i j
k
= + + +
= < < <

1
Modelo cbico Completo
Y iXi ijXiXj ij XiXj Xi Xj ijkXiXjXk
i j
k
i
k
i j
k
i j k
k
= + + + +
< = < < <

1
( )
El termino cubico 123 identifica la diferencia en los valores de la variable
dependiente con la mezcla X1=1/3, X2=1/3, X=1/3 y el valor pronosticado en dicho
punto con el modelo cuadrtico.
El modelo lineal, cuadrtico y cbico completo son generalmente asociados con q,1
,q,2 y q,3 del diseo de red simplex, la ecuacin cubica especial es reducida a
la forma de un polinomio de tercer grado que posee medidas de las combinaciones
ternarias de los componentes i, j, y k, por consiguiente representa un polinomio al
menos de mayor grado de 2, que tiene el siguiente numero de trminos:
N
q q
=
+ ( )
2
5
6
Mientras que la formula para calcular el numero de trminos para el modelo cubico
completo es:
N
q q q
=
+ + ( )( ) 1 2
6
La forma cannica del polinomio
La siguiente tabla nos indica el numero de puntos de respuesta, el numero de factores
y el numero de espacios por factor:
Cuadrtico Cubico
especial
Cubico Cuartico
Numero de
espacios (m)
2 2 3 4
numero de
factores (q)
numero de puntos de
respuesta (k)
3 6 7 10 15
4 10 14 20 35
5 15 25 35 70
6 21 41 56 126
8 36 92 120 330
10 55 175 220 715
En general el numero de puntos en el diseo de red simplex es:
N
q m
m q
=
+
( )!
!( )!
1
1
La ecuacin anterior no es aplicable para el simplex cubico especial en cual
realmente en un simplex cuadrtico especial con puntos adicionales en el centro en
dos superficies dimensionales. Para este modelo se utiliza la siguiente ecuacin:
N
q q q q q
=
+
+
+ ( ) ( )( ) 1
2
1 2
6
La forma cannica del polinomio en k componentes que tiene los puntos calculados
del diseo de centroide simplex es:
Y iXi ijXiXj ijkXiXjXk kX X Xk
i j
k
i
k
i j k
k
= + + +
< = < <

1
1 2 1 2 , ... ...
Las grficas facilitan la visualizacin del diseo de red simplex que corresponde, as
como las reas de experimentacin.
INTERPRETACIN DE LOS COEFICIENTES ESTIMADOS
Los coeficientes i del modelo lineal representan la respuesta esperada del
componente Xi=1, Xj=0,ji. Y define la altura del rea de la mezcla en el vrtice
simplex denotado por Xi=1. La porcin ecuacin de cada modelo es llamado porcin
de la combinacin lineal y como mencionamos representa la combinacin de los
componentes estrictamente aditiva.
Los coeficientes binarios (ij) estimados es una medida de la curvatura del rea de
respuesta (llamado frecuentemente sinergismo o antagonismo) en la combinacin de
2 componentes.
2
1
12 0 >
Una prueba para encontrar sinergismo en una combinacin de 2 componentes es
mediante la hiptesis Ho: ij=0 contra ij0;la evaluacin es efectuada mediante la
ecuacin:
ecuacin
Comparando el valor de t calculado contra el de tablas; si Tcal>ttab inferimos con el
nivel de significancia establecido que el valor de la respuesta de los componentes
combinados es mayor que si utilizamos los componentes de manera individual.
Los trminos estimados de mayor grado como ijk o ijXiXj(Xi-Xj) describen
desviaciones adicionales en la forma del plano dentro del rea de respuesta, no solo
sobre los vrtices.
Cuando los datos son colectados solo de los puntos del q,m red simplex (as como
en los puntos del diseo simplex centroide) los coeficientes estimados en el
polinomio canonico es una simple funcin de los valores observados de respuesta.
Esto es por que el numero de trminos en los modelos es igual al numero de puntos
en el correspondiente diseo en red. Para demostrar esto suponemos que tenemos un
3,2 red simplex, y definimos como Y la media con r, observaciones replicadas,
colectadas en Xi=1,Xj=0; ij, i=1,2,3..k; adicionalmente, Yij es la media de las rij,
observaciones colectadas en la mezcla binaria 50% y 50% (Xi=1/2,Xj=1/2...Xk=0 de
todos i<j<k) de los componentes i y j. Los parmetros estimados de los coeficientes
del modelo cuadrtico son obtenidos usando:
12
=4Yij-2(Yi+Yj) (ntese que los
estimadores ij solo colectan los datos a lo largo del eje conectando los vrtices
Xi=1, Xl=0; li y Xj=1, Xl=0; lj) Las cantidades escalares 4 y 2 en la formula no
dependen de los valores de ri y rij; pero si provienen de los valores de Xi y Xj. Es
importante mencionar que la ecuacin slo puede utilizarse para calcular los
coeficientes en los modelos cuadrticos y cbicos especiales.
xi. Ejemplos de aplicaciones de los diseos de xi. Ejemplos de aplicaciones de los diseos de mezclas en farmacia mezclas en farmacia
A. DISEO DE MEZCLAS PARA UNA FORMULACIN DE
LIBERACIN PROLONGADA DE TEOFILINA.
1. PLANTEAMIENTO DEL PROBLEMA
EN ESTE EJEMPLO SE UTILIZA UN DISEO DE VERTICES (FIGURA 27) CON TRES
DIFERENTES DERIVADOS DE CELULOSA (HIDROXIPROPIL CELULOSA (HAPC),
HIDROXIPROPILMETIL CELULOSA (HPMC) Y CELULOSA MICROCRISTALINA (MC) PARA
PREPARAR TABLETAS QUE CONTENAN 10 % DE TEOFILINA MEDIANTE UNA GRANULACIN
HMEDA, DETERMINNDOSE EL EFECTO DE CADA DERIVADO DE CELULOSA SOBRE LA
PROLONGACIN DE LA LIBERACIN DE TEOFILINA, PARA ELLO SE UTILIZO COMO
VARIABLES DE RESPUESTA EL CALCULO DE LA CONSTANTE DE LA VELOCIDAD DE
LIBERACIN (k) ASI COMO EL TIEMPO MEDIO DE LIBERACIN (MTD) DE LAS
FORMULACIONES PRELIMINARES OBSERVADAS EN LA TABLA 10, DONDE SE DILUCIDA QUE
LOS MEJORES RESULTADOS SE LOCALIZAN DENTRO DEL AREA EXPERIMENTAL INICIAL
(FIGURA 27) QUE CORRESPONDIERON A LAS FORMULACIONES 3, 4 Y 5. POR CONSIGUIENTE
SE ESTABLECIO UN NUEVO DOMINIO EXPERIMENTAL (FIGURA 28) CON UN CENTROIDE
SIMPLEX DE 10 FORMULACIONES QUE SE INCLUYEN EN LA TABLA 12; CON ESTOS
RESULTADOS SE CONSTRUYO UN MODELO DE SEGUNDO GRADO MEDIANTE EL PAQUETE
SAS FOR WINDOWS (LA FORMA DE INTRODUCIR LOS DATOS EN ESTE PAQUETE SE
MUESTRA EN EL APENDICE D) Y SE OBSERVO QUE LOS MEJORES RESULTADOS DE LAS
VARIABLES DE RESPUESTA FUERON CONSEGUIDAS POR LAS FORMULACIONES B Y D.
Los experimentos preliminares se efectuaron con los siguientes limites:
0.1 X
1
0.2
0.1 X
2
0.2
0.7 X
3
0.9
A
B C
90%
70%
FIG. 27. DISEO DE VERTICES CON TRES DIFERENTES
DERIVADOS DE CELULOSA (HAPC), (HPMC) Y (MC).
1 2
3
4 5
7 6
8
9 10
11
FIGURA 28. NUEVO DOMINIO EXPERIMENTAL CON UN
CENTROIDE SIMPLEX
NUMERO DE
FORMULACIN
MC
(X
3
)
HPMC (X
2
) HPC
(X
1
)
MDT
MINUTOS
K (MIN
-1
)
1 90 10 0 28.2 0.053
2 90 0 10 16.3 0.591
3 87 6.5 6.5 26.7 0.558
4 83 13.5 3.5 54.2 0.019
5 83 3.5 13.5 43.0 0.024
6 80 20 0 8.4 0.014
7 80 10 10 17.1 0.078
8 80 0 20 10.5 0.138
9 77 15 8 9.7 0.049
10 77 8 15 18.5 0.063
11 70 15 15 18.2 0.048
TABLA 10 DISEO DE VERTICES CON TRES DIFERENTES DERIVADOS DE CELULOSA (HIDROXIPROPIL CELULOSA (HAPC),
HIDROXIPROPILMETIL CELULOSA (HPMC) Y CELULOSA MICROCRISTALINA (MC) .PROPORCIONES PRELIMINARES DE LAS
FORMULACIONES Y SUS CORRESPONDIENTES RESULTADOS.
Las 11 formulaciones iniciales se presentan en la tabla 10 donde se observa que las formulaciones 3, 4
y 5 presentan los mejores resultados de tiempo medio de liberacin, as como de la constante de
liberacin, por consiguiente se plantea un nuevo dominio experimental utilizando el tringulo que
forman las formulaciones antes mencionadas (figura 28) y aplicando un diseo centroide simplex 3,2
es decir con tres componentes se buscara establecer un polinomio de segundo orden por lo que ser
necesario tener 10 formulaciones (tabla 11 y 12). Para establecer las proporciones de los excipientes en
sus porcentajes originales se emplea la ecuacin 30, por ejemplo para proporcin X
1
=1/3, X
2
=1/3,
X
3
=1/3, los porcentajes originales sern:
X
i
=L
i
+(1-L)X`
i
X
1
=83+(1-0.9)1/3
X
1
= 86.4, X
2
= 6.8 y X
3
= 6.8
TABLA 11. CENTROIDE SIMPLEX DE 10 FORMULACIONES DONDE SE INCLUYEN EN LAS PROPORCIONES DE LOS PSEUDOCOMPONENTES SUS
CORRESPONDIENTES VALORES ORIGINALES
FORMULACION
X
3
X
2
X
1
X
3
% X
2
% X
1
%
3 1 0 0
87 6.5 6.5
4 0 1 0
83 13.5 3.5
5 0 0 1
83 3.5 13.5
G 1/2 1/2 0
88 8.5 3.5
C 1/2 0 1/2
88 3.5 13.5
A 0 1/2 1/2
83 8.5 8.5
B 1/3 1/3 1/3
86.5 6.8 6.8
E 2/3 1/6 1/6
89.66 5.166 5.166
F 1/6 2/3 1/6
84.66 10.166 5.166
D 1/6 1/6 2/3
84.66 5.166 10.166
Armando Cervantes S., Raquel Lpez A, Ricardo Zamora.
2
TABLA 12. CENTROIDE SIMPLEX DE 10 FORMULACIONES DONDE SE INCLUYEN LAS PROPORCIONES Y RESULTADOS DE LA
SEGUNDA REA RESTRINGIDA
2. SALIDAS DEL SAS FOR WINDOWS
TABLA 13. ANALISIS DE VARIANZA
TABLA 14. CALCULO DE LA CANTIDAD DE VARIACIN
CALCULADA MEDIANTE: ( RA
2
)
Parameter Estimates
TABLA15. CALCULO DE LOS PARAMETROS DEL MODELO DE SEGUNDO GRADO
Ridge of Optimum
Type of ridge=MAXIMUM
Coding Coefficients for the Independent Variables
FORMU-
LACIN
X
3
% X
2
% X
1
% MTD EN MINUTOS
3 100 0 0 22.40
4 0 100 0 54.20
5 0 0 100 43.00
G 50 50 0 51.50
C 50 0 50 127.50
A 0 50 50 77.08
B 33.33 33.33 33.33 144.60
E 66.67 16.67 16.67 80.00
F 16.67 66.67 16.67 86.05
D 16.67 16.67 66.67 102.10
SOURCE DF SUM
SQUARES
MEANS
SQUARES
F VALUE PROB>F
MODEL 6 73903.02 12317.17 35.80 0.002
ERROR 4 1376.26 344.06
TOTAL 10 75279.29
ROOT MSE 18.55 R-SQUARE 0.98
DEP MEAN 78.84 ADJ R-SQ 0.95
C.V. 23.53
VARIABLE DF ESTIMATE ERROR PARAMETER PROB> T
X
1
1 17.22 17.88 0.963 0.390
X
2
1 52.38 17.88 2.929 0.043
X
3
1 39.67 17.88 2.218 0.091
X
1
X
2
1 102.45 82.48 1.242 0.282
X
1
X
3
1 425.96 82.50 5.163 0.006
X
2
X
3
1 167.28 82.48 2.028 0.113
Estadstica, presentacin.
3
TABLA 16. CALCULO DE MAXIMO VALOR DE MTD EN SUS VARIABLES CODIFICADAS
3. CALCULO DE LAS PROPORCIONES DE LOS COMPONENTES EN SUS VALORES
ORIGINALES.
Para transformar las proporciones de los L-pseucomponentes correspondientes al mximo valor de
MTD ( X
1
= 0.45, X
2
=0.004, X
3
= 0.54 y MTD=134.76) de la tabla 15 a los valores originales se utiliza
la ecuacin 30.
Sustituyendo los datos correspondientes de la proporcin de cada componente en dicha ecuacin se
obtiene:
X
1
= 0.83+(1-0.9)0.45
X
1
= 0.876 o 87.6 %
X
2
= 0.035+(1-0.9)0.004
X
2
= 0.0354 o 3.54 %
X
3
= 0.035+(1-0.9)0.54
X
3
= 0.089 o 8.9 %
X1 X2 X3 PRED STDERR
0.32 0.28 0.39 117.99 9.30
0.33 0.33 0.33 113.57 9.25
0.33 0.23 0.43 121.43 9.52
0.35 0.18 0.45 120.00 9.79
0.36 0.19 0.46 124.44 10.00
0.38 0.14 0.48 127.24 10.83
0.40 0.09 0.50 129.88 12.05
0.43 0.05 0.52 132.37 13.63
0.45 0.004 0.54 134.76 15.57
0.48 0.047 0.511 72.16 13.64
4
FIGURA 27. GRFICA DE CONTONOS DE LA SALIDA DE SAS FOR WINDOWS PARA LA VARIABLE DE RESPUESTA,
Y= TIEMP O MEDIO DE DISOLUCIN
d) INTERPRETACIN DE LA SALIDAS EN SAS FOR WINDOWS
En la tabla 12 se presenta el anlisis de varianza de los resultados correspondientes a la segunda rea
restringida, donde se hace patente que el 95 % (Tabla 13) de la respuesta esta explicada por los factores
considerados en el modelo; presentando este modelo un nivel de significancia de 0.002, por lo que se
considera que el modelo cuadrtico que se genera a partir de los valores estimados de la tabla 15
describe de manera apropiada el comportamiento de los datos. Por consiguiente es posible determinar
la formulacin que genera el valor ptimo de MTD; mediante una grfica de contorno o mediante
mtodos numricos como el anlisis RIDGE; es importante recordar que las proporciones ptimas de la
tabla 16 corresponden a los l-pseudocomponentes y es necesario transformarlas a las proporciones de
los componentes originales, la cual resulto ser 87.5 % HAPC, 3.54% de HPMC y 8.9% de MC,
proporcin que es concordante con el valor que se observa en la grfica de contorno de la figura 27.
Como se observa a travs de este ejemplo los diseos de mezclas pueden utilizarse primero como una
fase exploratoria para tener una aproximacin a una zona de respuesta con los mejores resultados y a
partir de ella establecer otro diseo que dilucide de forma mas precisa la formulacin con mejores
caractersticas, obteniendo con ello un menor nmero de ensayos y consiguindose de una manera
sencilla y rpida el resultado deseado.
5
B. OPTIMIZACIN DE UNA FORMULACIN DE TABLETAS USANDO UN
DISEO DE MEZCLAS
a) PLANTEAMIENTO DEL PROBLEMA..
EN ESTE EJEMPLO SE REALIZA LA OPTIMIZACIN DEL PERFIL DE DISOLUCIN DE UNA
TABLETA DE LIBERACIN CONTROLADA DE NAFTIDROFURIL UTILIZANDO UN DISEO
CENTROIDE SIMPLEX. LOS EXCIPIENTES INVESTIGADOS FUERON AVICEL PH 102 (CELULOSA
MICROCRISTALINA) , TABLETOSSE EP (LACTOSA) Y FOSFATO DE CALCIO DIHIDRATADO.
REALIZNDOSE COMO PRIMER PASO UNA GRANULACIN CON EL PRINCIPIO ACTIVO CON
GOMA XANTANA, GOMA GUAR, LACTOSA D80 Y UNA SOLUCIN DE PVP AL 5.0%. LOS
PARMETROS DE RESPUESTA FUERON: VELOCIDAD DE LIBERACIN, RESISTENCIA A LA
RUPTURA, FRIABILIDAD Y VARIACIN DE PESO OBTENINDOSE COMO RESULTADO UN
MODELO MATEMTICO DE PREDICCIN DE RESPUESTA CON EL MODELO DE SCHEFF Y UNA
GRFICA DE CONTORNO LO QUE AYUDO A ENCONTRAR LA FORMULACIN CON LAS MEJORES
CARACTERSTICAS.
FORMU-
LA
AVICEL
PH 102
X
1
TABLETOSE
EP X
2
FOSFATO DE
CALCIO
DIHIDRATADO
X
3
T90% EN
BUFFER
(MIN)
RESISTEN-
CIA A LA
RUPTURA
(N)
FRIABI-
LI DAD
%
VARIACIN
DE PESO
(%)
1 1 0 0 197 127 0.65 0.67
2 0 1 0 110 63 1.18 1.04
3 0 0 1 324 83 0.77 1.82
4 1/2 1/2 0 67 83 0.75 0.75
5 1/2 0 1/2 362 88 0.70 0.47
6 0 1/2 1/2 312 64 0.91 1.67
7 1/3 1/3 1/3 214 69 0.74 0.77
8 2/3 1/6 1/6 206 101 0.53 0.35
9 1/6 2/3 1/6 171 59 0.89 0.87
10 1/6 1/6 2/3 344 74 0.77 0.88
TABLA 17. PROPORCIONES DE LAS MEZCLAS Y RESULTADOS DE LAS VARIABLES DE RESPUESTA
6
b) RESULTADOS OBTENIDOS EN SAS FOR WINDOWS PARA T90% EN BUFFER.
General Linear Models Procedure
Number of observations in data set = 10
The SAS System
Dependent Variable: Y
Sum of Mean
Source DF Sum
Squares
Means
Squares
F Value Pr>F
Model 6 623175.961 103862.660 297.81 0.0001
Error 4 1395.039 348.760
Total 10 624571.000
TABLA 18. ANALISIS DE VARIANZA PARA T90% EN BUFFER
Root MSE 18.67511 R-square 0.9978
Dep. Mean 230.7000 Adj. R-sq 0.944
C.V. 8.0949
TABLA 19. CALCULO DE LA CANTIDAD DE VARIACIN CALCULADA MEDIANTE: ( RA
2
)
Parameter Estimate T for H0:
Parameter=0
Pr > |T| Std Error of
Estimate
X1 198.1388835 0.0004 18.01029645
X2 114.0491544 6.33 0.0032 18.00569842
X3 328.9906419 18.27 0.0001 18.01080247
X1*X2 -402.3949997 -4.85 0.0084 83.04345830
X1*X3 351.4912003 4.23 0.0134 83.06565558
X2*X3 331.3131397 3.99 0.0163 83.04591621
TABLA 20. CALCULO DE LOS PARAMETROS DEL MODELO DE SEGUNDO GRADO PARA T90 % EN BUFFER
Ridge of Optimum Response
PROPOR-
CIN
X1 X2 X3 _PRED_ _STDERR_
1 0.33317 0.33331 0.33352 244.515 9.40054
2 0.30282 0.29357 0.40360 272.272 9.45110
3 0.27560 0.25154 0.47285 295.758 9.50662
4 0.25487 0.20537 0.53976 315.123 9.54976
5 0.24821 0.15225 0.59953 330.771 9.83745
6 0.26451 0.092922 0.64256 343.724 10.9659
7 0.29772 0.035412 0.66687 355.513 13.1002
TABLA 21. CALCULO DEL MAXIMO VALOR DE T90 % EN BUFFER
7
FOSFATO
DE CALCIO
0
20
40
60
80
100
100
100 80
80
60
60 40
40
20
20
0
0
330
270
210
150
90
MC
LACTOSA
FIG. 30. SUPERFICIE DE CONTORNO DEL TIEMPO CUANDO 90% DE NAFTIDROFURIL ES LIBERADO EN BUFFER DE FOSFATOS
1. INTERPRETACIN DE RESULTADOS DE T 90 % EN BUFFER
En la tabla 18 se presenta el anlisis de varianza de los resultados correspondientes a los valores de
T90% en buffer, donde se manifiesta la gran relacin que existe entre los constituyentes de la mezcla y
la disolucin debido a que el valor de significancia del modelo es de 0.001, as tambin la cantidad de
variacin explicada en la tabla 13 es de 95 %, por lo que se considera que el modelo cuadrtico que se
genera a partir de los valores estimados de la tabla 15 describe de manera apropiada el comportamiento
de los datos de disolucin; el mximo valor calculado para este parmetro corresponder a la
proporcin 7 de la tabla 21 y es de 355 minutos. Se observa tambin en la grfica de contornos que a
medida que se incremente la cantidad de fosfato de calcio la disolucin se vera retardada.
d) RESULTADOS OBTENIDOS EN SAS FOR WINDOWS PARA VARIACION DE PESO.
Source DF Squares Square F Value Prob>F
Model 6 10.54190 1.75698 58.568 0.0007
Error 4 0.12000 0.03000
U Total 10 10.66190
TABLA 22. ANALISIS DE VARIANZA PARA VARIACIN DE PESO
Dep Mean 0.92900 Adj R-sq 0.9719
C.V. 18.64388
2
)
8
Parameter=0
Estimate
X1 0.680034012 4.07 0.0152 0.16703582
X2 1.049451021 6.28 0.0033 0.16699318
X3 1.786422609 10.69 0.0004 0.16704051
X1*X3 -3.598696576 -4.67 0.0095 0.77038931
X1*X2 -0.834480738 -1.08 0.3395 0.77018345
X2*X3 0.458244117 0.59 0.5839 0.77020624
TABLA 24. CLACULO DE LOS PARAMETROS DELMODELO DE SEGUNDO GRADO PARA VARIACIN DE PESO
Type of ridge=MINIMUM
PROPORCIN X1 X2 X3 _PRED_ _STDERR_
1 0.33317 0.33331 0.33352 0.72964 0.08699
2 0.38164 0.32105 0.29731 0.65989 0.08733
3 0.42454 0.29268 0.28277 0.60244 0.08767
4 0.45821 0.25045 0.29134 0.55142 0.08820
5 0.48423 0.20223 0.31355 0.50191 0.09099
6 0.50569 0.15237 0.34194 0.45130 0.09783
7 0.52453 0.10227 0.37321 0.39838 0.10945
8 0.54177 0.05227 0.40596 0.34257 0.12585
9 0.55799 0.00247 0.43955 0.28354 0.14664
TABLA 25. CALCULO DEL MINIMO VALOR PARA VARIACIN DE PESO
0
20
40
60
80
100
100
100 80
80
60
60 40
40
20
20
0
FOSFATO
DE CALCIO
0.4
0.7
1.0
1.3
1.6
MC
LACTOSA
0
FIG. 31 SUPERFICIE DE CONTORNO PARA LOS RESULTADOS DE VARIACIN DE PESO
1. INTERPRETACIN DE LOS RESULTADOS CORRESPONDIENTES A VARIACIN DE PESO.
En la tabla 22 se hace patente la relacin que existe entre las proporciones de los constituyentes de la
mezcla y la variacin de peso de las tabletas mediante un anlisis de varianza por que el valor de
significancia del modelo es de 0.0007, y se considera que el modelo cuadrtico que se genera a partir
9
de los valores estimados de la tabla 25 describe de manera apropiada el comportamiento de los datos de
variacin de peso por que la variacin explicada que se observa en la tabla 24 es de 97 %, as mismo
para este parmetro el valor mnimo es de 0.28 % y corresponde a la proporcin 9 de la tabla 26. En la
grfica de contornos de la figura 31 se observa que a medida que se incrementen las proporciones de
celulosa microcristalina y fosfato de calcio se disminuir la variacin de peso de las tabletas.
c) RESULTADOS OBTENIDOS EN SAS FOR WINDOWS PARA RESISTENCIA A LA RUPTURA.
The SAS System
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 6 70289.4560 11714.9093 423.90 0.0001
Error 4 110.5440 27.6360
Uncorrected
Total
10 70400.0000
TABLA 26. ANALISIS DE VARIANZA PARA RESISTENCIA A LA RUPTURA
Dep Mean 81.600 Adj. R-sq 0.9961
C.V. 6.4424
2
)
Parameter=0
Estimate
X1 128.7307889 25.39 0.0001 5.06985116
X3 84.4767491 16.66 0.0001 5.06999360
X2 61.2830869 12.09 0.0003 5.06855682
X1*X3 -66.8320744 -2.86 0.0460 23.38276392
X1*X2 -53.0976956 -2.27 0.0856 23.37651544
X2*X3 -41.6060801 -1.78 0.1497 23.37720733
TABLA 28. CAlCULO DE LOS PARAMETROS DEL MODELO DE SEGUNDO GRADO PARA VARIACIN DE PESO
1 0.33317 0.33331 0.33352 73.4991 2.62925
2 0.37986 0.31541 0.30473 75.8337 2.63770
3 0.42882 0.30415 0.26703 78.4042 2.65783
4 0.47940 0.29991 0.22068 81.2427 2.70318
5 0.53075 0.30229 0.16696 84.3814 2.82761
6 0.58210 0.31026 0.10764 87.8490 3.11959
7 0.63298 0.32262 0.04440 91.6687 3.66135
TABLA 29. CALCULO DEL MAXIMO VALOR PARA RESISTENCIA A LA RUPTURA
10
0
20
40
60
80
100
100
100 80
80
60
60 40
40
20
20
0
0
110
100
90
80
70
LACTOSA
CM
FOSFATO
DE CALCIO
FIG. 32 SUPERFICIE DE CONTORNO PARA LOS RESULTADOS DE RESISTENCIA A LA RUPTURA
1. INTERPRETACIN DE LOS RESULTADOS CORRESPONDIENTES RESISTENCIA A LA
RUPTURA.
La relacin que existe entre las proporciones de los constituyentes de la mezcla y la resistencia a la
ruptura de la tabletas es estadsticamente significativa por que la tabla 26 de anlisis de varianza posee
un valor de significancia de 0.0001, y se considera que el modelo cuadrtico que se genera a partir de
los valores estimados de la tabla 28 describe de manera apropiada el comportamiento de los datos por
que la variacin explicada en la tabla 27 es de 99 %, as mismo para la resistencia a la ruptura el valor
mximo es de 91 N y corresponde a la proporcin 7 de la tabla 28. En la grfica de contornos de la
figura 32 se observa que las propiedades de dureza de la tableta se vern mejoradas a medida que se
incremente la proporcin de celulosa microcristalina.
d. RESULTADOS DE FRIABILIDAD
The SAS System
Source DF Sum
Squares
Mean
Square
F Value Prob>F
Model 6 6.4872 1.0812 294.58 0.0001
Error 4 0.0147 0.0367
U Total 10 6.5019
TABLA 30. ANALISIS DE VARIANZA PARA FRIABLIDAD
C.V. 7.6785
2
)
11
Parameter=0
Estimate
X2 1.185729 20.300 0.0001 0.05841160
X3 0.784885 13.433 0.0002 0.05842816
X1 0.624763 10.693 0.0004 0.05842652
X1*X2 -0.787163 -2.922 0.0432 0.26939814
X2*X3 -0.306871 -1.139 0.3183 0.26940611
X1*X3 -0.148213 -0.550 0.6116 0.26947015
TABLA 32. CALCULO DE LOS PARAMETROS DEL MODELO DE SEGUNDO GRADO PARA FRIABILIDAD
PROPOR-
CIN
1 0.33317 0.33331 0.33352 0.729641 0.030341
2 0.37731 0.30982 0.31287 0.70887 0.030427
3 0.42355 0.29052 0.28593 0.69272 0.030574
4 0.47182 0.27606 0.25212 0.67799 0.030700
5 0.52182 0.26689 0.21129 0.66459 0.030937
6 0.57311 0.26311 0.16378 0.65236 0.031795
7 0.62516 0.26444 0.11040 0.64113 0.034218
8 0.67746 0.27032 0.05222 0.63079 0.039286
TABLA 33. CALCULO DEL MINIMO VALOR PARA FRIABILIDAD
0
20
40
60
80
100
100
80
60
40 20
0
0
0.7
0.8
100 80 60
40
20
0
0.9
1.0
1.1
MC
LACTOSA
FOSFATO
DE CALCIO
FIGURA 32. SUPERFICIE DE CONTORNO PARA LOS RESULTADOS DE FRIABILIDAD
12
1. INTERPRETACIN DE RESULTADOS DE FRIABILIDAD.
friabilidad, donde se manifiesta la gran relacin que existe entre los constituyentes de la mezcla y la
disolucin debido a que el valor de significancia del modelo es de 0.001, as tambin la cantidad de
de los datos de friabilidad; el mnimo valor calculado para este parmetro corresponder a la
proporcin 8 de la tabla 32 y es de 0.63. En la grfica de superficies de contorno (figura 32) se
observa que a medida que se incrementen la proporcin de celulosa microcristalina y fosfato de calcio
las tabletas tendrn mejores caractersticas de friabilidad.
E. RESULTADOS GENERALES
RESPUESTA ADJ R-SQ POLINOMIO OBTENIDO
FRIABLIDAD % 0.9944 0.625 X
1
+

1.186 X
2
+

0.785X
3
-0.787X
1
X
2
-0.148 X
1
X
3
+0.307X
2
X
3
VARIACIN DE
PESO %
0.9719 0.68X
1
+ 1.049 X
2
+ 1.786 X
3
-

0.834 X
1
X
2
- 3.598 X
1
X
3
+0.458X
2
X
3
RESISTENCIA A
LA RUPTURA
(N)
0.9970 129.09 X
1
+

61.645 X
2
+

83.474 X
3
-

53.508 X
1
X
2
-69.943 X
1
X
3
-
44.745 X
2
X
3
VELOCIDAD DE
DISOLUCIN
(MIN)
0.9944 198.139 X
1
+

114.049 X
2
+

328.99 X
3
-402.395 X
1
X
2
+351X
1
X
3
+X
2
X
3
331.313
TABLA 34. RESUMEN DE LOS POLINOMIOS Y COEFICIENTES DE AJUSTE OBTENIDOS MEDIANTE SAS FOR WINDOWS
13
FRIABILIDAD
DISOLUCIN
RESISTENCIA A LA RUPTURA
VARIACIN DE PESO
0
20
40
60
80
100
100
100 80
80
60
60 40
40
20
20
0
FOSFATO
DE CALCIO
0.4
MC
LACTOSA
0
FIGURA 34. GRAFICAS SUPERPUESTAS DE LAS AREAS CON LAS MEJORES RESPUESTAS
1. INTERPRETACIN DE RESULTADOS GENERALES
En la tabla 16 se observa cada una de las formulaciones propuestas en sus variables codificadas y sus
resultados sobre las variables de respuesta, con lo cual se generaron los polinomios de respuesta y sus
respectivas coeficientes de variacin explicada, cada uno de los cuales es superior al 90 % por lo que se
considera que dichos polinomios explican de manera suficiente el comportamiento de los resultados,
por consiguiente se generan las respectivas grficas de contorno. En la grfica correspondiente a la
friabilidad (figura 33) se observa que a medida que se incrementen las proporciones de celulosa
microcristalina y fosfato de calcio se esperaran mejores caractersticas de friablidad de las tabletas, as
tambin se observa algo parecido para la grfica de variacin de peso (figura 31) y para la grfica de
resistencia a la ruptura (figura 32); contrariamente en la grfica de tiempo cuando 90% de naftidrofuril
es liberado se observa que a medida que se incremente la cantidad de fosfato de calcio se obtendrn
mejores caractersticas de liberacin (figura 30); tomado los contornos de mejor respuesta de cada una
de las grficas y superponindolas se puede generar la grfica 34 a partir de la cual se establece el rea
donde se deber buscar la proporcin de cada excipiente que nos brindara las tabletas con las mejores
caractersticas de cada uno de los parmetros evaluados; y la cual resulta ser de 36.0 % de Carboximetil
celulosa, 60.0 % de Fosfosto de calcio y 4.0 % de Lactosa.
ESTUDIO DE CASO DE REGRESIN LINEAL MLTIPLE.
Con el objetivo de mostrar las herramientas del anlisis de regresin mltiple que se
revisaron en el capitulo anterior, se tomo como caso de estudio un experimento sobre un proceso
farmacutico que es influenciado por diversos factores, el cual es una granulacin en lecho
fluidizado. En este proceso influyen diversos factores, tales como: Temperatura del aire de entrada
al granulador de lecho fluido, presin del aire de atomizacin, cantidad de solucin aglutinante,
entre otros. En este estudio slo se tomaron en cuenta los factores mencionados, para evaluar su
influencia sobre la friabilidad de grnulos de -Lactosa monohidratada, elaborados en un granulador
de lecho fluidizado. La friabilidad se determin como peso perdido de los grnulos despus de 100
ciclos en el fragilizador.
La granulacin en lecho fluidizado se ha estudiado ampliamente, pero en la mayora de los
casos slo se evala el efecto de una variable, y en algunos otros se emplearon diseos factoriales 2
n
y 3
2
, los cuales tambin son limitados.
Se ha mostrado que el empleo de la metodologa de superficie de respuesta con diseos
factoriales es un mtodo efectivo que proporciona la mxima informacin con un limitado nmero
de experimentos. Diversos autores han empleado anlisis de regresin, por ejemplo Lindber et al
(1985-1987) empleo anlisis de regresin en el estudio de la influencia de la composicin y
variables de proceso sobre el tiempo de desintegracin, dureza y friabilidad de tabletas. En
granulacin, Wehrl et al (1989) empleo el anlisis de regresin stepwise para comparar diferentes
granuladores. Posteriormente, Bos et al (1991 a,b,c) aplic el anlisis de regresin para estudiar
tabletas elaboradas por compresin directa.
A continuacin se plantea el estudio de caso, en el cual se aplican las diversas tcnicas de
anlisis de regresin sobre un problema del mbito farmacutico.
Armando Cervantes S., Raquel L[opez A.
2
Problema.
El objetivo del estudio de Merkku y col. (1993) sobre el proceso de granulacin hmeda en
lecho fluido fue mostrar la aplicacin del mtodo stepwise del anlisis de regresin mltiple para
encontrar el mejor modelo de prediccin, sin embargo, en esta seccin se presentan los diferentes
mtodos del anlisis de regresin aplicados a un proceso farmacutico, mostrando los diferentes
criterios e interpretaciones para lograr obtener un modelo de regresin mltiple que ajuste de manera
adecuada a los resultados experimentales.
El estudio se realiz en base a un diseo factorial 3
3
, donde las variables independientes
fueron: Temperatura del aire de entrada, presin del aire de atomizacin y cantidad de solucin
aglutinante, mientras que la variable de respuesta fue el porcentaje de peso perdido por friabilidad.
Los niveles de las variables independientes se muestran en el cuadro 8.1 y la matriz de
experimentacin en el cuadro 8.2. Es importante mencionar que en los extremos del diseo los
granulados se hicieron por duplicado y el punto central se realizo por cuadruplicado, por lo tanto
fueron 38 experiencias en total.
Niveles
Variable
-1 0 +1 Dimensin
Temperatura del aire de
entrada (T)
40 50 60 (C)
Presin del aire de
atomizacin (p)
1.0 1.5 2.0 (bar)
Cantidad de solucin
aglutinante (m)
150 300 450 (g)
Cuadro 1. Niveles de las variables independientes.
Estudio de caso de Reg. Mult.
3
Variables
Experimento
T p m
1
*
-1 -1 -1
2 -1 -1 0
3
*
-1 -1 +1
4 -1 0 -1
5 -1 0 0
6 -1 0 +1
7
*
-1 +1 -1
8 -1 +1 0
9
*
-1 +1 +1
10 0 -1 -1
11 0 -1 0
12 0 -1 +1
13 0 0 -1
14
**
0 0 0
15 0 0 +1
16 0 +1 -1
17 0 +1 0
18 0 +1 +1
19
*
+1 -1 -1
20 +1 -1 0
21
*
+1 -1 +1
22 +1 0 -1
23 +1 0 0
24 +1 0 +1
25
*
+1 +1 -1
26 +1 +1 0
27
*
+1 +1 +1
* Duplicado ** Cuadruplicado
Cuadro 2. Matriz experimental
4
Una vez que se construye el diseo factorial y se obtienen los resultados, se puede estudiar, a
travs de regresin mltiple, la dependencia de la friabilidad, en funcin de las variables
independientes T, p y m en el diseo factorial 3
3
. El mtodo Stepwise de regresin mltiple se ha
empleado en estudios de granulacin con dos variables independientes. Bos et al, aplic la misma
tcnica en un diseo factorial 3
4
en la evaluacin de estabilidad de tabletas. Por lo tanto, en este caso
de estudio se llegar a un modelo de regresin mltiple mostrando e interpretando cada etapa en que
se realiza. La forma general del modelo de regresin que describe el comportamiento de la
friabilidad de los grnulos elaborados en un granulador de lecho fluidizado en funcin de las tres
variables independientes en estudio es la ecuacin (8.1.1), la cual se deber simplificar lo ms
posible hasta obtener un modelo que contenga slo aquellos factores que influyen de manera
significativa sobre la respuesta.
FR T p m Tp Tm
pm T p m Tpm
= + + + + + +
+ + + +

0 1 2 3 12 13
23 11
2
22
2
33
2
123

(1.1)
Donde T, p, m son las variables independientes. FR es la variable de respuesta (friabilidad) y las s
son los diferentes coeficientes de regresin que se deben estimar a partir de los resultados
experimentales, los cuales se presentan a continuacin.
2.- Resultados experimentales.
El anlisis estadstico, es decir, el ajuste de los resultados a un modelo de regresin que
mejor describe la dependencia de la friabilidad en funcin de T, p, m, se realiz con los resultados
que se presentan en el cuadro 8.3; se observa que se tomaron las unidades reales de las variables
independientes, esto se debe a que no se controlaron estrictamente los niveles de cada variable, y
como se desea llegar a un modelo de prediccin, es mejor considerar estas variaciones.
5
Experienci
a
Temperatura
del aire de
entrada
(C)
Presin del
aire de
atomizacin
(bar)
Cantidad de
solucin
aglutinante
(g)
Friabilidad
(%)
Experiencia
Temperatura
del aire de
entrada (T)
(C)
Presin del
aire de
atomizacin
(bar)
Cantidad de
solucin
aglutinante
(g)
Friabilidad
(%)
1 41.4 1.0 162 24.8 14c 51.0 1.4 308 47.8
1b 42..4 1.0 152 21.0 14d 52.7 1.5 308 37.2
2 44.6 0.9 307 18.6 15 48.9 1.5 457 24.3
3 44.1 1.0 459 5.6 16 51.6 1.9 157 47.5
3b 41.4 1.0 457 15.0 17 51.1 2.0 306 29.0
4 41.2 1.5 156 36.9 18 49.5 2.0 453 24.2
5 42.6 1.4 306 16.1 19a 61.4 1.0 160 45.5
6 44.2 1.5 459 8.3 19b 59.0 1.0 157 45.5
7 43.8 1.9 167 45.3 20 61.5 1.0 313 14.1
7b 41.5 2.0 158 53.3 21a 58.0 0.9 459 13.0
8 44.6 2.0 305 37.4 21b 59.6 1.0 459 6.2
9 43.4 2.0 461 23.3 22 59.7 1.5 157 37.8
9b 41.3 2.0 459 23.9 23 58.8 1.5 309 31.3
10 53.7 1.0 162 24.2 24 58.9 1.6 457 20.9
11 51.9 1.0 306 11.8 25a 61.4 1.9 162 64.8
12 49.9 1.0 457 8.8 25b 61.0 2.0 159 47.9
13 51.7 1.5 158 37.4 26 59.7 1.9 309 38.2
14 51.2 1.5 300 44.2 27a 59.3 2.0 456 31.6
14b 50.5 1.4 310 28.9 27b 58.6 2.0 456 51.0
Cuadro 3. Resultados del porcentaje de friabilidad
A continuacin se presenta la aplicacin de las diferentes tcnicas del anlisis de regresin
mltiple descritas en el capitulo 7, y con ayuda del paquete estadstico SAS, se determinan los
modelos de regresin. En el programa 8.1. se muestran los diferentes procedimientos para lograr lo
anterior, y cada uno se describe posteriormente. Se deben crear en el programa todas las variables
necesarias que sean funcin de otras variables bsicas que se quieran probar en el modelo, antes de
introducir los resultados experimentales.
6
Programa 1. Programa para obtener un Modelo de Anlisis de Regresin, a
travs de diversas tcnicas.
OPTIONS PS=60 nodate nonumber;
DATA REGMUL1;
INPUT Batch $
T /* Temperatura del aire de entrada (C) -1=40 0=50 +1=60 */
p /* Presin del aire de atomizacin (Bar) -1=1.0 0=1.5 +1=2.0 */
m /* Cantidad de solucin aglutinante (g) -1=150 0=300 +1=450 */
Fr /* Friabilidad (%), perdida de masa en porcentaje */
;
Tp=T*p; Tm=T*m; pm=p*m; TT=T*T; pp=p*p; mm=m*m; Tpm=T*p*m;
CARDS;
1a 41.4 1.0 162 24.8 1b 42.4 1.0 152 21.0 2 44.6 0.9 307 18.6
3a 44.1 1.0 459 5.6 3b 41.4 1.0 457 15.0 4 41.2 1.5 156 36.9
5 42.6 1.4 306 16.1 6 44.2 1.5 459 8.3 7a 43.8 1.9 167 45.3
7b 41.5 2.0 158 53.3 8 44.6 2.0 305 37.4 9a 43.4 2.0 461 23.3
9b 41.3 2.0 459 23.9 10 53.7 1.0 162 24.2 11 51.9 1.0 306 11.8
12 49.9 1.0 457 8.8 13 51.7 1.5 158 37.4 14a 51.2 1.5 300 44.2
14b 50.5 1.4 310 28.9 14c 51.0 1.4 308 47.8 14d 52.7 1.5 308 37.2
15 48.9 1.5 437 24.3 16 51.6 1.9 157 47.5 17 51.1 2.0 306 29.0
18 49.5 2.0 453 24.2 19a 61.4 1.0 160 45.5 19b 59.0 1.0 157 45.5
20 61.5 1.0 313 14.1 21a 58.0 0.9 459 13.0 21b 59.6 1.0 459 5.2
22 59.7 1.5 157 37.8 23 58.8 1.5 309 31.3 24 58.9 1.6 457 20.9
25a 61.4 1.9 162 64.8 25b 61.0 2.0 159 47.9 26 59.7 1.9 309 38.2
27a 59.3 2.0 456 31.6 27b 58.6 2.0 456 51.0
;
proc corr;
proc reg;
model Fr=t p m Tp Tm pm TT pp mm Tpm /SELECTION=BACKWARD
SLE=0.05 SLS=0.05;
model Fr=t p m Tp Tm pm TT pp mm Tpm /SELECTION=FORWARD
SLE=0.05 SLS=0.05;
model Fr=t p m Tp Tm pm TT pp mm Tpm /SELECTION=STEPWISE
SLE=0.05 SLS=0.05;
run;
Debido a que existen ms de dos variables independientes, no se puede observar de manera
grfica la posible relacin entre dichas variables y la variable de respuesta, sin embargo, como se
mencion en la seccin 7.6.1. se puede comenzar por encontrar una matriz de correlacin entre todas
las variables, a travs de la cual se obtienen todos los coeficientes de correlacin de orden cero para
tener una idea de la posible correlacin entre las variables independientes (Temperatura del aire de
entrada, presin del aire de atomizacin y cantidad de solucin aglutinante) y la variable de
respuesta (friabilidad de los grnulos). Esta matriz se muestra en la salida 8.1.
7
Salida 1. Matriz de correlacin entre todas las variables
The SAS System
Correlation Analysis
11 'VAR' Variables: T P M FR TP
TM PM TT PP MM
TPM
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
T 38 51.2395 7.2172 1947 41.2000 61.5000
P 38 1.4789 0.4154 56.2000 0.9000 2.0000
M 38 307.4474 124.5938 11683 152.0000 461.0000
FR 38 30.0421 14.9980 1142 5.2000 64.8000
TP 38 75.7676 23.9641 2879 40.1400 122.0000
TM 38 15707 6652 596864 6427 27356
PM 38 455.8079 235.7149 17321 152.0000 922.0000
TT 38 2676 741.0779 101696 1697 3782
PP 38 2.3553 1.2327 89.5000 0.8100 4.0000
MM 38 109639 77382 4166281 23104 212521
TPM 38 23277 12375 884510 6445 54082
The SAS System
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 38
T P M FR TP TM
T 1.00000 -0.00440 -0.05312 0.26481 0.44160 0.26654
0.0 0.9791 0.7515 0.1081 0.0055 0.1058
P -0.00440 1.00000 0.02202 0.54776 0.88560 0.01741
0.9791 0.0 0.8956 0.0004 0.0001 0.9174
M -0.05312 0.02202 1.00000 -0.59782 -0.00619 0.93763
0.7515 0.8956 0.0 0.0001 0.9706 0.0001
FR 0.26481 0.54776 -0.59782 1.00000 0.60947 -0.49251
0.1081 0.0004 0.0001 0.0 0.0001 0.0017
TP 0.44160 0.88560 -0.00619 0.60947 1.00000 0.13272
0.0055 0.0001 0.9706 0.0001 0.0 0.4270
TM 0.26654 0.01741 0.93763 -0.49251 0.13272 1.00000
0.1058 0.9174 0.0001 0.0017 0.4270 0.0
PM -0.04756 0.57694 0.79671 -0.16236 0.48795 0.74403
0.7767 0.0001 0.0001 0.3301 0.0019 0.0001
TT 0.99868 -0.00434 -0.06135 0.26897 0.44121 0.25795
0.0001 0.9794 0.7144 0.1025 0.0056 0.1179
PP -0.00499 0.99536 0.03341 0.53520 0.88041 0.02822
0.9763 0.0001 0.8422 0.0005 0.0001 0.8665
MM -0.05905 0.02457 0.99081 -0.59157 -0.00653 0.92612
0.7247 0.8836 0.0001 0.0001 0.9690 0.0001
TPM 0.20697 0.55834 0.75865 -0.08512 0.59540 0.80525
0.2125 0.0003 0.0001 0.6114 0.0001 0.0001
8
En la salida 1 se obtienen los coeficientes de correlacin de orden cero, llamados tambin de
Pearson, en forma equivalente a la matriz de correlacin 7.6.4. De estos coeficientes, los de mayor
inters son aquellos que relacionan a las variables independientes con la variable de respuesta, los
cuales se resaltan en la salida 8.3. De estos se observa, en funcin de la hiptesis nula que se prueba
(Ho:Rho=0), que las variables que pueden estar correlacionadas con la Friabilidad son: P, M, TP,
TM, PP y MM; debido a que todas ellas tienen un nivel de significancia menor al 0.05 %, por lo que
caen en la zona de rechazo con un nivel de significancia del 5%. As, la variable que mayor
correlacin tiene con la friabilidad es la interaccin TP, debido a que tiene el coeficiente de
correlacin ms cercano a 1 (0.60947) cuya probabilidad de que sea diferente de cero es alta. Los
factores que le siguen importancia de correlacin de orden cero con la friabilidad son: M, MM, P,
PP y TM. . Sin embargo, esto no significa que todas las variables mencionadas sean
estadsticamente importantes en la prediccin de la friabilidad, por lo que se requiere evaluar
correlaciones de mayor orden para determinar cuales variables realmente influyen sobre la respuesta
y en que magnitud, lo cual se obtiene a travs de los diferentes procedimientos del anlisis de
regresin mltiple y pruebas de F total y parcial.
De acuerdo al procedimiento del programa 8.1. se comienza con el anlisis de regr esin
mltiple, obtenindose un modelo a travs del procedimiento de eliminacin Backward.. Para este
procedimiento se obtiene la salida 2. donde se pueden observar el nmero de pasos necesarios para
llegar al modelo que involucra slo a las variables que ayudan a predecir la friabilidad.
Comienza ajustando un modelo con todas las variables, proporcionando un cuadro de
Anlisis de Varianza. donde se resume la prueba de hiptesis acerca del modelo completo, es decir,
se evalan las 10 variables independientes al mismo tiempo, y se observa que el modelo es
estadsticamente significativo debido a que el valor Prob>F es de 0.0001, adems de tener un
coeficiente de determinacin diferente de cero (0.7645)
Posteriormente proporciona informacin acerca de las pruebas de hiptesis de Fs parciales
(con la suma de cuadrados tipo II) donde se observa que el valor de F parcial ms bajo lo tiene la
variable TT, cuyo efecto no es significativamente importante, por lo que en el siguiente paso es
eliminada, lo cual se observa en la etapa 1 del proceso de eliminacin de la salida 8.2, donde se
obtiene un modelo con 9 variables independientes y aun es estadsticamente significativo, debido a
que el valor de Prob>F es de 0.0001, de hecho, los parmetros del ANOVA son muy parecidos a los
9
que se obtienen en el modelo con todas las variables independientes, sin embargo an se tienen
trminos en el modelo cuyo efecto no influye sobre la variable de respuesta que se est evaluando,
por lo que el proceso de eliminacin contina hasta obtener un modelo en que todas las variables
independientes tengan un efecto significativo sobre la respuesta, lo cual se consigue hasta la etapa 7,
donde slo quedan tres variables en el modelo. Al final de la salida 8.2 se resumen los pasos para
llegar al modelo de regresin mltiple, donde se describen los valores de los coeficientes de
correlacin parciales, los cuales proporcionan el mejoramiento en la prediccin de la respuesta por
incluir al modelo la variable que se est eliminando, as se observa que las variables que se
eliminaron no ayudan a predecir la respuesta en forma significativa.
10
Salida 2. Modelo de regresin mltiple por procedimiento de eliminacin.
The SAS System
Backward Elimination Procedure for Dependent Variable FR
Step 0 All Variables Entered R-square = 0.76452509 (p) =11.00000000
DF Sum of Squares Mean Square F Prob>F
Regression 10 6362.96849157 636.29684916 8.77 0.0001
Error 27 1959.80414001 72.58533852
Total 37 8322.77263158
Parameter Standard Type II
Variable Estimate Error Sum of Squares F Prob>F
INTERCEP -147.29114119 127.36956724 97.06682275 1.34 0.2576
T 3.08468134 4.40212245 35.64062258 0.49 0.4895
P 122.07272736 67.72711932 235.80933543 3.25 0.0827
M 0.44075570 0.28345765 175.49648869 2.42 0.1316
TP -1.82171206 1.09374435 201.36163347 2.77 0.1074
TM -0.01024674 0.00515318 286.99243775 3.95 0.0570
PM -0.33175573 0.17120127 272.56607387 3.76 0.0632
TT 0.00264552 0.04076029 0.30577182 0.00 0.9487
PP -2.96610042 12.63133800 4.00241295 0.06 0.8161
MM 0.00001630 0.00014498 0.91795375 0.01 0.9113
TPM 0.00651017 0.00330405 281.79923076 3.88 0.0591
Bounds on condition number: 852.2396, 48381.22
--------------------------------------------------------------------------
Step 1 Variable TT Removed R-square = 0.76448835 C(p) = 9.00421258
Regression 9 6362.66271975 706.96252442 10.10 0.0001
Error 28 1960.10991183 70.00392542
Total 37 8322.77263158
INTERCEP -153.12103100 88.68410994 208.68943314 2.98 0.0953
T 3.34863288 1.65500385 286.58895683 4.09 0.0527
P 121.27011174 65.39380947 240.74466610 3.44 0.0742
M 0.43791454 0.27503214 177.47378641 2.54 0.1226
TP -1.81606002 1.07070951 201.39072703 2.88 0.1010
TM -0.01022719 0.00505206 286.87865663 4.10 0.0526
PM -0.33096684 0.16770517 272.64559374 3.89 0.0584
PP -2.79290811 12.12473610 3.71442075 0.05 0.8195
MM 0.00001904 0.00013621 1.36844839 0.02 0.8898
TPM 0.00649481 0.00323643 281.91785975 4.03 0.0545
--------------------------------------------------------------------------
11
Step 2 Variable MM Removed R-square = 0.76432393 C(p) = 7.02306554
Regression 8 6361.29427136 795.16178392 11.76 0.0001
Error 29 1961.47836022 67.63718484
Total 37 8322.77263158
INTERCEP -153.68081296 87.08319254 210.64741663 3.11 0.0881
T 3.34711233 1.62675143 286.34111216 4.23 0.0487
P 119.90071390 63.55380447 240.73872393 3.56 0.0693
M 0.44980147 0.25710195 207.02200689 3.06 0.0908
TP -1.81398794 1.05235342 200.96992888 2.97 0.0954
TM -0.01023238 0.00496579 287.18550491 4.25 0.0484
PM -0.33078039 0.16484063 272.35571039 4.03 0.0542
PP -2.36513648 11.53232892 2.84487963 0.04 0.8389
TPM 0.00649173 0.00318118 281.66391392 4.16 0.0505
--------------------------------------------------------------------------
Step 3 Variable PP Removed R-square = 0.76398211 C(p) = 5.06225913
Regression 7 6358.44939173 908.34991310 13.87 0.0001
Error 30 1964.32323985 65.47744133
Total 37 8322.77263158
INTERCEP -149.45452516 83.24802337 211.03863894 3.22 0.0827
T 3.35729216 1.59982331 288.35396629 4.40 0.0444
P 113.29984760 53.91917407 289.11051635 4.42 0.0441
M 0.45293861 0.25251574 210.66553171 3.22 0.0829
TP -1.82023947 1.03498115 202.52744101 3.09 0.0888
TM -0.01029317 0.00487715 291.64695356 4.45 0.0433
PM -0.33296130 0.16184966 277.11220791 4.23 0.0484
TPM 0.00653048 0.00312445 286.04555555 4.37 0.0452
--------------------------------------------------------------------------
12
Step 4 Variable TP Removed R-square = 0.73964798 C(p) = 5.85245678
Regression 6 6155.92195072 1025.98699179 14.68 0.0001
Error 31 2166.85068086 69.89840906
Total 37 8322.77263158
INTERCEP -10.56187896 27.20632497 10.53440233 0.15 0.7005
T 0.65650365 0.46343653 140.26878928 2.01 0.1666
P 19.65166844 8.76270620 351.55205942 5.03 0.0322
M 0.06936765 0.13149743 19.45121181 0.28 0.6016
TM -0.00282097 0.00247441 90.84898392 1.30 0.2630
PM -0.07549793 0.07131752 78.33303854 1.12 0.2980
TPM 0.00151636 0.00132070 92.14322703 1.32 0.2597
--------------------------------------------------------------------------
Step 5 Variable M Removed R-square = 0.73731087 C(p) =
4.12043392
Regression 5 6136.47073891 1227.29414778 17.96 0.0001
Error 32 2186.30189267 68.32193415
Total 37 8322.77263158
INTERCEP -2.07560885 21.69176957 0.62554883 0.01 0.9244
T 0.52578770 0.38718595 125.99166397 1.84 0.1840
P 18.54384053 8.41085153 332.10819046 4.86 0.0348
TM -0.00157583 0.00073412 314.80894672 4.61 0.0395
PM -0.04447763 0.03989439 84.92190931 1.24 0.2732
TPM 0.00097849 0.00082990 94.97821007 1.39 0.2471
--------------------------------------------------------------------------
Step 6 Variable PM Removed R-square = 0.72710731 C(p) = 3.29039346
Regression 4 6051.54882960 1512.88720740 21.98 0.0001
Error 33 2271.22380198 68.82496370
Total 37 8322.77263158
INTERCEP -18.92754119 15.61535950 101.11845295 1.47 0.2341
T 0.89846940 0.19609174 1444.88724755 20.99 0.0001
P 16.76532908 8.28853047 281.58860694 4.09 0.0513
TM -0.00170896 0.00072700 380.31109133 5.53 0.0249
TPM 0.00021395 0.00046912 14.31514984 0.21 0.6513
13
--------------------------------------------------------------------------
Step 7 Variable TPM Removed R-square = 0.72538731 C(p) = 1.48761166
Regression 3 6037.23367976 2012.41122659 29.94 0.0001
Error 34 2285.53895182 67.22173388
Total 37 8322.77263158
INTERCEP -24.00488304 10.82142769 330.78040528 4.92 0.0333
T 0.89738860 0.19378022 1441.62370471 21.45 0.0001
P 20.23600365 3.24580205 2612.85402364 38.87 0.0001
TM -0.00139191 0.00021027 2945.72046114 43.82 0.0001
--------------------------------------------------------------------------
All variables left in the model are significant at the 0.0500 level.
Summary of Backward Elimination Procedure for Dependent Variable FR
Variable Number Partial Model
Step Removed In R**2 R**2 C(p) F Prob>F
1 TT 9 0.0000 0.7645 9.0042 0.0042 0.9487
2 MM 8 0.0002 0.7643 7.0231 0.0195 0.8898
3 PP 7 0.0003 0.7640 5.0623 0.0421 0.8389
4 TP 6 0.0243 0.7396 5.8525 3.0931 0.0888
5 M 5 0.0023 0.7373 4.1204 0.2783 0.6016
6 PM 4 0.0102 0.7271 3.2904 1.2430 0.2732
7 TPM 3 0.0017 0.7254 1.4876 0.2080 0.6513
A continuacin se presenta la salida 8.3. donde se obtiene un modelo de regresin mltiple a
travs del procedimiento FORWARD, el cual comienza por introducir al modelo la variable que
tiene mayor correlacin con la respuesta, lo cual se obtiene con la matriz de correlaciones de orden
cero, en este caso es la variable TP, as esta variable es la primera que aparece en el modelo
proporcionando un valor de coeficiente de determinacin no muy grande, sin embargo la prueba de
hiptesis de F parcial no se rechaza, por lo que es necesario probar las hiptesis de las variables
restantes en orden de importancia, y de esta forma continuar hasta que la hiptesis nula que se
prueba no sea rechazada, en ese momento se detiene la introduccin de mas variables al modelo
concluyendo que todas las variables que estn en el modelo son estadsticamente significativas para
predecir la respuesta. As se observa que el modelo que se encuentra slo contiene dos variables
14
independientes, las cuales son TP y M, quedando el modelo con un coeficiente de determinacin de
0.7244. Al final de la salida 3 se obtienen los coeficientes de correlacin parciales y sus respectivas
pruebas de hiptesis, los cuales se observa que son significativos en la prediccin de la friabilidad.
Salida 3 . Modelo de regresin mltiple por el procedimiento Forward.
The SAS System
Forward Selection Procedure for Dependent Variable FR
Step 1 Variable TP Entered R-square = 0.37145428 C(p) = 38.07024426
Regression 1 3091.52955457 3091.52955457 21.28 0.0001
Error 36 5231.24307701 145.31230769
Total 37 8322.77263158
INTERCEP 1.14137108 6.56381653 4.39383012 0.03 0.8629
TP 0.38143906 0.08269698 3091.52955457 21.28 0.0001
Bounds on condition number: 1, 1
--------------------------------------------------------------------------
Step 2 Variable M Entered R-square = 0.72436498 C(p) = -0.39516588
Regression 2 6028.72504814 3014.36252407 45.99 0.0001
Error 35 2294.04758344 65.54421667
Total 37 8322.77263158
INTERCEP 23.30177864 5.51288240 1170.99506913 17.87 0.0002
M -0.07151178 0.01068263 2937.19549357 44.81 0.0001
TP 0.37913861 0.05554103 3054.23526521 46.60 0.0001
--------------------------------------------------------------------------
No other variable met the 0.0500 significance level for entry into the
model.
The SAS System
Summary of Forward Selection Procedure for Dependent Variable FR
Step Entered In R**2 R**2 C(p) F Prob>F
1 TP 1 0.3715 0.3715 38.0702 21.2751 0.0001
2 M 2 0.3529 0.7244 -0.3952 44.8124 0.0001
15
Por ltimo se presenta la salida 4. donde se obtiene el modelo de regresin lineal mltiple a
travs del procedimiento STEPWISE, y se observa que en este caso se obtiene el mismo modelo que
con el procedimiento Forward, por lo que tambin se realizaron los mismo pasos. Cabe mencionar
que no siempre se obtiene el mismo modelo a travs de los dos procedimientos.
Salida 4 . Modelo de regresin mltiple por procedimiento Stepwise.
The SAS System
Stepwise Procedure for Dependent Variable FR
Regression 1 3091.52955457 3091.52955457 21.28 0.0001
Error 36 5231.24307701 145.31230769
Total 37 8322.77263158
INTERCEP 1.14137108 6.56381653 4.39383012 0.03 0.8629
TP 0.38143906 0.08269698 3091.52955457 21.28 0.0001
--------------------------------------------------------------------------
Regression 2 6028.72504814 3014.36252407 45.99 0.0001
Error 35 2294.04758344 65.54421667
Total 37 8322.77263158
INTERCEP 23.30177864 5.51288240 1170.99506913 17.87 0.0002
M -0.07151178 0.01068263 2937.19549357 44.81 0.0001
TP 0.37913861 0.05554103 3054.23526521 46.60 0.0001
--------------------------------------------------------------------------
model.
The SAS System
Summary of Stepwise Procedure for Dependent Variable FR
Step Entered Removed In R**2 R**2 C(p) F
Prob>F
1 TP 1 0.3715 0.3715 38.0702 21.2751 0.0001
2 M 2 0.3529 0.7244 -0.3952 44.8124 0.0001
1
EJERCICIOS GENERALES
1.- De acuerdo a la Food and Drug Administration (FDA), en los Estados Unidos cada ao
aproximadamente 1000 nios menores de 5 aos son hospitalizados de emergencia por
envenenamiento accidental al utilizar drogas antidepresivas (U.S. News and World Report,
March 30, 1981). La probabilidad de que un nio con este tipo de envenenamiento sea
hospitalizado es de 0.5 y la probabilidad de que la dosis sea fatal es de 0.01. Suponiendo
que la probabilidad de que un nio hospitalizado por este motivo muera es de 0.008:
encontrar la probabilidad aproximada de que un nio con envenenamiento muera dado que
es hospitalizado de emergencia.
2.- Un qumico desea observar el efecto de la temperatura, presin y de la cantidad de
catalizador en el rendimiento de una reaccin qumica. Si el experimentador quiere probar
dos niveles de temperatura, tres de presin y dos de catalizador, cuntos experimentos
deben realizarse para correr cada combinacin temperatura-presin-catalizador
exactamente una vez?.
3.- Con el fin de comparar las dietas para reducir peso A y B, se seleccionaron
aleatoriamente dos grupos de personas. Uno de los cuales se someti a la dieta A y otro a la
B, registrando el peso perdido en 30 das. Resultados que se presentan en el siguiente
cuadro.
Dieta A Dieta B
y = 7.1 y = 4.8
S = 2.6 S = 1.9
Encontrar un intervalo del 95% de confianza para la diferencia en peso medio perdido para
las dos dietas e interpretar.
4.- La Comisin Federal de Comercio (CFC) de los Estados Unidos muestrea y examina
una cierta marca de cigarros para determinar hasta donde su contenido de nicotina y
alquitrn cumple con las caractersticas especificadas por el fabricante. Encontrando que el
contenido de nicotina y alquitrn fue de 5 y 0.4 mg por cigarro. En el reporte no se indica
cuantos cigarros fueron analizados para obtener estos resultados ni se da una medida de la
variacin de cigarro a cigarro. Suponiendo que la desviacin estndar del contenido de
alquitrn es aproximadamente igual a 1 mg por cigarro. Si la CFC desea establecer el
contenido medio de alquitrn por cigarro con una precisin de 0.1 mg, cuntos cigarros
debe analizar la CFC? (Suponga que la CFC desea que la estimacin del error sea menor a
0.1 con una probabilidad de 0.99).
5.- Para probar que cuatro analistas de un laboratorio no estn mostrando un buen
desempeo, se tomo una muestra conocida y se le dieron tres replicas a cada analista para
que la analizara, obteniendo los siguientes resultados.
Ejercicios generales
a) Establezca el juego de hiptesis para probar la hiptesis
b) Realice el anlisis estadstico que le permita determinar cul(es) de los analistas
difiere(n) del o de los dems.
6.- Un laboratorio establece que la potencia media de uno de sus antibiticos es del 80%.
Para probar esta afirmacin se examina una muestra aleatoria de 100 cpsulas, obteniendo
una media de 79.7 y una desviacin de estndar de 0.8 por ciento. Muestran los datos
suficiente evidencia para rechazar la afirmacin del laboratorio?. Considere un nivel de
significancia de 0.05, y.
a) Establezca el juego de hiptesis para probar (Ho y Ha).
b) Realice la prueba de hiptesis y analice sus conclusiones.
7.- Se realiz un experimento para comparar el tiempo medio (en das) requerido para que
una persona se recupere de un resfriado comn, comparando individuos a los cuales se les
suministr vitamina C contra individuos a los que no se les dio ningn suplemento
vitamnico, obteniendo los siguientes resultados.
Sin vitamina Con vitamina
Tamao muestral 35 35
Media muestra 6.9 5.8
Desviacin estndar muestral 2.9 1.2
a) Examine los datos y utilice su intuicin para decidir hasta donde los datos proporcionan
suficiente evidencia para indicar que la vitamina C reduce el tiempo medio para recuperarse
de un resfriado comn, (no utilice herramientas estadsticas).
b) Si el objetivo es comprobar que el uso de vitamina C reduce el tiempo medio requerido
para recobrarse de un resfriado comn y sus complicaciones. Dar el juego de hiptesis para
realizar esta prueba.
c) Realice el anlisis estadstico de las hiptesis planteadas en b) y establezca sus
conclusiones utilizando = 0.05.
d) Compare las respuestas dadas en a) y c).
8.- El U.S News and World Report (Septiembre 1, 1980) establece que un nuevo
medicamento extrado de un hongo, ciclosporina A, incrementa el porcentaje de xito en las
operaciones de transplantes de rganos. De acuerdo al articulo, 22 pacientes que recibieron
transplante de rin fueron tratados con el nuevo medicamento. Los resultados de las
operaciones muestran un 86 por ciento de xito en comparacin con el 60 por ciento de
xito que se ha obtenido en el pasado con el tratamiento convencional.
1 2 3 4
10 9 8 9
11 10 9 9
10 11 8 8
3
a) Para este experimento, el investigador desea mostrar que el porcentaje de xito utilizando
ciclosporina A supera el 60 porciento de xito. Establecer el juego de hiptesis que
permitan comprobar esta aseveracin.
b) Es el tamao de muestra, n = 22, lo suficientemente grande para considerar que la
distribucin muestral del nmero y de operaciones exitosas est normalmente distribuida?.
Explique su respuesta.
c) El uso de la ciclosporina A incrementa el xito de los transplantes?. Realice la prueba
de hiptesis y establezca sus conclusiones, utilizando = 0.1
9.- Para tratar adecuadamente a un paciente, los medicamentos prescritos por los mdicos
deben tener una potencia adecuadamente definida. Consecuentemente, los valores de
potencia en un medicamento envasado deben poseer, adems de un valor medio que se
especifica en el envase, una variacin mnima de la potencia De otra manera, en las
farmacias se pueden estar distribuyendo medicamentos con potencia peligrosamente alta o
con potencia tan baja que los vuelvan poco efectivos. Un productor dice que su
medicamento tiene una potencia de 5 0.1 miligramos por centmetro cbico. Una muestra
aleatoria de cuatro contenedores dieron lecturas de potencia: 4.94, 5.09, 5.03 y 4.90 mg/cc.
a) Dan los datos suficiente evidencia para indicar que la potencia media difiere de 5
mg/cc?.
b) Presentan los datos evidencia suficiente para indicar que la variacin de la potencia
difiere de los limites de error especificados por el fabricante?. (Lo que se busca es
establecer que el valor de la potencia est en el intervalo 5 0.1 con una muy alta
probabilidad).
10.- Se inici un estudio para investigar el efecto de dos medicamentos, administrados
simultneamente, para reducir la presin humana. Se decidi utilizar tres niveles de cada
medicamento e incluir todas las nueve combinaciones en el experimento. Se seleccionaron
nueve paciente con la presin alta y se asigno cada uno a las nueve combinaciones del
medicamento. La respuesta observada fue la baja de presin en un determinado intervalo de
tiempo.
a) Es este un diseo de bloques al azar?, si o no y por qu.
b) Suponga que dos pacientes fueron asignados a cada una de las nueve combinaciones de
medicamento. Qu tipo de experimento es este?.
11.- Un fabricante supone que existe diferencia en el contenido de calcio en lotes de
materia prima que le son suministrados por su proveedor. Actualmente hay una gran
cantidad de lotes en la bodega. Cinco de estos son elegidos aleatoriamente. Un qumico
realiza cinco pruebas sobre cada lote y obtiene los siguientes datos:
a) Cul debe ser el tamao de muestra si se
desea detectar una diferencia mxima en el
contenido medio de calcio de 0.5% con una
probabilidad de 0.90 como mnimo?. Explique
cmo obtendra una estimacin preliminar de
2
para responder esta pregunta.
b) Si la diferencia entre los lotes es lo suficientemente grande como para producir un
incremento en la desviacin estndar de un 25% en cualquier observacin, cul debe ser el
tamao de muestra para detectar este aumento con una probabilidad mnima de 0.90?.
12.- Dados los siguientes datos del ajuste de un modelo lineal
el cual se corri en un software de anlisis estadstico, obteniendo los siguientes
resultados
Variable dependiente Y
Fuente g.l Suma de
Cuadrados
Cuadrados
Medios
Valor de F Pr > F r
2
C.V.
Modelo 5 4.788488 0.949697 159.23 0.0001 0.988822 16.5655
Error 9 0.053678 0.005964 DESV.
ST.
Y
MEDIA
Corregido total 14 4.802166 0.077228 0.466200
Fuente g.l. S.C. Tipo
I
Valor de
F
Pr > F g.l. S.C. Tipo
IV
Valor de
F
Pr > F
x
1
1 0.08032 13.47 0.0052 1 0.00448 0.75 0.4083
x
2
1 3.21553 539.14 0.0001 1 0.13905 23.32 0.0009
x
1
*x
2
1 0.96272 161.42 0.0001 1 0.48988 82.14 0.0001
x
1
*x
1
1 0.22455 37.65 0.0002 1 0.16181 27.13 0.0006
x
2
*x
2
1 0.26535 44.49 0.0001 1 0.26535 44.49 0.0001
Parmetro Estimacin T para Ho
parmetro = 0
Pr > |T| Error estndar de la
estimacin
intercepto 0.438068 2.71 0.0239 0.161478
x
1
0.005264 0.87 0.4083 0.006070
x
2
-0.030172 -4.83 0.0009 0.006248
x
1
*x
2
0.000687 9.06 0.0001 0.000075
x
1
*x
1
-0.000795 -5.21 0.0006 0.000072
x
2
*x
2
0.000407 6.67 0.0001 0.000061
lote 1 lote 2 lote 3 lote 4 lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.39 23.38
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x
1
2.0 9.3 5.6 3.7 12.4 18.1 13.5 26.6 34.2 38.8 56.1 60.3 4.4 2.6 20.9
x
2
45 80 23 25 67 30 55 21 79 40 22 37 50 66 42
y 0.001 1.140 0.030 0.001 0.780 0.300 0.600 0.200 2.240 0.440 0.001 0.320 0.160 0.29 0.490
5
a) Interpretar el valor de r
2
b) Proporcionan los datos evidencia suficiente para indicar que el modelo lineal contribuye
de manera significativa a la prediccin de y?.
c) Encuentre la mejor ecuacin de prediccin y explique el porqu del modelo propuesto.
13.- El rendimiento de un proceso qumico fue medido usando cinco lotes de materia
prima, cinco concentraciones de cido, cinco tiempos de reposo (A,B,C,D y E) y cinco
concentraciones del catalizador (, , , , ). Si lo nico que se desea analizar es la
diferencia entre lotes de materia prima, explique que tipo de diseo utilizara y cual seria la
diferencia con respecto a un diseo factorial (Sin realizar clculos).
Concentracin de cido
14.- Se monto un experimento para investigar los efectos de la concentracin de estearato y
del tiempo de mezclado sobre la dureza de una tableta. Los resultados de la tabla
representan la dureza promedio de muestras aleatorias de 10 tabletas de cada tratamiento.
La variabilidad natural de la dureza de las tabletas (termino de error en la prueba
estadstica) se estim con otra serie de replicas y fue de 0.3, con 36 grados de libertad.
Conc. Estearato
a) Pruebe la significancia de los efectos principales y de la interaccin.
b) Dibuje la grfica que muestre la interaccin de los factores.
15.- Se examin el efecto de cuatro variables sobre el rendimiento, y, de un proceso
qumico:
x
1
: Concentracin del catalizador
x
2
: Concentracin de NaOH
x
3
: Nivel de agitacin
x
4
: Temperatura
Lote 1 2 3 4 5
1
A = 26 B = 16 C = 19 D = 16 E = 13
2
B = 18 C = 21 D = 18 E = 11 A = 21
3
C = 20 D = 12 E = 16 A = 25 B = 13
4
D = 15 E = 15 A = 22 B = 14 C = 17
5
E = 10 A = 24 B = 17 C = 17 D = 14
Mezclado (min.) 0.5 % 1.0 %
15 9.6 7.5
30 7.4 7.0
Los experimentos fueron realizados en orden aleatorio, obteniendo los siguientes
resultados:
Realice los anlisis que considere necesarios para
interpretar estos resultados.
16.- Considere el siguiente diseo experimental
a) Identifique el diseo empleado.
b) Haga los anlisis que considere necesarios para
interpretar los resultados.
c) Si pudiera realizar slo cuatro experimentos
adicionales, cules sugerira y por qu?.
17.- Se encuentra en estudio el rendimiento de un proceso qumico. Se cree que las dos
variables ms importantes son la presin y la temperatura. Se seleccionan tres niveles de
cada factor y se realiza un experimento factorial con dos rplicas. Se recopilan los
siguientes datos:
1 2 3 4 y
- + - + 61
+ - - + 70
- - - - 46
- - + + 87
+ + + + 62
+ - + - 64
+ + - - 38
- + + - 38
+ - + + 84
+ + + - 41
- - + - 57
+ - - - 49
+ + - + 59
- + - - 36
- - - + 68
- + + + 62
x
1
x
2
x
3
x
4
y
+ - - - 105
- + - - 107
- - + - 102
- - - + 104
+ + + - 114
+ + - + 111
+ - + + 105
- + + + 107
7
Presin
a) Analice los datos y obtenga las conclusiones
b) Prepare las grficas apropiadas de residuales y
comente lo adecuado del modelo.
c) En qu condiciones debe operarse este
proceso?.
18.- Identifique un problema en su rea de inters en el cual se requiera obtener una
muestra aleatoria simple para estimar la media poblacional. Defina la poblacin objetivo,
las unidades de muestreo y explique detalladamente como se construye el marco de
muestreo.
19.- En base a los resultados de una serie de experimentos preliminares se construyeron las
siguientes superficies de respuesta para el rendimiento porcentual, y
1
, y el costo por Kg, y
2
,
del proceso de produccin de un cierto producto:
y
1
= 80 + 4 x
1
+ 8x
2
- 4x
1
2
- 12 x
2
2
- 12 x
1
x
2
y
2
= 80 + 4 x
1
+ 8x
2
- 2x
1
2
- 12 x
2
2
- 12 x
1
x
2
Qu valores de x
1
y x
2
deben emplearse para operar el proceso con rendimientos no
menores al 80% y costo unitario del producto no mayor a 78 centavos ?.
20.- Los siguientes datos proceden de un estudio cuyo objetivo fue el estudio para
optimizar las condiciones de reaccin en un mtodo enzimtico empleado para determinar
plasma amonia. Se utiliz un diseo compuesto central con = 1.0.
Donde X
1
= GLDH V/Ensayo
X
2
= HEPES (Molculas/litro)
X
3
= pH
Y = Sensibilidad a la reaccin
a) Codifique los datos y ajstelos a un modelo
cuadrtico.
b) Determine las pruebas parciales de F para los
factores X
1
, X
2
y X
3
. Es factible eliminar alguno de
estos factores del modelo?, si es as ajuste la ecuacin
reducida usando los factores significativos.
c) Encuentre el valor del punto estacionario X
0
, e
investigue si es mximo, mnimo o punto de inflexin.
Temperatura 200 215 230
Baja 90.4
90.2
90.7
90.6
90.2
90.4
Intermedia 90.1
90.3
90.5
90.6
89.9
90.1
Alta 90.5
90.7
90.8
90.9
90.4
90.1
x
1
x
2
x
3
y
110 0.04 7.25 146
197 0.04 7.25 182
110 0.06 7.25 140
197 0.06 7.25 177
110 0.04 7.65 178
197 0.04 7.65 169
110 0.06 7.65 179
197 0.06 7.65 168
110 0.05 7.45 180
197 0.05 7.45 177
153.5 0.04 7.45 181
153.5 0.06 7.45 181
153.5 0.05 7.25 167
153.5 0.05 7.65 179
153.5 0.05 7.45 167
ESTADSTICA INFERENCIAL
MOTIVACION A LA INFERENCIA
La estadstica se caracteriza por que a travs de una muestra se pueden
realizar inferencias de toda una poblacin en estudio. De manera que utilizando
modelos estadsticos se puede asignar un nivel de confiabilidad a las
conclusiones que se obtengan, proporcionando soporte para la toma de
decisiones.
Poblacin y muestra
En cualquier proceso de produccin es demasiado costoso, en recursos o en
tiempo, revisar uno a uno todos los elementos que conforman una poblacin, de
ah la necesidad de revisar unos cuantos, que sean representativos, y a partir
de ellos predecir el comportamiento de toda la poblacin.
Figura 1. Seleccionando una muestra con criterio estadstico
El primer viaje a la estadstica implica seleccionar una muestra de manera
aleatoria, es decir, sin privilegiar o descartar de antemano elemento alguno;
garantizando que todos tengan la misma posibilidad de ser elegidos. La mejor
forma de hacer esto es utilizando herramientas como tablas de nmeros
aleatorios, una urna, o algn proceso de nmeros pseudoaleatorios como los
que vienen integrados en la mayora de los paquetes estadsticos. Cualquiera
de estas opciones es mejor que cerrar los ojos y estirar la mano o establecer
criterios personales de seleccin de muestras.
Poblacin
Muestra
Estadstica
2
Uno de los ejemplos ms simples, pero nada estadstico, es lo que hacen
quienes cocinan ya que a travs de pequeas probadas saben si un guiso
est o no en su punto, esto previa homogeneizacin del contenido de la cazuela
y sin consumir todo su contenido.
Es conveniente aclarar que el tema de muestreo es una de las grandes ramas
de la estadstica, para la cual existen libros completos que analizan a detalles
cada una de las opciones, dependiendo del propsito del muestreo.
Figura 2. Inferencia, de la muestra a la poblacin.
El segundo viaje a la estadstica consiste en analizar la muestra mediante
alguna de las muchas tcnicas de la estadstica inferencial para tomar
decisiones con respecto a la poblacin, apoyndose en el conocimiento de
causa evidenciado a partir de los datos y asignndole un nivel de confiabilidad o
de incertidumbre a las conclusiones obtenidas.
Incertidumbre y distribuciones estadsticas
La estadstica es la disciplina que estudia los procesos estocsticos, es decir
aquellos que presentan variaciones, sin causa asignable (debidas al azar). Por
lo que se han desarrollado tcnicas que permiten detectar y diferenciar
variaciones por efecto de algn factor, de las debidas al azar, con el fin de
identificar su comportamiento y reducir estas ltimas a un nivel aceptable para
que no altere las caractersticas de calidad de los productos en
manufacturacin.
Con el apoyo de la teora de la probabilidad se ha demostrado que las variables
aleatorias tienen un comportamiento bien definido, que se puede representar
Poblacin
M
u
e
s
t
r
a
Estadstica
3
4
mediante funciones de probabilidad y funciones de densidad de probabilidad,
que dependiendo del tipo de unidades de medicin generan las distribuciones
estadsticas, base fundamental de las tcnicas inferenciales. Debido a su
importancia algunas de ellas se han tabulado, para facilitar su uso; entre las
ms conocidas, sin ser las nicas, se encuentran:
- Binomial
- Poisson
- Normal (Z)
- t-student
- F-Fisher
- Chi-cuadrada (
2
)
Estas distribuciones realmente corresponden a modelos matemticos, por
ejemplo la funcin de densidad de la distribucin normal tiene como expresin
matemtica la siguiente ecuacin.
Donde se puede ver que la distribucin queda totalmente representada por dos
parmetros: (la media) y (la desviacin estndar). Con las siguientes
propiedades.
- Toda el rea bajo la curva suma a 1.
- Los puntos de inflexin se localizan a ms menos 1 desviacin estndar.
- A se encuentra la mayor parte del rea bajo la curva (99.994%).
- Ya tabulada, esta distribucin corresponde a valores de Z, con valores
mximos de ms menos 4.
2
2
2
) (
2
1
) (

=
y
e y f
LI LS
4

Figura 3. Distribucin Normal, con intervalo de confianza para la media.
Cada conjunto de datos genera una distribucin con sus propios valores de ,
y f(y), adems es difcil que el valor estimado a partir de la media sea
exactamente , por lo que es comn establecer intervalos de confianza en los
que se espera que el verdadero valor se encuentre entre un lmite inferior (LI) y
uno superior (LS). Valores que al representarse en la distribucin, como rea
bajo la curva, indican una probabilidad.
Figura 4. Area bajo la curva delimitada por los lmites de confianza.
Los valores de Z asociados a LI y LS acotan o delimitan cierta proporcin del
rea, de ah la importancia de saber, por ejemplo, que -1.96 Z 1.96
delimita el 95% del rea bajo la curva de una distribucin normal y que el rea
que no est sombreada corresponde al complemento a 1 y expresado en
probabilidades se le conoce como nivel de significancia, , y a (1-) como nivel
de confianza. De la misma forma el valor de Z = 2.575 delimita el 99%, con un
complemento de 1% que dividido entre 2 corresponde al 0.5%(
0.01/2
=0.005), lo
interesante es que al asociar estos valores a los datos muestrales se pueden
establecer intervalos de confianza para estimar los valores poblacionales.
Antes de pasar a revisar algunos conceptos de estadstica inferencial,
repasemos algunos conceptos bsicos.
UNA RPIDA REVISIN DE ALGUNOS CONCEPTOS BSICOS
Estadstica: Se le puede considerar como el arte de tomar decisiones con
respecto a una poblacin o un proceso en base al anlisis de la informacin de
una muestra.
LI LS
5
La estadstica proporciona mtodos por los cuales un producto se puede
muestrear, examinar y evaluar; utilizando esta informacin para controlar y
mejorara el proceso de manufacturacin. Adems de ser el lenguaje mediante
el cual toda una organizacin puede hablar de calidad de un proceso. Por lo
que para dominar el lenguaje propio de la estadstica, se presentan a
continuacin los conceptos ms comunes.
Poblacin: Cualquier coleccin de unidades de inters en un estudio. Esta
coleccin debe estar bien definida, de tal forma que se puedan distinguir entre
sus miembros aquellos que los son y los que no lo son.
Muestra: Cualquier subconjunto de la poblacin en estudio.
Unidad de observacin: Un solo miembro de la poblacin en estudio.
Medicin cualitativa y cuantitativa: Una medida es un nmero o
denominacin que se puede asignar a la unidad de observacin. Si este
nmero expresa dimensiones o capacidades se le llama medicin cuantitativa.
Si la denominacin registra caractersticas, atributos o actitudes, se le nombra
medicin cualitativa.
Parmetro: Nmero que describe alguna propiedad de una poblacin. En
estadstica es comn representarlo por letras griegas.
Estadstica: Nmero que describe alguna propiedad de una muestra. Se
representa por letras latinas.
Obtener parmetros frecuentemente resulta imposible, imprctico o muy
costoso, por lo que una alternativa para obtener los parmetros de una
poblacin consiste en obtener las estadsticas de una muestra y a partir de ellas
estimar los parmetros poblacionales.
Muestra aleatoria: Se dice que una muestra es aleatoria cuando es
seleccionada de tal forma que todos los elementos de la poblacin tienen la
misma oportunidad de ser seleccionados.
El mecanismo de aleatorizacin debe dar a toda unidad, de una poblacin bien
definida, la misma oportunidad de ser seleccionada. Este mecanismo puede
ser: Lanzamiento de una moneda; una urna; generacin de nmeros aleatorios
por computadora o el uso de una tabla de nmeros aleatorios.
6
Muestra no aleatoria: Si la muestra se escoge por medio de un proceso
subjetivo o arbitrario, de modo que las probabilidades no puedan precisarse, a
esta muestra se le llama no aleatoria. En este tipo de procedimiento, los sesgos
pueden influir para evitar que ciertos elementos de la poblacin no sean
seleccionados.
Probabilidad: Se puede considerar como un grado racional de confianza o
como una medida de la posibilidad de ocurrencia de un evento.
Evento: Resultado de una medicin en una unidad de observacin.
Probabilidad = #de eventos presentes/# eventos posibles
Teora de la probabilidad: Se ocupa de establecer las reglas que gobiernan
los fenmenos de azar. La teora de la probabilidad proporciona herramientas
para evaluar de manera cuantitativa aspectos importantes de lo que puede
obtenerse al observar acontecimientos aleatorios.
Inferencia estadstica: Es el proceso por el cual se atribuyen a una poblacin
las caractersticas ms significativas que se observaron y midieron en la
muestra. Obviamente, dicho proceso no es infalible, pero en la mayora de los
casos se puede predecir u margen de error y asignar un nivel de confianza al
estudio.
Recoleccin de datos en un experimento: En un experimento, la recoleccin
de datos requiere de ciertos tratamientos impuestos sobre las unidades
muestreadas de una poblacin bajo condiciones bien definidas y controladas.
Se hacen mediciones sobre cada una de las unidades para evaluar los efectos
de los tratamientos.
Recoleccin de datos en una muestra: En un estudio muestra, los datos
deben ser recolectados por medio del diseo de una muestra al azar de una
poblacin bien definida. A diferencia de un experimento, un estudio muestra no
requiere que se aplique algn tratamiento a las unidades despus de
seleccionarlas.
ESTADSTICA DESCRIPTIVA
Tiene por intencin describir un conjunto de datos, en forma resumida. Se
utiliza para organizar y resumir grandes conjuntos de datos, ya sea en forma
tabular o forma grfica o en ambas.
7
Distribucin de Frecuencias e Histogramas
La distribucin de frecuencias es un arreglo sistemtico de los valores
agrupados en intervalos de clase. Arreglo que proporciona una visin general
de la variacin en el conjunto de datos, dando respuesta a cuestiones como:
- Hay alguna tendencia central? y si la hay en dnde se encuentra?
- Qu tan homogneos son los datos?. Ya que cuando el nmero de casos es
grande, las distribuciones de los datos de produccin generalmente son
unimodales. Una distribucin multimodal es una indicacin probable de que los
datos no son homogneos. Tal distribucin se presentara si parte de la
produccin se fabrica bajo unas condiciones y la otra parte en otras
condiciones.
- Cunta variacin existe en los datos?. Esta variacin se puede manejar en
un aspecto comparativo entre distribuciones dibujadas en la misma escala
horizontal.
- Es la distribucin simtrica a ambos lados del punto de tendencia central, o
est cargada haca un lado?. En caso de cargarse haca un lado se dice que la
distribucin es asimtrica.
- Qu tan concentrados estn los puntos haca el centro y a lo largo de los
extremos de la distribucin?.
A la representacin grfica de una distribucin de frecuencias se le conoce
como histograma y se construye marcando los intervalos de clase en el eje
horizontal, de acuerdo a la escala de la variable medida, y las frecuencias
correspondientes a cada intervalo en el eje vertical.
Si su construccin es correcta, el rea de cada rectngulo debe ser
proporcional a la probabilidad de que una medicin caiga dentro de un intervalo
de clase dado, siempre y cuando la medicin sea coleccionada aleatoriamente.
Medicin numrica de las caractersticas de una distribucin
Despus de visualizar un histograma es importante utilizar medidas numricas
de tendencia central y dispersin, lo cual proporciona, entre otras, las siguientes
ventajas:
8
1.- Cuatro o cinco cifras ocupan menos espacio que una tabla o diagrama, y en
muchos casos proporciona toda la informacin necesaria.
2.- Las mediciones numricas obligan al estadstico a agudizar sus ideas
respecto a una caracterstica, y en esta forma mejora su comprensin de la
misma.
3.- Las mediciones numricas permiten comparar rpidamente dos o ms
distribuciones.
4.- Apoyan la toma de decisiones o conclusiones acerca de un universo,
tomando como base una muestra del mismo.
Medidas de Tendencia Central
Las medidas de tendencia central pueden servir como resmenes numricos de
un conjunto de mediciones. Estas medidas definen el centro del conjunto o la
posicin de l. Las medidas ms comunes son: la media, la mediana y la moda.
Media Aritmtica. La media de un conjunto de datos representa el centro fsico
del conjunto. Y se calcula mediante la frmula
Y Y Y Y Y
Y
n
n
i
i
n
= + + + + =
=
1 2 3
1
.. .
.) 1,1,2,3,4,4 media=2.5 1 1 2 3 4 4
..) 1,3,4,7,8,9,9 1 2 3 4 5 6 7 8 9 9 media = 5.857
...) 1,2,3,4,20 1 2 3 4 5 6 7 8 9 10 11 12 13 ....... 20
Mediana (Md). Es el nmero que est a la mitad de un conjunto ordenado de
mediciones. Si hay un nmero impar de mediciones en el conjunto existe un
nmero y slo uno colocado a la mitad. Si el nmero de datos es par, la
mediana se calcula al obtener la media aritmtica de los dos nmeros de
enmedio.
.) 1,3,4,6,20 En este caso el valor 4 no se ve afectado por el valor extremo 20.
..) 2,3,4,6,10,11,11,17 Md = (6+10)/2 = 8
...) 1,7,10,11,11,12,20,32 Md =11
9
Moda (Mo). Es el nmero que se presenta con mayor frecuencia en un conjunto
de mediciones.
Medidas de variabilidad
Una medida de variabilidad es un slo nmero que representa la dispersin de
un conjunto de datos. Las ms comunes son el rango, la varianza y la
desviacin estndar.
Rango. Mide la extensin total de un conjunto de datos, y se calcula utilizando
slo el valor mximo y mnimo.
Rango = Valor mximo - Valor mnimo
La eficiencia del rango, como medida de dispersin, decrece rpidamente
conforme el tamao de muestra se incrementa.
Varianza. Es una medida de las distancias de cada una de las observaciones
con respecto a la media.
S
y y
n
i
i
n
2
2
1
1
=
=
( )
Puesto que las unidades de la varianza estn al cuadrado de las unidades
originales de los datos, generalmente se prefiere usar la raz cuadrada de S
2
,
llamada la desviacin estndar.
S
y y
n
i
i
n
=
=
( )
2
1
1
Coeficiente de Variacin. Es una medida adimensional de variabilidad de los
datos, se representa por la expresin:
C V
S
Y
. . =
10
Ejemplo:
muestra 1 muestra 2 muestra 3
y
1
1 1 101
y
2
3 5 103
y
3
5 9 105
__________ _________ _________
Media 3 5 103
S 2 4 2
En las muestras 1 y 3 se observa que la desviacin estndar refleja nicamente
la desviacin con respecto a la media y NO la magnitud de los datos.
PROBABILIDAD Y FUNCIN DE DISTRIBUCIN
variable aleatoria. Si se le asigna un valor real a cada uno de los posibles
resultados de un experimento, al conjunto de todos los valores asignados se le
llama variable aleatoria, la cual es diferente de una variable ordinaria en que
sus valores slo se pueden determinar probabilsticamente.
Funcin de Probabilidad y Funcin de distribucin acumulada.
Si hay una probabilidad asociada a cada posible valor de una variable aleatoria
discreta X. Al conjunto de todas las probabilidades se le denota por f(X) y se le
conoce como funcin de probabilidad.
Por ejemplo, al lanzar dos monedas balanceadas y pagar un peso por cada
guila que caiga se tienen los siguientes resultados:
X (pesos) 0 1 2
resultados (S,S) (S,A)(A,S) (A,A)
De aqu que
X 0 1 2
f(X) 0.25 0.50 0.25
La funcin de distribucin acumulada FDA de una variable aleatoria X se define
por
11
F(X)= P(X =< x) = P(X tome valores que incluyan a x)
Por ejemplo: la probabilidad de pagar hasta 1 peso en un lanzamiento de dos
monedas es
F(1) = P(X =< 1) = F(0) + F(1)= 0.25 + 0.5 = 0.75
Funcin de densidad de probabilidad
Si una variable aleatoria X es continua, se requiere de una funcin de densidad
de probabilidades, fdp, que asocie sus respectivas probabilidades. La cual debe
cumplir las siguientes condiciones
f(X) >= 0 para toda X ; adems
f X dx ( ) = 1 sobre el intervalo de X
La correspondiente funcin de distribucin acumulada de una variable continua
con fdp f(x) est dada por
F(X) = P(X =< x) = f t dt
x
( )
Ejemplo:
Una variable aleatoria X tiene una fdp f(x) = 0.5x, 0 =< X =< 2. La probabilidad
de X menor a 1.5 es
F(1.5) = 0 5
0
1 5
.
.
tdt = 0.25t
2
|
.
0
1 5
= 0.5625
0.8
0.5
0 0.5 1.0 1.5 2.0
De manera anloga, si F(2)= 1 y F(1)= 0.25. la probabilidad de que X tome
valores entre 1 y 1.5 est dada por:
12
P(1 < X < 1.5) = F(1.5) - F(1) = 0.5625 - 0.25 = 0.3125
0.8
0.5
0 0.5 1.0 1.5 2.0
Distribucin Normal
Definida por el modelo
f x e
x
x
x
( )
( )( )
=

1
2
1
2

Distribucin normal estndar

Z
X
i
i
x
=

de la cual ya se habl al principio de este captulo

TEOREMA DEL LMITE CENTRAL
Este teorema establece que la distribucin de las medias muestrales es normal
an cuando las muestras se toman de una distribucin no-normal.
Si x
1
,x
2
, ... , x
n
son resultados de una muestra de n observaciones
independientes de una variable aleatoria X con media
x
y desviacin
2
, la
media de las Xs se distribuir aproximadamente como una distribucin normal
con media
x
y varianza
n
x
X
2
2

=
La aproximacin es mucho mejor cuando n se hace grande. En general, la
poblacin de la cual se toman las muestras no necesita ser normal, para que la
13
distribucin de las medias muestrales sea normal. Esto constituye lo ms
notorio y poderoso de este teorema.
ESTIMACIN (INTERVALOS DE CONFIANZA)
La estimacin hace referencia al clculo de intervalos de confianza para los
parmetros de una distribucin, a partir de datos muestrales.
Por ejemplo, para la estimacin de la media se tiene:
P{LI LS} = 1 -
que puede leerse como: la probabilidad de que el verdadero valor de est en
el intervalo acotado por LI y LS es 1-, cuyo resultado numrico es LI LS.
De aqu podemos empezar a plantear las siguientes frmulas de clculo.
Parmetro Intervalo
1) 1) Con varianza conocida
o n > 30 (donde n es el
tamao de muestra).
n
Z y

n
Z y
n
Z y

2 2
+
2) 2) Con varianza descono-
cida o n 30.
n
S
t y
n 1 ,
2

n
S
t y
n
S
t y
n n 1 ,
2
1 ,
2

+

3) 3)
2 2
Varianza distribucin
normal.
2
1 ,
2
1
2
2
2
1 ,
2
2
) 1 ( ) 1 (

n n
S n S n

Cuadro 1. Intervalos de confianza para un parmetro.

El cuadro 1 muestra los intervalos para los parmetros de una distribucin
normal: la media y la varianza. En la frmula 1 se establece que la varianza es
conocida, esto se logra cuando se tiene un proceso o fenmeno bien estudiado
y se tiene una buena estimacin del valor de la varianza poblacional. Cuando el
tamao de muestra es mayor a 30 se asume que S
2
=
2
.
14
En la frmula 2 slo se conoce la varianza muestral, as que para trabajar con
ella hay que apoyarse en una distribucin conocida como t de student, la cual
tambin es simtrica y considera el manejo de n 1 grados de libertad.
La frmula 3 corresponde al intervalo para una varianza poblacional, a partir de
la varianza muestral, aqu se debe utilizar una distribucin conocida como Chi-
cuadrada, y que se requieren dos valores de Chi, uno para el lmite inferior y
otro para el lmite superior, ya que esta distribucin no es simtrica y no tiene
valores negativo, ya que al elevar al cuadrado un valor y luego sumarlo no hay
posibilidades de obtener valores negativos.
Cuadro 2. Intervalos de confianza para dos parmetros.
4) 4)
1 1
-
2 2
Con varianzas conocidas o n
1
> 30 y n
2
> 30.
2
2
2
1
2
1
2
2 1 2 1
2
2
2
1
2
1
2
2 1
) ( ) (
n n
Z y y
n n
Z y y

+ + +
5) 5)
1 1
-
2 2
Con varianzas desconocidas e iguales.
2
1
1
1
1
2 1
,
2
)
2 1
(
2 1
2
1
1
1
1
2 1
,
2
)
2 1
(
n n
p
S
n n
t y y
n n
p
S
n n
t y y +
+
+ +
+

con
2
2 1
2
2
) 1
2
(
2
1
) 1
1
(
2
+
+
=
n n
S n S n
p
S
Es importante recordar que se asume o supone
2
2
2
1
=
6) 6)
1 1
-
2 2
Con varianzas desconocidas y diferentes.
2
2
2
1
2
1
,
2
)
2 1
(
2 1
2
2
2
1
2
1
,
2
)
2 1
(
n
S
n
S
t y y
n
S
n
S
t y y + + +
con
= grados de libertad =
1 1
2
2
2
2
2
1
2
1
2
1
2
2
2
1
2
1
+
n
n
S
n
n
S
n
S
n
S
Se asume o supone
2
2
2
1

15
7) Razn o cociente de varianzas de dos poblaciones normales
1
1
, 1
2
,
2
2
2
2
1
2
2
2
1
1
1
, 1
2
,
2
1 2
2
2
1

n n
F
S
S
n n
F
S
S
Es importante notar los dos valores de F, aunque si se obtiene uno el otro es su

inverso, esto es:
v u
v u
F
F
, ,
, , 1
1
Cuadro 2. Intervalos de confianza para dos parmetros (continuacin).

Intervalos de confianza para los parmetros de una distribucin binomial
Estos parmetros generalmente corresponden a una fraccin de lote o proceso
que no cumple con algn requisito (no-conforme).
De manera que si se toma una muestra aleatoria de n observaciones y se
encuentran x no conformes, se puede obtener un estimador puntual insesgado
de p, con $ p
x
n
=
Se tienen varias formas de construir un intervalo de confianza para p. Si n es
grande y p 01 . , entonces se puede utilizar una aproximacin normal para
construir un intervalo de confianza, el cual queda como:
$
$ ( $)
$
$( $ )
p Z
p p
n
p p Z
p p
n

+

2 2
1 1
PRUEBAS DE HIPOTESIS
Una hiptesis estadstica es una aseveracin acerca de los parmetros de una
distribucin de probabilidad.
Los procedimientos estadsticos de prueba de hiptesis se pueden utilizar para
checar la conformidad de los parmetros del proceso a sus valores
especificados o para apoyar la modificacin del proceso y lograr que se
obtengan los valores deseados o especificados.
16
Para probar una hiptesis se toma una muestra aleatoria de la poblacin en
estudio, se calcula un estadstico de contraste adecuado, y se toma la decisin
de rechazar o no rechazar la hiptesis nula Ho.
Ho. Hiptesis nula
Ha. Hiptesis alternativa
Al realizar una prueba de hiptesis pueden cometerse dos tipos de errores
= P{error tipo I}
= P{rechazar Ho/Ho es verdadera}
= P{error tipo II}
= P{no rechazar Ho/Ho es falsa}
=0.025
=0.005
$
alfa gorra o el nivel de significancia estimado a partir de los datos, es un
resultado importante, ya que es como preguntarle a los datos si su error tipo I
es mayor o menor que el nivel preestablecido (0.05 o 0.01) y que con el uso del
software estadstico se ha vuelto fundamental para la interpretacin de
resultados. Reemplazando al uso de valores de tablas, para un nivel de
significancia dado.
No rechazo de Ho
No rechazo de Ho
17
PRUEBAS DE HIPOTESIS BASADAS EN LA DISTRIBUCION NORMAL
Prueba de medias con varianza conocida
Ho: =
0
|Z
c
| > Z
/2
Ha:
0
Zc =
n
Y
Ho:
0
Z
c
< -Z
Ha: <
0
Ho:
0
Z
c
> Z
Ha: >
0
Ho:
1
=
2
|Z
c
| > Z
/2
Ha: 1
2
Zc =
2
2
2
1
2
1
2 1
n n
Y Y

+
Ho:
1

2
Z
c
< -Z
Ha:
1
<
2
Ho:
1

2
Z
c
> Z
Ha:
1
>
2
Prueba de medias con varianza desconocida
Ho: =
0
|t
c
| > t
/2, n-1
Ha:
0
t
c
=
n
S
Y
0

Ho:
0
t
c
< -t
, n-1
Ha: <
0
18
Ho:
0
t
c
> t
, n-1
Ha: >
0
Ho:
1
=
2
|t
c
| > t
/2,
Ha: 1
2
t
c
=
2 1
2 1
1 1
n n
S
Y Y
p
+
Ho:
1

2
t
c
< -t
,
Ha:
1
<
2
Ho:
1

2
t
c
> t
,
Ha:
1
>
2
Esta prueba corresponde a la comparacin de dos medias, cuando las
varianzas son iguales, en cuyo caso.
Sp =
2
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
+
+
n n
S n S n
= grados de libertad = n
1
+ n
2
-1
Cuando las varianzas son diferentes se obtiene el estadstico t
c
de la siguiente
manera.
t
c
=
2
2
2
1
2
1
2 1
n
S
n
S
Y Y
+
y los grados de libertad con =

1 1
2
2
2
2
2
1
2
1
2
1
2
2
2
1
2
1
+
n
n
S
n
n
S
n
S
n
S
Esto ltimo quiere decir que para hacer una comparacin de medias con la t de
student se requiere previamente un anlisis de comparacin de varianzas.
Pruebas de varianza
Comparacin de una varianza contra un valor definido por el investigador
Ho:
2
=
2
0

2
c
>
2
/2, n-1
Ha:
2

2
0

2
c
<
2
1-/2, n-1
2
c
=
2
0
2
) 1 (
S n
19
Ho:
2

2
0

2
c
<
2
1-, n-1
Ha:
2
<
2
0
Ho:
2

2
0

2
c
>
2
, n-1
Ha:
2
>
2
0
Comparacin de un par de varianza
Ho:
2
1
=
2
2
F
c
> F
/2, n1-1, n2-1
Ha:
2
1

2
2
F
c
> F
1 /2, n1-1, n2-1
F
c
=
2
2
2
1
S
S
Ho:
2
1

2
2
F
c
> F
, n2-1, n1-1
Ha:
2
1
<
2
2
F
c
=
2
1
2
2
S
S
Ho:
2
1

2
2
F
c
> F
, n1-1, n2-1
Ha:
2
1
>
2
2
F
c
=
2
2
2
1
S
S
El siguiente paso es revisar algunos ejemplos que permitan visualizar la
aplicacin de estos conceptos.
20
EJERCICIOS
1. Se realizaron seis determinaciones del contenido de hidrgeno de un
compuesto cuya composicin terica es del 9.55%, Difiere el valor promedio
del terico?
%H 9.17, 9.09, 9.14, 9.10, 9.13, 9.27
Las hiptesis de trabajo son: Ho: = 9.55 Ha: 5 5 . 9
Resolviendo en MINITAB, mediante las opciones:
STAT BASIC STATISTICS 1 SAMPLE t y solicitando algunos grficos
Despus de teclear los valores en la columna C1.
One-Sample T: C1
Test of mu = 9.55 vs mu not = 9.55
Variable N Mean StDev SE Mean
C1 6 9.1500 0.0654 0.0267
Variable 95.0% CI T P
C1 ( 9.0813, 9.2187) -14.98 0.000
ANALISIS:
1. Se tiene una media muestral de 9.15, con una desviacin estndar muestral
de 0.0654.
21
2. El intervalo de confianza al 95% va de 9.0813 hasta 9.2187, lo que permite
ver que no contiene al valor de 9.55, y nos da evidencia de que el contenido
de hidrgeno est por abajo de valor terico.
3. Se comprueba esto con los valores de t = -14.98 que en colaboracin con el
de P, aportan evidencias estadstica que permite rechazar Ho y afirmar con
un 95% de confianza o con una significancia de 0.05 que el contenido de
hidrgeno es diferente al 9.55%.
Hay algunos grficos que nos permiten observar esto de manera visual.
t Dotplot of C1
t Boxplot of C1
22
El histograma es un grfico de los ms tradicionales y permite visualizar la
distribucin en relacin al intervalo de confianza.
El grfico de puntos permite ver que hay valores en la muestra que estn por
arriba del intervalo de confianza.
La grfica boxplot (de cajas y alambres) tiene la siguiente informacin: una caja
cuyos lmites corresponden al cuartil 1 (Q1) y el cuartil 3 (Q3), la marca interior
de la caja corresponde a la mediana y los extremos de los alambres
corresponden a los valores mnimo y mximo. En este grfico se puede ver que
la media y la mediana no coinciden y que los datos estn sesgados hacia
valores pequeos, con un valor muy grande que no alcanza a equilibrar la caja
del grfico.
2. Se analiz el contenido de silicio de una muestra de agua por dos mtodos,
uno de los cuales es una modificacin del otro, en un intento por mejorar la
precisin de la determinacin. De acuerdo a los siguientes datos.
Mtodo original Mtodo modificado
149 ppm 150 ppm
139 147
135 152
140 151
155 145
Es el mtodo modificado ms preciso que el regular?
Una medida de la precisin o dispersin est dada por la varianza, de manera
que se pide una comparacin de varianzas, con Ho:
2
2
2
1
vs Ha:
2
2
2
1
f .
Haciendo el anlisis en MINITAB, con C2 el mtodo original y C3 el modificado:
STAT BASIC STATISTICS 2 VARIANCES
Se obtienen los siguientes resultados
Level1 C2
Level2 C3
ConfLvl 95.0000
23
4.57574 8.17313 28.2753 5 C2
1.63223 2.91548 10.0862 5 C3
F-Test (normal distribution)
P-Value : 0.071
P-Value : 0.225
ANALISIS:
De acuerdo a las pruebas de hiptesis, no se tiene evidencia estadstica para
afirmar que las varianzas son diferentes, aunque puede verse que hay menos
variabilidad en el mtodo modificado, por el intervalo de confianza de las
sigmas, lo que podra interpretarse como ms precisin sin tener evidencia
estadstica que la soporte.
El apoyo grfico, se muestra a continuacin
Test for Equal Variances: C2 vs C3
Aqu se aprecia de manera grfica lo que se planteaba en el anlisis previo, al
tener a la vista los intervalos de confianza y los boxplot de las desviaciones
estndar.
24
3. Se analiza el contenido de agua en dos lotes de productos, por el mtodo
estndar de Karl Fischer. En base a los datos del siguiente cuadro, difieren los
lotes en su contenido de agua?
Contenido de agua
Lote A Lote B
0.50 0.53
0.53 0.56
0.47 0.51
0.53
0.50
Realizando el anlisis con MINITAB, STAT Basic Statistics 2 Sample t.
Two-Sample T-Test and CI: C5, C6
C5 3 0.5000 0.0300 0.017
C6 5 0.5260 0.0230 0.010
Difference = mu C5 - mu C6
Estimate for difference: -0.0260
95% CI for difference: (-0.0901, 0.0381)
T-Test of difference = 0 (vs not =): T-Value = -1.29 P-Value = 0.287 DF = 3
Dotplots of C5, C6
25
Boxplots of C5, C6
ANALISIS:
La hiptesis a trabajar (Ho:) es que la diferencia entre las medias es igual a
cero, en otras palabras, las medias son iguales vs la Ha: de que la diferencia no
es cero y por lo tanto las medias son diferentes.
Del intervalo para las diferencias se ve que este incluye al valor de cero lo que
da indicios de que las medias son iguales, de la misma forma P-value aporta
evidencia para no rechazar Ho. Otra evidencia de la igualdad de medias la
tenemos en la grfica de boxplot, donde para fines prcticos se puede
considerar que si las cajas se intersectan no hay evidencia estadstica de
diferencias entre las medias.
4. Se analiza un lote de productos para detectar concentraciones de hierro,
antes y despus de someterlos a un tratamiento para remover impurezas. De
acuerdo a los siguientes datos, hay evidencia de que el tratamiento es
adecuado?
Este problema plantea una Ho: d = 0, donde d es la diferencia de los valores
entre antes y despus del tratamiento, si la diferencia es cero entonces no hay
efecto del tratamiento.
26
Lote A
Lote A
Despus del tratamiento
6.1 5.9
5.8 5.7
7.0 6.1
6.1 5.8
5.8 5.9
6.4 5.6
6.1 5.6
6.0 5.9
5.9 5.7
5.8 5.6
Realizando el anlisis con MINITAB, Stat Basic statistics Paired t, se
obtienen los siguientes resultados.
Paired T for C1 - C2
C1 10 6.100 0.368 0.116
C2 10 5.780 0.169 0.053
Difference 10 0.320 0.319 0.101
95% CI for mean difference: (0.092, 0.548)
T-Test of mean difference = 0 (vs not = 0): T-Value = 3.17 P-Value = 0.011
27
ANALISIS
Se puede ver en el intervalo de confianza para la diferencia que est por arriba
de los valores de cero, corroborando con el valor de P-value que se puede
rechazar la Ho. Confirmndolo de manera visual con el grfico donde se ve que
la Ho queda por abajo de la caja y entonces se tiene evidencia para afirmar con
un 95% de confianza que si hay mejora en la eliminacin de impurezas.
5. Se analiza el contenido de agua en diez muestras de produccin,
comparando el mtodo estndar de Karl Fischer y una versin coulombimtrica
del mtodo KF, Hay evidencia de una diferencia real en los valores del
contenido de agua?
Coul KF 12.1 10.9 13.1 14.5 9.6 11.2 9.8 13.7 12.0 9.1
Regular KF 14.7 14.0 12.9 16.2 10.2 12.4 12.0 14.8 11.8 9.7
Se puede aprovechar el material revisado para analizar el concepto de tamao
de muestra
SELECCIONANDO EL TAMAO DE MUESTRA
Al comparar un par de medias, uno de los aspectos ms importantes consiste
en seleccionar el tamao apropiado de la muestra. Esta seleccin y la
probabilidad de error tipo II estn muy relacionadas. De manera que si al
probar las hiptesis
Ho:
1
=
2
Ha:
1

2
se encuentra que las medias son diferentes se tiene una =
1
-
2.
Entonces el
problema consiste en errneamente no rechazar Ho. Y la probabilidad del error
tipo II depende de la diferencia verdadera que hay entre las medias .
A la grfica de contra , en el caso particular de un tamao de muestra, se le
conoce como curva caracterstica de operacin o curva OC de la prueba. Es
importante hacer notar que el error est en funcin del tamao de la muestra,
de manera que a tamaos de muestra grandes es posible detectar s ms
pequeas.
28
En la siguiente figura se muestra un conjunto de curvas caractersticas de
operacin para el caso donde las dos varianzas poblacionales
1
2
y
2
2
son
desconocidas pero iguales,
1
2
2
2
= = , y para un nivel de significancia de =
0.05. Estas curvas son especficas para probar las hiptesis
Ho:
1
=
2
Ha:
1

2
y suponen que el tamao de muestra es igual para las dos poblaciones, es
decir que n
1
=n
2
=n. Donde el parmetro del eje horizontal de la figura est dado
por
d =

=

1 2
2 2
Ya que el tamao de muestra utilizado en la construccin de estas curvas es.
n* = 2n - 1.
29
En estas curvas se puede apreciar la siguiente informacin:
1) A mayor diferencia de las medias, menor es el valor de error tipo II, dado el
tamao de la muestras y el valor de .
2) A medida que el tamao de la muestra aumenta la probabilidad de error tipo
II disminuye, cuando el nivel de diferencia de las medias y el valor de estn
dados.
Ejemplo
Se realiz un experimento para comparar dos poblaciones, obteniendo los
Se desea detectar con alta probabilidad una diferencia mnima de 0.5 entre
ambas medias poblacionales, de manera que
d =

= =

1 2
2
05
2
025 . .
Desafortunadamente d contiene el parmetro desconocido . Sin embargo se
puede suponer, en base a la experiencia, que no es posible que la desviacin
estndar de cualquier observacin sea mayor al valor de 0.25, por lo que
d =
025
025
.
.
A partir de la curva caracterstica de operacin, con = 0.05 y d = 1 se obtiene
n*=16, aproximadamente. Y puesto que n* = 2n - 1, el tamao de muestra
requerido es
n
n
=
+
=
+
=
*
.
1
2
16 1
2
85 9
lo que indica que se deben utilizar muestras con tamaos n
1
= n
2
= 9 o mayores
Poblacin
1
Poblacin
2
Media 16.76 17.92
Varianza 0.100 0.061
Desviacin
Estndar
0.316 0.247
n 10 10
ANVA y DISEO DE EXPERIMENTOS
MOTIVACION AL ANALISIS DE VARIANZA
Suponga un experimento donde se quieren comparar 5 tratamientos, para ver si
su respuesta promedio es la misma para los 5 o si hay algunas diferentes.
De antemano el investigador asume que hay diferencia, si no que sentido tiene
el experimento. Tambin se sabe que en cada tratamiento debe haber un efecto
de variaciones debida a la causa que se est controlando (temperatura,
presin, etc.) y una variacin debida al azar, la cual es inevitable.
La variacin entre tratamientos se mide como una varianza de la media de cada
tratamiento con respecto a la gran media.
La variacin dentro de tratamientos se mide comparando cada observacin o
medicin con respecto a la media del respectivo tratamiento y en trminos del
anlisis de varianza se le conoce como cuadrado medio del error.
Ahora, si se tienen dos varianzas lo que se puede hacer es compararlas
mediante una prueba de F.
os tratamient dentro Varianza
os tratamient entre Varianza
F
_ _
_ _
=
Si no se puede establecer diferencia estadstica entre estas varianzas,
entonces no hay efecto de tratamiento y la variacin se debe al azar.
Media Media Media Media Media
Media
2
DESPUES DEL ANALISIS DE VARIANZA
Cul de todos los pares de medias son diferentes?
Para responder a esta pregunta se realizan pruebas de comparaciones
mltiples de medias, como la de Tukey.
TUKEY
Este mtodo se basa en utilizar el cuadrado medio del error, que se
obtiene de un ANVA. Para calcular un valor que se compara con las
diferencias de cada par de medias, si el resultado es mayor de se
asumen medias diferentes en caso contrario se consideran semejantes o
iguales.
La frmula de clculo es.
= q

(k, )
g
n
CME
donde:
= grados de libertad asociados al CME, con = n - k
n
g
= nmero de observaciones en cada uno de los k niveles
= nivel de significancia
q
(k,) = valor crtico de rangos estudentizados (tablas)

La bibliografa reporta una amplia gama de pruebas, siendo las ms comunes,
adems de la de Tukey, la de Fisher y la de Dunnet.
La prueba de Tukey y la de Fisher comparan todos los pares de medias,
aunque Tukey genera intervalos ms amplios que la de Fisher. Recomendando
Tukey en estudios iniciales y la de Fisher en estudios finales o concluyentes.
La prueba de Dunnet permite comparar las medias contra un valor de referencia
o control.
Despus de comparar las medias, se recomienda verificar el cumplimiento de
supuestos, para avalar la calidad de las conclusiones a las que se llega a travs
2
del anlisis realizado: Homocedasticidad, Normalidad y comportamiento de
residuales.
Homocedasticidad, varianzas homogneas o iguales entre todos los
tratamientos, aqu se recomienda una prueba de Barttlet
PRUEBA DE BARTTLET PARA HOMOGENEIDAD DE VARIANZAS
Esta prueba considera el siguiente juego de hiptesis.
Ho: Todas las varianzas son iguales
Ha: Al menos dos varianzas son diferentes
1) Calcular
S
S
k
2
2
=

log log( ) S S
2 2
=
M gl k S S = 2 3026
2 2
. ( )[ log log ]
C = 1 +
k
gl k
+1
3( )
2
=
M
C
gl = grados de libertad por varianza
= k -1
Regla de decisin: Si

2
calculada
>
,
, rechazar Ho.
Otra prueba consiste en verificar si los datos se comportan de acuerdo a una
distribucin normal, para lo cual existen pruebas numricas y grficas. Las
numricas bsicamente plantean una curva normal terica y mediante una
prueba de falta de ajuste someten a prueba la hiptesis nula de que los datos
3
se apegan a la distribucin (Mtodo de Kolmogorov-Smirnov, Anderson-
Darling). Otro mtodo es el grfico, el cual es ms utilizado por su impacto
visual y lo fcil que es interpretarlo.
GRFICOS DE PROBABILIDAD NORMAL
Estos grficos permiten juzgar hasta donde un conjunto de datos puede o no
ser caracterizado por una distribucin de probabilidad especfica, en este caso
la normal.
Grficos de probabilidad acumulada.
Observacin
(i)
X
i
Xi en orden
ascendente
p
i
(%) Z
i
q
i
1 9.63 9.34 2.5 -1.96 -1.99
2 9.86 9.51 7.5 -1.44 -1.49
3 10.20 9.63 12.5 -1.15 -1.13
4 10.48 9.69 17.5 -0.94 -0.95
5 9.82 9.75 22.5 -0.76 -0.77
6 10.07 9.82 27.5 -0.60 -0.56
7 10.39 9.86 32.5 -0.46 -0.44
8 10.03 9.89 37.5 -0.32 -0.35
9 9.34 9.96 42.5 -0.19 -0.14
10 10.26 9.98 47.5 -0.06 -0.08
11 9.89 10.03 52.5 0.06 0.07
12 10.67 10.07 57.5 0.19 0.19
13 9.69 10.13 62.5 0.32 0.37
14 10.15 10.15 67.5 0.46 0.43
15 10.32 10.20 72.5 0.66 0.58
16 9.98 10.26 77.5 0.76 0.76
17 9.51 10.32 82.5 0.94 0.94
18 10.13 10.39 87.5 1.15 1.15
19 9.96 10.48 92.5 1.44 1.42
20 9.75 10.67 97.5 1.96 1.98
p
i
n
i
=
100 0 5 ( . )
q
i
=
X i X
S x
Un grfico de los pares (X

i
, p
i
) se espera que tenga una forma de S para
asegurar una aproximacin normal, aunque es ms comn hacer este grfico
en papel normal para obtener una lnea recta.
4
Si todos los puntos de los datos aparecen aleatoriamente distribuidos a lo largo
de la lnea recta y si la lnea pasa sobre o cercanamente a la interseccin de la
media de X, el 50% de probabilidad, el ajuste de los datos a la distribucin
normal se considera adecuado.
Contrariamente, si los puntos aparecen con forma de S, la sugerencia es que
los datos no se distribuyen normalmente.
Con la ayuda de una tabla de probabilidad normal, las probabilidades
acumuladas, P
i
pueden convertirse en sus correspondientes valores normales
estandarizados z
i
.
P(Z Z
i
)= p
i
Si se conoce la media y la varianza la variable X
i
, los datos muestreados se
pueden estandarizar utilizando la transformacin:

q
i
X
i i
i
=

dado que la
x
y
x
generalmente no se conocen, se usa la ecuacin:

q
i
X X
S
i
x
=

A continuacin se puede hacer un grfico de los puntos (q
i
, z
i
) que sirve para
juzgar la normalidad de un conjunto de datos.
Si se traza una grfica con la misma escala para q
i
y

Z
i
, se espera que los
puntos se distribuyen aleatoriamente a lo largo de la lnea recta dibujada a 45
o
.
EJERCICIO
Observacin
(i)
Datos
(Xi)
Datos
ordenados
Probabilidad
acumulada
Zi
asociado
con p
i
Datos
estandarizados
q
i
1 172.6 158.2 1.1 -2.29 -1.87
2 171.8 158.6 3.4 -1.83 -1.80
3 158.2 159.2 5.7 -1.58 -1.70
4 175.8 160.2 8.0 -1.41 -1.52
5 176.8 160.2 10.2 -1.27 -1.52
6 158.6 161.4 12.5 -1.15 -1.32
7 167.0 162.0 14.8 -1.05 -1.21
8 172.4 162.2 17.0 -0.95 -1.18
9 161.4 162.4 19.3 -0.87 -1.14
10 171.8 163.4 21.6 -0.79 -0.97
11 167.2 165.0 23.9 -0.71 -0.69
12 159.2 165.8 26.1 -0.64 -0.56
5
13 179.0 166.2 28.4 -0.57 -0.49
14 174.6 166.2 30.7 -0.51 -0.49
15 162.2 166.6 33.0 -0.44 -0.42
16 167.2 167.0 35.2 -0.38 -0.35
17 177.6 167.2 37.5 -0.32 -0.31
18 168.0 167.2 39.8 -0.26 -0.31
19 160.2 167.6 42.0 -0.20 -0.25
20 165.0 167.6 44.3 -0.14 -0.25
21 175.8 168.0 46.6 -0.09 -0.18
22 167.6 168.4 48.9 -0.03 -0.11
23 160.2 169.8 51.1 0.03 0.13
24 163.4 170.0 53.4 0.09 0.17
25 175.4 170.6 55.7 0.14 0.27
26 170.6 171.4 58.0 0.20 0.41
27 166.2 171.8 60.2 0.26 0.48
28 170.0 171.8 62.5 0.32 0.48
29 166.2 171.8 64.8 0.38 0.48
30 171.4 172.4 67.0 0.44 0.58
31 176.6 172.4 69.3 0.51 0.58
32 167.6 172.6 71.6 0.57 0.62
33 172.4 174.2 73.9 0.64 0.89
34 169.8 174.6 76.1 0.71 1.96
35 168.4 174.8 78.4 0.79 1.00
36 174.2 175.4 80.7 0.87 1.10
37 162.0 175.6 83.0 0.95 1.14
38 175.6 175.6 85.2 1.05 1.14
39 175.6 175.8 87.5 1.15 1.17
40 165.8 175.8 89.8 1.27 1.17
41 162.4 176.6 92.0 1.41 1.31
42 166.6 176.8 94.3 1.58 1.34
43 171.8 177.6 96.6 1.83 1.48
44 174.8 179.0 98.9 2.29 1.72
n=44 x = 169 022 . s
x
= 5 790 .
EJEMPLOS
Analizando algunos ejemplos se tiene:
1. Un fabricante supone que existe diferencia en el contenido de calcio en lotes
de materia prima que le son suministrados por su proveedor. Actualmente hay
una gran cantidad de lotes en la bodega. Cinco de estos son elegidos
aleatoriamente. Un qumico realiza cinco pruebas sobre cada lote y obtiene los
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
6
23.40 23.50 23.49 23.39 23.38
Hay variacin significativa en el contenido de calcio de un lote a otro?
El juego de hiptesis a probar es:
Ho:
1
=
2
=
3
=
4
=
5
Ha: al menos un par de medias es diferente
Haciendo el anlisis en MINITAB, con STAT ANOVA ONEWAY
One-way ANOVA: C2 versus C1
Analysis of Variance for C2
Source DF SS MS F P
C1 4 0.09698 0.02424 5.54 0.004
Error 20 0.08760 0.00438
Total 24 0.18458
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev --------+---------+---------+--------
l1 5 23.4580 0.0687 (------*-------)
l2 5 23.4920 0.0630 (-------*------)
l3 5 23.5240 0.0688 (-------*------)
l4 5 23.3800 0.0652 (-------*------)
l5 5 23.3640 0.0650 (-------*------)
--------+---------+---------+--------
Pooled StDev = 0.0662 23.360 23.440 23.520
Tukey's pairwise comparisons
Family error rate = 0.0500
Individual error rate = 0.00722
Critical value = 4.23
Intervals for (column level mean) - (row level mean)
l1 l2 l3 l4
l2 -0.15920
0.09120
l3 -0.19120 -0.15720
7
0.05920 0.09320
l4 -0.04720 -0.01320 0.01880
0.20320 0.23720 0.26920
l5 -0.03120 0.00280 0.03480 -0.10920
0.21920 0.25320 0.28520 0.14120
ANALISIS:
La tabla del anlisis de varianza permite rechazar Ho (P = 0.004, menor a 0.05),
es decir existe evidencia de que al menos un par de medias es diferente,
surgiendo la pregunta: cul o cuales son los pares de medias diferentes? Para
lo que la comparacin de medias de Tukey es la mejor opcin para responder a
esta interrogante.
La matriz de comparaciones de Tukey realmente muestra un intervalo de
confianza para la diferencia de cada par de medias, por lo que hay diferencia
estadsticamente significativa entre aquellas medias cuyo intervalo no contenga
el valor de cero, en este caso L2-L5, L3-L4 y L3-L5, todas las dems medias
son iguales entre si.
Esto se puede analizar mejor en un grfico boxplot
Donde como ya se mencion, la diferencia se presenta entre las medias cuyas
cajas no se interceptan, aunque esta conclusin se debe reforzar con los
valores de la prueba de Tukey.
8
Para darle confiabilidad a las conclusiones se requiere verificar el cumplimiento
de supuestos, como la igualdad de varianzas y la normalidad de los residuales.
En MINITAB se obtienen los siguientes resultados
Response C2
Factors C1
ConfLvl 95.0000
3.56E-02 6.87E-02 0.302014 5 l1
3.27E-02 6.30E-02 0.276982 5 l2
3.57E-02 6.88E-02 0.302334 5 l3
3.38E-02 6.52E-02 0.286583 5 l4
3.37E-02 6.50E-02 0.285908 5 l5
P-Value : 1.000
P-Value : 0.998
Analizando los valores de la prueba de Bartlett se observa que no se puede
rechazar la hiptesis nula de que toda las varianzas son estadsticamente
iguales, por lo tanto se cumple con la homogeneidad de varianzas.
Esto tambin se puede ver de manera grfica.
9
Donde se aprecia una interseccin de todos los intervalos de confianza para la
desviacin estndar de cada uno de los 5 lotes.
Otro supuesto a verificar es la normalidad de los datos, el cual se puede checar
con un grfico de probabilidades normales.
Aunque se observa cierta desviacin de la normalidad, ya que debera verse
una tendencia lineal. La mejor forma de verificar este supuesto es mediante una
prueba numrica, como la Kolmogorov-Smirnov, cuya Ho: es que los datos
siguen una distribucin normal, contra una Ha: de que los datos no siguen una
distribucin normal.
10
El valor de P nos indica que no se puede rechazar la Ho y por lo tanto se tiene
evidencia de que los datos se comportan como una distribucin normal.
Esta ltima fase del anlisis es la manera de darle validez a las conclusiones,
ya que de otra forma se corre el riesgo de hacer conclusiones errneas.
2. Tres diferentes soluciones para lavar estn siendo comparadas con el objeto
de estudiar su efectividad en el retraso del crecimiento de bacterias en envases
de leche de 5 galones. El anlisis se realiza en un laboratorio y slo pueden
efectuarse tres pruebas en un mismo da. Se hicieron conteos de colonias
durante cuatro das. Analizar los datos y obtener conclusiones acerca de las
soluciones.
Das
Solucin 1 2 3 4
I 13 22 18 39
II 16 24 17 44
III 5 4 1 22
Realizando el anlisis con MINITAB, mediante STAT ANOVA- GLM se
obtienen los siguientes resultados
General Linear Model: y versus sol, dias
11
sol fixed 3 1 2 3
dias fixed 4 1 2 3 4
Sol 2 703.50 703.50 351.75 40.72 0.000
Dias 3 1106.92 1106.92 368.97 42.71 0.000
Error 6 51.83 51.83 8.64
Total 11 1862.25
Los valores de P indican que hay evidencia estadstica de que hay diferencias
entre las soluciones, ahora hay que decir cuales son las que realmente son
diferentes y cul seria la mejor. Para esto hay que realizar una prueba de tukey,
tomando el valor del CME de la tabla de ANVA.
Aunque tambin se requieren los valores de las medias, que al pedirlas en
MINITAB dan.
Descriptive Statistics: y by sol
Variable sol N Mean Median TrMean StDev
Y 1 4 23.00 20.00 23.00 11.28
2 4 25.25 20.50 25.25 13.00
3 4 8.00 4.50 8.00 9.49
Despus hay que verificar los supuestos de la prueba
Response y
Factors sol
ConfLvl 95.0000
5.70451 11.2842 61.3724 4 1
6.57027 12.9968 70.6868 4 2
4.79588 9.4868 51.5969 4 3
12
P-Value : 0.880
P-Value : 0.870
Probando la normalidad se tienen
3. Se encuentra
bajo estudioel efecto de
tienen 5 reactivos distintos (A, B, C, D y E) sobre el tiempo de reaccin de un
proceso qumico.Cada lote de material nuevo es lo suficientemente grande para
permitir que slo se realicen 5 ensayos. Ms an, cada ensayo tarda
aproximadamente una hora y media por lo que slo pueden realizarse cinco
ensayos por da. En el experimento se busca controlar sistemticamente las
variables lote de material y da, qu se puede decir del tiempo de reaccin de
los 5 reactivos diferentes?
Da
Lote 1 2 3 4 5
1 A,8 B,7 D,1 C,7 E,3
2 C,11 E,2 A,7 D,3 B,8
3 B,4 A,9 C,10 E,6 D,5
4 D,6 C,8 E,6 B,1 A,10
5 E,4 D,2 B,3 A,8 C,8
4. En un experimento para comparar el porcentaje de eficiencia de cuatro
diferentes resinas quelantes (A, B, C y D) en la extraccin de iones de Cu
2+
de
solucin acuosa, el experimentador slo puede realizar cuatro corridas con
13
cada resina. De manera que durante tres das seguidos se preparo una
solucin fresca de iones Cu
2+
y se realiz la extraccin con cada una de las
resinas, tomadas de manera aleatoria, obteniendo los siguientes resultados.
Cul es el modelo ms adecuado para analizar este experimento y cuales son
sus conclusiones?
Da A B C D
1 97 93 96 92
2 90 92 95 90
3 96 91 93 91
4 95 93 94 90
TAMAOS DE MUESTRA EN DISEOS UNIFACTORIALES
Curvas caractersticas de operacin.
Una curva caracterstica de operacin es una grfica de la probabilidad del error
tipo II de una prueba estadstica, para un tamao de muestra particular, contra
el parmetro que refleja la extensin en la cual la hiptesis nula es falsa. Estas
curvas se utilizan para la seleccin del nmero de repeticiones, con el objeto de
que el diseo sea sensible a diferencias potenciales importantes entre los
tratamientos.
De manera que considerando la probabilidad de error tipo II en el caso de
muestras del mismo tamao en cada tratamiento
= 1 - P(Rechazar Ho/Ho es falsa)
= 1 - P(Fo > F
,a-1,N-a
/Ho es falsa)
Para calcular esta probabilidad se requiere conocer la distribucin de Fo si Ho
es falsa. Siendo posible mostrar que Fo = C. M de Tratamientos/C. M del Error,
tiene una distribucin F no centrada con a-1 y N-a grados de libertad y un
parmetro de descentralizacin . Donde si = 0, la distribucin F no centrada
se transforma en la usual distribucin F (centrada).
Las curvas de operacin que se encuentran en la bibliografa se utilizan para
evaluar la probabilidad de , indicando la probabilidad del error tipo II () contra
el parmetro , donde
14
2
2
1
2
=
=
n
a
i
i
a
2
est relacionado con el parmetro de descentralizacin .
Aqu el experimentador debe especificar el valor de , esto en la prctica
generalmente resulta difcil. Una forma de hacerlo es elegir los valores de las
medias de los tratamientos para los cuales se desea rechazar la hiptesis nula
con una probabilidad alta. Por lo tanto, si
1
,
2
, ...,
a
son las medias de
tratamiento propuestas, el valor de
i
se calcula con
i
=
i
- = (1/a)
i
i
a
=
1
el
promedio de las medias individuales de tratamientos. Tambin es necesaria
una estimacin de
2
. En ocasiones esta puede obtenerse de experiencias
previas o de una estimacin propuesta. Cuando no hay seguridad sobre el valor
de
2
, el tamao de las muestras puede determinarse para un intervalo de
valores posibles de
2
y estudiar el efecto de este parmetro sobre el tamao
de la muestra antes de tomar una decisin final.
Ejemplo
Supngase un experimento donde se tiene inters en rechazar la hiptesis nula
con una probabilidad mnima de 0.90 cuando las medias de tratamiento son
1
= 11
2
= 12

= 15
4
= 18 y
5
= 19
Se planea usar = 0.01. En este caso,
i
i
a
=
1
= 75, porque = (1/5)75 = 15 y
1
=
1
- = 11 - 15 = -4
2
=
2
- = 12 - 15 = -3
3
=
3
- = 15 - 15 = 0
4
=
4
- = 18 - 15 = 3
5
=
5
- = 19 - 15 = 4
Por lo tanto
i i
2
1
5
=
= 50. Si se cree que la desviacin estndar no excede a =3,
de manera que
2
2
1
5
2 2
50
5 3
111 = = =
=
n
a
n
n
i
i

( )
( )
.
15
Usando la curva caracterstica de operacin con a-1=5-1 = 4, N-a=a(n-1)=5(n-1)
grados de libertad del error y = 0.01. Como primera aproximacin del nmero
de repeticiones se prueba n = 4. Esto da
2
=1.11(4)=4.44, =2.11 y 5(4-1)=15
grados de libertad del error, de manera que de acuerdo a la curva caracterstica
de operacin = 0.30 y se concluye que 4 repeticiones no son suficientes
porque la potencia de la prueba es aproximadamente 1- = 1-0.30 = 0.70, valor
menor al requerido de 0.90. De forma similar se puede construir la siguiente
tabla.
Por lo tanto, se requieren al menos 6 repeticiones para tener una prueba con la
potencia deseada.
El problema del enfoque anterior es que usualmente resulta difcil seleccionar el
conjunto de medias de tratamiento sobre el cual se basar la decisin sobre el
tamao de muestra. Un enfoque alterno es seleccionar el tamao de muestra
de manera que la hiptesis nula se rechace si la diferencia entre cualquier par
de medias de tratamiento excede un valor dado. Si la diferencia entre dos
medias de tratamiento es cuando mucho D, se puede demostrar que el valor
mnimo de
2
es
2
=
nD
a
2
2
2
Como ste es el valor mnimo de
2
, el tamao de las muestras
correspondientes que se obtiene con las curvas de operacin caracterstica
toma un valor conservador, esto es proporciona una potencia igual al menos a
la especificada por el investigador.
Ejemplo
En el ejemplo anterior considere que el investigador desea rechazar la hiptesis
nula con una probabilidad de 0.90 como mnimo, si la diferencia entre cualquier
par de medias de tratamiento es a lo sumo igual a 10. Suponiendo que = 3, el
valor mnimo de
2
es
n
2
a(n-1) poder (1- )
4 4.44 2.11 15 0.30 0.70
5 5.55 2.36 20 0.15 0.85
6 6.66 2.58 25 0.04 0.96
16
2
2
2
10
2 5 3
111 = =
n
n
( )
( )( )
.
Y del anlisis ya realizado se concluye que n = 6, para obtener el nivel de
sensibilidad deseado cuando =0.01.
ANALISIS DE REGRESION SIMPLE Y MULTIPLE
Problemas que se plantean:
1) Cul es el modelo matemtico ms apropiado para describir la relacin
entre una o ms variables independientes (Xs) y una variable dependiente (Y)?
2) Dado un modelo especifico, qu significa ste y cmo se encuentran los
parmetros del modelo que mejor ajustan a nuestros datos? Si el modelo es
una lnea recta: cmo se encuentra la mejor recta?
La ecuacin de una lnea recta es:
Y = f(x) =
0
+
1
X
0
ordenada al origen
1
pendiente
En un anlisis de regresin lineal simple, el problema es encontrar los valores
que mejor estimen a los parmetros
0
y
1
. A partir de una muestra aleatoria.
El modelo de regresin lineal es:
Y
i
=
y/Xi
+
i
=
0
+
1
X
i
+
i
(i = 1,2, 3, ..., n)
Para cada observacin el modelo es:
Y
1
=
0
+
1
X
1
+
1
Y
2
=
0
+
1
X
2
+
2
. . .
Y
n
=
0
+
1
X
n
+
n
El cual se puede escribir como:
n
y
1
=
Y
Y
Y
n
1
2
.
_
,

n
X
2
=
1
1
1
1
2
X
X
X
n
. .
. .
. .
_
,

2

1
=
0
1
_
,

n

1
=
1
2
.
.
.
n
_
,
donde:
2
Y
Y
Y
n
1
2
.
.
.
_
,
=
1
1
1
1
2
X
X
X
n
. .
. .
. .
_
,
0
1
_
,
+
1
2
n
_
,
= y =X +
Estimacin por mnimos cuadrados
Sea
$ $ $
Y X
i i
+
0 1
la respuesta estimada en Xi en base a la lnea de regresin
ajustada. La distancia vertical entre el punto (Xi,Yi) y el punto (Xi,
$
Y
i
) de la recta
ajustada esta dada por el valor absoluto de |Yi -
$
Y
i
| o |Yi - (
$ $

0 1
+ X
i
)|, cuya
suma de cuadrados es:
(
$
) (
$ $
) Y Y Y X
i
i
n
i i i
i
n

1
2
0 1
2
1

El problema ahora es encontrar los valores de
0
y
1
(
$
0
y
$
1
) tales que
(
$ $
) Y X
i i
i
n

0 1
2
1
sea mnima.
Solucin:
Si Q = (
$ $
) Y X
i i
i
n

0 1
2
1
, entonces
Q
0
= -2 (
$ $
) Y X
i i
i
n

0 1
1
= 0 ....... (1)
Q
1
= -2 (
$ $
) Y X
i i
i
n

0 1
1
(-X
i
)= 0 ....... (2)
que conduce a las ecuaciones
Y
i
-
0
-
1
X
i
= Y
i
- n
0
-
1
X
i
.. (1)
-X
i
Y
i
+
0
X
i
+
1
X
i
X
i
.. (2)
ordenando
0
n +
1
X
i
= Y
i
0
Xi +
1
X
i
2
= X
i
Y
i
.... Ecuaciones Normales
n X
X X
i
i i
_
,
0
1
_
,
=
Y
X Y
i
i i
_
,

3
XX = Xy
= (XX)
-1
Xy
Solucin para calcular los parmetros de la ecuacin de regresin.
Algo de Geometra
1) Y Y
i

2)
$
Y Y
i

3) Y Y
i i
$
Y Y
i
= (
$
Y Y
i
) + (Y Y
i i
$
)
TOTAL = REGRESION + ERROR
Al aplicar sumatorias y elevar al cuadrado se tiene:
( ) [(
$
) (
$
)] Y Y Y Y Y Y
i i i i
i
n
i
n
+

2 2
1 1
( ) (
$
) (
$
) Y Y Y Y Y Y
i i i i
i
n
i
n
+

2 2 2
1 1
S.C. TOTAL = S.C. REGRESION + S.C. ERROR
Cantidades que permiten realizar un ANVA, para probar el juego de hiptesis:
Ho:
1
= 0 v.s. Ha:
1
0.
F.V. g.l. S.C. C.M. Fc Ft
REGRESION 1 CM
CM
REGRESION
RESIDUAL
F
1,n-2,
RESIDUAL N -
2
TOTAL N -
1
X
f(X)
( , ) X Y
( ,
$
) X Y
i i
(X
i
,Y
i
)
4
Interpretando a
0 y
1
H
0
:
1
= 0
1.- H
0
:
1
= 0 No se rechaza
a) Si la suposicin de lnea recta es correcta significa que X no proporciona
ayuda para predecir Y, esto quiere decir que Y predice a Y.
Y
H
0
:
1
= 0

0
b) La verdadera relacin entre X e Y no es lineal, esto es que el modelo puede
involucrar funciones cuadrticas cbicas o funciones ms complejas.
2.- Ho:
1
= 0 si se rechaza
a) X proporciona informacin significativa para predecir Y
X
Y
X
X
Y
5
b). El modelo puede tener un trmino lineal ms, quizs un trmino cuadrtico.
Prueba. Ho:
0
= 0
Si NO se rechaza esta Ho, puede ser apropiado ajustar un modelo sin
0
,
siempre y cuando exista experiencia previa o teora que sugiera que la recta
ajustada debe pasar por el origen y que existan datos alrededor del origen para
mejorar la informacin sobre
0
.
CORRELACION
Si X e Y son dos variables aleatorias, entonces el coeficiente de correlacin se
define como:
1) r [-1,1]
2) r es independiente de las unidades de X e Y
3)
$
1
> 0 r > 0

$
1
< 0 r < 0

$
1
= 0 r = 0
r es una medida de la fuerza de asociacin lineal entre X e Y
Coeficiente de determinacin r
2
r
SC SC
SC
total error
total
2

=
SC
SC
regresin
total
X
Y
6
donde r
2
[0,1]
Esta r-cuadrada es una medida de la variacin de Y explicada por los cambios
o variacin en la X.
REGRESION MULTIPLE
La regresin mltiple hace referencia al establecimiento de modelos cuando se
consideran dos o ms variables independientes.
Y = f(X
1
, X
2
, ..., X
K
) = f(x)
Comparando la regresin simple contra la mltiple se tiene que:
1) Es ms difcil la eleccin del mejor modelo, ya que casi siempre hay varias
opciones razonables.
2) Se dificulta visualizar el modelo, por la dificultad de pintar ms de tres
dimensiones.
3) Clculos complejos, requiere recursos computacionales con software
especializado.
Mnimos Cuadrados
Y
i
=
0
+
1
X
1
+
2
X
2
+ ... +
k
X
k
+
donde:
Y
i
- (
0
+
1
X
1
+
2
X
2
+ ... +
k
X
k
)
X
1
X
2
Y
7
En base a los datos muestrales
Y
i
-
$
Y
i
= Y
i
- (
$ $ $
...
$

o k k
X X X + + + +
1 1 2 2
)
Suma de cuadrados
(
$
)
$ $ $ $
Y Y
i i
i
n

2
1
2
(Yi - ( + X + X +. ..+ X ))
0 1 1 2 2 k k
n
i=1

El mtodo consiste en encontrar los valores
$
,
$
,
$
, . ..
0 1 2
llamados estimadores
de mnimos cuadrados, para los cuales la suma de cuadrados es mnima.
Tabla de ANVA para la hiptesis Ho:
i
= 0; Ha: al menos un
i
0
F.V. g.l. S.C. C.M. F r
2
Regresin k SCt - SCr SCReg/k CMReg/CMres (SCt-SCe)/SCt
Residual n-k-
1
(
$
) Y Y
i i
i
n
2
1
SCres/(n-k-1)
Total n-1
( ) Y Y
i
i
n
2
1
Supuestos del anlisis de regresin
NI(
Y/X1,X2, ..., Xk
,
2
)
CORRELACIN PARCIAL y PARCIAL MULTIPLE
Medida de la fuerza de relacin lineal entre dos variables, despus de haber
controlado los efectos de otras variables.
r
y,x1/x2
r
y,x1/x2,x3
r
y,(x3,x4,x5)/x1,x2
CORRELACION MULTIPLE
r
y/x1,x2, ..., xk
=
( )(
$ $
)
( ) (
$ $
)
Y Y Y Y
Y Y Y Y
i i
i
n
i
i
n
i

1
]
1

1
2
1
2
1
2
8
r
2
y/x1,x2, ..., xk
=
( ) (
$
)
( )
Y Y Y Y
Y Y
i i i
i
n
i
n
i
i
n

2 2
1 1
2
1
= (SCtotal - SCerror)/SCtotal
F PARCIALES
Suponiendo 3 variables X
1
, X
2
y X
3
1) Se puede predecir el valor de Y utilizando slo X
1
?
2) Adicionar X
2
contribuye significativamente en la prediccin de Y, una vez
que se considera la contribucin de X
1
?
3) Contribuye X
3
, dados X
1
y X
2
en el modelo?
Ho: La adicin de X* al modelo, incluyendo X
1
, X
2
, ..., X
k
, no mejora
significativamente la prediccin de Y.
Ho: * = 0, donde * es el coeficiente de X*, en la ecuacin de regresin.
t =
$
*
$*
S
9
EJEMPLOS
RELACION DE GASTOS MEDICOS MENSUALES CON EL TAMAO DE
FAMILIA
TAMAO DE
FAMILIA
GASTOS MEDICOS
MENSUALES
2 20
2 28
4 52
5 50
7 78
3 35
8 102
10 88
5 51
2 22
3 29
5 49
2 25
EXISTE EVIDENCIA PARA ESTABLECER UNA RELACION LINEAL ENTRE
EL TAMAO DE LA FAMILIA Y LOS GASTOS MEDICOS?
SI SU RESPUESTA ES AFIRMATIVA, CUAL ES LA ECUACION DE ESTA
RELACION ?
SE CUMPLEN LOS SUPUESTOS DEL ANALISIS DE REGRESION?
Realizando el anlisis con MINITAB, STAT Regression Regression
Regression Analysis: Y versus X
Y = 4.70 + 9.79 X
10
Constant 4.705 4.789 0.98 0.347
X 9.7903 0.9392 10.42 0.000
S = 8.360 R-Sq = 90.8% R-Sq(adj) = 90.0%
En el ajuste se puede ver que existe evidendencia para considerar al
coeficiente de las Xs diferente de cero, pero la ordenada al origen se puede
considerar cero.
Adems el modelo que se obtiene explica un 90% de la variacin de Y, en otras
palabras es un buen modelo.
Source DF SS MS F P
Regression 1 7594.3 7594.3 108.66 0.000
Residual Error 11 768.8 69.9
Total 12 8363.1
El anlisis de varianza muestra que al menos uno de los coeficientes del
modelo es diferente de cero, en otras palabras, si hay modelo.
Se puede realizar un mejor anlisis viendo los resultados de manera grfica
11
Este grfico corresponde al modelo ajustado, los datos originales y las bandas
de confianza para cada valor de X.
Para verificar los supuestos se le pide a MINITAB una prueba de normalidad
sobre los residuales, encontrando el siguiente resultado.
Donde se puede ver que los residuales cumplen con el supuesto de normalidad.
12
EJERCICIO 2.
Y X1 X2 X3
506 10 6 55
811 18 10 32
816 20 11 34
752 16 9 48
610 15 5 58
903 21 12 29
685 11 7 52
830 18 10 36
650 14 8 60
793 15 6 49
961 19 8 24
692 18 10 63
752 12 7 45
488 10 7 61
848 17 8 38
611 15 9 59
709 14 10 41
919 22 10 26
827 20 9 39
526 9 6 65
HAY RELACION LINEAL ENTRE X1-X3 CON Y?
Regression Analysis: y versus x1, x2, x3
y = 837 + 17.5 x1 - 9.96 x2 - 6.42 x3
Constant 837.2 127.2 6.58 0.000
x1 17.476 5.406 3.23 0.005
x2 -9.961 9.046 -1.10 0.287
x3 -6.421 1.330 -4.83 0.000
S = 50.59 R-Sq = 88.6% R-Sq(adj) = 86.5%
13
Source DF SS MS F P
Regression 3 319121 106374 41.56 0.000
Total 19 360069
Si hay un modelo, aunque existe evidencia de la poca influencia de X2, por lo
que se recomienda un ajuste eliminando esta variable.
Regression Analysis: y versus x1, x3
y = 801 + 14.1 x1 - 6.31 x3
Constant 801.0 123.7 6.48 0.000
x1 14.145 4.509 3.14 0.006
x3 -6.315 1.335 -4.73 0.000
S = 50.90 R-Sq = 87.8% R-Sq(adj) = 86.3%
Source DF SS MS F P
Regression 2 316018 158009 60.98 0.000
Total 19 360069
Como puede verse todos las variables son importantes en el modelo y existe un
86.3% de variacin explicada.
Stepwise Regression: y versus x1, x2, x3
Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15
Response is y on 3 predictors, with N = 20
14
Step 1 2
Constant 1165.6 801.0
x3 -9.4 -6.3
T-Value -8.67 -4.73
P-Value 0.000 0.000
x1 14.1
T-Value 3.14
P-Value 0.006
S 62.2 50.9
R-Sq 80.68 87.77
R-Sq(adj) 79.61 86.33
C-p 11.2 3.2
Como apoyo grfico se tienen los siguientes elementos
Ntese el patrn en los residuales, lo que indica que es posiblemente un
polinomio cuadrtico o cbico ajuste mejor a estos datos.
15
EJERCICIO 3.
Y X1 X2
100 7 28
104 11 27
106 13 29
109 15 31
115 16 26
118 18 24
123 20 20
131 23 18
136 25 22
139 28 20
150 33 19
151 34 17
153 39 14
158 41 12
159 42 14
164 44 13
IDENTIFICAR LA ECUACIN DE REGRESION?
HAY EVIDENCIA SUFICIENTE PARA ESTABLECER UNA RELACION
LINEAL POSITIVA ENTRE X1 CON Y?
HAY EVIDENCIA PARA ESTABLECER UNA RELACION LINEAL NEGATIVA
ENTRE X2 CON Y?
HAY SUFICIENTE EVIDENCIA PARA ESTABLECER QUE EL MODELO DE
REGRESION ES UTIL?
DISEOS FACTORIALES
Este tipo de diseos permiten analizar varios factores a la vez, considerando
inclusive su interaccin.
La construccin tpica de un factorial axb se presenta a continuacin, donde a
indica el nmero de niveles del primer factor y b el del segundo factor.
FACTOR B TOTAL
FACTOR A 1 2 . . . b Y
i..
1 Y
111
, Y
112
,
Y
113
, Y
114
Y
121
, Y
122
,
Y
123
, Y
124
. . . Y
1b1
, Y
1b2
,
Y
1b3
, Y
1b4
Y
1..
2 Y
211
, Y
212
,
Y
213
, Y
214
Y
221
, Y
222
,
Y
223
, Y
224
. . . Y
1b1
, Y
1b2
,
Y
1b3
, Y
1b4
Y
2..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A Y
a11
, Y
a12
,
Y
a13
, Y
a14
Y
a21
, Y
a22
,
Y
a23
, Y
a24
. . . Y
ab1
, Y
ab2
,
Y
ab3
, Y
ab4
Y
a..
Total Y
.j.
Y
.1.
Y
.2.
... Y
.b.
Y...
Y
ijk
= +
i
+
j
+ ( )
ij
+
ijk
con: i = 1,2,3, ... a; j = 1,2,3, ... b; k = 1,2,3, ..., k
1. Ho:
i
= 0 vs Ha:
i
0; para al menos una i.
2. Ho:
j
= 0 vs Ha:
j
0; para al menos una j.
3. Ho:
i
j
= 0 vs Ha:
i
j
0 para al menos un par i j.
SC
TOTAL
= ( )
...
Y Y
ijk
k
n
j
b
i
a
= = =

2
1 1 1
SC
A
= ( )
.. ...
Y Y
i
k
n
j
b
i
a
= = =

2
1 1 1
= bn ( )
.. ...
Y Y
i
i
a
2
1
SC
B
= ( )
. . ...
Y Y
j
k
n
j
b
i
a
= = =

2
1 1 1
= an ( )
. . ...
Y Y
j
j
b
2
1
SC
AB
= ( )
. .. . . ...
Y Y Y Y
ij i j
k
n
j
b
i
a
+
= = =

2
1 1 1
= n ( )
. .. . . ...
Y Y Y Y
ij i j
j
b
i
a
+
= =

2
1 1
SC
ERROR
= ( )
.
Y Y
ijk ij
k
n
j
b
i
a
= = =

2
1 1 1
2
GRADOS DE LIBERTAD
A = a - 1
B = b - 1
AB = (a - 1)(b - 1)
ERROR = ab(n - 1)
TOTAL = abn - 1
TABLA DE ANALISIS DE VARIANZA, PARA UN DISEO: AxBxCxD?
Visualicmosla mediante algunos ejemplos
EJEMPLOS
1. Se encuentra en estudio el rendimiento de un proceso qumico. Se cree que
las dos variables ms importantes son la temperatura y la presin.
Seleccionando para el estudio tres temperaturas y tres presiones diferentes,
obteniendo los siguientes resultados de rendimiento.
Temperatura\Presin Baja Media Alta
Baja 90.4
90.2
90.7
90.6
90.2
90.4
Intermedia 90.1
90.3
90.5
90.6
89.9
90.1
Alta 90.5
90.7
90.8
90.9
90.4
90.1
Aplicar el modelo adecuado, sacar las conclusiones pertinentes.
Realizando el anlisis con la opcin Two-way de ANOVA, se tienen los
Two-way ANOVA: y versus p, t
Analysis of Variance for y
Source DF SS MS F P
P 2 0.3011 0.1506 8.47 0.009
t 2 0.7678 0.3839 21.59 0.000
Interaction 4 0.0689 0.0172 0.97 0.470
Error 9 0.1600 0.0178
Total 17 1.2978
Diseos factoriales.
3
Individual 95% CI
p Mean --+---------+---------+---------+---------
a 90.567 (-------*-------)
b 90.417 (-------*-------)
i 90.250 (--------*-------)
--+---------+---------+---------+---------
90.150 90.300 90.450 90.600
Individual 95% CI
t Mean -------+---------+---------+---------+----
a 90.183 (-----*-----)
b 90.367 (-----*-----)
i 90.683 (-----*-----)
-------+---------+---------+---------+----
90.200 90.400 90.600 90.800
Realizando el anlisis con ANOVA GLM
General Linear Model: y versus p, t
P fixed 3 a b i
T fixed 3 a b i
P 2 0.30111 0.30111 0.15056 8.47 0.009
T 2 0.76778 0.76778 0.38389 21.59 0.000
p*t 4 0.06889 0.06889 0.01722 0.97 0.470
Error 9 0.16000 0.16000 0.01778
Total 17 1.29778
Term Coef SE Coef T P
Constant 90.4111 0.0314 2876.86 0.000
p
a 0.15556 0.04444 3.50 0.007
b 0.00556 0.04444 0.13 0.903
t
4
a -0.22778 0.04444 -5.12 0.001
b -0.04444 0.04444 -1.00 0.343
p*t
a a -0.08889 0.06285 -1.41 0.191
a b 0.07778 0.06285 1.24 0.247
b a 0.11111 0.06285 1.77 0.111
b b -0.07222 0.06285 -1.15 0.280
Se puede observar que slo hay efecto de los factores principales y que no hay
efecto de interaccin. Esto se puede apreciar mejor en las siguientes grficas,
donde se aprecia que el mayor rendimiento se obtiene con una temperatura alta
y una presin intermedia.
Diseos factoriales.
5
2. En una operacin de lotes se produce un qumico viscoso, donde cada lote
produce suficiente producto para llenar 100 contenedores. El ensayo del
producto es determinado por anlisis infrarrojo que realiza duplicado alguno de
los 20 analistas del laboratorio. En un esfuerzo por mejorar la calidad del
producto se realiz un estudio para determinar cual de tres posibles fuentes de
variabilidad eran significativas en el proceso y su magnitud.
Las fuentes seleccionadas fueron: la variable A lotes, se seleccionaron
aleatoriamente tres lotes de produccin mensual, la variable analistas, B,
seleccionando dos de manera aleatoria, la variable C corresponde a dos
contenedores seleccionados de manera aleatoria de cada lote. Obteniendo los
Lote No. de Contenedor
I II
Analista Analista
M P M P
23 94.6
95.2
95.8
95.8
97.7
98.1
97.8
98.6
35 96.2
96.4
96.5
96.9
98.0
98.4
99.0
99.0
2 97.9
98.1
98.4
98.6
99.2
99.4
99.6
100.0
DISEOS 2
k
y 3
k
DISEO 2
k
2 NIVELES k factores
TABLA DE ANVA
K efectos principales S.C. g.l.
A SC
A
1
B SC
B
1
.
.
.
K SC
K
1
k
2
=
k
k
!
!( )! 2 2
Interacciones dobles
AB SC
AB
1
AC SC
AC
1
.
.
.
JK SC
JK
1
k
3
Interacciones triples
ABC SC
ABC
1
ABD SC
ABD
1
.
.
.
IJK SC
IJK
1
k
2
Interacciones de k factores
ABC...K SC
ABC...K
1
ERROR SC
ERROR
2
k
(n-1)
TOTAL SC
TOTAL
n2
k
- 1
2
NOTACIONES EN LOS DISEOS FACTORIALES
Los niveles o tratamientos del factor se representan a partir de notaciones,
como muestra el cuadro 1.
Cuadro 1.- Notaciones
Notacin geomtrica Notacin con letras Notacin con dgitos
Corrida A B C
Combinacin de
Tratamientos A B C
1 - - - (1) 0 0 0
2 + - - a 1 0 0
3 - + - b 0 1 0
4 + + - ab 1 1 0
5 - - + c 0 0 1
6 + - + ac 1 0 1
7 - + + bc 0 1 1
8 + + + abc 1 1 1
REPRESENTACION GRAFICA DE LOS DISEOS FACTORIALES
Los diseos factoriales 2
k
y 3
k
se representan a partir de las siguientes
grficas:
Figura a.- Representacin grfica del diseo factorial 2
2
y Figura b.
Representacin grfica del diseo factorial 2
3
.
Diseos 2
k
y 3
k
.
3
En los diseos donde se manejan tres dimensiones, los efectos principales e
interacciones corresponden a una cara del cubo como muestra la figura 5.
-
+
-
A
-
+
-
+
-
-
+
+
+
+
-
-
B C
(a) EFECTOS PRINCIPALES
(b)INTERACCIONES DE LOS DOS FACTORES
AB
AC
BC
CORRIDAS +
=
= CORRIDAS -
(c) INTERACCION DE TRES FACTORES
(a) Representacin grfica de los efectos principales (b) dobles interacciones
(c) triple interaccin del Diseo Factorial
CODIFICACION
X
i
* =
2X X X
X X
i iBAJO iALTO
iALTO iBAJO
+
( )
4
Ejemplo: Evaluacin en estudios de estabilidad del Acido Acetilsalicilico, para
tres factores:
A Temperatura, B Excipiente (Encompress%), C Tratamiento mecnico
BLOQUES de un 2
3
MEDIA = (15.1 + 26.9 + 19.3 + 10.7 + 22.9 + 15.1 + 26.7 + 39.3)/8 = 22.0
A = (26.9 + 10.7 + 15.1 + 39.3)/4 - (15.1 + 19.3 + 22.9 + 26.7)/4 = 2.0
B = 4.0
C = 8.0
AB = 0.0
AC = 0.4
BC = 10.0
ABC = 10.2
VALOR
FACTOR NIVEL BAJO NIVEL ALTO
A 40C 60C
B 0% 50%
C ASA Cristalino
sin tratamiento
ASA molido
20 hrs
(1) +1 -1 -1 -1 +1 +1 +1 -1 15.1 0.287
a +1 +1 -1 -1 -1 -1 +1 +1 3.473 3.442
b +1 -1 +1 -1 -1 +1 -1 +1 0.300 0.304
ab +1 +1 +1 -1 +1 -1 -1 -1 3.127 3.602
c +1 -1 -1 +1 +1 -1 -1 +1 0.448 0.545
ac +1 +1 -1 +1 -1 +1 -1 -1 4.228 4.083
bc +1 -1 +1 +1 -1 -1 +1 -1 0.290 0.308
abc +1 +1 +1 +1 +1 +1 +1 +1 4.230 4.092
(1) +1 -1 -1 -1 +1 +1 +1 -1 15.1
a +1 +1 -1 -1 -1 -1 +1 +1 26.9
b +1 -1 +1 -1 -1 +1 -1 +1 19.3
ab +1 +1 +1 -1 +1 -1 -1 -1 10.7
c +1 -1 -1 +1 +1 -1 -1 +1 22.9
ac +1 +1 -1 +1 -1 +1 -1 -1 15.1
bc +1 -1 +1 +1 -1 -1 +1 -1 26.7
abc +1 +1 +1 +1 +1 +1 +1 +1 39.3
Diseos 2
k
y 3
k
.
5
BLOQUE (+)
BLOQUE(-)
Al hacer un diseo en bloques surge confusin entre el efecto de la
interaccin ABC y el efecto de bloques.
FRACCION de un 2
3
(2
3-p
)
Ejemplo 2
3-1
Primero se tiene un 2
3
completo
Del cual se selecciona la interaccin ms alta para obtener una fraccin 2
3-1
.
a +1 +1 -1 -1 -1 -1 +1 +1 26.9
b +1 -1 +1 -1 -1 +1 -1 +1 19.3
c +1 -1 -1 +1 +1 -1 -1 +1 22.9
abc +1 +1 +1 +1 +1 +1 +1 +1 39.3
(1) +1 -1 -1 -1 +1 +1 +1 -1 15.1
ab +1 +1 +1 -1 +1 -1 -1 -1 10.7
ac +1 +1 -1 +1 -1 +1 -1 -1 15.1
bc +1 -1 +1 +1 -1 -1 +1 -1 26.7
(1) +1 -1 -1 -1 +1 +1 +1 -1
a +1 +1 -1 -1 -1 -1 +1 +1
b +1 -1 +1 -1 -1 +1 -1 +1
ab +1 +1 +1 -1 +1 -1 -1 -1
c +1 -1 -1 +1 +1 -1 -1 +1
ac +1 +1 -1 +1 -1 +1 -1 -1
bc +1 -1 +1 +1 -1 -1 +1 -1
abc +1 +1 +1 +1 +1 +1 +1 +1
6
En el cuadro anterior, se est considerando la fraccin con el signo menos,
pero tambin hay una fraccin en base a los signos ms de la interaccin
mayor.
Adems, en las columnas sealadas sus efectos tienen la misma magnitud,
pero signo contrario, por ejemplo:
A = (ab + ac)/2 - ((1) + bc) y BC = ((1) + bc)/2 - (ab + ac)/2
A este tipo de efectos se les conoce como alias, ya que al medir uno se est
midiendo al otro pero con signo contrario.
EJEMPLOS
El primer paso es generar el diseo o la matriz experimental, lo cual en
MINITAB se logra con la opcin STAT-DOE-FACTORIAL-CREATE
FACTORIAL DESIGN, opcin que aleatoriza las corridas experimentales.
Para un diseo 23 completo se tiene la siguiente matriz, que de acuerdo a la
aleatorizacin si la genero de nuevo tendra un orden diferente
A B C
-1 1 1
-1 -1 1
1 1 -1
1 -1 1
-1 -1 -1
1 -1 -1
-1 1 -1
1 1 1
(1) +1 -1 -1 -1 +1 +1 +1 -1
ab +1 +1 +1 -1 +1 -1 -1 -1
ac +1 +1 -1 +1 -1 +1 -1 -1
bc +1 -1 +1 +1 -1 -1 +1 -1
Diseos 2
k
y 3
k
.
7
El siguiente paso es ir al laboratorio y realizar el experimento para obtener los
resultados a analizar.
A B C AB AC BC ABC y
-1 1 1 -1 -1 1 -1 2175
-1 -1 1 1 -1 -1 1 1525
1 1 -1 1 -1 -1 -1 2350
1 -1 1 -1 1 -1 -1 1800
-1 -1 -1 1 1 1 -1 1550
1 -1 -1 -1 -1 1 1 1925
-1 1 -1 -1 1 -1 1 2150
1 1 1 1 1 1 1 2200
Que con las opciones STAT-DOE-FACTORIAL-ANALYZE
Term Effect Coef
Constant 1959.38
A 218.75 109.37
B 518.75 259.37
C -68.75 -34.37
A*B -106.25 -53.12
A*C -68.75 -34.37
B*C 6.25 3.13
A*B*C -18.75 -9.37
Main Effects 3 643359 643359 214453 * *
Total 7 676172
8
Least Squares Means for y
Mean
A
-1 1850
1 2069
B
-1 1700
1 2219
C
-1 1994
1 1925
A *B
-1 1 1538
1 1 1863
-1 1 2163
1 1 2275
A *C
-1 1 1850
1 1 2138
-1 1 1850
1 1 2000
B *C
-1 1 1738
1 1 2250
-1 1 1663
1 1 2188
A *B *C
-1 -1 1 1550
1 -1 1 1925
-1 1 1 2150
1 1 1 2350
-1 -1 1 1525
1 -1 1 1800
-1 1 1 2175
1 1 1 2200
Diseos 2
k
y 3
k
.
9
El anlisis grfico muestra lo siguiente
Este Pareto muestra la importancia de cada efecto en el experimento, y los
efectos conjuntos se pueden analizar en la siguiente grfica.
Aqu se puede analizar el experimento en su totalidad visualizando cual es la
combinacin de efectos que optimiza el resultado de la variable. Ya sea que se
busque un mnimo o un mximo.
10
Siguiendo con el mismo ejemplo pero en bloques. Primero se tiene la matriz de
diseos pero con la aleatorizacin de bloques.
Blocks A B C y
2 1 1 1 2200
2 -1 -1 1 1525
2 1 -1 -1 1925
2 -1 1 -1 2150
1 1 1 -1 2350
1 -1 1 1 2175
1 -1 -1 -1 1550
1 1 -1 1 1800
Donde se puede ver que en al anlisis se toma la interaccin ms alta para
hacer el bloque, y se considera este para el anlisis.
Factorial Design
Factors: 3 Base Design: 3, 8 Resolution with blocks: IV
Runs: 8 Replicates: 1
Blocks: 2 Center pts (total): 0
Block Generators: ABC
Alias Structure
Blk = ABC
A
B
C
AB
AC
BC
Term Effect Coef
Constant 1959.38
Block 9.38
A 218.75 109.37
Diseos 2
k
y 3
k
.
11
B 518.75 259.37
C -68.75 -34.38
A*B -106.25 -53.12
A*C -68.75 -34.37
B*C 6.25 3.13
Blocks 1 703 703 703 * *
Main Effects 3 643359 643359 214453 * *
Total 7 676172
El resultado final del anlisis es el mismo que el realizado para el diseo
completo.
Hagamos el mismo ejemplo pero como un diseo fraccionado 2
3-1
, desarrollo
que se muestra a continuacin.
A B C Y
1 1 1 2200
-1 1 -1 2150
-1 -1 1 1525
1 -1 -1 1925
Aqu slo se realiza una parte del experimento, cuyos resultados son:
Factorial Design
Fractional Factorial Design
Factors: 3 Base Design: 3, 4 Resolution: III
Runs: 4 Replicates: 1 Fraction: 1/2
Blocks: none Center pts (total): 0
*** NOTE *** Some main effects are confounded with two-way interactions
12
Design Generators: C = AB
Alias Structure
I + ABC
A + BC
B + AC
C + AB
Alias Information for Terms in the Model.
Totally confounded terms were removed from the analysis.
I + A*B*C
A + B*C
B + A*C
C + A*B
NOTE * Some of the terms requested in MEANS were removed from the
analysis.
Diseos 2
k
y 3
k
.
13
SUPERFICIES DE RESPUESTA Y DISEOS DE MEZCLAS
La estadstica es una herramienta que se ha convertido en un apoyo primordial en la
industria farmacutica, a tal grado que la FDA mediante los GMPs y GLPs
recomienda su uso de forma rutinaria para el control de procesos, para el
establecimiento de proyectos de desarrollo, as como para el tratamiento y la
interpretacin de nuevas formas de dosificacin de activos.
Esbozando el uso de la estadstica en el rea farmacutica podemos hacer mencin
que se emplea en control de calidad, en pruebas de estabilidad, en validacin y
desarrollo de mtodos analticos, en protocolos de diseos preclnicos, en validacin
de procesos y en desarrollo farmacutico: siendo en estos dos ltimos puntos donde
se puede enfatizar su utilidad mediante el uso de diseo de experimentos y procesos
de optimizacin.
Dada la importancia que existe actualmente por eficientizar los recursos con que se
cuenta en la industria y en las universidades es importante conocer la existencia de
herramientas que nos apoyen en la localizacin de la mejor respuesta a las variables
estudiadas, de una forma segura, rpida y con el menor nmero de experimentos.
Dentro de la metodologa de superficie de respuesta se encuentra el diseo de
mezclas; esta tcnica que se utiliza poco en nuestro pas, debido probablemente a que
no es poco conocida, pero no por ello deja de ser una herramienta potencialmente til
en farmacia.
Por consiguiente el presente trabajo pretende dar un en enfoque prctico y
proporcionarle al lector los tpicos fundamentales del diseo de mezclas, Qu es?
Para que se utiliza? Cundo se utiliza? Y Cmo se utiliza? Son las preguntas que
se desean responder. En caso que el lector precise de un anlisis ms profundo sobre
este tema al final recomendamos literatura especializada al respecto.
REGRESIN LINEAL MLTIPLE
(1)
Cuando utilizamos esta metodologa se desea determinar la relacin entre varias
variables de regresin X y la respuesta Y. El problema general consiste en ajustar el
modelo.
y= o +1X1+2X2+...+kXk+
Usualmente los parmetros desconocidos (k) se denominan coeficientes de
regresin y pueden determinarse mediante mnimos cuadrados. Donde
denominado error aleatorio deber de presentar una media igual a cero y que su
varianza
2
no debern de estar correlacionadas.
PRUEBAS DE HIPTESIS DE LA REGRESIN LINEAL MLTIPLE
CRITERIO PARA CONSIDERAR LA SIGNIFICANCIA DE LA REGRESIN.
(1)
A menudo se desea probar la hiptesis que se refieren a que tan significantes son los
parmetros del modelo de regresin lo cual se logra probando que dichos coeficientes
son iguales a cero; es decir las hiptesis son:
Ho o=1=..=k=0
Ha: i0
Cuando se rechaza Ho implica que al menos una de variables del modelo contribuye
significativamente al ajuste. El parmetro para probar esta hiptesis es una
generalizacin del utilizado en regresin lineal simple. La suma total de cuadrados
(SCy) se descompone en la suma de cuadrados de regresin (SCr) y en las sumas de
cuadrados del error (SCe).
SCy = SCr+-SCe
Consecuentemente el valor de F estimado se obtiene de la ecuacin:
F
SSR
k
SS n k
MSR
MS
=

=
( ) 1
Valor que se compara con F de tablas con , n,k grados de libertad.
CRITERIO PARA LA SELECCIN DE LAS VARIABLES
Es importante probar las hiptesis respecto a los coeficientes de regresin
individuales; tales pruebas son tiles para evaluar cada variable de regresin en el
modelo. En ocasiones el modelo puede ser ms efectivo si se le introducen variables
adicionales o, quiz si se desechan una o ms variables que se encuentran en el
mismo.
Introducir variables al modelo de regresin provoca que la suma de cuadrados de la
regresin aumente y que la del error disminuya. Debemos decidir si el incremento de
la suma de cuadrados de la regresin es suficiente para garantizar el uso de la variable
adicional en el modelo. Adems si agregamos una variable poco importante al
modelo podemos aumentar la media de cuadrados del error, disminuyendo as la
utilidad del mismo.
La hiptesis para probar la significancia de cualquier coeficiente individual, por
ejemplo i son:
Ho: i=0
Ha: i0
Y la estadstica apropiada para probar la ecuacin es:
to
i
MS Cii
=

Donde si Ho i=0 se rechaza si to>t/2,n-k-1

El estimador de mnimos cuadrados
es una variable aleatoria, adems la

distribucin ~N(
2
(XX)
-1
es debida a que una combinacin lineal de
observaciones Yj Por lo tanto la varianza del coeficiente de regresin
es igual a
2
veces el (i+1)-isimo elemento de la diagonal (XX)
-1
, es decir Cii. As cada
coeficiente de regresin tiene la propiedad distribucional:
~N(i,
2
Cii )
COEFICIENTE DE DETERMINACIN R
2
Despus de haber encontrado la recta de regresin, se debe de investigar que tan bien
se ajusta a los datos mediante el calculo de R
2
.
Este factor se construye con base en dos cantidades. La primera es la suma de los
cuadrados minimizada denominada suma de cuadrados del error (SSe), la cual
representa la suma de las desviaciones al cuadrado de los datos a la recta que mejor
se ajusta. La segunda cantidad es la suma de cuadrados alrededor de la media Y
, y se
conoce como la suma de cuadrados totales (SST).
El valor de R
2
se define de la siguiente forma:
R
2
=
SST SSE
SST
E identifica el porcentaje de la suma de cuadrados total que es explicada por la

relacin lineal. Conviene aclarar que a pesar que R
2
es un buen indicador de la
calidad del ajuste de la recta de regresin, no se debe usar como un criterio nico de
seleccin del modelo.
SUPERFICIES DE RESPUESTA
El uso de diseos de superficie de respuesta (RSM) es la alternativa mas adecuada en
experimentos cuyo objetivo es establecer la relacin entre los factores y la variable
dependiente, dentro de una regin experimental. La MSR se refiere por consiguiente
al paquete de diseos estadsticos e instrumentos de anlisis que se emplean en las
siguientes etapas:
1. Diseo y recopilacin de datos experimentales, los cuales se usan en la
determinacin de una ecuacin general que se empleara para predicciones
2. Aplicacin de las tcnicas de regresin lineal mltiple para seleccionar la mejor
ecuacin que represente el comportamiento de los datos.
3. Anlisis de la superficie ajustada mediante grficas de contorno y otros tcnicas
matemticas y numricas.
Este tipo de diseos tiene la ventaja de explorar la relacin entre los factores y la
variable dependiente dentro de la regin experimental, y no solamente en las
fronteras.
MODELACIN EMPRICA.
En la mayora de los problemas de MRS se desconoce la forma de la relacin entre la
respuesta y las variables independientes; por ello, el primer paso en la RMS consiste
en determinar una aproximacin apropiada en la relacin funcional real entre Y y
dichas variables independientes.. Por lo general se emplea un polinomio de orden
bajo, si la respuesta es descrita adecuadamente por una funcin lineal de las variables
independientes, la funcin de aproximacin en el modelo de primer orden es:
Y= o+i+....+kXk
Cuando existen curvaturas en el sistema deber utilizarse un polinomio de mayor
grado; por ejemplo el modelo de segundo orden:
Y o iXi ijXi ijXiXj
i
k
i
k
i j
k
= + + +
= = <

1
2
1
Este ltimo modelo a pesar de parecer sencillo es un modelo bastante flexible y con
coeficientes adecuados tiene la capacidad de caracterizar una gran variedad de
superficies.
Algunas de la propiedades que debera tener un diseo experimental de segundo
orden son:
Poder estimar los coeficientes del modelo cuadrtico
Tener un nmero pequeo de experimentos
Facilidad para detectar falta de ajuste
Uso de bloques
Para poder satisfacer el primero de estos criterios cada variable debe tener al menos
tres niveles. El diseo ms sencillo que cumple con estos requisitos es el factorial 3
k
(-1,0 y +1),. la desventaja de este diseo es que para valores grandes de k se requieren
un nmero demasiado elevado de experimentos. (Ver tabla)
No. de factores k No. de exp. en un
diseo 3 a la k, N
No. De coeficientes en
la ecuacin cuadrtica
2 9 6
3 27 10
4 81 15
5 243 21
6 729 28
7 2187 36
DISEOS COMPUESTOS CENTRALES
Otra clase de diseos que poseen la ventaja de requerir menos experimentos que los
factoriales 3
k
son los diseos compuestos centrales. Estos diseos se construyen con
base en factoriales con dos niveles (lo cual permite la estimacin de efectos
principales e interacciones). Adems incluyen un conjunto de puntos en los ejes
(llamados puntos estrella)los cuales; junto con el punto central (por lo general
repetido) permite estimar trminos cuadraticos puros; la combinacin de los puntos
centrales y estrella requiere de tres niveles de cada variable independiente, denotados
por -,0 y +.
La magnitud de alfa (distancia del origen al punto de interseccin) y las repeticiones
de los puntos centrales estn en relacin con la rotabilidad y la variacin uniforme,
respectivamente. El primero de ellos indica que la precisin de las predicciones de la
ecuacin cuadratica solamente depende de la distancia de dicho punto al origen y no
de su direccin, este criterio define el valor de . El segundo expresa que la precisin
en las predicciones es la misma en la parte media que en las orillas y fija el numero
de puntos centrales.
DISEOS DE BOX-BEHNKEN
Otra alternativa para la estimacin de superficies de respuestas es el uso de diseos
de Box-Behnken. Estos tiene dos ventajas sobre los diseos compuestos centrales; la
primera es que utilizan menos experimentos (este ahorro es mnimo cuando se tiene
de 5 a 7 factores y la segunda es que en estos diseos existen solamente tres niveles
(+1.0,-1)).
Estos diseos satisfacen el criterio de rotabilidad; de varianza uniforme y se pueden
estructurar en bloques; sin embargo tiene la desventaja de que al utilizar
experimentacin secuencial no se basan en los factoriales 2k.
REPRESENTACIN GRFICA
Debido a que se evala a Y como una funcin de variables independientes, es decir
y=f (X1,X2..Xk)+ donde representa el ruido o error observado en la respuesta. Si
la repuesta esperada se denota por E(y)= f(X1,X2..Xk) entonces la superficie
representada por =f(X1,X2..Xk) se denomina superficie de respuesta. Es posible
representar grficamente la respuesta, por ejemplo, para un problema en el cual se
desea maximizar el rendimiento y de un proceso que esta determinado por dos
factores X1 (temperatura) y X2 presin obtenemos la siguiente figura, donde la
respuesta se representa como una superficie slida en un espacio tridimensional.
Con la finalidad de visualizar mejor la superficie de respuesta, a menudo se grafican
los contornos de dicha superficie ; en la cual se trazan lneas de respuesta en el plano
X1, X2. Cada contorno corresponde a una altura especifica de la superficie de
respuesta, tal grfica es til para estudiar los niveles de X1 y X2 que dan por
resultado cambios en la forma o altura de la superficie, y por consiguiente con este
tipo de grficas se facilita visualizar las relaciones cuando existen mas de dos
factores.
CRITERIOS DE SELECCIN DE MODELOS
Con anterioridad se menciono que los valores de t, R
2
y F que se obtuvieron con la
regresin lineal mltiple no son suficientes para evaluar la precisin de un modelo;
por lo cual se requieren de otros mtodos para verificar el ajuste de dichos modelos.
ERROR PURO Y FALTA DE AJUSTE
Con el fin de investigar si el modelo refleja el comportamiento de los datos
correctamente, la suma de cuadrados del error se divide en dos partes: el error puro
de la repeticin y la falta de ajuste de la suma de cuadrados del error puro.
La suma de cuadrados del error puro se calcula con los valores de las repeticiones en
el punto central del diseo de superficie de respuesta.
La suma de cuadrados de l error puro se calcula de la forma
SSPE = ( ) Yi Y

2
La suma de cuadrados de la falta de ajuste es la diferencia entre la suma de cuadrados
del error (SSE) de la regresin y la SSPE
SSLOF= SSE-SSPE
El valor de F para probar la falta de ajuste es:
F n k r c
SSLOF
n k
SSPE
C
( ), ( )
( )
( )
=

1
1
1
Cuando Fcal es menor que Ftab implica que la falta de ajuste en el modelo no es
significativa
GRFICA DE RESIDUALES
Los residuales son los valores observados menos los estimados con el modelo
establecido. Cuando se ajusta un modelo de regresin mltiple y se calculan los
residuales se encuentra que sus diagramas de dispersin son muy importantes al igual
que los diagramas obtenidos con una variable independiente. Por ejemplo, si se
tratara de ajustar la funcin lineal Y=o+1X1+2X2 a los datos de la figura A, los
resultados se muestran en la figura B. La forma de U de los residuales contra X1,
refleja que la curvatura esta en la direccin de X1, la cual no esta considerada en el
modelo y es obvio que la ecuacin Y=o+1X1+2X2+11X
2
tendr un mejor
ajuste.
De la misma manera este tipo de grficas ayudan a identificar observaciones
aberrantes u otro tipo de problemas con los datos o con el modelo ajustado.
Las grficas de residuales ms sencillas, son los diagramas de dispersin de los
residuales con respecto a cada una de las variables independientes. Este tipo de
grficas es til en la deteccin de no linealidad. Cuando sus puntos para cada variable
independiente, no muestran ninguna tendencia es fcil suponer que el modelo
ajustado es adecuado
BSQUEDA DE PUNTOS PTIMOS.
LOCALIZACIN DEL PUNTO ESTACIONARIO.
Suponiendo que se desea determinar los niveles de X1, X2,...Xk que mximizan la
respuesta predicha. Este mximo si existe ser el conjunto de X1, X2,..Xk. Tal que
las derivadas parciales dy/dx=dy/dx2=...dy/dxk=0. Dicho punto se denomina punto
estacionario. El punto estacionario podra representar:
1) Un punto de respuesta mxima
2)Un punto de respuesta mnima.
3) Un punto silla.
1 )
40
50
60
X2
X1
( 2 )
X1
X2
50
55
60
65
70
70
65
60
55
50
Puede obtenerse una solucin general par el punto estacionario. Usando la notacin
matricial para el modelo de segundo orden se obtiene:
Y=o+xb+xBx
Una vez obtenindose el punto estacionario, suele ser necesario caracterizar la
superficie de respuesta en la vecindad inmediata de este punto. Por caracterizar se
entiende determinar a cual de la situaciones antes descritas (mximo, mnimo o
punto silla) corresponde el punto estacionario, as como la sensibilidad relativa de la
respuesta a las variables X1,X2,..Xk.
La forma ms directa de hacer esto consiste en examinar la grfica de contornos del
modelo ajustado. Es conveniente primero transformar el modelo en un nuevo sistema
de coordenadas con el origen en el punto estacionario denominado xo y entonces
rotar (girar) los ejes de este sistema hasta que sean paralelos a los ejes principales de
la superficie de respuesta ajustada. De esta manera obtenemos un modelo ajustado de
la forma:
y
= y
o+ 1w
2
+ 2w2+.kwk
donde las (wi) son las variables independientes transformadas y las (i) son los
valores propios. La naturaleza de la superficie de respuesta puede determinarse a
partir del punto estacionario y el signo y la magnitud de (i). Si todas las son
positivas , entonces xo es un punto de respuesta mnima, si todas las son negativas ,
entonces xo es un punto de respuesta mxima; y si las tienen distintos signos xo
corresponde a un punto silla.
DISEOS EXPERIMENTALES DE MEZCLAS
Con anterioridad se han presentado diseos de superficie de respuesta para aquellas
situaciones en que los niveles de cada factor son independientes de los otros niveles
de los factores; pero existen otro tipo de diseos de superficie de respuesta en los
cuales los factores son los componentes o ingredientes de una mezcla; en
consecuencia sus niveles no son independientes, por que al aumentar o disminuir
alguno de ellos ser necesario disminuir a aumentar algn otro componente de la
mezcla, en estos diseos la variable dependiente solo es resultado de la cantidad de
los elementos de la mezcla.
Retomando lo anterior un camino conveniente para evaluar el desempeo de la
ecuacin matemtica en la representacin de un diseo de mezclas, es a travs del
concepto de superficie de respuesta y esto es el asumir que existe alguna correlacin
funcional de la forma Y=(X1, X2,...Xk), la cual defina la dependencia n en la
proporciones X1, X2,...Xk de los componentes. la funcin es una funcin continua en
Xi, y es representada por un polinomio de primer o segundo grado que define una
rea de respuesta.
DEFI NI CI N
Es una metodologa estadstica donde el objetivo es conseguir una respuesta optima
(mximos o mnimos) debida a los elementos constitutivos de una mezcla.
Cuando se establece un programa experimental de este tipo de diseos se desea
modelar el rea experimental de combinaciones de la mezcla asociada a alguna
ecuacin matemtica para:
Predecir con modelo una respuesta debida a algn o algunos de los ingredientes de
la mezcla
Obtener alguna medida de la influencia en la respuesta de cada componente o de
sus combinaciones.
Un programa experimental consistir de N ensayos, de los cuales observaremos la
respuesta den isimo ensayo denotado por Yi ; asumiendo que la varianza de la
media Y es sigma de todas las U=1,2,3..k. Donde observamos un valor aditivo del
error Yu=n+u, 1 u N.
Donde u asumimos que no son correlacionados e idnticamente distribuidos con
media 0 y varianza
2
.
Cuando en diseo de red simplex es usado en problemas de mezclas; las respuestas
son bien proporcionadas por los puntos de este diseo: se facilita la obtencin del
polinomio con el cual generamos la superficie de respuesta consiguiendo los puntos
mximos o mnimos.
CONSIDERACIONES
Una caracterstica de los experimentos con mezclas es que las proporciones de los
factores pueden ser dadas en volumen, peso, fraccin mol y porcentaje.
Si la porcin del i-simo componente es Xi y existen k componentes en la mezcla, las
proporciones deben satisfacer las restricciones
1. 0.0 Xi 1.0
2. Xi
i
k
=
=
1
1 0 .
Debido a estas restricciones la regin experimental o rea de inters es un simplex
regular con q-1 dimensiones.
Si deseramos analizar una mezcla con dos componentes tenemos las siguientes
restricciones 0.0 X1 1.0 y0.0 X2 1.0 y X1+X2=1.0, lo cual limita el empleo
de los diseos experimentales factoriales. Comparando el rea experimental para un
diseo 2
2
esta incluye el rea y las esquinas de un cuadrado, en el anlisis de mezclas
nuestra rea experimental para una mezcla binaria corresponder a los puntos de la
lnea X1=1-X2. Cuando la mezcla es de tres componentes, la regin experimental
restringida corresponde a un tringulo equiltero, y para interpretarlo podemos
utilizar coordenadas trilineales, donde cada uno de los lados de la grfica representa
una mezcla que carece en absoluto de uno de los tres componentes (el componente
COMPONENTE 2
COMPONENTE 1
0 1.0
1.0
X1 + X2 = 1
Cuando la mezcla es de tres componentes, la regin experimental restringida
corresponde a un tringulo equiltero, y para interpretarlo podemos utilizar
coordenadas trilineales, donde cada uno de los lados de la grfica representa una
mezcla que carece en absoluto de uno de los tres componentes (el componente
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
0.2
0.4
X
1
=1
X
3
=1
X
2
=1
Para una mezcla con cuatro elementos la regin corresponder a un tetraedro
rectangular.
COMPONENTE 1
COMPONENTE 2
COMPONENTE 3
REGION EXPERIMENTAL
(X1+X2+X3=1)
DISEO SIMPLEX Y CENTROIDE SIMPLEX.
Los diseos simplex se emplean para estudiar los efectos de los componentes de
mezclas en la variable de respuesta. Como mencionamos la respuesta en los diseos
de mezclas se obtienen en una regin simplex completa; obviamente que
seleccionaremos un modelo que se posesione de manera uniforme sobre todo este
espacio simplex; una clase de diseos que tienen esta propiedad de uniformidad es el
q,m simplex en red, en donde p se refiere al numero de componentes y m es el
numero de combinaciones binarias sobre los vrtices de la figura geomtrica de
respuesta (las proporciones asumidas por cada componente toman valores
equiespaciados m+1 desde 0 hasta 1).
Xi = 0, 1/m, 2/m,...,1 i=1,2,.....,p
y se emplean todas las posibles combinaciones (mezclas) de las proporciones de la
ecuacin.
Por ejemplo si suponemos que un sistema consta de 3 componentes ( p=3 y m=2.)
cada componente llevara las proporciones:
Xi= 0.1/2,1 i=1,2 y 3
y la red simplex consiste en las seis corridas siguientes:
(X1, X2, X3) = (1,0,0),(0.1.0),(0,0,1),(1/2,1/2,0),(1/2,1/2,0),(0,1/2,1/2)
x1=1
x2=1 x2=1
(1,0,0)
(0,1/2,1/2)
(1/2,1/2,0)
(0,0,1)
(0,1,0)
(1/2,0,1/2)
Donde los tres primeros corresponden a los componentes puros y los tres siguientes
corresponden a mezclas binarias, localizadas en los puntos centrales de las tres aristas
del tringulo.
Una alternativa al diseo de red simplex es el diseo de centroide simplex. En este
tipo de diseos de p componentes hay 2
p
-1 puntos, que corresponden a las p
permutaciones de (1,0,0,...,0), las (p/2) permutaciones de (1/2,1/2,0,...,0), las (p/3)
permutaciones de (1/3,1/3,0,...,0) y el centroide global (1/p,1/p,..,1/p). Estos ltimos
tienen la ventaja de considerar puntos en el interior de la regin a diferencia de los
diseos simplex que solo consideran la frontera de o la regin y en consecuencia solo
consideran los p-1 componentes de los p componentes.
Para localizar el punto central mediante la determinacin del nivel medio de todos los
niveles de la mezcla. El anlisis del centroide simplex es similar que el de red
simplex asumiendo la restriccin que la suma de todos los niveles de los factores
debe de ser igual a 1.
x1=1
x2=1 x2=1
(1,0,0)
(0,1/2,1/2)
(1/2,1/2,0)
(0,0,1)
(0,1,0)
(1/2,0,1/2)
(1/3,1/3,1/3)
As mismo existen diseos variantes del centroide donde incluimos mas
combinaciones dentro del rea respuesta. Por ejemplo el siguiente diseo con tres
factores que presenta 3 puntos en el interior del tringulo.
Con estos diseos podemos dilucidar la forma del rea de respuesta dentro del rea
del tringulo con mayor precisin.
x1=1
x2=1 x2=1
(1,0,0)
(0,1/2,1/2)
(1/2,1/2,0)
(0,0,1)
(0,1,0)
(1/2,0,1/2)
(1/3,1/3,1/3)
MODELOS PARA LOS DISEOS DE MEZCLAS
La forma cannica del polinomio de mezclas es derivado por la aplicacin de la
restriccin X1+X2+...+Xk=1 para simplificar los trminos del polinomio estndar.
Por ejemplo para dos componentes X1 y X2 el polinomio estndar de primer grado
es:
Y= o+1X1+2X2
Sin embargo como X1+X2=1, se puede remplazar o por o(X1+X2=1) en Y para
obtener:
Y= (o+1)X1+(o+2)X2
Y=1X1+2X2
De esta manera el termino o es removido del modelo. En el caso del polinomio de
segundo grado los trminos cuadrticos 11X1
2
y 22
2
son removidos del modelo, as
como el termino constante o. Por consiguiente los modelos de mezcla tienen menos
trminos que los polinomios estndar; a este tipo de formas cannicas de polinomios
se les denomina modelos tipo Scheff.
En general los modelos ms importantes de mezclas son:
Modelo lineal
Y iXi
i
k
=
=
1
El modelo lineal se usara en los casos en que la mezcla de los componentes sea
aditivo y la calidad del producto se defina como una combinacin lineal de sus
proporciones.
Modelo cuadrtico
Y iXi ijXiXj
i j
k
i
k
= + +
< =

1
El modelo cuadrtico se emplea si existe interaccin (antagonismo o sinergismo)
entre los constituyentes de la mezcla, y por consiguiente la calidad fue superior o
inferior a la que se hubiera obtenido con la combinacin lineal de sus proporciones.
Modelo Cbico Especial
Y iXi ijXiXj ijkXiXjXk
i
k
i j k
k
i j
k
= + + +
= < < <

1
Modelo cbico Completo
Y iXi ijXiXj ij XiXj Xi Xj ijkXiXjXk
i j
k
i
k
i j
k
i j k
k
= + + + +
< = < < <

1
( )
El termino cubico 123 identifica la diferencia en los valores de la variable
dependiente con la mezcla X1=1/3, X2=1/3, X=1/3 y el valor pronosticado en dicho
punto con el modelo cuadrtico.
El modelo lineal, cuadrtico y cbico completo son generalmente asociados con q,1
,q,2 y q,3 del diseo de red simplex, la ecuacin cubica especial es reducida a
la forma de un polinomio de tercer grado que posee medidas de las combinaciones
ternarias de los componentes i, j, y k, por consiguiente representa un polinomio al
menos de mayor grado de 2, que tiene el siguiente numero de trminos:
N
q q
=
+ ( )
2
5
6
Mientras que la formula para calcular el numero de trminos para el modelo cubico
completo es:
N
q q q
=
+ + ( )( ) 1 2
6
La forma cannica del polinomio
La siguiente tabla nos indica el numero de puntos de respuesta, el numero de factores
y el numero de espacios por factor:
Cuadrtico Cubico
especial
Cubico Cuartico
Numero de
espacios (m)
2 2 3 4
numero de
factores (q)
numero de puntos de
respuesta (k)
3 6 7 10 15
4 10 14 20 35
5 15 25 35 70
6 21 41 56 126
8 36 92 120 330
10 55 175 220 715
En general el numero de puntos en el diseo de red simplex es:
N
q m
m q
=
+
( )!
!( )!
1
1
La ecuacin anterior no es aplicable para el simplex cubico especial en cual
realmente en un simplex cuadrtico especial con puntos adicionales en el centro en
dos superficies dimensionales. Para este modelo se utiliza la siguiente ecuacin:
N
q q q q q
=
+
+
+ ( ) ( )( ) 1
2
1 2
6
La forma cannica del polinomio en k componentes que tiene los puntos calculados
del diseo de centroide simplex es:
Y iXi ijXiXj ijkXiXjXk kX X Xk
i j
k
i
k
i j k
k
= + + +
< = < <

1
1 2 1 2 , ... ...
Las grficas facilitan la visualizacin del diseo de red simplex que corresponde, as
como las reas de experimentacin.
INTERPRETACIN DE LOS COEFICIENTES ESTIMADOS
Los coeficientes i del modelo lineal representan la respuesta esperada del
componente Xi=1, Xj=0,ji. Y define la altura del rea de la mezcla en el vrtice
simplex denotado por Xi=1. La porcin ecuacin de cada modelo es llamado porcin
de la combinacin lineal y como mencionamos representa la combinacin de los
componentes estrictamente aditiva.
Los coeficientes binarios (ij) estimados es una medida de la curvatura del rea de
respuesta (llamado frecuentemente sinergismo o antagonismo) en la combinacin de
2 componentes.
2
1
12 0 >
Una prueba para encontrar sinergismo en una combinacin de 2 componentes es
mediante la hiptesis Ho: ij=0 contra ij0;la evaluacin es efectuada mediante la
ecuacin:
ecuacin
Comparando el valor de t calculado contra el de tablas; si Tcal>ttab inferimos con el
nivel de significancia establecido que el valor de la respuesta de los componentes
combinados es mayor que si utilizamos los componentes de manera individual.
Los trminos estimados de mayor grado como ijk o ijXiXj(Xi-Xj) describen
desviaciones adicionales en la forma del plano dentro del rea de respuesta, no solo
sobre los vrtices.
Cuando los datos son colectados solo de los puntos del q,m red simplex (as como
en los puntos del diseo simplex centroide) los coeficientes estimados en el
polinomio canonico es una simple funcin de los valores observados de respuesta.
Esto es por que el numero de trminos en los modelos es igual al numero de puntos
en el correspondiente diseo en red. Para demostrar esto suponemos que tenemos un
3,2 red simplex, y definimos como Y la media con r, observaciones replicadas,
colectadas en Xi=1,Xj=0; ij, i=1,2,3..k; adicionalmente, Yij es la media de las rij,
observaciones colectadas en la mezcla binaria 50% y 50% (Xi=1/2,Xj=1/2...Xk=0 de
todos i<j<k) de los componentes i y j. Los parmetros estimados de los coeficientes
del modelo cuadrtico son obtenidos usando:
12
=4Yij-2(Yi+Yj) (ntese que los
estimadores ij solo colectan los datos a lo largo del eje conectando los vrtices
Xi=1, Xl=0; li y Xj=1, Xl=0; lj) Las cantidades escalares 4 y 2 en la formula no
dependen de los valores de ri y rij; pero si provienen de los valores de Xi y Xj. Es
importante mencionar que la ecuacin slo puede utilizarse para calcular los
coeficientes en los modelos cuadrticos y cbicos especiales.
xi. Ejemplos de aplicaciones de los diseos de xi. Ejemplos de aplicaciones de los diseos de mezclas en farmacia mezclas en farmacia
A. DISEO DE MEZCLAS PARA UNA FORMULACIN DE
LIBERACIN PROLONGADA DE TEOFILINA.
1. PLANTEAMIENTO DEL PROBLEMA
EN ESTE EJEMPLO SE UTILIZA UN DISEO DE VERTICES (FIGURA 27) CON TRES
DIFERENTES DERIVADOS DE CELULOSA (HIDROXIPROPIL CELULOSA (HAPC),
HIDROXIPROPILMETIL CELULOSA (HPMC) Y CELULOSA MICROCRISTALINA (MC) PARA
PREPARAR TABLETAS QUE CONTENAN 10 % DE TEOFILINA MEDIANTE UNA GRANULACIN
HMEDA, DETERMINNDOSE EL EFECTO DE CADA DERIVADO DE CELULOSA SOBRE LA
PROLONGACIN DE LA LIBERACIN DE TEOFILINA, PARA ELLO SE UTILIZO COMO
VARIABLES DE RESPUESTA EL CALCULO DE LA CONSTANTE DE LA VELOCIDAD DE
LIBERACIN (k) ASI COMO EL TIEMPO MEDIO DE LIBERACIN (MTD) DE LAS
FORMULACIONES PRELIMINARES OBSERVADAS EN LA TABLA 10, DONDE SE DILUCIDA QUE
LOS MEJORES RESULTADOS SE LOCALIZAN DENTRO DEL AREA EXPERIMENTAL INICIAL
(FIGURA 27) QUE CORRESPONDIERON A LAS FORMULACIONES 3, 4 Y 5. POR CONSIGUIENTE
SE ESTABLECIO UN NUEVO DOMINIO EXPERIMENTAL (FIGURA 28) CON UN CENTROIDE
SIMPLEX DE 10 FORMULACIONES QUE SE INCLUYEN EN LA TABLA 12; CON ESTOS
RESULTADOS SE CONSTRUYO UN MODELO DE SEGUNDO GRADO MEDIANTE EL PAQUETE
SAS FOR WINDOWS (LA FORMA DE INTRODUCIR LOS DATOS EN ESTE PAQUETE SE
MUESTRA EN EL APENDICE D) Y SE OBSERVO QUE LOS MEJORES RESULTADOS DE LAS
VARIABLES DE RESPUESTA FUERON CONSEGUIDAS POR LAS FORMULACIONES B Y D.
Los experimentos preliminares se efectuaron con los siguientes limites:
0.1 X
1
0.2
0.1 X
2
0.2
0.7 X
3
0.9
A
B C
90%
70%
FIG. 27. DISEO DE VERTICES CON TRES DIFERENTES
DERIVADOS DE CELULOSA (HAPC), (HPMC) Y (MC).
1 2
3
4 5
7 6
8
9 10
11
FIGURA 28. NUEVO DOMINIO EXPERIMENTAL CON UN
CENTROIDE SIMPLEX
NUMERO DE
FORMULACIN
MC
(X
3
)
HPMC (X
2
) HPC
(X
1
)
MDT
MINUTOS
K (MIN
-1
)
1 90 10 0 28.2 0.053
2 90 0 10 16.3 0.591
3 87 6.5 6.5 26.7 0.558
4 83 13.5 3.5 54.2 0.019
5 83 3.5 13.5 43.0 0.024
6 80 20 0 8.4 0.014
7 80 10 10 17.1 0.078
8 80 0 20 10.5 0.138
9 77 15 8 9.7 0.049
10 77 8 15 18.5 0.063
11 70 15 15 18.2 0.048
TABLA 10 DISEO DE VERTICES CON TRES DIFERENTES DERIVADOS DE CELULOSA (HIDROXIPROPIL CELULOSA (HAPC),
HIDROXIPROPILMETIL CELULOSA (HPMC) Y CELULOSA MICROCRISTALINA (MC) .PROPORCIONES PRELIMINARES DE LAS
FORMULACIONES Y SUS CORRESPONDIENTES RESULTADOS.
Las 11 formulaciones iniciales se presentan en la tabla 10 donde se observa que las formulaciones 3, 4
y 5 presentan los mejores resultados de tiempo medio de liberacin, as como de la constante de
liberacin, por consiguiente se plantea un nuevo dominio experimental utilizando el tringulo que
forman las formulaciones antes mencionadas (figura 28) y aplicando un diseo centroide simplex 3,2
es decir con tres componentes se buscara establecer un polinomio de segundo orden por lo que ser
necesario tener 10 formulaciones (tabla 11 y 12). Para establecer las proporciones de los excipientes en
sus porcentajes originales se emplea la ecuacin 30, por ejemplo para proporcin X
1
=1/3, X
2
=1/3,
X
3
=1/3, los porcentajes originales sern:
X
i
=L
i
+(1-L)X`
i
X
1
=83+(1-0.9)1/3
X
1
= 86.4, X
2
= 6.8 y X
3
= 6.8
TABLA 11. CENTROIDE SIMPLEX DE 10 FORMULACIONES DONDE SE INCLUYEN EN LAS PROPORCIONES DE LOS PSEUDOCOMPONENTES SUS
CORRESPONDIENTES VALORES ORIGINALES
FORMULACION
X
3
X
2
X
1
X
3
% X
2
% X
1
%
3 1 0 0
87 6.5 6.5
4 0 1 0
83 13.5 3.5
5 0 0 1
83 3.5 13.5
G 1/2 1/2 0
88 8.5 3.5
C 1/2 0 1/2
88 3.5 13.5
A 0 1/2 1/2
83 8.5 8.5
B 1/3 1/3 1/3
86.5 6.8 6.8
E 2/3 1/6 1/6
89.66 5.166 5.166
F 1/6 2/3 1/6
84.66 10.166 5.166
D 1/6 1/6 2/3
84.66 5.166 10.166
2
TABLA 12. CENTROIDE SIMPLEX DE 10 FORMULACIONES DONDE SE INCLUYEN LAS PROPORCIONES Y RESULTADOS DE LA
SEGUNDA REA RESTRINGIDA
2. SALIDAS DEL SAS FOR WINDOWS
TABLA 13. ANALISIS DE VARIANZA
TABLA 14. CALCULO DE LA CANTIDAD DE VARIACIN
CALCULADA MEDIANTE: ( RA
2
)
Parameter Estimates
TABLA15. CALCULO DE LOS PARAMETROS DEL MODELO DE SEGUNDO GRADO
Ridge of Optimum
Coding Coefficients for the Independent Variables
FORMU-
LACIN
X
3
% X
2
% X
1
% MTD EN MINUTOS
3 100 0 0 22.40
4 0 100 0 54.20
5 0 0 100 43.00
G 50 50 0 51.50
C 50 0 50 127.50
A 0 50 50 77.08
B 33.33 33.33 33.33 144.60
E 66.67 16.67 16.67 80.00
F 16.67 66.67 16.67 86.05
D 16.67 16.67 66.67 102.10
SOURCE DF SUM
SQUARES
MEANS
SQUARES
F VALUE PROB>F
MODEL 6 73903.02 12317.17 35.80 0.002
ERROR 4 1376.26 344.06
TOTAL 10 75279.29
ROOT MSE 18.55 R-SQUARE 0.98
DEP MEAN 78.84 ADJ R-SQ 0.95
C.V. 23.53
VARIABLE DF ESTIMATE ERROR PARAMETER PROB> T
X
1
1 17.22 17.88 0.963 0.390
X
2
1 52.38 17.88 2.929 0.043
X
3
1 39.67 17.88 2.218 0.091
X
1
X
2
1 102.45 82.48 1.242 0.282
X
1
X
3
1 425.96 82.50 5.163 0.006
X
2
X
3
1 167.28 82.48 2.028 0.113
3
TABLA 16. CALCULO DE MAXIMO VALOR DE MTD EN SUS VARIABLES CODIFICADAS
3. CALCULO DE LAS PROPORCIONES DE LOS COMPONENTES EN SUS VALORES
ORIGINALES.
Para transformar las proporciones de los L-pseucomponentes correspondientes al mximo valor de
MTD ( X
1
= 0.45, X
2
=0.004, X
3
= 0.54 y MTD=134.76) de la tabla 15 a los valores originales se utiliza
la ecuacin 30.
Sustituyendo los datos correspondientes de la proporcin de cada componente en dicha ecuacin se
obtiene:
X
1
= 0.83+(1-0.9)0.45
X
1
= 0.876 o 87.6 %
X
2
= 0.035+(1-0.9)0.004
X
2
= 0.0354 o 3.54 %
X
3
= 0.035+(1-0.9)0.54
X
3
= 0.089 o 8.9 %
X1 X2 X3 PRED STDERR
0.32 0.28 0.39 117.99 9.30
0.33 0.33 0.33 113.57 9.25
0.33 0.23 0.43 121.43 9.52
0.35 0.18 0.45 120.00 9.79
0.36 0.19 0.46 124.44 10.00
0.38 0.14 0.48 127.24 10.83
0.40 0.09 0.50 129.88 12.05
0.43 0.05 0.52 132.37 13.63
0.45 0.004 0.54 134.76 15.57
0.48 0.047 0.511 72.16 13.64
4
FIGURA 27. GRFICA DE CONTONOS DE LA SALIDA DE SAS FOR WINDOWS PARA LA VARIABLE DE RESPUESTA,
Y= TIEMP O MEDIO DE DISOLUCIN
d) INTERPRETACIN DE LA SALIDAS EN SAS FOR WINDOWS
En la tabla 12 se presenta el anlisis de varianza de los resultados correspondientes a la segunda rea
restringida, donde se hace patente que el 95 % (Tabla 13) de la respuesta esta explicada por los factores
considerados en el modelo; presentando este modelo un nivel de significancia de 0.002, por lo que se
considera que el modelo cuadrtico que se genera a partir de los valores estimados de la tabla 15
describe de manera apropiada el comportamiento de los datos. Por consiguiente es posible determinar
la formulacin que genera el valor ptimo de MTD; mediante una grfica de contorno o mediante
mtodos numricos como el anlisis RIDGE; es importante recordar que las proporciones ptimas de la
tabla 16 corresponden a los l-pseudocomponentes y es necesario transformarlas a las proporciones de
los componentes originales, la cual resulto ser 87.5 % HAPC, 3.54% de HPMC y 8.9% de MC,
proporcin que es concordante con el valor que se observa en la grfica de contorno de la figura 27.
Como se observa a travs de este ejemplo los diseos de mezclas pueden utilizarse primero como una
fase exploratoria para tener una aproximacin a una zona de respuesta con los mejores resultados y a
partir de ella establecer otro diseo que dilucide de forma mas precisa la formulacin con mejores
caractersticas, obteniendo con ello un menor nmero de ensayos y consiguindose de una manera
sencilla y rpida el resultado deseado.
5
B. OPTIMIZACIN DE UNA FORMULACIN DE TABLETAS USANDO UN
DISEO DE MEZCLAS
a) PLANTEAMIENTO DEL PROBLEMA..
EN ESTE EJEMPLO SE REALIZA LA OPTIMIZACIN DEL PERFIL DE DISOLUCIN DE UNA
TABLETA DE LIBERACIN CONTROLADA DE NAFTIDROFURIL UTILIZANDO UN DISEO
CENTROIDE SIMPLEX. LOS EXCIPIENTES INVESTIGADOS FUERON AVICEL PH 102 (CELULOSA
MICROCRISTALINA) , TABLETOSSE EP (LACTOSA) Y FOSFATO DE CALCIO DIHIDRATADO.
REALIZNDOSE COMO PRIMER PASO UNA GRANULACIN CON EL PRINCIPIO ACTIVO CON
GOMA XANTANA, GOMA GUAR, LACTOSA D80 Y UNA SOLUCIN DE PVP AL 5.0%. LOS
PARMETROS DE RESPUESTA FUERON: VELOCIDAD DE LIBERACIN, RESISTENCIA A LA
RUPTURA, FRIABILIDAD Y VARIACIN DE PESO OBTENINDOSE COMO RESULTADO UN
MODELO MATEMTICO DE PREDICCIN DE RESPUESTA CON EL MODELO DE SCHEFF Y UNA
GRFICA DE CONTORNO LO QUE AYUDO A ENCONTRAR LA FORMULACIN CON LAS MEJORES
CARACTERSTICAS.
FORMU-
LA
AVICEL
PH 102
X
1
TABLETOSE
EP X
2
FOSFATO DE
CALCIO
DIHIDRATADO
X
3
T90% EN
BUFFER
(MIN)
RESISTEN-
CIA A LA
RUPTURA
(N)
FRIABI-
LI DAD
%
VARIACIN
DE PESO
(%)
1 1 0 0 197 127 0.65 0.67
2 0 1 0 110 63 1.18 1.04
3 0 0 1 324 83 0.77 1.82
4 1/2 1/2 0 67 83 0.75 0.75
5 1/2 0 1/2 362 88 0.70 0.47
6 0 1/2 1/2 312 64 0.91 1.67
7 1/3 1/3 1/3 214 69 0.74 0.77
8 2/3 1/6 1/6 206 101 0.53 0.35
9 1/6 2/3 1/6 171 59 0.89 0.87
10 1/6 1/6 2/3 344 74 0.77 0.88
TABLA 17. PROPORCIONES DE LAS MEZCLAS Y RESULTADOS DE LAS VARIABLES DE RESPUESTA
6
b) RESULTADOS OBTENIDOS EN SAS FOR WINDOWS PARA T90% EN BUFFER.
Number of observations in data set = 10
The SAS System
Sum of Mean
Source DF Sum
Squares
Means
Squares
F Value Pr>F
Model 6 623175.961 103862.660 297.81 0.0001
Error 4 1395.039 348.760
Total 10 624571.000
TABLA 18. ANALISIS DE VARIANZA PARA T90% EN BUFFER
Dep. Mean 230.7000 Adj. R-sq 0.944
C.V. 8.0949
2
)
Parameter=0
Estimate
X1 198.1388835 0.0004 18.01029645
X2 114.0491544 6.33 0.0032 18.00569842
X3 328.9906419 18.27 0.0001 18.01080247
X1*X2 -402.3949997 -4.85 0.0084 83.04345830
X1*X3 351.4912003 4.23 0.0134 83.06565558
X2*X3 331.3131397 3.99 0.0163 83.04591621
TABLA 20. CALCULO DE LOS PARAMETROS DEL MODELO DE SEGUNDO GRADO PARA T90 % EN BUFFER
PROPOR-
CIN
1 0.33317 0.33331 0.33352 244.515 9.40054
2 0.30282 0.29357 0.40360 272.272 9.45110
3 0.27560 0.25154 0.47285 295.758 9.50662
4 0.25487 0.20537 0.53976 315.123 9.54976
5 0.24821 0.15225 0.59953 330.771 9.83745
6 0.26451 0.092922 0.64256 343.724 10.9659
7 0.29772 0.035412 0.66687 355.513 13.1002
TABLA 21. CALCULO DEL MAXIMO VALOR DE T90 % EN BUFFER
7
FOSFATO
DE CALCIO
0
20
40
60
80
100
100
100 80
80
60
60 40
40
20
20
0
0
330
270
210
150
90
MC
LACTOSA
FIG. 30. SUPERFICIE DE CONTORNO DEL TIEMPO CUANDO 90% DE NAFTIDROFURIL ES LIBERADO EN BUFFER DE FOSFATOS
1. INTERPRETACIN DE RESULTADOS DE T 90 % EN BUFFER
T90% en buffer, donde se manifiesta la gran relacin que existe entre los constituyentes de la mezcla y
la disolucin debido a que el valor de significancia del modelo es de 0.001, as tambin la cantidad de
de los datos de disolucin; el mximo valor calculado para este parmetro corresponder a la
proporcin 7 de la tabla 21 y es de 355 minutos. Se observa tambin en la grfica de contornos que a
medida que se incremente la cantidad de fosfato de calcio la disolucin se vera retardada.
d) RESULTADOS OBTENIDOS EN SAS FOR WINDOWS PARA VARIACION DE PESO.
Source DF Squares Square F Value Prob>F
Model 6 10.54190 1.75698 58.568 0.0007
Error 4 0.12000 0.03000
U Total 10 10.66190
TABLA 22. ANALISIS DE VARIANZA PARA VARIACIN DE PESO
C.V. 18.64388
2
)
8
Parameter=0
Estimate
X1 0.680034012 4.07 0.0152 0.16703582
X2 1.049451021 6.28 0.0033 0.16699318
X3 1.786422609 10.69 0.0004 0.16704051
X1*X3 -3.598696576 -4.67 0.0095 0.77038931
X1*X2 -0.834480738 -1.08 0.3395 0.77018345
X2*X3 0.458244117 0.59 0.5839 0.77020624
TABLA 24. CLACULO DE LOS PARAMETROS DELMODELO DE SEGUNDO GRADO PARA VARIACIN DE PESO
1 0.33317 0.33331 0.33352 0.72964 0.08699
2 0.38164 0.32105 0.29731 0.65989 0.08733
3 0.42454 0.29268 0.28277 0.60244 0.08767
4 0.45821 0.25045 0.29134 0.55142 0.08820
5 0.48423 0.20223 0.31355 0.50191 0.09099
6 0.50569 0.15237 0.34194 0.45130 0.09783
7 0.52453 0.10227 0.37321 0.39838 0.10945
8 0.54177 0.05227 0.40596 0.34257 0.12585
9 0.55799 0.00247 0.43955 0.28354 0.14664
TABLA 25. CALCULO DEL MINIMO VALOR PARA VARIACIN DE PESO
0
20
40
60
80
100
100
100 80
80
60
60 40
40
20
20
0
FOSFATO
DE CALCIO
0.4
0.7
1.0
1.3
1.6
MC
LACTOSA
0
FIG. 31 SUPERFICIE DE CONTORNO PARA LOS RESULTADOS DE VARIACIN DE PESO
1. INTERPRETACIN DE LOS RESULTADOS CORRESPONDIENTES A VARIACIN DE PESO.
En la tabla 22 se hace patente la relacin que existe entre las proporciones de los constituyentes de la
mezcla y la variacin de peso de las tabletas mediante un anlisis de varianza por que el valor de
significancia del modelo es de 0.0007, y se considera que el modelo cuadrtico que se genera a partir
9
de los valores estimados de la tabla 25 describe de manera apropiada el comportamiento de los datos de
variacin de peso por que la variacin explicada que se observa en la tabla 24 es de 97 %, as mismo
para este parmetro el valor mnimo es de 0.28 % y corresponde a la proporcin 9 de la tabla 26. En la
grfica de contornos de la figura 31 se observa que a medida que se incrementen las proporciones de
celulosa microcristalina y fosfato de calcio se disminuir la variacin de peso de las tabletas.
c) RESULTADOS OBTENIDOS EN SAS FOR WINDOWS PARA RESISTENCIA A LA RUPTURA.
The SAS System
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 6 70289.4560 11714.9093 423.90 0.0001
Error 4 110.5440 27.6360
Uncorrected
Total
10 70400.0000
TABLA 26. ANALISIS DE VARIANZA PARA RESISTENCIA A LA RUPTURA
Dep Mean 81.600 Adj. R-sq 0.9961
C.V. 6.4424
2
)
Parameter=0
Estimate
X1 128.7307889 25.39 0.0001 5.06985116
X3 84.4767491 16.66 0.0001 5.06999360
X2 61.2830869 12.09 0.0003 5.06855682
X1*X3 -66.8320744 -2.86 0.0460 23.38276392
X1*X2 -53.0976956 -2.27 0.0856 23.37651544
X2*X3 -41.6060801 -1.78 0.1497 23.37720733
TABLA 28. CAlCULO DE LOS PARAMETROS DEL MODELO DE SEGUNDO GRADO PARA VARIACIN DE PESO
1 0.33317 0.33331 0.33352 73.4991 2.62925
2 0.37986 0.31541 0.30473 75.8337 2.63770
3 0.42882 0.30415 0.26703 78.4042 2.65783
4 0.47940 0.29991 0.22068 81.2427 2.70318
5 0.53075 0.30229 0.16696 84.3814 2.82761
6 0.58210 0.31026 0.10764 87.8490 3.11959
7 0.63298 0.32262 0.04440 91.6687 3.66135
TABLA 29. CALCULO DEL MAXIMO VALOR PARA RESISTENCIA A LA RUPTURA
10
0
20
40
60
80
100
100
100 80
80
60
60 40
40
20
20
0
0
110
100
90
80
70
LACTOSA
CM
FOSFATO
DE CALCIO
FIG. 32 SUPERFICIE DE CONTORNO PARA LOS RESULTADOS DE RESISTENCIA A LA RUPTURA
1. INTERPRETACIN DE LOS RESULTADOS CORRESPONDIENTES RESISTENCIA A LA
RUPTURA.
La relacin que existe entre las proporciones de los constituyentes de la mezcla y la resistencia a la
ruptura de la tabletas es estadsticamente significativa por que la tabla 26 de anlisis de varianza posee
un valor de significancia de 0.0001, y se considera que el modelo cuadrtico que se genera a partir de
los valores estimados de la tabla 28 describe de manera apropiada el comportamiento de los datos por
que la variacin explicada en la tabla 27 es de 99 %, as mismo para la resistencia a la ruptura el valor
mximo es de 91 N y corresponde a la proporcin 7 de la tabla 28. En la grfica de contornos de la
figura 32 se observa que las propiedades de dureza de la tableta se vern mejoradas a medida que se
incremente la proporcin de celulosa microcristalina.
d. RESULTADOS DE FRIABILIDAD
The SAS System
Source DF Sum
Squares
Mean
Square
F Value Prob>F
Model 6 6.4872 1.0812 294.58 0.0001
Error 4 0.0147 0.0367
U Total 10 6.5019
TABLA 30. ANALISIS DE VARIANZA PARA FRIABLIDAD
C.V. 7.6785
2
)
11
Parameter=0
Estimate
X2 1.185729 20.300 0.0001 0.05841160
X3 0.784885 13.433 0.0002 0.05842816
X1 0.624763 10.693 0.0004 0.05842652
X1*X2 -0.787163 -2.922 0.0432 0.26939814
X2*X3 -0.306871 -1.139 0.3183 0.26940611
X1*X3 -0.148213 -0.550 0.6116 0.26947015
TABLA 32. CALCULO DE LOS PARAMETROS DEL MODELO DE SEGUNDO GRADO PARA FRIABILIDAD
PROPOR-
CIN
1 0.33317 0.33331 0.33352 0.729641 0.030341
2 0.37731 0.30982 0.31287 0.70887 0.030427
3 0.42355 0.29052 0.28593 0.69272 0.030574
4 0.47182 0.27606 0.25212 0.67799 0.030700
5 0.52182 0.26689 0.21129 0.66459 0.030937
6 0.57311 0.26311 0.16378 0.65236 0.031795
7 0.62516 0.26444 0.11040 0.64113 0.034218
8 0.67746 0.27032 0.05222 0.63079 0.039286
TABLA 33. CALCULO DEL MINIMO VALOR PARA FRIABILIDAD
0
20
40
60
80
100
100
80
60
40 20
0
0
0.7
0.8
100 80 60
40
20
0
0.9
1.0
1.1
MC
LACTOSA
FOSFATO
DE CALCIO
FIGURA 32. SUPERFICIE DE CONTORNO PARA LOS RESULTADOS DE FRIABILIDAD
12
1. INTERPRETACIN DE RESULTADOS DE FRIABILIDAD.
friabilidad, donde se manifiesta la gran relacin que existe entre los constituyentes de la mezcla y la
disolucin debido a que el valor de significancia del modelo es de 0.001, as tambin la cantidad de
de los datos de friabilidad; el mnimo valor calculado para este parmetro corresponder a la
proporcin 8 de la tabla 32 y es de 0.63. En la grfica de superficies de contorno (figura 32) se
observa que a medida que se incrementen la proporcin de celulosa microcristalina y fosfato de calcio
las tabletas tendrn mejores caractersticas de friabilidad.
E. RESULTADOS GENERALES
RESPUESTA ADJ R-SQ POLINOMIO OBTENIDO
FRIABLIDAD % 0.9944 0.625 X
1
+

1.186 X
2
+

0.785X
3
-0.787X
1
X
2
-0.148 X
1
X
3
+0.307X
2
X
3
VARIACIN DE
PESO %
0.9719 0.68X
1
+ 1.049 X
2
+ 1.786 X
3
-

0.834 X
1
X
2
- 3.598 X
1
X
3
+0.458X
2
X
3
RESISTENCIA A
LA RUPTURA
(N)
0.9970 129.09 X
1
+

61.645 X
2
+

83.474 X
3
-

53.508 X
1
X
2
-69.943 X
1
X
3
-
44.745 X
2
X
3
VELOCIDAD DE
DISOLUCIN
(MIN)
0.9944 198.139 X
1
+

114.049 X
2
+

328.99 X
3
-402.395 X
1
X
2
+351X
1
X
3
+X
2
X
3
331.313
TABLA 34. RESUMEN DE LOS POLINOMIOS Y COEFICIENTES DE AJUSTE OBTENIDOS MEDIANTE SAS FOR WINDOWS
13
FRIABILIDAD
DISOLUCIN
RESISTENCIA A LA RUPTURA
VARIACIN DE PESO
0
20
40
60
80
100
100
100 80
80
60
60 40
40
20
20
0
FOSFATO
DE CALCIO
0.4
MC
LACTOSA
0
FIGURA 34. GRAFICAS SUPERPUESTAS DE LAS AREAS CON LAS MEJORES RESPUESTAS
1. INTERPRETACIN DE RESULTADOS GENERALES
En la tabla 16 se observa cada una de las formulaciones propuestas en sus variables codificadas y sus
resultados sobre las variables de respuesta, con lo cual se generaron los polinomios de respuesta y sus
respectivas coeficientes de variacin explicada, cada uno de los cuales es superior al 90 % por lo que se
considera que dichos polinomios explican de manera suficiente el comportamiento de los resultados,
por consiguiente se generan las respectivas grficas de contorno. En la grfica correspondiente a la
friabilidad (figura 33) se observa que a medida que se incrementen las proporciones de celulosa
microcristalina y fosfato de calcio se esperaran mejores caractersticas de friablidad de las tabletas, as
tambin se observa algo parecido para la grfica de variacin de peso (figura 31) y para la grfica de
resistencia a la ruptura (figura 32); contrariamente en la grfica de tiempo cuando 90% de naftidrofuril
es liberado se observa que a medida que se incremente la cantidad de fosfato de calcio se obtendrn
mejores caractersticas de liberacin (figura 30); tomado los contornos de mejor respuesta de cada una
de las grficas y superponindolas se puede generar la grfica 34 a partir de la cual se establece el rea
donde se deber buscar la proporcin de cada excipiente que nos brindara las tabletas con las mejores
caractersticas de cada uno de los parmetros evaluados; y la cual resulta ser de 36.0 % de Carboximetil
celulosa, 60.0 % de Fosfosto de calcio y 4.0 % de Lactosa.
ESTUDIO DE CASO DE REGRESIN LINEAL MLTIPLE.
Con el objetivo de mostrar las herramientas del anlisis de regresin mltiple que se
revisaron en el capitulo anterior, se tomo como caso de estudio un experimento sobre un proceso
farmacutico que es influenciado por diversos factores, el cual es una granulacin en lecho
fluidizado. En este proceso influyen diversos factores, tales como: Temperatura del aire de entrada
al granulador de lecho fluido, presin del aire de atomizacin, cantidad de solucin aglutinante,
entre otros. En este estudio slo se tomaron en cuenta los factores mencionados, para evaluar su
influencia sobre la friabilidad de grnulos de -Lactosa monohidratada, elaborados en un granulador
de lecho fluidizado. La friabilidad se determin como peso perdido de los grnulos despus de 100
ciclos en el fragilizador.
La granulacin en lecho fluidizado se ha estudiado ampliamente, pero en la mayora de los
casos slo se evala el efecto de una variable, y en algunos otros se emplearon diseos factoriales 2
n
y 3
2
, los cuales tambin son limitados.
Se ha mostrado que el empleo de la metodologa de superficie de respuesta con diseos
factoriales es un mtodo efectivo que proporciona la mxima informacin con un limitado nmero
de experimentos. Diversos autores han empleado anlisis de regresin, por ejemplo Lindber et al
(1985-1987) empleo anlisis de regresin en el estudio de la influencia de la composicin y
variables de proceso sobre el tiempo de desintegracin, dureza y friabilidad de tabletas. En
granulacin, Wehrl et al (1989) empleo el anlisis de regresin stepwise para comparar diferentes
granuladores. Posteriormente, Bos et al (1991 a,b,c) aplic el anlisis de regresin para estudiar
tabletas elaboradas por compresin directa.
A continuacin se plantea el estudio de caso, en el cual se aplican las diversas tcnicas de
anlisis de regresin sobre un problema del mbito farmacutico.
2
Problema.
El objetivo del estudio de Merkku y col. (1993) sobre el proceso de granulacin hmeda en
lecho fluido fue mostrar la aplicacin del mtodo stepwise del anlisis de regresin mltiple para
encontrar el mejor modelo de prediccin, sin embargo, en esta seccin se presentan los diferentes
mtodos del anlisis de regresin aplicados a un proceso farmacutico, mostrando los diferentes
criterios e interpretaciones para lograr obtener un modelo de regresin mltiple que ajuste de manera
adecuada a los resultados experimentales.
El estudio se realiz en base a un diseo factorial 3
3
, donde las variables independientes
fueron: Temperatura del aire de entrada, presin del aire de atomizacin y cantidad de solucin
aglutinante, mientras que la variable de respuesta fue el porcentaje de peso perdido por friabilidad.
Los niveles de las variables independientes se muestran en el cuadro 8.1 y la matriz de
experimentacin en el cuadro 8.2. Es importante mencionar que en los extremos del diseo los
granulados se hicieron por duplicado y el punto central se realizo por cuadruplicado, por lo tanto
fueron 38 experiencias en total.
Niveles
Variable
-1 0 +1 Dimensin
Temperatura del aire de
entrada (T)
40 50 60 (C)
Presin del aire de
atomizacin (p)
1.0 1.5 2.0 (bar)
Cantidad de solucin
aglutinante (m)
150 300 450 (g)
Cuadro 1. Niveles de las variables independientes.
3
Variables
Experimento
T p m
1
*
-1 -1 -1
2 -1 -1 0
3
*
-1 -1 +1
4 -1 0 -1
5 -1 0 0
6 -1 0 +1
7
*
-1 +1 -1
8 -1 +1 0
9
*
-1 +1 +1
10 0 -1 -1
11 0 -1 0
12 0 -1 +1
13 0 0 -1
14
**
0 0 0
15 0 0 +1
16 0 +1 -1
17 0 +1 0
18 0 +1 +1
19
*
+1 -1 -1
20 +1 -1 0
21
*
+1 -1 +1
22 +1 0 -1
23 +1 0 0
24 +1 0 +1
25
*
+1 +1 -1
26 +1 +1 0
27
*
+1 +1 +1
* Duplicado ** Cuadruplicado
Cuadro 2. Matriz experimental
4
Una vez que se construye el diseo factorial y se obtienen los resultados, se puede estudiar, a
travs de regresin mltiple, la dependencia de la friabilidad, en funcin de las variables
independientes T, p y m en el diseo factorial 3
3
. El mtodo Stepwise de regresin mltiple se ha
empleado en estudios de granulacin con dos variables independientes. Bos et al, aplic la misma
tcnica en un diseo factorial 3
4
en la evaluacin de estabilidad de tabletas. Por lo tanto, en este caso
de estudio se llegar a un modelo de regresin mltiple mostrando e interpretando cada etapa en que
se realiza. La forma general del modelo de regresin que describe el comportamiento de la
friabilidad de los grnulos elaborados en un granulador de lecho fluidizado en funcin de las tres
variables independientes en estudio es la ecuacin (8.1.1), la cual se deber simplificar lo ms
posible hasta obtener un modelo que contenga slo aquellos factores que influyen de manera
significativa sobre la respuesta.
FR T p m Tp Tm
pm T p m Tpm
= + + + + + +
+ + + +

0 1 2 3 12 13
23 11
2
22
2
33
2
123

(1.1)
Donde T, p, m son las variables independientes. FR es la variable de respuesta (friabilidad) y las s
son los diferentes coeficientes de regresin que se deben estimar a partir de los resultados
experimentales, los cuales se presentan a continuacin.
2.- Resultados experimentales.
El anlisis estadstico, es decir, el ajuste de los resultados a un modelo de regresin que
mejor describe la dependencia de la friabilidad en funcin de T, p, m, se realiz con los resultados
que se presentan en el cuadro 8.3; se observa que se tomaron las unidades reales de las variables
independientes, esto se debe a que no se controlaron estrictamente los niveles de cada variable, y
como se desea llegar a un modelo de prediccin, es mejor considerar estas variaciones.
5
Experienci
a
Temperatura
del aire de
entrada
(C)
Presin del
aire de
atomizacin
(bar)
Cantidad de
solucin
aglutinante
(g)
Friabilidad
(%)
Experiencia
Temperatura
del aire de
entrada (T)
(C)
Presin del
aire de
atomizacin
(bar)
Cantidad de
solucin
aglutinante
(g)
Friabilidad
(%)
1 41.4 1.0 162 24.8 14c 51.0 1.4 308 47.8
1b 42..4 1.0 152 21.0 14d 52.7 1.5 308 37.2
2 44.6 0.9 307 18.6 15 48.9 1.5 457 24.3
3 44.1 1.0 459 5.6 16 51.6 1.9 157 47.5
3b 41.4 1.0 457 15.0 17 51.1 2.0 306 29.0
4 41.2 1.5 156 36.9 18 49.5 2.0 453 24.2
5 42.6 1.4 306 16.1 19a 61.4 1.0 160 45.5
6 44.2 1.5 459 8.3 19b 59.0 1.0 157 45.5
7 43.8 1.9 167 45.3 20 61.5 1.0 313 14.1
7b 41.5 2.0 158 53.3 21a 58.0 0.9 459 13.0
8 44.6 2.0 305 37.4 21b 59.6 1.0 459 6.2
9 43.4 2.0 461 23.3 22 59.7 1.5 157 37.8
9b 41.3 2.0 459 23.9 23 58.8 1.5 309 31.3
10 53.7 1.0 162 24.2 24 58.9 1.6 457 20.9
11 51.9 1.0 306 11.8 25a 61.4 1.9 162 64.8
12 49.9 1.0 457 8.8 25b 61.0 2.0 159 47.9
13 51.7 1.5 158 37.4 26 59.7 1.9 309 38.2
14 51.2 1.5 300 44.2 27a 59.3 2.0 456 31.6
14b 50.5 1.4 310 28.9 27b 58.6 2.0 456 51.0
Cuadro 3. Resultados del porcentaje de friabilidad
A continuacin se presenta la aplicacin de las diferentes tcnicas del anlisis de regresin
mltiple descritas en el capitulo 7, y con ayuda del paquete estadstico SAS, se determinan los
modelos de regresin. En el programa 8.1. se muestran los diferentes procedimientos para lograr lo
anterior, y cada uno se describe posteriormente. Se deben crear en el programa todas las variables
necesarias que sean funcin de otras variables bsicas que se quieran probar en el modelo, antes de
introducir los resultados experimentales.
6
Programa 1. Programa para obtener un Modelo de Anlisis de Regresin, a
travs de diversas tcnicas.
OPTIONS PS=60 nodate nonumber;
DATA REGMUL1;
INPUT Batch $
T /* Temperatura del aire de entrada (C) -1=40 0=50 +1=60 */
p /* Presin del aire de atomizacin (Bar) -1=1.0 0=1.5 +1=2.0 */
m /* Cantidad de solucin aglutinante (g) -1=150 0=300 +1=450 */
Fr /* Friabilidad (%), perdida de masa en porcentaje */
;
Tp=T*p; Tm=T*m; pm=p*m; TT=T*T; pp=p*p; mm=m*m; Tpm=T*p*m;
CARDS;
1a 41.4 1.0 162 24.8 1b 42.4 1.0 152 21.0 2 44.6 0.9 307 18.6
3a 44.1 1.0 459 5.6 3b 41.4 1.0 457 15.0 4 41.2 1.5 156 36.9
5 42.6 1.4 306 16.1 6 44.2 1.5 459 8.3 7a 43.8 1.9 167 45.3
7b 41.5 2.0 158 53.3 8 44.6 2.0 305 37.4 9a 43.4 2.0 461 23.3
9b 41.3 2.0 459 23.9 10 53.7 1.0 162 24.2 11 51.9 1.0 306 11.8
12 49.9 1.0 457 8.8 13 51.7 1.5 158 37.4 14a 51.2 1.5 300 44.2
14b 50.5 1.4 310 28.9 14c 51.0 1.4 308 47.8 14d 52.7 1.5 308 37.2
15 48.9 1.5 437 24.3 16 51.6 1.9 157 47.5 17 51.1 2.0 306 29.0
18 49.5 2.0 453 24.2 19a 61.4 1.0 160 45.5 19b 59.0 1.0 157 45.5
20 61.5 1.0 313 14.1 21a 58.0 0.9 459 13.0 21b 59.6 1.0 459 5.2
22 59.7 1.5 157 37.8 23 58.8 1.5 309 31.3 24 58.9 1.6 457 20.9
25a 61.4 1.9 162 64.8 25b 61.0 2.0 159 47.9 26 59.7 1.9 309 38.2
27a 59.3 2.0 456 31.6 27b 58.6 2.0 456 51.0
;
proc corr;
proc reg;
model Fr=t p m Tp Tm pm TT pp mm Tpm /SELECTION=BACKWARD
SLE=0.05 SLS=0.05;
model Fr=t p m Tp Tm pm TT pp mm Tpm /SELECTION=FORWARD
SLE=0.05 SLS=0.05;
model Fr=t p m Tp Tm pm TT pp mm Tpm /SELECTION=STEPWISE
SLE=0.05 SLS=0.05;
run;
Debido a que existen ms de dos variables independientes, no se puede observar de manera
grfica la posible relacin entre dichas variables y la variable de respuesta, sin embargo, como se
mencion en la seccin 7.6.1. se puede comenzar por encontrar una matriz de correlacin entre todas
las variables, a travs de la cual se obtienen todos los coeficientes de correlacin de orden cero para
tener una idea de la posible correlacin entre las variables independientes (Temperatura del aire de
entrada, presin del aire de atomizacin y cantidad de solucin aglutinante) y la variable de
respuesta (friabilidad de los grnulos). Esta matriz se muestra en la salida 8.1.
7
Salida 1. Matriz de correlacin entre todas las variables
The SAS System
11 'VAR' Variables: T P M FR TP
TM PM TT PP MM
TPM
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
T 38 51.2395 7.2172 1947 41.2000 61.5000
P 38 1.4789 0.4154 56.2000 0.9000 2.0000
M 38 307.4474 124.5938 11683 152.0000 461.0000
FR 38 30.0421 14.9980 1142 5.2000 64.8000
TP 38 75.7676 23.9641 2879 40.1400 122.0000
TM 38 15707 6652 596864 6427 27356
PM 38 455.8079 235.7149 17321 152.0000 922.0000
TT 38 2676 741.0779 101696 1697 3782
PP 38 2.3553 1.2327 89.5000 0.8100 4.0000
MM 38 109639 77382 4166281 23104 212521
TPM 38 23277 12375 884510 6445 54082
The SAS System
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 38
T P M FR TP TM
T 1.00000 -0.00440 -0.05312 0.26481 0.44160 0.26654
0.0 0.9791 0.7515 0.1081 0.0055 0.1058
P -0.00440 1.00000 0.02202 0.54776 0.88560 0.01741
0.9791 0.0 0.8956 0.0004 0.0001 0.9174
M -0.05312 0.02202 1.00000 -0.59782 -0.00619 0.93763
0.7515 0.8956 0.0 0.0001 0.9706 0.0001
FR 0.26481 0.54776 -0.59782 1.00000 0.60947 -0.49251
0.1081 0.0004 0.0001 0.0 0.0001 0.0017
TP 0.44160 0.88560 -0.00619 0.60947 1.00000 0.13272
0.0055 0.0001 0.9706 0.0001 0.0 0.4270
TM 0.26654 0.01741 0.93763 -0.49251 0.13272 1.00000
0.1058 0.9174 0.0001 0.0017 0.4270 0.0
PM -0.04756 0.57694 0.79671 -0.16236 0.48795 0.74403
0.7767 0.0001 0.0001 0.3301 0.0019 0.0001
TT 0.99868 -0.00434 -0.06135 0.26897 0.44121 0.25795
0.0001 0.9794 0.7144 0.1025 0.0056 0.1179
PP -0.00499 0.99536 0.03341 0.53520 0.88041 0.02822
0.9763 0.0001 0.8422 0.0005 0.0001 0.8665
MM -0.05905 0.02457 0.99081 -0.59157 -0.00653 0.92612
0.7247 0.8836 0.0001 0.0001 0.9690 0.0001
TPM 0.20697 0.55834 0.75865 -0.08512 0.59540 0.80525
0.2125 0.0003 0.0001 0.6114 0.0001 0.0001
8
En la salida 1 se obtienen los coeficientes de correlacin de orden cero, llamados tambin de
Pearson, en forma equivalente a la matriz de correlacin 7.6.4. De estos coeficientes, los de mayor
inters son aquellos que relacionan a las variables independientes con la variable de respuesta, los
cuales se resaltan en la salida 8.3. De estos se observa, en funcin de la hiptesis nula que se prueba
(Ho:Rho=0), que las variables que pueden estar correlacionadas con la Friabilidad son: P, M, TP,
TM, PP y MM; debido a que todas ellas tienen un nivel de significancia menor al 0.05 %, por lo que
caen en la zona de rechazo con un nivel de significancia del 5%. As, la variable que mayor
correlacin tiene con la friabilidad es la interaccin TP, debido a que tiene el coeficiente de
correlacin ms cercano a 1 (0.60947) cuya probabilidad de que sea diferente de cero es alta. Los
factores que le siguen importancia de correlacin de orden cero con la friabilidad son: M, MM, P,
PP y TM. . Sin embargo, esto no significa que todas las variables mencionadas sean
estadsticamente importantes en la prediccin de la friabilidad, por lo que se requiere evaluar
correlaciones de mayor orden para determinar cuales variables realmente influyen sobre la respuesta
y en que magnitud, lo cual se obtiene a travs de los diferentes procedimientos del anlisis de
regresin mltiple y pruebas de F total y parcial.
De acuerdo al procedimiento del programa 8.1. se comienza con el anlisis de regr esin
mltiple, obtenindose un modelo a travs del procedimiento de eliminacin Backward.. Para este
procedimiento se obtiene la salida 2. donde se pueden observar el nmero de pasos necesarios para
llegar al modelo que involucra slo a las variables que ayudan a predecir la friabilidad.
Comienza ajustando un modelo con todas las variables, proporcionando un cuadro de
Anlisis de Varianza. donde se resume la prueba de hiptesis acerca del modelo completo, es decir,
se evalan las 10 variables independientes al mismo tiempo, y se observa que el modelo es
estadsticamente significativo debido a que el valor Prob>F es de 0.0001, adems de tener un
coeficiente de determinacin diferente de cero (0.7645)
Posteriormente proporciona informacin acerca de las pruebas de hiptesis de Fs parciales
(con la suma de cuadrados tipo II) donde se observa que el valor de F parcial ms bajo lo tiene la
variable TT, cuyo efecto no es significativamente importante, por lo que en el siguiente paso es
eliminada, lo cual se observa en la etapa 1 del proceso de eliminacin de la salida 8.2, donde se
obtiene un modelo con 9 variables independientes y aun es estadsticamente significativo, debido a
que el valor de Prob>F es de 0.0001, de hecho, los parmetros del ANOVA son muy parecidos a los
9
que se obtienen en el modelo con todas las variables independientes, sin embargo an se tienen
trminos en el modelo cuyo efecto no influye sobre la variable de respuesta que se est evaluando,
por lo que el proceso de eliminacin contina hasta obtener un modelo en que todas las variables
independientes tengan un efecto significativo sobre la respuesta, lo cual se consigue hasta la etapa 7,
donde slo quedan tres variables en el modelo. Al final de la salida 8.2 se resumen los pasos para
llegar al modelo de regresin mltiple, donde se describen los valores de los coeficientes de
correlacin parciales, los cuales proporcionan el mejoramiento en la prediccin de la respuesta por
incluir al modelo la variable que se est eliminando, as se observa que las variables que se
eliminaron no ayudan a predecir la respuesta en forma significativa.
10
Salida 2. Modelo de regresin mltiple por procedimiento de eliminacin.
The SAS System
Backward Elimination Procedure for Dependent Variable FR
Step 0 All Variables Entered R-square = 0.76452509 (p) =11.00000000
Regression 10 6362.96849157 636.29684916 8.77 0.0001
Error 27 1959.80414001 72.58533852
Total 37 8322.77263158
INTERCEP -147.29114119 127.36956724 97.06682275 1.34 0.2576
T 3.08468134 4.40212245 35.64062258 0.49 0.4895
P 122.07272736 67.72711932 235.80933543 3.25 0.0827
M 0.44075570 0.28345765 175.49648869 2.42 0.1316
TP -1.82171206 1.09374435 201.36163347 2.77 0.1074
TM -0.01024674 0.00515318 286.99243775 3.95 0.0570
PM -0.33175573 0.17120127 272.56607387 3.76 0.0632
TT 0.00264552 0.04076029 0.30577182 0.00 0.9487
PP -2.96610042 12.63133800 4.00241295 0.06 0.8161
MM 0.00001630 0.00014498 0.91795375 0.01 0.9113
TPM 0.00651017 0.00330405 281.79923076 3.88 0.0591
--------------------------------------------------------------------------
Step 1 Variable TT Removed R-square = 0.76448835 C(p) = 9.00421258
Regression 9 6362.66271975 706.96252442 10.10 0.0001
Error 28 1960.10991183 70.00392542
Total 37 8322.77263158
INTERCEP -153.12103100 88.68410994 208.68943314 2.98 0.0953
T 3.34863288 1.65500385 286.58895683 4.09 0.0527
P 121.27011174 65.39380947 240.74466610 3.44 0.0742
M 0.43791454 0.27503214 177.47378641 2.54 0.1226
TP -1.81606002 1.07070951 201.39072703 2.88 0.1010
TM -0.01022719 0.00505206 286.87865663 4.10 0.0526
PM -0.33096684 0.16770517 272.64559374 3.89 0.0584
PP -2.79290811 12.12473610 3.71442075 0.05 0.8195
MM 0.00001904 0.00013621 1.36844839 0.02 0.8898
TPM 0.00649481 0.00323643 281.91785975 4.03 0.0545
--------------------------------------------------------------------------
11
Step 2 Variable MM Removed R-square = 0.76432393 C(p) = 7.02306554
Regression 8 6361.29427136 795.16178392 11.76 0.0001
Error 29 1961.47836022 67.63718484
Total 37 8322.77263158
INTERCEP -153.68081296 87.08319254 210.64741663 3.11 0.0881
T 3.34711233 1.62675143 286.34111216 4.23 0.0487
P 119.90071390 63.55380447 240.73872393 3.56 0.0693
M 0.44980147 0.25710195 207.02200689 3.06 0.0908
TP -1.81398794 1.05235342 200.96992888 2.97 0.0954
TM -0.01023238 0.00496579 287.18550491 4.25 0.0484
PM -0.33078039 0.16484063 272.35571039 4.03 0.0542
PP -2.36513648 11.53232892 2.84487963 0.04 0.8389
TPM 0.00649173 0.00318118 281.66391392 4.16 0.0505
--------------------------------------------------------------------------
Step 3 Variable PP Removed R-square = 0.76398211 C(p) = 5.06225913
Regression 7 6358.44939173 908.34991310 13.87 0.0001
Error 30 1964.32323985 65.47744133
Total 37 8322.77263158
INTERCEP -149.45452516 83.24802337 211.03863894 3.22 0.0827
T 3.35729216 1.59982331 288.35396629 4.40 0.0444
P 113.29984760 53.91917407 289.11051635 4.42 0.0441
M 0.45293861 0.25251574 210.66553171 3.22 0.0829
TP -1.82023947 1.03498115 202.52744101 3.09 0.0888
TM -0.01029317 0.00487715 291.64695356 4.45 0.0433
PM -0.33296130 0.16184966 277.11220791 4.23 0.0484
TPM 0.00653048 0.00312445 286.04555555 4.37 0.0452
--------------------------------------------------------------------------
12
Step 4 Variable TP Removed R-square = 0.73964798 C(p) = 5.85245678
Regression 6 6155.92195072 1025.98699179 14.68 0.0001
Error 31 2166.85068086 69.89840906
Total 37 8322.77263158
INTERCEP -10.56187896 27.20632497 10.53440233 0.15 0.7005
T 0.65650365 0.46343653 140.26878928 2.01 0.1666
P 19.65166844 8.76270620 351.55205942 5.03 0.0322
M 0.06936765 0.13149743 19.45121181 0.28 0.6016
TM -0.00282097 0.00247441 90.84898392 1.30 0.2630
PM -0.07549793 0.07131752 78.33303854 1.12 0.2980
TPM 0.00151636 0.00132070 92.14322703 1.32 0.2597
--------------------------------------------------------------------------
Step 5 Variable M Removed R-square = 0.73731087 C(p) =
4.12043392
Regression 5 6136.47073891 1227.29414778 17.96 0.0001
Error 32 2186.30189267 68.32193415
Total 37 8322.77263158
INTERCEP -2.07560885 21.69176957 0.62554883 0.01 0.9244
T 0.52578770 0.38718595 125.99166397 1.84 0.1840
P 18.54384053 8.41085153 332.10819046 4.86 0.0348
TM -0.00157583 0.00073412 314.80894672 4.61 0.0395
PM -0.04447763 0.03989439 84.92190931 1.24 0.2732
TPM 0.00097849 0.00082990 94.97821007 1.39 0.2471
--------------------------------------------------------------------------
Step 6 Variable PM Removed R-square = 0.72710731 C(p) = 3.29039346
Regression 4 6051.54882960 1512.88720740 21.98 0.0001
Error 33 2271.22380198 68.82496370
Total 37 8322.77263158
INTERCEP -18.92754119 15.61535950 101.11845295 1.47 0.2341
T 0.89846940 0.19609174 1444.88724755 20.99 0.0001
P 16.76532908 8.28853047 281.58860694 4.09 0.0513
TM -0.00170896 0.00072700 380.31109133 5.53 0.0249
TPM 0.00021395 0.00046912 14.31514984 0.21 0.6513
13
--------------------------------------------------------------------------
Step 7 Variable TPM Removed R-square = 0.72538731 C(p) = 1.48761166
Regression 3 6037.23367976 2012.41122659 29.94 0.0001
Error 34 2285.53895182 67.22173388
Total 37 8322.77263158
INTERCEP -24.00488304 10.82142769 330.78040528 4.92 0.0333
T 0.89738860 0.19378022 1441.62370471 21.45 0.0001
P 20.23600365 3.24580205 2612.85402364 38.87 0.0001
TM -0.00139191 0.00021027 2945.72046114 43.82 0.0001
--------------------------------------------------------------------------
Summary of Backward Elimination Procedure for Dependent Variable FR
Step Removed In R**2 R**2 C(p) F Prob>F
1 TT 9 0.0000 0.7645 9.0042 0.0042 0.9487
2 MM 8 0.0002 0.7643 7.0231 0.0195 0.8898
3 PP 7 0.0003 0.7640 5.0623 0.0421 0.8389
4 TP 6 0.0243 0.7396 5.8525 3.0931 0.0888
5 M 5 0.0023 0.7373 4.1204 0.2783 0.6016
6 PM 4 0.0102 0.7271 3.2904 1.2430 0.2732
7 TPM 3 0.0017 0.7254 1.4876 0.2080 0.6513
A continuacin se presenta la salida 8.3. donde se obtiene un modelo de regresin mltiple a
travs del procedimiento FORWARD, el cual comienza por introducir al modelo la variable que
tiene mayor correlacin con la respuesta, lo cual se obtiene con la matriz de correlaciones de orden
cero, en este caso es la variable TP, as esta variable es la primera que aparece en el modelo
proporcionando un valor de coeficiente de determinacin no muy grande, sin embargo la prueba de
hiptesis de F parcial no se rechaza, por lo que es necesario probar las hiptesis de las variables
restantes en orden de importancia, y de esta forma continuar hasta que la hiptesis nula que se
prueba no sea rechazada, en ese momento se detiene la introduccin de mas variables al modelo
concluyendo que todas las variables que estn en el modelo son estadsticamente significativas para
predecir la respuesta. As se observa que el modelo que se encuentra slo contiene dos variables
14
independientes, las cuales son TP y M, quedando el modelo con un coeficiente de determinacin de
0.7244. Al final de la salida 3 se obtienen los coeficientes de correlacin parciales y sus respectivas
pruebas de hiptesis, los cuales se observa que son significativos en la prediccin de la friabilidad.
Salida 3 . Modelo de regresin mltiple por el procedimiento Forward.
The SAS System
Forward Selection Procedure for Dependent Variable FR
Regression 1 3091.52955457 3091.52955457 21.28 0.0001
Error 36 5231.24307701 145.31230769
Total 37 8322.77263158
INTERCEP 1.14137108 6.56381653 4.39383012 0.03 0.8629
TP 0.38143906 0.08269698 3091.52955457 21.28 0.0001
--------------------------------------------------------------------------
Regression 2 6028.72504814 3014.36252407 45.99 0.0001
Error 35 2294.04758344 65.54421667
Total 37 8322.77263158
INTERCEP 23.30177864 5.51288240 1170.99506913 17.87 0.0002
M -0.07151178 0.01068263 2937.19549357 44.81 0.0001
TP 0.37913861 0.05554103 3054.23526521 46.60 0.0001
--------------------------------------------------------------------------
model.
The SAS System
Summary of Forward Selection Procedure for Dependent Variable FR
Step Entered In R**2 R**2 C(p) F Prob>F
1 TP 1 0.3715 0.3715 38.0702 21.2751 0.0001
2 M 2 0.3529 0.7244 -0.3952 44.8124 0.0001
15
Por ltimo se presenta la salida 4. donde se obtiene el modelo de regresin lineal mltiple a
travs del procedimiento STEPWISE, y se observa que en este caso se obtiene el mismo modelo que
con el procedimiento Forward, por lo que tambin se realizaron los mismo pasos. Cabe mencionar
que no siempre se obtiene el mismo modelo a travs de los dos procedimientos.
Salida 4 . Modelo de regresin mltiple por procedimiento Stepwise.
The SAS System
Stepwise Procedure for Dependent Variable FR
Regression 1 3091.52955457 3091.52955457 21.28 0.0001
Error 36 5231.24307701 145.31230769
Total 37 8322.77263158
INTERCEP 1.14137108 6.56381653 4.39383012 0.03 0.8629
TP 0.38143906 0.08269698 3091.52955457 21.28 0.0001
--------------------------------------------------------------------------
Regression 2 6028.72504814 3014.36252407 45.99 0.0001
Error 35 2294.04758344 65.54421667
Total 37 8322.77263158
INTERCEP 23.30177864 5.51288240 1170.99506913 17.87 0.0002
M -0.07151178 0.01068263 2937.19549357 44.81 0.0001
TP 0.37913861 0.05554103 3054.23526521 46.60 0.0001
--------------------------------------------------------------------------
model.
The SAS System
Summary of Stepwise Procedure for Dependent Variable FR
Step Entered Removed In R**2 R**2 C(p) F
Prob>F
1 TP 1 0.3715 0.3715 38.0702 21.2751 0.0001
2 M 2 0.3529 0.7244 -0.3952 44.8124 0.0001
1
EJERCICIOS GENERALES
1.- De acuerdo a la Food and Drug Administration (FDA), en los Estados Unidos cada ao
aproximadamente 1000 nios menores de 5 aos son hospitalizados de emergencia por
envenenamiento accidental al utilizar drogas antidepresivas (U.S. News and World Report,
March 30, 1981). La probabilidad de que un nio con este tipo de envenenamiento sea
hospitalizado es de 0.5 y la probabilidad de que la dosis sea fatal es de 0.01. Suponiendo
que la probabilidad de que un nio hospitalizado por este motivo muera es de 0.008:
encontrar la probabilidad aproximada de que un nio con envenenamiento muera dado que
es hospitalizado de emergencia.
2.- Un qumico desea observar el efecto de la temperatura, presin y de la cantidad de
catalizador en el rendimiento de una reaccin qumica. Si el experimentador quiere probar
dos niveles de temperatura, tres de presin y dos de catalizador, cuntos experimentos
deben realizarse para correr cada combinacin temperatura-presin-catalizador
exactamente una vez?.
3.- Con el fin de comparar las dietas para reducir peso A y B, se seleccionaron
aleatoriamente dos grupos de personas. Uno de los cuales se someti a la dieta A y otro a la
B, registrando el peso perdido en 30 das. Resultados que se presentan en el siguiente
cuadro.
Dieta A Dieta B
y = 7.1 y = 4.8
S = 2.6 S = 1.9
Encontrar un intervalo del 95% de confianza para la diferencia en peso medio perdido para
las dos dietas e interpretar.
4.- La Comisin Federal de Comercio (CFC) de los Estados Unidos muestrea y examina
una cierta marca de cigarros para determinar hasta donde su contenido de nicotina y
alquitrn cumple con las caractersticas especificadas por el fabricante. Encontrando que el
contenido de nicotina y alquitrn fue de 5 y 0.4 mg por cigarro. En el reporte no se indica
cuantos cigarros fueron analizados para obtener estos resultados ni se da una medida de la
variacin de cigarro a cigarro. Suponiendo que la desviacin estndar del contenido de
alquitrn es aproximadamente igual a 1 mg por cigarro. Si la CFC desea establecer el
contenido medio de alquitrn por cigarro con una precisin de 0.1 mg, cuntos cigarros
debe analizar la CFC? (Suponga que la CFC desea que la estimacin del error sea menor a
0.1 con una probabilidad de 0.99).
5.- Para probar que cuatro analistas de un laboratorio no estn mostrando un buen
desempeo, se tomo una muestra conocida y se le dieron tres replicas a cada analista para
que la analizara, obteniendo los siguientes resultados.
a) Establezca el juego de hiptesis para probar la hiptesis
b) Realice el anlisis estadstico que le permita determinar cul(es) de los analistas
difiere(n) del o de los dems.
6.- Un laboratorio establece que la potencia media de uno de sus antibiticos es del 80%.
Para probar esta afirmacin se examina una muestra aleatoria de 100 cpsulas, obteniendo
una media de 79.7 y una desviacin de estndar de 0.8 por ciento. Muestran los datos
suficiente evidencia para rechazar la afirmacin del laboratorio?. Considere un nivel de
significancia de 0.05, y.
a) Establezca el juego de hiptesis para probar (Ho y Ha).
b) Realice la prueba de hiptesis y analice sus conclusiones.
7.- Se realiz un experimento para comparar el tiempo medio (en das) requerido para que
una persona se recupere de un resfriado comn, comparando individuos a los cuales se les
suministr vitamina C contra individuos a los que no se les dio ningn suplemento
vitamnico, obteniendo los siguientes resultados.
Sin vitamina Con vitamina
Tamao muestral 35 35
Media muestra 6.9 5.8
Desviacin estndar muestral 2.9 1.2
a) Examine los datos y utilice su intuicin para decidir hasta donde los datos proporcionan
suficiente evidencia para indicar que la vitamina C reduce el tiempo medio para recuperarse
de un resfriado comn, (no utilice herramientas estadsticas).
b) Si el objetivo es comprobar que el uso de vitamina C reduce el tiempo medio requerido
para recobrarse de un resfriado comn y sus complicaciones. Dar el juego de hiptesis para
realizar esta prueba.
c) Realice el anlisis estadstico de las hiptesis planteadas en b) y establezca sus
conclusiones utilizando = 0.05.
d) Compare las respuestas dadas en a) y c).
8.- El U.S News and World Report (Septiembre 1, 1980) establece que un nuevo
medicamento extrado de un hongo, ciclosporina A, incrementa el porcentaje de xito en las
operaciones de transplantes de rganos. De acuerdo al articulo, 22 pacientes que recibieron
transplante de rin fueron tratados con el nuevo medicamento. Los resultados de las
operaciones muestran un 86 por ciento de xito en comparacin con el 60 por ciento de
xito que se ha obtenido en el pasado con el tratamiento convencional.
1 2 3 4
10 9 8 9
11 10 9 9
10 11 8 8
3
a) Para este experimento, el investigador desea mostrar que el porcentaje de xito utilizando
ciclosporina A supera el 60 porciento de xito. Establecer el juego de hiptesis que
permitan comprobar esta aseveracin.
b) Es el tamao de muestra, n = 22, lo suficientemente grande para considerar que la
distribucin muestral del nmero y de operaciones exitosas est normalmente distribuida?.
Explique su respuesta.
c) El uso de la ciclosporina A incrementa el xito de los transplantes?. Realice la prueba
de hiptesis y establezca sus conclusiones, utilizando = 0.1
9.- Para tratar adecuadamente a un paciente, los medicamentos prescritos por los mdicos
deben tener una potencia adecuadamente definida. Consecuentemente, los valores de
potencia en un medicamento envasado deben poseer, adems de un valor medio que se
especifica en el envase, una variacin mnima de la potencia De otra manera, en las
farmacias se pueden estar distribuyendo medicamentos con potencia peligrosamente alta o
con potencia tan baja que los vuelvan poco efectivos. Un productor dice que su
medicamento tiene una potencia de 5 0.1 miligramos por centmetro cbico. Una muestra
aleatoria de cuatro contenedores dieron lecturas de potencia: 4.94, 5.09, 5.03 y 4.90 mg/cc.
a) Dan los datos suficiente evidencia para indicar que la potencia media difiere de 5
mg/cc?.
b) Presentan los datos evidencia suficiente para indicar que la variacin de la potencia
difiere de los limites de error especificados por el fabricante?. (Lo que se busca es
establecer que el valor de la potencia est en el intervalo 5 0.1 con una muy alta
probabilidad).
10.- Se inici un estudio para investigar el efecto de dos medicamentos, administrados
simultneamente, para reducir la presin humana. Se decidi utilizar tres niveles de cada
medicamento e incluir todas las nueve combinaciones en el experimento. Se seleccionaron
nueve paciente con la presin alta y se asigno cada uno a las nueve combinaciones del
medicamento. La respuesta observada fue la baja de presin en un determinado intervalo de
tiempo.
a) Es este un diseo de bloques al azar?, si o no y por qu.
b) Suponga que dos pacientes fueron asignados a cada una de las nueve combinaciones de
medicamento. Qu tipo de experimento es este?.
11.- Un fabricante supone que existe diferencia en el contenido de calcio en lotes de
materia prima que le son suministrados por su proveedor. Actualmente hay una gran
cantidad de lotes en la bodega. Cinco de estos son elegidos aleatoriamente. Un qumico
realiza cinco pruebas sobre cada lote y obtiene los siguientes datos:
a) Cul debe ser el tamao de muestra si se
desea detectar una diferencia mxima en el
contenido medio de calcio de 0.5% con una
probabilidad de 0.90 como mnimo?. Explique
cmo obtendra una estimacin preliminar de
2
para responder esta pregunta.
b) Si la diferencia entre los lotes es lo suficientemente grande como para producir un
incremento en la desviacin estndar de un 25% en cualquier observacin, cul debe ser el
tamao de muestra para detectar este aumento con una probabilidad mnima de 0.90?.
12.- Dados los siguientes datos del ajuste de un modelo lineal
el cual se corri en un software de anlisis estadstico, obteniendo los siguientes
resultados
Variable dependiente Y
Fuente g.l Suma de
Cuadrados
Cuadrados
Medios
Valor de F Pr > F r
2
C.V.
Modelo 5 4.788488 0.949697 159.23 0.0001 0.988822 16.5655
Error 9 0.053678 0.005964 DESV.
ST.
Y
MEDIA
Corregido total 14 4.802166 0.077228 0.466200
Fuente g.l. S.C. Tipo
I
Valor de
F
Pr > F g.l. S.C. Tipo
IV
Valor de
F
Pr > F
x
1
1 0.08032 13.47 0.0052 1 0.00448 0.75 0.4083
x
2
1 3.21553 539.14 0.0001 1 0.13905 23.32 0.0009
x
1
*x
2
1 0.96272 161.42 0.0001 1 0.48988 82.14 0.0001
x
1
*x
1
1 0.22455 37.65 0.0002 1 0.16181 27.13 0.0006
x
2
*x
2
1 0.26535 44.49 0.0001 1 0.26535 44.49 0.0001
Parmetro Estimacin T para Ho
parmetro = 0
Pr > |T| Error estndar de la
estimacin
intercepto 0.438068 2.71 0.0239 0.161478
x
1
0.005264 0.87 0.4083 0.006070
x
2
-0.030172 -4.83 0.0009 0.006248
x
1
*x
2
0.000687 9.06 0.0001 0.000075
x
1
*x
1
-0.000795 -5.21 0.0006 0.000072
x
2
*x
2
0.000407 6.67 0.0001 0.000061
lote 1 lote 2 lote 3 lote 4 lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.39 23.38
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x
1
2.0 9.3 5.6 3.7 12.4 18.1 13.5 26.6 34.2 38.8 56.1 60.3 4.4 2.6 20.9
x
2
45 80 23 25 67 30 55 21 79 40 22 37 50 66 42
y 0.001 1.140 0.030 0.001 0.780 0.300 0.600 0.200 2.240 0.440 0.001 0.320 0.160 0.29 0.490
5
a) Interpretar el valor de r
2
b) Proporcionan los datos evidencia suficiente para indicar que el modelo lineal contribuye
de manera significativa a la prediccin de y?.
c) Encuentre la mejor ecuacin de prediccin y explique el porqu del modelo propuesto.
13.- El rendimiento de un proceso qumico fue medido usando cinco lotes de materia
prima, cinco concentraciones de cido, cinco tiempos de reposo (A,B,C,D y E) y cinco
concentraciones del catalizador (, , , , ). Si lo nico que se desea analizar es la
diferencia entre lotes de materia prima, explique que tipo de diseo utilizara y cual seria la
diferencia con respecto a un diseo factorial (Sin realizar clculos).
Concentracin de cido
14.- Se monto un experimento para investigar los efectos de la concentracin de estearato y
del tiempo de mezclado sobre la dureza de una tableta. Los resultados de la tabla
representan la dureza promedio de muestras aleatorias de 10 tabletas de cada tratamiento.
La variabilidad natural de la dureza de las tabletas (termino de error en la prueba
estadstica) se estim con otra serie de replicas y fue de 0.3, con 36 grados de libertad.
Conc. Estearato
a) Pruebe la significancia de los efectos principales y de la interaccin.
b) Dibuje la grfica que muestre la interaccin de los factores.
15.- Se examin el efecto de cuatro variables sobre el rendimiento, y, de un proceso
qumico:
x
1
: Concentracin del catalizador
x
2
: Concentracin de NaOH
x
3
: Nivel de agitacin
x
4
: Temperatura
Lote 1 2 3 4 5
1
A = 26 B = 16 C = 19 D = 16 E = 13
2
B = 18 C = 21 D = 18 E = 11 A = 21
3
C = 20 D = 12 E = 16 A = 25 B = 13
4
D = 15 E = 15 A = 22 B = 14 C = 17
5
E = 10 A = 24 B = 17 C = 17 D = 14
Mezclado (min.) 0.5 % 1.0 %
15 9.6 7.5
30 7.4 7.0
Los experimentos fueron realizados en orden aleatorio, obteniendo los siguientes
resultados:
Realice los anlisis que considere necesarios para
interpretar estos resultados.
16.- Considere el siguiente diseo experimental
a) Identifique el diseo empleado.
b) Haga los anlisis que considere necesarios para
interpretar los resultados.
c) Si pudiera realizar slo cuatro experimentos
adicionales, cules sugerira y por qu?.
17.- Se encuentra en estudio el rendimiento de un proceso qumico. Se cree que las dos
variables ms importantes son la presin y la temperatura. Se seleccionan tres niveles de
cada factor y se realiza un experimento factorial con dos rplicas. Se recopilan los
siguientes datos:
1 2 3 4 y
- + - + 61
+ - - + 70
- - - - 46
- - + + 87
+ + + + 62
+ - + - 64
+ + - - 38
- + + - 38
+ - + + 84
+ + + - 41
- - + - 57
+ - - - 49
+ + - + 59
- + - - 36
- - - + 68
- + + + 62
x
1
x
2
x
3
x
4
y
+ - - - 105
- + - - 107
- - + - 102
- - - + 104
+ + + - 114
+ + - + 111
+ - + + 105
- + + + 107
7
Presin
a) Analice los datos y obtenga las conclusiones
b) Prepare las grficas apropiadas de residuales y
comente lo adecuado del modelo.
c) En qu condiciones debe operarse este
proceso?.
18.- Identifique un problema en su rea de inters en el cual se requiera obtener una
muestra aleatoria simple para estimar la media poblacional. Defina la poblacin objetivo,
las unidades de muestreo y explique detalladamente como se construye el marco de
muestreo.
19.- En base a los resultados de una serie de experimentos preliminares se construyeron las
siguientes superficies de respuesta para el rendimiento porcentual, y
1
, y el costo por Kg, y
2
,
del proceso de produccin de un cierto producto:
y
1
= 80 + 4 x
1
+ 8x
2
- 4x
1
2
- 12 x
2
2
- 12 x
1
x
2
y
2
= 80 + 4 x
1
+ 8x
2
- 2x
1
2
- 12 x
2
2
- 12 x
1
x
2
Qu valores de x
1
y x
2
deben emplearse para operar el proceso con rendimientos no
menores al 80% y costo unitario del producto no mayor a 78 centavos ?.
20.- Los siguientes datos proceden de un estudio cuyo objetivo fue el estudio para
optimizar las condiciones de reaccin en un mtodo enzimtico empleado para determinar
plasma amonia. Se utiliz un diseo compuesto central con = 1.0.
Donde X
1
= GLDH V/Ensayo
X
2
= HEPES (Molculas/litro)
X
3
= pH
Y = Sensibilidad a la reaccin
a) Codifique los datos y ajstelos a un modelo
cuadrtico.
b) Determine las pruebas parciales de F para los
factores X
1
, X
2
y X
3
. Es factible eliminar alguno de
estos factores del modelo?, si es as ajuste la ecuacin
reducida usando los factores significativos.
c) Encuentre el valor del punto estacionario X
0
, e
investigue si es mximo, mnimo o punto de inflexin.
Temperatura 200 215 230
Baja 90.4
90.2
90.7
90.6
90.2
90.4
Intermedia 90.1
90.3
90.5
90.6
89.9
90.1
Alta 90.5
90.7
90.8
90.9
90.4
90.1
x
1
x
2
x
3
y
110 0.04 7.25 146
197 0.04 7.25 182
110 0.06 7.25 140
197 0.06 7.25 177
110 0.04 7.65 178
197 0.04 7.65 169
110 0.06 7.65 179
197 0.06 7.65 168
110 0.05 7.45 180
197 0.05 7.45 177
153.5 0.04 7.45 181
153.5 0.06 7.45 181
153.5 0.05 7.25 167
153.5 0.05 7.65 179
153.5 0.05 7.45 167

Apuntes Diseños

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Apuntes Diseños

Încărcat de

Drepturi de autor:

Formate disponibile

ESTADSTICA INFERENCIAL

Distribucin normal estndar

de la cual ya se habl al principio de este captulo

Cuadro 1. Intervalos de confianza para un parmetro.

Es importante notar los dos valores de F, aunque si se obtiene uno el otro es su

Cuadro 2. Intervalos de confianza para dos parmetros (continuacin).

y los grados de libertad con =

(k,) = valor crtico de rangos estudentizados (tablas)

Un grfico de los pares (X

Anlisis de Regresin Simple y Mltiple.

Donde si Ho i=0 se rechaza si to>t/2,n-k-1

es una variable aleatoria, adems la

E identifica el porcentaje de la suma de cuadrados total que es explicada por la

Distribucin normal estndar

de la cual ya se habl al principio de este captulo

Cuadro 1. Intervalos de confianza para un parmetro.

Es importante notar los dos valores de F, aunque si se obtiene uno el otro es su

Cuadro 2. Intervalos de confianza para dos parmetros (continuacin).

y los grados de libertad con =

(k,) = valor crtico de rangos estudentizados (tablas)

Un grfico de los pares (X

Anlisis de Regresin Simple y Mltiple.

Donde si Ho i=0 se rechaza si to>t/2,n-k-1

es una variable aleatoria, adems la

E identifica el porcentaje de la suma de cuadrados total que es explicada por la

S-ar putea să vă placă și