Sunteți pe pagina 1din 96

Curso de quimiometra

Calibraciones univariada y multivariada de primer orden


Alejandro C. Olivieri

Departamento de Qumica Analtica, Facultad de Ciencias Bioqumicas y Farmacuticas, Universidad Nacional de Rosario, Suipacha 531, Rosario (S2002LRK), Argentina. E-mail: aolivier@fbioyf.unr.edu.ar

Tabla de Contenidos
CLASE 1 3 REGRESIN LINEAL 3 Material suministrado con la clase 1 3 Parte 1: calibracin univariada 3 Determinacin del extremo superior del rango lineal 4 Preparacin de patrones 4 Medicin de la respuesta de los patrones 5 Estimacin de los parmetros de la regresin 5 Prediccin en muestras incgnita 6 Cifras de mrito del mtodo 7 Sensibilidad de calibracin 7 Sensibilidad analtica 7 Lmite de deteccin 8 Lmite de cuantificacin 9 Rango dinmico 9 Rango lineal 9 Programas de computacin 12 EJERCICIO RESUELTO 12 RESPUESTA DETALLADA 14 EJERCICIOS PROPUESTOS 18 CLASE 2 20 REGRESIN LINEAL 20 Material suministrado con la clase 2 20 Parte 2: exactitud y comparacin de mtodos analticos 20 Exactitud de un mtodo analtico 21 Regin de confianza en el caso homoscedstico22 Regresin ponderada 24 Regin de confianza en el caso heteroscedstico 25 Comparacin de mtodos analticos 26 Programas de computacin 27 EJERCICIO RESUELTO 27 RESPUESTA DETALLADA 27 EJERCICIOS PROPUESTOS 32 CLASE 3 34 CALIBRACIN BIVARIADA 34 Material suministrado con la clase 3 34 Determinacin de dos analitos usando dos sensores 34 La etapa de calibracin 35 La calibracin en notacin matricial 35 Etapa de prediccin 37 Coeficientes de regresin 38 Colinealidad 38 Cifras de mrito 39 EJERCICIO RESUELTO 40 RESPUESTA DETALLADA 41 EJERCICIO PROPUESTO 43 CLASE 4 44 CALIBRACIN MULTIVARIADA 44 Material suministrado con la clase 4 45 Determinacin de multianalitos usando mltiples sensores 45 El modelo CLS en notacin matricial: etapa de calibracin 45 Etapa de prediccin y coeficientes de regresin48 Cifras de mrito 49 Colinealidad espectral 50 Interferentes no modelados 50 Ventajas y desventajas de CLS 50 Comparacin de mtodos 51 EJERCICIO RESUELTO 52 RESPUESTA DETALLADA 53 EJERCICIO PROPUESTO 56 CLASE 5 58 CALIBRACIN MULTIVARIADA 58 Material suministrado con la clase 5 58 Regresin por cuadrados mnimos inversos 58 Calibracin 59 Prediccin 61 Ventajas y desventajas de ILS 62 Regresin por componentes principales 62 Compresin de la informacin 62 Componentes principales y fuentes de variacin espectral 64 Calibracin 67 Prediccin 67 Validacin cruzada 68 Residuos espectrales 70 Cifras de mrito 70 Ventajas y desventajas de PCR 70 Ms all de PCR 71 EJERCICIO RESUELTO 71 RESPUESTA DETALLADA 72 EJERCICIO PROPUESTO 77 CLASE 6 78 CALIBRACIN MULTIVARIADA 78 Material suministrado con la clase 6 78 Regresin por cuadrados mnimos parciales 78 Un algoritmo iterativo para PCR 79 Un algoritmo iterativo para PLS 79 Calibracin 80 Prediccin 80 Residuos espectrales y cifras de mrito 81 Ventajas y desventajas de PLS 81 Ms all de PLS 81 EJERCICIO RESUELTO 82 RESPUESTA DETALLADA 83 EJERCICIO PROPUESTO 86 RESOLUCIONES A LOS EJERCICIOS PROPUESTOS 87 RESPUESTAS A LOS EJERCICIOS PROPUESTOS EN LA CLASE 1 87 RESPUESTA A LOS EJERCICIOS PROPUESTOS EN LA CLASE 2 88 RESPUESTA AL EJERCICIO PROPUESTO EN LA CLASE 3 90 RESPUESTA AL EJERCICIO PROPUESTO EN LA CLASE 4 91 RESPUESTA AL EJERCICIO PROPUESTO EN LA CLASE 5 93 REFERENCIAS 95

La estadstica es un mtodo sistemtico para llegar a la conclusin incorrecta con un 95% de confianza.

Clase 1
Regresin lineal

"Camino recto", fotografa, www34.brinkster.com.

tomada

de

Material suministrado con la clase 1


Para esta clase se proveen los siguientes archivos: Archivos de texto (*.TXT) conteniendo datos tpicos. Rutinas (*.M) para el entorno de programacin MATLAB. COMO OPERAR CON MATLAB.PDF, documento de Adobe que explica el empleo del entorno MATLAB. Programas ejecutables en QB (*.EXE). COMO OPERAR CON QB.PDF, documento de Adobe que explica el uso de los programas en QB.

Parte 1: calibracin univariada


En este captulo estudiaremos una de las ms populares aplicaciones de la regresin lineal en qumica analtica: la recta de calibracin univariada. La teora se expone en este

documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la seccin Ejercicio Resuelto. El anlisis mediante recta de calibracin puede hacerse cuando slo el analito de inters presenta seal analtica o respuesta (absorbancia, fluorescencia, potencial elctrico, corriente, etc.), o cuando la seal del blanco es constante. Las etapas que deben seguirse en un anlisis mediante recta de calibracin son: Determinacin del extremo superior del rango lineal Preparacin de patrones Medicin de la respuesta de los patrones Estimacin de los parmetros de la regresin Clculo de las cifras de mrito del mtodo Prediccin en muestras incgnita Las expresiones matemticas que se presentarn a continuacin y su empleo en el anlisis univariado estn tomadas, en general, del trabajo de referencia clsico de Danzer y Currie, preparado para la Unin Internacional de Qumica Pura y Aplicada (IUPAC).1 De la amplia literatura que existe en este campo, recomendamos tambin los libros de Gardiner2 y Miller y Miller.3

Determinacin del extremo superior del rango lineal


Esta etapa es fundamental, ya que la regresin lineal est basada en la suposicin de que los datos de respuesta analtica estn linealmente relacionados con la concentracin del analito. Si se sospecha que existen desvos de la linealidad, se recomienda realizar un anlisis exploratorio previo cuyo objeto es extender el rango de aplicabilidad de la tcnica analtica a la mxima concentracin posible. En dicho anlisis, se incluyen patrones de concentracin conocida del analito desde cero hasta valores que se desven visiblemente de la linealidad. Una prueba estadstica apropiada permitir luego decidir hasta qu concentracin se cumple la relacin lineal respuesta-concentracin. Sin embargo, dado que los parmetros a emplear en esta prueba se obtienen del anlisis matemtico-estadstico de la regresin, diferiremos el clculo detallado para ms adelante.

Preparacin de patrones
Una vez estimado el extremo superior del rango lineal de la tcnica, deben prepararse patrones de concentracin conocida dentro de dicho rango, e incluyendo el valor cero de concentracin del analito (blanco). Usualmente, se preparan varios patrones (como mnimo cinco) con concentraciones igualmente espaciadas entre cero y el extremo superior del rango lineal, y cada patrn se analiza por triplicado. Debe ponerse especial cuidado en la preparacin de los patrones del analito para la calibracin, de manera que las concentraciones de calibrado se conozcan con la mxima precisin posible. Este requisito se relaciona con el hecho de que la recta de regresin se ajusta mediante ecuaciones que suponen que los valores del eje x (concentraciones) tienen una incertidumbre considerablemente menor que los del eje y (respuestas). Slo a modo de ejemplo, si se realizan mediciones de absorbancia como respuesta, podemos suponer que el nivel de incertidumbre en la respuesta puede ser de alrededor de 0,005 unidades de absorbancia. Si los valores de las respuestas son, en promedio, de 1 unidad de absorbancia, esto implica un nivel relativo de incertidumbre de aproximadamente 0,5% en la respuesta. Por lo tanto, se deben preparar patrones de calibrado cuyas concentraciones se conozcan con un error menor al 0,5%. Preparar soluciones de calibrado, por ejemplo, con incertidumbres del orden del 0,1% en promedio, requiere pesar ms de 100 mg de reactivo, preparar soluciones en matraces calibrados de al menos 100 mL, tomar alcuotas con pipetas aforadas calibradas, etc. 4

Medicin de la respuesta de los patrones


Una vez preparados los patrones de concentracin conocida, se miden sus respuestas analticas, incluyendo rplicas de cada medicin. Usualmente cada patrn se mide por triplicado. Es importante establecer la siguiente nomenclatura: si se emplean 6 patrones, cada uno por triplicado, entonces el nmero de niveles diferentes de concentracin (p) es 6, y el nmero total de puntos de la recta de calibrado (m) es 18.

Estimacin de los parmetros de la regresin


El anlisis de los datos de calibrado mediante regresin lineal implica el clculo de la pendiente (A) y ordenada al origen (B) de la recta ajustada a la ecuacin y = A x + B. Los valores estimados de A y B se calculan mediante las siguientes ecuaciones: A=

Qxy Qxx

( xi x )( yi y )
i =1

( xi
i =1

(1)

x)2

B = y Ax (2) donde xi es la concentracin de cada uno de los m patrones de calibrado, x es el promedio de las concentraciones de calibrado, yi es la respuesta en cada punto e y es el promedio de las respuestas de los patrones de calibrado. Adems de los valores individuales de A y B, es importante tener una idea de su incertidumbre asociada, ya que los datos instrumentales llevan asociados un error que depende del ruido instrumental, y el ajuste por cuadrados mnimos slo provee estimaciones de la pendiente y ordenada al origen. Los desvos estndar en los parmetros A y B se calculan con las siguientes ecuaciones: sy/ x sA = (3) Qxx

1 x2 + (4) m Qxx En las ecuaciones precedentes, el parmetro sy/x es el desvo estndar de los residuos de la regresin y est dado por:

sB = s y / x

(5) m2 i representa la respuesta donde yi es la respuesta experimental de cada patrn de calibrado e y i = A xi + B. En la ecuacin (5) se emplean m 2 grados de estimada en cada punto, esto es, y libertad, ya que hay m datos disponibles, y 2 parmetros estimados en la regresin (A y B). Estos parmetros estadsticos dan tambin una idea de la bondad de la regresin. Es deseable que sy/x sea lo ms pequea posible; no obstante su valor est limitado por el ruido i ) instrumental. La distribucin de los residuos, es decir, el modo en que los valores de (yi y varan con la respuesta, cumple tambin un papel importante en el anlisis de la adecuacin de los datos al modelo lineal, como veremos ms adelante.

sy/x =

i )2 ( yi y
i =1

Prediccin en muestras incgnita


Los valores de A y B se requieren para realizar predicciones en muestras incgnitas, a travs de la ecuacin yinc = A xinc + B, de donde puede obtenerse la concentracin estimada del analito en la muestra: (6) xinc = (yinc B) / A donde yinc es, en general, un promedio de las respuestas obtenidas para un determinado nmero de rplicas de la incgnita (habitualmente tres). Un resultado no es tal, sin embargo, si no est acompaado por su correspondiente nivel de incertidumbre. Para informar xinc con su incertidumbre asociada, y establecer su nmero correcto de cifras significativas, es necesario calcular el error estndar en la concentracin predicha s(xinc), lo cual se lleva a cabo mediante la siguiente expresin: s y / x 1 1 ( yinc y ) 2 s y / x 1 1 ( xinc x ) 2 s(xinc) = + + = + + (7) A n m A 2Qxx A n m Qxx donde sy/x es el desvo estndar de los residuos de la regresin dado por la ecuacin (5), A es la pendiente de la recta de regresin, n es el nmero de rplicas de la muestra incgnita, m es el nmero total de patrones de calibrado, yinc es el promedio de las respuestas de las rplicas de la incgnita, y es el promedio de las respuestas de los patrones de calibrado, y Qxx fue definido en la ecuacin (1). La ecuacin (7) es responsable de que la incertidumbre en la prediccin dependa de cada muestra y no de la calibracin en forma global, ya que para cada muestra incgnita hay un valor predicho de la concentracin (xinc) y por lo tanto un valor asociado del desvo estndar s(xinc). La forma de la ecuacin (7) proviene de un anlisis de la propagacin de las distintas fuentes de error a la concentracin predicha. Puede demostrarse que hay dos fuentes principales de incertidumbre: 1) la seal medida para la muestra incgnita y 2) las seales medidas para las muestras de calibrado. La primera contribuye con el trmino (1/n) dentro de 1 ( xinc x ) 2 la raz cuadrada de la ecuacin (7), y la segunda con los trminos , que m+ Qxx colectivamente reciben el nombre de leva (del ingls leverage). La leva mide, de algn modo, la "distancia" de la muestra incgnita al centro de la calibracin. Dado que la leva es mnima cuando la concentracin de la incgnita es igual al promedio de las concentraciones de calibrado (esto es, cuando xinc = x ), se concluye que el mtodo posee su mxima precisin en este ltimo caso. De ah que se recomiende analizar muestras cuya concentracin de analito sea cercana al centro de las concentraciones de calibrado. La extrapolacin a concentraciones mucho mayores o menores que el promedio de la calibracin aumenta la leva y con ello el error en la prediccin. Otra conclusin que puede extraerse de la ecuacin (7) es que el efecto de la calibracin sobre el error de prediccin ser tambin menor si m > n, es decir, cuando el nmero de patrones de calibrado es superior al de rplicas empleadas para predecir. En todo caso, el anlisis de la ecuacin (7) muestra que, para muestras no demasiado alejadas del centro de la calibracin, y dado que en general se cumple que m > n, el error estndar en la concentracin se puede aproximar por s(xinc) = sy/x / (A n1/2). Debe notarse finalmente que el intervalo de confianza para la concentracin predicha puede calcularse multiplicando el valor del desvo estndar dado por la ecuacin (7) por el correspondiente coeficiente de student para un dado nivel de confianza (usualmente 95%) y un nmero de grados de libertad igual a (m 2).

Cifras de mrito del mtodo


Las cifras de mrito de un mtodo analtico se utilizan regularmente con el propsito de calificar un determinado mtodo y comparar sus propiedades analticas con las provistas por otras tcnicas. Incluyen, entre otras, las siguientes: Sensibilidad de calibracin Sensibilidad analtica Lmite de deteccin Lmite de cuantificacin Rango dinmico Rango lineal Debe notarse que la expresin "cifras de mrito" es la traduccin correcta del ingls figures of merit. Esta ltima no debe traducirse como "figuras de mrito".

Sensibilidad de calibracin
La sensibilidad de calibracin es igual a la pendiente de la recta de calibrado: SEN = A (8) Indica la variacin de respuesta producida por una unidad de variacin de concentracin del analito, y sus unidades son de seal concentracin1.

Sensibilidad analtica
La sensibilidad de calibracin no es adecuada para comparar dos mtodos analticos cuando estos estn basados en respuestas de diferente naturaleza (por ejemplo, absorbancia y fluorescencia, o absorbancia y medidas electroqumicas, etc.). Para ello es preferible utilizar la llamada sensibilidad analtica , definida por la relacin entre la sensibilidad y el ruido instrumental: = SEN / sy (9) donde sy es una medida conveniente del nivel de ruido en la respuesta. Para estimar el nivel de ruido pueden usarse dos procedimientos, que en teora deberan coincidir. En el primero, se estima el ruido instrumental (sy) a travs de los desvos de las rplicas de las mediciones de calibrado respecto de sus promedios:

( yij yi ) 2
(10) m p donde p es el nmero de niveles de concentracin estudiados en la recta, r es el nmero de rplicas de cada punto, yij es el valor de la respuesta correspondiente a cada nivel y rplica, e yi es el promedio de las respuestas de las rplicas para cada nivel de concentracin. En la ecuacin (10), el nmero de grados de libertad es m p, ya que de los m datos disponibles, p grados de libertad se reservan para el clculo de las p medias y i . Este clculo se ilustra en forma detallada en el ejercicio resuelto que acompaa al presente documento. En el segundo mtodo de estimacin del nivel de ruido, se lo estima como el desvo estndar de los residuos de la regresin lineal, el parmetro ya definido sy/x [vase la ecuacin (5)]. Si los datos estudiados cumplen la relacin lineal entre respuesta y concentracin, los dos mtodos anteriormente descritos deben proveer resultados similares en cuanto a la estimacin del ruido instrumental. sy =
i =1 j =1

Lmite de deteccin
Es la mnima concentracin detectable de manera confiable por la tcnica. En la definicin moderna, el lmite de deteccin (LOD) se calcula en funcin del desvo estndar de la concentracin predicha para una muestra blanco (s0).4 Para estimar s0 se recurre a la ecuacin (7), escrita del modo siguiente: s y / x 1 1 ( xinc x ) 2 + + (11) s(xinc) = A n m Qxx Si suponemos que se analiza una muestra por triplicado (lo ms usual es n = 3) en la que el analito no est presente (xinc = 0), la ecuacin (11) se reduce a: sy/ x 1 1 x 2 (12) s0 = + + A 3 m Q xx aunque s0 ser diferente si se emplea un nmero diferente de rplicas. En todo caso, es importante informar qu valor de n se considera en el clculo de s0 y por lo tanto del LOD. Como se muestra en la Figura 1, el LOD se calcula mediante una prueba de hiptesis estadstica. En primer lugar se fija una concentracin llamada nivel crtico (LC en la Figura 1), a partir de la cual se toman decisiones respecto de la deteccin del analito. Para concentraciones superiores a LC, existe una probabilidad de cometer el llamado error de tipo I o falso positivo. Este ltimo consiste en aceptar errneamente la hiptesis alternativa, admitiendo que el analito est presente cuando en realidad est ausente. Como se aprecia en la Figura 1, la probabilidad de cometer este error de tipo I est dada por la zona sombreada de azul (rea ), siendo la "distancia" de LC al cero de la escala igual al producto de s0 por el coeficiente t,. Si se toma igual a 0,05, entonces una concentracin superior a LC tendr slo un 5% de probabilidad de constituir un falso positivo. Del mismo modo, existe una probabilidad de cometer un error de tipo II o falso negativo, en el que se acepta errneamente la hiptesis nula, admitiendo que el analito est ausente cuando en realidad est presente (zona sombreada de rojo en la Figura 1, con probabilidad igual a ). Si se toma tambin como 0,05, la probabilidad de obtener un falso negativo ser del 5%. En este caso la distancia de LC a la concentracin correspondiente a dicho valor de es el producto del coeficiente t, por s0, considerando que este ltimo parmetro es muy cercano al desvo estndar en la concentracin de una muestra blanco. Puede notarse entonces que el valor de LOD depende de y , y de los desvos estndar de las dos curvas gaussianas de la Figura 1. En general, ambas probabilidades se toman como iguales 0,05, mientras que los desvos estndar se suponen ambos iguales a s0. De este modo, el LOD est dado por:5 (13) LOD = 2 t0,05,m2 s0 6 7 definicin que ha sido adoptada tambin por IUPAC e ISO. En la prctica, dado que m es un nmero relativamente grande, el valor de (2t0,05,m2) tiende a 3,3, por lo que una ecuacin aproximada para el lmite de deteccin es LOD = 3,3 s0. Ntese que antiguamente se defina el LOD contemplando nicamente errores de tipo I, como la concentracin correspondiente a una relacin seal/ruido igual a 3, lo que equivale a fijar el lmite de deteccin como LOD = 3sbl / A, donde sbl es el desvo estndar en la seal del blanco. En esta aproximacin, la probabilidad de cometer errores de tipo I era de 0,1%, que corresponde a t0,001, = 3 (para un nmero muy grande de grados de libertad). Esta definicin, ya abandonada por la IUPAC, no contempla los errores de tipo II.

(t, + t,) s0

Hiptesis nula: analito ausente

Hiptesis alternativa: analito presente a este nivel

0 LC

LOD Prediccin

Figura 1. Prueba de significacin empleada para estimar el lmite de deteccin. LC es el nivel crtico, LOD el lmite de deteccin, y las probabilidades correspondientes a errores de tipo I y II respectivamente, s0 el desvo estndar del blanco (en unidades de concentracin) y t, y t, los coeficientes de student para grados de libertad.

Lmite de cuantificacin
Es la mnima concentracin cuantificable en forma confiable. Este parmetro (LOQ) se toma como la concentracin correspondiente a 10 veces el desvo estndar (en unidades de concentracin) del blanco, con lo cual: LOQ = 10 s0 (14) De este modo, el desvo estndar relativo (DSR) para una concentracin igual al LOQ es del 10%, nivel que se toma convencionalmente como el mximo DSR aceptable para cuantificar el analito en una muestra.

Rango dinmico
Se considera que va desde la menor concentracin detectable (el LOD) hasta la prdida de relacin entre respuesta y concentracin; vase la Figura 2, adaptada de la excelente obra de Valcrcel.8 El rango dinmico es tambin el rango de aplicabilidad de la tcnica. En la zona de prdida de la linealidad, podra aplicarse, en principio, un mtodo de regresin polinmica para la calibracin (o algn otro de naturaleza no lineal), de modo que nada impide que dicha zona sea utilizada con propsitos predictivos.

Rango lineal
Se considera que el rango lineal comprende desde la menor concentracin que puede medirse (el LOQ) hasta la prdida de la linealidad (Figura 2). Una manera conveniente de medir el cumplimiento de la linealidad es a travs de la relacin que existe entre la variancia de la regresin, medida por (sy/x)2 [ecuacin (5)], y la del ruido instrumental, medida por (sy)2 [ecuacin (10)]. Si la primera es significativamente mayor que la segunda, se supone que hay causas de desvo de la ley lineal que son estadsticamente superiores al ruido en la respuesta. Para emplear esta prueba es esencial que se cumpla el supuesto bajo el cual se realiza el ajuste lineal, esto es, que los errores en concentracin de calibrado sean menores que en respuesta. De lo contrario, se acumularan en (sy/x)2 incertidumbres derivadas de la imprecisin en las concentraciones de los patrones, que nada tienen que ver con el ruido instrumental o las prdidas de la linealidad. La prueba estadstica que se utiliza para determinar si los datos se ajustan a la ley lineal es la F: en primer lugar se calcula un valor "experimental" de F, dado por: 9

( s y / x )2 Fexp = (s y )2

(15)

Luego se compara este valor con el crtico que se encuentra en tablas de F (de una cola) para m 2 y m p grados de libertad, y un determinado nivel de confianza, por ejemplo 95%. Si Fexp < F, se acepta que los datos se comportan linealmente. Alternativamente, se calcula la probabilidad pF asociada a este valor de Fexp, y se considera que la prueba de linealidad es aceptada si pF > 0,05. Esta prueba se describe en detalle en el trabajo de Danzer y Currie.1

Rango dinmico

Respuesta

Rango lineal Prdida de la relacin respuesta-concentracin Extremo superior del rango lineal

Concentracin
LOD LOQ

Figura 2. Rangos dinmico y lineal de un mtodo analtico.

10

A
Residuos
0

B
Residuos
0

C
Residuos
0

Concentracin
Figura 3. Residuos de la regresin. A) Comportamiento lineal. B) Comportamiento no lineal. C) Comportamiento lineal con alta incertidumbre en la concentracin de los patrones.

Tambin es til, como en todo ajuste por cuadrados mnimos, examinar visualmente la distribucin de los residuos de la regresin. Un grfico de residuos (yi A xi + B) en funcin de xi puede ser muy informativo respecto de la presencia de no linealidades, ya que el valor de Fexp puede resultar significativo no solamente porque la relacin entre las variables no sea lineal, sino por incertidumbres en la preparacin de los patrones. La Figura 3 ilustra casos representativos al respecto. En el caso A), el comportamiento es lineal: se espera que la

11

distribucin de los residuos sea al azar, y que la variabilidad interna de las rplicas a cada nivel de concentracin sea comparable a la variabilidad global (precisamente este es el sentido de la prueba estadstica F antes comentada). En el caso B) se aprecia visualmente que los residuos poseen un comportamiento parablico, caso tpico de desvos de la ley lineal. Finalmente, en el caso C), los residuos muestran una variabilidad global significativamente mayor que la que presentan las rplicas a cada nivel. Esta situacin es tpica de la presencia de mayor incertidumbre en las concentraciones nominales de los patrones de calibrado que en la seal instrumental, aunque el sistema se comporte linealmente. De ah que se haya puesto hincapi en la necesidad de contar con patrones cuya concentracin se conozca con mayor precisin que el ruido instrumental. En general, sin embargo, la distribucin de los residuos no es tan clara como los casos presentados en la Figura 3, por lo que es importante aplicar el criterio estadstico F. Debe notarse que no hemos empleado, en todo este documento, al parmetro r, el coeficiente de correlacin, an cuando popularmente se recurre a l como prueba de linealidad o de bondad del ajuste. En este sentido, vale la pena repetir textualmente el siguiente pasaje del trabajo de Danzer y Currie: "el coeficiente de correlacin, que es una medida de la relacin de dos variables azarosas, no tiene ningn significado en la calibracin analtica, debido a que los valores de x no estn distribuidos al azar".1 El coeficiente de correlacin se emplea para responder preguntas tales como: est correlacionada la concentracin de antimonio con la de plomo en muestras de agua de una zona productora de metales?. En este caso se trata de analizar si existe correlacin entre variables sobre las que el operador tiene muy poco control.

Programas de computacin
Los mtodos descritos en esta clase pueden aplicarse con cualquier programa comercial que sea capaz de efectuar una regresin por cuadrados mnimos. Los parmetros faltantes pueden calcularse luego "a mano" con las ecuaciones provistas en este documento. En este sentido, la obra de Gardiner2 hace una excelente descripcin del uso de la planilla de clculo EXCEL para propsitos analticos en general, y para estudios mediante regresin univariada en particular. Para quienes deseen introducirse al mundo del entorno matricial MATLAB, esencial para clculos avanzados en quimiometa, se proveen dos rutinas que calculan todos los parmetros aqu descritos, y permiten calibrar y predecir a partir de datos univariados. Confiamos que la discusin del ejercicio resuelto que se acompaa, el contenido del documento 'COMO OPERAR CON MATLAB.PDF', as como las rutinas 'LR_CAL.M' y 'LR_PRED.M', proveern la informacin requerida para organizar los datos e implementar las rutinas. Tambin se proveen programas independientes ejecutables en QB, como alternativa para quienes no puedan acceder a MATLAB: 'LR_CAL.EXE' y 'LR_PRED.EXE'. Para operarlos puede consultarse el documento 'COMO OPERAR CON QB.PDF'.

Ejercicio resuelto
1) La Tabla 1 proporciona un ejemplo de datos de respuesta-concentracin para su anlisis, incluyendo respuestas medidas por triplicado. Grafique los datos de respuesta en funcin de la concentracin y compruebe en forma visual que se desvan de la linealidad. Establezca un lmite superior del rango lineal en forma cualitativa, para luego compararlo con el calculado mediante una prueba estadstica apropiada.

12

Tabla 1. Concentraciones y respuestas para un rango en el que se sospecha que existen desvos de la linealidad. Concentracin Respuesta 1 Respuesta 2 Respuesta 3 del patrn 0,06 0,08 0,06 0,00 1,41 1,56 1,44 1,00 2,90 2,76 2,82 2,00 4,08 4,20 4,15 3,00 5,52 5,46 5,29 4,00 6,69 6,54 6,61 5,00 7,69 7,70 7,79 6,00 8,83 8,97 8,89 7,00 9,77 9,88 10,03 8,00 10,65 10,91 10,84 9,00 11,90 11,81 11,87 10,00 Note que los valores de concentracin estn dados con una precisin de 0,01, lo cual implica un error relativo porcentual promedio de 0,01100/5 = 0,2% (Tomamos 5 como el valor promedio de las concentraciones de calibrado). Los valores de respuesta tambin estn informados con una incertidumbre de 0,01 unidades, si bien un anlisis cualitativo de la variabilidad de los replicados indica que la incertidumbre en esta medicin es mayor que lo informado en la Tabla 1. Posteriormente haremos un anlisis ms detallado, pero en principio es importante verificar que la incertidumbre relativa es mayor en la respuesta que en la concentracin. Usuarios de MATLAB: los datos de la Tabla 1 estn contenidos, en el formato apropiado para ser estudiados por la rutina 'LR_CAL.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_COMPLETOS.TXT'. Usuarios de QB: los datos estn en el archivo de texto 'D_E_R_C.TXT', para ser estudiados por el programa 'LR_CAL.EXE'. 2) La Tabla 2 muestra los mismos datos que la Tabla 1, restringidos hasta un lmite superior de concentracin para el cual se cumple la linealidad (ms adelante se muestra cmo se lleg a esta conclusin). Tabla 2. Concentraciones y respuestas para un rango en el que existe linealidad. Concentracin Respuesta 1 Respuesta 2 Respuesta 3 del patrn 0,06 0,08 0,06 0,00 1,41 1,56 1,44 1,00 2,90 2,76 2,82 2,00 4,08 4,20 4,15 3,00 5,52 5,46 5,29 4,00 6,69 6,54 6,61 5,00 Usuarios de MATLAB: los datos de la Tabla 2 estn contenidos, en el formato apropiado para ser estudiados por la rutina 'LR_CAL.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_LINEAL.TXT'. Usuarios de QB: los datos estn disponibles para ser estudiados por el programa 'LR_CAL.EXE' en el archivo de texto 'D_E_R_L.TXT'. 13

Calcule los valores de la pendiente y ordenada al origen para la recta ajustada con los datos de la Tabla 2. 3) Estime los desvos estndar en la pendiente y ordenada al origen, e informe los valores de A y B con el nmero correcto de cifras significativas. 4) La Tabla 3 muestra los valores de la respuesta para cuatro muestras incgnita, todos por triplicado. Tabla 3. Respuestas para cuatro muestras incgnita. Muestra Respuesta 1 Respuesta 2 0,65 0,69 1 2,13 2,20 2 3,41 3,55 3 4,71 4,82 4 Respuesta 3 0,75 2,05 3,52 4,70

Los datos de la Tabla 3 estn contenidos, en el formato apropiado para ser estudiados por la rutina 'LR_PRED.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_TEST.TXT'. Estime la concentracin del analito en las cuatro muestras de la Tabla 3, calcule sus desvos estndar e informe el resultado con el nmero apropiado de cifras significativas. 5) Calcule las cifras de mrito del mtodo.

Respuesta detallada
1) El anlisis de estos datos mediante los programas LR_CAL.M (Matlab) o LR_CAL.EXE (QB) indica que los datos no se comportan en forma lineal. En particular, se obtiene un valor de Fexp de 8,88, con una probabilidad asociada pF de 0,001. La grfica de los residuos es informativa al respecto:

14

2) Los valores estimados, dados por las ecuaciones (1) y (2) son, para el ejemplo de la Tabla 2, A = 1,3174 y B = 0,1237. Estos ltimos nmeros tienen, probablemente, ms cifras significativas que lo permitido por sus desvos estndar. Para acotarlos al nmero correcto de cifras es necesario estimar sus incertidumbres. 3) Los desvos estndar calculados son sy/x = 0,1, sA = 0,01 y sB = 0,04. Lo correcto es informar la pendiente y ordenada al origen de la recta ajustada del modo que sigue:
A = 1,32(1) B = 0,12(4)

En la Tabla 3 encontrar un resumen de todos los clculos intermedios necesarios para estimar A, B y sus errores estndar. Tabla 3. Parmetros necesarios para el clculo de A, B, sA y sB. i xi yi ( xi x ) 2 xi x yi y 6,25 3,36 0,06 2,50 0,00 1 2,25 1,98 1,44 1,50 1,00 2 0,25 0,60 2,82 0,50 2,00 3 0,25 0,73 4,15 0,50 3,00 4 2,25 1,87 5,29 1,50 4,00 5 6,25 3,19 6,61 2,50 5,00 6 6,25 3,34 0,08 2,50 0,00 7 2,25 1,86 1,56 1,50 1,00 8 0,25 0,66 2,76 0,50 2,00 9 0,25 0,78 4,20 0,50 3,00 10 2,25 2,04 5,46 1,50 4,00 11 6,25 3,12 6,54 2,50 5,00 12 6,25 3,48 0,06 2,50 0,00 13 2,25 2,01 1,41 1,50 1,00 14 0,25 0,52 2,90 0,50 2,00 15 0,25 0,66 4,08 0,50 3,00 16 2,25 2,10 5,52 1,50 4,00 17 6,25 3,27 6,69 2,50 5,00 18 Total Qxx = 52,5 Promedio x = 2,50 y = 3,42 4) Los valores de prediccin se muestran en la Tabla 4. Tabla 4. Predicciones en muestras incgnita. Muestra Respuesta Concentracin Desvo DSR = 100 s(xinc) a promedio (yinc) / xinc (%) predicha (xinc) estndar s(xinc) 12 0,05 0,44 0,70 1 3,3 0,05 1,52 2,13 2 1,9 0,05 2,56 3,49 3 1,4 0,05 3,51 4,74 4 a A partir de la ecuacin (6), insertando sy/x = 0,1; A = 1,32; n = 3; m = 18; yinc de la columna 2 de la Tabla 4, y = 3,42 y Qxx = 52,5. Note que los valores pueden aproximarse por s(xinc) = sy/x / (A n1/2), tal como se dijo en la parte terica. ( xi x ) ( yi y ) 8,39 2,97 0,30 0,37 2,81 7,98 8,34 2,79 0,33 0,39 3,06 7,81 8,69 3,01 0,26 0,33 3,15 8,18 Qxy = 69,17

15

Puede notarse que la concentracin predicha se acot a dos cifras decimales significativas, teniendo en cuenta que los desvos estndar son todos aproximadamente de 0,05 unidades. Ntese que los valores de s(xinc) son iguales en la Tabla 4 porque se informan con una sola cifra significativa, aunque su clculo detallado demuestra que difieren entre s, de la manera prevista por el efecto de la leva. Es importante destacar tambin que el desvo estndar relativo (DSR) dado en la Tabla 4 es alto para la primera muestra, y razonablemente bajo para las otras. En el primer caso, la concentracin predicha es tambin baja. Estas consideraciones se relacionan con la mnima concentracin detectable por la tcnica, que se considerar a continuacin. Tambin pueden fijarse los intervalos de confianza alrededor de una prediccin, empleando los coeficientes de student de dos colas para un 95% de confianza y (m 2) grados de libertad. Por ejemplo, para la muestra No. 4 en la Tabla 4: xinc = 3,51 t(p = 0,05; 16 GL) s(xinc) = 3,51 2,1 0,05 = 3,5 0,1 5) Es importante analizar la grfica de los residuos para este caso.

Como puede verse en la figura anterior, la distribucin de los residuos conserva an rastros de la falta de linealidad de los datos, pero la prueba F dice que esta impresin no es estadsticamente relevante: Fexp = 1,58, pF = 0,21. La Tabla 5 ilustra el clculo detallado de sy para esta prueba. En el presente ejemplo, la sensibilidad est dada por SEN = 1,32 (Unidades de respuesta)(Unidades de concentracin)1 Para el clculo de la sensibilidad analtica se requiere una estimacin del nivel de ruido instrumental. Para los datos de la Tabla 2, p = 6, r = 3, sy = 0,08 (vase la Tabla 5 para el detalle del clculo).

16

Tabla 5. Parmetros requeridos para el clculo de sy. i j yij yi 1 2 3 4 5 6 Total 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 0,06 0,08 0,06 1,44 1,56 1,41 2,82 2,76 2,90 4,15 4,20 4,08 5,29 5,46 5,52 6,61 6,54 6,69 0,03 1,47 2,83 4,14 5,42 6,61
p r

(yij yi )2 0,0009 0,0025 0,0081 0,0009 0,0081 0,0036 0,0001 0,0049 0,0049 0,0001 0,0036 0,0036 0,0169 0,0016 0,0100 0,0000 0,0049 0,0064

( yij yi ) 2 = 0,081
i =1 j =1

A partir de los resultados de la tabla anterior, se puede calcular un nivel de ruido instrumental de (0,081/12)1/2 = 0,08. Dado que, para los mismos datos, sy/x = 0,1, puede notarse que ambos procedimientos para estimar el ruido producen resultados similares. Empleando 0,1 unidades de respuesta como nivel de ruido, podemos calcular la sensibilidad analtica para el ejemplo en estudio a partir de la ecuacin (10), como = SEN / sy/x = 13 (Unidades de concentracin)1. El parmetro se interpreta mejor en trminos de su inversa. El valor de 1 (0,08 unidades de concentracin en nuestro caso) indica la menor diferencia de concentracin que puede apreciarse a lo largo del intervalo de aplicacin de la tcnica analtica. Con respecto al lmite de deteccin, puede estimarse como LOD = 2t0,05,16 0.06 = 0,2. Se interpreta este ltimo resultado diciendo que la tcnica es capaz de detectar al analito cuando est en concentraciones superiores a 0,2. Para el ejemplo de la Tabla 2 el LOQ se calcula como 0,6 unidades de concentracin. Se interpreta como la menor concentracin que se puede cuantificar, esto es, en el intervalo de concentracin entre 0,2 y 0,6 la tcnica puede detectar pero no cuantificar al analito. Con esto se comprueba que la concentracin predicha para la muestra incgnita No. 1 de la Tabla 4 est por debajo del LOQ, lo cual explica el alto valor de DSR. Con respecto al rango dinmico, la mxima concentracin probada fue de 10,00 unidades (Tabla 1). Hasta esa concentracin existe un cambio de respuesta al cambiar la concentracin, por lo que, a falta de mayor informacin, supondremos que el rango dinmico est entre 0,3 y 10 unidades de concentracin. Para estimar el rango lineal, se recurre a los datos de la Tabla 1, y se comprueba que para este caso, si se incluyen todos los datos, Fexp = 8,88, pF = 0,001, con lo cual dichos datos se declaran no lineales. Si vamos quitando datos, comenzando con los de mayor concentracin, y recalculamos los valores de Fexp y sus pF asociadas, se obtienen los resultados informados en la Tabla 6. 17

Tabla 6. Rangos de concentracin y estudio de la linealidad mediante la prueba F. Rango de concentracin Fexp pF 0,001 8,88 0-10 0,001 6,69 0-9 0,001 4,62 0-8 0,007 3,50 0-7 0,031 2,73 0-6 0,214 1,58 0-5 Estos resultados indican que a partir de una concentracin de analito igual a 6 unidades se pierde la linealidad. En realidad, la no-linealidad se mantiene. Debera decirse que a partir de 6 unidades de concentracin no es posible distinguir la incertidumbre por falta la linealidad de la incertidumbre intrnseca de la respuesta analtica. La Tabla 7 resume las cifras de mrito calculadas. Tabla 6. Cifras de mrito. Cifra de mrito Valor (unidades) Sensibilidad SEN = 1,32 (Unidades de respuesta)(Unidades de concentracin)1 Sensibilidad analtica = SEN / sy/x = 13 (Unidades de concentracin)1 Lmite de deteccin LOD = 0,2 (Unidades de concentracin) Lmite de cuantificacin LOQ = 0,6 (Unidades de concentracin) Rango dinmico 0,2-10,0 (Unidades de concentracin) Rango lineal 0,6-6,0 (Unidades de concentracin)

Ejercicios propuestos
1) Se analiza una serie de muestras patrones mediante dos mtodos analticos, uno basado en medidas de absorbancia y otro basado en medidas de fluorescencia. Los resultados se muestran en la siguiente tabla:
Concentraciones de patrones y respuestas obtenidas mediante dos mtodos analticos. Concentracin Mtodo A Mtodo B del patrn Respuesta Respuesta Respuesta Respuesta Respuesta Respuesta 1 2 3 1 2 3 1,9 1,9 2,0 0,02 0,02 0,01 0,000 17,3 17,4 17,4 0,17 0,17 0,17 0,100 32,6 32,6 32,5 0,32 0,33 0,32 0,200 48,0 47,8 47,8 0,48 0,48 0,48 0,300 63,3 63,3 63,2 0,64 0,64 0,64 0,400 78,4 78,5 78,4 0,79 0,79 0,79 0,500

Calcule las cifras de mrito para cada mtodo. Cul de estos mtodos puede considerarse ms sensible? Qu parmetro(s) emplea para justificar la mayor sensibilidad de un mtodo sobre el otro?. 2) Se mide por triplicado una muestra incgnita, usando ambos mtodos descriptos en el problema anterior. Los resultados se presentan en la siguiente tabla:

18

Respuesta 1 0,25

Mtodo A Respuesta 2 0,26

Respuesta 3 0,25

Respuesta 1 25,2

Mtodo B Respuesta 2 25,1

Respuesta 3 25,3

Calcular la concentracin del analito por ambos mtodos, y estimar su desvo estndar. Qu comentarios pueden hacerse respecto de estos resultados? Se recomienda emplear las rutinas de MATLAB 'LR_CAL.M' y 'LR_PRED.M' (o sus versiones respectivas en QB) organizando los datos de los ejercicios propuestos de la manera que se presenta en los archivos de texto correspondientes al ejercicio resuelto. 3) En el anlisis fluorimtrico de un compuesto, se realizan dos curvas de calibrado, empleando dos longitudes de onda diferentes para la excitacin. En el caso A, la emisin del compuesto est superpuesta con la dispersin Ramana del solvente, y el analista observa por lo tanto la presencia de un blanco constante de intensidad significativa. Decide modificar la longitud de onda de excitacin, en este caso generando los datos del caso B, donde el blanco parece ser menor. En la tabla siguiente se informan los datos de calibracin para cada caso, en sus respectivos rangos lineales. Qu conclusiones pueden extraerse respecto de las cifras de mrito de estos dos casos? Muestra 1 2 3 4 5 6 Muestra 1 2 3 4 5 6 7 8 Concentracin 0,000 0,198 0,392 0,583 0,769 0,950 Concentracin 0,000 0,198 0,392 0,583 0,769 0,950 1,130 1,310 Caso A Respuesta 1 0,78 3,38 5,75 8,53 10,97 13,40 Caso B Respuesta 1 0,01 1,96 3,75 5,59 7,30 9,07 10,83 12,08 Respuesta 2 0,80 3,44 6,16 8,51 11,04 13,08 Respuesta 2 0,03 1,88 3,75 5,52 7,35 8,95 10,71 12,11 Respuesta 3 0,82 3,51 6,01 8,68 10,89 13,37 Respuesta 3 0,04 1,90 3,80 5,56 7,27 9,03 10,46 12,21

19

El 42,57 % de toda la estadstica est equivocado.

Clase 2
Regresin lineal

"Elliptical viewpoint", escultura, tomada de www.sculpturedesign.com.

Material suministrado con la clase 2


Para esta clase se proveen los siguientes archivos: LECTURA ADICIONAL CLASE 2.PDF, documento de Adobe con un trabajo educativo para lectura adicional. Archivos de texto (*.TXT) conteniendo datos tpicos para estudios de exactitud y comparacin de mtodos. Archivos (*.M) con rutinas para el entorno de programacin MATLAB. Archivos (*.EXE) con programas ejecutables en QB.

Parte 2: exactitud y comparacin de mtodos analticos


En este segundo captulo sobre regresin lineal exploraremos su uso para el anlisis de la exactitud de un mtodo analtico y para la comparacin de dos mtodos analticos diferentes. La teora se expone en este documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la seccin Ejercicio Resuelto. La discusin que sigue est basada en trabajos recientes acerca del empleo de ensayos de recuperacin para la validacin y comparacin de mtodos,9 as como en la obra clsica de Massart y colaboradores.10 Para el estudio de la exactitud de un mtodo analtico, es usual preparar una serie de patrones con concentraciones conocidas del analito de inters, diferentes a las utilizadas en la etapa de calibracin. Luego se determina la concentracin del analito en cada uno de ellos por interpolacin en la recta de calibrado, y se analiza la exactitud de la determinacin a travs de la recuperacin de las concentraciones nominales del analito.

20

Por otro lado, cuando se desean comparar dos mtodos analticos, se determina, por ambos mtodos, el contenido de un analito en una serie de muestras en las que su concentracin es variable (dentro del rango lineal de cada uno de ellos). En ambos casos se trata de comparar parejas de valores que idealmente seran iguales, y estudiar el posible desvo de esta situacin ideal, en un contexto estadstico y con un cierto nivel de confianza. Es por esta razn que ambos procedimientos se incluyen en la presente clase.

Exactitud de un mtodo analtico


Si se dispone de una serie de patrones de concentracin conocida para la validacin de un mtodo analtico, se procede del modo siguiente. En primer lugar se miden sus respuestas, incluyendo rplicas de cada medicin (usualmente cada patrn se mide por triplicado). Se estima la concentracin a partir de cada respuesta analtica, se promedian los valores para cada nivel y se calcula el desvo estndar asociado. Luego se realiza una regresin lineal de los promedios en funcin de las concentraciones nominales a cada nivel. El anlisis difiere en ciertas sutilezas respecto del realizado en el caso de la Clase 1. La nomenclatura empleada aqu se describe a continuacin: x indica la variable concentracin nominal de cada nivel, y la variable concentracin promedio predicha para las rplicas de cada nivel, n el nmero de rplicas, q el nmero de niveles de validacin estudiados, y s(yi) el desvo estndar en la seal para cada nivel de concentracin (xi). Hay q desvos estndar, dados por:

( yij yi ) 2
(1) n 1 En la ecuacin (1), yij indica la concentracin para el patrn i en la rplica j, e yi es el promedio de las n rplicas para el nivel i. Debemos notar que una de las premisas para realizar un estudio por regresin lineal simple es que la variancia de la variable y sea aproximadamente constante, u homoscedstica.11 La Figura 1 muestra las diferencias entre una variancia homoscedstica y otra heteroscedstica. En la calibracin de datos analticos se supone que la distribucin del ruido instrumental es constante a lo largo del rango de calibracin, o en otras palabras, que la respuesta analtica es homoscedstica. Esto no es necesariamente as, sin embargo, si la variable y es la concentracin predicha para patrones de validacin, y no la respuesta analtica. Como se estudi en la Clase 1, el desvo estndar en la concentracin predicha mediante una recta de calibrado no es constante para diferentes muestras, sino que vara con la concentracin del analito. Es decir que, en principio, la variable y que estamos considerando en esta clase no es homoscedstica. En estos casos, se recomienda realizar una regresin lineal mediante cuadrados mnimos ponderados (WLS, por weighted least-squares) y no una regresin ordinaria (OLS, por ordinary least-squares) como la empleada en la Clase 1. Dado que el mtodo WLS es ms complicado que el OLS, lo recomendable es previamente verificar si efectivamente la variancia no es constante, para utilizar el primero en los casos en los que es estrictamente necesario. Una prueba de constancia de la variancia (o prueba de la homoscedasticidad) puede realizarse mediante el uso del parmetro estadstico F, calculando el valor "experimental" Fexp definido por el cociente entre el mximo y el mnimo valor de las variancias en las rplicas de los patrones [se toma como medida de cada variancia el valor de s(yi)2]:

s(yi) =

j =1

21

max[s ( yi ) 2 ] (2) min[s ( yi ) 2 ] Este valor se compara luego con el valor crtico de tablas para n 1 y n 1 grados de libertad (usualmente con el 95% de confianza). Si Fexp > Fcrit entonces se recomienda calcular los parmetros A y B de la regresin con el mtodo WLS que se describe ms adelante.
Fexp =

Figura 1. Arriba, variancia homoscedstica; abajo, variancia heteroscedstica.

Regin de confianza en el caso homoscedstico


Si se ha podido aplicar el mtodo OLS descrito en la Clase 1, debido a que las variancias son aproximadamente constantes, se dispone de los valores ajustados de A y B y de sus desvos estndar. Estos parmetros han sido utilizados tradicionalmente para determinar si las concentraciones estimadas de los patrones de validacin se diferencian estadsticamente (o no), de las nominales. El procedimiento consista en verificar si los valores ideales de A y B (1 y 0 respectivamente) estaban contenidos dentro de los correspondientes intervalos de confianza para la pendiente y ordenada al origen ajustadas. Sin embargo, actualmente se considera que este procedimiento es incorrecto, puesto que no tiene en cuenta que A y B no
22

son variables estadsticamente independientes, y que siempre existe un cierto grado de correlacin entre ellas. El procedimiento correcto debe considerar el intervalo de confianza conjunto entre la pendiente y la ordenada al origen. Este intervalo es una regin en el plano de las dos variables (pendiente y ordenada al origen) que tiene forma elptica. Por este motivo, la prueba estadstica correcta consiste en investigar si el punto (1,0) est contenido en la regin elptica de confianza conjunta de la pendiente y la ordenada al origen. La prueba se conoce como EJCR (por elliptical joint confidence region). Especficamente, la regin elptica est descripta por la siguiente ecuacin:9 q( B) 2 + 2( A)( B) xi + ( A) 2 xi2 = 2 s 2 y / x F2,q 2
i =1 i =1 q q

(3)

En la ecuacin precedente, y son las variables que corresponden a las dos dimensiones del plano en que se representa la regin elptica, y F2,q2 es el valor del parmetro estadstico F con 2 y q 2 grados de libertad para un dado nivel de confianza (usualmente 95%). Por lo tanto, debe dibujarse en un grfico bidimensional la regin anterior y verificar si contiene al punto (1,0). Detalles de cmo se dibuja esta elipse en un caso particular se dan en el ejercicio resuelto del documento que se acompaa. La Figura 2 ilustra este tipo de regin para un caso tpico: si el punto (1,0) no est contenido dentro de la elipse, esto implica que el mtodo no es exacto. Es importante remarcar que el tamao de la elipse, que est controlado, entre otros parmetros, por el desvo estndar de la regresin sy/x, da una idea de la precisin del mtodo analtico que se est probando. En este sentido, es importante utilizar un nmero significativo de niveles de concentracin para la prueba de exactitud, de manera que sy/x sea representativo de la regresin. De lo contrario, si se emplean slo unos pocos niveles de concentracin, se corre el riesgo de que la elipse abarque un rea considerable, e incluya al punto ideal (1,0) slo por azar. Vase la Figura 3 para aclarar este punto. Ntese que el valor de sy/x en este caso es similar al parmetro usualmente empleado en la comparacin de concentraciones predichas y nominales, llamado RMSE (por root mean square error):

( y predicho y nominal ) 2
(4) q Se divide el numerador por q (y no por q 1) debido a que RMSE no es un desvo estndar, sino la raz cuadrada de una media de desvos.

RMSE =

23

0.2

0.2

Ordenada al origen

0.0

Ordenada al origen
1.0 1.1

0.0

-0.2

-0.2 1.0 1.1

Pendiente

Pendiente

Figura 2. Dos regiones elpticas de confianza conjunta. Izquierda, mtodo exacto. Derecha, mtodo no exacto. El cuadrado marca el punto ideal (1,0).

Ordenada al origen

Pendiente

Figura 3. Distintos tipos de elipses, de acuerdo con la exactitud y precisin: verde, exacta y precisa; celeste, exacta e imprecisa; amarilla, inexacta e imprecisa; naranja, inexacta y precisa. El cuadrado negro marca el punto ideal (1,0).

Regresin ponderada
Si los datos no cumplen con la prueba de homoscedasticidad, el anlisis de los datos de validacin debe hacerse mediante regresin lineal ponderada. En este caso se calculan la pendiente (A) y ordenada al origen (B) de la recta ajustada a la ecuacin y = A x + B, minimizando la siguiente suma ponderada de cuadrados (SC): SC = i )2 wi ( yi y
i =1 q

(5)

24

donde wi es el "peso" o "ponderacin" aplicado a cada punto de la regresin, q el nmero de puntos, yi el valor de la variable y en cada punto (los promedios yi de las rplicas) e y es el promedio de los valores de la variable y. En el mtodo OLS utilizado en calibracin, la suma de cuadrados no incluye peso o ponderacin alguna. Cuando los datos son heteroscedsticos, el peso wi se define como inversamente proporcional a la variancia de la variable en el punto i: 1 wi = (6) s ( yi ) 2 El efecto concreto del pesado de los datos en forma inversamente proporcional a su variancia es dar mayor contribucin, en la regresin, a los datos ms precisos, y comparativamente menor peso a los menos precisos. Los valores estimados de A y B de una regresin lineal ponderada se calculan mediante las siguientes ecuaciones:

wi ( xi x w )( yi y w )
A=
i =1

wi ( xi
i =1

(7) xw ) 2

(8) B = y w A xw donde xi es la concentracin de cada uno de los q patrones de validacin, y los parmetros xw e y w son las coordenadas del centro de gravedad pesado por donde pasa la recta ajustada, que estn dadas por:

wi xi
xw =
i =1 q

(9)

wi
i =1 q

wi yi
yw =
i =1 q

(10)

wi
i =1

En el mtodo WLS el parmetro sy/x (el desvo estndar de los residuos de la regresin) est dado por:
i )2 wi ( yi y
q i =1

(11) q2 i representa la respuesta estimada en cada punto, donde yi es la respuesta experimental, e y i = A xi + B. esto es, y El lector podr comprobar que si todos los wi son idnticos entre s (homoscedasticidad perfecta), las ecuaciones anteriores se reducen al caso OLS tratado en la Clase 1.

sy/x =

Regin de confianza en el caso heteroscedstico


Cuando se aplica el mtodo WLS para determinar A y B, la prueba de exactitud del mtodo analtico es idntica a la descrita en el caso OLS, excepto que la ecuacin que describe la elipse de confianza conjunta es: 25

B) 2

wi + 2( A)( B) wi xi + (
i =1 i =1

A) 2

wi xi2 = 2s 2 y / x F2, q 2
i =1

(12)

Comparacin de mtodos analticos


La comparacin de dos mtodos se lleva a cabo disponiendo de una serie de muestras para las que se ha determinado el contenido de un analito por dos mtodos alternativos. Usualmente se mide cada muestra por triplicado por ambos mtodos, y se aplica un modelo de regresin lineal para verificar si los resultados provistos por ambos mtodos son comparables. Cada muestra estudiada proporciona entonces una concentracin predicha por cada uno de los dos mtodos, acompaadas por sus respectivas variancias. Supongamos que los resultados determinados por el mtodo 1 se consideran la variable x y los provistos por el mtodo 2 la variable y (en la comparacin de un mtodo dado frente a otro considerado como referencia, este ltimo se toma como mtodo 1). Ambas variables, por lo tanto, tienen asociada una incertidumbre finita. La regresin lineal de y vs. x en este caso difiere tanto del mtodo OLS como del WLS, ya que en estos dos ltimos la suposicin bsica es que no hay error en la variable x, aunque en realidad debera decirse que en OLS y WLS la incertidumbre asociada a la variable x (concentracin nominal de patrones) es significativamente menor que la asociada a la variable y (respuesta analtica de los patrones, o concentracin predicha por un dado mtodo). Este supuesto no se cumple en la comparacin de mtodos analticos, y es necesario recurrir a un mtodo de regresin que tenga en cuenta los errores en ambos ejes. Un mtodo popular para estos casos es el de cuadrados mnimos bivariados o BLS (por bivariate leastsquares).12 En la tcnica BLS la pendiente y la ordenada al origen de la recta ajustada se obtienen minimizando una funcin idntica a la mostrada en la ecuacin (5), excepto que los pesos son una funcin de las variancias en ambas variables: wi = [s ( yi ) 2 + A 2 s ( xi ) 2 ]1 (13) En otras palabras, los pesos de la regresin "doblemente ponderada" BLS se eligen como inversamente proporcionales a una combinacin de las variancias en x y en y. Lamentablemente no existen frmulas explcitas para estimar la pendiente y la ordenada al origen cuando los pesos tienen la forma dada por la ecuacin (13), y debe recurrirse a un algoritmo matemtico iterativo que no est disponible en los programas comerciales de ajuste por cuadrados mnimos. Esto es as porque en la ecuacin (13) interviene la pendiente estimada A, que a su vez depende de los pesos. Sin embargo, hay ocasiones en que no es imprescindible aplicar el mtodo BLS: cuando la variancia en la variable x es significativamente menor que en la variable y, la comparacin puede realizarse con xito empleando el mtodo WLS, considerando que no hay error en la variable x. De hecho, si s(xi)2 << s(yi)2, la ecuacin (13) se reduce al caso WLS en que wi = s(yi)2. Por este motivo se aconseja asignar, para la regresin lineal, la variable x a los valores hallados por el mtodo ms preciso, y la variable y al mtodo menos preciso. Si puede hacerse esta ltima aproximacin, la comparacin de mtodos consiste en el clculo de la pendiente y ordenada al origen mediante WLS, y consideracin de la regin elptica de confianza conjunta, tal como se describi para el estudio de exactitud. Si el punto ideal (1,0) est contenido dentro de la elipse, los mtodos son comparables estadsticamente en cuanto a la prediccin de la concentracin del analito en las muestras de validacin. Se recomienda consultar el trabajo que se adjunta (LECTURA ADICIONAL CLASE 2.PDF), en el que se ilustran los peligros de no emplear el mtodo correcto de regresin para la comparacin de mtodos analticos. Tambin se discute el hecho de que en ciertos casos los mtodos WLS y BLS pueden producir resultados similares, pero muy diferentes a los provistos por OLS. 26

Programas de computacin
Usuarios de MATLAB: se provee acceso a la rutina EJCR.M que puede usarse para aplicar los mtodos OLS, WLS y BLS, y generar la elipse correspondiente. Usuarios de QB: se provee acceso al programa EJCR.EXE, que realiza las operaciones necesarias pero no grafica la elipse. Esta ltima puede obtenerse importando los datos generados por el programa en un entorno grfico apropiado. Vase tambin el ejercicio resuelto detalladamente que se acompaa.

Ejercicio resuelto
1) La Tabla 1 muestra datos para analizar la exactitud de un mtodo analtico. Determine si el mtodo es exacto mediante regresin lineal y estudio de la regin elptica de confianza conjunta para A y B. Tabla 1. Concentraciones nominales de patrones, y valores hallados por un mtodo analtico (con sus desvos estndar). Muestra Nominal Hallada Desvo estndar (promedio de cinco rplicas) 0,06 0,06 0,05 1 0,05 5,02 5,16 2 0,04 10,00 9,91 3 0,02 15,20 14,90 4 0,03 19,90 19,80 5 0,04 25,00 24,90 6 0,06 30,00 30,00 7 2) La Tabla 2 muestra datos para la comparacin de dos mtodos analticos (promedios de tres rplicas en cada caso), incluyendo los desvos estndar de cada uno. Compare los resultados mediante regresin WLS y anlisis de la regin elptica conjunta. Tabla 2. Concentraciones halladas por dos mtodos analticos con sus desvos estndar. Muestra Mtodo 1 Desvo Mtodo 2 Desvo estndar estndar 0,06 0,06 0,03 0,05 1 0,05 5,02 0,02 5,16 2 0,04 10,00 0,02 9,91 3 0,02 15,20 0,01 14,90 4 0,03 19,90 0,02 19,80 5 0,04 25,00 0,01 24,90 6 0,06 30,00 0,03 30,00 7

Respuesta detallada
1) En primer lugar debemos determinar si los datos de la Tabla 1 son homoscedsticos. Para ello calculamos el cociente: max[s ( yi ) 2 ] (0,06) 2 Fexp = = =9 min[s ( yi ) 2 ] (0,02) 2

27

Dado que este ltimo valor es mayor que el de tabla [Fcrit (95%,4,4) = 6,5] concluimos que los datos son heteroscedsticos, y que debemos emplear el mtodo WLS para el anlisis por regresin lineal. Calculamos entonces los pesos wi de cada dato, los que se renen en la Tabla 3. El clculo de cada peso se realiza mediante la ecuacin: qs ( yi ) 2 wi = q s( yi ) 2
i =1

De esta manera, se consigue que la suma de los pesos sea igual a q, lo que facilita los clculos. Tabla 3. Datos xi, yi y pesos wi para exactitud de mtodos. i xi yi 0,06 0,05 1 5,02 5,16 2 10,00 9,91 3 15,20 14,90 4 19,90 19,80 5 25,00 24,90 6 30,00 30,00 7

wi 0,33 0,48 0,75 3,00 1,33 0,75 0,33

Note que los pesos son mayores para datos con menor desvo estndar. Para la muestra nmero 1, por ejemplo, tendremos: 7 (0,06) 2 w1 = = 0,33 1 1 1 1 1 1 1 + + + + + + (0,06) 2 (0,05) 2 (0,04) 2 (0,02) 2 (0,03) 2 (0,04) 2 (0,06) 2 Luego debemos calcular los valores de los diferentes productos de variables y pesos, que se muestran en la Tabla 4. Tabla 4. Clculos parciales para el mtodo WLS. i wi xi wi xi2 wi yi 0,0201 0,0008 0,0167 1 2,4165 12,8169 2,4839 2 7,5215 73,8671 7,4538 3 45,7307 667,9384 44,8281 4 26,6094 524,2178 26,4756 5 18,8037 466,3399 18,7285 6 10,0287 300,8596 10,0287 7 Total 110,0153 2.046,0405 111,1304 Con los resultados anteriores, calculamos: xw = 110,0153 / 7 = 15,72 y w = 111,1304 / 7 = 15,88

wi xi yi 0,0010 12,4692 74,5380 681,3868 526,8653 468,2128 300,8596 2.064,3327

28

wi ( xi x w )( yi y w )
A=
i =1

wi ( xi
i =1 q i =1

= xw ) 2 2.064,3327 7 15,72 15,88 = 1,0022 2.046,0405 7 (15,72) 2

wi xi yi vx w y w
=
2 wi xi2 vx w i =1 q

B = y w A xw = 15,88 1,0022 15,72 = 0,12 Estos valores deben acotarse al nmero correcto de cifras significativas conociendo los desvos estndar correspondientes. Los desvos estndar en la pendiente y la ordenada al origen, estimadas por el mtodo WLS de regresin lineal, estn dados por ecuaciones anlogas a las empleadas en el mtodo OLS, pero con los valores de x e y pesados convenientemente: sy/ x sA = Qxx
2 1 xw + m Qxx donde sy/x se determina mediante la ecuacin apropiada para datos pesados (WLS), tal como se describi en la parte terica:

sB = s y / x

i )2 wi ( yi y

= 0,16 q2 Por su parte, Qxx est dado por: Qxx =


2 = 316,2 wi xi2 qx w i =1 q

sy/x =

i =1

A partir de estos parmetros, se obtiene (redondeando a una cifra significativa): sA = 0,01 sB = 0,2 Por lo tanto, la pendiente y la ordenada al origen se informan como A = 1,00(1) y B = 0,1(2). Para el estudio de la regin elptica, necesitamos los siguientes parmetros: q=7

wi xi = 110,0153 wi xi2 = 2.046,0405


i =1 i =1 q

s2 y / x = 0,026

F2,q 2 = 8,6 Por lo tanto, la ecuacin de la elipse estar dada por: 7( 0,1) 2 + 220,0306( 1)( 0,1) + 2.046,0405( 1) 2 = 0,44

29

La ecuacin anterior tiene la siguiente forma: a1 ( A) 2 + a 2 ( A)( B) + a3 ( B) 2 = a 4 donde a1, a2, a3, a4, A y B son constantes y y son las variables. Los valores de las constantes son: a1 = 2,046103 a2 = 220,03 a3 = 7 a4 = 0,44 A=1 B = 0,1 La ecuacin describe una elipse en el plano (,). Para dibujar esta elipse es necesario conocer sus lmites en el eje de las abscisas (). Estos lmites se pueden calcular a partir de las siguientes consideraciones. En primer lugar re-escribimos la ecuacin anterior como de segundo grado en ( B): a3 ( B) 2 + a 2 ( A)( B) + [a1 ( A) 2 a 4 ] = 0 Luego calculamos los valores de ( B) a partir de la resolvente de segundo grado:
2a 3 Observamos que slo se obtendrn valores reales de ( B) si se cumple que la expresin dentro de la raz cuadrada es positiva; los lmites se encuentran cuando esta expresin se iguala a cero: a 2 2 ( A) 2 4a3 [a1 ( A) 2 a 4 ] = 0

( B) =

a 2 ( A) a 2 ( A) 2 4a3 [a1 ( A) 2 a 4 ]
2

de donde se pueden calcular los lmites superior e inferior de ( A) como: 4a 3 a 4 = 0,0373 LIM( A) = a 2 2 + 4a3 a1
Para construir una tabla de valores de y , y graficar la elipse se calculan los correspondientes valores de dentro de estos lmites de mediante la ecuacin: =B+
a 2 ( A) a 2 ( A) 2 4a3 [a1 ( A) 2 a 4 )]
2

2a 3 Ejemplos de pares de valores de y calculados con la ecuacin anterior son:

A 0,0373 0,0273 0,0173 0,0073 0,0027 0,0127 0,0227 0,0327

0,9627 0,9727 0,9827 0,9927 1,0027 1,0127 1,0227 1,0327

0,7110 0,6971 0,5903 0,4563 0,3027 0,1306 0,0642 0,3022 0,6520 0,3516 0,1441 0,0362 0,1970 0,3393 0,4587 0,5350

La grfica de la elipse correspondiente, construida con datos de la tabla anterior, es la siguiente (el cuadrado slido marca el punto ideal de pendiente 1 y ordenada 0):

30

Ordenada al origen ()

-1 0.96

0.98

1.00

1.02

1.04

1.06

Pendiente ()
Se aprecia claramente que el punto ideal (1,0) est contenido en la elipse, por lo que el mtodo analizado es exacto. Usuarios de MATLAB: los datos de la tabla estn contenidos en el archivo de texto 'DATOS_EXACT_WLS.TXT', y organizados de tal modo que pueden estudiarse mediante la rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona los valores ajustados de pendiente y ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numricos necesarios para graficar la regin elptica mediante programas grficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse. Usuarios de QB: los datos estn en el archivo 'D_E_WLS.TXT' para ser estudiados por EJCR.EXE. 2) En este caso se trata de comparar dos mtodos analticos. Los resultados del anlisis mediante WLS son idnticos a los discutidos para la parte 1) (porqu?). Cuando se realiza un anlisis BLS se calculan los siguientes valores de pendiente y ordenada al origen: A = 1.00(1) B = 0,1(2) Ntese que son idnticos a los hallados mediante la tcnica WLS. La explicacin es que los valores de la variable x (las concentraciones estimadas mediante el mtodo analtico 1) tienen desvos estndar menores que los de y (las concentraciones estimadas mediante el mtodo analtico 2). Como consecuencia, es prcticamente lo mismo realizar el anlisis mediante WLS o mediante BLS. Usuarios de MATLAB: los datos de la tabla estn contenidos en el archivo de texto 'DATOS_COMPAR_BLS.TXT', y organizados de tal modo que pueden estudiarse mediante la rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona

31

los valores ajustados de pendiente y ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numricos necesarios para graficar la regin elptica mediante programas grficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse. Usuarios de QB: los datos estn en D_C_BLS.TXT.

Ejercicios propuestos
1) Los valores siguientes corresponden a la comparacin entre las predicciones efectuadas para la determinacin de teofilina en sangre mediante un mtodo espectrofotomtrico, comparado con un mtodo de inmunofluorescencia polarizada (FPIA). No se determinaron las muestras por triplicado debido a la cantidad insuficiente de muestra (sueros de pacientes peditricos). Sin embargo, se estima que los desvos estndar promedio para cada mtodo son: 0.4 g ml1 para el mtodo FPIA y 0.9 g ml1 para el espectrofotomtrico. Llevar a cabo el anlisis de comparacin de mtodos mediante la construccin de la elipse apropiada, suponiendo que los desvos estndar anteriores son constantes para todos los datos. Muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Teofilina hallada / g ml1 FPIA Espectrofotomtrico 0.0 1.4 6.5 5.3 33.2 30.6 9.7 12.7 12.2 14.9 14.8 17.7 20.1 19.9 15.6 18.5 19.3 20.4 16.8 22.6 24.2 27.1 28.6 29.8 0.0 0.0 3.9 1.6 8.0 5.7 11.2 14.2 11.4 15.3 14.7 17.5 16.5 17.6 16.6 19.4 19.8 18.7 19.5 18.9 23.0 21.2

2) En la determinacin del antibitico ciprofloxacina en orina se emplean tres mtodos multivariados diferentes. La tabla que sigue proporciona datos para estudiar la exactitud de cada mtodo, frente a un grupo de muestras de referencia, cuya concentracin de analito es conocida. Grafique las correspondientes EJCR y comente los resultados. Note que no hay datos disponibles acerca de los desvos estndar, por lo que deber realizarse un anlisis OLS.

32

Muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Nominal 190 87 23 13 38 150 26 58 125 65 90 160 48 75 0 0 0 0

Mtodo 1 173 80 26 6 19 142 33 67 146 63 89 158 41 64 10 5 3 11

Mtodo 2 214 86 29 14 28 145 16 60 126 67 92 172 52 68 11 8 7 7

Mtodo 3 208 107 46 28 50 160 47 80 146 75 120 174 61 92 26 21 30 27

Se recomienda emplear la rutina de MATLAB 'EJCR.M' (o su equivalente en QB) organizando los datos del ejercicio propuesto de la manera que se presenta en los archivos de texto correspondientes al ejercicio resuelto.

33

Un estadstico tena sus pies sobre hielo y su cabeza en un horno encendido. Al preguntrsele cmo se senta, respondi: "en promedio, me siento bien".

Clase 3
Calibracin bivariada

Material suministrado con la clase 3


Para esta clase se proveen los siguientes archivos: MATRICES PARTE 1. PDF, documento de Adobe conteniendo conceptos bsicos sobre lgebra matricial. LECTURA ADICIONAL CLASE 3.PDF, documento de Adobe con un trabajo educativo para lectura adicional.

Determinacin de dos analitos usando dos sensores


En la calibracin multivariada, se emplean datos instrumentales medidos utilizando ms de un sensor para la determinacin simultnea de dos o ms analitos, o de un analito en presencia de interferentes. El ejemplo tpico de datos multisensoriales es un espectro de absorcin electrnica, donde la seal instrumental es la absorbancia, y los sensores son las 34

longitudes de onda. Sin embargo, las tcnicas de calibracin multivariada no estn restringidas al uso de datos espectrales de un tipo determinado, sino que pueden extenderse a otros datos tales como fluorescencia, absorcin en el infrarrojo o infrarrojo cercano, y an datos no espectroscpicos, como voltamperogramas. El caso ms simple del uso de ms de un sensor para la determinacin de ms de un analito es el estudio de mezclas binarias de compuestos absorbentes a dos longitudes de onda, o calibracin bivariada. Si bien la tcnica ha cado un tanto en desuso para aplicaciones prcticas, conserva no obstante un importante valor pedaggico, ya que permite una introduccin sencilla y gradual al tema ms complejo de determinaciones de multianalitos utilizando un alto nmero de sensores.13,14 La teora se expone en este documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la seccin Ejercicio Resuelto. A medida que se discutan los conceptos tericos asociados con el uso de dos sensores, se establecern las analogas correspondientes con la calibracin multivariada utilizando mltiples sensores.

La etapa de calibracin
Anlogamente al caso univariado, la metodologa bivariada consta de dos etapas: calibracin y prediccin. En la etapa de calibracin, se requiere establecer la relacin existente entre concentracin y seal para cada analito calibrado, del mismo modo que cuando se estima la pendiente de una recta univariada. En el presente caso, la diferencia estriba en que las seales multivariadas son intrnsecamente menos selectivas, y es necesario un procedimiento que distinga, de algn modo, las seales que le corresponden a cada analito. Una etapa de calibracin tpica en anlisis bivariado consiste en preparar soluciones de concentracin conocida de ambos analitos, y estimar, a partir de las seales medidas a dos longitudes de onda (o, en general, a dos sensores diferentes), las respectivas relaciones sealconcentracin. Las soluciones de calibrado pueden ser mezclas de ambos analitos, o ms simplemente soluciones conteniendo los analitos en forma pura (si estos es experimentalmente posible). En la seccin siguiente se describir en detalle el proceso de calibracin empleando la notacin matricial, lo que preparar en cierta forma el camino para el uso de este tipo de herramientas matemticas en el anlisis multivariado.

La calibracin en notacin matricial


Es sumamente til emplear la notacin matricial para indicar los resultados de mediciones de mezclas binarias a dos longitudes de onda. Quienes deseen revisar conceptos bsicos sobre matrices y sus operaciones, necesarios para seguir en detalle la presente clase, pueden consultar el documento adjunto 'MATRICES PARTE 1.PDF'. Supongamos que en la calibracin de un mtodo bivariado se preparan dos soluciones patrn conteniendo los analitos 1 y 2, y se leen las absorbancias de estas dos soluciones a las longitudes de onda 1 y 2. Las correspondientes respuestas instrumentales Yij (absorbancias de la solucin patrn i a la longitud de onda j) se renen en la matriz (22) de calibracin Y: Y Y (1) Y = 11 12 Y21 Y22 Las concentraciones de ambos analitos en las soluciones de calibrado deben conocerse a los efectos de llevar a cabo la calibracin del modelo. Estas concentraciones se agrupan en la matriz de concentraciones de calibracin (22) X, cuyo elemento genrico Xin es la concentracin en la mezcla i del analito n:

35

X 12 X (2) X = 11 X 21 X 22 La etapa de calibracin, o sea, la determinacin de las llamadas sensibilidades individuales a cada longitud de onda, se lleva a cabo suponiendo que se cumple la ley de Beer que relaciona absorbancia con concentracin. La seal de la mezcla nmero 1 a la longitud de onda 1, por ejemplo, se obtiene a partir de la suma de las contribuciones de ambos analitos: Y11 = X11 S11 + X12 S12 (3) donde S11 y S21 son las sensibilidades del analito 1 y 2 respectivamente a la longitud de onda 1. Los restantes elementos de Y se obtienen mediante ecuaciones similares a (3). En general Y podr escribirse entonces mediante el siguiente producto matricial: Y = X ST (4) donde S es una matriz (22) cuyo elemento genrico Sjn es la sensibilidad a la longitud de onda j del analito n. La ecuacin (4) puede representarse en forma grfica mediante la Figura 1, til para analizar los requerimientos de tamao de las distintas matrices (se ilustra un caso general, en que el nmero de analitos es N, el nmero de muestras de calibrado es I y el nmero de longitudes de onda es J).

ST

IJ

IN

NJ Estos nmeros deben coincidir (J)

Estos nmeros deben coincidir (I)

Estos nmeros deben coincidir (N)

Figura 1. Esquema que muestra las relaciones de tamao en la aplicacin de la ley de Beer a mezclas de componentes.

Si X se expresa en trminos de concentraciones molares, entonces Sjn es la absortividad molar a la longitud de onda j del componente n (multiplicada por el paso ptico). Sin embargo, se prefiere llamar a los elementos Sjn "sensibilidades", dado que el modelo matemtico no est restringido a datos de absorcin. Ntese que se requiere la trasposicin de la matriz S en la ecuacin (4) para mantener la consistencia del producto matricial (Figura 1). La matriz S puede obtenerse a partir de la ecuacin (4), aunque se requieren varias etapas. En primer lugar, es necesario pre-multiplicar ambos miembros por X1 (ntese que en el terreno matricial, pre-multiplicar, o multiplicar por la izquierda, no es lo mismo, en general, que pos-multiplicar o multiplicar por la derecha). A continuacin es necesario trasponer ambos miembros de la igualdad obtenida, con el objeto de "despejar" la matriz S: S = (X1 Y)T = YT (X1)T (5) En la ecuacin (5), al trasponer el producto matricial, se invierte el orden de aparicin de las matrices. Esta ltima ecuacin completa la calibracin, lo que provee una matriz de calibracin S que debe almacenarse para predicciones en muestras futuras. La obtencin de S 36

es anloga al clculo de la pendiente de la recta de regresin en calibracin univariada, en forma previa a la medicin de la seal analtica de muestras incgnita. En el procedimiento bivariado ms simple que se pueda concebir, las soluciones de calibracin no son mezclas binarias, sino que contienen slo analitos puros, de manera que la matriz X tiene en este caso el siguiente aspecto: 0 X 12 x1,cal X (6) = X = 11 x2,cal X 21 X 22 0 donde se han empleado las cantidades escalares x1,cal y x2,cal para denotar las concentraciones de los analitos 1 y 2 respectivamente en las soluciones de calibrado. Sin embargo, en un caso ms general, podran utilizarse mezclas binarias para calibracin. En tal caso, es importante recalcar que las concentraciones de los patrones empleados en estas mezclas binarias deben ser tales que la matriz X pueda invertirse. Este requisito es fundamental, ya que de lo contrario ser imposible calcular la matriz S a travs de la ecuacin (5). Matemticamente hablando, X podr invertirse si su determinante es distinto de cero, y esto suceder si sus lneas (filas o columnas) no son combinaciones lineales. Desde el punto de vista qumico, esto se traduce en que las concentraciones de un analito no deben ser proporcionales a las del otro analito en las mezclas empleadas para calibrar. Este concepto cobrar mayor importancia en el campo del anlisis de mltiples analitos empleando espectros completos. Ntese que, en el caso ms simple, si se cumple la ecuacin (6), X es diagonal y por lo tanto la matriz inversa X1 adopta una forma sencilla, de manera que S est dada por: Y21 1 Y11 0 x Y21 x1,cal x2,cal Y 1,cal S = YT (X1)T = 11 (7) = 1 Y Y Y Y 12 22 22 12 0 x2,cal x1,cal x2,cal donde puede reconocerse cada elemento de S como la absortividad molar de cada analito a cada longitud de onda (multiplicada por el paso ptico), obtenida dividiendo la correspondiente absorbancia de la solucin de calibracin por su concentracin.

Etapa de prediccin
En la etapa de prediccin, se miden las seales instrumentales para una muestra incgnita, por ejemplo, dos absorbancias a las longitudes de onda a las que se realiz la calibracin. Dichas seales, denominadas y1 e y2, se agrupan en el vector columna (21) y: y (8) y = 1 y2 La prediccin se logra recurriendo a la ley de Beer aplicada a la muestra incgnita, en forma anloga a la ecuacin (4): y=Sx (9) donde x es un vector columna que contiene los elementos buscados en el anlisis: las concentraciones (desconocidas) de ambos analitos en la incgnita. Despejando x de la ecuacin (9): x = S1 y (10) El vector x (21) contiene dos elementos: las concentraciones de ambos analitos en la muestra incgnita estimadas por el modelo bivariado. Estos clculos completan, por lo tanto, la etapa de prediccin.

37

Coeficientes de regresin
La ecuacin (10) puede interpretarse en forma grfica mediante el siguiente esquema:

x1 x2

1ra. fila de S1
y

2da. fila de S1 =
S1 22

x 21

y 21

Este esquema nos ayuda a establecer que la concentracin de cada analito en la muestra incgnita se predice mediante el siguiente producto escalar: xn = (nava fila de S1) y (11) La nava fila de S1, una vez traspuesta (o sea, convertida en un vector columna) cumple un papel importante en el anlisis multivariado, donde corrientemente se denomina n: (12) n = (nava fila de S1)T La trasposicion de la nava fila de S1 para obtener el vector columna n es una cuestin puramente formal. Con esta ltima definicin, la ecuacin (11) se transforma en: xn = nT y = 1n y1 + 2n y2 (13) lo cual significa que la concentracin predicha es el producto escalar del vector n por el vector de respuestas instrumentales. En el terreno multivariado n se llama vector de los coeficientes de regresin. Este concepto es sumamente importante, ya que los coeficientes de regresin actan de manera anloga a la inversa de la sensibilidad (o pendiente de la recta de regresin univariada), permitiendo definir cifras de mrito para modelos que emplean ms de un sensor. Cuando se emplean mltiples sensores para la determinacin de multianalitos, las ecuaciones sern similares a las arriba descritas. Los respectivos tamaos de las matrices se comparan en la Tabla 1, en la que I es el nmero de muestras de calibrado, J el nmero de longitudes de onda analizadas y N el nmero de componentes presentes en las mezclas. Tabla 1. Tamaos en las matrices en determinaciones utilizando mltiples sensores. Matriz / Concepto Modelo bivariado Modelo multivariado vector Seales de calibrado Y 22 IJ Concentraciones de X 22 IN calibrado Sensibilidades S 22 J N Coeficientes de regresin 21 J 1 n Seales de la incgnita y 21 J 1 Concentraciones x 21 N1 estimadas en la incgnita

Colinealidad
Un examen cuidadoso de la ecuacin (10) revela que el paso crtico en la estimacin de la concentracin de los analitos en la muestra incgnita es la inversin de la matriz S. Una 38

matriz es invertible si su determinante es distinto de cero, de lo contrario se dice que la matriz en cuestin es singular o no invertible, y su inversa no existe. De esto se desprende que si por alguna razn el determinante de la matriz S, aunque no sea exactamente cero, es pequeo (en comparacin con el nivel de ruido instrumental), S ser difcilmente invertible, en el sentido que los elementos de S1 estarn pobremente definidos. El proceso puede ilustrarse con la inversin de un nmero cercano a cero; si bien el cociente existe, su valor se vuelve ms y ms impreciso a medida que el nmero decrece. La singularidad de la matriz S, y su consiguiente dificultad de inversin, estn directamente relacionadas con el concepto de paralelismo o colinealidad espectral. En trminos matemticos, el determinante de S ser cercano a cero si sus filas son combinaciones lineales. Podemos traducir este concepto al campo de la espectroscopa bivariada si graficamos la sensibilidad para cada analito a cada una de las dos longitudes de onda de trabajo (Figura 2). Uniendo los puntos correspondientes a cada analito se obtienen dos lneas rectas: cuanto ms paralelas sean estas lneas rectas, ms difcil ser la inversin de S, y ms cercano a cero su determinante. Vase la Figura 2, en la que se muestra una situacin deseable (izquierda) y una indeseable (derecha) para el anlisis a dos longitudes de onda.

Sensibilidad

Sensibilidad

Figura 2. Sensibilidad en funcin de la longitud de onda. Izquierda: situacin deseable, derecha: situacin indeseable. Los datos en rojo representan el analito 1, los datos en azul el analito 2.

Cifras de mrito
Anlogamente al caso univariado, pueden definirse cifras de mrito correspondientes a determinaciones usando mltiples sensores. Respecto de la sensibilidad, ntese que la ecuacin (13) puede interpretarse como una forma particular de la ley de Beer, en la que la concentracin es proporcional a la seal. Dado que la constante de proporcionalidad en este caso es la inversa de la sensibilidad (en el caso univariado c = (b)1 A], es natural pensar en el vector de coeficientes de regresin como midiendo la "sensibilidad inversa" para una determinacin a mltiples longitudes de onda. De hecho, la definicin de sensibilidad SENn para el analito n en una determinacin de dos analitos en mezclas binarias a dos longitudes de onda es: 1 SENn = (14) 2 1n + 2 2n

39

donde 1n y 2n son los elementos del vector n. Esta definicin es anloga a la sensibilidad de calibracin, que fuera definida en el contexto de la calibracin univariada. Dado que la 2 + 2 cantidad 1 2 n es la "longitud" del vector n, tambin conocida como su norma, la n ecuacin para la sensibilidad adopta la siguiente forma: (15) SENn = 1 / || n || donde || || simboliza el clculo de la norma de un vector. En la calibracin para el anlisis de varios componentes debe considerarse como cifra de mrito adicional la selectividad. En el caso univariado este parmetro no se toma en cuenta debido a que aqul no contempla la existencia de seales interferentes. Se puede definir la selectividad para el analito n, en presencia de otros componentes, como el cociente entre la sensibilidad dada por la ecuacin (15), y el valor que tendra dicha sensibilidad si el analito en cuestin estuviese presente en su forma pura: SELn = SENn / || nava. columna de S || (16) Puede demostrarse que SENn es un nmero adimensional que vara entre 0 y 1; el cero corresponde a un sistema totalmente no selectivo para el analito n, mientras que 1 corresponde al caso totalmente especfico, para el que se puede aplicar la calibracin univariada. Tambin puede definirse la sensibilidad analtica, como el cociente entre el valor de SENn y el ruido instrumental sR, obtenido a partir de replicados de una muestra blanco: (17) n = SENn / sy Existen tambin ecuaciones para la estimacin de los errores estndar en la concentracin predicha de cada analito, que son una extensin de la estudiada en el caso univariado. Una aproximacin sencilla a la estimacin de s(xn) se puede obtener ignorando el efecto de la leva, y tomando slo en consideracin el efecto de la incertidumbre en la respuesta analtica. En ese caso: s(xn) = sy / SENn (18) En relacin con el lmite de deteccin, el clculo se complica por el hecho de que este parmetro no puede definirse para un analito sin conocer la concentracin de otros analitos en una muestra dada. El lector interesado en una lectura avanzada respecto de la estimacin de errores estndar y lmite de deteccin en este caso puede consultar el documento adjunto "LECTURA ADICIONAL CLASE 3.PDF", que dar una idea de la complejidad matemtica del problema, an en el caso simple de calibracin bivariada. De todas maneras, si los efectos de la leva no son relevantes, en otras palabras, si la muestra incgnita no est lejos del centro de la calibracin, una ecuacin aproximada para el lmite de deteccin puede obtenerse por analoga con la calibracin univariada: LOD = 3,3 sy / SENn (19)

Ejercicio resuelto
1) Se desean analizar mezclas acuosas de permanganto y dicromato mediante mediciones a dos longitudes de onda. En la etapa de calibracin, se preparan dos soluciones patrn conteniendo, respectivamente, permanganato de potasio 4,075104 M y dicromato de potasio 3,030103 M. Determinar la matriz de sensibilidades S para esta calibracin. Las absorbancias medidas a 440 y 545 nm de estas soluciones se muestran en la siguiente tabla: Composicin de la muestra KMnO4 4,075104 M K2Cr2O7 3,030103 M Absorbancia a 440 nm 0,028 1,073 Absorbancia a 545 nm 0,915 0,026

2) Se miden las absorbancias de cuatro muestras incgnita a las mismas longitudes de onda de calibracin, resultando los siguientes valores: 40

Muestra 1 2 3 4

Absorbancia a 440 nm 0,364 0,722 0,153 0,607

Absorbancia a 545 nm 0,220 0,258 0,915 0,937

Determinar la concentracin de cada analito en estas muestras. 3) Estimar las cifras de mrito del mtodo para cada analito. Suponga que la incertidumbre tpica en la seal es de 0,003 unidades de absorbancia.

Respuesta detallada
1) Para calcular la matriz S se requiere conocer las matrices Y y X. Con los datos del ejercicio es sencillo escribir estas dos ltimas matrices: 0,028 0,915 Y= 1,073 0,026 0 4,075 X= 104 30,30 0 Luego debemos aplicar la ecuacin para el clculo de S: S = YT (X1)T Para ello, es necesario en primer lugar invertir la matriz X. Esto es sencillo, puesto que X es diagonal, de manera que: 0 4,075 2.454 0 X = 104 = 30,30 330 0 0
1

Luego se multiplican las traspuestas de Y y X1: T T 0,028 0,915 2.454 0 0,028 1,073 2.454 0 T 1 T S = Y (X ) = = = 330 330 1,073 0,026 0 0,915 0,026 0 354 69 = 2.245 9 2) Para estimar la concentracin en una muestra incgnita, necesitamos la matriz inversa de S. Esta se puede calcular fcilmente recurriendo al clculo matricial estndar, resultando en:1
Recuerde que la inversa de una matriz se obtiene mediante la ecuacin S1 = det(S)1 Cof(S)T, donde det(S) es el determinante de S, y Cof(S) es la matriz cofactor, cuyo elemento i,j se obtiene multiplicando (1)i+j por el determinante de la matriz menor que resulta de eliminar, de la matriz original S, la fila i y la columna j. En el T 2.245 354 9 9 caso estudiado, det(S) = 7,95105, Cof(S)T = = , y por lo tanto, 69 354 2.245 69 S1 = (7,95105)1
354 9 0,11 4,46 = 104. 2.245 69 28,27 0,87
1

41

0,11 4,46 S1 = 104 28,27 0,87 Las concentraciones de ambos analitos en las cuatro muestras incgnita son, por lo tanto, las siguientes: Muestra 1: 0,11 4,46 0,364 0,94 104 x = S1 y = = 104 28,27 0,87 0,220 10,1 Muestra 2: 0,11 4,46 4 x = S1 y = 10 28 , 27 0 , 87 Muestra 3: 0,11 4,46 4 x = S1 y = 10 28 , 27 0 , 87 Muestra 4: 0,11 4,46 4 x = S1 y = 10 28 , 27 0 , 87 0.607 4,11 4 0.937 = 16,3 10 0.153 4,06 4 0.915 = 3,5 10 0.722 1,07 4 0.258 = 20,2 10

La tabla que sigue resume los resultados. Muestra Seal Concentracin predicha (error estndar) M 104 1 0,364 y= 0,220 0,722 y= 0,258 0,153 y= 0,915 0,607 y= 0,937 x1 = 0,94(1) x2 = 10,1(1) x1 = 1,07(1) x2 = 20,2(1) x1 = 4,06(1) x2 = 3,5(1) x1 = 4,11(1) x2 = 16,3(1)

42

Los errores estndar en las concentraciones se calcularon con el modelo aproximado citado en la teora, esto es s(xn) = sR / SENn, con sR = 0,003 (para el clculo de SENn ver el punto 3). Ntese que, debido a la diferencia en sensibilidades, los errores estndar para el analito 1 son un orden de magnitud menores que para el analito 2. 3) Cifras de mrito. La sensibilidad para cada analito se obtiene calculando la norma de la fila correspondiente de la matriz S1: Para el analito 1: 1,1 10 5 1 = 4,46 10 4 SEN1 = || 1 ||1 = 2.243 A M1 (A = unidades de absorbancia) 2,8 10 3 2 = 1 10 4 SEN2 = || 2 ||1 = 354 A M1 Las selectividades, por otro lado, se pueden estimar dividiendo las respectivas sensibilidades por la longitud de la columna correspondiente a cada analito: SEL1 = SEN1 / || columna 1 de S || = 0,998 SEL2 = SEN2 / || columna 2 de S || = 0,998 Tngase en cuenta que para llegar a estos ltimos valores es necesario incluir varias cifras significativas en los clculos intermedios.

Ejercicio propuesto
Se desea realizar un anlisis cuantitativo de una mezcla binaria realizando medidas de absorbancia a dos longitudes de onda. Se dispone de datos de absorbancia para soluciones patrn de cada analito a varias longitudes de onda, segn se muestra en la siguiente tabla: Solucin patrn Analito 1 1,00104 M Analito 2 1,00104 M 1 0,550 0,510 2 0,610 0,505 3 0,720 0,710 4 0,850 0,800 5 0,910 0,800

Se requiere seleccionar dos longitudes de onda para realizar el anlisis, y un criterio para ello es utilizar aquellas que provean la mxima selectividad para cada analito. A qu dos longitudes de onda se obtiene la mayor selectividad?

43

Celebrar cumpleaos es saludable. La estadstica demuestra que la gente que ms cumpleaos celebra vive ms.

Clase 4
Calibracin multivariada

44

Material suministrado con la clase 4


Para esta clase se proveen los siguientes archivos: MATRICES PARTE 2. PDF, documento de Adobe conteniendo conceptos bsicos sobre lgebra matricial. LECTURA ADICIONAL CLASE 4.PDF, documento de Adobe con un trabajo educativo para lectura adicional. Archivos de texto (*.TXT) conteniendo datos tpicos. Archivos (*.M) con rutinas para el entorno de programacin MATLAB. Archivos (*.EXE) con programas ejecutables en QB.

Determinacin de multianalitos usando mltiples sensores


En esta seccin extenderemos los resultados presentados en la clase anterior al anlisis de varios analitos mediante mltiples sensores. La analoga ms directa del mtodo bivariado es el llamado anlisis por cuadrados mnimos clsicos o CLS (por classical least-squares). Recomendamos especialmente la lectura del trabajo clsico de Haaland sobre el tema.15 Otras lecturas valiosas son los captulos correspondientes de libros de quimiometra,16,17 as como los ya famosos "tutorials" de Brereton en internet.18 La teora se expone en este documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la seccin Ejercicio Resuelto.

El modelo CLS en notacin matricial: etapa de calibracin


Continuaremos empleando la notacin matricial para indicar los resultados de mediciones a varias longitudes de onda. En el caso que se desee llevar a cabo la determinacin simultnea de varios analitos, es preciso preparar mezclas de patrones de dichos analitos, como mnimo en un nmero igual al de analitos. En general, sin embargo, se prefiere utilizar un conjunto de mezclas de calibrado compuesto por un nmero de mezclas mayor que el de analitos, debido a que de este modo se obtienen resultados ms precisos, as como en calibracin univariada se emplean varios patrones para determinar un nico analito. Esto plantea inmediatamente el problema de cules deben ser las concentraciones de los analitos en las mezclas de calibrado, problema que se designa, en trminos generales, como del diseo experimental de las mezclas. La teora del diseo experimental queda ms all del alcance del presente curso; slo podemos adelantar, recurriendo al sentido comn, que las mezclas de calibrado deben ser representativas, en todo lo posible, de las combinaciones de concentraciones de los analitos que se espera encontrar en las mezclas incgnita. Cuntas mezclas y qu concentraciones es parte de los detalles del diseo experimental. En esta seccin estudiaremos un caso simple, en el que se determinan simultneamente dos analitos, tratando de extender las ecuaciones, donde sea posible, a la existencia de N analitos. Supongamos que se preparan varias (I) soluciones patrn de los analitos 1 y 2 puros, y se leen las absorbancias de estas I soluciones a J diferentes longitudes de onda. Las correspondientes respuestas instrumentales Yij (absorbancias de la solucin patrn i a la longitud de onda j) se renen en la matriz (IJ) de calibracin Y: Y11 Y12 ... Y1J Y ... Y2 J 21 Y22 (20) Y= ... ... ... ... YI 1 YI 2 ... YIJ Las concentraciones de los analitos en las I soluciones de calibrado deben conocerse, tal como en el anlisis a dos sensores. Aquellas se agrupan en la matriz de concentraciones de 45

calibracin (IN) X, cuyo elemento genrico Xin es la concentracin en la mezcla i del analito n: X 11 X 12 ... X 1N X X 22 ... X 2 N 21 (21) X= ... ... ... ... X I 1 X I 2 ... X IN Para dos analitos, la ecuacin anterior se transforma en: X 11 X 12 X X 22 (22) X = 21 ... ... X I1 X I 2 o sea, una matriz de I2. La etapa de calibracin, o sea, la determinacin de las llamadas sensibilidades individuales a cada longitud de onda, se realiza suponiendo que se cumple la ley de Beer que relaciona absorbancia con concentracin, anlogamente al caso de dos longitudes de onda. Sin embargo, debe tenerse en cuenta en este caso el problema est sobredimensionado. Esto significa que el problema puede plantearse como un conjunto de ecuaciones simultneas en el que el nmero de ecuaciones disponible es superior al de incgnitas. En nuestro caso, se desea relacionar la concentracin con la seal a travs de la sensibilidad Sjn a la longitud de onda j del analito n. Si se trata de dos analitos, hay J2 parmetros a determinar (los valores de todos los coeficientes Sjn), y un total de IJ ecuaciones; dado que en general I > 2, el problema est sobredimensionado. En estos casos el criterio que se aplica es el de obtener la solucin de cuadrados mnimos, esto es, aquella que minimice el error E del siguiente modelo: Y = X ST + E (23) donde S es una matriz (JN) cuyo elemento genrico Sjn es la sensibilidad a la longitud de onda j del analito n. Ntese que se requiere la trasposicin de la matriz S en la ecuacin (4) para mantener la consistencia del producto matricial. Las relaciones de tamao entre las matrices de la ecuacin (4) se muestran en la Figura 1. La solucin de cuadrados mnimos de la ecuacin (4) corresponde a la obtencin de la matriz S a partir de esta ltima, fijando E = 0 (una matriz de ceros del mismo tamao que Y). La obtencin de S a partir de la ecuacin (4) no puede hacerse simplemente premultiplicando por X1, dado que X no es, en general, una matriz cuadrada, y matrices no cuadradas no pueden invertirse. Para despejar S se recurre, en primer lugar, a pre-multiplicar ambos miembros de la ecuacin (4) por la matriz traspuesta de X: XT Y = XT X ST (24)

46

ST

IJ

IN

NJ

IJ

Figura 1. Esquema que muestra las relaciones de tamao en la aplicacin de la ley de Beer a mezclas de multicomponentes.

Ntese que hemos fijado E = 0 en la ecuacin (4) antes de realizar esta operacin. El producto (XT X) es una matriz cuadrada (tamao NN), y pre-multiplicando por su inversa ambos miembros de la ecuacin (5): ST = (XT X)1 XT Y (25) Trasponiendo la ecuacin anterior para obtener S: S = [(XT X)1 XT Y]T = YT X (XT X)1 (26) La ecuacin (7) merece varios comentarios. En primer lugar, es necesario recalcar que para que esta ecuacin tenga sentido, debe poder invertirse la matriz cuadrada (XT X). La inversin de una matriz requiere que sus lneas (filas o columnas) no sean linealmente dependientes, esto es, combinaciones lineales unas de otras. En el ejemplo que estamos analizando, esto implica, desde el punto de vista qumico, que las concentraciones del analito 1 y el analito 2 en las mezclas no estn correlacionadas (por ejemplo, que no aumenten linealmente de una mezcla a otra). Disear un conjunto de mezclas con mnima correlacin es tambin parte de la teora del diseo experimental. El segundo comentario proviene de comparar la ecuacin (7) con su anlogo de la Clase 3, en que X era cuadrada y poda invertirse directamente. Esta comparacin sugiere que en la ecuacin (7), la matriz [X (XT X)1] funciona como "una especie de inversa" de X (traspuesta, para ser ms exactos). En la literatura se la ha llamado "inversa generalizada de X" o simplemente "seudoinversa de X", simbolizndola por X+. Con esta nomenclatura, la ecuacin (7) puede escribirse en forma ms compacta: S = YT (X+)T (27) Esta ltima ecuacin completa la calibracin, lo que provee una matriz de calibracin S para predicciones en muestras futuras. La obtencin de S es anloga al clculo de la absortividad molar en calibracin univariada, en forma previa a la medicin de la seal analtica de muestras incgnita. Como resumen de la etapa de calibrado podemos consignar los siguientes requerimientos: El modelo CLS necesita un diseo de calibrado apropiado. La calibracin del modelo requiere conocer las concentraciones de los componentes de las mezclas de calibracin.

El nombre "seudoinversa" tiene mayores implicancias en quimiometra que las discutidas aqu. En el caso de que (XT X) sea imposible o difcil de invertir, por ejemplo, porque su determinante es cero o cercano a cero, la seudoinversa an existe, aunque la inversa generalizada no.

47

Quienes deseen revisar algunos conceptos sobre matrices y sus operaciones, que son necesarios para seguir en detalle la presente clase, pueden consultar el documento adjunto 'MATRICES PARTE 2.PDF'.

Etapa de prediccin y coeficientes de regresin


En la etapa de prediccin, una muestra incgnita produce J valores de la seal instrumental, por ejemplo, J absorbancias a las longitudes de onda a las que se realiz la calibracin. Estas respuestas instrumentales se agrupan en el vector columna (J1) y: y1 y 2 (28) y= ... yJ La prediccin se logra recurriendo a la ley de Beer aplicada a la muestra incgnita, en forma anloga a la ecuacin (7): y=Sx+e (29) donde x es un vector columna que contiene dos elementos: las concentraciones de ambos analitos en la incgnita, y e es un vector que recoge los errores del modelo lineal. Nuevamente se emplea el criterio de mnimos cuadrados para despejar x de la ecuacin (11) (fijando e = 0). En primer lugar se debe pre-multiplicar la ecuacin (10) por ST, de manera que se obtenga una matriz cuadrada en el segundo miembro: ST y = (ST S) x (30) Luego puede despejarse x pre-multiplicando por la inversa de (ST S): x = (ST S)1 ST y (31) Nuevamente, podemos definir la seudoinversa de S de tal modo que permita obtener x directamente, pre-multiplicando a y: x = S+ y (32)

xn

nava fila de S+

x N1

S+ NJ

y J 1

El esquema superior muestra que la ecuacin (13) puede interpretarse diciendo que la concentracin de cada analito se predice mediante el siguiente producto escalar: (33) xn = (nava fila de S+) y + La nava fila de S , una vez traspuesta (convertida en un vector columna) se conoce como el vector de los coeficientes de regresin para el componente n, n: n = (nava fila de S+)T (34) Con esta ltima definicin, la ecuacin (14) se transforma en: xn = nT y = 1n y1 + 2n y2 + ... + Jn yJ (35) lo cual significa que la concentracin es el producto escalar del vector de coeficientes de regresin por el vector de respuestas instrumentales.

48

Cifras de mrito
Anlogamente al caso univariado, pueden definirse cifras de mrito correspondientes a determinaciones usando mltiples sensores. Respecto de la sensibilidad, ntese que la ecuacin (16) puede interpretarse como una forma particular de la ley de Beer, en la que la concentracin es proporcional a la seal. Dado que la constante de proporcionalidad en este caso es la inversa de la sensibilidad (en el caso univariado c = (b)1 A], es natural pensar en el vector de coeficientes de regresin como midiendo la "sensibilidad inversa" para una determinacin a dos longitudes de onda. De hecho, la definicin de sensibilidad para cada analito en una determinacin de dos analitos en mezclas binarias a dos longitudes de onda es: 1 SENn = (36) 2 2 1n + 2 n + ... + 2 Jn donde jn son los elementos del vector n. (37) SENn = 1 / || n || donde || || simboliza el clculo de la norma de un vector. Se puede definir la selectividad para el analito n, en presencia de otros componentes, como el cociente entre la sensibilidad dada por la ecuacin (20), y el valor que tendra dicha sensibilidad si el analito en cuestin estuviese presente en su forma pura: SELn = SENn / || nava. columna de S || (38) Puede demostrarse que SENn es un nmero adimensional que vara entre 0 y 1; el cero corresponde a un sistema totalmente no selectivo para el analito n, mientras que 1 corresponde al caso totalmente especfico, para el que se puede aplicar la calibracin univariada. Tambin existe la sensibilidad analtica, que puede definirse como el cociente entre el valor de SENn y el ruido instrumental sy, obtenido a partir de replicados de una muestra blanco: n = SENn / sy (39) Existen tambin ecuaciones para la estimacin de los errores estndar en la concentracin predicha de cada analito, que son una extensin de la estudiada en el caso univariado. Una aproximacin sencilla a la estimacin de s(cn) se puede obtener ignorando el efecto de la leva, y tomando slo en consideracin el efecto de la incertidumbre en la respuesta analtica. En ese caso: s(xn) = sy / SENn (40) En relacin con el lmite de deteccin, el clculo se complica por el hecho de que este parmetro no puede definirse para un analito sin conocer la concentracin de otros analitos en una muestra dada. De todas maneras, si los efectos de la leva no son relevantes, en otras palabras, si la muestra incgnita no est lejos del centro de la calibracin, una ecuacin aproximada para el lmite de deteccin puede obtenerse por analoga con la calibracin univariada: LOD = 3,3 sy / SENn (41) El lector interesado en una lectura avanzada respecto de la estimacin de errores estndar y lmite de deteccin en este caso puede consultar el documento adjunto "LECTURA ADICIONAL CLASE 4.PDF". Debe mencionarse tambin que en el marco de los modelos del tipo CLS puede obtenerse un parmetro tpico de los ajustes por cuadrados mnimos: los residuos de la regresin. En el presente caso se trata del vector e de la ecuacin (10), que contiene la incertidumbre asociada con el modelado de la seal de la muestra. Es importante calcular, para cada muestra incgnita, el desvo estndar de los residuos sres:

49

(e j ) 2
(42) J N donde ej representa cada uno de los elementos del vector e. Ntese el empleo de J N grados de libertad en la ecuacin (23), en atencin a que la seal de la muestra proporciona J datos (las seales medidas a las J longitudes de onda), y se estiman N parmetros (las concentraciones de los N analitos en la muestra). Finalmente, es importante llevar a cabo una validacin del modelo de calibrado, preparando un juego de muestras independientes, en el que los analitos estn presentes en concentraciones distintas de las empleadas para calibrar el modelo, pero dentro de sus respectivos rangos lineales. La comparacin de las concentraciones estimadas para este juego de validacin con las nominales se lleva a cabo convenientemente mediante la prueba de la elipse discutida en la Clase 2. El ejercicio resuelto que acompaa este documento ilustrar el uso de los parmetros comentados en esta seccin.
sres =
j =1

Colinealidad espectral
Anlogamente al anlisis de dos analitos a dos longitudes de onda, la presencia de colinealidad espectral en el modelo CLS se manifiesta a travs de la dificultad en encontrar la seudoinversa S+. Especficamente, si los espectros de los analitos son colineales en un grado significativo, ser difcil encontrar la inversa (ST S)1, y las concentraciones de los analitos estarn pobremente definidas. El resultado ser una disminucin en la sensibilidad, y a travs de la ecuacin (21), un aumento considerable del error de prediccin.

Interferentes no modelados
Hemos supuesto, hasta el momento, que una muestra incgnita no debe poseer componentes que no estn presentes en la calibracin, y que produzcan seal a las longitudes de onda de trabajo. En efecto, la suposicin bsica del mtodo univariado es su especificidad completa. Anlogamente, en el anlisis multisensorial se requiere que la muestra incgnita est compuesta por los mismos componentes que se utilizaron para calibrar. En el modelo CLS podemos sin embargo plantearnos, por primera vez, qu sucedera si una muestra incgnita estuviese compuesta por sustancias no presentes en la calibracin. La respuesta es que se producira un error significativo en la prediccin, bsicamente porque la ecuacin (10) no sera correcta. En esta ltima ecuacin, se supone que slo existen los analitos calibrados en la muestra incgnita. Si bien es cierto que no es posible pretender que CLS estime las concentraciones correctamente en un caso como este, no es menos cierto que el modelo es capaz de "avisar" al analista que esto est ocurriendo. En un caso de interferencias no modeladas, los elementos del vector e de la ecuacin (10) sern anormalmente grandes en relacin con el nivel de ruido instrumental. De esta manera, los modelos que operan con mltiples sensores y ajustes por cuadrados mnimos son capaces de proveer informacin acerca de la presencia de interferentes no modelados, y a pesar de que son incapaces de corregirlos, al menos pueden informar al operador de estas anomalas.

Ventajas y desventajas de CLS


Podemos resumir las principales ventajas del modelo CLS del siguiente modo. Por un lado, se trata de un modelo matemticamente sencillo, que puede seguirse convenientemente con el auxilio del clculo matricial estndar, y an mediante planillas de clculo o programas fcilmente accesibles que realicen ajustes por cuadrados mnimos. Por otro lado, si el tipo de

50

muestra a analizar no presenta interferencias serias de componentes desconocidos, o no se encuentran colinealidades espectrales significativas entre los analitos, el anlisis CLS provee una manera rpida, simple y confiable de estimar las concentraciones en muestras de multicomponentes en forma simultnea. Las desventajas del modelo son fcilmente imaginables: es sensible a la presencia de colinealidad espectral, de manera que analitos con espectros severamente solapados no pueden estudiarse mediante esta tcnica. Adems, es necesario conocer los componentes qumicos presentes en las mezclas incgnitas, de lo contrario, la presencia de interferentes no modelados producir un error serio en la determinacin.

Comparacin de mtodos
Vale la pena en este punto detenerse a reflexionar sobre las diferentes tcnicas de calibracin que hemos estudiado, y efectuar un anlisis comparativo. Las propiedades analticas que nos interesa comparar son: Habilidad para analizar ms de un analito en forma simultnea. Conocimiento de las concentraciones de los componentes de la calibracin. Efectos de la colinealidad espectral. Presencia de interferencias no modeladas en la calibracin.
Tabla 1. Comparacin de las propiedades analticas de los distintos mtodos de calibracin. Propiedad Mtodo Univariado Bivariado Multivariado CLS Nmero de 1 2 Varios analitos Conocida Conocidas Conocidas Concentracin de componente(s) de calibrado Disminuye la Efecto de la Disminuye la sensibilidad, colinealidad sensibilidad, selectividad y selectividad y precisin precisin Presencia de Anlisis inexacto Anlisis inexacto Anlisis inexacto interferentes pero con deteccin del problema Cifra de mrito Sensibilidad SEN = A SENn = 1 / || n || Sensibilidad = SEN / sy = SENn / sy analtica Incertidumbre en s( x) = s(xn) sy / SENn 2 la prediccin s y / x 1 1 ( xinc x ) + + A n m Qxx

Lmite de deteccin Lmite de cuantificacin

LOD = 3,3 LOQ = 10

sy/ x A sy/ x A

1 1 x2 + + 3 m Q xx 1 1 x2 + + 3 m Q xx

LOD 3,3 sy / SENn LOQ 10 sy / SENn

51

En la Tabla 1 hemos resumido estas propiedades para los tres mtodos analizados hasta el momento: univariado, bivariado y multivariado CLS. Hemos incluido, adems, las definiciones de cifras de mrito ms usadas en cada caso. Como puede verse, el pasaje del anlisis univariado al multivariado CLS representa el logro de beneficios progresivos, respecto del nmero de analitos que pueden estudiarse simultneamente, y de la deteccin de la presencia de interferentes. En relacin con el conocimiento de las concentraciones de los componentes de las mezclas de calibracin el comportamiento de los tres mtodos es similar, al igual que la respuesta al efecto de la colinealidad (no aplicable al caso univariado). En la Clase 5 analizaremos un mtodo capaz de superar estas dificultades y describiremos sus propiedades en perspectiva con las de la Tabla 1.

Ejercicio resuelto
1) Se miden las seales instrumentales de cuatro soluciones de calibrado para dos analitos, a seis longitudes de onda distintas. La matriz de calibrado tiene la siguiente forma: Muestra de calibrado 1 2 3 4 1 1,52 2,94 1,47 3,01 2 2,78 5,42 2,94 5,63 3 3,32 6,33 3,81 6,80 4 3,26 5,48 4,21 6,35 5 2,48 3,35 4,08 5,10 6 1,94 2,78 3,15 4,03

Las concentraciones de los dos analitos en las muestras son las siguientes: Muestra de calibrado 1 2 3 4 x1cal 1,00 2,00 1,00 2,00 x2cal 1,00 1,00 2,00 2,00

Construir las matrices X e Y para calibrado, y calcular la matriz S de sensibilidades y los coeficientes de regresin. Informar las correspondientes cifras de mrito para el modelo. Suponga que el nivel de ruido instrumental es igual a 0,03 unidades de seal. 2) Se estudia un conjunto de cuatro muestras de validacin, para las que se conocen las concentraciones nominales de ambos analitos. Las seales obtenidas a las mismas longitudes de onda que el calibrado, y las respectivas concentraciones se muestran en las tablas siguientes: Muestra de validacin 1 2 3 4 1 1,32 2,73 1,38 1,25 2 2,59 5,10 2,54 2,42 3 3,36 5,95 2,92 3,06 4 3,62 5,23 2,47 3,18 5 3,55 3,35 1,48 2,90 6 2,72 2,72 1,24 2,29

52

Muestra de validacin 1 2 3 4

x1val 0,89 1,86 0,93 0,83

x2val 1,69 1,05 0,40 1,34

Estimar las concentraciones de los analitos en este juego de muestras y estudiar la exactitud del mtodo mediante la prueba de la elipse. 3) Analizar mediante el modelo CLS anterior tres muestras de prueba, para las cuales se han medido las siguientes seales a las mismas seis longitudes de onda que la calibracin. Prestar atencin a los residuos espectrales, ya que se sospecha que en una de estas tres muestras est presente una especie no modelada en la matriz de calibracin. Muestra de prueba 1 2 3 1 1,11 5,54 2,56 2 2,20 6,71 4,76 3 2,77 7,02 5,81 4 2,81 5,83 5,56 5 2,56 3,66 4,39 6 2,02 2,77 3,50

Respuesta detallada
1) Para calcular la matriz S se requiere conocer las matrices Y y X. Con los datos del ejercicio es sencillo escribir estas dos ltimas matrices: 1,52 2,78 3,32 3,26 2,48 1,94 2,94 5,42 6,33 5,48 3,35 2,78 Y= 1,47 2,94 3,81 4,21 4,08 3,15 3,01 5,63 6,80 6,35 5,10 4,03 1 2 X= 1 2 1 1 2 2

Luego debemos aplicar la ecuacin para el clculo de S: S = YT X (XT X)1 Estas operaciones son sumamente tediosas, an para unas pocas longitudes de onda, y es preferible realizarlas con la ayuda de un programa. Para ello, los datos de calibracin estn organizados en los archivos de texto XCAL_E_R.TXT (concentraciones) e YCAL_E_R.TXT (seales), y pueden ser analizados convenientemente por los programas CLS_CAL.M (MATLAB) o CLS_CAL.EXE (QB). Ambos graban un archivo de texto conteniendo la matriz S. Los coeficientes de regresin pueden obtenerse a partir de las filas de la matriz S+ = (ST 1 S) ST. Tanto el programa en MATLAB como en QB generan un archivo de texto conteniendo estos vectores de coeficientes de regresin para cada analito. Las figuras siguientes muestran en forma grfica los espectros de calibrado y la matriz S, as como los coeficientes de regresin que sern luego tiles para la etapa de prediccin.

53

Figura 1: Espectros de calibrado.

Figura 2: Sensibilidades y coeficientes de regresin.

54

Las cifras de mrito calculadas mediante los programas para este modelo son las siguientes: Cifra de mrito Analito 1 Analito 2 1 Sensibilidad 1,9 Seal concentracin1 4,1 Seal concentracin a 1 Sensibilidad analtica 63 concentracin1 137 concentracin Selectividad 0,83 0,83 a Obtenida dividiendo la sensibilidad por el nivel de ruido instrumental (0,03 unidades). Ntese que la selectividad es idntica para ambos analitos. En el caso de mezclas de ms componentes esto no es necesariamente as. Puede apreciarse que el modelo es ms sensible al analito 1 que al 2, hecho que tambin se ilustra en forma grfica en la Figura 2. 2) Las concentraciones de ambos analitos en las cuatro muestras de validacin estn dadas por: x = S+ y Estos clculos pueden realizarse con ayuda de los programas CLS_PRED.M (MATLAB) o CLS_PRED.EXE (QB), organizando los datos de manera apropiada. El archivos de texto YVAL_E_R.TXT contiene la matriz de las seales de estas muestras de validacin en la forma apropiada. Los resultados de la validacin son los siguientes: Muestra 1 2 3 4 Analito 1 Nominal 0,89 1,86 0,93 0,83 Predicho 0,88(1) 1,87(1) 0,93(1) 0,84(1) Analito 2 Nominal 1,69 1,05 0,40 1,34 Predicho 1,70(1) 1,05(1) 0,40(1) 1,34(1) Residuo espectral 0,01 0,03 0,01 0,02

Los errores estndar en las concentraciones se calcularon con el modelo aproximado citado en la teora, esto es s(xn) = sy / SENn, con sy = 0,03. Se informan tambin, en la ltima columna de esta tabla, los residuos espectrales para cada muestra incgnita, que, como puede apreciarse, se encuentran dentro del nivel del ruido instrumental. Esto confirma que el ajuste por cuadrados mnimos para estas muestras es adecuado. Para establecer la exactitud del mtodo, lo recomendado es analizar los datos de la tabla precedente mediante la prueba de la elipse, tal como se discutiera en la Clase 2. En los casos multivariados se recomienda tambin producir una nica elipse, que recoja la comparacin de las concentraciones nominales y predichas para todos los analitos. De este modo, la tabla de datos a suministrar a los programas de clculo de la elipse ser como sigue: 0,89 1,86 0,93 0,83 1,69 1,05 0,40 1,34 55 0,88 1,87 0,93 0,84 1,70 1,05 0,40 1,34

Dado que no se tienen resultados de rplicas de cada muestra, lo que proveera una estimacin del desvo estndar de cada valor predicho, realizaremos un anlisis mediante el mtodo OLS. Se recomienda organizar los datos apropiadamente y someterlos a los programas EJCR.M (MATLAB) o EJCR.EXE (QB). El resultado se muestra en la figura siguiente, donde puede apreciarse la exactitud del mtodo.

El programa para el clculo de la elipse tambin provee el error medio de la prediccin: RMSE = 0,003 Este valor puede considerarse como sumamente satisfactorio en vista de las cifras significativas asignadas a los valores nominales de concentracin, tanto de calibrado como de validacin. 3) Los datos para las muestras de prueba estn contenidos en el archivo de texto YPRU_E_R.TXT. Los resultados para las muestras de prueba son los siguientes: Muestra de prueba 1 2 3 Analito 1 Predicho 0,76(1) 2,52(1) 1,71(1) Analito 2 Predicho 1,17(1) 0,62(1) 1,78(1) Residuo espectral 0,02 1,00 0,02

Evidentemente, la muestra nmero 2 posee una interferencia no modelada, causante de un mal ajuste. Las concentraciones de los analitos predichas para esta muestra no son confiables. Lamentablemente, el modelo CLS no puede resolver este problema, pero al menos informa al analista de su presencia.

Ejercicio propuesto
1) Se han recogido espectros de absorcin electrnica de mezclas de dos colorantes a 281 longitudes de onda diferentes, para un conjunto de calibracin compuesto por 9 muestras de calibracin. Estos datos se proveen en el archivo de texto RESP_CAL.TXT, en forma de una matriz de 2819. Las respectivas concentraciones (en ppm) estn contenidas, en forma de matriz de 92, en el archivo de texto CONC_CAL.TXT. Los detalles experimentales de este trabajo estn informados en el documento 'LECTURA ADICIONAL CLASE 4.PDF'. 56

Lleve a cabo la calibracin mediante el modelo CLS con el programa adecuado e informe las cifras de mrito. Suponga un nivel de ruido instrumental de 0,005 unidades de absorbancia. 2) Tambin se midieron las seales de tres muestras de prueba, cuyos espectros estn contenidos, en forma de matriz de 2813, en el archivo de texto RESP_TST.TXT. Estimar las concentraciones de los dos analitos en estas muestras, y sus respectivos desvos estndar.

57

Cuntos estadsticos hacen falta para cambiar una lamparita? Uno dos

Clase 5
Calibracin multivariada

El monte Nipals, ubicado en el norte de Suecia, homnimo del algoritmo desarrollado por H. Wold para el clculo de componentes principales.

Material suministrado con la clase 5


Para esta clase se proveen los siguientes archivos: MATRICES PARTE 3. PDF, documento de Adobe conteniendo conceptos bsicos sobre lgebra matricial. LECTURA ADICIONAL CLASE 5.PDF, documento de Adobe con un trabajo educativo para lectura adicional. Archivos de texto (*.TXT) conteniendo datos tpicos. Archivos (*.M) con rutinas para el entorno de programacin MATLAB. Archivos (*.EXE) con programas ejecutables en QB.

Regresin por cuadrados mnimos inversos


En este captulo sobre calibracin inversa exploraremos dos mtodos para el anlisis de mezclas de multianalitos: la regresin por cuadrados mnimos inversos (ILS, del ingls inverse least-squares) y la regresin por componentes principales (PCR, del ingls principal component regression). Las teoras de ambos mtodos se exponen en este documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la seccin Ejercicio Resuelto.

58

Los mtodos de calibracin inversa reciben este nombre porque se basan en el uso de la ley de linealidad respuesta-concentracin escrita en forma inversa a los mtodos clsicos tales como CLS. Como se ver a continuacin, los mtodos inversos permiten estudiar mezclas de componentes en las que uno o ms analitos son de inters, pero de los restantes componentes pueden desconocerse concentraciones, espectros e identidades qumicas. De este modo, permiten superar una de las grandes desventajas de CLS: la necesidad del conocimiento de las concentraciones de todos los componentes presentes en las mezclas de calibrado. Tal como se discuti para CLS, la calibracin directa implica la medida de espectros de muestras de calibracin, conteniendo analitos con concentraciones conocidas, y obtencin de la matriz de sensibilidades a partir de la ley "directa" por ajuste mediante cuadrados mnimos: Seal = Concentracin Sensibilidad (1) En cambio, en la calibracin inversa se utiliza la ley de linealidad escrita en forma "inversa": Concentracin = Seal Coeficiente de regresin (2) donde se supone la existencia de una proporcionalidad entre la concentracin de componentes calibrados y la correspondiente respuesta, a travs de coeficientes de regresin que debern mediante un modelo apropiado. Si bien el modelo CLS puede en principio interpretarse mediante una ecuacin similar a la (2), en los mtodos inversos la ecuacin (2) se aplica cuando slo se conoce la concentracin de algunos analitos en las muestras de calibrado, pero se desconocen los restantes componentes. Este importantsimo concepto ser detallado en la presente clase, y constituye la base sobre la que se afirman los mtodos quimiomtricos ms provechosos para calibracin multivariada. La bibliografa sobre el tema, particularmente en lo que concierne a PCR, es muy abundante. Recomendamos especialmente el texto clsico de Massart y colaboradores,19 y el artculo de Haaland y Thomas.15

Calibracin
Debemos notar que, en el campo de la calibracin inversa, la literatura utiliza una notacin para seales y concentraciones que es la inversa a la empleada en la discusin del modelo CLS. Dado que la concentracin se considera ahora la variable dependiente y la seal la variable independiente, X identificar la seal e Y la concentracin. El mtodo ILS es el ms simple de los mtodos inversos, y est basado en la ley de Beer inversa: Y= XB +E (3) donde la matriz (de tamao IJ) X rene las seales instrumentales para I mezclas de calibrado, recogidas a J longitudes de onda. La matriz Y, por su parte, contiene las concentraciones de calibracin en cada una de las I mezclas, de cada uno de los N analitos calibrados, y su tamao es de IN. En la ecuacin (3), B es una matriz de JN que relaciona las concentraciones con las respuestas de manera inversa a la ley de Beer, tambin llamada matriz de los coeficientes de regresin. Finalmente, E es una matriz de errores no modelados por la ecuacin (3), siendo su tamao idntico al de Y. Para obtener la matriz B, se debe despejar sta de la ecuacin (3), empleando el criterio de cuadrados mnimos en el que E se considera nula. Para despejar B, se deben pre-multiplicar ambos miembros de (3) por XT: XT Y = (XT X) B (4) Aqu se presenta un importante inconveniente del mtodo ILS. Para continuar el proceso a partir de la ecuacin (4), es preciso invertir la matriz (XT X). Esto implica que si se han realizado mediciones a un nmero de sensores J que es mayor que el de mezclas I, (XT X) no puede invertirse, ya que el determinante de (XT X) ser en este caso nulo. Un ejemplo 59

numrico aclarar el problema: supongamos que X es una matriz de 24 como la que se muestra en la Figura 1.

0 1 2 1 X= 4 3 1 0

16 12 4 0 12 10 5 1 XT X = 4 5 5 2 0 1 2 1

Figura 1. Producto de una matriz por su traspuesta, generando una matriz singular.

El determinante de (XT X) es nulo, por lo que (XT X) es singular y no puede invertirse. La singularidad es inevitable, ya que el modo en que se produce (XT X) hace que sus lneas sean combinaciones lineales. En el ejemplo de la Figura 1, una de las combinaciones lineales presentes hace que la tercera fila sea igual a (primera fila / 4 + cuarta fila 2). En trminos del modelo descrito por la ecuacion (3), implica que debe resolverse un sistema de ecuaciones sub-determinado, en el que el nmero de incgnitas es JN (los JN elementos de B) disponiendo solamente de IN ecuaciones. El nico modo de evitar esta singularidad es emplear menos sensores que mezclas, lo que puede considerarse como una seria limitacin del mtodo: la necesidad de contar con ms mezclas de calibracin que sensores. Sin embargo, este modelo ILS posee una gran ventaja en relacin con CLS: logra desacoplar los componentes qumicos entre s, importantsimo concepto que ilustraremos a continuacin, y que implica que slo es necesaria la informacin de la concentracin del (o los) componente(s) de inters para calibrar el modelo. En otras palabras, se podr cuantificar un analito en presencia de una interferencia, siempre que sta haya sido incluida en la calibracin, aunque no se conozca su concentracin. En caso de que (XT X) pueda invertirse (bajo la condicin de que J < I) es posible despejar B de la ecuacin (4): B = (XT X)1 XT Y (5) Esta ltima ecuacin puede interpretarse diciendo que cada columna de B se obtiene por el producto de [(XT X)1 XT] por una columna especfica de Y (que contiene los datos de concentracin de un componente dado en las mezclas de calibracin). La Figura 2 muestra cmo se obtiene este vector de regresin, contando slo con la matriz de los datos instrumentales y el vector que contiene la concentracin del analito de inters (yn).

60

n J1

(X X) X JI

yn

I1

Figura 2. Esquema que muestra cmo es posible calcular el vector de regresin conociendo slo la informacin de la concentracin del analito de inters. El vector n es el producto de la matriz gris oscura por el vector yn.

Por lo tanto, es posible plantear un modelo simplificado en el que no es necesario conocer la concentracin de los restantes componentes de calibrado sino slo la del analito n: n = (XT X)1 XT yn (6) La ecuacin (6) ilustra lo que se conoce como "desacople" de componentes, situacin que no puede lograrse en CLS, donde es preciso conocer las concentraciones de todas las especies presentes en las muestras empleadas para calibrar. En la ecuacin (6), n representa el vector de coeficientes de regresin asociado al componente particular n, mientras que yn es un vector que contiene las concentraciones del analito n en las mezclas de calibrado. Ntese que la necesidad de invertir la matriz (XT X) para obtener los coeficientes de regresin implica que ILS ser sensible a colinealidades espectrales, tal como fuera discutido para CLS. Es preciso destacar tambin que la ecuacin (6) no implica que ILS permita analizar un nico analito. Si existen varios analitos de inters, adems de un nmero no identificado de componentes adicionales, se puede plantear un modelo desacoplado como el de la ecuacin (6) para cada analito de inters. La etapa de calibrado es anloga a la descrita en el caso del modelo CLS de la clase anterior, excepto que en ILS los elementos del vector de regresin asociado a un componente particular se obtienen a partir de las mezclas de calibrado, ignorando las concentraciones de los restantes componentes. Esto no era posible en CLS. No obstante, el precio que se paga por esta ventaja es alto: deben prepararse ms mezclas de calibrado que sensores de lectura de la seal (lo cual puede ser difcil en trminos de costo o tiempo experimental), o bien deben estudiarse unos pocos sensores, desperdiciando informacin til que es tpica de las mediciones multisensoriales.

Prediccin
Durante la etapa de prediccin se tendr una ecuacin similar a la de calibrado, la ley inversa de Beer aplicada a la muestra incgnita: yn = (n)T x (7) La ecuacin (7) permite observar que n se comporta como el vector de coeficientes de regresin para el componente n, tal como fuera discutido en el caso de CLS. Si existiera ms de un analito de inters, la ecuacin (7) se aplicara tantas veces como fuese necesario, utilizando cada vez el vector n asociado al analito n.

61

Ventajas y desventajas de ILS


La posibilidad de desacoplar componentes origina la principal ventaja de este mtodo, pudindose estudiar mezclas complejas mediante un proceso de calibracin en el que se conoce slo la concentracin del componente de inters. Su desventaja radica en que ILS sigue siendo sensible a las colinealidades espectrales discutidas en las clases anteriores, y que se debe usar un nmero reducido de sensores, con la consecuente prdida de informacin y por ende de sensibilidad. Como muestra de la potencialidad de ILS, tngase en cuenta que la tcnica fue originalmente desarrollada para el anlisis de propiedades de polmeros o determinaciones del contenido de protenas en semillas a partir de espectros de absorcin de infrarrojo cercano (NIR). Los espectros NIR presentan bandas debidas a un enorme conjunto de especies presentes en estos materiales. En la calibracin de una propiedad especfica o del contenido de protenas, sin embargo, la informacin acerca de las concentraciones de los componentes de estos sistemas complejos es extremadamente limitada. An as, ILS es capaz de proveer una respuesta inteligente a este tipo de problemas analticos. Debido a sus desventajas, sin embargo, la prctica moderna lo ha desplazado por mtodos ms poderosos.

Regresin por componentes principales


La pregunta que surge automticamente al considerar los modelos CLS e ILS es: porqu no pueden aprovecharse las ventajas de ambos a la vez?. El mtodo de regresin en componentes principales o PCR representa uno de los intentos ms simples de reunir sus principales ventajas. Emplea una calibracin inversa, pero no correlaciona las concentraciones directamente con las respuestas instrumentales, sino con una matriz ms pequea, llamada de puntuaciones (en ingls scores). Estos scores o variables latentes deben condensar de un modo eficiente la informacin espectral completa (las variables manifiestas) en una matriz de tamao adecuado. Esto puede realizarse matemticamente con ayuda de los autovectores de la matriz cuadrada (XT X) (de tamao JJ). La etapa de condensacin o compresin de la informacin contenida en X es esencial para comprender el funcionamiento del modelo PCR. Quienes deseen revisar algunos conceptos sobre matrices y sus operaciones, que son necesarios para seguir en detalle la presente clase, pueden consultar el documento adjunto 'MATRICES PARTE 3.PDF'.

Compresin de la informacin
La compresin de la informacin contenida en la matriz de seales de calibracin es el paso crtico para el modelo PCR. Una tcnica muy empleada en quimiometra para la eficiente compresin de datos es su "proyeccin" sobre los autovectores de la matriz (XTX). Existen varios algoritmos capaces de obtener dichos autovectores, entre los cuales uno muy eficiente se basa en un tipo de descomposicin matricial conocido como descomposicin en valores singulares, que consiste en descomponer a la matriz XT (tamao JI) en el producto de otras tres matrices: XT = U W VT (8) Podemos apreciar los requerimientos de tamao matricial en esta ltima ecuacin a travs del esquema presentado en la Figura 3.

62

XT

VT

J I

J I

II

II

Estos nmeros deben coincidir (J)

Estos nmeros deben coincidir (I)

Estos nmeros deben coincidir (I)

Estos nmeros deben coincidir (I)


Figura 3. Esquema que muestra las relaciones de tamaos de matrices en la descomposicin en valores singulares.

Las matrices U (JI), W (II) y V (II) cumplen con las siguientes condiciones: Las columnas de U son ortogonales, de modo que UTU = I, as como las de V, de modo que VTV = I (I representa una matriz identidad de tamao apropiado). La matriz W es diagonal y sus elementos diagonales son no negativos (los no diagonales son iguales a cero). Los elementos diagonales de W se llaman valores singulares de la matriz XT. Matemticamente, son las races cuadradas de los autovalores no negativos de (XTX); desde el punto de vista qumico miden la contribucin a la variacin espectral que puede ser explicada por cada uno de los componentes principales de X. Las columnas de U son los autovectores de (XTX), mientras que las columnas de V son los autovectores de (XXT). En la literatura inglesa las columnas de U se llaman corrientemente loadings; en castellano se suelen llamar factores, o tambin variables latentes, en oposicin a las variables manifiestas, que son las experimentalmente accesibles (las latentes deben ser halladas mediante operaciones matemticas). Reuniendo el producto (W VT)T en una nica matriz T, la ecuacin de descomposicin singular (8) se puede tambin escribir como: XT = U TT (9) que es la base para la regresin en componentes principales, donde T es la matriz de scores antes mencionada. Para obtener T a partir de los datos instrumentales, esto es, despejar T de la ecuacin (9), se requiere pre-multiplicar por UT, y luego por la inversa de (UT U), pero esta ltima matriz es igual a la matriz identidad I, por lo que se obtiene, directamente: T = (UT XT)T = X U (10)

63

Los tamaos de las tres matrices involucradas en la ecuacin (10) son, respectivamente, II, IJ y JI. Dicha ecuacin puede interpretarse diciendo que los scores constituyen la proyeccin de la matriz original de datos en el espacio de los factores. Esta proyeccin es la etapa fundamental de compresin de datos, ya que logra reducir la dimensionalidad de la matriz original (de IJ) a una matriz de scores ms pequea (de II). El anlisis criterioso de los scores, no obstante, permitir discernir que estos estn ordenados de un modo coherente, en orden decreciente de su contribucin a la variacin espectral en X. Por lo tanto, la seleccin de los scores significativos (estadsticamente hablando) permitir reducir an ms el tamao de T. Un comentario final acerca de las propiedades de la matriz de scores: sta presenta la ventaja de estar construida con columnas que son ortogonales entre s. La propiedad de ortogonalidad implica que el producto escalar de cualquier columna de T por cualquier otra columna es nulo: (ti )T ti' = 0 (si i i') (11) La consecuencia ms importante de la ecuacin (11) es que el modelo PCR est libre de los efectos de las colinealidades espectrales. Esto es as porque en PCR se correlacionan las concentraciones con los scores, que pueden considerarse como un tipo especial de "espectros". Estos espectros no muestran ningn paralelismo entre s, debido a la propiedad estipulada en la ecuacin (11). En la literatura existe cierta confusin respecto de a qu se llama componente principal, o simplemente componente: a veces se emplea el trmino refirindose a las columnas de U, otras veces a las columnas de T. Para evitar la confusin adicional con los componentes qumicos de cada sistema, llamaremos factores a las columnas de U y scores a las de T, dejando la expresin "componente principal" para identificar a la unidad factor/score. Finalmente, es preciso mencionar que la descomposicin aqu presentada no es el nico mtodo para calcular componentes principales. El ms clebre, quizs, es el NIPALS (por non-linear linear iterative partial least-squares), desarrollado por H. Wold.20

Componentes principales y fuentes de variacin espectral


Se acostumbra a emplear el mtodo de descomposicin singular para identificar fuentes de variacin espectral. Por fuente de variacin se entiende todo fenmeno capaz de producir una variacin en los espectros de una muestra a otra. Obviamente los componentes activos son fuentes de variacin, pero tambin lo son el ruido instrumental, las derivas de la lnea de base, las prdidas de la linealidad, etc. Cuando estos ltimos fenmenos son de menor importancia que la presencia de los componentes qumicos espectralmente activos, se supone que hay tantas fuentes de variacin como componentes qumicos. Sin embargo, esto en general no se cumple, y adems el nmero de componentes qumicos de una mezcla compleja puede ser desconocido, de modo que la informacin acerca de las fuentes de variacin que proporciona el anlisis de los datos espectrales es sumamente valiosa. Hay varias maneras de estimar las fuentes de variacin; una muy popular es la que resulta de considerar la contribucin relativa de cada componente principal a la variancia espectral total, calculada del modo que sigue:

(Wi ) 2
% Variancia explicada por los primeros A factores = 100

(Wi
i =1

i =1 I

(12) )2

donde Wi es cada uno de los elementos diagonales de la matriz W, y (Wi)2 es el correspondiente autovalor asociado al componente principal i. 64

Dado que cada componente principal contribuye con una porcin cada vez menor de la variancia total, lo usual es tomar el nmero de los primeros componentes principales que, colectivamente, aportan un determinado porcentaje de la variancia total. La Figura 4 ilustra el comportamiento tpico de un conjunto de componentes principales: mientras los valores singulares disminuyen, su contribucin a la variancia total tambin disminuye. En el caso de la Figura 4, por ejemplo, los tres primeros componentes principales explican ms del 99% de la variancia espectral, lo que llevara a la conclusin de que hay tres fuentes de variacin espectral en los espectros contenidos en la matriz X.

Figura 4. Variancia explicada en funcin del nmero de componente principal.

Este mtodo de estimacin de fuentes de variacin adolece de dos problemas. En primer lugar, distintos autores emplean diferentes criterios para el porcentaje ptimo de variancia explicada, y parece difcil establecer un criterio comn. Por otro lado, se usan nicamente los datos de las seales instrumentales de calibracin para estimar el nmero de factores necesarios para la reduccin de la informacin. En el mbito analtico, es preferible incorporar en este anlisis la informacin disponible acerca de la concentraciones de calibrado del componente de inters. Para ello se ha diseado el mtodo ms popular de estimacin del nmero ptimo de factores, llamado validacin cruzada. Lo discutiremos ms adelante, despus de explicar cmo calibrar y predecir con el modelo PCR. De todas maneras, an cuando existen varias herramientas para estimar el nmero apropiado de fuentes de variacin espectral en la matriz de datos X, la inspeccin visual del aspecto de los factores puede ser importante, en homenaje a la frase "el ojo del amo engorda el ganado". La Figura 5 ilustra la diferencia entre un autovector capaz de representar fenmenos fsicos que llevan a la variacin espectral de la matriz X, y otro que representa,

65

bsicamente, ruido instrumental. El primero tiene forma "espectral"; el segundo, de ruido al azar.

Figura 5. Izquierda, un tpico autovector que representa variaciones de seal instrumental debida a fenmenos qumicos. Derecha, un autovector que representa ruido instrumental.

El anlisis del nmero de fuentes de variacin es sumamente importante. Supongamos que este estudio ha indicado que el nmero de factores A que explican un porcentaje muy significativo de la variancia es menor que el nmero de mezclas de calibrado I. Dado que los primeros A factores son suficientes para explicar prcticamente todo el comportamiento espectral de la matriz X, no es necesario emplear la matriz U completa en la proyeccin de la ecuacin (11), sino que pueden quitarse las columnas desde la A+1 hasta la I, quedando una matriz conformada slo por los primeros A autovectores, que llamaremos UA (tamao JA) Los restantes autovectores pueden descartarse puesto que se considera que modelan nicamente el ruido espectral. De este modo, la matriz de scores puede reducir an ms su tamao, de II a IA: TA = X UA (13) En la ecuacin precedente, hemos llamado TA a la matriz de scores estimada con A factores. Esta nueva matriz TA, a pesar de tener un tamao considerablemente menor que la matriz original de espectros, cumple no obstante un papel similar, ya que la informacin relevante presente en X ha sido comprimida de un modo eficiente. El proceso de compresin puede ilustrarse con la serie de imgenes de la Figura 6, que muestran la fotografa de una flor, considerada como una matriz de puntos, que puede comprimirse utilizando componentes principales, y luego "reconstruirse" recurriendo a la ecuacin (9) escrita en trminos de los A componentes selectos, esto es XT = UA TAT. La imagen que corresponde a A = 1 est reconstruida utilizando slo el primer componente principal, que es el que ms aporta a la variancia matricial. A medida que se emplean ms y ms componentes principales, la imagen se hace ms ntida. No obstante, se aprecia que empleando unos pocos factores, la informacin relevante es retenida por la matriz de datos comprimida.21

66

Imagen total

A=1

A=2

A=4

A=8

A = 16

A = 32

Figura 6. Una imagen (arriba al centro), reconstruida utilizando distinto nmero de componentes principales (abajo).

Calibracin
En este punto reuniremos las ventajas de ILS y CLS, que era el objetivo primordial al comenzar este captulo de calibracin multivariada. Plantearemos un modelo de calibracin inversa, en el que las concentraciones del analito calibrado en las muestras de calibracin (yn, tamao I1) se correlacionan linealmente con los scores contenidos en TA: yn = TA vn + e (14) donde vn (tamao A1) es el vector de coeficientes de regresin correspondiente, y e un vector que recoge los errores de modelado. Se puede obtener el vector vn despejando de la ecuacin anterior. Pre-multipicando ambos miembros por TAT se obtiene: TAT yn = TAT TA vn + e (15) Luego ser necesario multiplicar por la inversa de (TAT TA), o sea, por (TAT TA)1. Esta ltima operacin de inversin es trivial, ya que (TAT TA) es una matriz diagonal (en atencin a la ortogonalidad de las columnas de T), y la inversin de una matriz diagonal se remite a la inversin de cada uno de sus elementos diagonales. Finalmente se obtiene, entonces: vn = (TAT TA)1 TA yn (16) La inversin de (TAT TA) en la ecuacin (16) no presenta problemas asociados a la colinealidad, por los motivos anteriormente expuestos: las columnas de TA son ortogonales. Por analoga con el criterio empleado en el modelo CLS, podemos llamar a la matriz [(TAT 1 TA) TA] la seudoinversa de TA y denominarla TA+, con lo cual la ecuacin (16) adopta su forma final: vn = TA+ yn (17) Este ltimo paso completa la calibracin. La obtencin de los coeficientes de regresin vn es completamente anloga al proceso realizado en CLS, y su empleo en la prediccin de la concentracin del analito en muestras incgnitas es tambin similar.

Prediccin
En la etapa de prediccin, se registra el espectro de una muestra incgnita, y se almacenan las seales instrumentales en el vector columna x (tamao J1). Antes de aplicar el modelo de prediccin es necesario proyectar dicho vector en el espacio de los A factores de la matriz UA, dado que no podemos emplear los datos originales para estimar concentraciones "mezclando" el vector espectral real con los coeficientes de regresin "comprimidos" contenidos en vn.

67

Anlogamente a la ecuacin (13), entonces, se obtiene el vector tA (A1) correspondiente a la muestra incgnita: tA = UAT x (18) Este vector tA contiene los scores de la muestra, que actuarn en calidad de "espectros" en la etapa predictiva del modelo. Esta ltima no es sino la repeticin del modelo inverso de la ley lineal expresado anteriormente en ILS, esto es: yn = (vn)T tA (19) en el que vn reemplaza a n y tA reemplaza a x. A partir de esta ltima ecuacin se estima la concentracin del analito en la incgnita.

Validacin cruzada
La posibilidad de calibrar y predecir mediante un modelo inverso del tipo PCR ofrece la alternativa de seleccionar el nmero apropiado de factores (A) mediante una combinacin de informacin espectral y de concentraciones, que se conoce como validacin cruzada. Consiste en calibrar el modelo con todas las muestras de calibracin excepto una, predecir la concentracin de la muestra dejada de lado, y calcular el error cometido (diferencia entre el valor nominal y el predicho). Este clculo se realiza utilizando un nmero creciente de factores, desde uno hasta un cierto mximo. El mximo puede establecerse a voluntad (debe ser menor al nmero de mezclas de calibrado). Luego se repite el procedimiento hasta que todas las muestras hayan sido dejadas de lado una vez. En cada caso, se predicen las concentraciones del analito en cada una de las muestras dejadas de lado. Para cada nmero de factores, se calcula la suma de los cuadrados de los errores de prediccin, que se acostumbra a llamar PRESS (por predicted error sum of squares). Luego se procede a estudiar cmo vara el PRESS as obtenido en funcin del nmero de factores mediante un procedimiento estadstico. A modo de ejemplo, supngase que se durante un procedimiento tpico de validacin cruzada se ha obtenido la siguiente tabla de valores de PRESS en funcin del nmero de factores (vase la Figura 7): Factores 1 2 3 4 5 6 PRESS 0,92 0,0217 4,3103 4,1103 3,7103 5,1103

68

Figura 7. Variacin del PRESS en funcin del nmero de factores para un modelo PCR tpico.

Se observa que, a medida que se agregan factores, el PRESS disminuye: esto se debe a que la compresin de los datos se va haciendo progresivamente ms eficientes, puesto que los primeros factores contienen informacin relevante respecto de la variacin espectral en la calibracin. Si se emplean menos factores que los necesarios se obtiene una situacin poco deseable llamada subajuste de los datos. Al seguir aumentando el nmero de factores, el PRESS parece estabilizarse y finalmente aumenta ligeramente. Esto es una fuerte indicacin de que los ltimos factores no estn aportando informacin relevante sino esencialmente ruido. Emplear ms factores de lo debido puede llevar a una situacin tambin indeseable llamada sobreajuste. Intuitivamente, podra plantearse que el nmero ptimo de factores es aquel que lleve al mnimo PRESS. Sin embargo, estudios estadsticos cuidadosos indican que este no es el caso. Una tcnica conveniente para estimar A es la descripta por Haaland.Error! Marcador no definido. Consiste en ampliar la tabla anterior, calculando los cocientes entre los distintos PRESS y el mnimo (slo para un nmero de factores inferior a aquel que produce el mnimo PRESS). Estos cocientes de PRESS cumplen el papel de un cociente de variancias, de manera que tienen asociada una probabilidad, que se estima estadsticamente con un nmero de grados de libertad igual al nmero de mezclas de calibrado I tanto para el numerador como para el denominador.

69

La tabla completa sera como sigue: Factores 1 2 3 4 5 6 PRESS 0,92 0,0217 4,3103 4,1103 3,7103 5,1103 PRESS/min(PRESS) 248 5,88 1,17 1,12 1 p 0,999 0,997 0,605 0,576 0,5

Haaland propone, basndose en resultados empricos, seleccionar el como nmero ptimo de factores el primer valor para el que la probabilidad asociada disminuye por debajo de 0,75. En la tabla anterior, este criterio llevara a elegir A = 3. El valor de ptimo de PRESS puede emplearse para tener una idea de la bondad del ajuste de concentraciones, ya que permite acceder al llamado error medio de validacin cruzada RMSECV (por root mean square error in cross-validation), obtenido como RMSECV = [PRESS/(I 1)]1/2. Este parmetro debe ser del orden de la incertidumbre asociada a las concentraciones de calibrado.

Residuos espectrales
Como todo mtodo que emplea espectros completos, PCR es capaz de proveer residuos espectrales para la muestra incgnita, como la diferencia entre el espectro experimental de la , muestra y el espectro estimado por el modelo. El espectro calculado por el modelo, x tambin llamado espectro "reconstruido", se obtiene simplemente a partir de una ecuacin anloga a la ecuacin (9), pero empleando el vector de scores de la muestra y la matriz de factores reducida UA: = UA tA x (20) Luego puede definirse el residuo espectral en forma anloga a CLS: j )2 (x j x sres =
j =1 J

JA

(21)

Cifras de mrito
Las cifras de mrito se pueden calcular con ecuaciones similares a las empleadas en el modelo CLS. Para ello, se requiere el anlogo de los coeficientes de regresin espectrales n, que puede obtenerse mediante una ecuacin anloga a la (20), esto es, "reconstruyendo" el vector espectral n a partir del vector reducido vn: n = UA vn (22) Lo que no existe en el mbito de PCR es la estimacin del espectro del analito puro, que en CLS eran las columnas de la matriz S. Esto impide el clculo de la selectividad en PCR mediante la aproximacin discutida en la Clase 4. No obstante, la selectividad puede calcularse en PCR recurriendo a conceptos que estn ms all del alcance de este curso. Los programas suministrados con esta clase permiten estimar todas las cifras de mrito.

Ventajas y desventajas de PCR


Como resumen de esta clase, podemos enumerar las ventajas de PCR respecto de las otras tcnicas multivariadas que hemos estudiado hasta el presente. PCR combina las ventajas ya

70

analizadas de CLS con dos adicionales: 1) calibracin directa, que permite ignorar las concentraciones de compuestos qumicos desconocidos durante el calibrado, y 2) uso de "espectros" abstractos llamados scores, que eliminan los problemas asociados con la colinealidad espectral. En referencia a la tabla de propiedades analticas presentada en la Clase 4, se mantiene, sin embargo el problema de las interferencias no modeladas. Este problema es comn a la mayora de los mtodos multivariados basados en informacin espectral: si aparece en una muestra incgnita un compuesto no contenido en la calibracin, el anlisis no ser exacto. An as, la falta de exactitud tiene su estilo en el mundo multivariado, ya que los modelos son capaces de detectarla, aunque no de corregirla.

Ms all de PCR
Si PCR rene las ventajas de CLS e ILS, y ninguna de sus desventajas, y si adems su punto dbil es comn a todas las tcnicas basadas en espectros, la pregunta lgica es: qu puede ser mejor que PCR?. La respuesta es que el espacio para la mejora de los mtodos multivariados es inmenso. Un defecto que puede achacarse a PCR es que utiliza factores calculados en base a informacin espectral del calibrado nicamente, sin referencia a las concentraciones de calibrado. Esta ltima informacin es valiosa, y mtodos multivariados basados en la combinacin de espectros y concentracin para el clculo de factores son capaces de superar a PCR en valor predictivo. El ms popular es la regresin en cuadrados mnimos parciales o PLS (por partial least-squares).

Ejercicio resuelto
1) Los datos del presente ejercicio estn tomados del trabajo que acompaa la presente clase (LECTURA ADICIONAL CLASE 5.PDF). Se desea determinar el contenido de un frmaco, la bromhexina, presente en muestras de jarabe para la tos. Los componentes del jarabe se conocen en forma incompleta, de manera que se preparan muestras para construir un modelo PCR. Para ello, se agregan cantidades conocidas de bromhexina a doce diferentes muestras de jarabe blanco (esto es, el fondo de la matriz del jarabe, sin bromhexina), y se utilizan para calibrar el modelo. Las concentraciones del analito en las muestras de calibrado son: Muestra de Concentracin calibrado 104 M 1.55 1 2.06 2 2.58 3 1.55 4 2.06 5 2.58 6 1.55 7 2.06 8 2.58 9 1.68 10 2.10 11 2.66 12

71

Estas concentraciones se recogen en forma de un vector de 121 en el archivo de texto BR_CON_C.TXT Los espectros de absorcin de estas 12 muestras se registran a 64 diferentes longitudes de onda. Estos espectros estn contenidos, en forma de matriz de 6412, en el archivo de texto BR_RES_C.TXT. Informar las correspondientes cifras de mrito para el modelo. Suponga que el nivel de ruido instrumental es igual a 0,003 unidades de seal. 2) Para la validacin del modelo, se prepararon 11 muestras adicionales de jarabe con contenido conocido de bromhexina, diferente al empleado para calibrar. Los espectros de estas muestras estn contenidos, en forma de matriz de 6411, en el archivo BR_RES_T.TXT, y las concentraciones nominales, en forma de vector de 111, en el archivo BR_CON_T.TXT. Estimar las concentraciones de los analitos en este juego de muestras y sus incertidumbres asociadas, y estudiar la exactitud del mtodo mediante la prueba de la elipse. 3) Una muestra adicional de prueba, cuyo espectro est contenido en el archivo de texto BR_RES_P.TXT se analiza mediante el mismo modelo. Sin embargo, se sospecha que se trata de una muestra que contiene una interferencia no modelada en la calibracin. Qu conclusiones puede extraer al respecto del anlisis mediante PCR?

Respuesta detallada
1) El primer paso en el anlisis PCR debe ser el estudio del nmero ptimo de factores presentes en la matriz de calibrado, que luego se emplearn para la prediccin. El mtodo ms recomendado para esto es la validacin cruzada, que puede implementarse mediante la rutina PCR_CV.M de Matlab o el programa PCR_CV.EXE de QB. Para ejecutar estos algoritmos, se requiere introducir un nmero mximo de factores de prueba. Este puede ser, como mximo, igual al nmero de mezclas de calibrado menos una (ya que el procedimiento consiste en calibrar con las muestras menos una), en el presente caso 11 = 12 1. No obstante, se supone que se han preparado ms mezclas de calibracin que fuentes de variacin espectral, por lo que se recomienda introducir, como nmero mximo, un valor menor. Los resultados obtenidos para un nmero mximo de factores igual a ocho son los siguientes: Factores 1 2 3 4 5 6 7 8 PRESS 0,92 0,0217 4,3103 4,1103 3,7103 5,1103 8,9103 1,1102 PRESS/min(PRESS) 248 5,88 1,17 1,12 1 p 0,999 0,997 0,605 0,576 0,5

Puede apreciarse que el PRESS disminuye al ir aumentando el nmero de factores, llega a un mnimo para 5 factores, y luego aumenta. El nmero ptimo de factores, obtenido para el primer valor de p que disminuye por debajo de 0,75 es 3. El RMSECV para 3 factores es satisfactorio (0,02) en vista de las concentraciones nominales de calibrado y sus incertidumbres asociadas (en la segunda cifra decimal). Estos primeros tres componentes principales explican ms del 99,99% de la variancia de la matriz espectral. 72

Tanto los resultados correspondientes al PRESS como la variancia explicada se observan grficamente en la figura generada por MATLAB, figura que tambin puede construirse mediante los valores provistos por el programa QB correspondiente (PCR_CV.EXE).

73

Una vez establecido el nmero ptimo de factores para la compresin de la informacin, se procede a calibrar el modelo, empleando los programas PCR_CAL.M (Matlab) o PCR_CAL.EXE (QB). Las cifras de mrito calculadas mediante los programas para este modelo son las siguientes: Cifra de mrito Valor Sensibilidad 1,21104 A M1 a Sensibilidad analtica 4106 M1 1/ 2,5107 M Selectividad 0,46 a Obtenida dividiendo la sensibilidad por el nivel de ruido instrumental (0,003 unidades). 2) Para predecir las concentraciones de las muestras incgnitas, empleamos los programas PCR_PRED.M (Matlab) o PCR_PRED.EXE (QB), con los siguientes resultados: Muestra Concentracin 104 Residuo espectral

Nominal Predichaa 0,004 1,97(1) 1,96 1 0,002 2,19(1) 2,16 2 0,014 0,01(1) 0,00 3 0,009 0,84(1) 0,82 4 0,006 1,04(1) 1,02 5 0,005 1,37(1) 1,33 6 0,003 1,93(1) 1,84 7 0,004 2,43(1) 2,35 8 0,004 2,00(1) 1,94 9 0,003 2,19(1) 2,14 10 0,006 2,25(1) 2,24 11 a Los errores estndar en las concentraciones, calculados con el modelo aproximado citado en la teora, esto es s(xn) = sy / SENn, con sy = 0,003, son todos iguales a 0,002. Este valor es demasiado optimista, en vista de que las concentraciones de calibrado estn dadas con una incertidumbre de 0,01, por lo que se ha optado por este ltimo valor, ms conservador, en la presente tabla. Se informan tambin, en la ltima columna de esta tabla, los residuos espectrales para cada muestra incgnita, que, como puede apreciarse, se encuentran dentro del nivel del ruido instrumental. Esto confirma que el ajuste por cuadrados mnimos para estas muestras es adecuado. Dos excepciones a esta situacin son las muestras nmero 3 y 4, cuyo residuo espectral es superior al resto. Una explicacin posible para esto es que estas muestras fueron preparadas con una concentracin nominal inferior a las de calibrado. En este sentido, no se trata de verdaderos outliers, que contengan interferencias no modeladas, pero se trata de muestras para las que le estamos exigiendo al modelo que realice una extrapolacin hacia un ambiente para el que no est entrenado. De todas maneras, ntese que las concentraciones predichas para estas muestras son muy cercanas al valor nominal. Para establecer la exactitud del mtodo, lo recomendado es analizar los datos de la tabla precedente mediante la prueba de la elipse, tal como se discutiera en la Clase 2. De este modo, la tabla de datos a suministrar a los programas de clculo de la elipse ser como sigue: 74

1,96 2,16 0,00 0,82 1,02 1,33 1,84 2,35 1,94 2,14 2,24

1,97 2,19 0,01 0,84 1,04 1,37 1,93 2,43 2,00 2,19 2,25

Dado que no se tienen resultados de rplicas de cada muestra, lo que proveera una estimacin del desvo estndar de cada valor predicho, realizaremos un anlisis mediante el mtodo OLS. Se recomienda organizar los datos apropiadamente y someterlos a los programas EJCR.M (MATLAB) o EJCR.EXE (QB). El resultado se muestra en las figuras siguientes. La primera de ellas muestra los valores predichos en funcin de los nominales, y la segunda la elipse.

75

El anlisis de esta figura revela que el punto ideal (1,0) no est contenido dentro de la elipse, por lo que la validacin del modelo no pasa la prueba de exactitud. Ntese que los resultados del anlisis EJCR indican que los valores de la pendiente y ordenada al origen, individualmente consideradas, pasan la prueba de exactitud, ya que sus valores e intervalos de confianza son: Pendiente = 1,02 0,025 Ordenada = 0,002 0,004 Se observa que ambos intervalos de confianza contienen a los respectivos valores ideales (1 y 0). Sin embargo, el modelo no aprueba el test ms estricto del intervalo conjunto de confianza. Qu puede hacerse en un caso como el presente? Una alternativa es estudiar un nmero mayor de muestras de validacin, incluyendo rplicas, para realizar un anlisis WLS que es ms cercano al real. Repetir los anlisis de muestras con mayor residuo espectral, o mayor desviacin del valor nominal es otro recurso. Finalmente podemos utilizar otros modelos multivariados alternativos a PCR, que no estn contemplados en este curso. Si luego de estos intentos, la grfica EJCR es similar, quizs debamos conformarnos con la falta de exactitud del modelo, y aceptar que para un problema de la complejidad del presente esta es la mejor respuesta que se puede dar, valorando que el RMSE de prediccin obtenido es satisfactorio. En nuestro caso, RMSE = 0,015, que puede considerarse satisfactorio en vista de que las concentraciones nominales de calibrado y validacin llevan una incertidumbre de alrededor de 0,01 unidades. 3) El anlisis de la muestra contenida en el archivo BR_RES_P.TXT arroja los siguientes resultados: Concentracin estimada: 2,10 Residuo espectral: 0,08

76

Aqu el residuo es significativamente mayor que el ruido espectral, lo que hara sospechar la presencia de un interferente no modelado.

Ejercicio propuesto
Se desea modelar, mediante PCR, la determinacin del antibitico tetraciclina en suero humano. La matriz de espectros de calibracin es de 10150 y consiste de 50 espectros de fluorescencia registrados a 101 longitudes de onda. Esta matriz est contenida en el archivo TE_RES_C.TXT. Las concentraciones del analito en los 50 sueros empleados para calibrar estn, en forma de vector de 501, en el archivo TE_CON_C.TXT. Calibrar el modelo con el nmero ptimo de factores, y validarlo frente a las 57 muestras de validacin contenidas en el archivo TE_RES_T.TXT (espectros, matriz de 10157) y TE_CON_T.TXT (concentraciones, vector de 571). Analizar la exactitud mediante el mtodo EJCR. Considerar que el nivel de ruido instrumental es igual a 3 unidades de fluorescencia.

77

Un estadstico cometi un delito y fue encarcelado. Ahora tiene cero grados de libertad.

Clase 6
Calibracin multivariada

"PLS", un grafitti tomado de www.home.aone.net.au/byzantium/aerosol/images1.html

Material suministrado con la clase 6


Para esta clase se proveen los siguientes archivos: Archivos (*.M) con rutinas para el entorno de programacin MATLAB. Archivos (*.EXE) con programas ejecutables en QB.

Regresin por cuadrados mnimos parciales


El mtodo de cuadrados mnimos parciales (PLS, por partial least-squares) pretende mejorar la tcnica antes descrita (PCR) introduciendo los valores de las concentraciones de calibracin en el clculo de los factores. De esta manera, en PLS se emplean factores dependientes de la concentracin, mientras que en PCR los factores eran independientes de la concentracin. Debemos mencionar que existen dos tipos de mtodos PLS: uno denominado PLS-1, que concentra su atencin en un nico analito a la vez, y otro llamado PLS-2, que permite calibrar y predecir las concentraciones de varios analitos simultneamente. Esto ltimo puede parecer a primera vista una ventaja, ya que PLS-1 debe repetirse para cada analito diferente de inters, pero representa por otro lado una gran desventaja, ya que PLS-1 permite optimizar las

78

condiciones de trabajo para cada analito independientemente. En general, hoy en da se prefiere utilizar PLS-1 para la mayora de las aplicaciones, y de aqu en ms nos referiremos a PLS-1 simplemente como PLS.

Un algoritmo iterativo para PCR


Como se vio en la Clase 5, la tcnica de descomposicin en valores singulares permite obtener los factores espectrales de la matriz de datos instrumentales X. Sin embargo, desde el punto de vista computacional, calcular todos los factores constituye una prdida de tiempo, ya que usualmente slo se requieren los primeros factores, esto es, los que ms contribuyen a la variancia espectral. En general, no es aconsejable utilizar un nmero de factores superior a la mitad del nmero de mezclas de calibracin, por lo que resultara sumamente til disponer de una herramienta que permita calcular un nmero determinado de factores hasta un cierto lmite mximo. Existen varias tcnicas computacionales iterativas que permiten realizar esta operacin, entre las que se destaca el algoritmo NIPALS (por non linear iterative partial least-squares).20 La posibilidad de obtener los factores uno a uno permite plantear un algoritmo iterativo para PCR, que siga estos pasos: Calcular el factor que explica la mayor parte de la variancia de X. Descontar de X la parte explicada por el factor anterior, obteniendo el residuo E. Volver al primer paso y reemplazar X por E, continuando hasta obtener el nmero deseado A de factores. Matemticamente, este algoritmo se expresa del modo que sigue: 1) Se calcula el primer factor espectral de X, o primer loading u1. 2) Se proyecta la matriz de datos en este factor espectral, obtenindose el primer score t1, a travs de t1 = XT u1. 3) Se substrae de X la contribucin del primer factor, calculada como u1 t1T, es decir se calcula la diferencia o residuo E = X u1 t1T. 4) Se substituye E por X en el primer paso y se contina hasta llegar al nmero deseado A de factores. Los vectores ua y ta encontrados a cada paso de este algoritmo se renen en las matrices U y T discutidas anteriormente para PCR.

Un algoritmo iterativo para PLS


PLS opera de manera similar al algoritmo iterativo delineado para PCR. En PLS, sin embargo, existen dos clases de factores espectrales: unos llamados weigth loading factors, contenidos en una matriz usualmente llamada W, y otros llamados simplemente loadings, contenidos en una matriz llamada P. Las columnas de W son ortogonales, mientras que las de P no necesariamente lo son, a diferencia de PCR. Es importante recalcar que las columnas de W no son autovectores propiamente dichos, sino factores obtenidos mediante una tcnica diferente a la de PCR, cuyos elementos dependen de las concentraciones de calibracin del analito de inters. La obtencin de estos factores se lleva a cabo mediante un algoritmo iterativo cclico, muy similar al descrito anteriormente para PCR. La diferencia fundamental estriba en que en PCR los factores describen la mxima variancia posible en la matriz de datos instrumentales nicamente, mientras que en PLS los factores describen la mxima correlacin posible entre la matriz de datos y el vector de concentraciones del analito de inters. Matemticamente, el algoritmo PLS se resume en los siguientes pasos: 1) Se proyecta la matriz de datos X en el vector de concentraciones yn, obtenindose el primer weigth loading factor, que luego se normaliza a longitud unitaria: 79

w1 = X yn / (ynT yn), seguido de normalizacin. 2) Se obtiene el primer score: t1 = XT w1 3) Se obtiene el primer coeficiente de regresin v1: v1 = t1 yn / (t1T t1) 4) Se obtiene el primer loading p1: p1 = XT t1 / (t1T t1) 5) Se calculan los residuos espectrales y de concentracin: eXT = XT t1 p1T ey = yn v1 t1 6) Se sustituyen eX y ey por X e yn respectivamente en el paso 1) y se contina hasta llegar al nmero de factores deseado A. A continuacin describimos los pasos anteriores de manera cualitativa, en relacin con los del algoritmo correspondiente a PCR: Paso 1). En este paso del algoritmo, se supone que slo se conocen las concentraciones de un nico componente, en este caso el analito 1, en las mezclas de calibracin. Se efecta un anlisis similar al de CLS, pero en este caso suponiendo que slo est presente el analito 1. En otras palabras, w1 es una aproximacin por cuadrados mnimos al espectro puro del analito 1, similar a la que se hubiese realizado en CLS suponiendo la presencia de un nico componente en la calibracin. A diferencia de PCR, en este paso se aprecia la introduccin de informacin concerniente a las concentraciones contenidas en yn en el clculo del primer factor. Recurdese que en PCR el primer factor se calcula a partir nicamente de la matriz X, con prescindencia de las concentraciones del analito. Paso 2). Se contina con la suposicin de que nicamente est presente el analito 1, y se calcula qu contribucin del primer factor w1 est presente en las mezclas de calibracin. Estas "concentraciones" forman el vector t1. Ntese que si efectivamente hubiese un nico componente en la calibracin, los pasos 1-2 seran idnticos a los realizados mediante un mtodo CLS. En presencia de ms de un componente, PLS se desva del mtodo clsico de anlisis. Paso 3). Este paso es similar al realizado en PCR. Se calcula el coeficiente de regresin que relaciona el score t1 calculado en el paso 2) con las concentraciones de calibracin. Pasos 4 y 5). Estos pasos aseguran que los vectores ta y wa subsiguientes sern ortogonales entre s. Para ello se calculan los vectores pa, llamados loadings. Estos vectores, a diferencia de PCR, no explican la varianza espectral en la matriz X, sino que representan un intento de explicar dicha varianza, mientras simultneamente se correlacionan los scores ta con las concentraciones yn.

Calibracin
La etapa de calibracin requiere estimar en primer lugar el nmero ptimo de factores A, lo que usualmente se lleva a cabo mediante la tcnica de validacin cruzada, tal como se describi para PCR. El resultado de la calibracin es la obtencin del vector de coeficientes de regresin vn, cuyos elementos (v1,..., vA) se obtienen en cada uno de los A pasos del algoritmo cclico anterior.

Prediccin
En la etapa de prediccin se emplean los coeficientes de regresin para estimar la concentracin del analito en la muestra. El paso previo, tal como en PCR, es la obtencin de los scores de la muestra, lo que se realiza con ayuda de las matrices W y P: tA = (WTP)1 WT x (1) 80

yn = (vn)T tA

(2)

Residuos espectrales y cifras de mrito


En PLS tambin se estima el espectro de la muestra incgnita, de manera que pueden calcularse residuos espectrales, en forma anloga a PCR. La estimacin del espectro de la muestra se realiza mediante la siguiente ecuacin: = P tA x (3) Y luego puede definirse el residuo espectral: j )2 (x j x sres =
j =1 J

JA

(4)

Ventajas y desventajas de PLS


PLS es el mtodo de calibracin multivariada ms empleado cuando la informacin instrumental proveniente de cada muestra es de tipo vectorial (un espectro de absorbancia es el ejemplo tpico). En este sentido, su desarrollo ha superado de algn modo a PCR, incorporando informacin til referida a concentraciones de calibrado durante la etapa de clculo de las variables latentes. En referencia a la tabla de propiedades analticas presentada en la Clase 4, se mantiene, sin embargo el problema de las interferencias no modeladas. Este problema es comn a la mayora de los mtodos multivariados basados en informacin espectral: si aparece en una muestra incgnita un compuesto no contenido en la calibracin, el anlisis no ser exacto.

Ms all de PLS
PLS es probablemente el ms usado de los mtodos quimiomtricos para calibracin multivariada utilizando datos vectoriales. Sin embargo, en los ltimos aos se han desarrollado varios competidores, desde variantes cosmticas de PLS hasta metodologas completamente dismiles. El lector interesado en algunos de estos mtodos alternativos puede consultar la bibliografa especfica.22-26 Por otro lado, si desea emplear un programa completo de MATLAB, capaz de implementar varios mtodos quimiomtricos con una serie interesante de recursos grficos, de preprocesamiento de los datos, etc. puede consultar la referencia reciente de nuestro grupo de trabajo, y obtener el programa de internet, junto con juegos modelo de datos.27 Debe mencionarse que los mtodos para calibracin multivariada descritos en este curso se basan en el procesamiento de datos del tipo vectorial, es decir, espectros, u otro tipo similar de datos instrumentales (voltamperogramas, por ejemplo). Una calibracin basada en vectores para cada muestra se llama calibracin de primer orden, debido a que un vector se considera, en lenguaje tensorial, como un tensor de primer orden. En este sentido, la calibracin univariada se clasificara como de orden cero. Existe la posibilidad de realizar una calibracin empleando datos matriciales para cada muestras, por ejemplo, matrices de excitacin-emisin (obtenidas fcilmente en un espectrofluormetro convencional), matrices de absorbanciatiempo (obtenidas a travs de una reaccin qumica en un espectrofotmetro de arreglo de diodos), etc. En este caso, la calibracin se denomina de segundo orden, dado que una matriz es un tensor de segundo orden. No existe lmite terico para el orden, y recientemente se han descrito en la literatura calibraciones utilizando datos de tercer orden (matrices de excitacinemisin de fluorescencia combinadas con la cintica de una reaccin qumica). La calibracin de orden superior (segundo, tercero, etc.) presenta ventajas adicionales a las descritas en este curso, en particular, la llamada ventaja de segundo orden, que permite 81

cuantificar analitos calibrados en presencia de interferencias no calibradas. Esta propiedad est ausente en los datos de primer orden, y presenta inmensas posibilidades en el anlisis de mezclas complejas, en particular las de origen biolgico. Una descripcin detallada acerca de los mtodos de orden superior puede encontrarse en la tesis de R. Bro.28

Ejercicio resuelto
1) Los datos del presente ejercicio estn tomados del trabajo que acompaa la clase 5 (LECTURA ADICIONAL CLASE 5.PDF). Se desea determinar el contenido de un frmaco, la bromhexina, presente en muestras de jarabe para la tos. Los componentes del jarabe se conocen en forma incompleta, de manera que se preparan muestras para construir un modelo PLS. Para ello, se agregan cantidades conocidas de bromhexina a doce diferentes muestras de jarabe blanco (esto es, el fondo de la matriz del jarabe, sin bromhexina), y se utilizan para calibrar el modelo. Las concentraciones del analito en las muestras de calibrado son: Muestra de Concentracin calibrado 104 M 1.55 1 2.06 2 2.58 3 1.55 4 2.06 5 2.58 6 1.55 7 2.06 8 2.58 9 1.68 10 2.10 11 2.66 12 Estas concentraciones se recogen en forma de un vector de 121 en el archivo de texto BR_CON_C.TXT Los espectros de absorcin de estas 12 muestras se registran a 64 diferentes longitudes de onda. Estos espectros estn contenidos, en forma de matriz de 6412, en el archivo de texto BR_RES_C.TXT. Informar las correspondientes cifras de mrito para el modelo. Suponga que el nivel de ruido instrumental es igual a 0,003 unidades de seal. 2) Para la validacin del modelo, se prepararon 11 muestras adicionales de jarabe con contenido conocido de bromhexina, diferente al empleado para calibrar. Los espectros de estas muestras estn contenidos, en forma de matriz de 6411, en el archivo BR_RES_T.TXT, y las concentraciones nominales, en forma de vector de 111, en el archivo BR_CON_T.TXT. Estimar las concentraciones de los analitos en este juego de muestras y sus incertidumbres asociadas, y estudiar la exactitud del mtodo mediante la prueba de la elipse. 3) Una muestra adicional de prueba, cuyo espectro est contenido en el archivo de texto BR_RES_P.TXT se analiza mediante el mismo modelo. Sin embargo, se sospecha que se trata de una muestra que contiene una interferencia no modelada en la calibracin. Qu conclusiones puede extraer al respecto del anlisis mediante PLS?

82

Respuesta detallada
1) El primer paso en el anlisis PLS debe ser el estudio del nmero ptimo de factores presentes en la matriz de calibrado, que luego se emplearn para la prediccin. El mtodo ms recomendado para esto es la validacin cruzada, que puede implementarse mediante la rutina PLS_CV.M de Matlab o el programa PLS_CV.EXE de QB. Para ejecutar estos algoritmos, se requiere introducir un nmero mximo de factores de prueba. Este puede ser, como mximo, igual al nmero de mezclas de calibrado menos una (ya que el procedimiento consiste en calibrar con las muestras menos una), en el presente caso 11 = 12 1. No obstante, se supone que se han preparado ms mezclas de calibracin que fuentes de variacin espectral, por lo que se recomienda introducir, como nmero mximo, un valor menor. Los resultados obtenidos para un nmero mximo de factores igual a ocho son los siguientes: Factores 1 2 3 4 5 6 7 8 PRESS 0,907 0,021 4,15103 3,65103 5,81103 9,62103 1,64102 2,06102 PRESS/min(PRESS) 249002 5,76 1,139 1 p 0,999 0,997 0,587 0,5

Puede apreciarse que el PRESS disminuye al ir aumentando el nmero de factores, llega a un mnimo para 4 factores, y luego aumenta. El nmero ptimo de factores, obtenido para el primer valor de p que disminuye por debajo de 0,75 es 3. El RMSECV para 3 factores es satisfactorio (0,02) en vista de las concentraciones nominales de calibrado y sus incertidumbres asociadas (en la segunda cifra decimal). Estos primeros tres componentes principales explican ms del 99,99% de la variancia de la matriz espectral. Tanto los resultados correspondientes al PRESS como la variancia explicada se observan grficamente en la figura generada por MATLAB, figura que tambin puede construirse mediante los valores provistos por el programa QB correspondiente (PLS_CV.EXE).

83

Una vez establecido el nmero ptimo de factores para la compresin de la informacin, se procede a calibrar el modelo, empleando los programas PLS_CAL.M (Matlab) o PLS_CAL.EXE (QB). Las cifras de mrito calculadas mediante los programas para este modelo son las siguientes: Cifra de mrito Valor Sensibilidad 1,21104 A M1 a Sensibilidad analtica 4106 M1 1/ 2,5107 M Selectividad 0,46 a Obtenida dividiendo la sensibilidad por el nivel de ruido instrumental (0,003 unidades).

84

2) Para predecir las concentraciones de las muestras incgnitas, empleamos los programas PLS_PRED.M (Matlab) o PLS_PRED.EXE (QB), con los siguientes resultados: Muestra Concentracin 104 Residuo espectral

Nominal Predichaa 0,004 1,97(1) 1,96 1 0,002 2,19(1) 2,16 2 0,014 0,01(1) 0,00 3 0,009 0,84(1) 0,82 4 0,007 1,04(1) 1,02 5 0,005 1,37(1) 1,33 6 0,003 1,93(1) 1,84 7 0,004 2,43(1) 2,35 8 0,004 1,99(1) 1,94 9 0,002 2,19(1) 2,14 10 0,005 2,25(1) 2,24 11 a Los errores estndar en las concentraciones, calculados con el modelo aproximado citado en la teora, esto es s(xn) = sy / SENn, con sy = 0,003, son todos iguales a 0,002. Este valor es demasiado optimista, en vista de que las concentraciones de calibrado estn dadas con una incertidumbre de 0,01, por lo que se ha optado por este ltimo valor, ms conservador, en la presente tabla. Se informan tambin, en la ltima columna de esta tabla, los residuos espectrales para cada muestra incgnita, que, como puede apreciarse, se encuentran dentro del nivel del ruido instrumental. Esto confirma que el ajuste por cuadrados mnimos para estas muestras es adecuado. Dos excepciones a esta situacin son las muestras nmero 3 y 4, cuyo residuo espectral es superior al resto. Una explicacin posible para esto es que estas muestras fueron preparadas con una concentracin nominal inferior a las de calibrado. En este sentido, no se trata de verdaderos outliers, que contengan interferencias no modeladas, pero se trata de muestras para las que le estamos exigiendo al modelo que realice una extrapolacin hacia un ambiente para el que no est entrenado. De todas maneras, ntese que las concentraciones predichas para estas muestras son muy cercanas al valor nominal. Para establecer la exactitud del mtodo, lo recomendado es analizar los datos de la tabla precedente mediante la prueba de la elipse, tal como se discutiera en la Clase 2. De este modo, la tabla de datos a suministrar a los programas de clculo de la elipse ser como sigue: 1,96 2,16 0,00 0,82 1,02 1,33 1,84 2,35 1,94 2,14 2,24 1,97 2,19 0,01 0,84 1,04 1,37 1,93 2,43 1,99 2,19 2,25

85

Dado que no se tienen resultados de rplicas de cada muestra, lo que proveera una estimacin del desvo estndar de cada valor predicho, realizaremos un anlisis mediante el mtodo OLS. Se recomienda organizar los datos apropiadamente y someterlos a los programas EJCR.M (MATLAB) o EJCR.EXE (QB). El resultado se muestra en las figuras siguientes. La primera de ellas muestra los valores predichos en funcin de los nominales, y la segunda la elipse. 3) El anlisis de la muestra contenida en el archivo BR_RES_P.TXT arroja los siguientes resultados: Concentracin estimada: 2,10 Residuo espectral: 0,08 Aqu el residuo es significativamente mayor que el ruido espectral, lo que hara sospechar la presencia de un interferente no modelado.

Ejercicio propuesto
Se desea modelar, mediante PLS, la determinacin del antibitico tetraciclina en suero humano. La matriz de espectros de calibracin es de 10150 y consiste de 50 espectros de fluorescencia registrados a 101 longitudes de onda. Esta matriz est contenida en el archivo TE_RES_C.TXT. Las concentraciones del analito en los 50 sueros empleados para calibrar estn, en forma de vector de 501, en el archivo TE_CON_C.TXT. Calibrar el modelo con el nmero ptimo de factores, y validarlo frente a las 57 muestras de validacin contenidas en el archivo TE_RES_T.TXT (espectros, matriz de 10157) y TE_CON_T.TXT (concentraciones, vector de 571). Analizar la exactitud mediante el mtodo EJCR. Considerar que el nivel de ruido instrumental es igual a 3 unidades de fluorescencia.

86

Resoluciones a los ejercicios propuestos Respuestas a los ejercicios propuestos en la clase 1


1) Empleando las ecuaciones de regresin lineal y clculo de cifras de mrito expuestas en la teora de la clase 1, se obtienen los siguientes resultados respecto de la sensibilidad: Mtodo A B Sensibilidad de calibracin 1,552 153.0 Sensibilidad analtica 4,3102 1,8103

Ntese que la sensibilidad de calibracin tiene cifras significativas compatibles con su desvo estndar. En cambio, la sensibilidad analtica se informa con un nmero de cifras significativas que depende del cociente sensibilidad/ruido. Dado que el ruido se conoce con una o a lo sumo dos cifras significativas, la sensibilidad analtica se informa con dos cifras como mximo. Estos resultados indican que tanto la sensibilidad de calibracin como la sensibilidad analtica es significativamente mayor para el mtodo B. Sin embargo, la sensibilidad de calibracin es dos rdenes de magnitud mayor para B, mientras que la sensibilidad analtica es superior, pero en menos de un orden de magnitud. La sensibilidad analtica es un mejor parmetro para la comparacin. 2) Las concentraciones predichas para la incgnita y sus desvos estndar, usando ambos mtodos, son: Mtodo Concentracin (desvo estndar) A 0,153(1) B 0,1517(4) Como puede apreciarse, el desvo estndar calculado mediante el mtodo B es menor, debido a su mayor sensibilidad analtica. Como comentario, la sensibilidad analtica parece comportarse mejor, en cuanto cifra de mrito, para calificar el desempeo de estos dos mtodos, ya que se correlaciona con la precisin de cada clculo de concentracin. 3) Cifras de mrito en cada caso: Caso A B Sensibilidad Sensibilidad analtica 13,2 114,1 9,3 91,2 1/ 0,009 0,011 LOD 0,02 0,03 LOQ 0,06 0,08 Rango lineal 0,06-0,95 0,08-1,31

Debe notarse que el caso A posee efectivamente un blanco significativo, ya que la ordenada al origen es significativamente distinta de cero. En cuanto a las cifras de mrito, son algo mejores en el caso A, aunque el rango lineal es tambin sensiblemente menor.

87

La eleccin entre estos dos casos es un ejemplo de que no se puede tener todo en la vida: habra que decidir qu es ms importante para aplicaciones concretas, si el rango lineal extendido o la mayor sensibilidad.

Respuesta a los ejercicios propuestos en la clase 2


1) La tabla de datos debe complementarse con la de los desvos estndar. En este caso, dado que el desvo estndar para FPIA es menor que para el mtodo espectrofotomtrico, podra emplearse un anlisis de tipo WLS, con los valores de desvo estndar igual a 0,9 para todos los datos de la tabla anterior. Esto ltimo, sin embargo, es idntico al uso de un mtodo OLS (ver la teora de la clase 2). Por lo tanto, podemos en este caso particular realizar una regresin lineal ordinaria empleando como variable y los valores provistos por el mtodo espectrofotomtrico y como variable x los provistos por el mtodo FPIA. Los resultados del anlisis OLS son: Pendiente: 0,983 Ordenada al origen: 1,35 sy/x: 2,35 La elipse correspondiente contiene, aunque marginalmente, al punto ideal (1,0):

Vale la pena destacar el resultado que se obtendra mediante un anlisis BLS, esto es, considerando que tanto la variable x como la y estn sujetas a incertidumbre: Pendiente: 0.996 Ordenada al origen: 1.16 sy/x: 2.39

88

Como puede apreciarse en la figura siguiente, el resultado final en cuanto al estudio de la comparacin de los mtodos es similar al hallado mediante el anlisis OLS sencillo.

La rutina de MATLAB 'EJCR.M', proporciona los valores ajustados de pendiente y ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numricos necesarios para graficar la regin elptica mediante programas grficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse. 2) Se requiere graficar tres elipses, calculadas por OLS, que proporcionan visualmente una buena impresin de la exactitud y precisin relativas de los tres mtodos probados:
30

Ordenada al origen

3
20

10

1 2

-10 0.8 0.9 1.0 1.1

Pendiente

89

La conclusin es que el mtodo ms preciso es el 3 (menor tamao de elipse), pero es muy poco exacto (alejado del punto ideal). El mtodo 2 es el ms exacto, y adems es ms preciso que el mtodo 1.

Respuesta al ejercicio propuesto en la clase 3


Deben calcularse las selectividades para cada analito para todas las combinaciones posibles de longitudes de onda. Haremos el clculo detallado para el caso de elegir 1 y 2: Matrices conteniendo las seales y las concentraciones de los patrones: 0,550 0,610 R= 0,510 0,505 1 0 C= 104 0 1 Clculo de S y su inversa: 0,550 0,510 S = RT (C1)T = 0,610 0,505 0 5.500 5.100 1 10 4 = 0 1 10 4 6.100 5.050

15,14 15,29 4 S1 = 10 18 , 29 16 , 49 Sensibilidades y selectividades: 1,514 10 3 1 = 1,529 10 3 SEN1 = || 1 ||1 = 464 SEL1 = 464 / (5.5002 + 6.1002) = 0,056 1,829 10 3 2 = 1,649 10 3 SEN2 = || 2 ||1 = 406 SEL2 = 406 / (5.1002 + 5.0502) = 0,056 Realizando este mismo anlisis a todas las posibles combinaciones de dos longitudes de onda se obtienen los siguientes resultados: Combinacin SEL1 SEL2 1y2 0,056 0,056 1y3 0,029 0,029 1y4 0,007 0,007 1y5 0,028 0,028 2y3 0,084 0,084 2y4 0,059 0,059 2y5 0,027 0,027 3y4 0,022 0,022 3y5 0,056 0,056 4y5 0,034 0,034 Como puede verse, la mejor combinacin de longitudes de onda, es la 2 y 3, que conduce a la mxima selectividad. 90

Respuesta al ejercicio propuesto en la clase 4


1) Los resultados provistos por el programa son los siguientes: Figura con espectros de calibracin:

Figura con sensibilidades y coeficientes de regresin:

91

Estas figuras son provistas automticamente por la rutina de MATLAB; los usuarios de QB pueden producirlas con cualquier programa grfico, leyendo los datos de los correspondientes archivos de texto 'RESP_CAL.TXT' (espectros de calibracin), 'S_.TXT' (sensibilidades) y 'B_.TXT' (coeficientes de regresin). Las cifras de mrito son las siguientes: Cifra de mrito Analito 1 Analito 2 1 Sensibilidad 0,76 A ppm1 0,50 A ppm a 1 Sensibilidad analtica 152 ppm1 100 ppm Selectividad 0,62 0,62 a Obtenida dividiendo la sensibilidad por el nivel de ruido instrumental (0,005 unidades de A). 2) Los resultados para las muestras de prueba son los siguientes: Muestra de prueba 1 2 3 Analito 1 Predicho 2,00(1) 1,02(1) 4,05(1) Analito 2 Predicho 2,01(1) 1,06(1) 3,91(1) Residuo espectral 0,009 0,01 0,007

La rutina de MATLAB provee la grfica de los espectros de prueba:

92

Respuesta al ejercicio propuesto en la clase 5


1) Los resultados provistos por el programa son los siguientes: El nmero ptimo de factores es 4. Calibrando el modelo con cuatro factores, y prediciendo las 57 muestras incgnita se obtienen las siguientes concentraciones predichas (se informan junto con las nominales): Muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Concentracin nominal 1.25 1.25 1.50 1.50 1.50 1.50 1.50 1.50 1.50 1.75 1.75 1.75 2.00 2.00 2.00 2.25 2.25 2.50 2.50 2.50 2.75 2.75 2.75 3.00 3.00 3.00 3.50 3.50 3.50 Concentracin predicha 1.08 1.29 1.43 1.45 1.35 1.37 1.38 1.51 1.39 1.77 1.73 1.83 2.03 2.08 1.87 2.14 2.29 2.63 2.49 2.37 2.75 2.76 2.75 2.96 3.00 2.86 3.60 3.58 3.36 Muestra 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 Concentracin nominal 3.50 3.75 3.75 4.00 1.00 1.00 1.00 1.00 0.00 0.00 0.00 0.00 0.60 0.60 0.60 0.60 2.00 2.00 2.00 2.00 0.40 0.40 0.40 0.40 0.80 0.80 0.80 0.80 Concentracin predicha 3.65 3.79 3.52 3.83 1.01 1.02 1.00 1.00 0.99 0.00 0.01 0.03 0.62 0.67 0.67 0.67 0.21 0.19 0.17 0.22 0.38 0.39 0.41 0.36 0.81 0.82 0.78 0.79

Con estos datos se puede utilizar el programa EJCR.M para evaluar la exactitud, usando el mtodo OLS:

93

94

Referencias
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. K. Danzer y L. A. Currie, Guidelines for calibration in analytical chemistry. Part 1. Fundamentals and single component calibration, Pure & Appl. Chem. 1998, 70, 9931014. W. P. Gardiner, Statistical analysis methods for chemists. A software-based approach, The Royal Society of Chemistry, Cambridge, 1997. J. N. Miller y J. C. Miller, Estadstica y quimiometra para qumica analtica, 4ta. Edicin, Prentice Hall, Madrid, 2002. C. A. Clayton, J. W. Hines y P. D. Elkins, Detection limits with specified assurance probabilities, Anal. Chem. 1987, 59, 2506-2514. L. A. Currie, Detection and quantification limits: origins and historical perspective, Anal. Chim. Acta 1999, 391, 127-134. L. A. Currie, Recommendations in Evaluation of Analytical Methods including Detection and Quantification Capabilities, Pure Appl. Chem. 1995, 67, 1699-1723. P. Wilrich, ISO/DIS 11843-1,2 (1995), Capability of Detection, ISO/TC69/SC6, ISO Standard, 11843-1, 1977. M. Valcrcel, Principios de qumica analtica, Springer-Verlag Ibrica, Barcelona, 1999, p. 81. A. G. Gonzlez, M. A. Herrador y A. G. Asuero, Intra-laboratory testing of method accuracy from recovery assays, Talanta 1999, 48, 729-736. D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. De Jong, P. J. Lewi y J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics, Elsevier, Amsterdam, 1997, Captulo 8. Los trminos homoscedstico/a y homoscedasticidad existen en el contexto del "Diccionario Estadstico" que puede consultarse en http://www.estadistico.com/dic.html. Tambin se usan, en forma equivalente, homocedstico/a y homocedasticidad. J. Riu y F. X. Rius, Assessing the accuracy of analyical methods using linear regression with errors in both axes, Anal. Chem. 1996, 68, 1851-1857. G. D. Christian, Analytical Chemistry, 6a. Edicin, Wiley, New York, 2003, Captulo 16. D. A. Skoog, D. M. West y F. J. Holler, Fundamentals of Analytical Chemistry, 7a. Edicin, Saunders College Publishing, New York, 1996, Captulo 20. E. V. Thomas y D. M. Haaland, Partial least-squares methods for spectral analyses. 1. Relation to other quantitative calibration methods and the extraction of qualitative information, Anal. Chem. 1988, 60, 1193-1202 D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. De Jong, P. J. Lewi y J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics, Elsevier, Amsterdam, 1997, Captulo 10. R. G. Brereton, Chemometrics. Data Analysis for the Laboratory and Chemical Plant, Wiley, Chichester, 2003, Captulo 5. http://www.chm.bris.ac.uk/org/chemometrics/pubs/chemweb.html D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. De Jong, P. J. Lewi y J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics, Elsevier, Amsterdam, 1997, Captulos 17 y 36. H. Wold, Estimation of principal components and related models by iterative least squares, en Multivariate Analysis (Ed., P.R. Krishnaiah), Academic Press, NY, 1966, pp. 391-420.

95

21. Las imgenes estn tomadas de la pgina web www.cc.gatech.edu/ people/home/adjacent/. 22. H. C. Goicoechea y A. C. Olivieri, A comparison of orthogonal signal correction and net analyte preprocessing methods. Theoretical and experimental study, Chemom. Intell. Lab. Syst. 2001, 56, 73. 23. O. Svensson, T. Kourti y J. F. MacGregor, An investigation of orthogonal signal correction algorithms and their characteristics, J. Chemometrics, 2002, 16, 176. 24. S. Wold, H. Antti, F. Lindgren y J. hman, Orthogonal signal correction of near-infrared spectra, Chemom. Intell. Lab. Syst. 1998, 44, 175. 25. T. Fearn, On orthogonal signal correction, Chemom. Intell. Lab. Syst. 2000, 50, 47. 26. L. Xu e I. Schechter, A calibration method free of optimum factor number selection for automated multivariate analysis. Experimental and theoretical study, Anal. Chem. 1997, 69, 3722. 27. El programa MVC1 (Multivariate Calibration 1) puede obtenerse libremente en www.chemometry.com 28. R. Bro, Multiway Analysis in the Food Industry. Models, Algorithms, and Applications, Royal Veterinary and Agricultural University Denmark, 1998, disponible en internet en www.models.kvl.dk.

96

S-ar putea să vă placă și