Sunteți pe pagina 1din 9

Identificacin y descripcin grfica de los datos

FIABILIDAD (II): IDENTIFICACIN Y DESCRIPCIN GRFICA DE LOS DATOS


Autores: ngel A. Juan Prez (ajuanp@uoc.edu), Rafael Garca Martn (rgarciamart@uoc.edu).

RELACIN CON OTROS MATH-BLOCS__________________________________


Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la Fiabilidad de componentes desde un punto de vista estadstico: Conceptos Bsicos (I). Identificacin y descripcin grfica de los datos (II). Anlisis paramtrico de los tiempos de fallo (III). Anlisis no paramtrico de los tiempos de fallo (IV). Comparacin no paramtrica de muestras (V). Tests de vida acelerada (VI). Modelos de regresin para observaciones censuradas (VII). Anlisis Probit (xito / fracaso) (VIII).

MAPA CONCEPTUAL_________________________________________________

Grficos de probabilidad

Identificacin grfica de la distribucin de ajuste (Minitab)

Fiabilidad (II): Identif. y descripcin grfica


Estadstico Anderson-Darling

Paramtrica

Descripcin grfica de la distribucin de ajuste (Minitab)

No paramtrica

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Identificacin y descripcin grfica de los datos

INTRODUCCIN_____________________________________________________
Supongamos que se dispone de una relacin de tiempos de fallo asociados a un determinado dispositivo, i.e., se tienen n observaciones de la v.a. T = tiempo transcurrido hasta que se produce el fallo. Lo primero que convendra hacer es tratar de identificar alguna distribucin conocida a la cual se ajustasen bien las observaciones, pues ello nos simplificara el anlisis descriptivo de los datos, as como la realizacin de inferencias sobre la poblacin. En muchas ocasiones ser posible identificar la distribucin que mejor se aproxima a las observaciones mediante el uso de grficos de probabilidad. Este tipo de grficos muestran la f.d. linealizada de una distribucin terica junto con una nube de puntos que representan estimaciones (no paramtricas) puntuales de la f.d. de T. Evidentemente, cuanto ms se aproxime la nube de puntos a la recta que aparece en el grfico, tanto mejor ser el ajuste. Si se lograse aproximar la distribucin de T mediante alguna distribucin terica conocida, sera posible usar esta ltima para representar grficamente estimaciones de la funcin de supervivencia, de la f.d.p., y de la tasa de fallos (descripcin paramtrica) de las observaciones. En caso contrario, ser necesario recurrir a la estimacin puntual de la f.d. asociada a T para representar grficamente estimaciones de las funciones anteriores (descripcin no paramtrica). En este math-block se har uso del programa estadstico MINITAB para identificar y describir grficamente la distribucin que mejor se ajuste a un conjunto de observaciones que usaremos como ejemplo. Las posibles distribuciones de ajuste son: la normal, la lognormal (base e), la Weibull, y la exponencial.

GRFICOS DE PROBABILIDAD_________________________________________
Al representar grficamente las funciones de distribucin (f.d.) de las diferentes distribuciones tericas, se obtienen curvas muy similares, muchas de ellas difciles de ser identificadas a simple vista. Es por ello que se utilizan los grficos de probabilidad, los cuales hacen uso de escalas especiales en los ejes, de manera que al representar la f.d. sta tenga forma lineal. El primer paso ser pues encontrar la transformacin adecuada para t y F(t) de modo que al representar t vs. F(t) se obtenga una funcin lineal. Ejemplo (linealizacin de una Weibull): La f.d. asociada a una distribucin Weibull de dos parmetros (, ) viene dada por la expresin: F(t) = 1 exp{-(t/)} con , > 0

Esta funcin puede ser linealizada (i.e., puesta de la forma: y = a + bx) como sigue: F(t) = 1 exp{-(t/)} ln(1-F(t)) = ln(exp{-(t/)}) ln(1-F(t)) = -(t/) ln(-ln(1-F(t))) = ln(t/) ln(ln(1-F(t))-1) = ln(t) - ln() Tomando ahora y = ln(ln(1-F(t))-1) , y x = ln(t) la f.d. puede rescribirse en forma lineal como: y = x - ln(). A continuacin se representa grficamente la f.d. de una Weibull (con escala = 10 y forma = 4) y su versin linealizada:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Identificacin y descripcin grfica de los datos

Escala (alpha) = Forma (beta) = t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 F(t) 0,00 0,00 0,01 0,03 0,06 0,12 0,21 0,34 0,48 0,63 0,77 0,87 0,94 0,98 0,99 1,00

10 4 x = ln(t) 0,00 0,69 1,10 1,39 1,61 1,79 1,95 2,08 2,20 2,30 2,40 2,48 2,56 2,64 2,71 2,77

WEIBULL
1,00

f.d. Weibull, escala = 10 forma = 4

y = ln(ln(1-F(t))-1) -9,2 -6,4 -4,8 -3,7 -2,8 -2,0 -1,4 -0,9 -0,4 0,0 0,4 0,7 1,0 1,3 1,6 1,9
F(t)

0,80 0,60 0,40 0,20 0,00 0 5 10 15

f.d. Weibull linealizada, escala = 10 forma = 4


3,0 1,0 -1,0 -3,0 -5,0 -7,0 -9,0 0,00 0,50 1,00

1,50

2,00

2,50

3,00

Una vez conocidas las transformaciones que permiten linealizar la f.d. asociada a una distribucin, es posible construir una plantilla especial (con los ejes graduados de forma adecuada) sobre la cual representar una nube de puntos que contenga cada uno de los tiempos de fallo observados (eje x) junto con el valor (estimado) de la f.d. asociado a dicha observacin (eje y). Para cada punto (xj,yj), el valor xj vendr dado por la j-sima observacin tj (instante en que se ha producido el fallo j-simo). Ms complicado ser hallar el valor de la coordenada yj, la cual representar el valor estimado de F(tj). Es usual estimar el dicho valor mediante los llamados rangos medianos, los cuales se pueden calcular, en el caso de la distribucin Weibull con observaciones completas (sin censura), mediante la ecuacin que se muestra a continuacin. Para profundizar ms sobre este mtodo, se recomiendan las referencias bibliogrficas Hald (1952a) [9] y Hald (1952b) [10]: F(tj) rango mediano j-simo = ( 1 + F(0,5; m,n) (n j + 1) / j )-1 donde: F(0,5; m,n) es la mediana de una F-Snedecor con m = 2(n j + 1) y n = 2j grados de libertad, j es el orden del fallo, y n es el tamao muestral. Como se ver en el apartado siguiente, los programas estadsticos actuales (como MINITAB) son capaces de realizar los clculos anteriores, automatizando as el proceso de construccin de estos grficos de probabilidad. Cuando se tengan ya representados todos los puntos (x,y) asociados a las observaciones, se deber hallar la recta de regresin asociada, la cual corresponder a la f.d. de la distribucin elegida cuyos parmetros mejor se ajusten a las observaciones. Para ver si las observaciones pueden aproximarse bien por dicha distribucin, habr que analizar (grficamente o mediante el estadstico AndersonDarling) si los puntos representados se encuentran suficientemente prximos a la recta, prestando especial atencin a los valores de los extremos. Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD) 3

Identificacin y descripcin grfica de los datos

IDENTIFICACIN GRFICA DE LA DISTRIB. DE AJUSTE____________________


Ejemplo (identificacin grfica): se considerar aqu el caso de una compaa que fabrica cubiertas para motores, cubiertas que pueden estropearse rpidamente si se ven sometidas a temperaturas elevadas. El archivo Motores.mtw contiene los tiempos de fallo (en meses) de las cubiertas a dos temperaturas distintas. La primera muestra (Tiemp80) consta de 50 cubiertas sometidas a 80 C; la segunda muestra (Tiemp100) abarca 40 cubiertas a 100 C. Algunas de las cubiertas que se empezaron a estudiar, o bien fallaron debido a causas distintas a la temperatura, o bien no continuaron en el estudio por motivos diversos y, por tanto, se desconoce el instante en que fallaron (observaciones censuradas a derecha). En las columnas Comp80 y Comp100 se especifica si los tiempos obtenidos pertenecen a observaciones completas (1) o a observaciones censuradas (0). Una vez introducidos los datos, seleccionamos Stat > Reliability/Survival > Distribution ID Plot-Right Cens... :

Se eligen las variables que contienen los tiempos de fallo, as como las columnas en las que se indica si ha habido o no censura (cada una de stas se asociar a una variable segn el orden de entrada):

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Identificacin y descripcin grfica de los datos Observar que una alternativa al uso de columnas indicadoras de censura sera fijar el tiempo que ha de transcurrir (o el nmero de observaciones que han de fallar) como indicador de censura (censura por tiempo o por fallos). El programa ofrece una serie de opciones, como la de escoger entre los siguientes mtodos no paramtricos para la obtencin de los grficos: Herd-Jonhson, Kaplan-Meier, y Kaplan-Meier modificado (ver el math-block Fiabilidad IV). Por defecto, en el caso de observaciones censuradas, MINITAB utiliza el mtodo Kaplan-Meier modificado:

Si los puntos representados en el grfico estn suficientemente prximos a la recta, podremos dar por bueno el ajuste de las observaciones mediante la distribucin terica elegida (resulta conveniente prestar atencin especial a los valores de los extremos). Como se observa en los grficos siguientes, la distribucin que mejor se ajusta a los datos es la lognormal (base e). Por su parte, el estadstico Anderson-Darling nos da una medida de lo alejadas que se encuentran las observaciones de las recta que representa las funcin de distribucin. Cuanto mejor sea el ajuste, tanto menor ser dicho estadstico. En este caso vemos que el menor valor que toma el estadstico AD corresponde a la distribucin lognormal (67,22 para la muestra a 80 C y 16,50 para la muestra a 100 C), lo que confirma que es esta distribucin la que mejor se ajusta a las observaciones:

DNI distribucin tiempos de fallo de cubiertas


ML E stim ates - Cens oring Colum n in Com p80...Com p100

Weibull
99 95 90 80 70 60 50 40 30 20 10 5 3 2 1 10 100 99 95

Lognormal base e
Tiemp80 Tiemp100

Anderson-D arling (adj)


80 70 60 50 40 30 20 10 5 1 10 100

Weibull 67,64; 16,60 Lognormal bas e e 67,22; 16,50 Ex ponential 70,33; 18,19 Normal

Percent

Percent

Exponential
99 98 97 95 80 70 60 50 40 30 20 10 5 1 0 100 200 300 400 0 99 95

Normal

67,73; 17,03

Percent

90 80 70 60 50 30 10

Percent

50

100

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Identificacin y descripcin grfica de los datos

DESCRIPCIN GRFICA DE LOS DATOS________________________________


Una vez se haya tratado de ajustar los tiempos de fallo mediante alguna distribucin conocida, ser conveniente realizar una descripcin grfica de las observaciones. Si se ha logrado identificar la distribucin de los tiempos de fallo, se optar por un enfoque paramtrico. Si, por el contrario, las observaciones no se ajustan a ninguna de las cuatro distribuciones propuestas (exponencial, Weibull, normal y lognormal), se optar por usar mtodos no paramtricos. El enfoque paramtrico incluye los siguientes grficos: f.d.p., funcin de supervivencia, f.d. (linealizada), y tasa de fallo. La opcin no paramtrica incluye un grfico de la funcin de supervivencia (basado en Kaplan-Meier) y otro de la funcin tasa de fallo. Ejemplo (descripcin paramtrica): Siguiendo con el ejemplo anterior de las cubiertas, se utilizar la distribucin lognormal (base e) para hacer una descripcin completa de las variables que interesan:

ML Estimates - Censoring Column in Comp80...Comp100

Grficas distribucin de datos


99 95 90 80 70 60 50 40 30 20 10 5

Probability Density Function


0,02

Lognormal base e Probability


Tiemp80 Tiemp100 Location Scale 4,0927 3,6287 0,4862 0,7309 A D* 67,22 16,50 F/C 37/13 34/ 6

0,01

Percent

0,00 0 100 200

1 10 100

Survival Function
1,0 0,9 0,8 0,7 0,03

Hazard Function
Tiemp80 Tiemp100

Probability

0,6

0,02

0,4 0,3 0,2 0,1 0,0 0 100 200

Rate
0,01 0,00 0 100 200

0,5

Las cuatro grficas anteriores describen la distribucin de los tiempos de fallo de las cubiertas para dos niveles diferentes de temperatura. A partir de las mismas, es posible determinar, p.e., cunto ms probable resulta el que las cubiertas fallen si se encuentran sometidas a una temperatura de 100 C que si lo estn a una de 80 C.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Identificacin y descripcin grfica de los datos As, p.e., se observa (a partir del grfico de supervivencia) que, tras 50 meses, slo sobrevivirn (aproximadamente) un 30% de las cubiertas sometidas a 100 C, mientras que el porcentaje de supervivientes a los 50 meses sube hasta (aproximadamente) un 65% para las cubiertas sometidas a 80 C. Ejemplo (descripcin no paramtrica): Si se hubiese optado por un mtodo no paramtrico (sin suponer que los datos pueden ajustarse por una determinada distribucin terica), los resultados hubiesen sido los siguientes:

Kaplan-Meier Method - Censoring Column in Comp80...Comp100

Grficas distribucin de datos


Kaplan-Meier Survival Function

1,0 0,9 0,8

Tiemp80 Tiemp100

Probability

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 10 20 30 40 50 60 70 80

Nonparametric Hazard Function


0,2

Rate

0,1

0,0 0 10 20 30 40 50 60 70 80

A partir de las funciones de supervivencia se aprecia que hay una sustancial diferencia entre los tiempos de fallo de las cubiertas a 80 C y los de las cubiertas a 100 C: claramente, a una temperatura de 80 C la mayor parte de las cubiertas perdura durante ms tiempo que a 100 C.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Identificacin y descripcin grfica de los datos Por su parte, la grfica de las tasas de riesgo muestra dos funciones crecientes, siendo la de mayor pendiente la asociada a las cubiertas que soportan ms temperatura. Nuevamente, se aprecia cmo transcurridos 50 meses, solo sobrevivirn aprox. un 30% de las cubiertas sometidas a 100 C, mientras que este porcentaje llega al 65-70% para cubiertas a 80 C. Notar, adems, que aproximadamente un 50% de las cubiertas a 100 C habrn fallado entre los 35 y 40 meses. Por otro lado, en el caso de las cubiertas a 80 C, un 50% de las mismas sobrevivir hasta los 55-60 meses.

BIBLIOGRAFA______________________________________________________
[1]. [2]. [3]. [4]. [5]. [6]. Cramer, H., Mathematical Methods of Statistics, Princeton University Press, Princeton, NJ, 1946. Davis, D.J., An Analysis of Some Failure Data, J. Am. Stat. Assoc., Vol. 47, p. 113, 1952. Dietrich, D., SIE 530 Engineering Statistics Lecture Notes, The University of Arizona, Tucson, Arizona. Dudewicz, E.J., An Analysis of Some Failure Data, J. Am. Stat. Assoc., Vol. 47, p. 113, 1952. Dudewicz, E.J., and Mishra, Satya N., Modern Mathematical Statistics, John Wiley & Sons, Inc., New York, 1988. Evans, Ralph A., The Lognormal Distribution is Not a Wearout Distribution, Reliability Group Newsletter, IEEE, Inc., 345 East 47th St., New York, N.Y. 10017, p. 9, Vol. XV, Issue 1, January 1970. Glasstone, S., Laidler, K. J., and Eyring, H. E., The Theory of Rate Processes, McGraw Hill, NY, 1941. Hahn, Gerald J., and Shapiro, Samuel S., Statistical Models in Engineering, John Wiley & Sons, Inc., New York, 355 pp., 1967. Hald, A., Statistical Theory with Engineering Applications, John Wiley & Sons, Inc., New York, 783 pp., 1952.

[7]. [8]. [9].

[10]. Hald, A., Statistical Tables and Formulas, John Wiley & Sons, Inc., New York, 97 pp., 1952. [11]. Hirose, Hideo, Maximum Likelihood Estimation in the 3-parameter Weibull Distribution - A Look through the Generalized Extreme-value Distribution, IEEE Transactions on Dielectrics and Electrical Insulation, Vol. 3, No. 1, pp. 43-55, February 1996. [12]. Johnson, Leonard G., The Median Ranks of Sample Values in their Population With an Application to Certain Fatigue Studies, Industrial Mathematics, Vol. 2, 1951. [13]. Johnson, Leonard G., The Statistical Treatment of Fatigue Experiment, Elsevier Publishing Company, New York, 144 pp., 1964. [14]. Kao, J.H.K., A New Life Quality Measure for Electron Tubes, IRE Transaction on Reliability and Quality Control, PGRQC 13, pp. 15-22, July 1958.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Identificacin y descripcin grfica de los datos [15]. Kapur, K.C., and Lamberson, L.R., Reliability in Engineering Design, John Wiley & Sons, Inc., New York, 586 pp., 1977. [16]. Kececioglu, Dimitri, Reliability Engineering Handbook, Prentice Hall, Inc., New Jersey, Vol. 1, 1991. [17]. Kececioglu, Dimitri, Reliability & Life Testing Handbook, Prentice Hall, Inc., New Jersey, Vol. 1 and 2, 1993 and 1994. [18]. Leemis Lawrence M., Reliability - Probabilistic Models and Statistical Methods, Prentice Hall, Inc., Englewood Cliffs, New Jersey, 1995. [19]. Lieblein, J., and Zelen, M., Statistical Investigation of the Fatigue Life of Deep-Groove Ball Bearings, Journal of Research, National Bereau of Standards, Vol. 57, p. 273, 1956. [20]. Lloyd, David K., and Lipow Myron, Reliability: Management, Methods and Mathematics, 1962, Prentice Hall, Englewood Cliffs, New Jersey. [21]. Mann, Nancy R., Schafer, Ray. E., and Singpurwalla, Nozer D., Methods for Statistical Analysis of Reliability and Life Data, John Wiley & Sons, Inc., New York, 1974. [22]. Meeker, William Q., and Escobar, Luis A., Statistical Methods for Reliability Data, John Wiley & Sons, Inc., New York, 1998. [23]. Nelson, Wayne, Applied Life Data Analysis, John Wiley & Sons, Inc., New York, 1982. [24]. Nelson, Wayne, Accelerated Testing: Statistical Models, Test Plans and Data Analyses, John Wiley & Sons, Inc., New York, 1990. [25]. Perry, J. N., Semiconductor Burn-in and Weibull Statistics, Semiconductor Reliability, Vol. 2, Engineering Publishers, Elizabeth, N.J., pp. 8-90, 1962. [26]. Procassini, A. A., and Romano, A., Transistor Reliability Estimates Improve with Weibull Distribution Function, Motorola Military Products Division, Engineering Bulletin, Vol. 9, No. 2, pp. 16-18, 1961. [27]. ReliaSoft Corporation, Life Data Analysis Reference, ReliaSoft Publishing, Tucson, AZ, 1997. [28]. Weibull, Waloddi, A Statistical Representation of Fatigue Failure in Solids, Transactions on the Royal Institute of Technology, No. 27, Stockholm, 1949. [29]. Weibull, Wallodi, A Statistical Distribution Function of Wide Applicability, Journal of Applied Mechanics, Vol. 18, pp. 293-297, 1951. [30]. Wingo, Dallas R., Solution of the Three-Parameter Weibull Equations by Constrained Modified Quasilinearization (Progressively Censored Samples), IEEE Transactions on Reliability, Vol. R-22, No. 2, pp. 96-100, June 1973.

ENLACES___________________________________________________________
[W1] La pgina de Relia Soft contiene multitud de enlaces documentacin y software relacionados con la Fiabilidad de Sistemas. Tambin de Relia Soft, la pgina Weibull.com es, sin duda, una de las principales fuentes de informacin sobre Fiabilidad.

[W2]

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

S-ar putea să vă placă și