Sunteți pe pagina 1din 7

Iris

Alexis Villalobos Robinson 16 de Enero del 2012

1.

Iris

A continuacin se explicar los pasos realizados para clasicar en dos o a grupos un subconjunto de elementos de la base de datos iris. Esta base de datos es comnmente utilizada para realizar casos de prueba en tcnicas de u e clasicacin en aprendizaje de mquina y es la que se usar para probar la o a a funcionalidad del algoritmo. La base de datos Iris contiene el registro para cuatro atributos: largo tallo, ancho tallo, largo ptalo y ancho ptalo de 150 e e ejemplares observados para tres categorias distintas de una or llamada iris, 50 registros de cada categoria. El algoritmo que se utiliza al realizar la clasicacin de los datos de los o diferentes registros considera en primer lugar cada uno de los atributos como una coordenada en el espacio multidimensional, quedando descrito de esta manera la posicin de un punto, de forma que el conjunto de registros a o clasicar ser considerado a su vez como un conjunto de puntos en el espacio a multidimensional, siendo ms cercanos entre si aquellos puntos que represena tan registros correspondientes a datos pertenecientes a la misma categoria. El algoritmo que se aqu se describe consiste en trazar una recta entre los puntos que representan los registros que divida el espacio en dos regiones de forma tal que todos o la gran mayor de los puntos de una misma variedad a queden en la misma regin. o Al realizar el agrupamiento de esta forma es necesario poner mucho cuidado en trazar la recta adecuada de forma que cumpla el objetivo de separar los puntos de acuerdo a las variedades existentes, por ello en un principio se utilizar slo los dos atributos ancho y largo del ptalo para cada registro, a o e pues al anlizar slo dos atributos es posible gracar en un plano de dos a o dimensiones tal como lo muestra la gura 1. Tal como se puede observar en el grco de la gura 1, los puntos de a color rojo que representan los registros de la variedad setosa, son fcilmente a diferenciables y estn bastante distanciados de los puntos que representan a los registros de las otras dos variedades de forma que es fcil trazar una recta a que pase entre A y B ((1.9, 0.6) y (3.0, 1.1) respectivamente) que dividir el a plano en dos regiones,en una de las cuales estarn los puntos de la variedad a setosa y en la otra regin los registros de las otras variedades de forma tal o que si un registro pertenece a las regin A(ver gura 2) ser considerado o a perteneciente a la variedad setosa, de lo contrario se considera perteneciente a las otras variedades. Se puede entonces trazar una recta que pase por punto medio del trazo 2

0.5

0 0 1 2 3

Figura 1: Representacin de registros en 2 Dimensiones o

5 'setosa.dat' 'versicolor.dat' 'virginica.dat' 'funcion.dat' 'puntos.dat'

0 0 1 2 3 4 5 6 7 8

Figura 2: Bisectriz y regiones generadas

AB y que sea perpendicular a este trazo. al conocer estas dos caracter sticas de la recta se puede fcilmente obtener a la ecuacin que la describe por medio de la ecuacin 1.1 punto pendiente o o y y0 = m (x x0 ) (1.1)

Como ya se conoce L es una recta perpendicular al segmento AB y pasa por el punto medio de este segmento entonces se tiene que: m = 1/m (1.2)

Y dado a que m es pendiente del segmento, al suponer que (xa , ya ) , (xb , yb ) se puede escribir m de la siguiente manera: 1 m = yb ya o lo que es igual m = xb x a yb ya (1.4) (1.3)

xb xa

y debido a que (x0 ) , (y0 ) es el punto medio del segmento se puede representar este punto de la siguiente manera: x0 = Y xa + xb ya + yb , y0 = 2 2 (1.5) (1.6)

ya + yb xb xa x a + xb = ( ) 2 yb ya 2

Que tambin, como lo describe Gallier [1], se puede escribir de la siguiente e forma: Y ya + yb xb xa x a + xb = ( ) 2 yb ya 2 (1.7)

Para varias dimensiones 1.7, se puede representar de forma multidimensional de la siegiente manera: (b2 + ... + bm ) (a2 + ... + am ) 2 2

(b1 a1 )x1 + ... + (bm am )xm =

(1.8)

Se puede observar en la ecuacin 1.8 la funcin que describe la recta o o o bisectriz que divide el plano en las dos zonas o regiones, zona A la que pertenece el punto A y los puntos que representan los registros de variedad setosa y zona B a la que pertenece el punto B y todo puntos que representan los registros que no pertenecen a la variedad setosa tal como se puede ver en la gura . Ahora para encontrar si un registro pertenece a la variedad setosa o no, bastar con evaluar si su representacin en el plano queda contenida en la a o regin A o la regin B o o Si se reemplazan las coordenadas de los puntos A(1.9, 0.6) y B(3.0, 1.1) en la ecuacin 1.9 quedar de la siguiente manera: o a (3,02 + 1,12 ) (1,92 + 0,62 ) 2 2

(3,0 0,5)x + ... + (1,1 0,6)y =

(1.9)

Desarrollando la ecuacin anterior se obtiene: o 1,1x + 0,5y = 3,12 O tambin: e 1,1x + 0,5y 3,12 = 0 (1.11) (1.10)

Ahora esta ecuacin 1.11 describe la bisectriz de forma que al evaluar o para un punto con coordenadas x,y cualquieras si el resultado es 0 este punto pertenece a la recta que describe la bisectriz, de lo contrario si es menor que 0 el punto pertenece a la regin a la que pertenece el punto A, y si el resultado o de evaluar el punto es mayor que 0 el punto pertenecer a la Regin a la que a o pertenece el punto B. Para realizar esta evaluacin se tomo los campos largo de ptalo y ano e cho de ptalo de 15 registros de los 150 ejemplares registrados, 5 de cada e variedad tomados aleatoriamente, cuando el resultado de evaluar el registro correspondiente da menor que 0, por lo dicho anterior mente quiere decir que el punto pertenece a la regin del punto A, es decir para este caso, correo sponde a la categor setosa, de lo contrario paro este caso se considero como a perteneciente a otra categor el resultado de realizar esta evaluacin fue la a, o lista de los registros clasicados tal como se puede apreciar en la tabla 1. Coincidiendo los resultados del agrupamiento con los de las variedades a las que pertenec cada uno de estos registros. a 5

Largo Ptalo Ancho Ptalo Categoria e e 1.4 0.2 Setosa 1.4 0.3 Setosa 1.7 0.3 Setosa 1.6 0.2 Setosa 1.3 0.2 Setosa 3.9 1.2 Otra 4.2 1.3 Otra 3.6 1.3 Otra 4.6 1.5 Otra 4.8 1.4 Otra 6.6 2.1 Otra 5.3 1.9 Otra 5.2 2.0 Otra 5.6 1.4 Otra 5.6 2.1 otra Tabla 1 Una vez agrupados los 15 registros de acuerdo a los dos campos, se repiti el procedimiento en forma anloga para esos mismos 15 registros pero o a ahora con sus cuatro atributos, realizndose ya no una anlisis bidimensional a a sino de 4 dimensiones, para ello se adapta la ecuacin 1.8 para 4 dimensiones o y se reemplaza con A(5.1, 3.5, 1,9, 0.6) y B (5.1, 2.5, 3.0, 1.1)), los mismos A y B que se utilizaron para el caso de dos dimensiones pero esta vez se utilizan las 4 coordenadas de esta forma la ecuacin de la bisectriz para el espacio de o 4 dimensiones queda: (5,1 5,1)x1 + (2,5 3,5)x2 + (3,0 1,9)x3 + (1,1 0,6)x4 =

(1.12)

(5,12 + 2,52 + 32 + 1,12 ) (5,12 + 3,52 + 1,92 + 0,62 ) 2 2

(1.13)

Y de forma ms simplicada: a x2 + 1,1x3 + 0,5x4 0,74 = 0 (1.14)

Tal como se explic para el caso de 2 dimensiones, El resultado de la o evaluacin de 1.11 si es negativo se considera perteneciente a la zona A, o se clsica como setosa de lo contrario se considera como pertenenciente a a otra categor la forma en que quedaron clasicados estos registros puede a, apreciarse en la tabla 2 Largo Tallo Ancho Tallo Largo Ptalo Ancho Ptalo Categoria e e 5.1 3.5 1.4 0.2 Setosa 4.6 3.4 1.4 0.3 Setosa 5.7 3.8 1.7 0.3 Setosa 4.8 3.4 1.6 0.2 Setosa 4.4 3.2 1.3 0.2 Setosa 5.8 2.7 3.9 1.2 Otra 5.6 2.7 4.2 1.3 Otra 5.6 2.9 3.6 1.3 Otra 6.5 2.8 4.6 1.5 Otra 6.8 2.8 4.8 1.4 Otra 7.6 3.0 6.6 2.1 Otra 6.4 2.7 5.3 1.9 Otra 6.5 3.0 5.2 2.0 Otra 6.1 2.6 5.6 1.4 Otra 6.4 2.8 5.6 2.1 Otra Tabla 2

Referencias
[1] Jean Gallier. Geometric Methods and Applications. Springer NY, 2000.

S-ar putea să vă placă și