Sunteți pe pagina 1din 15

Profesor Magistral: Manuel Ricardo Contento Rubio

manuel.contento@utadeo.edu.co
Profesor Complementaria: Eduardo Estrada
eduardo.estrada@utadeo.edu.co
Introduccin
Que son Modelos Fenomenolgicos?
Aquellos construidos basados nicamente en datos
experimentales, sin usar informacin a priori sobre el sistema.
Punto de partida: conjunto de datos (base de datos)
Meta: Mostrar algunos mtodos para analizar el conjunto
de datos.
Estadstica Elemental: Anlisis descriptivo, probabilidad,
anlisis inferencial (IC-PH). Curso ESTADISTICA
Teora estadstica (Modelos lineales): Modelos de regresin,
diseo experimentos (ANOVA).
Software: R
Regresin lineal
Anlisis de una variable dependiente en trminos de una o varias
variables independientes .
y=f(x) regresin lineal simple
y=f(x1,x2,,xk) regresin lineal mltiple

La relacin entre la variable dependiente e independiente esta expresada


mediante varios tipos de ecuacin de regresin.

Los parmetros en las ecuaciones de regresin determinan la manera en la


cual los datos se ajustan a estas ecuaciones.

El trmino regresin se debe a Francis Galton quien investig los datos de


altura humanos, encontrando que, independientemente de la altura de sus
padres, la altura de los hijos tiende a regresar hacia la altura media tpica.
Tipos generales de relacin
El Problema de Regresin lineal
Dado un conjunto de datos (x1,y1), (x2,y2), , (xn,yn) con xi,yi , el
modelo mas simple es describir los datos usando una funcin de
regresin de la forma, (notacin hat)

a b : coeficientes de regresin (parmetros del modelo)


x: variable explicativa (predictora , independiente)
y: variable respuesta (dependiente)

El modelo es lineal en los parmetros, es decir la funcin depende


linealmente de los coeficientes de regresin.
Problema: Cual modelo (recta) elegir?
Estimacin de parmetros
El modelo ajusta los datos si es pequea
Esto se logra definiendo la suma de cuadrados de residuales como:

RSQ mide mide la distancia entre los datos observados y el modelo.

Los parmetros a y b deben ser tales que

Solucin mediante el procedimiento clsico de minimizacin de una


funcin de varias variables (obtener las derivadas parciales de la
funcin con respecto a los parmetros e igualar a cero)
Estimacin de parmetros
Los parmetros estimados son:

Se pueden usar otras medidas alternativas a RSQ para medir la


distancia de los datos al modelo.
La suma de las diferencias absolutas es una de las posibilidades

RSQ se utiliza pues conduce a estimaciones de mxima verosimilitud


de la los parmetros del modelo, si se cumplen ciertas suposiciones
sobre la distribucin de probabilidad de los trminos de error
Un ejemplo
Los datos que se presentan corresponden a la tasa de mortalidad para
menores de 5 aos (casos/10000) y al porcentaje de inmunizados contra
DPT (Difteria, Bordetella Pertussis -tos ferina- y Ttanos) en 20 pases.
Pas Porcentaje de inmunizacin Tasa Mortalidad
Bolivia 40 165
Brasil 54 85
Canad 85 9
China 95 43
Egipto 81 94
Etiopia 26 226
Finlandia 90 7
Francia 95 9
Grecia 83 12
India 83 145
Italia 85 11
Japn 83 6
Mxico 65 51
Polonia 98 18
Senegal 47 189
Turqua 74 90
Reino Unido 75 10
Estados Unidos 97 12
Rusia 79 33
Yugoslavia 91 27
Cdigo R
Para determinar los coeficientes de regresin y la grafica del modelo.
inmunizacion_x <- c(40,54,85,95,81,26,90,95,83,83,85,83,65,98,47,74,75,97,79,91)
mortalidad_y <- c(165,85,9,43,94,226,7,9,12,145,11,6,51,18,189,90,10,12,33,27)
plot(inmunizacion_x, mortalidad_y, main="Diagrama de Dispersin", xlim=c(0, 100),
ylim=c(0, 300))
regresion <- lm(mortalidad_y ~ inmunizacion_x)
summary(regresion)
abline(regresion)
Solucin

Residuals:
Min 1Q Median 3Q Max
-55.782 -29.124 -0.025 21.396 101.877
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 278.2139 35.5082 7.835 3.29e-07 ***
inmunizacion -2.8324 0.4508 -6.283 6.34e-06 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 39.44 on 18 degrees of freedom
Multiple R-squared: 0.6868, Adjusted R-squared: 0.6694
F-statistic: 39.48 on 1 and 18 DF, p-value: 6.343e-06
Interpretacin de resultados
Residuales
Se presentan las estadsticas descriptivas(mnimo, primer cuartil, segundo
cuartil, mediana, tercer cuartil y mximo) de las diferencias entre los datos
y el modelo.
Los coeficientes de regresin. (ecuacin de regresin)

Intercepto: Si un pas no inmuniza contra DPT se espera una tasa de


mortalidad de 278.2139 por cada 10000 nios menores de 5 aos.
Pendiente: Por cada punto porcentual de mas en la inmunizacin se
espera disminuir la tasa de mortalidad en 2.8324 casos.
Coeficiente de determinacin (r2): El 68.68% de la variabilidad en la
tasa de mortalidad se explica por la relacin lineal con el porcentaje de
inmunizacin.
Regresin lineal polinomial
Anlisis de una variable dependiente en trminos de una o varias
variables independientes .
y=f(x) regresin lineal simple
y=f(x, x2, x3, xk) regresin lineal polinomial

Funcin de regresin polinomial

La funcin es lineal, puesto que dado x, la estimacin de y es obtenida


como combinacin lineal de los coeficientes de regresin (a0, a1,, ak)
Ejemplo. Regresin lineal polinomial
Se realiz una prueba de frenado de un automvil, midiendo la distancia de
parada de acuerdo a la rapidez del vehculo al momento de aplicar los
frenos, obtenindose los siguientes resultados:

Rapidez (km/h) 35 50 65 80 95 110


Distancia Frenado (m) 17.4 24.6 43.4 60.9 90.8 118.1

Cdigo en R
Rapidez <- c(35,50,65,80,95,110)
Distancia <- c(17.4,24.6,43.4,60.9,90.8,118.1)
plot(Rapidez,Distancia,main="Modelo de Regresin Cuadrtico")
lmPolXY <- lm(Distancia ~ I(Rapidez) + I(Rapidez^2))
summary(lmPolXY)

x <- Rapidez
curve(lmPolXY$coefficient[1] + lmPolXY$coefficient[2]*x +
lmPolXY$coefficient[3]*x^2, add=T, col="red")
Ejemplo. Regresin lineal polinomial
Modelo estimado

El 99.77% de la variabilidad en la distancia de frenado se explica por la relacin lineal


con rapidez y la rapidez2

Call:
lm(formula = Distancia ~ I(Rapidez) + I(Rapidez^2))

Residuals:
1 2 3 4 5 6
0.975 -2.035 1.380 -1.680 2.485 -1.125

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 12.726667 8.546929 1.489 0.23323
I(Rapidez) -0.296833 0.255854 -1.160 0.32992
I(Rapidez^2) 0.011500 0.001745 6.591 0.00711 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 2.399 on 3 degrees of freedom


Multiple R-squared: 0.9977, Adjusted R-squared: 0.9962
F-statistic: 664.6 on 2 and 3 DF, p-value: 0.0001069

S-ar putea să vă placă și