Sunteți pe pagina 1din 48

Ministrio do Planejamento, Oramento e Gesto Instituto Brasileiro de Geografia e Estatstica IBGE Escola Nacional de Cincias Estatsticas

Introduo modelagem multinvel em Avaliao Educacional

Maria Eugnia Ferro Iuri da Costa Leite Kaiz Iwakami Beltro

Rio de Janeiro 2001

APRESENTAO

A Escola Nacional de Cincias Estatsticas - ENCE, do Instituto Brasileiro de Geografia e Estatstica - IBGE organizou a oficina "Introduo modelagem multinvel em avaliao educacional" , cuja primeira edio realizada com a parceria do Instituto Municipal Pereira Passos IPP, de 17 a 20 de dezembro , no IBGE (sala da ENCE - complexo B), localizado na rua General Canabarro, 706 Maracan, Rio de Janeiro.

A oficina "Introduo Modelagem Multinvel em Avaliao Educacional" insere-se no projeto "Avaliao Educacional - uma abordagem quantitativa" e visa fomentar a implantao e disseminao de uma cultura de avaliao no Brasil. Este documento um guia para esta oficina. destinado a educadores, pesquisadores e tcnicos de nvel intermedirio e superior que atuem em diferentes nveis do sistema de ensino e que tenham familiaridade com ambiente windows.

Com o curso pretende-se, fundamentalmente, contribuir para fomentar e/ou consolidar uma avaliao educacional, alargando a discusso a todos os interessados, particularmente aos colegas que tm algum tipo de participao no Sistema Educativo.

ii

SUMRIO

INTRODUO.............................................................................................................................................1 TPICOS ELEMENTARES DE ESTATSTICA E PROBABILIDADE.................................................2


2.1 Introduo ............................................................................................................................................2 2.2 Distribuio de Probabilidades .............................................................................................................3 2.3 Modelos e qualidade de ajuste ............................................................................................................99

MODELO MULTINVEL PARA A PROFICINCIA.............................................................................13


3.1 Introduo ........................................................................................................................................ 133 3.2 Diferena entre regresso clssica e multinvel atravs de exemplo ................................................... 144 3.3 Especificao formal do modelo multinvel....................................................................................... 177 3.4 Coeficiente de correlao intra-escola e o efeito-escola...................................................................... 200

TUTORIAL ...............................................................................................................................................211
4.1 Introduo ..........................................................................................................................................21 4.2 Abrir a planilha e examinar os dados ............................................................................................... 222 4.3 Visualizao e Edio da base de dados ............................................................................................ 233 4.4 Traar grficos ................................................................................................................................. 277 4.5 Especificao do modelo de componentes de varincia .......................................................................29 4.6 Procedimento de Estimao .............................................................................................................. 311 4.7 Modelo de coeficientes aleatrios ...................................................................................................... 355 4.8 Anlise de Resduos .......................................................................................................................... 377 4.9 Predies a partir do modelo ajustado .............................................................................................. 411 4.10 Teste de Hipteses e Intervalos de Confiana .................................................................................. 444

iii

INTRODUO
No decorrer do curso sero abordados conceitos e definies tais como os de valor agregado, eficcia da escola e efeito-escola. A componente laboratorial do curso ser desenvolvida usando os dados do Sistema Nacional de Avaliao do Educao Bsica (Brasil) e, sempre que possvel, os dados prprios dos participantes. O texto composto por 4 sees. A primeira composta por esta introduo. A segunda apresenta os tpicos selecionados de estatstica e probabilidade que so necessrios ao desenvolvimento da modelagem multinvel, nomeadamente tipos de dados, distribuies de probabilidade e seus parmetros, medida de qualidade do ajuste, teste de hipteses e intervalo de confiana, alm da regresso linear clssica. A seo 3 constitui uma introduo aos modelos de regresso multinvel que desenvolvida a partir da generalizao da regresso linear clssica. So abordados os modelos de componentes de varincia e de componentes aleatrias. apresentado o coeficiente de correlao intra-escola como estimativa do efeito-escola. Segue-se, por fim, o tutorial do pacote estatstico usado para os modelos de regresso multinvel.

TPICOS ELEMENTARES DE ESTATSTICA E PROBABILIDADE

2.1 Introduo A estatstica pode ser dividida em dois grandes ramos: descritiva (ou exploratria) e confirmatria (ou inferncia estatstica). Na estatstica descritiva o conjunto de dados explorado de forma a ser classificado e a fornecer resumos de suas caractersticas e inter-relaes. Uma vez escolhida uma descrio paramtrica (possivelmente uma distribuio ou um modelo descritivo) cabe estatstica confirmatria estimar e testar os parmetros calculados nos modelos e distribuies. Os dados estatsticos, por sua vez, podem ser classificados de acordo com a sua natureza:

Dados quantitativos Discretos Contnuos (com e sem zero absoluto)

Dados qualitativos Nominais Ordinais

Por exemplo, os dados de nvel socioeconmico considerados neste curso so (apesar de estarem associados a nmeros entre 1 e 7) dados qualitativos ordinais. So ordinais porque podemos orden-los de 2

uma forma nica. O nvel socio-econmico mais baixo o 1 e o mais alto o 7. No podemos, porm, dizer que o nvel 6 duas vezes melhor que o nvel 3, nem que a diferena entre os nveis 1 e 2 igual a diferena entre os nveis 4 e 5. Os dados de dependncia administrativa (estadual, municipal e privado), por sua vez, so dados qualitativos nominais no existe uma forma nica de orden-los. Alguns dados quantitativos so intrinsecamente discretos, usualmente resultado de contagens: nmero de alunos numa sala de aula, nmero de dias letivos, etc. Alguns outros so intrinsecamente contnuos tais como peso e altura de indivduos, distncias entre pontos e tempo decorrido entre eventos, mas so discretizados por motivos operacionais, j que so mensurados com alguma escala especfica (gramas no caso de peso, centmetros no caso de altura e minutos para tempo decorrido) ainda que estas escalas tenham sempre subdivises que poderiam tambm ser utilizadas (miligramas, milmetros, segundos, etc.). Alguns dados so medidos em escalas onde o zero um ponto arbitrrio. Por exemplo o ano calendrio da civilizao ocidental tem um zero arbitrado no nascimento de Cristo. Este zero diferente do calendrio judeu (onde zero a criao do mundo), do japons (onde o zero o nascimento do imperador), ou do chins. No entanto, todos os anos (solares) tem a mesma durao e o tempo de corrido entre 1900 e 1901 igual ao tempo decorrido entre 1800 e 1801.

2.2 Distribuio de Probabilidades Para descrever populaes, os estatsticos criaram famlias de distribuies, usualmente caracterizadas por parmetros. A distribuio mais simples a Bernoulli. Numa distribuio de Bernoulli existem somente duas possveis respostas do experimento (digamos 0 e 1, ou, sucesso e fracasso) e para cada resposta est associada uma probabilidade. Por exemplo ao lanarmos um dado existe uma certa probabilidade de obtermos a face com 5 pontos. Esta probabilidade de 1/6 num dado no viciado. A probabilidade de a face conter qualquer outro nmero de 5/6. No caso desta distribuio, o parmetro definidor da mesma a probabilidade p de acontecer o evento. Se repetirmos o lanamento do dado um certo nmero n de vezes, a distribuio do nmero de vezes em que o dado apresenta a face 5 uma distribuio binomial com parmetros n e 1/6, B(n, 1/6). Considerando-se n conhecido, o parmetro desconhecido desta distribuio novamente a probabilidade p=1/6. A Figura 1.1 apresenta estas probabilidades para n=10. Vemos nesta figura que a probabilidade de, ao se jogar o dado 10 vezes, no tirarmos nenhuma vez o nmero 5 (k=0) 16,15%; de tirarmos exatamente uma vez (k=1) de 32,30%. Se continuarmos jogando 3

o dado, digamos 100 vezes, o grfico da probabilidade de se tirar k vezes o nmero 5 est descrito na figura 1.2. Note que o grfico ficou mais simtrico ao se aumentar o nmero de jogadas. Figura 1.1

PROBABILIDADE DE SE TIRAR EXATAMENTE K VEZES O NMERO CINCO JOGANDO O DADO 10 VEZES 0,35

0,30

0,25 PROBABILIDADE

0,20

0,15

0,10

0,05

0,00 0 1 2 3 4 5 K 6 7 8 9 10

Figura 1.2

PROBABILIDADE DE SE TIRAR EXATAMENTE K VEZES O NMERO CINCO JOGANDO O DADO 100 VEZES 0,12

0,10

0,08 PROBABILIDADE

0,06

0,04

0,02

0,00 0 5 10 15 20 25 30 35 40 45 50 K 55 60 65 70 75 80 85 90 95 100

Se aumentarmos ainda mais o nmero de jogadas, digamos para 300, a distribuio fica ainda mais simtrica e aproxima-se de uma outra curva, a curva Normal. O Teorema dos Grandes Nmeros 1 , garante que, quando o nmero de repeties de um evento grande a sua distribuio assemelha-se de uma curva Normal. A Figura 1.3 apresenta a distribuio das 300 jogadas do dado com a curva Normal sobreposta em vermelho. Note que as duas distribuies so muito semelhantes.

Para maiores detalhes sugere-se Breiman, L. (1969). Probability and Stochastic Processes: with a view toward applications. Boston, Hougthon Mifflin Company.

Figura 1.3

PROBABILIDADE DE TIRAR EXATAMENTE K CINCOS JOGANDO O DADO 300 VEZES COM NORMAL SOBREPOSTA 0,07

0,06

0,05 PROBABILIDADE

0,04

0,03

0,02

0,01

0,00
90 99 10 8 11 7 12 6 13 5 14 4 15 3 16 2 17 1 18 0 18 9 19 8 20 7 21 6 22 5 23 4 24 3 25 2 26 1 27 0 27 9 28 8 29 7 0 9 18 27 36 45 54 63 72 81

Neste caso, a Normal sobreposta tem a mesma mdia e desvio padro da Binomial original. comum trabalharmos com uma Normal padronizada, com mdia zero e desvio padro 1, como representado na figura 1.4.

Figura 1.4

DISTRIBUIO NORMAL PADRONIZADA


0,45

0,40

0,35

0,30

0,25

0,20

0,15

0,10

0,05

0,00 -5,0 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0 5,0

A rea embaixo da curva sempre igual a 1. Para uma dada abcissa (por exemplo x=2) possvel calcular a rea direita daquele ponto (no caso, 0,0275). Isto quer dizer que a probabilidade de termos um valor superior a 2 numa Normal padro 0,0275. mais comum termos o problema inverso, ou seja, dada uma probabilidade querermos saber qual a abcissa correspondente. O valor de x, para o qual a rea direita 0,025 1,96, ou seja a probabilidade de valores de uma distribuio normal padronizada serem maiores do que 1,96 0,025. Considerando-se que a curva Normal simtrica em torno de 0, decorre da que a probabilidade de obtermos um valor cujo mdulo maior do que 1,96, 0,05 (2x0,025). Os dados da proficincia so distribudos aproximadamente como uma Normal, como pode ser visto na figura 1.5 que apresenta a distribuio dos dados de proficincia e de uma curva Normal ajustada sobreposta. Nesta figura pode verificar-se que h aproximadamente 200 alunos com classificao entre 230 e 240 pontos. A diferena por falta (curva normal maior) mais notvel na cauda inferior e na metade central direita, sendo o excesso compensado na cauda superior e na metade central esquerda. Ao assumirmos que os dados de proficincia seguem uma distribuio Normal, os parmetros a serem 7

estimados so a mdia e o desvio padro. Neste caso a mdia e o desvio padro estimados para o conjunto de alunos so, respectivamente, 196,63 e 47,00. Estas estimativas de parmetros tem associados imprecises e medidas de erro. O desvio padro da estimativa da mdia 0,826631.

Figura 1.5

FREQUNCIA DA PROFICINCIA DOS ALUNOS DA QUARTA SRIE - SUDESTE BRASIL


300

250

200

150

100

50

0 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300 310 320 330 340 350 360 370 380 390

Algum poderia levantar a hiptese de que a distribuio das proficincias deveria ter um dado valor para a quarta srie, digamos 200. Considerando que os dados utilizados provem de uma amostra possvel testar se a populao original tem realmente a mdia igual a 200. A chamada estatstica de teste o escore z, definido como: 200 mdia desvio 200 196,63 0,826631

= 4,072

Numa distribuio Normal a probabilidade de termos valores iguais ou maiores do que 4,072 0,002%, ou seja, muito pouco provvel. Em estatstica diramos que devemos rejeitar a hiptese de que a mdia da 8

populao igual a 200. Stricto Sensu, a distribuio da estatstica calculada acima de uma varivel t de Student (razo de uma varivel normal e da raiz se soma de quadrados de normais), porm, dado o nmero de variveis envolvido na soma de quadrados, a aproximao Normal perfeita. Para cada teste existe um intervalo de confiana equivalente. O usual definir algum nvel de confiana (por exemplo 95%) e calcular qual o valor da varivel que teria probabilidade de 95% de cair dentro do intervalo (ou de 5% de cair fora). Neste nosso exemplo o intervalo de confiana de 95% igual a mdia +- 1,96*devio padro, ou seja, (195,01;198,25). Podemos dizer que em 95% dos casos a mdia da populao envolvida estaria contida neste intervalo, seria maior do que 195,01 e menor do que 198,25.

2.3 Modelos e qualidade de ajuste Poderamos ento tentar explicar a proficincia por intermdio de variveis explicativas (por exemplo o nvel socio-econmico). Neste modelo diramos que o valor da proficincia de um dado aluno igual a uma constante ( 0 ) mais um fator que depende do seu nvel socio-econmico. Este modelo pode ser escrito, para o i-simo aluno, como: proficinc ia i = 0 + 1 * a _ nse i + ei . Onde os dois primeiros termos do lado direito da equao correspondem ao modelo (parte explicada) e o ltimo termo corresponde ao erro ou resduo. A determinao do melhor modelo, ou modelo que melhor se ajusta aos dados tem a ver com os valores dos resduos res i = proficinc iai 0 + 1 * a _ nsei . O usual definir a qualidade do ajuste a partir de alguma estatstica, por exemplo a soma de quadrados dos resduos e escolher o modelo correspondente a menor soma de quadrados (este o chamado estimador de mnimos quadrados usado pela maior parte dos e 1 como os que pacotes estatsticos). Neste caso escolhemos os parmetros do melhor modelo 0 minimizam

(res ) = ( proficinc ia
2 i i i

0 + 1 * a _ nsei )2 .

Da mesma forma que associado ao estimador da mdia obtinha-se um desvio padro, a estes estimadores correspondem, tambm, desvios-padro. Para os nossos dados os parmetros estimados e os respectivos desvios-padro so:

Parmetro 0 1

Estimativa 137,7482

Desvio-padro 1,88267

17,5286

0,51895

A Figura 1.6 apresenta um grfico com os dados originais de proficincia plotados contra o nvel socioeconmico, bem como a reta ajustada do modelo. Figura 1.6

PROFICINCIA DOS ALUNOS VERSUS NVEL SOCIO-ECONMICO - ALUNOS DA QUARTA SRIE - SUDESTE BRASIL
400

350

300

PROFICINCIA

250

200

observado ajustado

150

100

50

0 0 1 2 3 4 5 6 7 8 NVEL SCIO-ECONMICO

Poderamos, tambm, testar algo como existe efeito de nvel socioeconmico?. Neste caso a estatstica 1 e a comparao seria com o valor zero (nvel socioeconmico no de teste envolveria o parmetro tem efeito) e seria calculado como

10

0 mdia desvio

17,5286 0,51895

= 33,7773 e a probabilidade de um tal valor acontecer aleatoriamente para todos

os efeitos nulo e no podemos rejeitar a hiptese de que nvel socio-econmico tem efeito.

O passo seguinte verificar se a hiptese da distribuio Normal dos resduos satisfeita. A Figura 1.7 apresenta a distribuio dos resduos e uma curva Normal ajustada superposta. Figura 1.7

DISTRIBUIO DOS RESDUOS DO AJUSTE DO MODELO PROFICINCIA = 0+ 1*A_NSE


350

300

250

200

150

100

50

0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 -170 -160 -150 -140 -130 -120 -110 -100 170 -90 -80 -70 -60 -50 -40 -30 -20 -10

Podemos notar que nesta figura a curva ajustada muito mais perto da distribuio do que no caso da proficincia. Uma outra forma de fazermos esta verificao com um grfico q-q. Para este grfico ordenamos todos os resduos e plotamos contra o que seria o valor esperado caso estes fossem Normais. A Figura 1.8 apresenta o dito grfico. Caso os resduos sejam realmente Normais, estes devem estar dispostos em uma linha reta. No nosso exemplo vemos que so poucos os pontos que se afastam desta tendncia, e mesmo assim so pontos extremos (ou muito grandes, ou muito pequenos). Neste caso colocamos nas abcissas os 11

valores esperados da Normal com a mdia e desvio padro ajustados, mas o resultado seria o esmo se utilizssemos uma Normal padro (com mdia zero e desvio-padro igual a unidade).

Figura 1.8

Q-Q PLOT DOS RESDUOS DO AJUSTE DO MODELO PROFICINCIA = 0+ 1*A_NSE


150

100

50

0 -200 -150 -100 -50 0 50 100 150 200

-50

-100

-150

12

MODELO MULTINVEL PARA A P R O F I C I N C I A2


3.1 INTRODUO

Avaliao educacional usualmente a rea de aplicao clssica dos modelos multinvel ou hierrquicos. A estrutura hierrquica facilmente identificada, pois os alunos so agrupados em turmas e as turmas agrupadas em escolas e, por conseguinte, os dados carregam a mesma estrutura da populao onde so coletados.

At ao final da dcada de 80, a grande maioria da modelagem realizada no levava em conta a estrutura organizativa dos dados e, portanto, dos sistemas em estudo. Em parte, isto devia-se falta de mtodos e softwares que viabilizassem a generalizao da abordagem multinvel ou hierrquica. Assim sendo, o analista tinha que escolher a unidade sobre a qual o seu estudo iria incidir. Num estudo de aferio educacional, por exemplo, no qual o desempenho do sistema aferido pelo desempenho dos alunos, recolhem-se dados sobre os alunos e sobre as escolas, tais como desempenho dos alunos em uma ou mais disciplinas, idade, sexo, cor de pele ou grupo tnico, localizao da escola (urbana ou rural), tipo de rede da escola (pblica ou particular), dimenso da escola, etc. Muitas anlises consideram como unidade de anlise a escola e, para tal, tomam o desempenho da escola como a mdia do desempenho dos seus alunos, fazem o mesmo em relao idade e tomam a proporo de alunos por sexo e por etnia ou cor de pele. Os dados referentes unidade de observao micro, o aluno, so resumidos atravs de mdias, propores ou outras estatsticas, para a unidade de observao macro, a escola. Com esta abordagem perde-se muita informao relativa variabilidade intra-escola. Por outro lado, poderia ser escolhido o aluno como unidade principal de observao. Neste caso, o estudo do impacto de variveis relativas a escola implicaria em replicar o dado de escola tantas vezes quantos so os alunos. Isto conduz a estimativas de erro padro das estimativas dos parmetros incorretas com implicaes nas inferncias e concluses decorrentes. A literatura mostra-nos alguns exemplos do tipo de erros que podem ocorrer. Por exemplo, Bennett3 pretende verificar qual o mtodo de ensino que trazia melhores resultados escolares o mtodo
2

Extrado na ntegra de Ferro, M. E., Beltro, K. I. e Fernandes, C. (2001). Aprendendo sobre Escola Eficaz Evidncias do SAEB99, INEP/MEC (no prelo).
3

Bennet, N. (1976). Teaching styles and pupil progress. Open Books, London.

13

tradicional (formal) de ensino ou o mtodo progressivo. Na sua abordagem ele conclui que o primeiro era melhor. Posteriormente, a analise foi refeita considerando a hierarquia dos dados e conclui-se que no havia evidncia de que algum dos mtodos fosse prefervel4 .

Como levar em conta a estrutura de agrupamento dos dados? Considere-se um modelo de regresso clssico sem variveis explicativas (modelo nulo), para modelar os dados do desempenho dos alunos de 3 escolas. Bastar ajustar um intercepto separadamente para cada escola e, tanto a unidade aluno como escola, sero consideradas. Se o foco de interesse do estudo estiver centrado nas 3 escolas e nos alunos que as freqentam, esta poder constituir uma soluo vivel, mas esgota-se medida que o numero de escolas aumenta. Alm disso, na maioria dos estudos, estamos interessados em colher evidncias a partir do comportamento global do sistema e no duma determinada escola.

O modelo multinvel ou hierrquico respeita a estrutura de agrupamento da populao em estudo duma forma parcimoniosa. Alm das vantagens acima enunciadas, o modelo multinvel tambm permite estabelecer listas comparativas de desempenho institucional que vm ganhando relevo em reas como a educao e sade; a abordagem multinvel fornece a 'ordenao' intrnseca das instituies condicionada s variveis de controle fundamentais em cada rea de estudo.

3.2 DIFERENA ENTRE REGRESSO CLSSICA E MULTINVEL ATRAVS DE EXEMPLO Para melhor ilustrar as diferenas entre a regresso clssica e a multinvel, considere um conjunto de dados hipotticos sobre os resultados escolares dos alunos de 14 escolas e a respectiva renda familiar. Pretende-se saber se existe relao entre a renda familiar e a proficincia do aluno.

3.2.1. MODELO DE REGRESSO CLSSICA A figura 1, representa o que seria a reta de regresso clssica para este exemplo, a qual ignora a alocao heterognea dos alunos s escolas.

Aitkin, M., Anderson, D. e Hinde J., (1981). Statistical modelling of data on teaching styles (with discussion), Journal of the Royal Statistical Society A 144 (4): 419-461. Aitkin, M., Bennet, N. e Hesketh, J. (1981). Teaching styles and pupil progress: a reanalysis, British Journal of Educational Psychology 51 (2): 170-186.

14

Figura 1 Reta ajustada do modelo de regresso clssico

No eixo dos Xs esta representada a renda5 e no eixo dos Ys a proficincia. Os pontos representam, os valores observados de renda e proficincia para cada aluno. A reta mostra que, em mdia, alunos com renda familiar mais alta tambm tm melhores resultados escolares.

3.2.2. MODELO MULTINVEL DE COMPONENTES DE VARINCIA A figura 2 representa as retas ajustadas sob um modelo multinvel, onde cada uma delas est associada a uma escola. Esta figura considera o intercepto aleatrio (um para cada escola) e a inclinao fixa, ou seja, o efeito da renda familiar do aluno na sua proficincia no varia entre as escolas.

Figura 2 Retas ajustadas do modelo multinvel com intercepto aleatrio

Varivel centrada na mdia. Nesta situao o intercepto interpretado como o valor mdio da proficincia de um aluno cuja renda igual a mdia da renda dos alunos de todas as escolas.

15

A anlise do grfico mostra que a mdia da proficincia varia de escola para escola, o que da origem a vrias retas. No entanto, perante este modelo, o impacto da renda familiar na proficincia do aluno igual em todas as escolas, ou seja, a inclinao da reta independe da escola.

3.2.3. MODELO MULTINVEL DE COEFICIENTES ALEATRIOS

A figura 3, representa uma generalizao do modelo multinvel acima apresentado, onde tanto o intercepto como o coeficiente de inclinao so aleatrios, isto , ambos variam entre as escolas.

Figura 3 - Retas ajustadas do modelo multinvel com intercepto e coeficiente de inclinao aleatrios

Pode verificar-se por meio da anlise do grfico que, efetivamente, alunos com renda familiar mais elevada atingem melhores resultados escolares, mas que o efeito da renda na proficincia depende da escola que o aluno freqenta. As retas tm inclinao diferentes (o coeficiente associado com a renda familiar aleatrio). Podemos observar que h escolas em que a inclinao da reta muito tnue escolas que promovem a equidade social, onde o impacto da renda no desempenho escolar do aluno pequeno. Por outro lado, outras escolas tm reta com grande inclinao so escolas onde o nvel econmico do agregado familiar influencia fortemente os resultados escolares.

Em resumo, a escola que procuramos aquela que tem elevado intercepto (proficincia mdia alta) e coeficiente de inclinao to prximo de zero quanto possvel (renda no influencia os resultados escolares). 16

3.3 ESPECIFICAO FORMAL DO MODELO MULTINVEL

Em seguida, mostrar-se- como que o modelo multinvel acomoda a estrutura hierrquica presente nos dados. Considere-se um modelo com dois nveis: alunos e escolas, e suponha que se pretende explicar o desempenho escolar dos alunos (proficincia) atravs de duas variveis explicativas: uma medida no nvel do aluno (por exemplo, renda familiar) e a outra no nvel da escola (por exemplo, rede administrativa da escola - pblica ou privada). Os alunos so identificados pelo ndice i e as escolas pelo ndice k. O ndice k varia de 1 a K (sendo K o nmero total de escolas em estudo) e o ndice i varia de 1 a nk (sendo nk o nmero de alunos que pertence escola k). A varivel resposta do modelo a proficincia do aluno i pertencente escola k, proficinciaik, e a varivel explicativa associada a este aluno, a respectiva renda familiar, renda_familiarik. O modelo de regresso clssico apresentado na equao (1) especifica a relao entre estas duas variveis e o modelo que est subjacente ao grfico apresentado na figura 1. proficinc ia ik = 0 + 1 renda _ familiarik + eik

(1)

onde 0 e 1 , so o intercepto e o coeficiente de inclinao, respectivamente. Estes parmetros so desconhecidos e devem ser estimados a partir dos dados. O intercepto 0 pode ser interpretado como o valor esperado da proficincia para os alunos que tm valor nulo de renda 6 . O coeficiente de inclinao, 1 , representa o impacto da renda familiar no desempenho escolar do aluno. Assim, por cada unidade adicional na renda familiar, cteris paribus, a mdia do desempenho do aluno observar uma variao de 1 unidades. O termo eik o distrbio aleatrio ou erro do modelo, associado aos efeitos individuais do aluno no captados pela componente determinstica do modelo, e o pressuposto usual que tenha uma distribuio normal com mdia nula e varincia, e2 , constante entre os grupos, e que sejam no correlacionados entre si, isto , eik ~ NID ( 0, e2 ) .

No modelo de dois nveis (alunos e escolas) tanto o intercepto como o coeficiente de inclinao podem ser considerados variveis aleatrias que variam de escola para escola. Na equao (2) apresenta-se o modelo em que apenas o intercepto varia aleatoriamente entre as escolas. Este o modelo subjacente ao grfico apresentado na figura 2.

Varivel centrada na mdia, descrita na nota anterior

17

proficinc ia ik = 0 k + 1 renda _ familiarik + eik 0 k = 00 + u 0 k eik ~ NID ( 0, e2 ) u 0 k ~ NID ( 0,u20 )

( 2)

A primeira caracterstica a ser observada que neste modelo o parmetro do intercepto, 0k , tem o ndice k , indicando a existncia de um parmetro para cada escola, conforme enunciado previamente. Ou seja, o valor mdio da proficincia est dividido na contribuio da escola (0k ) e no desvio ( eik ) de cada estudante contribuio da escola. Na segunda linha de (2) pode observar-se que a contribuio de cada escola foi decomposta na mdia global da proficincia (envolvendo todas as escolas), 00 , e no afastamento de cada escola, u0k, a essa mdia global. Este o efeito individual da escola k (componente aleatria do nvel 2 associada ao intercepto). 2 e 2 so estimados a partir dos dados, sendo os Os parmetros desconhecidos do modelo: 1, 00 , u e 0 primeiros dois parmetros designados por parmetros fixos e os dois ltimos por parmetros aleatrios. A componente aleatria associada ao intercepto tem varincia u20 , representando a variabilidade do intercepto entre escolas. O erro de nvel 1, eik, tem varincia e2 e representa a variabilidade intra-escola.

O modelo especificado em (3) (correspondente ao grfico 3) alm do intercepto aleatrio tambm tem o coeficiente de inclinao aleatrio. proficinc ia ik = 0 k + 1 k renda _ familiarik + e ik 0 k = 00 + u0 k 1 k = 10 + u1 k eik ~ NID ( 0, e2 ) u 0 k ~ NID ( 0, u20 )
2 u1k ~ NID (0, u 1)

(3)

Similarmente incluso do parmetro do intercepto, a incluso do parmetro de inclinao especfico para cada escola indica que a rela o entre a proficincia e o nvel scio-econmico varia de escola para escola. At ao momento, considerou-se apenas uma varivel explicativa, renda do agregado familiar do aluno, medida no nvel 1. Na seqncia, apresentar-se- o modelo (2) acrescentando uma varivel explicativa 18

medida ao nvel da escola. Esta varivel a rede administrativa, rede_escolark, uma varivel binria que designa se a escola pblica ou particular. A sua incluso no nvel 2 do modelo d-se substituindo a equao (2.a) na segunda linha do modelo (2), 0 k = 00 + 01rede _ escolark + u0 k (2.a)

proficinc ia ik = ( 00 + 01 rede _ escolark + u 0 k ) + 1 renda _ familiarik + eik = ( 00 + 1 renda _ familiarik + 01 rede _ escolar ) + ( eik + u 0 k )

(4)

Finalmente, substituindo a equao (2.a) na primeira linha da equao (2), podemos identificar duas componentes distintas no modelo. A componente determinstica ou sistemtica do modelo dada pela expresso ( 00 + 1 renda _ familiarik + 01 rede _ escolar ) , enquanto que a componente aleatria ou estocstica dada por ( eik + u 0 k ) . No demais reforar a idia de que a parte aleatria ou estocstica do modelo representa numerosos efeitos aleatrios que impactam a proficincia do aluno, atuando tanto ao nvel do aluno como ao nvel da escola, e que no so captados pela parte determinstica do modelo. A componente aleatria ( eik + u 0k ) do modelo est decomposta no erro de nvel 1, eik, e no erro de nvel 2, u0k . As estimativas destes erros so os resduos (o que no modelo fica por explicar). Assim, a varincia residual do modelo dada por ( e2 + u20 ). Com a decomposio da varincia residual do modelo tornase fcil avaliar o impacto de cada varivel (seja ela medida ao nvel do aluno ou da escola) na explicao da proficincia. Alm disso, no modelo nulo (modelo sem variveis explicativas), a proporo da estimativa da varincia entre escolas, u20 , face varincia total (varincia entre-escolas e varincia intra-escolas), que sinaliza a presena do "efeito-escola" no desempenho escolar do aluno. A pesquisa em avaliao educacional dever estar orientada investigao das caractersticas das escolas (caractersticas intra-escolares) passveis de interveno que contribuem positivamente para esse efeito. Maior refinamento deste assunto desenvolvido na seo 3.4.

Finalmente apresenta-se o modelo (3) incluindo a varivel explicativa rede_escolar na equao do coeficiente de inclinao. A equao resultante a seguinte (5): proficinc ia ik = ( 00 + 01 rede _ escolark + u 0 k ) + ( 10 + 11 rede _ escolar k + u 1k ) renda _ familiarik + eik = 00 + 10 renda _ familiarik + 01 rede _ escolar + 11 rede _ escolar k renda _ familiarik + + u1k renda _ familiar + e ik + u 0 k (5)

19

3.4 COEFICIENTE DE CORRELAO INTRA-ESCOLA E O EFEITO-ESCOLA

Uma das questes de mais interesse estudar o tamanho de u20 . Se, relativamente varincia total, pequeno ento podemos concluir que a escola tem pouco efeito, ou, dito de outro modo, saber qual a escola onde o aluno estuda no ajuda a explicar os resultados escolares atingidos pois eles poderiam t-los atingido em qualquer outra escola. O coeficiente de correlao intra-escola uma estatstica que permite aferir sobre a magnitude do efeitoescola. Assumindo que u0k e eik variam independentemente, o coeficiente de correlao intra-escola define-se em (5):
2 u = 2 0 2 e + u 0

(5)

No modelo nulo (modelo sem variveis explicativas)7 , o coeficiente de correlao representa o tamanho relativo da varincia entre escolas 8 . O coeficiente varia de 0 a 1. Quando o seu valor nulo significa que os alunos esto homogeneamente distribudos entre as escolas e que o desempenho do aluno independe da escola que ele freqenta. Nesta situao hipottica, u0 2 seria estatisticamente igual a zero, significando que toda a varincia da proficincia seria devido variabilidade entre alunos e, por conseguinte, a quota de responsabilidade da escola nos resultados atingidos pelos alunos, ou o efeito-escola, seria inexistente.

Na situao extrema a esta, quando o coeficiente de correlao intra-escola toma o valor 1, toda a variabilidade no desempenho dos alunos deve-se diferena entre as escolas e, nesta situao hipottica, as caractersticas individuais do aluno em nada afetariam o seu desempenho escolar ficando este a deverse inteiramente s caractersticas da escola que ele freqenta.

7 8

Adiante mostrar-se- que julgar o efeito-escola com base num modelo to simples como o modelo nulo pode ser prematuro. Tambm a correlao da proficincia entre dois alunos da mesma escola.

20

TUTORIAL
4.1 INTRODUO Este tutorial constitui-se numa introduo prtica modelagem multinvel com base no software MLwiN. Destacam-se os procedimentos bsicos utilizados para a especificao de um modelo multinvel, estimao de parmetros, uso de inferncias e anlise grficas.

Para ilustrao, usamos um conjunto de dados educacionais cuja planilha fornecida e se descreve adiante. No incio da anlise, o usurio ter que criar a planilha pela introduo direta dos dados ou, alternativamente, ler os dados de um outro arquivo criado. As facilidades para conseguir isto so mencionadas no fim deste documento.

O banco de dados a ser utilizado foi criado a partir das informaes do Sistema Nacional de Avaliao da Educao Bsica (SAEB) do Brasil e faz parte do projeto de investigao do efeito-escola, nas cinco macro regies do Brasil, desenvolvido por Ferro, Beltro e Fernandes (2001)9 . Este banco, com 3223 observaes, refere-se aos alunos da 4a srie do ensino fundamental, residentes na regio Sudeste, submetidos ao exame de matemtica.

Sendo o efeito-escola estatisticamente significativo, o estudo procura identificar alguns dos fatores que tornam umas escolas mais eficazes do que outras na promoo da aprendizagem e desenvolvimento dos alunos, tendo em considerao as diversas caractersticas dos alunos da 4a. srie do Ensino Fundamental.

21

4.2 ABRIR A PLANILHA E EXAMINAR OS DADOS Ao iniciar o MLwiN aparece a janela principal e imediatamente abaixo do ttulo do programa, aparece a barra de menu e a barra de ferramentas, tal como se segue:

Barra de menus Barra de ferramentas

Na barra de ferramentas encontram-se os comandos referentes aos procedimentos de estimao dos modelos. Estes procedimentos sero descritos em detalhes mais adiante, na seo 4.5. A regio central da janela denominada rea de trabalho, e na borda inferior tm-se a barra de Status, que nos permite monitorar o progresso do programa. Usaremos a opo File na barra de menus para abrir a planilha. D um clique em File para obter a seguinte lista de operaes:

22

Clique em Open worksheet para visualizar todas as planilhas armazenadas e assim escolher aquela em que pretende trabalhar. Escolha tutorial.ws com um clique duplo sobre o nome do arquivo ou, depois de selecionar o arquivo, clique em Open.

4.3 VISUALIZAO E EDIO DA BASE DE DADOS


J com o arquivo aberto poder visualizar o seu contedo. Para tal escolha o menu Data Manipulation. As opes oferecidas esto associadas a operaes realizadas sobre a base de dados. Selecione a opo Names e visualizar algumas caractersticas da base de dados.

23

Na primeira coluna encontra-se o nome das variveis, seguida pelo nmero de registos (casos) na base de dados. A coluna seguinte mostra o nmero de casos com valores omissos e, finalmente, os valores mnimo e mximo para cada varivel. Para dar um novo nome varivel, posicione o cursor no nome que deseja alterar e escreva o novo nome. Depois de pressionar enter verificar se o nome da varivel foi alterado. Se alguma das variveis categrica, por exemplo E_rede, voc poder definir o nome das respectivas categorias. Para isso, selecione a varivel com um clique duplo e aperte depois em categories.

Nesta janela, defina 1 como sendo o nvel da varivel associada rede pblica e 2 rede particular. Depois de escrever publica e particular, clique Apply e Quit. Como exerccio, repita para a varivel referente dependncia administrativa, E_dep-admi. Salve as alteraes efetuadas sobre a base de dados at ao momento. Selecione: File Save Worksheet as... E d um novo nome ao arquivo, por exemplo, avalia-mat.

As variveis designadas por cod_esc e cod_alu contm os cdigos identificadores de escola e de alunos, respectivamente. A varivel proficincia a classificao obtida no exame de matemtica, por cada aluno da 4 srie, na regio Sudeste. A varivel intercepto uma coluna de 1s 10 e as outras
10

Usada como varivel explicativa.

24

variveis so relativas aos alunos e as escolas (A_nse, o nvel scio econmico; a_defasagem, o nmero de anos que o aluno se encontra defasado face idade adequada para a srie; d_experincia, a experincia do diretor mensurada em termos de nmero de anos na direo da escola; E_ambiente um indicador da qualidade do ambiente e clima da escola; E_rede indica se a escola pertence a rede pblica ou particular e E_dep_admini indica qual a dependncia administrativa da escola (estadual, municipal ou particular). Para ver o valor das variveis e poder edit-las, clique em: Data Manipulation View or Edit data A janela mostra as trs primeiras variveis da base de dados. Clique em view para selecionar outras colunas que deseje visualizar e, eventualmente, edit-las. A opo de Command Interface abre uma linha para que comandos possam ser executados por meio de sua digitao. O sistema de ajuda lista exaustivamente os comandos possveis e a respectiva sintaxe. Usar-se- um exemplo de aplicao do Command Interface: iremos centrar a varivel referente ao status socioeconmico do aluno e tambm criar a respectiva varivel contextual para a escola. Para centrar a varivel na mdia execute o comando AVERage c5 para conhecer o valor mdio da varivel.

Verifica-se a existncia de 325 registos com valores omissos e 2.908 casos vlidos. A mdia 3,3893 e para centrar a varivel na mdia teremos que lhe subtrair esse valor. Execute os comandos: calc c11=c5-3.3893 name c11 A_nse-c 25

Para criar a varivel contextual de escola a partir do nvel scio econmico dos alunos precisamos calcular a mdia do nvel scio-econmica dos alunos de cada escola. Para isto, digite: MLAVER c1 c11 c12 Name c12 E_nse-c O comando MLAVER calcula a mdia da varivel armazenada em C11 para cada escola cujo cdigo definido em C1 e o resultado depositado na varivel c12 que, com o comando NAME, designaremos por A_nse-c.

As demais opes do comando Data Manipulation referem-se s operaes sobre a base de dados, tais como ordenao, criao de um vetor, recodificao de variveis, etc.

A seguir abordaremos brevemente as facilidades grficas do MlwiN .

26

4.4 TRAAR GRFICOS Usando o menu Graphs, selecione a opo Customised graphs e a seguinte janela aparecer: Existe um nmero considervel de opes disponveis para traar grficos, mas por enquanto, vamos apenas demonstrar como traar um grfico de pontos (scatter plot) e de linhas. Neste grfico, a classificao do exame (PROFICINCIA) ser inserida no eixo dos Y, e o nvel socioeconmico do aluno (A_NSE-C) no eixo dos X. Para tal, vamos colocar os nomes destas variveis nas clulas associadas a Y e X, respectivamente, no retngulo de settings for data set(ds) . Depois de pressionar e Apply, o grfico produzido mostrando a relao existente entre as variveis envolvidas.

27

Com o cursor posicionado em cima de qualquer ponto do grfico, d um clique e quadro referente s opes do grfico aparecer:

Com a opo de Identity point , voc poder visualizar as coordenadas desse ponto (isto , o valor exato das variveis proficincia e a_nse-c), bem como a identificao do ponto mais prximo. Na opo Titles poder definir os ttulos e os nomes dos eixos para o grfico. Em Scale poder ajustar a escala do grfico. Vrios comandos j foram executados e, seria prudente salvar a planilha pois se algum problema ocorrer com o MLWin, todo trabalho j realizado ser perdido. Para isso, no menu File escolha a opo Save worksheet As. Digite o nome do arquivo. Mais uma vez se aconselha a usar um nome diferente do anterior. Pressione em Save .

28

4.5 ESPECIFICAO DO MODELO DE COMPONENTES DE VARINCIA Selecione no menu Model a opo Equations e, no canto superior esquerdo, poder observar algo como:

A primeira linha especifica a distribuio assumida, no caso a distribuio Normal, com os respectivos parmetros. O vector resposta tem mdia definida, em notao matricial, pela componente fixa X , e a componente aleatria descrita pela matriz de varincia e covarincia .

A barra de ferramentas da janela permite ao usurio definir fontes diferentes para a notao ferramenta Fonts ; Name substitui as variveis resposta e explicativas pelo respectivo nome aps terem sido especificadas; + e permite que o modelo seja ou no completamente mostrado na tela; Add Term inclui novas variveis no modelo; Estimates mostra as estimavas do modelo; Nonlinear uma opo para dados cuja varivel resposta no apresenta distribuio Normal assunto que no abordado nesta fase do curso. O usurio ainda tem disposio mais um boto para aceder ao sistema de ajuda, help, e, finalmente, a opo de Clear permite reinicializar qualquer modelo especificado.

4.5.1. Definio da varivel resposta e estrutura hierrquica Pressione em y. Note que inicialmente y surge em vermelho, indicando que a varivel resposta ainda no foi definida. Associe y a varivel proficincia e especifique o modelo como tendo 2 nveis. Duas novas 29

clulas surgiro para que as variveis associadas aos nveis sejam especificadas. Sendo assim, digite cod_esc na clula referente ao segundo nvel (ndice j) e cod_alu na clula referente ao primeiro (ndice i).

Se se considerasse o nvel de agrupamento de turma, como seria definida a estrutura hierrquica do modelo? Comente sobre as vantagens.

Agora pressione em done para que todas as operaes tenham efeito.

4.5.2. Definio das variveis explicativas Agora pressione em x 0 (que est vermelho) e selecione intercepto como a primeira varivel explicativa. Como o contedo de intercepto uma constante igual a 1, estamos assim a definir o intercepto na componente fixa do modelo. At agora especificamos a componente fixa do modelo. Para definir a componente aleatria, pressione em 0 e dever assinalar quais os nveis para os quais pretende o coeficiente aleatrio. No caso, dever assinalar tanto o nvel 1 (i) como o nvel 2 (j). Por fim, pressione done. 30

Para visualizar o modelo especificado, clique na tecla + na barra de ferramentas situada na parte inferior da janela. Pressionado-se a tecla Subs visualizar no ndice das variveis os cdigos associados com os nveis de agrupamento.

Este modelo multinvel especificado apenas com o intercepto, sem outras variveis explicativas, designado por modelo nulo. Segue-se a sua especificao:

4.6 PROCEDIMENTO DE ESTIMAO Se pressionar o boto Estimates aparecero em azul os parmetros a serem estimados. Para ajustar o modelo especificado, basta pressionar o boto Start no menu de ferramentas. Caso pretenda interromper o processo de estimao pressione a opo Stop. Neste exemplo, o procedimento de estimao termina depois de 4 iteraes e os parmetros ficam verdes sinalizando que a convergncia foi atingida. Pressionando uma vez mais em Estimates podemos ver o valor das estimativas, para os parmetros fixos e aleatrios, seus respectivos erros-padro, assim como o valor de -2 log(verosimilhana) que permite calcular a estatstica designada por deviance 11 , usada adiante.

As estimativas resultantes esto assinaladas em verde e so as seguintes:

11

A deviance uma estatstica que permite seleccionar o melhor dentre dois modelos. considerada uma estatstica de qualidade do ajuste, e segue a distribuio de qui-quadrado com tantos graus de liberdade quanto a diferena de parmetros nos dois modelos avaliados.

31

O modelo ajustado contm apenas o intercepto e os parmetros aleatrios que medem a variao entre escolas e indivduos respectivamente. De acordo com o modelo, a proficincia mdia em matemtica aproximadamente 197,38. A estimativa da varincia entre escolas 967.48 e a da varincia entre alunos 1258,59. Com estas duas componentes pode-se calcular o coeficiente de correlao intra-classe, (intraescola) que mede o quanto da variao total explicada pela unidade de segundo nvel, ou seja, a escola. O coeficiente de correlao intra-classe dado por:

2 u 967, 48 = = 0,4346 ou 43,46% 2 2 u + e 967,48 + 1258,59

De acordo com o resultado do coeficiente de correlao intra-classe, 43,46% da variao total devido variao entre escolas. O procedimento usado para a estimao dos parmetros (mnimos quadrados iterativos (IGLS/RIGLS)) equivalente ao procedimento de mxima verosimilhana quando o pressuposto de Normalidade est subjacente. Sendo assim, podemos utilizar o valor da estimativa de 2*loglikelihood (33089.89) para implementar o teste da Razo de Verossimilhana e, assim, avaliar se os parmetros aleatrios so estatisticamente significativos. Para isto, preciso se calcular o valor de 32

2*loglikelihood no modelo sem o parmetro aleatrio, ou seja, o modelo com apenas o intercepto fixo. H duas formas de se implementar este modelo. No primeiro, especifica-se a constante como aleatria apenas no primeiro nvel. A segunda forma implementada a partir da criao de um vetor de zeros que associado com o segundo nvel. Nos dados analisados, a estimativa de 2*loglikelihood para o modelo fixo foi igual a 34069,160. A estatstica teste a diferena entre os valores de 2*loglikelihood (34069,160-33089.890=979,270) que deve ser comparada com o valor de obtido de uma distribuio quiquadrado com nmero de graus de liberdade igual diferena no nmero de parmetros nos dois modelos (no exemplo considerado, qui-quadrado com 1 grau de liberdade que igual a 3,84). Conforme pode ser visto, o parmetro aleatrio estatisticamente significativo. Outra forma de se avaliar o efeito do parmetro aleatrio utilizando-se uma estatstica teste disponvel no MLwiN que ser apresentada posteriormente. Esta estatstica tambm utilizada para testar a significncia estatstica dos parmetros fixos.

Guiados pela definio do efeito-escola e de coeficiente de correlao intra-escola dados na seo 3.4, podemos ser levados a pensar que as percentagens resultantes do exerccio constituem a quota de responsabilidade da escola no desempenho acadmico dos seus alunos. Isto no de todo verdade, j que a alocao dos alunos s escolas no aleatria e que o nvel socioeconmico das famlias contribui em muito na escolha da escola que o aluno vai freqentar. Assim, o efeito-escola dever ser expurgado dessa componente extra-escolar. Para isso deve-se acrescentar ao modelo as variveis do nvel socioeconmico - do aluno e a varivel contextual da escola. Na barra inferior de opes, pressione em add term e depois em x1 para lhe associar s variveis explicativas a_nse-c e e_nse-c, respectivamente. Pressione More para reestimar os parmetros. Os resultados obtidos so apresentados abaixo:

33

Note que apenas o ndice j aparece associado com a varivel e_nse-c, indicando que a mesma pertence ao segundo nvel. Pode-se ver que houve uma reduo substancial no coeficiente de correlao intra-classe que passou de 43,5% para 17,8% .

Ao longo do processo de modelagem dos dados, decidiu-se retirar a varivel contextual, nvel socioeconmico mdio, pois esta extremamente correlacionada com a varivel ambiente, que foi criada a partir de vrias caractersticas da escola. O modelo abaixo contm assim quatro variveis: nvel socioeconmico do aluno centrado na mdia geral, defasagem do aluno, a experincia do diretor e, a que descreve o ambiente da escola.

De acordo com o modelo, a cada unidade de variao na varivel status socio-econmico centrada resulta em um aumento de aproximadamente 9 na proficincia em matemtica. Por outro lado, cada ano de defasagem do aluno reduz a proficincia em 5. Um aluno cujo diretor tem 3 anos de experincia teria, em mdia, sua proficincia elevada em 9. A varivel ambiente tem um efeito forte sobre a proficincia do aluno. Conforme ressaltado anteriormente esta varivel est restrita ao intervalo [0, 1]. Numa escola, com um ambiente de alta qualidade (valor igual a 1) a proficincia de seus alunos acrescida de 32,5.

Tabelas de Resultados

Para visualizar as estimativas em forma de tabela, basta selecionar o comando Estimate tables que se encontra dentro do menu Model e obtemos uma tabela com os resultados do ajuste, tal como se segue: 34

Conforme pode ser visto, apenas as estimativas dos parmetros fixos do modelo so apresentadas. O contedo desta tabela pode, entretanto, ser modificado. Assim, os botes + e esquerda permitem a apresentao simultnea de diversas tabelas, e as opes S,E,S,P,C,N, sinalizam, respectivamente, que o nome do parmetro deve aparecer, a estimativa corrente, o erro padro, a estimativa prvia, a correlao, e o numero de iteraes necessrias para a convergncia ser atingida.

At agora vimos como especificar e estimar um modelo multinvel relativamente simples. Daqui para a frente veremos como lidar com modelos mais complexos, concretamente aqueles que envolvem coeficientes aleatrios, estudaremos como proceder a anlise de resduos e usar o modelo para fins de predio.

4.7 MODELO DE COEFICIENTES ALEATRIOS

O modelo de componentes de varincia ajustado assume que a relao entre a varivel defasagem do aluno (a_defasagem) e a proficincia do mesmo independe da escola na qual o aluno estuda. Na anlise multinvel comum encontrarmos variveis explicativas com efeitos diferenciados por escola, isto , cada escola tem seu prprio coeficiente de inclinao. Neste caso, denominamos o coeficiente como sendo aleatrio ao nvel da escola. Para especificar um modelo como este, precisamos definir que o coeficiente associado com a varivel a_defasagem aleatrio. Para isto, clique em a_defasagem e assinale no retngulo j(cod_esc). Pode-se ver que o coeficiente 2 aparece apenas com o ndice j ( 2j) indicando que este coeficiente varia entre as unidades de nvel 2, isto , escolas. Assim, o coeficiente formado por uma componente fixa ou valor mdio entre as escolas ( 2), e pela componente aleatria, que tem mdia
2 u zero e varincia u 2 . O termo u 02 a covarincia de 2 j com o termo aleatrio associado ao intercepto,

35

u0 j

. O modelo descrito est especificado abaixo. Note que os parmetros aparecem em azul indicando

que os mesmos precisam ser reestimados.

Ao pressionar em MORE e deixar que o procedimento de estimao atinja a convergncia, ns obtemos as seguintes estimativas.

Os parmetros do modelo anterior no se alteraram significativamente. As varincias do primeiro e segundo nvel sofreram uma pequena reduo. O teste da razo de verossimilhana pode ser utilizado para testar se os parmetros aleatrios includos no modelo so estatisticamente significativos. 36

A estatstica do teste da razo de verossimilhana (a diferena entre os valores estimados para 2*loglikelihood) igual a 4,65 que menor do que o valor tabelado de distribuio qui-quadrado com 2 graus de liberdade, ao nvel de significncia de 5%. Isto significa que os dois parmetros aleatrios includos no modelo no so estatisticamente significativos, isto , que o efeito da varivel a_defasagem no diferenciado por escola. Ressalta-se aqui que os valores das estimativas de 2*loglikelihood so armazenados seqencialmente na coluna 91 (c91).

Como os novos parmetros so estatisticamente significativos ao nvel de 10%, decidimos no exclu-los do modelo. Sendo assim, podemos calcular o coeficiente de correlao entre o intercepto e coeficiente relativo a varivel a_defasagem. Esta estatstica dada por:

r(0 j , 2 j ) =

32,853 389,373 11,531

= 0,49.

Este coeficiente indica que a correlao entre o intercepto e o coeficiente associado com a varivel a_defasagem negativo.

4.8 ANLISE DE RESDUOS Na seo anterior introduzimos o termo resduos para representar os efeitos aleatrios no modelo. Estudaremos em seguida como obter as estimativas destas quantidades aleatrias desconhecidas. Podemos pensar nestas quantidades como os valores preditos, dado o valor observado para a varivel resposta e o seu valor estimado a partir do modelo. O MlwiN permite-nos fazer isto para qualquer nvel do modelo, fornecendo igualmente os erros padro das estimativas. Para fazer precisamos usar Model e Residuals . anlise de resduos

37

A tela aparece ativa em Settings e a funo dela especificar o nvel para o qual os resduos vo ser calculados e determinar a funo para o fazer. Note que o nvel 1 est definido na clula do canto inferior esquerdo da tela, mas o utente poder alterar para qualquer nvel. Vamos primeiro calcular os resduos padronizados para o nvel 1. esquerda da janela poder observar que algumas opes j aparecem definidas. O numero das colunas mencionado em set columns indica a posio da base de dados onde o MlwiN ir colocar os resduos e respectivas funes calculadas. No caso em estudo, as colunas c300 at c308 sero ocupadas. Pressionando calc os resduos sero calculados. Pressionando em Plots e poder verificar que possvel traar diversos tipos de grficos. A escolha de qual ser traado depende se pretende a anlise grfica para fins de diagnstico ou comparao. Poder fazer um de cada vez. De seguida faremos o grfico dos resduos padronizados contra os respectivos valores da distribuio Normal. Para tal, selecione standardised residual x normal scores e clique em apply. Obter um grfico semelhante ao que se apresenta de seguida, indicando que o pressuposto de Normalidade se verifica.

38

Poder experimentar as outras opes que esto disposio, incluindo as mencionadas por pairwise que permitem traar o grfico do intercepto e resduos LRT ou os resduos padronizados para o nvel 2. Selecione Settings na janela referente aos resduos, e selecione o nvel 2, cod_esc , no canto inferior esquerdo da tela e na clula em frente de start output at coloque 310, para que o MlwiN coloque os resduos e funes da para a frente. Clique em set columns. Coloque 1.96 no multiplicador de SD(comparative). Clique em Calc. J que existem dois conjuntos de resduos um para intercepto e outro para o coeficiente de inclinao, poderemos traar o grfico de um contra o outro. Selecione Plots, residuals na parte pairwise e clique em Apply.

Isto reflete a correlao entre o coeficiente de inclinao e o intercepto. No entanto, chama-se a ateno de que estes resduos estimados so os designados por resduos shrunken 12 e por isso eles apresentam menor varincia do que os resduos verdadeiros, por isto, a correlao calculada para os resduos estimados, tem valor mais elevado.

Vamos agora ilustrar como usar os resduos comparativos do nvel 2 para comparar as diferenas entre as escolas. Na janela Residuals selecione residual +/- 1.96 sd x rank .

12

Ver em Goldestein, H. (1995). Multilevel Statistical Models. London, Edward Arnold; New York, Halstead Press .

39

Pressione Apply e obter grficos semelhantes aos que se seguem:

Cada ponto estimado est cercado pelo respectivo intervalo de confiana. Assim, poderemos afirmar que duas escolas tm resduos significativamente diferentes (ao nvel de 5%) se e s se as suas barras de erro

40

no forem sobrepostas. A comparao de instituies, nem sempre fcil pois as estimativas tm normalmente elevados valores para os erros padro que lhes esto associados 13 .

4.9 PREDIES A PARTIR DO MODELO AJUSTADO Considere agora o seguinte modelo

Se pressionar Model e depois Predictions, obter a seguinte janela: Temos cinco colunas de variveis, sendo uma para cada varivel explicativa com os respectivos coeficientes fixos e as componentes aleatrias consideradas no modelo. Bastar pressionar cada uma das delas para ser incorporada na equao de predio.

Suponha que desejamos fazer predies a partir da componente fixa do modelo juntando-lhe os resduos associados quer ao intercepto, quer ao coeficiente de inclinao. Pressione em 0 , 1 , 2 , 3 , u 0 j e escolha a coluna C13, onde sero depositados os resultados, na clula de output from prediction to. A coluna C13 dever ser designada como PRED1 (usando Names). Para que o MLwiN proceda ao calculo da predio pressione em CALC .

13

Para maiores detalhes ver em Goldestein, H. e Spiegelhater, D. J. (1996). League tables and their limitations: satistiscal issues in comparisons of institutional performance (with discussion), Journal of the Royal Statistical Society A 159: 385-444.

41

Faamos agora o grfico das retas preditoras para cada escola contra o A_nse-c. Pressione em Graphs . Em position, estipule que dois grficos devem ser traados simultaneamente, assinalando a posio em que devero ser mostrados. Ainda para o conjunto de grfico D1, selecione o novo conjunto de dados tornando ativa a linha 2 de ds# (data set #2) para isso deve pressionar sobre a segunda linha. Ver que os settings direita ficaro vazios e poder assim definir um novo grfico. Associe PRED1 ao eixo de Y e STANDLRT ao eixo X. Defina o tipo de grfico em Plot what? como grfico de linhas, selecionando line na clula plot type ; na clula group selecione cod_esc para que seja traada uma reta preditora para cada escola. Depois de todas estas alteraes o seu monitor dever estar semelhante ao que seguidamente se apresenta.

Para que os grficos sejam traados de acordo com estas especificaes, pressione apply. Aparecer um grfico como este:

42

As escalas foram definidas usando as opes de user defined scale, e os ttulos dos grficos atribudos em titles.

43

4.10 TESTE DE HIPTESES E INTERVALOS DE CONFIANA

Usar Model e Main Effects para acrescentar dependncia administrativa ao modelo.

Abra a janela Model e Intervals and tests e selecione Fixed na barra de ferramentas no fundo da janela. Vamos testar a hiptese nula H0 : 4 =0 5 o coeficiente associado a varivel estadual . Coloque 1 na clula frente a estadual e 0 em todas as restantes. A clula designada por constant(k) deve ter o valor que esta do lado direito de 5 =0, no caso 0. Pressione agora calc . MLwiN calculou a diferena, f-k, entre o valor estimado e o valor da hiptese, calculou o respectivo valor de teste qui-quadrado, e os metade da amplitude dos intervalos de confiana de 95%. De notar que estes intervalos incluem o zero, deixando a suspeita de que o coeficiente pode ser estatisticamente no significante. O intervalo de confiana de 95% conjunto e o teste do qui-quadrado conjunto tem os mesmos valores dos separados, tal como era de esperar. 44

Vamos agora fazer o teste de hipteses conjunto: H0 : 5 =6 =0 Na clula # of functions coloque 2; na segunda coluna, na linha respectiva a particular coloque 1. Pressione calc. O resultado ser este: Poderemos verificar o que,

separadamente,

primeiro

coeficiente no significante ao nvel de 5%, mas que o segundo coeficiente . A

estatstica de teste de quiquadrado (usualmente conjunto conhecido por

teste de Wald) significante ao nvel de 5%.

45

S-ar putea să vă placă și