Documente Academic
Documente Profesional
Documente Cultură
3
A Curva Normal
Luiz Pasquali
A curva normal, tambm conhecida como a curva em forma de sino, tem uma
histria bastante longa e est ligada histria da descoberta das probabilidades em matemtica, no sculo XVII, que surgiram para resolver inicialmente questes de apostas de jogos de azar (veja Bernstein, 1997). O responsvel mais direto da curva normal foi Abraham de Moivre, matemtico francs exilado na Inglaterra, que a definiu em 1730, dando seqncia aos trabalhos de Jacob Bernoulli (teorema ou lei dos grandes nmeros) e de seu sobrinho Nicolaus Bernoulli, matemticos suos. Publicou seus trabalhos em 1733 na obra The doctrine of chances. A descoberta teve logo grande sucesso e grandes nomes esto ligados curva normal, tais como, Laplace que em 1783 a utilizou para descrever a distribuio dos erros, e Gauss que em 1809 a empregou para analisar dados astronmicos. Inclusive, a curva normal chamada de distribuio de Gauss. Hoje em dia, a curva normal um ganho fundamental em cincia, porque (1) a normalidade ocorre naturalmente em muitas, seno todas as medidas de situaes fsicas, biolgicas e sociais e (2) fundamental para a inferncia estatstica. A lei dos grandes nmeros de Bernoulli diz o seguinte: numa situao de eventos casualides, onde as alternativas so independentes, obter coroa em lances de uma moeda de cara e coroa, tem a probabilidade matemtica exata de 50% (porque so somente dois eventos possveis: cara ou coroa), mas na prtica esta probabilidade de 50% apenas aproximada. E essa aproximao tanto mais exata quanto maior forem as tentativas que voc fizer de lanar a moeda,
chegando a quase atingir os exatos 50% se voc lanar a moeda infinitas vezes. Isto , quanto mais lances voc fizer, menor ser o desvio em relao mdia de 50% que o resultado ir produzir. Isso quer dizer que os erros (desvios) sero menores e menores na medida em que sobe o nmero de lances. Desvios grandes so raros e desvios pequenos frequentes; quanto menores os desvios, mais frequentes eles sero, de sorte que, aumentando as tentativas (os lances), aumenta o nmero de desvios pequenos, sobrepujando cada vez mais os desvios grandes, de tal sorte que, no limite, haver quase somente desvios pequenos, sendo o desvio 0 o menor deles e, por consequncia, o mais frequente. Moivre assumiu essa idia de Bernoulli e disse: erros grandes so mais raros que erros pequenos. Assim, quanto menores os erros, mais freqentes eles sero e quanto maiores, menos freqentes. Dessa forma, os erros se distribuem eqitativamente em torno de um ponto modal, a mdia, formando uma curva simtrica com pico na mdia e caindo rapidamente para as caudas esquerda (erros que subestimam a mdia) e direita (erros que superestimam a mdia). Alm disso, essa curva simtrica permitiu a Moivre calcular uma medida de disperso das observaes em torno da mdia, medida esta que hoje em dia conhecida como o desvio padro (DP). Moivre chamou essa curva de normal, porque a mdia dela representa a norma, isto , as coisas todas deviam ser como a mdia; de sorte que tudo que se desvia dessa mdia considerado erro, donde a equivalncia entre desvio e erro. Moivre defendeu essa idia sob o conceito do homem mdio ou mediano, idia que provocou brigas homricas na histria da curva normal. Esta idia do homem mdio insinua, por exemplo, que todos os homens deveriam ter a mesma altura, o mesmo peso, a mesma inteligncia etc., isto , todos eles deveriam ser medianos; os desvios dessa norma podem ser considerados aberraes da natureza! Se voc no introduzir concepes filosficas, esse modo de pensar de Moivre muito til e prtico para entender o que seja e para que serve a curva normal. Quetelet, matemtico belga do sculo XIX, fez uma orgia de medies (Bernstein, 1997: 158) sobre eventos do homem (tais como, natalidade, mortalidade, alcoolismo, insanidade, medidas antropomtricas etc.), resultando no Tratado sobre o homem e o desenvolvimento de suas faculdades (1835), onde afirma que tudo no homem e no mundo se distribui segundo a curva normal (Stigler, 1986). Embora essa afirmao de Quetelet tenha tido reaes contrrias, ela evocou pesquisas sem fim sobre esta histria da distribuio normal dos eventos, chegando hoje em dia a ser mantida a idia de que, praticamente, todos os eventos se distribuem assim. Da, a hegemonia da curva normal nas anlises estatsticas em pesquisas cientficas. Alis, assumir a distribuio normal em pesquisa est baseado em dois fundamentos (Hays, 1963: p. 242): (1) quando a distribuio da prpria populao de eventos normal (como insiste Quetelet para todos os eventos) ou
72
(2) quando a distribuio da populao no for normal, mas o nmero de casos for grande (teorema de Bernoulli ou o teorema do limite central). Essa histria do limite central extremamente complicada, mas os matemticos chegaram a provar o teorema. Assim, qualquer que seja a distribuio dos seus dados, se voc tiver um nmero grande de observaes, voc pode utilizar com tranquilidade a curva normal como uma aproximao adequada para a anlise dos seus dados. Uma curiosidade: um N de 30 j considerado um grande nmero se a distribuio da populao for prxima do normal; um N bem maior ser necessrio se a distribuio da populao no for normal, como, por exemplo, o QI de engenheiros, porque sujeitos com QI mediano e baixo dificilmente sero encontrados entre os engenheiros. H, contudo, um porm em tudo isso: O teorema dos grandes nmeros se aplica quando a amostra da pesquisa for aleatria! Veja essa histria no captulo sobre amostragem (cap. 5).
73
Mais ainda, curvas normais podem ter mdias diferentes (figura 3-2a), desvios-padro diferentes (figura 3-2b) ou ambas as coisas (figura3-2c).
(a)
M = 10 M = 20
(b)
DP = 10 DP = 10 M=0
(c)
DP = 4 DP = 10 M=2 M=7
f (X)
1 2
2
( X M )2 / 2
(3.1)
(X M) 2 2 2
(3.2)
e nele se v que quem comanda as aes so os dados empricos X e os parmetros de sua distribuio (M e DP). Agora, tanto os X quanto os parmetros de uma distribuio variam de pesquisa para pesquisa e, assim, as curvas normais que resultam sero diferentes. Entretanto, voc se lembra do captulo anterior que tendo esses dados, isto , o X, a Mdia e o DP, eu posso transformar qualquer escala em escores-padro z, tornando todas as escalas idnticas e diretamente comparveis. Pois , aqui posso fazer a mesma coisa: em lugar de trabalhar com os escores brutos X, posso transform-los em escores z. Agora, a distribuio da curva normal que resulta com escores padronizados a famosa curva normal padronizada, aquela que todo o mundo entende quando se fala simplesmente da curva normal. Inclusive, a frmula desta curva normal padronzada aparece como mais simples (para os estatsticos), ou seja:
74
f ( z)
1 2
z2 / 2
(3.3)
A vantagem dessa curva normal padronizada consiste em que alguns parmetros j esto automaticamente definidos para qualquer escala de medida que voc utilizar, quais seja, a mdia sempre 0 e a varincia sempre 1. Alm disso, existem tabelas construdas para essa curva que mostram quanto por cento da populao se encontra dentro de cada faixa de z, como veremos a seguir, tabelas estas que voc encontra em qualquer livro de estatstica. A curva normal padronizada definida pela simetria e pela curtose; ela chamada de mesocrtica. Vejamos essa histria da curtose. A curtose da curva normal se refere altura do pico da curva, o qual acontece na mdia da distribuio: se o pico muito elevado, a curva chamada de leptocrtica; se o pico achatado, a curva se chama platicrtica e se for mediano, a curva ser mesocrtica, sendo esta ltima, a caracterstica da curva normal padronizada. Veja a figura 3-3 para visualizar a curtose das curvas normais.
-3
-2
-1
+1
+2
+3
75
0,13
-3
-2
-1
0
68,26% 95,44% 99,74%
+1
+2
+3
76
nos diferentes autores. Entretanto, duas informaes sempre esto presentes e essas so as mais importantes, a saber, o z e a proporo de casos que caem na faixa que vai da mdia (0) at este z. Assim, se voc conhece o z, voc pode descobrir qual a proporo de casos que corresponde a ele ou, se voc conhece a proporo de casos, voc pode descobrir qual o z que lhe corresponde. No tem nada de mgico nessa histria; apenas, precisa um pouco de prtica para realizar a tarefa adequadamente. Vamos dar alguns exemplos; fique olhando para a figura 3-5.
A B
z -3 -2 -1 0 1 2 3 Figura 3-5. Propores de casos sob a curva normal padronizada
Se quiser saber quanto por cento dos casos caem nas faixas A e B, fao o seguinte: Para a faixa A: na coluna z da tabela da curva normal procuro o valor 1 (porque a faixa A vai de 0 a 1); ao lado, na coluna rea, acho a percentagem de casos (a proporo), que no caso diz 0,3413447, isto , entre 0 (a mdia da distribuio) e 1z caem 34,13% dos casos. Para a faixa B: aqui um pouco mais complicado, porque a faixa cai entre -1z e -2z, e no mais entre 0 e algum z. Assim, devo, primeiramente, procurar a proporo que cai entre 0 e -2z (como a curva simtrica, pode desconsiderar o sinal antes do 2z); em seguida, procuro a proporo que cai entre 0 e -1z; por fim, fao a diferena entre as duas propores encontradas e surge a proporo da faixa B. Veja: Entre 0 e 2z: proporo = 0,4772499 Entre 0 e 1z: proporo = 0,3413447 Diferena: 0,4772499 0,3413447 = 0,1359052 Assim, na faixa B caem 13,59% dos casos.
Nota: se voc estiver trabalhando com uma escala no padronizada e quer saber quantos sujeitos esto abaixo ou acima de um escore qualquer da sua escala, basta primeiro transformar esse escore da sua escala em escore
77
padro pela frmula usual, isto , z = (X M)/DP, e procurar o resultado na tabela da curva normal padronizada, como explicado acima.
78