Sunteți pe pagina 1din 84

METODOLOGIA DA PESQUISA CIENTFICA, PARA TEMAS MILITARES.

ESTATSTICA APLICADA

EsAO

METODOLOGIA DA PESQUISA CIENTFICA, PARA TEMAS MILITARES. Volume 1

ESTATSTICA APLICADA

Clayton Amaral Domingues - Cap Art

por

1 Edio

RIO DE JANEIRO EDITORA EsAO --2004

2004 by Domingues, Clayton Amaral.

Diagramao: Clayton Amaral Domingues Cap Art

Reviso: Jos Fernando Chagas Madeira Maj Com Luiz Eduardo Possdio Santos Cap MB Clayton Amaral Domingues Cap Art

Dados Internacionais de Catalogao na Publicao (CIP) D 671 Domingues, Clayton Amaral. Estatstica aplicada: metodologia da pesquisa cientfica para temas militares/ Clayton Amaral Domingues. - Rio de janeiro: EsAO, 2004. 85 p. ; il. ; 21 cm. Inclui Bibliografia 1. Estatstica metodologia. 2 Pesquisa metodologia. I Ttulo. CDD 310

Escola de Aperfeioamento de Oficiais Avenida Duque de Caxias, 2071. Rio de Janeiro/ RJ - CEP 21615-220

SUMRIO 1 2 2.1 2.1.1 2.1.2 2.2 2.2.1 2.2.2 2.2.3 2.3 2.3.1 CAPTULO 1 - INTRODUO CINCIA ESTATSTICA......................... CAPTULO 2 - ESTATSTICA DESCRITIVA.................................................. INTRODUO ESTATSTICA DESCRITIVA............................................. VARIVEIS QUALITATIVAS............................................................................ VARIVEIS QUANTITATIVAS......................................................................... TCNICAS DE DESCRIO GRFICA.......................................................... DESCRIO GRFICA DAS VARIVEIS QUALITATIVAS...................... DESCRIO GRFICA DAS VARIVEIS QUANTITATIVAS DISCRETAS........................................................................................................... 1 4 4 5 5 6 7 9

DESCRIO GRFICA DAS VARIVEIS QUANTITATIVAS CONTNUAS.......................................................................................................... 13 CARACTERSTICAS DE UMA DISTRIBUIO DE FREQNCIAS...... MEDIDAS DE POSIO..................................................................................... 19 19 19 21 23 24 25 25 25 27 28 28 30 31

2.3.1.1 MDIA.................................................................................................................... 2.3.1.2 MEDIANA.............................................................................................................. 2.3.1.3 MODA..................................................................................................................... 2.3.1.4 QUARTIS E PERCENTIS.................................................................................... 2.3.2 MEDIDAS DE DISPERSO................................................................................ 2.3.2.1 A AMPLITUDE TOTAL...................................................................................... 2.3.2.2 A VARINCIA....................................................................................................... 2.3.2.3 O DESVIO-PADRO............................................................................................ 2.3.2.4 O COEFICIENTE DE VARIAO.................................................................... 2.3.3 2.3.4 2.3.5 3 3.1 3.2 3.2.1 MEDIDAS DE ASSIMETRIA.............................................................................. MEDIDAS DE ACHATAMENTO OU CURTOSE............................................ CONSIDERAES SOBRE MEDIDAS DE ASSIMETRIA E CURTOSE....

CAPTULO 3 - AMOSTRAGEM......................................................................... 32 INTRODUO....................................................................................................... 32 AMOSTRAGEM.................................................................................................... AMOSTRAGEM NO ALEATRIA................................................................. 33 33 33 33 33 33 34 34

3.2.1.1 AMOSTRAGEM INTENCIONAL...................................................................... 3.2.1.2 AMOSTRAGEM VOLUNTRIA....................................................................... 3.2.2 AMOSTRAGEM ALEATRIA........................................................................... 3.2.2.1 AMOSTRAGEM ALEATRIA SIMPLES........................................................ 3.2.2.2 AMOSTRAGEM SISTEMTICA....................................................................... 3.2.2.3 AMOSTRAGEM ESTRATIFICADA..................................................................

3.2.2.4 AMOSTRAGEM POR CONGLOMERADOS.................................................... 35 4 4.1 4.1.1 4.1.2 4.2 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 4.3.3 4.3.4 5 5.1 5.2 5.3 5.4 6 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 CAPTULO 4 - PROBABILIDADE..................................................................... ESPAO AMOSTRAL ......................................................................................... EVENTOS............................................................................................................... EVENTOS COMPLEMENTARES...................................................................... EVENTOS INDEPENDENTES............................................................................ EVENTOS MUTUAMENTE EXCLUSIVOS..................................................... 38 38 39 40 41 41 EXPERIMENTO ALEATRIO........................................................................... 38

PROBABILIDADE................................................................................................. 39

EMPREGO DA PROBABILIDADE PARA COMPROVAO DE HIPTESES............................................................................................................ 43 ALFA (ERRO TIPO I) .......................................................................................... 44 BETA (ERRO TIPO II) ........................................................................................ SIGNIFICADO....................................................................................................... PODER.................................................................................................................... CAPTULO 5 DISTRIBUIO BINOMIAL E NORMAL........................... VARIVEL ALEATRIA................................................................................... DISTRIBUIO DE PROBABILIDADE........................................................... DISTRIBUIO BINOMIAL.............................................................................. DISTRIBUIO NORMAL - CURVA NORMAL............................................ CAPTULO 6 CORRELAO E REGRESSO............................................ INTRODUO...................................................................................................... COEFICIENTE DE CORRELAO DE PEARSON....................................... CORRELAO E CAUSA................................................................................... TRANSFORMAO Z DO r ...................................................................... REGRESSO LINEAR......................................................................................... CORRELAO PARCIAL.................................................................................. REGRESSO MLTIPLA................................................................................... ANEXO I - ESTATSTICA DESCRITIVA......................................................... ANEXO II - COMPARAES ENTRE AMOSTRAS...................................... ANEXO IV - TABELA DE NMEROS ALEATRIOS................................... 45 46 46 49 49 49 51 55 57 57 57 60 61 63 65 66 69 70 72

INTERPRETAO DE r ................................................................................. 60

LINHA DE MELHOR AJUSTAMENTO E ERRO DE PREDIO............... 64

ANEXO III - RELAO ENTRE VARIVEIS................................................. 71 ANEXO V - REA SUBTENDIDA PELA CURVA NORMAL REDUZIDA DE 0 A Z.................................................................................................................. 73 ANEXO VI - VALORES CRTICOS DOS COEFICIENTES DE CORRELAO 74 ANEXO VII TABELA PARA TRANSFORMAO DE r PARA Z................. 75

Captulo 1
A Cincia Estatstica
1. INTRODUO CINCIA ESTATSTICA Podemos considerar a Estatstica como a cincia que se preocupa com a organizao, descrio, anlise e interpretao dos dados experimentais, visando tomada de decises. A razo pela qual consideramos a Estatstica uma ferramenta importante para a tomada de decises est no fato de que ela no deve ser considerada como um fim em si prpria, mas como um instrumento (ferramenta) fornecedor de informaes que subsidiaro a tomada de melhores decises, baseadas em fatos e dados. A Estatstica , portanto, uma cincia meio que tem utilidade em outros variados campos do conhecimento. Evidentemente, tanto a parte de organizao e descrio dos dados como aquela que diz respeito a sua anlise e interpretao so importantes. razovel tambm que, para realizar-se a anlise e interpretao dos dados observados, procede-se primeiramente a sua organizao e descrio. Neste contexto, podemos considerar a Cincia Estatstica como dividida basicamente em duas partes: a Estatstica Descritiva que se preocupa com a organizao e descrio dos dados experimentais, e a Estatstica Indutiva*(so tambm utilizados as termos Estatstica Inferencial ou Inferncia Estatstica, ou, ainda, Induo Estatstica), que cuida da anlise e interpretao dos dados. A Estatstica Descritiva na sua funo de organizao e descrio dos dados tem as seguintes atribuies: A obteno dos dados estatsticos feita normalmente atravs de questionrio ou de observao direta de uma populao ou amostra. A organizao dos dados consiste na ordenao e crtica quanto correo dos valores observados, falhas humanas, omisses, abandono de dados duvidosos etc. A reduo dos dados - O entendimento e a compreenso de grande quantidade de dados atravs da simples leitura de seus valores individuais uma tarefa extremamente rdua e difcil mesmo para o mais experimentado pesquisador. A Estatstica Descritiva apresenta duas formas bsicas para a reduo do nmero de dados com os quais devemos trabalhar, chamadas varivel discreta e varivel contnua. A representao dos dados Os dados estatsticos podem ser mais facilmente compreendidos quando apresentados por meio de uma representao grfica, o que permite a visualizao instantnea dos mesmos.

CINCIA ESTATSTICA

A obteno de algumas informaes que auxiliam a descrio do fenmeno observado (mdias, propores, tendncias, ndices, taxas, coeficientes) que facilitam a descrio dos fenmenos observados. Para darmos prosseguimento a apresentao da Estatstica Descritiva, tratada mais detalhadamente no captulo 2, interessante que se entenda dois conceitos: Dados brutos - uma seqncia de valores numricos no organizados, obtidos diretamente da observao de um fenmeno coletivo; Rol - uma seqncia ordenada de dados brutos. Uma vez que o conceito usual do que seja a Estatstica se relaciona, em geral, com o que chamaremos de Estatstica Descritiva, queremos deixar bem claro desde j qual a finalidade da Estatstica Indutiva, que ser tratada no volume 2. Para tanto, dois conceitos fundamentais devem ser apresentados: o de populao ou universo e o de amostra. Uma populao ou universo, no sentido geral, um conjunto de elementos com pelo menos uma caracterstica comum. Essa caracterstica comum deve delimitar inequivocamente quais os elementos que pertencem populao e quais os que no pertencem. Assim, por exemplo, podemos estar interessados em realizar uma pesquisa sobre a idade dos militares do Comando Militar do Leste. Logo, a populao fsica que nos interessa examinar aquela constituda pela totalidade dos militares existentes no Comando Militar do Leste. Isso parece extremamente simples, mas na verdade ainda no temos exatamente caracterizada a populao que nos interessa. Ser ela constituda apenas por aqueles que, no momento atual, esto na ativa? Ou deveremos incluir tambm os que j esto na reserva? Alm de tudo, temos tambm o problema de definir a caracterstica comum que distingue perfeitamente cada um dos elementos da populao que realmente nos interessa pesquisar (do Efetivo Profissional ou tambm deveramos incluir os do Efetivo Varivel?). Uma vez perfeitamente caracterizada a populao, o passo seguinte o levantamento de dados acerca da caracterstica (ou caractersticas) de interesse no estudo em questo. Grande parte das vezes, porm, no conveniente, ou mesmo nem possvel, realizar o levantamento dos dados referentes a todos os elementos da populao. Devemos ento limitar nossas observaes a uma parte da populao, isto , a uma amostra proveniente dessa populao. Uma amostra , pois, um subconjunto necessariamente finito de uma populao, pois todos os seus elementos sero examinados para efeito da realizao do estudo estatstico desejado. O objetivo da Estatstica Indutiva tirar concluses sobre populaes com base nos resultados observados em amostras extradas dessas populaes. O prprio termo "indutiva" decorre da existncia de um processo de induo, isto , um processo de raciocnio em que, partindo-se do conhecimento de uma parte, procura-se tirar concluses sobre a realidade, no todo (o oposto ocorre nos processos de deduo, em que, partindo-se do conhecimento do todo, conclumos exatamente sobre o que deve ocorrer em uma parte) .

CINCIA ESTATSTICA

fcil perceber que um processo de induo no pode ser exato. Ao induzir, portanto, estamos sempre sujeitos a erro. A Estatstica Indutiva, entretanto, ir nos dizer at que ponto poderemos estar errando em nossas indues e com que probabilidade. Esse fato fundamental para que uma induo (ou inferncia) possa ser considerada estatstica, e faz parte dos objetivos da Estatstica Indutiva. intuitivo que, quanto maior a amostra, mais precisas e mais confiveis devero ser as indues realizadas sobre a populao. Levando esse raciocnio ao extremo, concluiramos que os resultados mais perfeitos seriam obtidos pelo exame completo de toda a populao, ao qual se denomina censo ou recenseamento. Ocorre, em realidade, que diversas razes levam, em geral, necessidade de recorrer-se apenas aos elementos de uma amostra. Entre elas, podemos citar o custo do levantamento de dados e o tempo necessrio para realiz-lo, especialmente se a populao for muito grande, ou, ento, podemos no ter acesso fcil ou possvel a todos os elementos da populao, etc. Um outro problema que surge paralelamente o de amostragem. claro que, se nossas concluses referentes populao iro basear-se no resultado de amostras, certos cuidados bsicos devem ser tomados no processo de obteno dessas amostras, ou seja, no processo de amostragem. Muitas vezes, erros grosseiros e concluses falsas ocorrem devido a falhas na amostragem. Esse problema ser tratado com maior destaque no Cap. 3. Em resumo, um estudo estatstico completo, que recorra s tcnicas da Estatstica Indutiva, ir envolver tambm, direta ou indiretamente, tpicos de Estatstica Descritiva, Clculo de Probabilidades e Amostragem. Assim, para se desenvolver um curso razovel de Estatstica, todos esses assuntos devem ser abordados em maior ou menor grau, dentro de uma seqncia, conforme indicado no diagrama da Fig. 1. Amostragem

Estatstica Descritiva Estatstica Indutiva

Clculo de Probabilidades

Figura 1 - Esquema geral de um curso de Estatstica.

As trs ferramentas necessrias para a Inferncia Estatstica sero abordadas neste volume, para que no Volume 2 possamos abordar os aspectos da inferncia e dos testes de hipteses com mais profundidade. Os ANEXOS I, II e III, indicam as anlises inferenciais adequadas para as diversas situaes de pesquisa, porm, no descrevem os procedimentos a serem adotados em cada situao particular. Isso ocorre devido ao fato de que a deciso final depende no somente das restries matemticas, mas tambm dos objetivos do estudo e da prpria natureza dos achados que sero produzidos. Contudo, importante ter em mente que as tabulaes apresentadas constituem um mapa de referncia para auxiliar o pesquisador na escolha do procedimento mais adequado para cada situao de pesquisa.

Captulo 2
Estatstica Descritiva
2.1 INTRODUO ESTATSTICA DESCRITIVA Vimos, no Cap. 1, que a Estatstica trabalha com informaes referentes ao conjuntos de elementos observados. Nos problemas de Estatstica Indutiva, esses elementos constituem uma amostra retirada da populao que se deseja estudar. Em muitos casos, entretanto, o conjunto observado pode constituir a populao inteira. Para iniciarmos o tratamento dos dados preciso antes que se tenha(m) bem definida(s) qual(is) a(s) caracterstica(s) de interesse que dever(o) ser verificada(s). Ou seja, no iremos trabalhar estatisticamente com os elementos existentes, mas com alguma(s) caracterstica(s) desses elementos que seja(m) fundamental(is) ao nosso estudo. Por exemplo, o conjunto de elementos a ser estudado pode ser a populao de uma Brigada. Este o conjunto dos elementos, fisicamente definido e considerado. claro que no iremos nem poderemos fazer qualquer tratamento matemtico com os militares que formam esse conjunto. preciso definir qual(is) caracterstica(s) desses militares nos interessa(m) averiguar. Essa caracterstica poder ser, digamos, a idade dos militares. A idade uma varivel cujos valores (dados numericamente organizados em alguma escala de unidade), dependero dos elementos considerados. Ou seja, se houver n elementos fisicamente considerados no estudo, esses elementos fornecero n valores da varivel idade, os quais sero ento tratados convenientemente pela Estatstica Descritiva. No presente captulo, vamos apenas tratar do caso de variveis unidimensionais, ou seja, quando apenas uma caracterstica de interesse est associada a cada elemento do conjunto examinado. Esta caracterstica poder ser qualitativa ou quantitativa. Teremos, portanto, variveis qualitativas ou quantitativas, como nos exemplos que seguem no Quadro 1. VARIVEL DADO Sexo M,F. (QUALITATIVA) grupo sangneo A, B, AB,O Categorias ordenadas grau de dor, I, F, FR, S, A. ORDINAL (QUALITATIVA) escores em geral E, MB, B, R, I. Espectro ordenado com Flexes de brao 0a+ INTERVALAR intervalos quantificveis (QUANTITATIVA) Peso 0a+ Espectro ordenado com Fora - <0< + RAZO intervalos quantificveis (QUANTITATIVA) Acelerao - <0< + (2) Duas categorias: dicotmica ou binria; Trs ou mais categorias: polinomial. (3) Podem ser contnuas ou discretas. Diferena entre intervalar e razo est na presena do zero absoluto (razo), mas o tratamento estatstico o mesmo.
Categorias no ordenadas Quadro 1 - Variveis e seus nveis de medidas.

TIPO NOMINAL

CARACTERSTICA

5 2.1.1 VARIVEIS QUALITATIVAS

ESTATSTICA DESCRITIVA

A varivel ser qualitativa quando resultar de uma classificao por tipos ou atributos, como nos exemplos que seguem: a) Populao: Varivel: b) Populao: Varivel: c) Populao: Varivel: d) Populao: Varivel: militares de uma Brigada. cor dos olhos (pretos, castanhos, azuis, verdes). peas produzidas por uma mquina. qualidade (perfeita ou defeituosa). bitos em um Hospital de Guarnio, nos ltimos cinco anos. causa mortis (molstias cardiovasculares, cnceres, molstias do aparelho digestivo, etc). candidatos a um exame para o Quadro Complementar de Oficiais. sexo (masculino ou feminino).

2.1.2 VARIVEIS QUANTITATIVAS A varivel ser quantitativa quando seus valores puderem ser expressos em nmeros. As variveis quantitativas podem ser subdividas em quantitativas discretas e quantitativas contnuas. Essa classificao corresponde aos conceitos matemticos de discreto e contnuo. Assim, uma varivel contnua ser aquela que, teoricamente, pode assumir qualquer valor num certo intervalo razovel de variao. A varivel discreta, ao contrrio, pode assumir apenas valores pertencentes a um conjunto enumervel. Apresentamos a seguir exemplos de variveis quantitativas discretas: a) Populao: Varivel: b) Populao: Varivel: c) Populao: Varivel: casais residentes na Vila Militar. nmero de filhos (1,2,3,...). as jogadas possveis com um dado. o ponto obtido em cada jogada (1,2,3,4,5,6). munies produzidas em uma linha de montagem. nmero de defeitos por unidade (1,2,3,...).

Essas variveis so todas discretas, pois seus possveis valores so apenas nmeros inteiros no-negativos, havendo, ainda, no caso (b), a restrio de estarem compreendidos entre 1 e 6. Como variveis quantitativas contnuas, temos os exemplos que seguem: a) b) c) d) Populao: Varivel: Populao: Varivel: Populao: Varivel: Populao: Varivel: militares residentes na Vila Militar. idade (18, 18,5, 19,3333, ...). carga transportada por uma viatura. peso lquido (3/4ton, 1ton, 1,5ton, 5ton,....). peas produzidas por uma mquina. dimetro externo (5mm, 3cm, 1,5m, ...). salrios dos militares. descontos em contracheque (R$ 333,33, R$ 1.005,39, R$ 1234,56, ...).

ESTATSTICA DESCRITIVA

Pelos exemplos apresentados, podemos perceber que os valores das variveis discretas so obtidos mediante alguma forma de contagem, ao passo que os valores das variveis contnuas resultam, em geral, de uma medio, sendo freqentemente dados em alguma unidade de medida. Outra diferena entre os dois tipos de variveis quantitativas est na interpretao de seus valores. Assim, a interpretao de um valor de uma varivel discreta dada exatamente por esse mesmo valor. Quando dizemos que um casal tem dois filhos, isso significa que o casal tem exatamente dois filhos. A interpretao de um valor de uma varivel contnua, ao contrrio, a de que se trata de um valor aproximado. Isso decorre do fato de no existirem instrumentos de medida capazes de oferecer preciso absoluta, e, mesmo que existissem, no haveria interesse nem sentido em se querer determinar uma grandeza contnua com todas as suas casas decimais. Assim, ao executarmos a medio de algum valor de uma varivel contnua, estamos sempre fazendo uma aproximao, resulta que qualquer valor apresentado de uma varivel contnua dever ser interpretado como uma aproximao compatvel com o nvel de preciso e com o critrio utilizado ao medir. Por exemplo, se o dimetro externo de uma munio, medido em milmetros, for dado por 7,62 mm, deveremos considerar que o valor exato desse dimetro ser algum valor entre 12,615 e 12,625 mm, que foi aproximado para 7,62 mm devido ao fato de a preciso adotada na medida ser apenas de centsimos de milmetros. Uma conveno til adotada no presente texto a de ser a preciso da medida automaticamente indicada pelo nmero de casas decimais com que se escrevem os valores da varivel. Assim, um valor 7,60 indica que a varivel em questo foi medida com a preciso de centsimos, no sendo exatamente o mesmo que 7,6, valor correspondente a uma preciso de dcimos. Aps observar as diferenas mencionadas entre as variveis quantitativas discretas e contnuas, o leitor poder ficar surpreso ao verificar que as tcnicas da Estatstica Descritiva sero praticamente idnticas em ambos os casos. Isso se deve, no entanto, ao fato de, formalmente, os dados referentes a variveis discretas ou contnuas serem anlogos, pois os valores da varivel contnua sero sempre apresentados dentro de um certo grau de aproximao. Assim, apenas na interpretao e descrio grfica dos resultados que haver diferenas a serem consideradas, conforme veremos, A Estatstica Descritiva pode descrever os dados atravs de grficos, distribuies de freqncia ou medidas associadas a essas distribuies, conforme veremos a seguir. 2.2 TCNICAS DE DESCRIO GRFICA O primeiro passo para se descrever graficamente um conjunto de dados observados verificar as freqncias (quantas vezes o valor aparece na srie) dos diversos valores existentes da varivel.

ESTATSTICA DESCRITIVA

Definimos a freqncia de um dado valor de uma varivel (qualitativa ou quantitativa) como o nmero de vezes que esse valor foi observado. Denotaremos a freqncia do i-simo valor observado por fi, sendo n o nmero total de elementos observados, verifica-se imediatamente que o somatrio de todas as freqncias individuais igual ao nmero de observaes: fi = n A associao das respectivas freqncias a todos os diferentes valores observados define a distribuio de freqncias. Alternativamente, poderemos usar as freqncias relativas. Definimos a freqncia relativa (ou proporo) de um dado valor de uma varivel (qualitativa ou quantitativa), como o quociente de sua freqncia pelo nmero total de elementos observados. Ou seja, denotando por fri a freqncia relativa ou proporo do isimo elemento observado, temos: fri = fi n sendo fri = 1 = 100/100 = 100%

Se de 50 alunos (n) de um curso de ps-graduao 20 (fi) alunos terminarem o curso com meno MB, poderemos dizer que: fri=20/50 = .40 (freqncia relativa) ou 40,00% (percentagem), ou seja, 40,00% dos alunos terminaram o curso com meno MB 2.2.1 DESCRIO GRFICA DAS VARIVEIS QUALITATIVAS No caso de variveis qualitativas, a descrio grfica muito simples, bastando computar as freqncias ou freqncias relativas das diversas classificaes existentes, elaborando, a seguir, um grfico conveniente. Esse grfico poder ser um diagrama de barras, um diagrama circular ou outro qualquer tipo de diagrama equivalente. Tomemos, como exemplo, um grupo de 135 candidatos a vagas em um curso de psgraduao do Centro de Estudos de Pessoal, classificados segundo sua formao especfica de graduao (arma/quadro/servio), conforme a Tab. 1 As duas colunas referentes ao nmero de militares contm, respectivamente as freqncias, e as freqncias relativas dadas em
porcentagens, em que a formao acadmica se distribui entre esses candidatos. A varivel qualitativa considerada no presente exemplo dada por essa formao, e as freqncias relativas observadas definem a distribuio de freqncias que essa varivel apresentou.

Tabela 1 - Formao especfica de militares por graduao. Nmero de militares fi fri* Infantaria 38 .2815 Cavalaria 30 .2222 Artilharia 35 .2593 Engenharia 15 .1111 Outros 17 .1259 Total 135 1.000 * Para fins didticos, fri = freqncia relativa e % = porcentagem Formao %* 28,15 22,22 25,93 11,11 12,59 100,0%

ESTATSTICA DESCRITIVA
CANDIDATOS POR GRADUAO A UM CURSO DE PS-GRADUAO DO CEP
Infantaria 38

FORMAO ACADMICA

Cavalaria

30

Artilharia

35

Engenharia

15

Outros

17

10

15

20

25

30

35

40

CANDIDATOS

Figura 2 - Diagrama de barras da formao especfica de militares por graduao.

Esses dados podem ser graficamente representados de diversas formas.Na Fig. 2 eles esto representados por meio de um diagrama de barras e, na Fig. 3 por um diagrama circular. A vantagem da representao grfica est em possibilitar uma rpida impresso visual de como se distribuem as freqncias ou as freqncias relativas no conjunto de elementos examinados.
CANDIDATOS POR GRADUAO A UM CURSO DE PS-GRADUAO DO CEP

Outros 12,6% Engenharia 11,1% Infantaria 28,1%

Cavalaria 22,2%

Artilharia 25,9%

Figura 3 - Diagrama circular da formao especfica de militares por graduao.

ESTATSTICA DESCRITIVA

Entretanto deve-se mencionar ainda a possibilidade de se considerarem distribuies segundo outros critrios que no propriamente a freqncia ou a freqncia relativa das observaes. Como exemplo, tomemos as superfcies das cinco regies geogrficas que compem o Brasil, apresentadas na Tab. 2, conforme dados do IBGE (Instituto Brasileiro de Geografia e Estatstica). Calculando-se as porcentagens correspondentes, pode-se construir o diagrama circular dado na Fig. 4. Tabela 2 - Regies geogrficas do Brasil. Regio Norte Centro-oeste Nordeste Sudeste Sul Total Superfcie (km2) 3.869.637,9 1.612.077,2 1.561.177,8 927.286,2 577.214,0 8.547.393,1 % 45,30 18,90 18,30 10,80 6,70 100,00

REA TERRITORIAL NACIONAL CORRESPONDENTE A CADA REGIO DO BRASIL

10,80%

6,70% 45,30% Norte Centro-oeste Nordeste Sudeste Sul 18,90%

18,30%

Figura 4 - Diagrama circular das regies geogrficas do Brasil.

2.2.2 DESCRIO GRFICA DAS VARIVEIS QUANTITATIVAS DISCRETAS No caso das variveis quantitativas discretas, a representao grfica ser tambm, normalmente, feita por meio de um diagrama de barras. A diferena em relao ao caso anterior est em que, sendo a varivel quantitativa, seus valores numricos podem ser representados num eixo de abscissas, o que facilita a representao. Note-se que, aqui, existe uma enumerao natural dos valores da varivel, o que no havia no caso das variveis qualitativas. A construo do diagrama de barras feita, desde que se disponha da tabela de freqncias. Esta, por sua vez, pode ser facilmente construda se conhecemos todos os valores da varivel no conjunto de dados. As barras do diagrama podem ser verticais ou horizontais conforme a disposio das variveis nos eixos cartesianos.

10

ESTATSTICA DESCRITIVA

Vamos, a titulo de exemplo, representar graficamente o conjunto dado a seguir, constitudo hipoteticamente por vinte valores da varivel nmero de erros de decriptografia obtidos a partir de mensagens recebidas em um centro de mensagens. Sejam os seguintes os valores obtidos: 2 3 0 1 4 1 1 3 2 0 1 0 1 5 2 1 2 1 0 2

Usando a letra x para designar os diferentes valores da varivel, podemos construir a distribuio de freqncias dada na Tab. 3, a partir da qual elaboramos o diagrama de barras correspondente, dado pela Fig. 5. Tabela 3 - Distribuio de freqncias de erros de decriptografia por mensagem. ERROS DE DECRIPTOGRAFIA POR MENSAGEM xi 0 1 2 3 4 5 fi= fi 4 7 5 2 1 1 20

ERROS DE DECRIPTOGRAFIA AVALIADAS 20 MENSAGENS


No 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 NMERO DE ERROS 4 2 1 1 7 5

Figura 5 - Diagrama de barras para freqncias de erros de decriptografia por mensagem.

11

ESTATSTICA DESCRITIVA

Caso o interesse fosse pela representao grfica das freqncias relativas da Tab. 3 poderamos represent-la conforme a Tab. 4, a partir da qual elaboraramos o diagrama de barras correspondente, dado pela Fig. 6. Tabela 4 - Distribuio fri dos erros de decriptografia por mensagem. ERROS DE DECRIPTOGRAFIA POR MENSAGEM xi 0 1 2 3 4 5 fi 4 7 5 2 1 1 fi= 20 fri .200 .350 .250 .100 .050 .050 fri= 1

ERROS DE CRIPTOGRAFIA POR MENSAGEM


40,0% 35,0% 30,0% 25,0% 20,0% 15,0% 10,0% 5,0% 0,0% 0 1 2 3 4 5 NMERO DE ERROS

Figura 6 - Diagrama de barras para freqncias relativas de decriptografia por mensagem.

O diagrama de barras, conforme j mencionamos, mostra a distribuio das freqncias no conjunto de dados, Tratando-se de variveis quantitativas, uma outra forma de representao grfica tambm possvel, tendo, s vezes, interesse, com base nas freqncias acumuladas, as quais denotaremos por Fi. A freqncia acumulada, em qualquer ponto do eixo das abscissas, definida como a soma das freqncias de todos os valores menores ou iguais ao valor correspondente a esse ponto. Analogamente, teramos as freqncias relativas acumuladas. Fi= fi e Fri= fri

12

ESTATSTICA DESCRITIVA

Voltando ao exemplo, podemos facilmente verificar que as freqncias acumuladas (Fi) e as freqncias relativas acumuladas (Fri), correspondentes aos valores notveis da varivel, so as dadas na Tab. 5. Tabela 5 - Distribuio Fi e Fri dos erros de decriptografia por mensagem. Erros de decriptografia por mensagem xi 0 1 2 3 4 5 fi 4 7 5 2 1 1 20 Fi 4 11 16 18 19 20 fri .200 .350 .250 .100 .500 .500 1 Fri .200 .550 .800 .900 .950 1.000 -

A partir da Tab. 5 pode-se construir o grfico das freqncias acumuladas apresentado na Fig. 7, e o grfico das freqncias relativas acumuladas, dado na Fig. 8..

ERROS DE CRIPTOGRAFIA POR MENSAGEM


Fi 25 20 15 10 5 0 0 1 2 3 4 5 N DE ERROS

ERROS DE CRIPTOGRAFIA POR MENSAGEM


Fri 120,0% 100,0% 80,0% 60,0% 40,0% 20,0% 0,0% 0 1 2 3 4 5 N DE ERROS

Figura 7 - Freqncias acumuladas dos erros de decriptografia em 20 mensagens.

Figura 8 - Freqncias relativas acumuladas dos erros de decriptografia em 20 mensagens.

De acordo com a Fig. 7 pode-se identificar que 4 mensagens no contm erro de decriptografia, 11 mensagens contm at um erro de decriptografia, 16 mensagens contm at 2 erros de decriptografia, e assim por diante. Da mesma forma, de acordo com a Fig. 8 pode-se identificar que apenas 20,00% das mensagens no contm erro de decriptografia, 55,00% das mensagens contm at um erro de decriptografia, 90,00% das mensagens contm at 3 erros de decriptografia, e assim por diante.

13

ESTATSTICA DESCRITIVA

2.2.3 DESCRIO GRFICA DAS VARIVEIS QUANTITATIVAS CONTNUAS No caso das variveis quantitativas contnuas, o procedimento at a obteno da tabela de freqncias pode ser anlogo ao visto no caso anterior. Entretanto o diagrama de barras no mais se presta correta representao da distribuio de freqncias, devido natureza contnua da varivel. Examinemos um exemplo: tomemos a amostra a seguir, constituda por 25 valores da varivel dimetro de peas produzidas por uma mquina, dados em milmetros, conforme a tabela primitiva abaixo: 21,5 21,7 21,3 21,5 21,4 21,4 21,6 21,5 21,9 21,5 21,8 21,4 21,7 21,6 21,6 21,5 21,2 21,4 21,3 21,9 21,6 21,7 21,4 21,5 21,5

Na Tab. 6 temos esses mesmos dados organizados em termos de freqncias e de freqncias relativas, simples e acumuladas. Tabela 6 - Distribuies fi, fri, Fi e Fri do dimetro de peas produzidas por uma mquina. Dimetro de peas produzidas por uma mquina Classe Medida fi Fi fr (i) (xi) 21,15 21,25 21,2 .040 10 10 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,35 21,45 21,55 21,65 21,75 21,85 21,95 = 21,3 21,4 21,5 21,6 21,7 21,8 21,9 23 47 70 38 32 12 18 250 33 80 150 188 220 232 250 .092 .188 .280 .152 .128 .048 .072 1,00

Fri
.040 .132 .320 .600 .752 .880 .928 1.000

Ao passarmos representao grfica, porm, devemos lembrar a correta interpretao dos valores das variveis contnuas. Assim, por exemplo, sabemos que a freqncia 5 associada ao valor 21,4 significa, na verdade, que temos cinco valores compreendidos entre os limites 21,35 e 21,45, que foram aproximados, no processo de medio, para 21,4. Logo, uma representao grfica correta dever associar a freqncia 5 ao intervalo 21 ,35 2 1,45. Isso se faz por meio de uma figura formada com retngulos cujas reas representam as freqncias dos diversos intervalos existentes. Tal figura chama-se histograma e apresentada na Fig. 9.

14

ESTATSTICA DESCRITIVA

DIMETRO DE PEAS PRODUZIDAS POR UMA MQUINA


fi 80 70 60 50 40 30 20 10 0
21,15 21,25 21,35 21,45 21,55 21,65 21,65 21,85 21,95

mm

Figura 9 - Histograma das medidas do dimetro de peas produzidas por uma mquina (representao pelas classes).

Vemos que, no caso das variveis contnuas, as freqncias sero, na verdade, associadas a intervalos de variao da varivel e no a valores individuais. A tais intervalos chamaremos classes de freqncias. As classes de freqncias so comumente representadas pelos seus pontos mdios, conforme a Fig. 10.
DIMETRO DE PEAS PRODUZIDAS POR UMA MQUINA
fi 80 70 60 50 40 30 20 10 0 21,2 21,3 21,4 21,5 21,6 21,7 21,8 21,9 mm

Figura 10 - Histograma das medidas do dimetro de peas produzidas por uma mquina (representao pelos pontos mdios das classes).

Uma outra representao grfica que, como o histograma, pode ser feita no caso de variveis contnuas dada pelo polgono de freqncias, que se obtm unindo-se os pontos mdios dos patamares. Para completar a figura, consideram-se duas classes laterais com freqncia nula.

15

ESTATSTICA DESCRITIVA

Uma exceo bastante comum a essa regra aparece no caso de variveis essencialmente positivas cujo histograma se inicia no valor zero, pois no haveria sentido em se considerar um intervalo com valores negativos. Na Fig. 11 temos o polgono de freqncias correspondente ao histograma da Fig. 10.
DIMETRO DE PEAS PRODUZIDAS POR UMA MQUINA
fi 80 70 60 50 40 30 20 10 0 21,2 21,3 21,4 21,5 21,6 21,7 21,8 21,9 mm

Figura 11 - Polgono de freqncias das medidas do dimetro de peas produzidas por uma mquina.

Podemos ainda construir o polgono de freqncias acumuladas. Este traado simplesmente verificando-se as freqncias acumuladas (Fi ou Fri) ao final de cada uma das classes. Pode ser construdo em termos das freqncias acumuladas (Fig.12a) ou das freqncias acumuladas relativas (Fig. 12b), conforme os dados da Tab. 6.
DIMETRO DE PEAS PRODUZIDAS POR UMA MQUINA
Fi 275 250 225 200 175 150 125 100 75 50 25 0 21,15 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,95 mm Fri 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 21,15 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,95 mm

DIMETRO DE PEAS PRODUZIDAS POR UMA MQUINA

Figura 12.a - Ogiva de Galton (Fi) dos dimetros de peas produzidas por uma mquina.

Figura 12.b - Ogiva de Galton (Fri) dos dimetros de peas produzidas por uma mquina.

Caso uma pea, para ser aprovada, no pudesse medir menos que 21,65mm, por meio da Ogiva de Galton Fi (Fig. 12a) podemos notar que 188 peas estariam fora das especificaes.Se as peas produzidas no pudessem medir 21,55mm ou mais, por meio da Ogiva de Galton Fri (Fig. 12b) possvel notar que 60,00% das peas estariam aprovadas.

16

ESTATSTICA DESCRITIVA

No exemplo anterior vimos que, no caso das variveis contnuas, a considerao de classes de freqncias fundamental para a correta representao grfica. Naquele exemplo as classes consideradas tinham por pontos mdios os prprios valores originais do conjunto de dados disponveis, o que foi suficiente para a obteno de uma representao grfica satisfatria. Muitas vezes, entretanto, uma representao satisfatria dos dados somente conseguida pelo seu agrupamento em classes de freqncias que englobam diversos valores da varivel. A freqncia de cada classe ser, nesse caso, igual soma das freqncias de todos os valores existentes dentro da classe (esse procedimento tambm pode ser aplicado no caso de variveis discretas, a fim de se obter uma representao mais conveniente). O procedimento descrito corresponde a uma diminuio proposital da preciso com que os dados foram computados. Ou seja, propositalmente deixamos de lado uma parcela da informao contida nos dados originais, tendo em vista obter uma representao mais adequada. O problema prtico a resolver, em tais casos, o de determinar qual o nmero de classes a constituir, qual o tamanho ou amplitude dessas classes e quais os seus limites. claro que, por simplificao, recomenda-se, em muitos casos, a construo de classes de mesma amplitude. Usaremos a seguinte notao: n: k: AT: Lmax: lmin: h: Li: li: nmero total de dados disponveis; nmero de classes; amplitude total da distribuio de freqncia (Lmax lmin); maior valor da distribuio de freqncias; menor valor da distribuio de freqncias; amplitude do intervalo de classes, diferena entre os limites (Li-li) limite mximo da classe (normalmente aparente); limite mnimo da classe (valor real);

A questo do nmero de classes teoricamente controvertida. Diversos autores apresentam solues diferentes. Entretanto, com um pouco de bom-senso e experincia, chega-se sem grande dificuldade a valores satisfatrios para h, k e para os limites das classes. A obteno de solues simples , em geral, desejvel. Para fins de orientao adotaremos a frmula proposta por Sturges: k= 1+3,3 . log n Vamos definir a amplitude do conjunto de dados como sendo a diferena entre o maior e o menor dos valores observados. Vamos design-la por AT. claro que, uma vez fixado k: h=AT k Entretanto importante notar que a amplitude das classes no dever ser fracionria em relao preciso com que os dados so apresentados, pois isso impossibilitaria uma correta subdiviso em classes. Notemos tambm que os limites das classes so, muitas vezes, apresentados sob formas que no correspondem ao significado real dos valores contidos na classe.

17

ESTATSTICA DESCRITIVA

Dizemos, ento, que temos limites aparentes. Em tais casos, pode ser conveniente a determinao dos limites reais das classes. Tomemos como exemplo o conjunto de valores a seguir, que suporemos sejam as observaes do nmero de repeties do exerccio remador executado por n = 50 soldados organizados no ROL (dados brutos obtidos, organizados em ordem crescente ou decrescente) abaixo: ROL do nmero de repeties do exerccio remador 41 50 53 55 61 43 50 53 55 62 44 50 54 55 62 46 51 54 56 63 46 51 54 56 64 48 51 54 57 64 48 51 54 57 65 48 53 54 58 67 49 53 55 59 68 49 53 55 61 71

fcil verificar que a distribuio de freqncias diretamente obtida a partir desses dados seria dada por uma tabela razoavelmente extensa. A representao grfica dessa distribuio, apresentada na Fig. 13 deixa de ser conveniente para esses dados.
RESULTADO OBTIDO POR 50 SOLDADOS NO EXERCCIO REMADOR
Nr 7 6 5 4 3 2 1 0 41 43 44 46 48 49 50 51 53 54 55 56 57 58 59 61 62 63 64 65 67 68 71 Nr de repeties

Figura 13 - Grfico de colunas do resultado obtido por 50 soldados no exerccio remador

Vamos determinar o nmero de classes: Dado que: k= 1+3,3 . log n Onde: n = 50 log 50= 1,69897 Logo: k= 1+3,3 . 1,69897 k= 1+ 5,606601 k= 6,606601 (6 ou 7?)

Quadro 2 Clculo do nmero de classes de uma distribuio de freqncias.

Notemos que o valor de k pode ser adequado de acordo com AT para que se acomodem os dados de acordo com o intervalo de classe mais conveniente: Dado que: h=AT/k Onde: AT = 71-41= 30 k=6 k=7 Logo: h =30/6 = 5 * h =30/7 = 4,28571 *Adotaremos k = 6, pois h ser inteiro (5)

Quadro 3 Clculo da amplitude de classe de uma distribuio de freqncias.

18

ESTATSTICA DESCRITIVA

Na Tab 7 so dados os limites das classes e as freqncias respectivas. Nessa tabela, apresentamos os limites das classes dados de trs maneiras equivalentes. As duas primeiras so formas usualmente empregadas e correspondem a limites aparentes. A terceira indica os limites reais dessas classes. Note-se que no h possibilidade de dvida quanto a que classe cada elemento pertence. Tabela 7 - Agrupamento em classes de freqncias do resultado obtido por 50 soldados no exerccio remador. Classes Limites aparentes Primeira notao 40 45 50 55 60 65 70 45 50 55 60 65 70 75 Segunda notao 40 45 50 55 60 65 70 44 49 54 59 64 69 74 39,5 44,5 49,5 54,5 59,5 64,5 69,5 44,5 49,5 54,5 59,5 64,5 69,5 74,5 Limites reais Ponto mdio (xi) 42.5 47.5 52.5 57.5 62.5 67.5 70.5 =

fi 3 8 16 12 7 3 1 50

O histograma e o polgono de freqncias, correspondentes ao agrupamento feito, so dados na Fig. 14 Vemos que essa representao grfica muito mais apropriada do que a anteriormente obtida.
RESULTADOS DO EXERCCIO REMADOR
Nr 20 15 10 5 0 42.5 47.5 52.5 57.5 62.5 67.5 70.5 Repeties

Figura 14 - Representao grfica dos dados agrupados.

Muitas vezes, o polgono de freqncias obtido sugere o traado de uma curva contnua.Em outras palavras, se os dados provm de uma amostra, eles esto sugerindo qual seria, aproximadamente, a distribuio da populao, para a qual poderamos adotar algum modelo ideal de distribuio. Um modelo freqentemente usado o da distribuio normal, estudada pelo Clculo de Probabilidades.

19

ESTATSTICA DESCRITIVA MDIA

2.3 CARACTERSTICAS DE UMA DISTRIBUIO DE FREQNCIAS Alm da descrio grfica, muitas vezes necessrio sumariar certas caractersticas das distribuies de freqncias por meio de certas quantidades, que iremos estudar a seguir. Tais quantidades so usualmente denominadas de medidas da distribuio de freqncias, por procurarem quantificar alguns de seus aspectos de interesse. Temos assim, as chamadas medidas de posio, de disperso, de assimetria e de curtose. As medidas de posio e de disperso so as mais importantes, servindo para localizar as distribuies e caracterizar sua variabilidade, tendo grande aplicao em problemas de Estatstica Indutiva. As medidas de assimetria e de achatamento ajudam a caracterizar a forma das distribuies. 2.3.1 MEDIDAS DE POSIO As medidas de posio servem para localizar a distribuio de freqncias sobre o eixo de variao da varivel em questo. Estudaremos cinco dos principais tipos de medidas de posio: a mdia, a mediana, a moda, os quartis e os percentis. A mdia e a mediana indicam, por critrios diferentes, o centro da distribuio de freqncias. Por essa razo, costuma-se dizer tambm que so medidas de tendncia central. A moda indica a regio de maior concentrao de freqncias na distribuio. Os quartis (Q1, Q2, Q3) dividem o conjunto ordenado de valores em quatro subconjuntos com igual nmero de elementos (25% dos elementos da seqncia). Pode haver o interesse em dividir a seqncia de dados em dez partes iguais, para tanto utilizamos os decis (no abordados neste manual por tratarem-se de um tipo particular de percentis). Os percentis por sua vez dividem a distribuio de freqncia em cem partes iguais (note que: D1 = P10, D2 = P20, D3 = P30, D4 = P40, D5 = P50, D6 = P60, D7 = P70, D8 = P80, e D9 = P90). 2.3.1.1 MDIA ( X ) A mdia de uma distribuio de freqncias o valor obtido quando todos os dados observados so somados e divididos pelo nmero de observaes. Normalmente utiliza-se a mdia aritmtica (quando os resultados dispostos em tabela primitiva ou ROL), ou a mdia ponderada (quando os resultados esto categorizados em uma tabela de freqncias) Sendo xi (i = 1,2,...,n) os valores da varivel, e fi a mdia aritmtica pode ser calculada pela seguinte frmula: X= xi / n Por exemplo, utilizaremos os dados do Rol apresentado na Pg.17. (x1=41, x2=43, x3=46, x4=46, x5=,..., x50=71). Onde: xi= 27311 n = 50 Dado que: X= xi / n Logo: X= 2731 / 50 X= 54,62 ~ 55 = Poderamos dizer que "em mdia", os soldados executaram 55 abdominais. Notemos que X.n = total de abdominais executadas pelos 50 soldados, ou seja, 2731.

Quadro 4 Clculo da mdia aritmtica.

20

ESTATSTICA DESCRITIVA

Para o clculo da mdia ponderada tomemos, por exemplo, os dados da Tab. 6. apresentados na Tab 8. Tabela 8. Clculo da mdia ponderada. Dimetro de peas produzidas por uma mquina Classe (i) 21,15 21,25 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,35 21,45 21,55 21,65 21,75 21,85 21,95 = (xi) 21,2 21,3 21,4 21,5 21,6 21,7 21,8 21,9 fi 1 2 5 7 4 3 1 2 25 fixi 21,2 42,6 107 150,5 86,4 65,1 21,8 43,8 538,4 Frmula da mdia ponderada: X= fixi Considerando: n xi= ponto mdio da classe fi= freqncia de cada classe n= nmero de observaes Onde: Logo: n = 25 fixi= 538,4 X= 538,4 / 25 X= 21, 54

Poderamos dizer que as peas produzidas pela mquina possuem um dimetro mdio de 21,54mm.
Quadro 5 Clculo da mdia ponderada.

Considerando uma distribuio por classes de freqncias, podemos definir sua mdia como o valor obtido, substituindo os xi pelos pontos mdios das classes e considerando as fi corno as respectivas freqncias (ou freqncias relativas se for o caso). A mdia assim calculada para os dados agrupados em classes dever ser aproximadamente igual mdia aritmtica exata dos n dados originais. Dentre as propriedades da mdia, podemos destacar as seguintes: a. multiplicando-se todos os valores de uma varivel por uma constante, a mdia do conjunto fica multiplicada por essa constante; b. somando-se ou subtraindo-se uma constante a todos os valores de uma varivel, a mdia do conjunto fica acrescida ou diminuda dessa constante. Utilizando as propriedades citadas, podemos introduzir simplificaes no clculo da mdia, o que ser particularmente til se os valores xi forem elevados e o clculo precisar ser feito manualmente. Como hoje muito comum dispor-se de calculadoras eletrnicas ou softwares que realizam esses clculos, no nos preocuparemos com essa questo.

21 2.3.1.2 MEDIANA (Md)

ESTATSTICA DESCRITIVA

A mediana uma quantidade calculada com base na ordem dos valores que formam o conjunto de dados. Definimos a mediana de um conjunto de n valores ordenados como o valor ou dado que divide a srie estatstica ao meio (50%dos valores sero menores e 50%dos valores sero maiores que o valor da mediana). A mediana geometricamente interpretada como ponto tal que uma vertical por ele traada divide a rea sob o histograma em duas partes iguais. Nas variveis discretas: Sendo n impar, a Md igual ao valor de ordem (n + 1)/2 desse conjunto. Dados os valores: 35 36 37 38 40 40 41 43 46

Dado que: Md= (n + 1)/2 Onde: n=9 Logo: Md= (9 + 1)/2

Md = 40 Notemos que o x5 (40), o valor que divide a srie estatstica ao meio, 50% dos valores so menores ou iguais a 40 e 50%dos valores sero maiores ou iguais a 40.

Md= 5 elemento Isto quer dizer que ela possui o valor de x5.

Quadro 6 Clculo da mediana com n impar.

Se n for par, a Md poderia ser definida como valor mdio entre o de ordem n/2 e o de ordem (n/2) + 1. Dados os valores: 12 14 14 15 16 16 17 20

Dado que: n/ 2< Md < (n/ 2) +1 8/ 2< Md < (8/ 2) +1 4< Md < 5 Md =(15+16)/2 Md =15,5 Isto quer dizer que ela possui o valor mdio entre o 4 e o 5 elemento da srie (x4+x5)/2 que (15+16)/2 = 15,5. Onde: n=8 Logo:

15 < Md < 16 Notemos que o valor 15,5, embora por vezes no tenha um significado real para a varivel, o valor que divide a srie Estatstica ao meio, 50%dos valores so menores ou iguais a 15,5 e 50%dos valores sero maiores ou iguais a 15,5.

Quadro 7 Clculo da mediana com n par.

22

ESTATSTICA DESCRITIVA

Considerando, agora, uma distribuio em classes de freqncias, podemos calcular um valor para sua mediana pela expresso: Md = l + ( p` - Fant) . h f Onde: l: p` : fi: Fant: h: f: tal que: p`= fi 2

limite inferior da classe que contm a Md nmero que define a posio em que se encontra a Md (classe que contm a Md) nmero de elementos do conjunto de dados freqncia acumulada da classe anterior classe que contm a Md amplitude da classe que contm a Md freqncia da classe que contm a Md
Quadro 8 Frmula da mediana para variveis contnuas.

Tomemos, por exemplo, os dados da Tab. 6 apresentados na Tab. 9. Tabela 9. Clculo da mediana. Dimetro de peas produzidas por uma mquina Classe Medida fi Fi (i) (xi) 21,15 21,25 21,2 1 1 3 21,25 21,35 21,3 2 21,35 21,45 21,55 21,65 21,75 21,85 21,45 21,55 21,65 21,75 21,85 21,95 = 21,4 21,5 21,6 21,7 21,8 21,9 5 7 4 3 1 2 25 8 15 19 22 23 25

Onde: fi=25 n = 25

Dado que: p`= fi 2 Logo: p`= 25/2 = 12,5 Dado que: Md = l + (p` - Fant).h f Logo: Md = 21,45+ (12,5-8).0,1

Onde: l=21,45 Fant= 8 7 f=7 Md =21,51 h=21,55-21,45=0,1 Escolhemos a 4 classe, pois ela contm p`. Notemos que o valor 21,51mm o valor que divide a srie estatstica ao meio.
Quadro 9 Clculo da mediana.

A mediana pode ser usada como alternativa, em relao mdia, para caracterizar o centro do conjunto de dados. Em certos casos, efetivamente, seu uso mais conveniente, Por exemplo, no caso de distribuies de rendas, a mediana , em geral, melhor indicador central que a mdia, pois no sobre a influncia de valores extremos. Como ilustrao, imaginemos um conjunto de doze pessoas com as seguintes rendas mensais (R$): 2.500 4,800 2.700 5.000 3,000 5.500 3.200 6.000 3.300 7.000 4.200 80.000

A mdia desses doze valores 10.600, ao passo que sua mediana 4.500, no tendo sido influenciada pelo valor extremo 80.000, muito maior que os demais valores. Vemos, nesse caso, que a mediana fornece uma melhor idia do centro da distribuio.

23 2.3.1.3 MODA (Mo)

ESTATSTICA DESCRITIVA

A moda uma medida de posio, pois indica a regio das mximas freqncias. Definimos a moda (ou modas) de um conjunto de valores, como o valor (ou valores) de mxima freqncia. Assim, no exemplo da Fig.13, a moda 54 pois o valor que mais se repete, no caso da Tab. 7, a classe modal (kMo) a 50 55. No caso de distribuies de freqncias em classes de mesma amplitude, comum definir-se tambm a moda como um ponto pertencente classe modal, dado por Mo = l + Onde: l: f*: fant: fpost: h: 1 .h 1+ 2 tal que: 1 = f* - fant 2 = f* - fpost

limite inferior da classe que contm a Mo; freqncia da classe que contm a Mo; freqncia da classe anterior classe que contm a Mo; freqncia da classe posterior classe que contm a Mo; amplitude da classe que contm a Mo.
Quadro 10 Frmula da moda.

Para o clculo da moda tomemos, por exemplo, os dados da Tab. 7 apresentados na Tab. 10. Tabela 10. Clculo da moda. Dimetro de peas produzidas por uma mquina Classe Medida fi Fi (i) (xi) 21,15 21,25 21,2 1 1 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,35 21,45 21,55 21,65 21,75 21,85 21,95 = 21,3 21,4 21,5 21,6 21,7 21,8 21,9 2 5 7 4 3 1 2 25 3 8 15 19 22 23 25

Dado que: Onde: kMo= 4classe f*=7 fant= 5 fpost= 4

Logo: 1=75=2 2=74=3

1 = f*-fant 2 = f*-fpost

Dado que: Mo = l +

Onde: Logo: 1= 2 Mo = 21,45 + 2 . 0,1 2= 3 2+3 l= 21,45 Mo = 21,49 h= 21,55-21,45=0,1


Quadro 11 Clculo da moda.

1 .h 1+ 2

Relao emprica entre mdia, mediana e moda A seguinte relao emprica em geral subsiste aproximadamente para os conjuntos de dados observados: X - Mo = 3( X Md)

24

ESTATSTICA DESCRITIVA

Essa expresso pode ser apresentada sob diversas formas e indica geometricamente que a mediana situa-se entre a mdia e a moda, sendo sua distncia moda o dobro de sua distncia mdia. Sua verificao na prtica tende a ser mais perfeita para conjuntos maiores de dados e sendo a moda calculada com base em dados agrupados em classes de freqncias. 2.3.1.4 QUARTIS (Q) E PERCENTIS (P) A idia de mediana, como vimos, a de dividir o conjunto ordenado de dados em dois subconjuntos com igual nmero de elementos. Essa idia pode ser generalizada. Como dito anteriormente, os quartis (Q1, Q2, Q3), dividem um conjunto ordenado de valores em quatro subconjuntos com igual nmero de elementos. Sua determinao seria feita de modo semelhante da mediana. O segundo quartil (Q2), obviamente, a prpria mediana. Se a mediana divide a distribuio de freqncias ao meio, os quartis dividem a dividem em e 3/4 , ou seja: 25% dos valores < Q1 < 75% dos valores 75% dos valores < Q3 < 25% dos valores 12 14 14
Q1 =14

15

16

16

17
Q3 =16,5

20

Md =15,5

Os valores dos quartis tambm podem ser obtidos em distribuies contnuas, de acordo com a frmula dos percentis (frmula genrica este tipo de medida de posio), de acordo com o quadro 12. P = l + ( p`- Fant) .h f Onde: l: p` : fi: Fant: h: f: c: tal que: p` c fi = 100

limite inferior da classe que contm a posio desejada posio em que se encontra o percentil (classe que contm a P) nmero de elementos do conjunto de dados freqncia acumulada da classe anterior classe que contm a P amplitude da classe que contm a P freqncia da classe que contm a P porcentagem que se deseja obter
Quadro 12 Frmula geral para quartis e percentis.

Para obtermos o valor que divide uma distribuio de freqncias, sendo que 15% dos valores sejam menores ou iguais a este valor, ento deveramos calcular P15, logo c=15 Sabemos que Q1 o valor que divide a distribuio de freqncias em 25% e 75%, ento podemos concluir que o valor de Q1 = P25, logo c=25 Sabemos que Q3 o valor que divide a distribuio de freqncias em 75% e 25%, ento podemos concluir que o valor de Q3 = P75, logo c=25

25 2.3.2 MEDIDAS DE DISPERSO

ESTATSTICA DESCRITIVA

As informaes fornecidas pelas medidas de posio podem ser insuficientes para compararmos e classificarmos as sries estatsticas quanto a sua homogeneidade, disperso ou afastamento dos dados. As medidas de disperso surgem como maneira de indicar o quanto os dados se apresentam dispersos em torno da regio central (medida de posio). Caracterizam, portanto, o grau de variao existente no conjunto de valores. As principais medidas de disperso so: a amplitude total, a varincia, o desvio-padro e o coeficiente de variao. 2.3.2.1 A AMPLITUDE TOTAL (AT) A amplitude total, j mencionada no item 2.2.3, definida como a diferena entre o maior e o menor valores do conjunto de dados: AT = Lmax lmin. claro que o valor de AT est relacionado com a disperso dos dados. Entretanto, por depender de apenas dois valores do conjunto de dados, a amplitude total contm relativamente pouca informao quanto disperso. Salvo aplicaes no controle da qualidade, a amplitude total no muito utilizada como medida de disperso. 2.3.2.2 A VARINCIA (s2) A varincia a mdia dos quadrados das diferenas dos valores em relao sua prpria mdia, e para dados ordenados em tabelas primitivas ou ROL dada por: s2 = (xi X) 2 n-1 Notemos que xi X corresponde ao desvio que cada elemento possui em relao mdia, e que utilizamos o artifcio matemtico de elevarmos esta diferena ao quadrado [(xi X) ] , pois caso contrrio o somatrio teria o valor zero [ (xi X)=0], tornando sem sentido a frmula matemtica. Analogamente ao clculo da mdia, se os dados constiturem uma distribuio por classes de freqncias, poderemos calcular sua varincia pela expresso abaixo, onde xi so os pontos mdios das classes e fi as respectivas freqncias. s2 = (xi X ) 2fi n-1 Como exemplo, vamos executar o clculo da varincia de um conjunto pequeno de dados, formado pelos 20 valores seguintes: 10 12 10 12 10 12 11 13 11 13 11 13 11 13 12 14 12 14 12 14

A Tab. 11 mostra o clculo de X de s2.

26 Tabela 11. Clculo da varincia (s2) xi 10 11 12 13 14 fi 3 4 6 4 3 fixi 30 44 72 52 42 240 xi-X ( xi-X ) -2 -1 0 1 2 0 4 1 0 1 4 10 ( xi-X )fi 12 4 0 4 12 32

ESTATSTICA DESCRITIVA

O somatrio dos desvios em relao mdia igual a zero. Pelo artifcio matemtico podemos observar o quadrado dos desvios. Dado que: s2 = (xi X) 2fi n-1 Onde: Logo: s2 =32/20 (xi X) 2fi= 32 n=5 s2 = 1,68
Quadro 13 Clculo da varincia.

= 20

X= 240/20=12

Utilizamos o exemplo da Tab.11. para demonstrarmos que a varincia oriunda dos desvios de cada elemento (ou ponto mdio de classe), em relao mdia da srie estatstica. No entanto esta frmula refere-se ao fato de se estar calculando a varincia de uma amostra, incluindo-se n-1 como fator de correo, caso se deseje calcular a varincia populacional, conhecido N e a mdia populacional deve-se utilizar a frmula abaixo:
2

= (xi ) 2

N A varincia tem, entre outras, as seguintes propriedades: a. multiplicando se todos os valores de uma varivel por uma constante, a varincia do conjunto fica multiplicada pelo quadrado dessa constante; b. somando-se ou subtraindo-se uma constante a todos os valores de uma varivel a varincia no se altera. A importncia de estudarmos a varincia dos dados est no fato da possibilidade de compararmos distribuies amostrais e populacionais. Neste sentido, quanto maior a varincia, menor ser a concentrao dos dados em torno da mdia. Por outro lado, quanto menor a varincia, mais homognia ser a distribuio de freqncias. A varincia uma medida de disperso extremamente importante na teoria estatstica. Do ponto de vista prtico, ela tem o inconveniente de se expressar uma unidade quadrtica em relao da varivel em questo, o que nem sempre faz sentido. Esse inconveniente sanado com a definio do desvio padro, que a raiz quadrada da varincia .

27 2.3.2.3 O DESVIO-PADRO (s)

ESTATSTICA DESCRITIVA

Definiremos o desvio-padro como a raiz quadrada positiva da varincia. Sendo expresso na mesma unidade da varivel, ele mais realstico para efeito da comparao de disperses e juntamente com a mdia possibilita uma viso mais consistente a respeito da homogeneidade da srie estatstica. O desvio-padro notado da seguinte forma: s= (xi X ) 2fi n-1

Tabela 12. Clculo do desvio-padro (s) Classe 21,15 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,95 = (xi) 21,2 21,3 21,4 21,5 21,6 21,7 21,8 21,9 fi 1 2 5 7 4 3 1 2 25 fixi 21,2 42,6 107 150,5 86,4 65,1 21,8 43,8 538,4 (xi X ) 2fi .11560 .11520 .00980 .00112 .00144 .07680 .06760 .25920 .64676 Dado que: Logo: s= s= (xi X ) 2fi n-1 64676 24 0,06948333

s=

s = 0,16416
Quadro 14 Clculo do desvio padro.

X= 538,4/25=21,54 Interpretao do desvio-padro

O desvio-padro sem dvida a medida de disperso mais importante. Quando uma curva de freqncia simtrica como a curva abaixo, podemos afirmar que: X + s contm 68,26% dos dados da srie X + 2s contm 95,44% dos dados da srie X + 3s contm 99,74% dos dados da srie Caso a Tab 2.12 possusse distribuio normal poderamos dizer que: Aproximadamente 68% das peas produzidas possuem dimetro que varia entre 21,37 e 21,71mm, 95% entre 21,20 e 21,88mm, e 99% entre 21,13 e 22,05mm
Quadro 15 Interpretao do desvio padro.

28 2.3.2.4 O COEFICIENTE DE VARIAO (Cv)

ESTATSTICA DESCRITIVA

O coeficiente de variao definido como o quociente entre o desvio-padro e a mdia, sendo freqentemente expresso em porcentagem:

Cv = s / X
Sua vantagem caracterizar a disperso dos dados em termos relativos a seu valor mdio, permitindo-se comparar sries estatsticas. No exemplo visto, o Cv = 0,16416/ 21,54=0,007621=0,76% Supondo-se que outra mquina avaliada, produzisse peas com dimetro mdio X=21,65mm, e desvio-padro s=0,2003mm, obteramos um Cv2 =0,009252=0,93%, como Cv1 =0,76%, poderamos afirmar que a segunda mquina menos precisa que a primeira, tendo em vista que Cv2> Cv1, ou seja, quanto maior o coeficiente de variao mais dispersos estaro os dados em relao mdia, e menos homognia ser a srie estatstica.

2.3.3 MEDIDAS DE ASSIMETRIA


Essas medidas procuram caracterizar como e quanto a distribuio de freqncias se afasta da condio de simetria. As distribuies alongadas direita so ditas positivamente assimtricas, e as alongadas esquerda, negativamente assimtricas. As medidas de assimetria, conforme sejam positivas, negativas ou aproximadamente nulas, procuram indicar o tipo de distribuio quanto a esse aspecto. Nas Fig. 16a e Fig.16b so mostrados dois tipos de assimetria.
RESULTADO DO 1 TESTE DE APTIDO FSICA DE RECRUTAS DE UM BATALHO DE INFANTARIA Nr 140 120 100 80 60 40 20 0 I R B MB E Conceitos RESULTADO DO 1 TESTE DE APTIDO DE TIRO DE RECRUTAS DE UM BATALHO DE INFANTARIA 140 120 100 80 60 40 20 0 I R B MB E Conceito

Nr

Figura 16a - Assimetria positiva

Figura 16b - Assimetria negativa

Para a caracterizao do poder da assimetria utiliza-se o coeficiente de assimetria de Pearson, definido como segue:
A= 3(X Md)

Relao A < 0,15 0, 15 < A < 1 A > 1.

Classificao Praticamente simtrica Moderadamente assimtrica Fortemente assimtrica

Quadro 16 - Classificao da distribuio de freqncia em relao a sua assimetria.

29 Consideraes a respeito da assimetria

ESTATSTICA DESCRITIVA

Nos exemplos abaixo poderemos verificar o formato e as caractersticas de sries estatsticas com um mesmo nmero de elementos. Consideremos que os conceitos de uma pista Tiro de Ao Reflexa obedeam a seguinte ordenao de valores (sendo o nmero de tiros executado por cada militar igual a 22):

DISTRIBUIO A classe 02 06 10 14 18 06 10 14 18 22 xi
4 8 12 16 20

fi
6 12 24 30 6

RESULTADO DO TIRO DE AO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSES


Nr 35 30 25 20 15 10 5 0 I R B MB E Conceitos

S Onde: X= 12,92 Md= 13,5 S= 5,0087

A= 3(X Md)

78

A= -.347 Ass. Negativa moderada

Figura 17a Assimetria negativa moderada.

DISTRIBUIO B classe 02 06 10 14 18 06 10 14 18 22 xi 4 8 12 16 20 = fi 5 21 26 21 5 78
Nr 30 25 20 15 10 5 0

RESULTADO DO TIRO DE AO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSES

A= 3(X Md)

Onde: X= 12 Md= 12 S= 4,1478


I R B MB E Conceitos

A= 0 Simtrica

Figura 17b Assimetria nula.

DISTRIBUIO C classe 02 06 10 14 18 06 10 14 18 22 xi 4 8 12 16 20 = fi 6 30 24 12 6 78
Nr 35 30 25 20 15 10 5 0

RESULTADO DO TIRO DE AO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSES

A= 3(X Md)

Onde: X= 11,08 Md= 10,5 S= 3,6039


I R B MB E Conceitos

A= +.483 Ass.Positiva moderada

Figura 17c Assimetria positiva moderada.

30 2.3.4 MEDIDAS DE ACHATAMENTO OU CURTOSE

ESTATSTICA DESCRITIVA

As medidas de curtose caracterizam a forma da distribuio quanto a seu achatamento. A comparao feita em relao distribuio normal, modelo terico de distribuio estudado pelo Clculo de Probabilidades (veja o captulo 4). As Fig. 18a, Fig. 18b, e Fig. 18c, apresentam os trs tipos caractersticos de distribuio:
classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = xi 4 7 9 11 12 13 13 13 12 11 9 7 4 125 xi 4 7 9 11 12 13 13 13 12 11 9 7 4 125 xi 0 0 1 2 6 24 59 24 6 2 1 0 0 125
FLEXES DE BRAO REALIZADAS POR SOLDADOS DA 1 COMPANIA DE FUZILEIROS
70 60 50 40 30 20 10 0 5 15 25 35 45 55 65 75 85 95 105 110 115 Repeties

Nr

Figura 18a Distribuio Platicrtica.

Nr 70 60 50 40 30 20 10 0

FLEXES DE BRAO REALIZADAS POR SOLDADOS DA 2 COMPANIA DE FUZILEIROS

15

25

35

45

55

65

75

85

95

105

110

115

Repeties

Figura 18b Distribuio Mesocrtica.


FLEXES DE BRAO REALIZADAS POR SOLDADOS DA 3 COMPANIA DE FUZILEIROS
Nr 70 60 50 40 30 20 10 0 5 15 25 35 45 55 65 75 85 95 105 110 115 Repeties

Figura 18c Distribuio Leptocrtica.

31

ESTATSTICA DESCRITIVA

Como dito anteriormente, a classificao quanto curtose d-se em funo do achatamento da distribuio de freqncias. Deste modo, uma distribuio normal tem um achatamento mediano, o que chamamos distribuio mesocrtica (forma de boca de sino). As distribuies mais achatadas que a normal so denominadas platicrticas (forma de prato) e as menos achatadas so denominadas leptocrticas (forma de chapu mexicano). A caracterizao do achatamento de uma distribuio s tem sentido, em termos prticos, se a distribuio for pelo menos aproximadamente simtrica. Desta forma possvel verificar que: a. distribuies platicrticas apresentam os dados bem dispersos em relao mdia, o que caracteriza uma forma de distribuio heterognia. b. distribuies mesocrticas apresentam os dados normalmente dispersos em relao mdia, o que caracteriza uma forma de distribuio normal. c. distribuies leptocrticas apresentam os dados muito prximos da mdia, o que caracteriza uma forma de distribuio homognia Entre as possveis medidas de achatamento, mencionaremos apenas o coeficiente percentlico de curtose, dado pela frmula abaixo: Classificao quanto curtose C = 0,263 curva mesocrtica C < 0,263 curva leptocrtica C > 0,263 curva platicrtica

C=

Q3 - Q1 2(P90 - P10)

Onde: Q1 = 1 quartil; Q3 = 3 quartil; P10 = Percentil 10 e P90 = percentil 90

Quadro 17 - Classificao da distribuio de freqncia em relao a sua curtose.

2.3.5 CONSIDERAES SOBRE MEDIDAS DE ASSIMETRIA E CURTOSE No volume 2 trataremos sobre a Estatstica Inferencial, onde veremos duas categorias de testes estatsticos: os paramtricos e os no-paramtricos. Neste momento importante que se diga que a primeira categoria, testes paramtricos, possuem trs pressupostos bsicos sobre a distribuio dos dados: a. a populao estudada deve possuir uma distribuio normal; b. a amostra extrada deve ter as mesmas variaes na varivel estudada; e c. as observaes devem ser independentes. Sempre que estes pressupostos so alcanados, os testes paramtricos aumentam as chances de se rejeitar a hiptese nula, o que denominamos poder do teste (trataremos este conceito no item 4.3 do captulo 4), desta forma os testes de assimetria e curtose tratados no presente captulo crescem em importncia no sentido de que, para comprovarmos o pressuposto a., deveremos verificar se a amostra, com a qual estamos trabalhando, simtrica e mesocrtica, caractersticas da distribuio normal.

Captulo 3
Amostragem
3.1 INTRODUO A busca de informaes a respeito de um fenmeno qualquer necessria para lastrear a tomada de decises que envolvem este fenmeno. Em particular quando este fenmeno aleatrio, a busca de informaes direcionada para estabelecer a forma da distribuio da varivel que descreve o fenmeno e os parmetros desta distribuio. Existem dois processos de abordagem para a soluo deste problema. O primeiro processo consiste em aplicar um Censo, o que identifica diretamente a forma da distribuio da varivel e seus parmetros.O segundo processo consiste em obter estas informaes indiretamente, atravs da Estimao (por meio de amostras). Quando razovel a aplicao de um censo, o problema est resolvido.Vamos desenvolver o segundo processo, com o objetivo de estimar os parmetros da distribuio. A estimao um processo que consiste em avaliar os parmetros de uma distribuio atravs de estimadores obtidos em uma amostra, com base no clculo de probabilidades (instrumental que viabiliza avaliar parmetros da distribuio a partir dos estimadores).. A qualidade de uma estimao depende basicamente da representatividade da amostra que consiste na capacidade de a amostra reproduzir as caractersticas importantes da populao. Vamos examinar a seguinte situao. A nutricionista de uma escola militar foi encarregada de avaliar a qualidade nutritiva de uma sopa preparada por um fornecedor (contratado), que ser servida a seus alunos. Algumas reclamaes de alunos sugerem que a sopa no est satisfazendo o padro de qualidade nutricional exigido pela escola. Se, de fato, a sopa no atender o padro de qualidade contratado, a escola devolve a sopa e exige o pagamento da multa contratual. O procedimento vivel nesta situao fazer esta avaliao atravs de uma amostra. Note que se a nutricionista tiver o cuidado de mexer suficientemente a sopa, conseguir um bom grau de homogeneidade no produto e uma pequena amostra retirada nestas condies ir conter os ingredientes aproximadamente na mesma proporo em que figuram na sopa. Neste caso, a amostra bem representativa da populao, o que permitir nutricionista fazer a avaliao com alto grau de preciso. No entanto, se a nutricionista no tiver o cuidado de mexer a sopa, pode ocorrer que a amostra selecionada no seja representativa da populao, o que conduzir a um erro de avaliao e a suas conseqncias.

33

AMOSTRAGEM

Se a nutricionista, mesmo mexendo a sopa, desconfia do grau de homogeneidade da sopa, a maneira de conseguir boa representatividade consiste em aumentar o tamanho da amostra. A anlise desta situao leva-nos a concluir que populaes com pequeno grau de variabilidade de seus elementos podem ser estudadas a partir de pequenas amostras. medida que esta variabilidade aumenta, necessrio aumentar o tamanho da amostra aleatria para manter sua representatividade. 3.2 AMOSTRAGEM o conjunto de tcnicas utilizadas para a seleo de uma amostra. Este conjunto de tcnicas pode ser subdividido em dois grupos bsicos: a amostragem aleatria e a amostragem no aleatria. 3.2.1 AMOSTRAGEM NO ALEATRIA: 3.2.1.1 AMOSTRAGEM INTENCIONAL Ocorre quando o pesquisador seleciona intencionalmente os componentes da amostra. 3.2.1.2 AMOSTRAGEM VOLUNTRIA Ocorre quando o componente da populao se oferece voluntariamente para participar da amostra independentemente do julgamento do pesquisador. Estas amostras no permitem o controle da variabilidade amostral, o que inviabiliza o controle da qualidade da estimao. 3.2.2 AMOSTRAGEM ALEATRIA: 3.2.2.1 AMOSTRAGEM ALEATRIA SIMPLES aquela em que se atribui aos grupos de mesma quantidade de elementos a mesma probabilidade de participar da amostra. Em particular, cada elemento da populao tem a mesma probabilidade de participar da amostra. Para se obter uma amostra aleatria simples, caso a populao seja finita, podemos atribuir a cada elemento um nmero. Fichas com esses nmeros podem ser misturadas em uma urna. O sorteio das fichas identifica os elementos que devero participar da amostra, garantindo a mesma chance para cada um deles. Uma maneira equivalente de sortear os elementos da amostra consiste no uso de uma Tabela de Nmeros Aleatrios (TNA) (ANEXO IV). Esta tabela contm nmeros previamente sorteados, de forma que, se iniciarmos em um ponto qualquer dessa tabela e anotarmos os nmeros na seqncia das linhas ou colunas a partir deste ponto inicial. Por exemplo, dada uma populao finita de 500 sargentos da Vila Militar dos quais nos interessa uma caracterstica comum (possuidores do Curso de Aperfeioamento de Sargentos), pelo Almanaque podemos coloc-los em ordem de antiguidade, e escolhida uma amostra de 30 sargentos, procede-se da seguinte forma:

34

AMOSTRAGEM

Primeiramente adotaremos um critrio para a leitura da TNA: comearemos lendo os nmeros da direita para a esquerda, de cima para baixo, tomados 3 a 3 (a populao tem n=500) ; e o ponto inicial ser o nmero contido na 5 linha e 3 coluna. Notemos que o nmero correspondente ao ponto inicial igual a 8. Logo passaremos a ler os nmeros com 3 dgitos tomando o cuidado de observar que os nmeros formados devem iniciar por 0, 1, 2, 3, 4 e 5(caso o nmero seja 500) .

116; 9; 467; 586; 082; 066; 69; 047; 56; 184; 6; 451; 112; 353; 245; 5; 041; 134; 322; 017; 031; 329; 69; 192; 75; 401; 65; 429; 7; 274; 99; 009; 5976; 100; 98; 243; 007; 56; 241; 004; 302; 046; 299; 053.
Ordenados os nmeros obtidos da TNA poderemos selecionar os sargentos baseados na antiguidade.

004; 007; 009; 017; 031; 041; 046; 047; 053; 066; 082; 100; 112; 116; 134; 184; 192; 241; 243; 245; 274; 299; 302; 322; 329; 353; 401; 429; 451; 467.

3.2.2.2 AMOSTRAGEM SISTEMTICA Quando se conhece uma listagem dos elementos da populao pode-se obter uma amostra aleatria de n elementos dividindo-se o nmero de elementos da populao pelo tamanho da amostra. Usando o nmero inteiro mais prximo anterior a esse resultado, selecionamos os elementos da lista que ocorrem com esta periodicidade. Por exemplo, dada uma populao finita de 1000 oficiais do CML dos quais nos interessa uma caracterstica comum (possuidores do Curso de Aperfeioamento de Oficiais), pelo Almanaque podemos coloc-los em ordem de antiguidade e escolhida uma amostra de 30 oficiais, procede-se da seguinte forma: 1. Dividimos o N da populao (1000) pelo valor de n da amostra (30) y = 1000 / 30 = 33,33 que aproximadamente 33. 2. Sorteia-se um nmero ao acaso entre 1 e 33, atravs de uma urna ou pela Tabela de Nmeros Aleatrios. Digamos que o resultado foi 12; 3. O primeiro elemento a ser relacionado na amostra seria o oficial que ocupasse a 12 posio na lista; o segundo seria o 45; o terceiro seria o 78; e assim somaramos o nmero 33 at obtermos os 30 elementos da amostra. 3.2.2.3 AMOSTRAGEM ESTRATIFICADA Pode ocorrer que a populao seja formada por subgrupos diferentes, mas cada um deles homogneo (por Pelotes, SU, U, por faixa etria, etc...). Neste caso, vamos selecionar aleatoriamente uma quantidade de cada grupo para formar a amostra, proporcional ao tamanho desse grupo.

35

AMOSTRAGEM

Por exemplo, dada uma populao finita de 10000 soldado do efetivo varivel incorporados no CML dos quais nos interessa uma caracterstica comum (resultado no 1 TAF) sabendo-se que esto dispostos em pelotes em suas respectivas Unidades podemos coloc-los em ordem de antiguidade e escolhida uma amostra de 600 soldados, procede-se da seguinte forma: 1. Inicialmente precisamos saber quantos Pelotes existem no CML, suporemos 33 homens por Peloto, o que nos dar um valor aproximado de 303 pelotes. 2. Dividiremos ento o n amostral (600) pelo nmero de Pelotes para sabermos quantos soldados de cada peloto deveremos avaliar. y = 500 / 33 = 1,98 que aproximadamente 2. 3. O prximo passo ser determinarmos randomicamente de que posies no peloto sero retirados os 2 elementos, o que pode ser feito por sorteio de 1 a 33 ou pela Tabela de nmeros Aleatrios (suporemos que foram sorteados os nmeros 7 e 32). 4. O primeiro elemento a ser relacionado de cada peloto ser o 7 militar da listagem do peloto; e o segundo ser o 32. 5. Notemos, porm, que se tomarmos 2 soldados por Peloto ao final da seleo teremos 606 soldados, sendo que a amostra necessria de 600 soldados. Uma opo seria um sorteio de descarte de 6 soldados relacionados, no entanto, julgamos que um n amostral maior do que o previsto implicar em uma maior preciso na estimao, recomendamos portanto que se mantenham os 606 soldados na amostra. 3.2.2.4 AMOSTRAGEM POR CONGLOMERADOS Em algumas situaes, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composio de populao. Neste caso, pode ser interessante realizar a amostragem usando somente os elementos desse grupo. Considerando-se que existe uma formao comum aos soldados do Efetivo Varivel (EV) durante o Perodo Bsico de Instruo, e ainda que os Objetivos de Instruo so comuns s Armas, Quadro e Servio, possivelmente no seria necessria uma amostragem mbito nacional para se verificar o estado da tropa, no tocante a estes objetivos comuns de instruo, bastaria verificar o estado atual dos soldados de um determinado Comando Militar de rea para que se obter inferncias sobre todos Soldados EV do Exrcito. 3.3 FRMULAS PARA A DETERMINAO DO TAMANHO DA AMOSTRA Ao iniciarmos um estudo normalmente nos deparamos com a dvida de qual o tamanho amostral necessrio para que possamos generalizar os resultados de nossa pesquisa, ou mesmo para termos a certeza de que a amostra selecionada ir bem representar a populao interesse. Para iniciarmos a amostragem propriamente dita devemos: a. nos certificar se a populao de interesse finita ou infinita (podemos considerar que uma populao infinita se N > 10000); b. estipular uma margem de erro para rejeio da hiptese nula, normalmente = 0, 05 (trataremos deste tipo de erro no Cap. 4); e c. estipular a margem de erro admitida entre a mdia amostra X e a mdia populacional

36

AMOSTRAGEM

Para um melhor ajuste do tamanho amostral deve-se ainda levar em considerao a proporo esperada de sucesso do evento estudado (p) em relao ao seu insucesso (q), sendo p = 1 q . O Quadro 18 apresenta 2 frmulas para o clculo do n amostral levando em considerao se a populao finita ou infinita. POPULAO INFINITA n = z( /2) . p.q.N e Onde: n= z( /2)= p= q= N= e = POPULAO FINITA n= z( /2) . p.q.N e ( N-1) + z( /2) . p.q.N

Nmero de elementos da amostra; Probabilidade aceita para o erro tipo I Proporo esperada de sucesso do evento; Proporo esperada de insucesso do evento; Nmero de elementos da populao; Erro padro de estimativa ao quadrado, onde e= X - ;
Quadro 18 Frmulas para o clculo do tamanho amostral.

Quando no se dispe de informaes sobre o valor de p deve-se realizar uma pramostragem com n1 elementos. Se o valor de n calculado nestas condies, for menor que n1, a pr-amostra j conter um nmero suficiente de elementos para garantir a preciso determinada. Caso valor de n for maior que n1, completa-se a pr-amostra selecionando-se (nn1) elementos. Em algumas situaes, o problema pode conter uma informao a respeito de p. Neste caso, esta informao poder ser utilizada no clculo de n. Se no houver informaes a respeito de p e no pudermos realizar uma a pramostragem, o clculo de n com p=0,5, levar a um tamanho da amostra com o conseqente problema de custo de amostragem associado (a amostra ser muito grande). Exemplo 1. Um pesquisador pretende avaliar a proporo de militares que respondero sim a uma determinada pergunta, com 95% de confiana de que no errar por mais de 3%. Para isto, selecionou ao acaso uma pr-amostra (n1 = 100 militares), e a proporo de respostas sim foi de 20% (20 dos 100). O clculo do n amostral que bem representar a populao de estudo, para a margem de erro adotada est descrito no Quadro 19. Onde: n1= z( /2)= p= q= N= e = Dado que: 100 (1,96) pois (1- =95%) 0,2 0,8 INFINITA (0,03) Logo: n = z( . p.q.N e n= (1,96) . 0,2 . 0,8 . (0,03)
/2)

n= 683 militares Portanto necessitaramos entrevistar mais 583 militares (683 - 100)

Quadro 19 Clculo do tamanho amostral para populao infinita.

37

AMOSTRAGEM

Exemplo 2. Um pesquisador est interessado em estimar a proporo de militares que faz uso do protweb em suas OM. Para isto, amostrou 80 militares de um cadastro de N = 400, cujas funes poderiam ser otimizadas pelo uso da ferramenta, consultando-os por telefone, e verificando que 30 faziam uso dirio do protweb. Caso desejasse determine o tamanho da amostra necessria para estimar esta proporo com 90% de confiana, e com erro um mximo de 4% em relao proporo populacional deveria executar os clculos conforme o Quadro 20. Onde: n1 = z( /2)= p= q= N= e = z( /2) . p.q.N e ( N-1) + z( /2) . p.q.N Logo n= (1,64) . 0,375. 0,625 . 400 (0,04) . 399 +(1,64) . 0,375. 0,625.400 n= 199 militares Portanto necessitaria entrevistar mais 119 militares (199-80) Dado que: n =

30 (1,64) pois (1- =90%) 30/80=0,375 0,625 400 (0,04)

Quadro 20 Clculo do tamanho amostral para populao finita (pr-amostra menor que a amostra necessria)

Exemplo 3. Um pesquisador est interessado em estimar a proporo de militares que faz uso do protweb nas OM da Vila Militar do Rio de Janeiro (N= 400 militares). No sendo possvel realizar uma pr-amostragem, e no existindo estudo anterior que lhe permitisse estimar o valor de p, foi obrigado a considerar p=0,5 (ou seja, 50% dos militares faz uso e 50% no faz uso do protweb). Caso desejasse determine o tamanho da amostra necessria para estimar esta proporo com 90% de confiana, e com erro um mximo de 4% em relao proporo populacional deveria executar os clculos conforme o Quadro 21. Onde: n1 = z( /2)= p= q= N= e = z( /2) . p.q.N e ( N-1) + z( /2) . p.q.N Logo n= (1,64) . 0,5. 0,5 . 400 (0,04) . 399 +(1,64) . 0,5. 0,5.400 n= 352,78 = 353 militares Portanto necessitaria entrevistar mais 353 militares Notemos a diferena em relao ao estudo que foi realizado com pr-amostragem. (353-199=154) Dado que: n =

---(1,64) pois (1- =90%) 0,5 0,5 400 (0,04)

Quadro 21 Clculo do tamanho amostral para populao finita (sem possibilidade de pr-amostragem)

Captulo 4
Probabilidade
Embora o clculo das probabilidades pertena ao campo da Matemtica, sua incluso neste manual se justifica pelo fato de a maioria dos fenmenos de que trata a Estatstica ser de natureza aleatria ou probabilstica. Conseqentemente, o conhecimento dos aspectos fundamentais do clculo de probabilidades uma necessidade essencial para o estudo da Estatstica Indutiva ou Inferencial. Procuramos resumir aqui os conhecimentos que julgamos necessrios para termos um ponto de apoio em nossos primeiros passos no caminho da Estatstica Inferencial. Esses passos sero apresentados no captulo seguinte, que trata da conceituao de varivel aleatria e das duas principais distribuies de probabilidades de variveis discretas e contnuas. 4.1 EXPERIMENTO ALEATRIO Em quase tudo, em maior ou menor grau, vislumbramos o acaso. Assim, da afirmao provvel que o meu time ganhe a partida de hoje pode resultar: a) que, apesar do favoritismo, ele perca; b) que, como pensamos, ele ganhe; c) que empate. Como vimos, o resultado final depende do acaso. Fenmenos como esse so chamados fenmenos aleatrios ou experimentos aleatrios, que so aqueles que, mesmo repetidos vrias, vezes sob condies semelhantes, apresentam resultados imprevisveis. 4.1.1 ESPAO AMOSTRAL (S) A cada experimento correspondem, em geral, um conjunto de vrios resultados possveis que recebe o nome de espao amostral, notado por S..Assim, ao lanarmos uma moeda, h dois resultados possveis: ocorrer cara ou ocorrer coroa. J ao lanarmos um dado h seis resultados possveis: 1, 2, 3, 4, 5 ou 6. Os dois experimentos citados anteriormente tm os seguintes espaos amostrais: a) Lanamento de uma moeda: S = {Ca, Co} b) Lanamento de um dado: S = {1, 2, 3, 4, 5, 6}. Do mesmo modo, como em dois lanamentos sucessivos de uma moeda podemos obter cara nos dois lanamentos, ou cara no primeiro e coroa no segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois lanamentos, o espao amostral : S = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}. Cada um dos elementos de S recebe o nome de ponto amostral. 2 um ponto amostral de S. 2 S

39 4.1.2 EVENTOS

PROBABILIDADE

Chamamos de evento qualquer subconjunto do espao amostral S de um experimento aleatrio (os eventos so denotados por letras arbicas maisculas). Assim, qualquer que seja E, se E S (E est contido em S), ento E um evento de S.

Se E = S, E chamado evento certo (com probabilidade 1 ou 100%). Se E S e E um conjunto unitrio, E chamado evento elementar. Se E = , E chamado evento impossvel. Exemplo: No lanamento de um dado, onde S = {l, 2, 3, 4, 5, 6}, temos: A = {2, 4, 6} S; logo; A um evento de S. B = {l, 2, 3, 4, 5, 6} S; logo, B um evento certo de S (B = S). C = {4} S; logo, C um evento elementar de S. D = S; logo, D um evento impossvel de S. Um evento sempre definido por uma sentena. Assim, os eventos acima podem ser definidos pelas sentenas: Obter um nmero par na face superior. Obter um nmero menor ou igual a 6 na face superior. Obter o nmero 4 na face superior. Obter um nmero maior que 6 na face superior. 4.2 PROBABILIDADE Dado um experimento aleatrio, sendo S o seu espao amostral, vamos admitir que todos os elementos de S tenham a mesma chance de acontecer, ou seja, que S um conjunto equiprovvel. Chamamos de probabilidade de um evento A (A P(A) = n(A) n(S) S) o nmero real P(A), tal que:

onde: n(A) o nmero de elementos de A; n(S) o nmero de elementos de S.

Exemplos: a. Considerando o lanamento de uma moeda e o evento A obter cara , temos: Dado que: P(A) = n(A) n(S) Onde : Logo : P(A) = n(A) = 1 = 50,00% S = {Ca, Co} n(S) = 2 n(A) = 1 A = {Ca} n(S) 2 Ou seja, a probabilidade de se obter cara no lanamento de uma moeda de ou 50,00%.

40

PROBABILIDADE

b. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento A obter um nmero par na face superior : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 3 = 1 = 50,00% A = {2, 4, 6} n(S) 6 2 n(A) = 3 Ou seja, a probabilidade de se obter um nmero par na face superior de um dado lanado de ou 50,00% c. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento B obter um nmero menor ou igual a 6 na face superior : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 6 = 1 = 100,00% B= {1, 2, 3, 4, 5, 6} n{B) = 6 n(S) 6 Ou seja, a probabilidade de se obter um nmero menor ou igual a 6 na face superior de um dado lanado de 1 ou 100,00% (a probabilidade do evento certo igual a 1). d. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento C obter um nmero maior que 6 na face superior : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 0 = 0 = 0,00% n(S) 6 C= n(D) = 0 Ou seja, a probabilidade de se obter um nmero maior que 6 na face superior de um dado lanado de 0 ou 0,00% (a probabilidade do evento impossvel igual a zero). 4.2.1 EVENTOS COMPLEMENTARES Sabemos que um evento pode ocorrer ou no. Sendo p a probabilidade de que ele ocorra (sucesso) e q a probabilidade de que ele no ocorra (insucesso), para um mesmo evento existe sempre a relao: p+q=1 q=1-p Assim, se a probabilidade de se realizar um evento e p = 1/5, a probabilidade de que ele no ocorra : q = 1 p q = 1- 1/5 q = 4/5 Sabemos que a probabilidade de tirar o valor 4 no lanamento de um dado : p = 1/6 Logo, a probabilidade de no tirar o valor 4 no lanamento de um dado : q = 5/6

41 4.2.2 EVENTOS INDEPENDENTES

PROBABILIDADE

Dizemos que dois eventos so independentes quando a realizao ou a no-realizao de um dos eventos no afeta a probabilidade da realizao do outro e vice-versa. Por exemplo, quando lanamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro. Se dois eventos so independentes, a probabilidade de que eles se realizem simultaneamente igual ao produto das probabilidades de realizao dos dois eventos. Assim, sendo p1 a probabilidade de realizao do primeiro evento e p2 a probabilidade de realizao do segundo evento, a probabilidade de que tais eventos se realizem simultaneamente dada por: P(1;2) = p1 . p2 Exemplo: Considerando o lanamento de dois dados, vamos calcular a probabilidade do evento D obter o nmero 1 no primeiro dado e o nmero 3 no segundo dado : Dado que: P(1;2) = p1 . p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 . 1 = 1 p2 = 1/ 6 6 6 36 Ou seja, a probabilidade de se obter o nmero 1 no primeiro dado e o nmero 3 no segundo dado, lanados ao mesmo tempo de 1/36 ou 2,78%. 4.2.3 EVENTOS MUTUAMENTE EXCLUSIVOS Dizemos que dois ou mais eventos so mutuamente exclusivos quando a realizao de um exclui a realizao do(s) outro(s). Assim, no lanamento de uma moeda, o evento tirar cara e o evento tirar coroa so mutuamente exclusivos, j que, ao se realizar um deles, o outro no se realiza. Se dois eventos so mutuamente exclusivos, a probabilidade de que um ou outro se realize igual soma das probabilidades de que cada um deles se realize: P(1;2) = p1
+

p2

a. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento E obter o nmero 2 ou o nmero 3 : Dado que: P(1;2) = p1 + p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 + 1 = 1 p2 = 1/ 6 6 6 3 Ou seja, a probabilidade de se obter o nmero 2 ou o nmero 3 no lanamento de um dado de 1/3 ou 33,33%.

42

PROBABILIDADE

b. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento E obter o nmero 1 ou o nmero 6 : Dado que: P(1;2) = p1 + p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 + 1 = 1 p2 = 1/ 6 6 6 3 Ou seja, a probabilidade de se obter o nmero 2 ou o nmero 3 no lanamento de um dado de 1/3 ou 33,33%. EXERCCIOS RESOLVIDOS 1) Qual a probabilidade de sair o s de ouros quando retiramos uma carta de um baralho de 52 cartas? Como s h um s de ouros, o nmero de elementos do evento 1, logo: p = 1/52 2) Qual a probabilidade de sair um rei quando retiramos uma carta de um baralho de 52 cartas? Como h 4 reis, o nmero de elementos do evento 4; logo: p = 4/52 = 1/13 3) Em um lote de 12 peas, 4 so defeituosas. Sendo retirada uma pea, calcule: a. a probabilidade de essa pea ser defeituosa, temos: p = 4/12 = 1/3 b. a probabilidade de essa pea no ser defeituosa. Sendo este evento e o anterior complementares, temos: p =1 - 4/12 = 2/3 4) No lanamento de dois dados, calcule a probabilidade de se obter soma igual a 5. O evento formado pelos elementos (1, 4), (2, 3), (3, 2) e (4, 1). Como o nmero de elementos de S 36, temos: Sendo: n(A)=4 n(S)=36 logo p = 4/36 = 1/9

5) De dois baralhos de 52 cartas retiram-se, simultaneamente, uma carta do primeiro baralho e uma carta do segundo. Qual a probabilidade de a carta do primeiro baralho ser um rei e a do segundo ser o 5 de paus? Temos: Dado que: P(R;5) = pR . p5 Onde : Logo : pR = 4/ 52 = 1/ 13 P(R;5)= 1 . 1 = 1 p5 = 1/52 13 52 676

43

PROBABILIDADE

6) Uma urna A contm: 3 bolas brancas, 4 pretas, 2 verdes; uma urna B contm: 5 bolas brancas, 2 pretas, 1 verde; uma urna C contm: 2 bolas brancas, 3 pretas, 4 verdes. Uma bola retirada de cada urna. Qual a probabilidade de as trs bolas retiradas da primeira, segunda e terceira urnas serem, respectivamente, branca, preta e verde? Temos: p1 = 3/9 = 1/ 3 ; p2= 2/8 = 1/4 ; p3 = 4/9 Como os trs eventos so independentes e simultneos, vem: P(1;2;3) = p1 . p2 . p3 P(1;2;3) =1/3 . 1/4 .4/9 = 1/27 7) De um baralho de 52 cartas retiram-se, ao acaso, duas cartas sem reposio. Qual a probabilidade de a primeira carta ser o s de paus e a segunda ser o rei de paus? A probabilidade de sair o s de paus na primeira carta : pA = 1/52 Aps a retirada da primeira carta, restam 51 cartas no baralho, j que a carta retirada no foi reposta. Assim, a probabilidade de a segunda carta ser o rei de paus : PR = 1/51 Como esses eventos so independentes, temos: P(A;R) = pA . pR P(A;R) =1/52 . 1/51 = 1/2652 4.3 EMPREGO DA PROBABILIDADE PARA COMPROVAO DE HIPTESES Normalmente se pergunta quais as chances de que certas coisas aconteam. Usamos a probabilidade nos eventos dirios. Quais so as chances de que chova? Ouvimos um meteorologista dizer que a probabilidade de chuva de 90/o. Queremos saber se isto significa que ir chover em 90% dos lugares ou, melhor, que as chances so de 90% de que ir chover onde estamos. Os termos probabilidade subjetiva ou probabilidade personalstica so usados para descrever esse conceito. Um segundo conceito de probabilidade chamado de eventos igualmente provveis. Por exemplo, ao jogarmos um dado, as chances dos nmeros de 1 a 6 ocorrerem so igualmente provveis. A terceira abordagem da probabilidade envolve o limite da freqncia relativa. Para ilustrar, suponha que joguemos uma moeda 100 vezes esperaramos 50 caras, mas se obtivermos 45, ento fr= 0,45. Jogando 1000 vezes, esperaramos 500 caras, entretanto, podemos obter 490 caras, fr= 0,490. Se jogarmos 100000, e obtivssemos 49995 caras, fr=0,49995, note que, quanto maior o valor de n, o limite da freqncia relativa tende a probabilidade real do evento ocorrer, ou seja, 0,5. Em um teste estatstico, extramos uma amostra de uma populao de sujeitos e eventos. Usamos afirmativas de probabilidade para descrever a confiana que depositamos nos achados estatsticos.

44

PROBABILIDADE

Freqentemente, encontraremos um teste estatstico seguido pelo enunciado da probabilidade tal como p < 0,05. Esta interpretao seria que uma diferena ou relao deste tamanho seria esperada menos do que 5 vezes em 100, como um resultado de chance. 4.3.1 ALFA ( ) Em pesquisa, o teste estatstico comparado a uma tabela de probabilidade para aquela estatstica, a qual lhe dir qual a chance de ocorrncia. O experimentador pode estabelecer um nvel aceitvel de chance de ocorrncia ( ) antes do estudo. Este nvel de chance de ocorrncia pode variar de baixo a alto, mas nunca ser eliminado. Em pesquisa comportamental, alfa (a probabilidade de ocorrncia de chance) freqentemente de 0,05 ou 0,01 (as possibilidades de que os achados so devidos chance so ou de 5 em 100 ou de 1 em 100). Em um estudo o experimentador pode cometer 2 tipos de erro: O erro tipo I rejeitar a hiptese nula quando a hiptese nula verdadeira. Por exemplo, um pesquisador conclui que existe diferena entre dois mtodos de treinamento, mas na verdade no existe. O erro tipo II no rejeitar a hiptese nula quando a hiptese nula falsa. No exemplo anterior um pesquisador poder concluir que no existe diferena entre os dois mtodos de treinamento, mas na verdade existe. A Tab.13 chamada de tabela da verdade, a qual demonstra erros tipo I e II. Como voc pode ver, aceitar uma hiptese nula verdadeira, ou rejeitar uma falsa a deciso correta. Controlamos os erros tipo I estabelecendo alfa. Por exemplo, se alfa estabelecido em 0,05, ento, se 100 experimentos so realizados, uma hiptese nula verdadeira de no-diferena ou de no relao entre as variveis, seria rejeitada somente em 5 ocasies. Embora as chances do erro ainda existam, o experimentador especificou-as exatamente pelo estabelecimento de alfa antes do estudo. Tabela 13 - Tabela da verdade Aceitao Rejeio Ho verdadeira Deciso correta Erro tipoII ( ) Ho falsa Erro tipoI ( ) Deciso correta

Deve-se de estipular o tamanho do erro tipo I que se est disposto a cometer, antes do inicio de um experimento. Por exemplo, mais importante que evitemos concluir que um mtodo de treinamento melhor do que o outro, quando ele realmente no (Tipo I), do que concluirmos que um mtodo no melhor do que outro quando ele realmente (Tipo II)?

45

PROBABILIDADE

Por exemplo, em um estudo do efeito de um remdio para o cncer, o experimentador pode no querer aceitar a hiptese nula de nenhum efeito , se existe alguma chance da droga fazer efeito. Assim, o experimentador pode estabelecer um alfa de 0,30 sempre, embora as chances de acontecer um erro tipo I possam ser aumentadas. O experimentador est garantindo que a droga tem todas as oportunidades de mostrar sua efetividade. Por outro lado, estabelecer um alfa de 0,001 diminui enormemente as chances do erro tipo I ocorrer. No podemos dizer onde estabelecer o alfa; entretanto, podemos dizer que os nveis 0,05 ou 0,01 so amplamente utilizados na comunidade cientfica. Se o alfa for movido para cima ou para baixo, certifique-se de justificar a razo. Mesmo quando os experimentadores estabelecem o alfa em um nvel especfico (p. ex., 0,05) antes da pesquisa, eles freqentemente relatam o alfa para os efeitos especficos do estudo no nvel que ocorreu (p. ex., p 0,012). No h nada de errado com este procedimento, na medida em que esto somente demonstrando em que grau o nvel de probabilidade excedeu o nvel especificado. Uma abordagem mais adequada pode ser a de relatar o nvel exato de probabilidade (p. ex., p 0,024) associado com o teste estatstico (p. ex., r; t). Ento avaliaremos o significado da diferena ou relao. Usando a informao estatstica (significncia e significado), o pesquisador deve interpretar os resultados dentro da teoria e hipteses que foram formuladas. Em vez de tomar uma deciso somente estatstica, esta abordagem coloca a responsabilidade da tomada de deciso onde ela deve estar no pesquisador que colocou o estudo em um modelo terico, e que considerou pesquisas relacionadas. 4.3.2 BETA ( ) Embora a magnitude do erro tipo I seja especificada pelo alfa, podemos tambm conter o erro tipo II, cuja magnitude determinada por beta ( ). Observando a Fig. 19 , podemos notar a sobreposio da distribuio de escores na varivel dependente para X (a distribuio da amostragem se a hiptese nula verdadeira) e Y (a distribuio da amostragem se a hiptese nula falsa).
Distribuio da amostragem sob Ho Distribuio da amostragem se Ho falsa

1-

Y X Figura 17. reas de distribuio do erro tipo II

46

PROBABILIDADE

Pela especificao do alfa, indicamos que a mdia de Y (dado uma certa distribuio) deve ser em uma distncia especificada da mdia de X antes da hiptese nula ser rejeitada. Entretanto, se a mdia de Y localiza-se em algum lugar entre a mdia de X e o Y especificado, voc poder estar cometendo um erro tipo II ( ); isto , voc no rejeita a hiptese nula quando, de fato, existe uma diferena verdadeira. Como podemos ver, existe uma relao entre alfa e beta; por exemplo, medida que alfa diminudo, beta torna-se maior. 4.3.3 SIGNIFICADO (tamanho do efeito) Alm de reportar a significncia dos resultados, estudiosos precisam se preocupar com o significado dos resultados em suas pesquisas. O significado da diferena entre duas mdias pede ser estimado de vrias formas, mas uma forma que tem ganhado muita ateno recentemente o tamanho do efeito (sugerido por Cohen,1969). A frmula do Tamanho do Efeito (TE) : TE = (M1 - M2 )/ s Esta frmula subtrai a mdia de um grupo (M1) da mdia do segundo grupo (M2 ), e divide a diferena pelo desvio-padro. Isto coloca a diferena entre as mdias na mtrica comum chamada de unidades de desvio-padro , a qual pode ser comparada s orientaes para a pesquisa comportamental sugeridas por Cohen (1969): 0,2 ou menos um TE pequeno; 0,5 aproximadamente um TE moderado; 0,8 ou maior um TE grande. 4.3.4 PODER Poder a probabilidade de rejeitar a hiptese nula quando esta falsa (p. ex., detectando uma diferena real), ou a probabilidade de tomar a deciso correta. Ter poder na anlise estatstica importante porque isto aumenta as chances de rejeitar a hiptese nula falsa. claro que, at certo ponto, na pesquisa comportamental, a hiptese nula sempre falsa! O que este enunciado reflete que em pesquisa comportamental as mdias dos dois grupos nunca so as mesmas. Assim, se suficientes sujeitos so obtidos (uma forma de obter poder), quaisquer duas mdias podem ser declaradas significativamente diferentes. As questes mais interessantes em pesquisa comportamental so: 1. O quanto uma diferena importante na teoria e/ou na prtica? 2. Quantos sujeitos so necessrios para declarar uma diferena importante como significante? Entendendo o conceito de poder pode-se responder s duas questes anteriores. Se um pesquisador pode identificar o tamanho de um importante efeito por meio de pesquisas prvias ou simplesmente estimar um tamanho do efeito (p. ex., 0,5 um TE moderado, tambm chamado delta, ), estabelecer quanto de poder aceitvel (p. ex., uma estimativa comum em cincia comportamental 0,8), ento o tamanho da amostra necessrio para o estudo pode ser estimado.

47

PROBABILIDADE

As Figuras 20 e 21 oferecem uma viso da relao entre o tamanho da amostra, (eixo y), o poder (eixo x), e o tamanho do efeito (curva TE), quando alfa 0,05 ou 0,01. Considere o seguinte exemplo: No planejamento de um estudo, o investigador ter dois grupos que sero randomicamente formados, mas ele no sabe quantos sujeitos so necessrios para cada grupo para detectar uma diferena significativa entre os tratamentos. Entretanto, existem vrios estudos relacionados e o investigador calculou um TE mdio = 0,70 favorecendo o grupo experimental nos resultados desses estudos. O investigador decide estabelecer alfa = 0,05 e quer proteger beta em 4 vezes o nvel de alfa (assim, beta 0,20) porque Cohen (1988) sugeriu que em cincias comportamentais, a seriedade do erro do tipo I para o tipo II dever ter a razo de 1 para 4 (0,05 x 4 = 0,20). Uma vez que o poder 1 - beta (1,0 - 0,2 = 0,8), ento o poder estabelecido em 0,8 (freqentemente recomendado como poder adequado em pesquisa comportamental, Green, 1991, p. 502). n para 400 cada grupo
300 200 TE=0,4 100 TE=0,5 TE=0,6 050 TE=0,7 TE=0,8 500 TE=0,2 TE=0,3

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Poder

Figura 20 - Curva do tamanho do efeito para = 0,05, teste bicaudal.

n para cada grupo

500 400 300 200

TE=0,2 TE=0,3

TE=0,4 TE=0,5

100

TE=0,6 TE=0,7 TE=0,8

050

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Poder

Figura 21 - Curva do tamanho do efeito para = 0,01, teste bicaudal.

48

PROBABILIDADE

Quando as informaes prvias so conhecidas (alfa, TE e poder), ento o nmero de sujeitos necessrios em cada um dos dois grupos pode ser estimado da Fig. 20 Deve-se ler a curva TE 0,70 por onde atravessa o eixo x (poder) em 0,8, e ento, ler atravs do eixo y (tamanho da amostra) e observar que 30 sujeitos sero necessrios para cada grupo. Conforme o nmero de sujeitos em cada grupo reduzido, o poder reduzido (dado o mesmo TE). Analisando a Fig. 21 (alfa = 0,01), nota-se que para o mesmo nvel de poder (0,8) e TE (0,70), o nmero de sujeitos necessrios aumenta de 30 (como na Fig. 20, onde alfa 0,05) para 50. Pode-se verificar, que para um alfa mais rigoroso (p. ex., 0,05 a 0,01), um maior nmero de sujeitos requerido para detectar uma diferena significativa.

Captulo 5
Distribuies Binomial e Normal
O que pretendemos neste captulo, apresentar dois modelos tericos de distribuio de probabilidade, aos quais um experimento aleatrio estudado possa ser adaptado, o que permitir a soluo de grande nmero de problemas prticos. 5.1 VARIVEL ALEATRIA Suponhamos um espao amostral S, e que, a cada ponto amostral seja atribudo um nmero. Fica, ento, definida uma funo chamada varivel aleatria, indicada por uma letra maiscula, sendo seus valores indicados por letras minsculas. Assim, se o espao amostral relativo ao lanamento simultneo de duas moedas 4 {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)} e se X representa o nmero de caras que aparecem, a cada ponto amostral podemos associar um nmero para X, de acordo com a Tab. 14. Tabela 14 - Resultados possveis do lanamento simultneo de 2 moedas. Ponto amostral (Ca, Ca) (Ca, Co) (Co, Ca) (Co, Co) total 5.2 DISTRIBUIO DE PROBABILIDADE Consideremos a distribuio de freqncias relativa ao nmero de punies semanais em uma companhia, durante o primeiro semestre do ano de instruo, de acordo com a Tab. 15. Tabela 15 - Punies disciplinares durante o primeiro semestre do ano de instruo. Nmero de punies 0 1 2 3 4 5 6 7 8 total fi 2 3 4 1 5 2 1 2 6 26 Probabilidade de ocorrncia 7,69% 11,53% 15,38% 3,85% 19,23% 7,69% 3,85% 7,69% 23,08% 100,00% x 2 1 1 0 4

50

DISTRIBUIES BINOMIAL E NORMAL Em suma, pode-se extrair da Tab. 15 as seguintes observaes: a. a probabilidade estimada de no ocorrer punio disciplinar de 7,69%; b. a probabilidade estimada de ocorrer uma punio disciplinar de 11,53%; c. a probabilidade estimada de ocorrerem duas punies disciplinares de 15,38%; e d. ocorrerem oito punies disciplinares de 23,08%.

Da Tab. 15 poderamos escrever a Tab. 16, denominada tabela de distribuio de probabilidade. Tabela 16 - Probabilidade de ocorrncia de punies disciplinares durante o primeiro semestre do ano de instruo Nmero de punies 0 1 2 3 4 5 6 7 8 total fi 2 3 4 1 5 2 1 2 6 26 Probabilidade de ocorrncia 7,69% 11,53% 15,38% 3,85% 19,23% 7,69% 3,85% 7,69% 23,08% 100,00%

Seja X uma varivel aleatria que pode assumir os valores x1, x2, x3,...,xn, a cada valor xi correspondem pontos do espao amostral. Associamos, ento, a cada valor xi a probabilidade fri de ocorrncia de tais pontos no espao amostral. Assim, temos: fri = 1 Os valores x1, x2, x3,...,xn, e suas correspondentes fr1, fr2, fr3,..., frn, definem uma distribuio de probabilidade. Assim, voltando Tab. 16, temos a Tab. 17: Tabela 17 - Verificao das freqncias em que aparece o resultado cara Ponto amostral (Ca, Ca) (Ca, Co) (Co, Ca) (Co, Co) total x 2 1 1 0 4 P(X)=fri 1/2 .1/2=1/4 1/2 .1/2=1/4 1/2 .1/2=1/4 1/2 .1/2=1/4

Verifiquemos que os pontos amostrais (Ca, Co) e (Co, Ca) apresentam cara uma vez, de forma que a probabilidade de sair cara uma vez 1/4 + 1/4 = 2/4.

51

DISTRIBUIES BINOMIAL E NORMAL

Logo, podemos escrever a Tab. 17, conforme sua distribuio de probabilidades, de acordo com a Tab. 18: Tabela 18 - Verificao das freqncias em que aparece o resultado cara. Nmero de caras 2 1 0 fri fri 1/4 2/4 1/4 1

Ao definirmos a distribuio de probabilidade, estabelecemos uma correspondncia unvoca entre os valores da varivel aleatria X e os valores da varivel P. Esta correspondncia define uma funo; os valores x (i = 1, 2 n) formam o domnio da funo e os valores P (i = 1, 2, 3, ..., n), o seu conjunto imagem. Essa funo, assim definida, denominada funo probabilidade representada por: f(x) = P (X = xi) A funo P (X = xi) determina a distribuio de probabilidade da varivel aleatria X. Assim, ao lanarmos um dado, a varivel aleatria X, definida por pontos de um dado , pode tomar os valores 1, 2, 3, ..., 6. Como a cada um destes valores est associada uma e uma s probabilidade de realizao e P(xi) = 1, fica definida uma funo de probabilidade, da qual resulta a distribuio de probabilidade Tab. 19: Tabela 19 - Distribuio de probabilidade do lanamento de um dado. X 1 2 3 4 5 6 5.3 DISTRIBUIO BINOMIAL Vamos, neste item, considerar experimentos que satisfaam as seguintes condies: (n). a. O experimento deve ser repetido, nas mesmas condies, um nmero finito de vezes P(X) 1/6 1/6 1/6 1/6 1/6 1/6 1

P(X)=

b. As provas repetidas devem ser independentes, isto , o resultado de uma no deve afetar os resultados das sucessivas. c. Em cada prova deve aparecer um dos dois possveis resultados: sucesso e insucesso. d. No decorrer do experimento, a probabilidade p do sucesso e a probabilidade q (q = 1p) do insucesso manter-se-o constantes. Resolveremos problemas do tipo: determinar a probabilidade de se obterem k sucessos em n tentativas. O experimento obteno de caras em cinco lanamentos sucessivos e independentes de uma moeda satisfaz essas condies.

52

DISTRIBUIES BINOMIAL E NORMAL

Sabemos que, quando da realizao de um experimento qualquer em uma nica tentativa, se a probabilidade de realizao de um evento (sucesso) p, a probabilidade de no-realizao desse mesmo evento (insucesso) 1 - p = q. Suponhamos, agora, que realizemos a mesma prova n vezes sucessivas e independentes. A probabilidade de que um evento se realize k vezes nas provas dada pela funo: f(X) = P(X = k) = n! k! (n- k)! . pk . qn-k

na qual: P(X = k) a probabilidade de que o evento se realize k vezes em n provas; p a probabilidade de que o evento se realize em uma s prova sucesso; q a probabilidade de que o evento no se realize no decurso dessa prova n! o coeficiente binomial de n sobre k. k! (n- k)! Essa funo, denominada lei binomial, define a distribuio binomial. EXERCCIOS RESOLVIDOS

insucesso;

1) Uma moeda lanada 5 vezes seguidas e independentes. Calcule a probabilidade de serem obtidas 5 caras nessas 5 provas. Pela lei binomial, podemos escrever: Dado que: P(X = k) = n! . pk . qn-k k! (n- k)! Onde: n=5 Logo: k=3 P(X = 3) = 5! . (1/2)3 . (1/2)5-2 3! (5- 3)! p=1/2 q=1/2 P(X = 3) = 5x4x3x2x1 . 1/8 . 1/4 3x2x1x2x1 P(X = 3) = 5/16 2) Dois times de futebol, A e B, jogam entre si 6 vezes. Encontre a probabilidade de o time A ganhar 4 jogos. Pela lei binomial, podemos escrever: Dado que: P(X = k) = Onde: n=6 k=4 p=1/3 q=2/3 n! . pk . qn-k k! (n- k)! Logo: P(X = 4) = 6! . (1/3)4 . (2/3)6-4 4! (6- 4)! P(X = 4) = 6x5x4x3x2x1 . 1/81 . 4/9 4x3x2x1x2x1 P(X = 4) = 20/243

53

DISTRIBUIES BINOMIAL E NORMAL

5.4 DISTRIBUIO NORMAL - CURVA NORMAL Entre as distribuies tericas de varivel aleatria contnua, uma das mais empregadas a distribuio normal descrita na Fig. 22.

Figura 22 - Aspecto grfico de uma distribuio normal.

Para uma perfeita compreenso da distribuio normal, observe a Fig. 22 e procure visualizar as seguintes propriedades: a. A varivel aleatria X pode assumir todo e qualquer valor real; b. A representao grfica da distribuio normal uma curva em forma de sino, simtrica em torno da mdia (X), que recebe o nome de curva normal ou de Gauss; c. A rea total limitada pela curva e pelo eixo das abscissas igual a 1, j que essa rea corresponde probabilidade de a varivel aleatria X assumir qualquer valor real; d. A curva normal assinttica em relao ao eixo das abscissas, isto , aproxima-se indefinidamente do eixo das abscissas sem, contudo, alcan-lo; e e. Como a curva simtrica em torno da X, a probabilidade de ocorrer valor maior do que a mdia igual probabilidade de ocorrer valor menor do que a mdia, isto , ambas as probabilidades so iguais a 0,5. Escrevemos: P(X> X) = P(X < X) = 0,5. Quando temos em mos uma varivel aleatria com distribuio normal, nosso principal interesse obter a probabilidade de essa varivel aleatria assumir um valor em um determinado intervalo. Vejamos como proceder, por meio de um exemplo concreto. Seja X a varivel aleatria que representa os dimetros dos cartuchos de 9mm produzidos por certa mquina, supondo que essa varivel tenha distribuio normal com mdia X = 9 mm e desvio padro S = 0,04 mm. Pode haver interesse em conhecer a probabilidade de um cartucho ter um dimetro com valor entre 9 e 9,05 mm fcil notar que essa probabilidade, indicada p P(9 < X < 9,05), correspondente rea hachurada na Fig. 23.

54

DISTRIBUIES BINOMIAL E NORMAL

9 9,05
Figura 23 - Probabilidade de X encontrar-se entre 9mm e 9,05mm.

O clculo direto dessa probabilidade exige um conhecimento de Matemtica mais avanado do que aquele que dispomos no curso de 2 grau. Entretanto, podemos contornar facilmente esse problema. Basta aceitar, sem demonstrao, que, se X uma varivel aleatria com distribuio normal de mdia X e desvio padro s, ento a varivel z tem distribuio normal reduzida, isto , tem distribuio normal de mdia o e desvio padro 1. z = xi X s As probabilidades associadas distribuio normal padronizada so encontradas em tabelas, no havendo necessidade de serem calculadas. O Anexo V contm uma tabela de distribuio normal reduzida, que nos d a probabilidade de Z tomar qualquer valor entre a mdia 0 e um dado valor z, isto : P(0 < Z < z) Temos, ento, que se X uma varivel aleatria com distribuio normal de mdia X e desvio padro s, podemos escrever: P(X< X < x) = P(0 < Z < z), com z = xi X s Voltemos, ento, ao nosso problema. Queremos calcular P(9 < X < 9,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular o valor de z que corresponde a x = 9,05 (x = 9 z = 0, pois X = 9). Temos, ento: z = xi X = 9,05 9 = 0,05 = 1,25 s 0,04 0,04 donde: P(9 < X < 9,05) = P(0 < X < 1,25) Procuremos, agora, no Anexo V o valor de z = 1,25. Na primeira coluna encontramos o valor 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que corresponde ao ltimo algarismo do nmero 1,25. Na interseco da linha e coluna correspondentes encontramos o valor 0,3944, o que nos permite escrever: P(0 < Z < 1,25) = 0,3944

55

DISTRIBUIES BINOMIAL E NORMAL

Assim, a probabilidade de uma munio 9mm ,fabricada por essa mquina, apresentar um dimetro entre a mdia 9mm e o valor x = 9,05mm 0,3944. Escrevemos, ento: P(9 < X < 9,05) = P(0 < Z < 1,25) = 0,3944 ou 39,44% EXERCCIOS RESOLVIDOS 1. Determine as probabilidades: 1.a. P( -1,25 < Z < 0) A probabilidade procurada corresponde parte hachurada da figura: Sabemos que: P(0 < Z < 1,25) = 0,3944 Pela simetria da curva, temos:
- 1,25 0

P( - 1,25 < Z< 0) = P(0 <Z < 1,25) = 0,3944

1.b. P(- 0,5 < Z < 1,48) A probabilidade procurada corresponde parte hachurada da figura: Temos que P(- 0,5 < Z < 1,48) = P(- 0,5 < Z < 0)+ P( 0 < Z < 1,48) Como:
- 0,5 0 1,48

P( - 0,5 < Z< 0) = P(0 <Z < 0,5) = 0,1915 P( 0 < Z< 1,48) = 0,4306 Obtemos: P(- 0,5 < Z < 1,48) =0,1915 +0,4306 = 0,6221

1.c. P(0,8 < Z < 1,23) A probabilidade procurada corresponde parte hachurada da figura: Temos que P( 0,8 < Z < 1,23) = P( 0 < Z < 1,23) - P( 0 < Z < 0,8) Como:
00,8 1,23

P( 0 < Z< 1,23 ) = 0,2881 P( 0 < Z< 0,8) = 0,1026 Obtemos: P( 0,8 < Z < 1,23) = 0,2881 -0,1026 = 0,1855

56 1.d. P(Z > 0,6)

DISTRIBUIES BINOMIAL E NORMAL

A probabilidade procurada corresponde parte hachurada da figura: Temos que P( Z > 0,6 ) = P( Z > 0) - P( 0 < Z < 0,6) Como:
0 0,6

P( Z > 0) = 0,5 e P( 0 < Z < 0,6) = 0,2258 Obtemos: P( Z > 0,6 ) = 0,5 0,2258 = 0,2742

1.e. P(Z < 0,92) A probabilidade procurada corresponde parte hachurada da figura: Temos que P( Z < 0,92 ) = P( Z < 0) + P( 0 < Z < 0,92) Como:
0 0,92

P( Z < 0) = 0,5 e P( 0 < Z < 0,92) = 0,3212 Obtemos: P( Z > 0,6 ) = 0,5 + 0,3212= 0,8212

2. Admitindo-se que 500 alunos de um curso de ps-graduao esto distribudos normalmente em torno de um grau final de curso 8,5 e com desvio padro de 0,8, e em se querendo selecionar 10% destes alunos para realizarem um curso de aperfeioamento, que nota deveria ser o ponto de corte para a seleo? Devemos inicialmente determinar os valores da varivel de distribuio reduzida. Assim: Temos que zxi deve conter todos os valores menores que o ponto de corte que de 10,00%, logo, devemos encontrar o valor de z que represente 40% dos valores maiores que a mdia (0,4000) por interpolao o zxi = 1,28 . 40,00% / 39,97% zxi = 1,2810 Se ento zxi = xi X s xi = zxi . s +X

zxi

logo: xi = 1,2810 . 0,8 + 8,5= 9,5248

Captulo 6
Correlao e Regresso
6.1 INTRODUO Este captulo discute brevemente vrios tipos de correlao, a significncia dos coeficientes correlacionais, bem como o uso de correlaes para previses, incluindo as correlaes parciais. A correlao uma tcnica estatstica utilizada para determinar o relacionamento entre duas ou mais variveis. Freqentemente um pesquisador est interessado no grau de relacionamento entre variveis. A correlao pode envolver duas variveis (correlao simples), tais como o relacionamento entre a altura e o peso, como tambm trs ou mais variveis (correlao mltipla), como quando algum investiga o relacionamento entre um critrio (varivel dependente) tal como fora muscular e duas ou mais variveis determinantes (variveis independentes), como o peso corporal, porcentagem de gordura, resistncia muscular. 6.2 COEFICIENTE DE CORRELAO DE PEARSON O coeficiente de correlao de Pearson (r) um valor quantitativo do relacionamento entre duas ou mais variveis, podendo variar entre 0,00 (correlao nula) e 1,00 (correlao perfeita) tanto na direo positiva quanto na negativa. Portanto, - 1,00 < r < +1,00. Nesse tipo de correlao, existe uma varivel critrio (ou dependente) e uma varivel preditora (ou independente). O r pode ser calculado pela frmula: r= n XY ( X).( Y) n X ( X) n Y ( Y)

De acordo com a fora da relao entre as variveis, a correlao pode ser positiva, negativa ou nula. Quando os escores de cada par ordenado so plotados em um grfico de disperso, formam uma elipse, que quanto mais prxima de uma reta, mais perfeita ser a correlao entre as variveis, conforme as Fig. 24a e Fig. 24c. Quando virtualmente no existe relao entre variveis, a correlao tende a 0,00. Isso denota independncia entre os grupos de escores, que no exibem um padro discernvel, conforme a Fig. 24b.
CORRELAO POSITIVA
Y 145 130 115 100 85 70 55 40 20 30 40 50 60 70 X

CORRELAO NULA
Y 145 130 115 100 85 70 55 40 20 30 40 50 60 70 X
Y 145 130 115 100 85 70 55 40 20

CORRELAO NEGATIVA

30

40

50

60

70 X

Figura 24a Correlao positiva

Figura 24b Correlao nula

Figura 24c Correlao negativa

58

CORRELAO E REGRESSO

Uma correlao positiva existe, quando uma pequena quantidade da varivel X associada com uma pequena quantidade da varivel Y , e uma grande quantidade da varivel X associada com uma grande quantidade da varivel Y. A Tab. 20 apresenta o clculo de r para as variveis: peso corporal (X) e fora muscular (Y). Tabela 20 Clculo do coeficiente de correlao de Pearson. i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Peso Fora (X) (Y)


30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 720 58 68 65 78 80 76 92 90 100 98 103 104 114 112 115 120 1473

XY
1740 2176 2210 2808 3040 3040 3864 3960 4600 4704 5150 5408 6156 6272 6670 7200 68998

X
900 1024 1156 1296 1444 1600 1764 1936 2116 2304 2500 2704 2916 3136 3364 3600 33760

Y
3364 4624 4225 6084 6400 5776 8464 8100 10000 9604 10609 10816 12996 12544 13225 14400 141231 Sendo:

Clculo de r
n X ( X) n = 16 X = 720 e ( X)= 518400 Y = 1473 e ( Y)= 2169729 XY = 68998 X = 33760 Y = 141231 r = n XY ( X).( Y) n Y ( Y)

r= r=

16. 68998 720. 1473 16. 33760 518400 16. 141231 2169729 1103968 1060560 540160 518400 2259696 2169729 43408 147,5127 . 299,945

r=

r = 0,98107

A Fig. 25 uma ilustrao grfica da correlao positiva (r = 0,98107) quase perfeita.


CORRELAO ENTRE FORA MUSCULAR E PESO CORPORAL
Lb 145 130 115 100 X=92,1 85 70 55 40 20

X=45
30 40 50 60 70 Kg

figura 25 Grfico de disperso da relao fora muscular X peso corporal.

O peso corporal e a fora muscular esto correlacionados positivamente nos sujeitos mais pesados, j que esses so geralmente mais fortes do que os mais leves. A correlao no perfeita porque encontramos sujeitos mais leves que so mais fortes do que sujeitos mais pesados, como por exemplo os sujeitos: 2 e 3; 5 e 6; 7 e 8; 9 e 10; 13 e 14.

59

CORRELAO E REGRESSO

Uma correlao negativa existe, quando uma pequena quantidade da varivel X associada com uma grande quantidade da varivel Y , e uma grande quantidade da varivel X associada com uma pequena quantidade da varivel Y. A Tab.21 apresenta o clculo de r para as variveis: peso corporal (X) e flexo na barra (Y). Tabela 21 Clculo do coeficiente de correlao de Pearson. i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Peso (X) 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 1400 Flexes (Y) 20 18 16 15 14 13 12 10 8 7 6 5 4 3 2 1 154

XY
1000 990 960 975 980 975 960 850 720 665 600 525 440 345 240 125 11350

X
2500 3025 3600 4225 4900 5625 6400 7225 8100 9025 10000 11025 12100 13225 14400 15625 131000

Y
400 324 256 225 196 169 144 100 64 49 36 25 16 9 4 1 2018 Sendo:

Clculo de r
n X ( X) n = 16 X = 1400e ( X)= 1960000 Y = 154 e ( Y)= 23716 XY = 11350 X = 131000 Y = 2018 r = n XY ( X).( Y) n Y ( Y)

r=

16. 11350 1400. 154 16. 131000 1960000 16. 2018 23716 181600 215600 2096000 1960000 32288 23716 34000 368,782 . 92,585

r= r=

r = 0,99579

A Fig. 26 uma ilustrao grfica da correlao positiva (r = 0,99579) quase perfeita.


CORRELAO ENTRE PESO CORPORAL E FLEXES NA BARRA
Nr 21 18 15 12 X=9,6 9 6 3 0 45 55

X=45
65 75 85 95 105 115 125 Kg

figura 26 Grfico de disperso da relao peso corporal X flexes na barra.

A flexo na barra executada pela suspenso do peso corporal at o queixo passar acima da barra, desta forma, o peso corporal pode fornecer uma tendncia, indicando freqentemente que pessoas mais pesadas tendem a executar um nmero menor de barras do que as pessoas mais leves.

60 6.3 CORRELAO E CAUSA

CORRELAO E REGRESSO

Uma correlao entre duas variveis no significa, necessariamente, que uma varivel causa a outra. Por exemplo, podemos citar um estudo que pretendesse verificar a relao entre o posto/graduao de militares e seu desempenho no tiro prtico de pistola. Muito provavelmente encontraramos capites com muito bons resultados e recrutas com pssimos resultados. Pesquisadores inexperientes (ou desatentos) talvez conclussem que quanto maior o posto/graduao, melhor seria o resultado no teste de tiro prtico de pistola. Desta forma, bastaria que promovssemos todos os recrutas ao posto de coronel para que s houvesse excelentes atiradores de pistola no Exrcito (parece lgico?!). No se pretende dizer que uma varivel no possa ser a causa de outra, mas que no se pode inferir somente com o resultado de uma correlao. No exemplo ilustrativo acima, dever-se-ia levar em considerao outras variveis que provavelmente tenham correlao com o resultado do tiro, tais como: experincia do atirador (quanto mais se pratica melhor tende a ser o resultado) e o nervosismo do atirador (com a prtica prolongada o atirador tende a ficar menos nervoso durante a performance, melhorando seu resultado). A nica forma de demonstrar uma causa com um experimento no qual uma varivel independente pode ser manipulada para produzir um efeito, e as variveis intervenientes podem ser controladas. Alm de se verificar o valor de r, e se positivo ou negativo, deve-se entender o que significa, em termos de ser alto ou baixo, satisfatrio ou insatisfatrio. 6.4 INTERPRETAO DE r Existem muitas formas de se interpretar o r, sendo um dos critrios sua significncia (confiabilidade), que representa a probabilidade de obter-se uma relao similar se o estudo fosse repetido n vezes. O nvel significncia pode ser estabelecido por meio de clculos matemticos ou, simplesmente, consultando a Tabela r (Anexo VI). Para tal, deve-se selecionar o nvel desejado, tais como 0,05 ou 0,01, e ler a tabela de acordo com os graus de liberdade (gl) adequados [gl so baseados no nmero de sujeitos (n) corrigidos para tendncias amostrais (2 variveis)], que, para r, gl= n -2 . Para o exemplo de correlao entre o peso corporal e as flexes na barra (r = 0,99579), os graus de liberdade so n - 2 = 16 - 2 = 14, (onde n refere-se ao nmero de pares de escores). Ao ler-se a tabela no gl 14, vemos que necessria uma correlao de 0,4863 para a significncia de um teste bi-caudal no nvel 0,5 (e 0,5742 no nvel 0,01). Logo se pode concluir que uma correlao de r = 0,98107 significante. (Explicaremos teste uni-caudal ou bi-caudal na seo sobre a interpretao de t no Volume II). A correlao necessria para um determinado nvel de significncia diminui com o aumento do nmero de sujeitos, logo, coeficientes de correlao muito baixos podem ser significantes para uma amostra ampla de sujeitos. No nvel 0,05, uma correlao de 0,4227 significante com 20 gl, r = 0,2500 significante com 60 gl, e 0,1946 significante com 100 gl. Por outro lado, uma maior correlao exigida para a significncia no nvel 0,01 do que no nvel 0,05.

61

CORRELAO E REGRESSO

O nvel 0,05 significa que se 100 experimentos fossem conduzidos, assumiria-se a possibilidade de se rejeitar a hiptese nula (de que no existe relao), pelo acaso, somente em 5 das 100 ocasies. No nvel 0,01, esperasse cometer este erro somente uma vez a cada 100 experimentos devido ao acaso. Logo, o teste de significncia no nvel 0,01 mais preciso do que no nvel 0,05, e, portanto, uma correlao maior exigida para a significncia no nvel 0,01. A Estatstica pode responder se os efeitos so confiveis, e se eles so significantes. O critrio mais comumente usado para a interpretao de r , conforme sua significncia, o coeficiente de determinao (r2), que indica a poro da variao total em uma medida que pode ser explicada, ou devida variao na outra medida. Para uma correlao de 0,70 entre duas variveis, apenas cerca da metade (49%) da variao (ou influncias) em um teste associada com a outra. Se r = 0,80, ento 64% da performance em um teste so associados com, ou explicados pelos, fatores envolvidos na performance do outro teste. A variao no explicada (1,0 - r2) refere-se variao em uma varivel (dependente) que no ocorre em funo da manipulao da outra varivel (independente). Com uma correlao de 0,70, existe 49% de variao comum (explicada), e 51% (1,00 - 0,702) de variao de erro (no explicada). Quando se utiliza o coeficiente de determinao para interpretar os coeficientes de correlao, fica evidente que uma relao mais substancial necessria para explicar uma grande quantidade de variao comum. A Tabela 22 apresenta a relao entre o coeficiente de correlao e as variaes explicadas e no explicadas um breve exemplo Tabela 22 Relao entre r e as variaes explicadas e no explicadas r 0,900 0,800 0,700 0,600 0,500 0,400 0.300 Explicada 81% 64% 49% 36% 25% 16% 9% Variao No Explicada 19% 36% 51% 64% 75% 84% 91%

O tamanho comparativo das correlaes devidas ao coeficiente de determinao tambm pode ser observado. Uma correlao de 0,90 no simplesmente trs vezes maior do que uma correlao de 0,30; nove vezes maior (0,300 = 0,09, ou 9%, e 0,900= 0,81, ou 81%). 6.5 TRANSFORMAO Z DO r Um pesquisador pode estar interessado em determinar a mdia de duas ou mais correlaes. estatisticamente insuficiente tentar calcular a mdia dos coeficientes por eles mesmos, porque a distribuio de amostras dos coeficientes de correlao no normal, pois quanto maior for a correlao mais desviada se torna a distribuio.

62

CORRELAO E REGRESSO

O mtodo mais satisfatrio de aproximao da normalidade de uma distribuio de amostras de relaes lineares pela transformao dos r para valores Z (transformao Z de Fisher). Tal procedimento envolve o uso de logaritmos naturais. Todavia, no necessitamos utilizar a frmula de Fisher para calcular as transformaes, basta utilizar a Tabela para transformao de r para z, localizando o valor Z correspondente para qualquer coeficiente de correlao em particular. Suponha, por exemplo, que obtivemos correlaes entre a distncia percorrida e a freqncia cardaca durante a corrida do TAF (correr-caminhar por 12 minutos) em quatro grupos de sujeitos de diferentes de idades. Para combinarmos essas correlaes de amostras a fim de se obter uma estimativa vlida e confivel da relao entre essas duas variveis, devese proceder conforme a Tab. 23. Tabela 23 Clculo da mdia dos coeficientes de correlao (transformao Z). Grupo etrio 18-25 26-33 34-40 41-47 n 33 35 34 35 r 0,700 0,835 0,770 0,735 Z 0,867 1,204 1,020 0,929 = n-3 30 32 31 32 125 Z com peso 26,010 38,528 31,620 29,728 125,886

Passos da utilizao dos valores Z para o clculo da correlao mdia. a. converter cada correlao para um valor Z utilizando a Tabela para transformao de r para z (Anexo VII); b. contrapesar os valores Z multiplicando-os pelos graus de liberdade para cada amostra, que nesse processo n 3; c. somar os valores contrapesados de Z; d. calcular a mdia do valor Z dividindo-se pela amostra total [ (n-3)]: 125,886/125 = 1,007. e. converter o valor mdio do Z contrapesado a uma correlao mdia consultando-se novamente a Tabela para transformao de r para z, Z = 1,007 o r mdio 0,765. A transformao Z tambm utilizada para os testes estatsticos (tais como aqueles para a significncia do coeficiente de correlao) e para determinar a significncia da diferena entre dois coeficientes de correlao. Alguns autores afirmam que para calcular a mdia das correlaes pela transformao Z, deve-se primeiro estabelecer que no existem diferenas significativas entre as correlaes testadas. Uma comparao de diferenas poderia ser feita utilizando um teste de qui-quadrado para os valores de Z com contrapeso (o qui-quadrado uma tcnica no-paramtrica discutida no Volume 2).

63 6.6 REGRESSO LINEAR

CORRELAO E REGRESSO

Um dos propsitos da correlao pode ser a previso. Sempre que se deseja estudar determinada varivel dependente (sobre a qual deseja-se fazer uma estimativa) , em funo de uma varivel independente, utiliza-se uma equao de predio (regresso) baseada na correlao entre X e Y. Quanto mais alta for a relao entre as duas variveis, mais precisamente poder-se- prever Y a partir de X. Geralmente utilizam-se as frmulas abaixo descritas para o clculo da linha de melhor ajustamento (reta de regresso) Y= a+bX Sendo: a = Xy bXx b= r (Sy/Sx) Onde: Y = varivel dependente (critrio) a = o ponto de interseco b = a inclinao da linha de regresso X = varivel independente (preditor) Xy e Sy = mdia e desvio padro de y Xx e Sx= mdia e desvio padro de x r = correlao entre X e Y

Quadro 22 Frmula da regresso linear

A letra a da frmula de regresso indica a interseco da linha de regresso no eixo y. Em outras palavras, a o valor de Y quando X = 0. A inclinao da linha (b) significa a quantidade de mudana em Y que acompanha uma mudana de 1 unidade de X. Utilizando os dados da Tab. 20, peso corporal (X) e fora muscular (Y).onde a correlao entre o peso corporal (X) e fora muscular (Y) foi r = 0,98107. As mdias e os desvios-padro so os seguintes: Medida X S r Peso
45,00 9,522 0,98107

Fora
92,06 19,361 0,98107

Sendo: Y= a+bX Onde: b = r (Sy/Sx)= 0,98107 . (19,361/9,522) b = 1,995 a = Xy bXx = 92,06 - 1,995 . 45,00 a = 2,285 Logo : Y = 2,285 + 1,995.X

Quadro 23 Clculo da equao de regresso linear

Para qualquer peso corporal (X), podemos calcular o escore de fora muscular (Y) predito. Por exemplo, um sujeito pesando 100 Kg teria um escore Y (fora predita): Y = 2,285 + 1,995.X = 2,285 + 1,995.100 Y = 201,785 Quando prevemos a fora muscular a partir do peso corporal a correlao (r = 0,98107) menor do que 1.00, ou seja a correlao no perfeita. Deste modo possvel dizer que existe um erro na estimativa de Y a partir de X, o qual chamaremos de erro de predio.

64

CORRELAO E REGRESSO

6.7 LINHA DE MELHOR AJUSTAMENTO E ERRO DE PREDIO A Fig. 25 mostra que a disperso dos escores de peso e fora no forma uma linha reta, mas sim uma elipse. Conseqentemente, devemos calcular uma linha de melhor ajustamento para prever Y a partir dos escores X. Para tal pode-se eleger um escore X alto (60Kg), e um baixo (30kg) e aplicamos a frmula de predio. Para um peso corporal de 60kg, prediz-se Y = 2,285 + 1,995.60= 121,99. Para um peso corporal de 30Kg, predize-se Y= 2,285 + 1,995.30 = 62,14. Deve-se ento, plotar esses dois valores previstos no grfico de disperso e conect-los com uma linha reta. Essa linha passa pela interseco das mdias X e Y A Fig. 27 mostra essa linha de melhor ajustamento. Desta forma, pode-se notar que os escores no se situam na linha reta, mas em torno da mesma. Quanto mais prximo da perfeio estiver o nvel de correlao entre as variveis X e Y, mais prximos da linha de melhor ajustamento estaro os escores plotados.
Lb Kg

CORRELAO ENTRE FORA MUSCULAR E PESO CORPORAL

120

100

X=92,1

80

60

40

20

a= (0; 2,285)
0 0 20 40

X=45
60 80 100 120 Kg

Figura 27 Regresso linear da relao fora muscular X peso corporal.

Na construo dessa linha de melhor ajustamento, selecionamos um alto peso corporal (60) e um peso corporal baixo (30) e predizemos seus valores Y Quando examinamos seus valores Y reais, vemos que existe algum erro na predio. O escore de fora previsto para o sujeito de 60kg foi de 121,99Kg, mas ele obteve apenas 120Kg, uma diferena de -1,99Kg. Ao mesmo tempo, esperava-se que o sujeito de 30Kg obtivesse 62,14Kg no dinammetro, e na verdade ele obteve 58Kg, uma diferena de 4,14Kg. Essas diferenas entre o escore Y previsto e o real representam erros de predio e so chamados de escores residuais. Se computssemos todos os escores residuais, a mdia seria zero e o desvio-padro seria o erro de predio padro, ou erro de estimativa padro (Sy.x).

65

CORRELAO E REGRESSO Uma forma mais simples de se obter o erro de predio padro utilizar a frmula Sy.x = Sy 1-r Sendo: Sy.x = erro de predio padro Sy = desvio padro de Y r = correlao entre X e Y

Quadro 24 Frmula do erro de predio padro (Sy.x).

O erro de predio padro interpretado da mesma forma que o desvio-padro. O valor predito (fora) de um sujeito, mais ou menos o erro de estimativa padro, ocorrer aproximadamente 68 vezes em 100. Para o exemplo utilizado at o presente momento, um sujeito de 50Kg teria uma fora predita de Y = 2,285 + 1,995.50 = 102,04 Kg mais ou menos o erro de predio. Sendo: Sy.x = Sy Onde: Sy = 19,361 e r = 0,98107 1-r Logo:

Sy.x = 19,361 1 - 0,98107 Sy.x = 19,361 . .013759 Sy.x= 2.66

Quadro 25 Clculo de Sy.x para fora muscular X peso corporal.

Ao medirmos a fora muscular de um sujeito de 50Kg, provavelmente encontraremos uma fora muscular variando: entre 99.38 Kg e 104,70 Kg (Y + Sy.x ) em 68,26% dos casos; entre 96,72 Kg e 107,36 Kg (Y + 2Sy.x ) em 95,44% dos casos; e entre 94,06 Kg e 110,02 Kg (Y + 3Sy.x ) em 99,74% dos casos. Este intervalo chamado de amplitude de predio Quanto maior a correlao, menor ser o erro de predio. Alm disso, quanto menor o desvio padro do critrio, menor ser o erro. 6.8 CORRELAO PARCIAL Quando existe pouca ou nenhuma correlao entre duas variveis X e Y, que no seja causada por sua dependncia comum a uma terceira varivel Z, a correlao entre X e Y algumas vezes equivocada, e pode ser difcil de interpretar. Por exemplo, em uma ampla faixa etria (18 a 47 anos), a correlao entre duas variveis como resultado no tiro prtico de pistola dos sujeitos e seu posto/graduao ser, quase certamente, positiva e provavelmente alta, em funo do fator experincia no esporte (anos de prtica) com o qual elas esto altamente correlacionadas.

66

CORRELAO E REGRESSO

Na verdade, a correlao pode diminuir muito se a variabilidade causada pelas diferenas de experincia for eliminada, podendo-se controlar esse fator por meio de duas formas: selecionar apenas sujeitos da mesma idade, ou eliminar-se os efeitos da idade estatisticamente mantendo-a constante. O smbolo para a correlao parcial r12.3 o qual significa a correlao entre as variveis 1 e 2 com a varivel 3 mantida constante Lembremos novamente a correlao entre o resultado do tiro prtico de pistola e o posto/graduao do sujeito. Esse um exemplo de correlao espria, o que significa que a correlao entre as duas variveis devida influncia comum de uma outra varivel (experincia no esporte). Quando o efeito da terceira varivel (experincia) removido, a correlao entre o resultado do tiro prtico de pistola e o posto/graduao diminui ou desaparece completamente. Chamaremos as trs variveis a seguir: 1 = resultado no tiro prtico de pistola, 2 = posto /graduao, e 3 = experincia (anos de prtica). Logo, r12.3 a correlao parcial entre as variveis 1 e 2, com 3 sendo mantida constante. Podemos ajustar alguns coeficientes de correlao entre trs variveis: r12 = 0,765; r13 = 0,880; e r23 = 0,850. Sendo: r12.3 = r12. - r1.3 r2.3 1-r13 Onde: r12 = 0,765 r13 = 0,880 r23 = 0,850 Correlao entre 1 e 2 Correlao entre 1 e 3 Correlao entre 2 e 3 r12.3 = r12.3 = 1-r23 Logo: r12.3 =

0,765 - 0,880 . 0,850 1 - 0,880 1- 0,850 0,765 0,748 0,2256 0,2775 0.017 0,47497 . 0,52678 r12.3 = 0,068

Quadro 26 Frmula e clculo da correlao parcial.

Pode-se notar que a correlao entre o resultado do tiro prtico de pistola e o posto/graduao cai cerca de zero quando a experincia do atirador isolada. A correlao parcial principalmente utilizada no desenvolvimento de equaes de regresso mltipla com duas ou mais variveis preditoras. 6.9 REGRESSO MLTIPLA A regresso mltipla consiste em uma varivel dependente (usualmente um critrio de algum tipo) e duas ou mais variveis preditoras (variveis independentes), tendo em vista que o uso de mais de uma varivel preditora, usualmente aumenta a preciso da predio. Caso se desejasse predizer a capacidade de um atirador dever-se-ia analisar a correlao de vrias habilidades inerentes ao tiro para se predizer a sua performance com o decorrer dos anos de prtica, ou seja utilizando vrios preditores ao invs de apenas um.

67

CORRELAO E REGRESSO

O coeficiente de correlao mltipla (R) indica a relao entre um critrio e o somatrio dos pesos suas variveis preditoras. Segue-se ento que R2 representa a quantidade de varincia do critrio que explicada pela associao/combinao dos preditores (mesmo conceito do coeficiente de determinao r2). Ao utilizarmos R, desejamos encontrar a combinao de variveis que fornecer a predio mais precisa do critrio, portanto importante saber o quanto cada um dos mecanismos de predio contribui para a variao total explicada, encontrando as variveis que melhor reduziro os erros de predio. Existem vrios mtodos de regresso mltipla. Neste manual abordaremos apenas as mais comumente utilizadas, a regresso mltipla progressiva, a regresso mltipla regressiva,o mtodo do R2 mximo e o mtodo de regresso gradativa O mtodo de regresso mltipla progressiva consiste em adicionarmos, progressivamente, uma nova varivel preditora. A primeira varivel selecionada deve ser aquela com a maior correlao com o critrio. As variveis selecionadas produzem cumulativamente a soma residual mnima de quadrados, significando que a soma residual de quadrados constitui erro. Algumas vezes o pesquisador ir determinar um nvel de probabilidade para entrada, como 0,05 ou 0,01. Dessa forma, as variveis so acrescentadas at que elas no possam mais aumentar de forma significativa a predio do critrio. Sempre que duas variveis possa estar medindo a mesma coisa, a incluso de ambas no melhor do que utilizar apenas uma. Aps o primeiro passo, a seleo de variveis adicionais determinada pelo efeito combinado, no apenas pelo efeito aditivo. Em outras palavras, o processo leva em considerao as inter-relaes entre as variveis X. Aps cada varivel X ser introduzida, o processo identifica qual das variveis preditoras restantes explicar a maior quantidade de variao inexplicada. As variveis devem ser introduzidas conforme a sua importncia e o processo termina quando no existe mais uma contribuio significativa para a predio. No mtodo de regresso mltipla regressiva, as variveis independentes so eliminadas por sua falta de importncia. Inicia-se com todas as variveis independentes e exclui-se aquelas que no contribuem significativamente para a predio do critrio. Determina-se um nvel de probabilidade para entrada, como 0,05 ou 0,01, e as variveis que no alcanam o nvel de significncia, so excludas. O R2 mximo o mtodo no qual o chamado melhor de todos os modelos possveis de urna nica varivel selecionado, assim como o melhor modelo de duas variveis, o melhor modelo de trs variveis e assim por diante, at um critrio predeterminado que termina quando o clculo alcanado. O mtodo de regresso gradativa um procedimento de regresso similar seleo progressiva exceto pelo fato de que a cada passo todas as variveis independentes so avaliadas para se verificar se cada uma continua contribuindo para a predio. Se uma varivel independente no contribui, ela ento excluda (removida) da combinao linear. A equao de predio da regresso mltipla segue o modelo de regresso de duas variveis (Y = a + bX), diferindo apenas na existncia de mais de uma varivel X, conforme a equao: Y= a+ b1X1+ b2X2+...+biXi

68

CORRELAO E REGRESSO

A premissa bsica em uma regresso mltipla a mesma que na regresso linear simples, ou seja, o tamanho da correlao entre as variveis de estudo. Quanto maior a correlao, mais precisa ser a predio. Todavia, uma limitao da predio relaciona-se com a generalizao das constataes, pois as equaes de regresso desenvolvidas por uma amostra, freqentemente perdem em preciso quando aplicadas a outras amostras, o que chamamos de reduo. O termo especificidade de populao tambm se relaciona a esse fenmeno, pois ao buscarmos uma maior preciso por meio de procedimentos de seleo das variveis preditoras (o que refora as caractersticas especficas da amostra), tornamos mais difcil a generalizao dos achados para outras populaes. Os resultados de uma frmula de predio para adolescentes provavelmente perderiam muita preciso se aplicada em adultos. Assim, o pesquisador deve selecionar cuidadosamente uma amostra em relao populao para a qual os resultados devero ser generalizados. Em estudos de previso, quanto maior a amostra, mais provavelmente ela representar a populao da qual foi retirada. Um grande problema com pequenas amostras em estudos de regresso mltipla que a correlao pode ser espuriamente alta. Existe uma relao direta entre a correlao, e a razo entre o nmero de sujeitos versus o nmero de variveis. O grau no qual o valor esperado de R2 exceder zero quando zero na populao depende de dois fatores: o tamanho da amostra (n) e o nmero de variveis (k). Ao selecionarmos o nmero de sujeitos de uma amostra devemos tomar o cuidado de observar a razo R2 = k - 1 / n 1. Por fim, recomendvel manter-se uma razo de 10 sujeitos ou mais para cada varivel.

69 ANEXO I ESTATSTICA DESCRITIVA

ANEXOS

O quadro abaixo indica os tipos de tcnicas estatsticas que podem ser aplicadas para a descrio de conjuntos de dados para se obter um resumo ou descrio geral deles. DISTRIBUIO NORMAL - ESTATSTICA DESCRITIVA E GRFICOS N de Escala Anlises Aplicveis Grficos Aplicveis Amostras Numrica Mdia, Moda, Desvio Padro, Coeficiente Histograma, Box & Ordinal, de Variao, Intervalo de Confiana, Uma ou Whiskers, Grfico de Intervalar ou Mnimo, Primeiro Quartil, Mediana, Mais Sries, Ogiva (Funo Razo Terceiro Quartil, Mximo, Srie de Distribuio). Temporal*. * Quando uma das variveis registradas for o tempo. DISTRIBUIO NO-NORMAL - ESTATSTICA DESCRITIVA E GRFICOS N de Escala Anlises Aplicveis Grficos Aplicveis Amostras Numrica Mdia, Moda, Desvio Padro, Histograma, Box & Ordinal, Coeficiente de Variao, Intervalo de Uma ou Whiskers, Grfico de Intervalar ou Confiana, Mnimo, Primeiro Quartil, Mais Sries, Ogiva (Funo de Razo Mediana, Terceiro Quartil, Mximo, Distribuio). Srie Temporal*. Uma ou Pictograma, Grfico de Nominal Freqncias, Srie Temporal*. Mais Sries. * Quando uma das variveis registradas for o tempo.

70 ANEXO II COMPARAES ENTRE AMOSTRAS

ANEXOS

O quadro abaixo indica as tcnicas estatsticas que podem ser aplicadas para a comparao entre os parmetros de dois ou mais grupos de dados. DISTRIBUIO NORMAL - ESTATSTICA DESCRITIVA E GRFICOS Tipo de N de Amostras Escala Numrica Anlises Aplicveis Relao Duas Amostras Intervalar ou Razo Teste t de Student Pareado Pareadas Trs ou Mais Intervalar ou Razo ANOVA c/ Medidas Repetidas Amostras Duas Amostras Intervalar ou Razo Teste t de Student No-Pareadas Trs ou Mais ANOVA c/ Grupos Intervalar ou Razo Amostras Independentes * Varivel com apenas dois valores ou duas categorias (varivel binria). DISTRIBUIO NO-NORMAL - ESTATSTICA DESCRITIVA E GRFICOS Tipo de N de Amostras Escala Numrica Anlises Aplicveis Relao Ordinal, Intervalar Teste de Friedman, Sign-Test, Duas Amostras ou Razo Wilcoxon Matched-Pairs Test Nominal Duas Amostras Teste de McNemar Dicotmica* Pareadas Trs ou Mais Ordinal, Intervalar ANOVA de Friedman Amostras ou Razo Trs ou Mais Nominal Teste Q de Cochran Amostras Teste Mann-Whitney U, WaldOrdinal, Intervalar Wolfowitz Runs Test, Duas Amostras ou Razo Kolmogorov-Smirnov TwoSample Test Teste de Qui-Quadrado Duas Amostras Nominal No-Pareadas (Homogeneidade) Trs ou Mais Ordinal, Intervalar ANOVA de Kruskal-Wallis Amostras ou Razo Trs ou Mais Nominal Teste de Qui-Quadrado Amostras * Varivel com apenas dois valores ou duas categorias (varivel binria).

71 ANEXO III RELAO ENTRE VARIVEIS

ANEXOS

O quadro a seguir mostra as tcnicas analticas e procedimentos grficos aplicveis quando se quer verificar a existncia e/ou caracterizar as relaes entre duas ou mais variveis. DISTRIBUIO NORMAL - ESTATSTICA DESCRITIVA E GRFICOS N de Grficos Escala Numrica das Variveis Anlises Aplicveis Variveis Aplicveis Correlao de Pearson, Diagrama de Duas Intervalar e/ou Razo Regresso Linear Disperso (X,Y). Simples. Diagrama Trs ou Intervalar e/ou Razo Regresso Mltipla Previso vs. Mais Observao Regresso Linear Trs ou Intervalar e/ou Razo Mltipla, Regresso --Mais No-Linear Nominal Dicotmica* (VarivelTrs ou --Resposta) e/ou Nominal e/ou Ordinal Regresso Logstica Mais e/ou Intervalar e/ou Razo * Varivel com apenas dois valores ou duas categorias (varivel binria). DISTRIBUIO NO-NORMAL - ESTATSTICA DESCRITIVA E GRFICOS N de Grficos Escala Numrica das Variveis Anlises Aplicveis Variveis Aplicveis Correlao de Diagrama de Duas Ordinal e/ou Intervalar e/ou Razo Spearman. Disperso (X,Y). Duas Nominal Teste de Qui-Quadrado. --Trs ou Correlao Partial Rank Diagrama de Ordinal e/ou Intervalar e/ou Razo Mais de Kendall Disperso (X,Y). Trs ou Nominal Anlise Discriminante --Mais Regresso Linear Trs ou Intervalar e/ou Razo Mltipla, Regresso --Mais No-Linear Nominal Dicotmica* (VarivelTrs ou Resposta) e/ou Nominal e/ou Regresso Logstica --Mais Ordinal e/ou Intervalar e/ou Razo * Varivel com apenas dois valores ou duas categorias (varivel binria).

72 ANEXO IV TABELA DE NMEROS ALEATRIOS

ANEXOS

57720039848441796771402113975649865408932968745483 28805351590993988758702771771706320278621674696517 92591852873048869748352518887403629838586586424103 90381291743019758907506415597188137495305278301175 80911694675860820666904756184645111235324550411343 22017031329691927540165429727499009597610098243007 56241004302046299053531105844121647919762951626066 79449262029686643000945669302059878735442250977819 53996645088978507753372577412762380223576201416035 18928735885505213651392850146685793019797266643145 53085896630561257022504128966266436306630132798522 03588029287689511824888946474859192987031033996712 27078188656949980028047051300147189733218582454324 05210859010622249891811755446616077307661012317858 40361327843082333639694205586461123389278952667193 54602528858820001059610536613372010119016110512091 71516340767111737352373160458892734371280498090248 61020181739260667358533442682638340327449604466593 82559313463095265506961765917239799612495280632699 89985414217413576819862860894733152628774538480808 00998484146795137758901450794273633106604340125504 62415078204805884352980319939203049725849595036331 94279069246809921186076383193299511555710927026700 44892928843628251582877418972576106326760226745328 97307695332110542695666552049936584803089363581796 39165804448015595983909554668184396085388866333569 60781103266750340961313020769366308351093383647605 03192347628957779133884760593754394877674985384391 41285267562539599665513690322239330522990339979699 77549850392537425297100356049281668670014889558210 28634161916424838137344883279638716973067750256460 74244885401233596750149814264279791352896978804471 00240337964668750532421663332897263647277365383446 05414769694536167118955197220413239658600369487983 62698497974723665156130869115275592686818043009892

73 ANEXO V

ANEXOS

REA SUBTENDIDA PELA CURVA NORMAL REDUZIDA DE 0 A Z z 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0398 0438 0478 0517 0557 0596 0636 0675 0714 0754 0,2 0793 0832 0871 0910 0948 0987 1026 1064 1103 1141 0,3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517 0,4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1879 0,5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224 0.6 2258 2291 2324 2357 2389 2422 2454 2486 2518 2549 0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852 0,8 2881 2910 2939 2867 2996 3023 3051 3078 3106 3133 9,0 3159 3186 3212 3238 3264 3289 3315 3340 3365 3389 1,0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621 1,1 3643 3665 3686 3708 3729 3749 3770 3790 3810 3830 1,2 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015 1,3 4032 4049, 4066 4082 4099 4115 4131 4147 4162 4177 1,4 4192 4207 4222 4236 4251 4265 4279 4292 4306 4319 1,5 4332 4345 4357 4370 4382 4394 4406 4418 4429 4441 1,6 4452 4463 4474 4484 4496 4505 4515 4525 4535 4545 1,7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633 1,8 4641 4649 4656 4664 4671 4678 4686 4693 4699 4706 1,9 4713 4719 4726 4732 4738 4744 4750 4756 4761 4767 2,0 4772 4778 4783 4788 4793 4798 4803 4808 4812 4817 2,1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857 2,2 4861 4864 4868 4871 4875 4878 4881 4884 4887 4890 2,3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916 2,4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936 2,5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952 2,6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964 2,7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974 2,8 4974 4975 4976 4977 4977 4978 4979 4979 4980 4981 2,9 4981 4982 4982 4983 4984 4984 4985 4985 4986 4986 3,0 4987 4987 4987 4988 4988 4989 4989 4989 4990 4990 3,1 4990 4991 4991 4991 4992 4992 4992 4992 4993 4993 3,2 4993 4993 4994 4994 4994 4994 4994 4995 4995 4995 3,3 4995 4995 4995 4996 4996 4996 4996 4996 4996 4997 3,4 4997 4997 4997 4997 4997 4997 4997 4997 4997 4998 3,5 4998 4998 4998 4998 4998 4998 4998 4998 4998 4998 3,6 4998 4998 4999 4999 4999 4999 4999 4999 4999 4999 3,7 4999 4999 4999 4999 4999 4999 4999 4999 4999 4999 3,8 4999 4999 4999 4999 4999 4999 4999 4999 4999 4999 3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

74 ANEXO VI

ANEXOS

VALORES CRTICOS DOS COEFICIENTES DE CORRELAO (TABELA r ) 0,05 df n 2 Nvel de significncia para teste caudal 0,025 0,01 0,005 0,0005 Nvel de significncia para teste bicaudal 0,10 0,05 0,02 0,01 0,001

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100

0,9877 0,9000 0,8054 0,7293 0,6694 0,6215 0,5822 0,5494 0,5214 0,4973 0,4762 0,4575 0,4409 0,4259 0,4124 0,4000 0,3887 0,3783 0,3687 0,3598 0,3233 0,2960 0,2746 0,2573 0,2428 0,2306 0,2108 0,1954 0,1829 0,1726 0,1638

0,9969 0,9500 0,8783 0,8114 0,7545 0,7067 0,6664 0,6319 0,6021 0,5760 0,5529 0,5324 0,5139 0,4973 0,4821 0,4683 0,4555 0,4438 0,4329 0,4227 0,3809 0,3494 0,3246 0,3044 0,2875 0,2732 0,2500 0,2319 0,2172 0,2050 0,1946

0,9995 0,9800 0,9343 0,8822 0,8329 0,7887 0,7498 0,7155 0,6851 0,6581 0,6339 0,6120 0,5923 0,5742 0,5577 0,5425 0,5285 0,5155 0,5034 0,4921 0,4451 0,4093 0,3810 0,3578 0,3384 0,3218 0,2948 0,2737 0,2565 0,2422 0,2301

0,9999 0,9900 0,9587 0,9172 0,8745 0,8343 0,7977 0,7646 0,7348 0,7079 0,6835 0,6614 0,6411 0,6226 0,6055 0,5897 0,5751 0,5614 0,5487 0,5368 0,4869 0,4487 0,4182 0,3932 0,3721 0,3541 0,3248 0,3017 0,2830 0,2673 0,2540

1,0000 0,9990 0,9912 0,9741 0,9507 0,9249 0,8982 0,8721 0,8471 0,8233 0,8010 0,7800 0,7603 0,7420 0,7246 0,7084 0,6932 0,6787 0,6652 0,6524 0,5974 0,5541 0,5189 0,4896 0,4648 0,4433 0,4078 0,3799 0,3568 0,3375 0,3211

75 ANEXO VII TABELA PARA TRANSFORMAO DE r PARA Z r 0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 0,055 0,060 0,065 0,070 0,075 0,080 0,085 0,090 0,095 0,100 0,105 0,110 0,115 0,120 0,125 0,130 0,135 0,140 0,145 0,150 0,155 0,600 0,165 0,170 0,175 0,180 0,185 0,190 0,195 Z 0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 0,055 0,060 0,065 0,070 0,075 0,080 0,085 0,090 0,095 0,100 0,105 0,110 0,116 0,121 0,126 0,131 0,136 0,141 0,146 0,151 0,156 0,161 0,167 0,172 0,177 0,182 0,187 0,192 0,198 r 0,200 0,205 0,210 0,215 0,220 0,225 0,230 0,235 0,240 0,245 0,250 0,255 0,260 0,265 0,270 0,275 0,280 0,285 0,290 0,295 0,300 0,305 0,310 0,315 0,320 0,425 0,330 0,335 0,340 0,345 0,350 0,355 0,360 0,365 0,370 0,375 0,380 0,385 0,390 0,395 Z 0,203 0,208 0,213 0,218 0,224 0,229 0,234 0,239 0,245 0,250 0,255 0,261 0,266 0,271 0,277 0,282 0,288 0,293 0,299 0,304 0,310 0,315 0,321 0,326 0,332 0,337 0,343 0,348 0,354 0,360 0,365 0,371 0,377 0,383 0,388 0,394 0,400 0,406 0,412 0,418 r 0,400 0,405 0,410 0,415 0,420 0,425 0,430 0,435 0,440 0,445 0,450 0,455 0,460 0,465 0,470 0,475 0,480 0,485 0,490 0,495 0,500 0,505 0,510 0,515 0,520 0,525 0,530 0,535 0,540 0,545 0,550 0,555 0,560 0,565 0,570 0,575 0,580 0,585 0,590 0,595 Z 0,424 0,430 0,436 0,442 0,448 0,454 0,460 0,466 0,472 0,478 0,485 0,491 0,497 0,504 0,510 0,517 0,523 0,530 0,536 0,543 0,549 0,556 0,563 0,570 0,576 0,583 0,590 0,597 0,604 0,611 0,618 0,626 0,633 0,640 0,648 0,655 0,662 0,670 0,678 0,685 r 0,600 0,605 0,610 0,615 0,620 0,625 0,630 0,635 0,640 0,645 0,650 0,655 0,660 0,665 0,670 0,675 0,680 0,685 0,690 0,695 0,700 0,705 0,710 0,715 0,720 0,725 0,730 0,735 0,740 0,745 0,750 0,755 0,760 0,765 0,770 0,775 0,780 0,785 0,790 0,795 Z 0,693 0,701 0,709 0,717 0,725 0,733 0,741 0,750 0,758 0,767 0,775 0,784 0,793 0,802 0,811 0,720 0,829 0,838 0,848 0,858 0,867 0,877 0,887 0,897 0,908 0,918 0,929 0,940 0,950 0,962 0,973 0,984 0,996 1,008 1,020 1,033 1,045 1,058 1,071 1,085 r 0,800 0,805 0,810 0,815 0,820 0,825 0,830 0,835 0,840 0,845 0,850 0,855 0,860 0,865 0,870 0,875 0,880 0,885 0,890 0,895 0,900 0,905 0,910 0,915 0,920 0,925 0,930 0,935 0,940 0,945 0,950 0,955 0,960 0,965 0,970 0,975 0,980 0,985 0,990 0,995

ANEXOS

Z 1,099 1,113 1,127 1,142 1,157 1,172 1,188 1,204 1,221 1,238 1,256 1,274 1,293 1,313 1,333 1,354 1,376 1,398 1,422 1,447 1,472 1,499 1,528 1,557 1,589 1,623 1,658 1,697 1,738 1,783 1,832 1,886 1,946 2,014 2,092 2,185 2,298 2,443 2,647 2,994

REFERNCIAS BEIGUELMAN, B. Curso prtico de bioestatstica. 5. ed. Ribeiro Preto: FUNPEC, 2002. BUSSAB, W. O., MORETIN, P. A. Estatstica bsica. 3. ed. So Paulo: Atual, 1986. CHACON, P. E. Curso breve de estatstica. 2. ed. Universidad de Duesto, 1965. COCHRAN, W. G. Tcnicas de amostragem. Rio de Janeiro: Editora Fundo de Cultura, 1965. CLARKE, A. B., DISNEY, R. L. Probabilidade e processos estatsticos. Rio de Janeiro: LTC, 1979. COSTA NETO, P.L.O. Estatstica. So Paulo: Edgard Blcher, 1977. CRESPO, A. A. Estatstica fcil. 17. ed. So Paulo: Saraiva, 2001 EDWARDS, A. L. Statistical Methods. 2. ed. New York: Holt, Rinehart and Winston FONSECA, J.S., MARTINS, G. A. Curso de estatstica. 3. ed. So Paulo: Atlas, 1984. GATTS, R. R. Elementos de probabilidades e inferncia. So Paulo: Atlas, 1978. GOES, L. A. C. Estatstica: uma abordagem decisorial. So Paulo: Saraiva, 1940. v. 1. GUEDES, M.L.S.; GUEDES, J.S. Bioestatsca. Rio de Janeiro: Ao Livro Tcnico S.A., 1988. GUERRA, J. G., DONAIRES, D. Estatstica indutiva. 4. ed. So Paulo: LCT, 1990. KARMEL, P. H., POLASEK, M. Estatstica geral e aplicada economia. 2. ed. So Paulo: Atlas, 1976. MARTINS, G. A., DONAIRES, D. Princpios de estatstica. 1. ed. So Paulo: Atlas, 1979. MEYER, P. L. Probabilidade: aplicaes estatstica. LCT, 1969. PEARSON, E. S., HARTLEY, H. O. Biometrika tables for statisticians. Vol. 1, 3. ed. Londres: Cambridge University Press. SILVA, E. M., SILVA, E. M., GONALVES, V., MUROLO, A. C. Estatstica para os cursos de economia, administrao e cincias contbeis. 2. ed. So Paulo: Atlas, 1997. v. 1. SPIEGEL, M. R. Estatstica. 2. ed. So Paulo: McGraw Hill, 1985. STEVENSON, W. J. Estatstica aplicada administrao. So Paulo: Harbra, 1981. RODRIGUES, P.C. Bioestatstica. 2. ed. Aumentada. Niteri: EDUFF, 1993.

77

REFERNCIAS

THOMAS, J. R., NELSON, J. K. Mtodos de pesquisa em atividade fsica. 3. ed. Porto Alegre: ARTMED, 2002. WONNACOTT, T. H., WONNACOTT, R. J. Estatstica aplicada economia e administrao. Rio de Janeiro: LCT, 1981.

S-ar putea să vă placă și