Sunteți pe pagina 1din 12

BIOESTATSTICA

Parte 1 - Estatstica descritiva e anlise exploratria dos


dados

Aulas Tericas de 17/02/2011 a 03/03/2011


1.1. Populao, amostra e dados estatsticos. Dados
qualitativos e quantitativos

Dados Qualitativos:
Escala nominal no existe relao entre categorias. Ex: solteiro, casado, vivo
()
Escala ordinal existe relao entre categorias. Ex: forte, mdio, fraco

1.2. Organizao e representao grfica de dados


Box-Plot (caixa com Bigodes)
O conjunto dos valores da amostra compreendidos entre o 1 e o 3 quartis
representado por um rectngulo com a mediana indicada por uma barra. Desenham-se
ento as linhas que unem o meio []

Barreira inferior      


    
  

Barreira superior      
    
  

Dizemos que uma observao um outlier quando no est compreendida no


intervalo [BI, BS]. Na representao box-splot, os outliers assinalam-se com *.

Barreira (exterior) inferior       


  

Barreira (exterior) superior       


  

As observaes com valores


inferiores ou superiores s barreiras
externas so outliers severos e so
representados em box-splot com o
smbolo .

Quando no h outliers a box-


splot coincide com o diagrama de
extremos e quartis.

A box-splot reala:
Centro da amostra
Variabilidade
Simetria
Existncia de outliers
til na comparao de amostras

Diagrama de Disperso

uma representao grfica adequada para dados bivariados quantitativos, em


que cada par de valores ( ,  ) representado por um ponto de coordenadas ( ,  )
num sistema de eixos coordenados. muito til, pois permite realar algumas
caractersticas importantes dos dados, nomeadamente a existncia de alguns tipos de
associao entre variveis.

1.3. Caractersticas amostrais


Medidas de Localizao: localizam o centro da amostra
Mdia
Mediana
Moda
Quantis

Medidas de Disperso: medem a variabilidade dos dados


Desvio Padro
[]
Medidas de Localizao
Mdia ()
[Mdia aparada retiram-se uma determinada % dos extremos]

uma medida pouco resistente, pois muito sensvel existncia de valores


muito grandes ou pequenos.

 =  


No caso de dados em intervalos no se pode obter um valor exacto, apenas um


valor aproximado:

[multiplica-se a frequncia absoluta da classe pela sua mediana e divide-se pelo


nmero de classes]

A mdia uma boa medida de localizao do centro da amostra quando a


distribuio dos dados for simtrica.

a melhor medida de localizao quando a distribuio dos dados normal.

Mediana (M)
Ordenados os elementos da amostra, a mediana o valor (pertencente ou no
amostra) que a divide ao meio, ou seja 50% dos elementos esto acima da mediana e
50% abaixo.
Se n mpar, a mediana a observao central da amostra

    :n


Se n par, a mediana a mdia aritmtica das 2 observaes centrais


      !
 
 
"

Ex: 10, 10, 10, 11, 11, 11, 11, 11, 12 M = 11  = 10,75

Ex: 10, 10, 11, 11, 11, 11, 11, 12, 18 M=11  = 11,75

A mediana uma medida mais resistente que a mdia, pois no to sensvel


quanto existncia de valores extremos.

Centro da amostra:

A mdia o centro de gravidade da distribuio dos dados (a mdia reflecte o


valor de todas as observaes)

A mediana o centro posicional da distribuio dos dados.

A assimetria da amostra pode estudar-se considerando a posio relativa das medidas


de localizao mdia e mediana, visto que quando a distribuio dos dados:

simtrica mdia = mediana


assimtrica positiva mdia > mediana
assimtrica negativa mdia < mediana

2. Assimetria Positiva 1. Assimetria Negativa

Quantil de ordem p (quantil emprico [ou amostral])

Ordenada a amostra, o quantil de ordem p (0<p<1) o valor Qp tal que 100%p


dos elementos da amostra so inferior ou iguais a Qp e os restantes 100(1-p)%
elementos da amostra so superiores ou iguais a Qp
$%  $%
Se np inteiro #   


Se np no inteiro #   &'( 

Onde [k] representa a ordem inteira de k

Q1/2 mediana

Q1/4 1Quartil

Q3/4 3 Quartil

Medidas de Disperso
Ex1: 15, 15, 15, 15, 15

Ex2: 10, 13, 15, 17, 20  = 15 [mas a medida de disperso diferente]

Ex3: 0, 7, 15, 23, 30

Varincia e Desvio Padro (amostrais)


So medidas de disperso de dados, relativamente ao centro da amostra que a
mdia.

Varincia: )  =     )2
*

Para obter uma medida de disperso que esteja expressa na mesma unidade de
disperso que os dados, consideramos o desvio padro:


Desvio Padro: )   +      
*

Ex1: s = 0 Ex2: s = 3,8 Ex3: 12,0

Quanto maior o desvio padro (s), maior ser a disperso dos dados? No
necessariamente. Um valor grande de desvio padro pode ser devido grande
disperso dos dados ou existncia de outliers. O desvio padro muito sensvel
existncia de outliers, portanto uma medida de disperso pouco resistente.

Amplitude (amostral): ,       [R = mximo mnimo]


a medida de variabilidade mais simples, mas muito sensvel existncia de
uma observao muito grande ou muito pequena.

Amplitude interquartil: -      


 

Esta a amplitude que contm 50% das observaes no centro da amostra

Ex: 1,2,3,3,3,3,3,4,5

n=10    /0   /   10  


. .
s=1,5
AIQ = 0

A amplitude inter-quartil uma medida mais resistente que o desvio padro.


No entanto, o desvio padro reflecte o conjunto dos dados e a amplitude inter-quartil
no.

[s e AIQ expressam informaes diferentes e devem por isso ser utilizados em


conjunto]

Disperso Relativa

Para acompanharmos vrios conjuntos de dados convm utilizar uma medida


que quantifique a variabilidade dos dados relativamente localizao.

Uma medida de disperso relativamente muito usada para dados positivos o


coeficiente de variao [expresso em %].
)
23  4 556

[ um desvio padro normalizado, til para comparaes]

Profundidade
A profundidade um indicador de quo interior amostra um certo valor. O
mximo e o mnimo da amostra (extremos) tm profundidade 1.

Dada uma certa amostra  , .,  , a ordem de uma observao pode ser


definida como:
Ordem ascendente posio da observao na amostra, a partir do menor
valor
Ordem descendente posio da observao na amostra, a partir do maior
valor

Profundidade de uma observao o mnimo das suas 2 ordens ascendente e


descendente.
[Profundidade mxima das
observaes na linha]

3 5 027
n = 23 8 6 14589
8+8+7 = 23 (8) 7 11236799
7 8 0145
3 9 367

[Na linha da mediana escreve-se o nmero de folhas da linha

Ex:
elemento 98: profundidade 1 elemento 61: profundidade 4
elemento 93: profundidade 3

 
A profundidade mxima dada por 
]

1.4. Associao entre variveis. Correlao. Relao: regra dos


mnimos quadrados

Dados Bivariados

H muitas situaes em que se pretende estudar 2 variveis em simultneo;


interessa portanto conhecer a sua variabilidade conjunta.

Estudar a relao entre:


Idade e presso arterial;
Concentrao de uma droga injectvel e a frequncia cardaca;
Peso e nvel de glicose no sangue em em adultos saudveis.

A populao em estudo surge ento sob a forma de pares de valores, i.e., cada
indivduo ou resultado experimental contribui com um conjunto de 2 valores. Uma
amostra de dimenso n ser ento ( ,  ), , ( ,  ).
Correlao [2 variveis em p de igualdade. Procura-se saber se alguma
relao entre as variveis em estudo]
Regresso [uma das variveis est sob o controlo do investigador varivel
controlada, independente (ex. concentrao de droga administrada) e uma
das variveis a resposta varivel resposta ou dependente (ex. frequncia
cardaca]

Para organizar a informao correspondente a dados bivariados utiliza-se uma


tabela de contingncias. adequada para dados qualitativos ou quantitativos, sendo
necessrio este caso agrupar os dados em classes.

Exemplo:
n = 1000 habitantes

No vacinados 1 dose 2 doses


Gripe 24 9 13
Sem gripe 289 100 565

[representao grfica diagrama de disperso]

Dada uma amostra bivariada de dimenses ( ,  ), , ( ,  ), define-se uma


medida de variabilidade conjunta existente entre as variveis em estudo que a
covarincia amostral.


789 
   :  ;   ; 



Se houver associao linear positiva [variveis variam no mesmo sentido; 


elevado corresponde a  elevado] entre as variveis, predominam parcelas
tais que < ; =< ; = > 5 covarincia positiva

Se houver associao linear negativa [variveis variam em sentido oposto]


entre as variveis, predominam parcelas tais que < ; =< ; = ? 5
covarincia negativa

Grande inconveniente: depende da unidade de medida usada [Kg/m e Kg/cm a


covarincia vem com valores diferentes]

[s medem associao linear]

Coeficiente de Correlao Amostral ou Coeficiente de Correlao de Pearson


A medida mais usada para medir o grau de associao linear entre 2 variveis
quantitativas o coeficiente de correlao dado por:

789 

@A  C
)$ 4  )B

  ;   ; 


A 
D         

O Coeficiente de correlao no depende de medidas das variveis;


r toma valores no intervalo [-1, 1];
O valor do coeficiente de correlao mede a intensidade da associao linear
entre as variveis;
Quando r = 0 no existe associao linear entre as variveis, mas elas podem
estar associadas no linearmente;
O coeficiente de correlao no uma medida resistente [est dependente da
mdia].

O coeficiente de correlao pode ser calculado como:

  4    4 
A 
  )$ 4 )B
Correlao elevada indica apenas associao estatstica. um erro grave confundir
associao estatstica com causalidade.

[Exemplo: O consumo de gelados e os fogos florestais apresentam uma relao de


associao estatstica, no de causalidade]

[Podem existir variveis de confundimento]

Regresso

Uma das variveis esta sob o controlo do investigador e a outra varivel pode
ser considerada uma resposta.

 varivel controlada, independente ou explicativa


 varivel resposta ou dependente

Quando o diagrama de disperso reala a existncia de associao linear entre


2 variveis quantitativas  e  possvel resumir atravs de uma recta a forma como
uma varivel resposta  influenciada por uma varivel explicativa .

Recta de Regresso
Pretende-se exprimir a varivel resposta como funo da varivel independente
atravs de um modelo de regresso regresso linear simples

Os valores observados podem ser escritos como:

  E   F  G  H  F

[Resduos:
Idealmente F  5, quando os pontos pertencem todos recta;
so quantidades aleatrias]

Recta dos mnimos quadrados


Para que um conjunto de dados ( ,  ), , ( ,  ) que seguem um padro
linear vamos ajustar uma recta na forma E  G  H. Um dos mtodos mais
conhecidos para ajustar uma recta aos dados usar o critrio dos mnimos quadrados.

Determinar os coeficientes da recta de modo que a soma dos quadrados dos


desvios entre os valores observados  e os valores E obtidos a partir da recta que se
pretende ajustar seja mnima, ou seja, minimizar a soma dos quadrados dos resduos.
 

: I   :   E 
 

Determinar os coeficientes a e b tais que Q(a,b) =    G  H seja mnimo.

O declive da recta da regresso

  ;   ;           


G  
             

E a ordenada na origem H   E  G.

A recta dos mnimos quadrados uma medida pouco resistente.


A recta de regresso frequentemente utilizada para fazer predio. Para um
novo valor da varivel  que no foi usada na construo da recta, pretende-se estimar
o valor de  que lhe corresponder.

[predio considerar um valor de  que no amostra e calcular o y esperado


atravs da recta dos mnimos quadrados]

Uma forma de verificar o modelo ajustado adequado atravs dos resduos.

Se o modelo ajustado for adequado:

Os resduos devem dispor-se aleatoriamente, sem um padro definido,


em torno de zero.
de esperar que o resduo quadrado mdio seja moderado.

No contexto da regresso, os outliers so valores a que correspondem grandes


resduos.
Note-se que, teoricamente, a soma dos resduos quadrados zero. Na prtica,
devido aos arredondamentos, a soma pode no ser nula, mas ter sempre um valor
muito prximo de zero.

O valor de r2 representa a proporo da variabilidade de y que explicada pela


recta de regresso; uma medida de preciso da recta.

r2 designa-se por coeficiente de determinao.

[-1 r 1 0 r2 1

Resduos = yobservado ypredicto]

S-ar putea să vă placă și