Documente Academic
Documente Profesional
Documente Cultură
Estatstica
FCSH-UNL 2012/2013
AULA 1
Etapas de Investigao
1- pergunta de partida
2- explorao do tema
3- problemtica
4- construo do modelo de anlise
5- observao
6- anlise das informaes
7- concluses
Estatstica descritiva
Consiste na apresentao, anlise e interpretao de dados atravs de instrumentos adequados (quadros,
grficos, tabelas cruzadas).
Estatstica indutiva
A partir de dados estatsticos de determinada investigao, formulam-se concluses que ultrapassam o
mbito da observao efectuada.
1
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 2
1. Mtodo extensivo
Estende-se a uma vasta camada da populao
Informao mais superficial
Tcnica privilegiada questionrio (tratamento quantitativo da informao)
Inferncia estatstica extrapolao para o universo
O que se ganha em extenso perde-se em profundidade
2. Mtodo intensivo
Conjunto restrito de unidades de anlise
Informao em profundidade
Diversas dimenses de anlise complexidade dos fenmenos
Complexidade das tcnicas
Observao participante, entrevistas, histrias de vida
3. Mtodo experimental
Testar uma hiptese de causa-efeito
Isolar as unidades de observao (grupo experimental e grupo de controlo)
Observao dos momentos antes e aps a aplicao de um estmulo (ex: medicamento)
Fontes de erro
H sempre erro em todas as tcnicas de recolha de informao. Tanto o entrevistador como o entrevistado
introduzem erro no processo, dependendo de uma srie de factores.
2
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Painel
Dados em painel so um conjunto de dados que contm observaes sobre diversos fenmenos, observados em
diversos momentos, atravs do mesmo questionrio e aplicado aos mesmos indivduos (a este conjunto de indivduos
regularmente inquirido chama-se painel)
Os painis podem ser equilibrados ou desequilibrados
Ex: British Household Panel Survey (BHPS); Income, Social Inclusion and Living Conditions (EU-SILC)
Populao e amostra
Populao: todos os elementos que fazem parte do universo em estudo, com uma ou mais caracteristicas
comuns
Ex: avaliao do comportamento ambiental das empresas portugueses
Populao todas as empresas registadas em Portugal
Amostra: conjunto reduzido de elementos dessa mesma populao (no possvel/necessrio inquirir
toda a populao)
Ex: inqurito de satisfao aos utilizadores da Via Verde
Recenseamento e sondagem
Recenseamento: estudo de uma populao atravs da observao de todos os seus elementos
- recolhe informao na sua maioria factual
- muito dispendioso e demorado
- menor probabilidade de erros (erros no motivados pela amostragem)
Sondagem: estudo de uma populao, aferido atravs de uma amostra, com fim ao estudo de atitudes,
hbitos e preferncias da populao
- mais econmico (menos meios e recursos)
- mais rpido (menos respostas para recolher, tratar e analisar)
- informao mais detalhada
- erros motivados pela amostragem
3
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 3
Amostra representativa
Inquritos/sondagens: ambos incidem sobre uma amostra
A amostra deve ser representativa da populao, fornecendo estimativas prximas da sua realidade
Amostra aleatria
Todos os elementos da populao tm uma probabilidade calculvel e no nula de serem seleccionados
Exige uma base de sondagem
No confundir aleatrio com casual
Ex: entrevistas de rua so aplicadas a pessoas abordadas casualmente; no aleatrio porque nem toda a
populao tem a possibilidade de ser escolhida - apenas os elementos que passam no local e no momento
da realizao das entrevistas podem ser escolhidos ( problemas de enviesamento)
Amostra no aleatria
H unidades do universo que no tm a possibilidade de ser seleccionadas
No carece da existncia de uma base de sondagem
Ausncia de um conj de regras claras e objectivas que determinem a forma de seleccionar os elementos
4
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
ALEATRIA
.
NO ALEATRIA
critrios de seleco rigorosamente definidos;
custos mais reduzidos;
possibilidade de determinar matematicamente a
vantagens maior rapidez; no exige
dimenso da amostra em funo da preciso e do
base de sondagem
grau de confiana desejados
dificuldade na obteno de bases de sondagem com
no possvel saber o
registos actuais e completos; possibilidade de
grau de confiana para a
desvantagens obteno de amostras muito dispersas
anlise inferencial;
geograficamente; problema das no respostas (o
critrios subjectivos
elemento no pode ser substitudo)
Vantagens Inconvenientes
No necessita de base de sondagem de elementos Possvel homogeneidade no interior dos
Evita uma amostra muito dispersa geograficamente clusters (ex: usando quarteires como
Processo mais econmico unidades amostrais primrias, os
Processo mais rpido - a mesma dimenso de indivduos vo todos pertencer,
amostra em menos tempo tipicamente, mesma classe social)
v. Amostragem multi-etapas
Extenso da amostragem por conglomerados
Combinao dos mtodos de amostragem por clusters e aleatria simples mnimo 2 etapas:
1 seleco aleatria de alguns dos clusters que constituem a populao (= clusters)
2 etapa anterior podem seguir-se diversas outras idnticas com a definio de sub-clusters e a seleco aleatria de
alguns deles
3 aplicao de amostragem simples aos elementos contidos nos clusters finais para seleccionar os elementos finais da
amostra
Ex: Sondagem eleitoral
Seleco aleatria de alguns distritos (1 etapa)
Seleco aleatria de alguns concelhos dos distritos seleccionados (2 etapa)
Seleco aleatria de algumas freguesias dos concelhos seleccionados (3 etapa)
Seleco aleatria de alguns eleitores das freguesias seleccionada (4 etapa)
A amostra final constituda pelos elementos seleccionados na 4 etapa
AULA 4
7
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
8
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 5
DIMENSO DA AMOSTRA
Uma amostra grande no necessariamente melhor que uma pequena mesmo que seja aleatria -
ponto em que no h ganhos de preciso
Com rigor, s dever ser utilizada uma abordagem estatstica para o clculo de amostras aleatrias
A dimenso da amostra influenciada por:
- dimenso da populao
- mtodo de seleco
- mtodo de anlise
- nmero de variveis
- oramento e prazo
- preciso (apenas mensurvel para amostras aleatrias)
Dimenso da populao .
Rcio amostral convencional Dimenso da amostra
N 200 recenseamento -------
N = 500 50% 250
N = 1.000 30% 300
N = 10.000 10% 1.000
N = 150.000 1% 1.500
N = 1.000.000 0,025% 2.500
No existe uma proporcionalidade entre a dimenso da populao e a dimenso da amostra
Parmetro: Caracterstica ou varivel que permite definir ou comparar algo (mdia, proporo)
Nvel de confiana: tem a ver com o facto de se trabalhar com amostras (aleatrias); intervalos de confiana
Preciso/exactido; lgica de intervalos de confiana quanto maior o intervalo, menor a preciso da
estimativa
9
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
MTODOS DE AMOSTRAGEM
1. Amostragem aleatria simples
2. Amostragem aleatria estratificada
3. Amostragem por Clusters
n: dimenso da amostra
z: confiana (valor tabelado para a distribuio normal, para um determinado nvel de confiana
para IC=90%, z=1,64; para IC=95%, z=1,96; para IC=99%, z=2,58)
s: variabilidade (dada pelo desvio-padro)
B: preciso (amplitude do intervalo de confiana)
Ex: Quantos elementos deve ter a amostra, num estudo sobre as famlias residentes no concelho ABC (50.000 famlias),
em que o principal objectivo estimar o gasto mensal mdio com gasolina (em euros) com uma preciso de 2 euros e
um nvel de confiana de 95%? Um estudo anterior permite-nos ter uma estimativa para o desvio-padro = 15 euros.
n: dimenso da amostra 216
z: confiana (para 95%, z=1.96) 1,96
s: variabilidade (desvio-padro) 15
B: preciso (amplitude do IC) 2
n: dimenso da amostra
N: dimenso da populao
h/H: estratos
z: confiana
s: variabilidade
B: preciso
Ex: Quantos elementos deve ter a amostra, num estudo sobre as famlias residentes no concelho ABC (50.000 famlias),
em que o principal objectivo estimar o gasto mensal mdio com gasolina (em euros) com uma preciso de 2 euros e
um nvel de confiana de 95%? A populao foi estratificada por ter/no ter filhos e conhecem-se os seguintes dados a
partir do mesmo estudo realizado h 1 ano atrs:
10
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Com uma amostra estratificada possvel obter estimativas com o mesmo nvel de confiana e preciso do
que se obteria com uma amostragem aleatria simples, seleccionando uma amostra de menor dimenso.
n: dimenso da amostra
N: dimenso da populao
nh: dimenso da amostra no estrato h
Nh: dimenso da populao no estrato h
n: dimenso da amostra
nh: dimenso da amostra no estrato h
Nh: dimenso da populao no estrato h
h: desvio-padro do estrato h
11
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Ex: Quantos elementos deve ter a amostra, num estudo sobre as famlias residentes na freguesia LKM (11.250 famlias),
em que o principal objectivo estimar a despesa mdia/famlia com gasolina (em euros) com uma preciso de 2 euros e
um nvel de confiana de 95%?
Para efeitos de amostragem a freguesia foi dividida em 750 sub-seces geogrficas, cada uma delas com um n
aproximadamente igual de famlias (15 famlias/sub-seco). O mesmo estudo realizado h 1 ano permite ter uma
estimativa para o desvio-padro da despesa com gasolina/sub-seco = 55 euros.
Definido o nmero de sub-seces (13) aplica-se um mtodo aleatrio para as seleccionar de entre as 750 existentes na
freguesia. Neste mtodo, que consiste apenas numa etapa, no se seleccionam elementos so entrevistados todos os
elementos dos clusters seleccionados
Neste caso, cada cluster composto por 15 famlias.
Assim, vo ser inquiridas:
12
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 6
1. ENTREVISTAS
A entrevista uma tcnica de recolha de informao que cabe dentro do grupo das tcnicas
qualitativas (expresso que designa uma variedade de tcnicas interpretativas que tm por fim
descrever, descodificar, traduzir certos fenmenos sociais)
Estas tcnicas do mais ateno ao significado dos fenmenos, do que sua frequncia (mas isso
no significa que excluam a quantificao)
Tem uma estrutura pr-definida com objectivos de recolha de informao para quantificao
(Distingue-se dos questionrios)
Objectivos da entrevista
Anlise de um problema especfico: os contornos do problema, os pontos de vista presentes, o que
est em jogo, os sistemas de relaes, o funcionamento de uma organizao, etc
A reconstituio de um processo de aco, de experincias ou de acontecimentos do passado
Anlise do sentido que os actores do s suas prticas e aos acontecimentos com os quais se vem
confrontados (os seus sistemas de valores, as suas referncias normativas, as suas interpretaes
de determinadas situaes, as leituras que fazem das suas experincias)
- Representatividade social
- Diversidade e no a homogeneidade (de entrevistados e de situaes)
- Saturao (quando os dados recolhidos no trazem mais informaes que legitimem o aumento do material emprico)
Quantos interrogar? O nmero de entrevistas depender:
- Do conhecimento do objecto existente
- Do estatuto da pesquisa (exploratria, analtica, expressiva)
- Do tipo de definio do universo de anlise
- Dos recursos disponveis
Como construir o guio?
- No directiva: dada liberdade ao entrevistado no existindo um guio
- Semi-directiva: existe um guio com tpicos a abordar; dada alguma liberdade ao entrevistado mas sem deixar que
este se afaste muito do tema
- Directiva: abordam-se questes previamente determinadas de forma estruturada
Vantagens Desvantagens
Grau de profundidade de elementos de A flexibilidade do mtodo
anlise recolhidos Os resultados no se adaptam
A flexibilidade e a fraca directividade do directamente a um tipo de tratamento e
dispositivo que permite recolher os anlise
testemunhos e as interpretaes dos A anlise de contedo contm uma enorme
entrevistados, respeitando os seus prprios variedade de tcnicas de tratamento de
quadros de referncia (a sua linguagem e entrevistas que permitem quantificar e
categorias mentais) qualificar os resultados
Construo do questionrio
Para que o questionrio resulte necessrio que:
Tipo de questes
(A) Questes abertas
permitem ao respondente expressar-se pelas suas prprias palavras
no so sugeridas respostas pelo que possvel:
- avaliar o nvel de informao de que o indivduo dispe
- identificar o que mais importante para o inquirido
permitem formular as opes de resposta das perguntas fechadas
auxiliam a interpretao dos dados obtidos atravs de perguntas fechadas
(B) Questes fechadas
exigem ao investigador a capacidade de antecipar as respostas possveis exaustivas e exclusivas
as respostas so comparveis entre todos os respondentes pois todos respondem do mesmo modo
ao mesmo conjunto de questes
facilidade de resposta - basta identificar a resposta certa
produzem dados facilmente processveis e analisveis
produzem dados com menor variabilidade
Questes de escolha nica com duas categorias (dicotmicas) o inquirido escolhe apenas uma
opo de entre duas possveis
Questes de escolha nica com vrias categorias o inquirido escolhe apenas uma opo de entre vrias
Questes de escolha mltipla o inquirido pode escolher vrias opes de resposta
(C) Questes com utilizao de escalas de medio
permitem medir a intensidade de atitudes, sentimentos, opinies de forma quantificada
tipos de escalas de medida:
- (C1) escala ordinal
- (C2) escala verbal com ordenao/ Escala de Likert
- (C3) diferencial semntico
- (C4) escala de soma constante
15
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Variveis quantitativas
- Discreta (conjunto de resultados finito ou infinito numervel)
Ex: n de carros produzidos numa fbrica
- Contnua (conjunto de resultados infinito e no numervel/contnuo)
Ex: altura
16
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 7
ESTATSTICA UNIVARIADA
1. Distribuies de Frequncias (Absolutas, Relativas e Acumuladas)
2. Propores, Percentagens, Rcio, Taxa e Taxa de Variao
1. Distribuies de frequncias
Frequncia Absoluta (Fi): n de vezes que um valor observado
Frequncia Relativa (fi): diviso entre a frequncia absoluta e o total
Frequncia Absoluta Acumulada (cumFi): soma das frequncias absolutas anteriores com a
frequncia dessa categoria
Frequncia Relativa Acumulada (cumfi): soma das frequncias relativas anteriores com a frequncia
dessa categoria
17
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Proporo
Compara o nmero de observaes de uma dada categoria com o total de sujeitos que
compe a distribuio. A proporo igual frequncia relativa:
Percentagem
a frequncia com que determinada observao ocorre em relao a cada 100.
a percentagem da frequncia relativa.
Rcio
Compara directamente o n de observaes que se enquadra numa categoria com o
n de observaes que se enquadra noutra categoria.
R = Fi1 / Fi2
Ex CPRI/Sociologia = 360/90=4
Por cada aluno de Sociologia h 4 alunos de CPRI
Taxa
Exprime o peso do valor efectivo registado para um determinado fenmeno face ao
seu valor potencial.
Ex: Sabendo que h 990 alunos na FCSH (potencial), e votaram para a AE 420 (caso), ento a taxa de participao foi de
42,42% (=) Fi caso / Fi potencial x 100 (=) 420/990*100= 42,42%
Taxa de variao
utilizada para comparar uma populao em dois momentos distintos, traduzindo
percentualmente o acrscimo ou decrscimo global verificado entre os dois registos.
Ex: A FCSH tinha 800 alunos em 2009 (T0) e 990 em 2010 (T1).
Qual a taxa de variao dos alunos inscritos neste perodo?
18
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 8
MEDIDAS DESCRITIVAS
Medidas de Localizao Medidas de tendncia central
1. mdia aritmtica
2. moda
3. mediana
1. MDIA ARITMTICA
1.1. Mdia para dados desagregados
A mdia aritmtica a soma de todos os valores observados dividida pelo nmero de observaes
19
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
2. MEDIANA
o valor da varivel que ocupa a posio central na distribuio de frequncias
A mediana corta a distribuio ordenada em duas partes iguais
A mediana determinada pelo n de observaes e no pelo seu valor
Interpretao: verifica-se que metade dos alunos tem peso inferior a 53,75 kg e a
outra metade tem peso superior a 53,75 kg.
20
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
3. MODA
o valor mais frequente da distribuio ou o valor que mais observaes apresenta no conjunto de
dados em analise
Em geral, menos utilizada do que a mdia e a mediana
No existe em algumas distribuies, enquanto que noutras poder existir mais do que uma moda
(distribuio bimodal, trimodal)
Pode ser calculada em qualquer distribuio
No sofre a influncia dos valores extremos
21
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 9
MEDIDAS DESCRITIVAS
Medidas de Disperso
Medidas de distncia que no recorrem a medidas de localizao
1. intervalo de variao
Utilizao de uma medida de localizao como termo de comparao
2a. desvio absoluto mdio
2b. varincia
2c. desvio-padro
Comparao da disperso entre dois ou mais conjuntos de dados medida de disperso relativa
3. coeficiente de variao
1. INTERVALO DE VARIAO
a diferena entre o valor mximo e o valor mnimo da varivel
(R) Apenas toma em conta os dois valores extremos:
a medida de disperso de mais fcil clculo
(2a)
Quanto maior o valor do DAM , maior a disperso da varivel
D o grau de disperso dos valores da varivel em relao mdia
menos influenciada por valores extremos do que o desvio-padro
Considera apenas dois valores da distribuio, podendo dar uma
ideia errada da real disperso da varivel
Considera a diferena de todas as observaes relativamente a um valor central
Desvantagens
- No sensvel aos valores intermdios (ignora os sinais dos desvios)
- Nada nos diz acerca da disperso dos restantes valores assumidos pela varivel
22
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
2b. VARINCIA
2 2
A varincia ( ou s ) d-nos um resultado ao quadrado, pois trabalha
com os quadrados dos desvios entre os valores observados e a mdia
a soma do quadrado das diferenas entre os valores da varivel e a
mdia, dividida pelo nmero total de observaes
Desvantagens
- A varincia tem a desvantagem de se traduzir no quadrado das unidades em que est definida a varivel
- Por esta razo, o desvio-padro a medida de disperso mais utilizada
2c. DESVIO-PADRO
O desvio-padro ( ou s) a raiz quadrada positiva da varincia
medido na mesma unidade da varivel.
a medida de disperso mais utilizada.
afectado por todos os valores observados.
Desvantagens
- O resultado pode ser muito influenciado por apenas alguns valores extremos
- Por esta razo, menos aconselhada em distribuies muito assimtricas
3. COEFICIENTE DE VARIAO
dado pela relao, em termos percentuais, entre o desvio-padro e a
mdia da distribuio
uma medida relativa de disperso, til para a compreenso e comparao, em termos relativos, das
variveis e do grau de concentrao em torno das mdias, de distribuio de frequncias distintas
uma medida de disperso relativa; no trabalha com os valores absolutos, mas com os valores do
desvio-padro e da mdia
Em termos prticos:
- Se CV>50%, alto grau de disperso relativa e, logo, uma pequena representatividade da mdia como
medida estatstica
- Se CV<50%, a mdia ser tanto mais representativa quanto menor for o valor do coeficiente
23
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 10
MEDIDAS DESCRITIVAS
Medidas de Concentrao
1. intervalo de variao
2. indce de Gini
Medidas de concentrao
Existem casos em que pode ser mais til utilizar medidas de concentrao em vez de disperso para
medir a forma como uma dada caracterstica se distribui pelos elementos
Contudo, s possvel quando faz sentido acumular a caracterstica num nmero maior ou menor de
elementos da populao ( possvel medir a concentrao do rendimento familiar, dos salrios, das
reas de explorao agrcola, , mas no faz sentido aplicar a fenmenos como a idade ou a altura,
visto serem caractersticas individuais que no podem ser distribudas por vrios elementos)
O grau de concentrao de uma distribuio de frequncias pode ser aferido
- graficamente (Curva de Lorenz)
- atravs de um indicador numrico (ndice de Gini)
Nas situaes extremas,
- um s elemento da populao detm todo o atributo concentrao mxima
- cada elemento da populao detm igual parcela do atributo concentrao mnima
1. CURVA DE LORENZ
Objectivo de perceber de que forma se distribui uma caracterstica pelos elementos
H que calcular no s os valores acumulados das ocorrncias (cumf i) como tambm os valores
acumulados correspondentes ao atributo em estudo (cumyi)
24
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Elevada concentrao:
I). 92,3% dos clientes representam 53% do volume de vendas
II) Os restantes 7,7% (=100%-92,3%) de clientes representam os
restantes 47% (=100%-53%) das vendas.
Curvas de
Lorenz
25
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
2. NDICE DE GINI
Quanto maior for a distncia entre a recta de igual distribuio e a curva de Lorenz, maior ser a
concentrao
Quanto maior for a diferena entre pi e qi maior ser a concentrao
Seja:
e
O ndice de Gini varia entre 0 e 1 (ou entre 0 e 100, se for utilizada a percentagem): nulo quando
em todas as classes houver igual distribuio do atributo pelos elementos em estudo e toma o valor
mximo quando todo o atributo est concentrado nos indivduos da ltima classe
INE define como: indicador de desigualdade na distribuio do rendimento que visa sintetizar num
nico valor a assimetria dessa distribuio, assumindo valores entre 0 (quando todos os indivduos
tm igual rendimento) e 100 (quando todo o rendimento se concentra num nico indivduo)
26
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 11
ESTATSTICA INFERENCIAL
Estatstica descritiva vs. Estatstica inferencial
Descritiva: procura sistematizar e representar de forma clara e compreensvel informao contida no
conjunto de dados da amostra atravs de instrumentos adequados
Indutiva ou inferencial: procura caracterizar o todo (populao) a partir de um conjunto limitado de
dados (amostra)
Distribuio Normal
Inferncia estatstica
A partir desta distribuio possvel calcular a probabilidade de determinada caracterstica, obtida a
partir dos dados amostrais, se verificar na populao
Como no conhecemos a populao (s conhecemos uma parcela amostra) fcil perceber que
existe sempre um grau de incerteza associado extrapolao
Geralmente utilizam-se nveis de confiana de 95%, permitindo uma margem de erro da inferncia
estatstica de 5%
27
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Medidas de assimetria
Ex: Considere uma distribuio de pesos dos alunos de CPRI com as seguintes medidas:
X = 60,3 ; Me = 59,28 ; Mo = 56,25 ; = 9,93 ; Gi = 0,38
28
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Medidas de achatamento
Quartil um dos trs valores que divide o conjunto ordenado dos dados em 4 partes iguais
- 1 quartil (Q1/4) = quartil inferior (valor aos 25% da amostra ordenada = 25 percentil)
- 2 quartil (Q2/4) = mediana (valor at ao qual se encontra 50% da amostra ordenada = 50 percentil)
- 3 quartil (Q3/4) = quartil superior (valor a partir do qual se encontram 25% dos valores mais elevados = valor
aos 75% da amostra ordenada = 75 percentil)
Grau de Curtose
Ex: Considere uma distribuio de pesos dos alunos de CPRI com as seguintes medidas:
P10=44 ; P90=78 ; Q1=55 ; Q3=67
29
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 12
1
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
2
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 13
2
Teste de independncia Qui
2
(1) Teste do Qui de independncia
2
(2) Teste do Qui-Quadrado (X )
2
(1) TESTE DO QUI DE INDEPENDNCIA
Teste independncia de duas variveis na populao - inferncia ( relaes de causa-efeito)
Parte de uma tabela de contingncia adequado apenas a variveis de tipo nominal ou ordinal
Compara os valores observados na amostra com os valores esperados
Valores esperados
Aqueles que se obteriam em caso de independncia das variveis
Valor esperado de cada clula = multiplicao do total marginal em
linha pelo total marginal em coluna dividida pela dimenso da amostra
2
(2) TESTE DO QUI-QUADRADO (X )
usado para descobrir se existe uma associao entre a varivel de
linha e a coluna varivel, numa tabela de contingncia (A hiptese nula
que as variveis no esto associadas/ so independentes; a
hiptese alternativa que as variveis esto associadas/so dependentes)
Representa o somatrio do quadrado das diferenas entre valores observado e esperado a dividir pelo
esperado
3
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Graus de liberdade
O nmero de graus de liberdade dado pela multiplicao do nmero de
categorias em coluna (c) menos 1 pelo nmero de categorias em linha (r) menos 1
2
Diz-se ento que esta estatstica segue uma distribuio de com n graus de liberdade
Valor crtico = 3,841 (porque com um nvel de confiana de 95% trabalha-se com alpha 0,05)
para a esquerda deste valor regio de aceitao (Ho: as variveis so independentes)
para a direita deste valor regio de rejeio (Ha: as variveis no so independentes)
4
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
2
(b) Teste do Qui-Quadrado ( )
Testa a independncia de duas variveis na populao (diferente de relaes causa-efeito)
Parte de uma tabela de contingncia (variveis qualitativas)
Compara os valores observados com os valores esperados [aqueles que se obteriam em caso de
independncia das variveis, dado pela multiplicao do total marginal em linha pelo total marginal em coluna, dividido
pela dimenso da amostra E = (Nlinha x Ncoluna) N]
A hiptese em teste tem a designao de hiptese nula (H0)
No teste do qui-quadrado a hiptese nula
- H0: as variveis so independentes
A partir desta hiptese possvel estabelecer uma hiptese alternativa (H a), que complementar da
primeira
- Ha: as variveis no so independentes
2
(c) Teste do pressupostos
Para que se possa aceitar os resultados deste teste necessrio que:
No mais de 20% das clulas tenham frequncia esperada inferior a 5
No exista qualquer clula com valor esperado inferior a 1
5
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 14
Para avaliar a intensidade da relao entre variveis nominais ou tratadas como tal, calculam-se
medidas de associao:
PHI (para tabelas 2x2):
onde n representa a dimenso da amostra. Varia entre 0 e 1;
Quanto mais prximo de 1, mais forte a associao
(1.1) PHI
Supondo que rejeitmos a hiptese de independncia entre as variveis situao perante o emprego e
2
sexo = 10,304; g.l. = 1; valor crtico = 3,841
Como avaliar a fora da associao entre as duas variveis? Calculando a medida de associao Phi (o
cruzamento destas duas variveis, cada uma com duas categorias, resulta numa tabela 2x2)
(1.2) V DE CRAMER
O teste de independncia do Qui2 permitiu rejeitar a hiptese de independncia entre as variveis N de
disciplinas que repetiu e curso frequentado
2
Vamos agora calcular o grau de associao entre as variveis, sabendo que o =251,249 (g.l.=4 4,988)
6
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
(2.1) R DE PEARSON
Coeficiente de Pearson corresponde a um quociente entre
indicadores: no numerador encontra-se a covarincia
entre as duas variveis e no denominador, o produto dos desvios-padro de X e Y
indicado para variveis quantitativas
Pode assumir valores entre -1 e 1; Quanto mais prximo estiver dos valores extremos, maior a correlao
Valor 0 no existe correlao entre as variveis Se >/= 0,5 correlao positiva
Valor entre 0 e 0,5 correlao positiva fraca Se </= -0,5 correlao negativa
Valor entre -0,5 e 0 correlao negativa fraca
(2.2) R DE SPEARMAN
Este coeficiente uma medida de associao das ordenaes dos valores
das variveis e no dos valores em si (como acontece com o Pearson)
Pode ser calculado para variveis definidas em escala ordinal
indicado quando pelo menos uma das variveis ordinal:
Pode assumir valores entre -1 e 1 (Quanto + prximo estiver dos valores extremos, + forte a correlao)
Valor 0 no existe correlao entre as variveis Se >/= 0,5 correlao positiva
Valor entre 0 e 0,5 correlao positiva fraca Se </= -0,5 correlao negativa
Valor entre -0,5 e 0 correlao negativa fraca
Fases:
(a) ordenar as observaes atribuindo-lhes um nmero que indique a sua posio relativa na ordenao;
fazer isto separadamente para cada varivel (pode utilizar-se o n 1 para o valor mais pequeno ou para o maior)
(b) aplicar o mesmo critrio de ordenao duas variveis
(c) se se verificar repetio de categorias, o nmero de ordem passa a ser o valor mdio
7
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
AULA 15
8
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Ordenada na origem
Ex: pretende-se estimar a nota final dos alunos da licenciatura de CPRI em funo da sua nota de ingresso na FCSH
a = 4, 519
b = 0, 747
Assim, para um aumento de uma unidade (um valor) na nota de entrada na
faculdade estima-se um aumento de 0,747 na nota final de curso (Modelo
estimado) Para fazer previses:
2
(3.2) Coeficiente de determinao (R )
Medida do poder explicativo da equao de regresso ou a proporo de Y explicada pela presena da
varivel X
Varia entre 0 e 1 (a variao de Y explicada por X ser no mximo 100% e no mnimo 0%)
Obtm-se elevando ao quadrado o coeficiente de correlao de Pearson (e multiplicando por 100
para obter a percentagem)
2
Por exemplo, se R =20%, significa que a varivel independente explica 20% da variao da varivel
dependente
AULA 16
Representao Grfica
(1) Grfico de Linhas
(2) Grfico de Barras/Colunas
(3) Grfico de Sectores
(4) Grfico Polar
(5) Histograma de Frequncias
(6) Grfico de Disperso
REPRESENTAO GRFICA
A representao grfica dos dados estatsticos tem por objectivo dar uma ideia, o mais imediata
possvel, dos resultados obtidos permitindo chegar-se a concluses rpidas sobre a evoluo e /ou
relaes entre os fenmenos em anlise
Descreve a realidade nos seus aspectos mensurveis
um desenho que representa um conjunto de quantidades referentes a determinados aspectos da
realidade
O grfico um instrumento de sntese que evidencia aspectos particulares construir um grfico
relacionar duas (ou mais) grandezas, pondo em evidncia as tendncias, os valores mnimo e mximo
e as ordens de grandeza dos fenmenos em observao.
Conceitos: eixo (segmento da recta sobre o qual definido um sentido de leitura), origem (definida
pelo sentido da leitura; poder ser zero) e escala (representa a relao que existe entre a grandeza
real e a sua representao no eixo)
10
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais
Tabelas ou grficos?
Esta oposio no faz sentido na anlise de info temos
vrias ferramentas (nenhuma , partida, mais informativa)
As tabelas servem para encontrar valores exactos, e para tarefas baseadas nesse pressuposto
Os grficos servem para compreender relaes de dados num contexto de variabilidade (no do valores exactos)
a partir da correcta escolha e adequada manipulao de cada uma que podemos compreender os fenmenos a partir
dos dados com que trabalhamos
11
Joana Carvalho Martins N.37725