Documente Academic
Documente Profesional
Documente Cultură
Introdução
O título do artigo que o leitor tem em mãos é sugestivo quanto ao seu teor e público-
alvo. Tomando como ponto de partida a aprendizagem teórica das técnicas empregues
em toda a parte para quantificar a força da relação entre fenómenos socioeconómicos,
aos olhos de um jovem pesquisador das ciências sociais pode afigurar-se tentador
questionar se a opção pela análise de correlação torna desnecessário o método de
regressão linear ou vice-versa. Ao fim ao cabo, podem (ou não) estes dois instrumentos
que os métodos estatísticos proporcionam ao tratamento da informação ser vistos como
instrumentos alternativos?
Este ensaio ambiciona, entre outras coisas, oferecer ao leitor uma resposta
convincente para esta questão. Procura-se deixar claro que a resposta favorece um não:
quer isso dizer que não devemos subestimar nem um nem outro método de análise.
Antes pelo contrário, é essencial encarar ambos os métodos estatísticos como
instrumentos de análise indissociáveis, que se entrosam, de certa maneira, numa lógica
de complementaridade. E é justamente isso que se tenta pôr aqui em prática, com uma
lição sobre como fazer o estudo formal do grau de associação entre duas variáveis
pertencentes à esfera das ciências sociais.
Na perspectiva do leitor, esta lição tem a vantagem de ser breve e de fácil
abordagem metodológica. Iremos passar em revista alguns conceitos chave como a co-
variância da amostra e o coeficiente de correlação, demonstrar de que forma os dois
conceitos estão relacionados entre si e, finalmente, introduzir aquilo que em métodos
estatísticos é conhecido como o método de regressão linear. Trata-se de uma
abordagem que será realizada em três etapas e em que foi escolhido um caso prático
hipotético, baseado em dados fictícios sobre as vendas de um certo produto alvo e seus
respectivos anúncios televisivos na véspera. Evidentemente, nunca é demais sublinhar
que qualquer investigador empenhado e dedicado ao estudo de problemas sociais tem a
obrigação de estar familiarizado com estes conceitos.
1
1. Etapa nº 1: A Co-variância e o Coeficiente de Correlação
(A)
(B)
Nas fórmulas para (A) e (B) apresentadas acima, note-se que cada observação X
tem como par uma observação Y correspondente. A soma dos produtos dos desvios de
X e Y em relação às médias respectivas é, assim, dividida por N ou n - 1, consoante
estejamos a lidar com uma população ou amostra.
De forma a facilitar um melhor entendimento sobre a aplicação destes conceitos
estatísticos, prestemos então atenção a um caso prático concreto. Assume-se que a
variável X indica o número de spots comerciais que vão para o ar num canal de
Televisão numa sexta-feira à noite. Y representa as vendas (em milhares de Kwanzas)
do produto alvo no dia seguinte, ou seja, Sábado.
2
Tabela 1. Cálculos para o valor da co-variância da amostra
( )( )
2 24 -1 4 -1 48 1
5 28 2 25 3 140 6
1 22 -2 1 -3 22 6
3 26 0 9 1 78 0
4 25 1 16 0 100 0
1 24 -2 1 -1 24 2
5 26 2 25 1 130 2
(C)
3
Aviso: O coeficiente de correlação de Pearson para dados de uma população de
tamanho N é dado pela expressão:
= = 1.7321
= = 1.9149
= = 0.854
4
O coeficiente de correlação é seguramente um indicador estatístico que suscita
interesse já que pode ser usado para estudar inter-relações lineares entre variáveis
embora, em última análise, não deixe de ser um instrumento quantitativo questionável
em alguns aspectos do estudo das variáveis em questão. Primeiro, não existe
possibilidade de se retirar conclusões quanto à causalidade (qual das variáveis exerce
influencia sobre a outra?); segundo, a sua aplicabilidade está reservada para relações
cuja forma é estritamente linear, não podendo assim servir para detectar relações não
lineares; terceiro, a possibilidade para se testar outras hipóteses sobre o coeficiente de
correlação para além deste ser igual a 0 é bastante limitada.
Y= mX+c
onde m é o declive da recta e c é a intercepção da recta. Consideremos no diagrama de
dispersão abaixo os dados sobre anúncios de TV (X) e as vendas correspondentes (Y).
A relação positiva entre as duas variáveis é bem patente. O objectivo da análise de
regressão linear é, no fundo, descobrir a recta que melhor descreve os dados observados.
5
Os modelos matemáticos podem ser determinísticos ou probabilísticos. Desde
logo, convém prestar aqui um esclarecimento relativamente a estes dois termos. Os
modelos determinísticos visam produzir um resultado exacto para um determinado
input. O modelo probabilístico, ao invés, consiste numa equação, recuperando de novo
o nosso exemplo, que procurará relacionar as vendas ao Sábado com a publicidade à 6ª
feira e que não irá produzir uma previsão exacta das vendas ao Sábado. Isto acontece
mercê da existência de outros factores importantes envolvidos na explicação das vendas,
contudo negligenciados pela relação matemática. Desta forma, o modelo probabilístico
irá certamente gerar previsões com uma componente de erro. O modelo probabilístico
de regressão para uma determinada população pode exprimir-se da seguinte forma:
6
Em análise de regressão, assume-se um número importante de pressupostos sobre o
termo , termo incluído na recta de regressão da população. São eles:
Não faz parte dos objectivos do artigo explorar estes pressupostos. Contudo,
convém lembrar que se os distúrbios violarem qualquer um destes pressupostos, as
consequências para os valores estimados do modelo de regressão poderão ser
prejudiciais. Por exemplo, se o pressuposto de normalidade for violado, poderá ser um
sinal da existência de valores extremos (“outliers”), o que por si exige uma investigação
mais aprofundada.
7
Os valores previstos de Y são previstos através da recta de regressão. O resíduo ou
erro é simplesmente a diferença entre o valor de Y e o valor previsto de Y e pode ser
definido pela expressão . Chegamos finalmente à soma dos erros ao quadrado,
definida por:
pois
=0
sendo que
8
C. Temos deste modo uma expressão para a intercepção da recta Olhemos agora
para a segunda equação. Multipliquemos então a equação por –( ):
Expandindo, obtemos:
E também que:
9
Deste modo, uma alternativa à fórmula anteriormente encontrada para o declive
da recta é:
Embora esta nova fórmula seja sem dúvida alguma mais compacta, a fórmula
anterior é mais fácil para efeitos de implementação do cálculo. Se aproveitarmos os
dados reportados na tabela 1, podemos facilmente encontrar valores para estimar o
declive e a intercepção da recta. Se o leitor reparar com atenção, há duas colunas
que não foram utilizadas em cálculos anteriores e que contribuem para calcular o
coeficiente . Sendo assim:
10
3. Etapa nº3: O Coeficiente de Determinação (R²)
Ninguém pode negar que o método dos quadrados mínimos possibilita uma
aproximação linear à relação entre as variáveis X e Y, como se viu através do exemplo
utilizado neste artigo. Mas a grande questão que se coloca diante de nós neste momento
e que vai merecer tratamento nesta terceira etapa consiste em saber até que ponto esta
aproximação poderá ser considerada boa.
11
Sem grande dificuldade, pode-se calcular então as previsões para as sete
observações do nosso exemplo (usando a recta de regressão), medir a diferença entre os
valores actuais e previstos pela recta de regressão e, por fim, estimar o valor de SEQ. A
tabela seguinte reúne resumidamente os cálculos efectuados.
Σ = 21 Σ = 175 Σ = 5.976 Σ = 22
A partir dos resultados apresentados na tabela acima, SEQ é igual a 5.976, SQT
é igual a 22 e VEY (22 – 5.976) é igual a 16.024. Verifica-se, pois, que estamos agora
numa posição privilegiada para avaliar a qualidade do ajustamento da recta de
regressão. O coeficiente de determinação (R²), definido como a proporção da variação
de Y que pode ser atribuída à variação da variável X, é precisamente a medida principal
para esclarecer este tipo de questões. No caso do coeficiente de determinação atingir um
valor elevado, não só a qualidade do ajustamento será boa como também a proporção da
variação de Y explicada pela variável X será significativa. O coeficiente de
determinação é definido pela expressão:
12
Em jeito de balanço, pode-se concluir que cerca de 73% da variação nas vendas
pode ser explicada pela variação em publicidade. Mais curioso ainda: é possível
demonstrar que o coeficiente de correlação calculado na primeira etapa, quando elevado
ao quadrado, é aproximadamente idêntico ao valor estimado para o coeficiente de
determinação. O valor do coeficiente de correlação encontrado é igual a 0.854 e depois
de o elevarmos ao quadrado é igual a 0.729. Diante da evidência aparente de uma
relação causal entre vendas e publicidade, deve-se no entanto acautelar o leitor contra a
grave tentação de se falar em causalidade em contextos em que o método de análise
posto à disposição do investigador circunscreve-se àquele que foi apresentado na
primeira etapa do presente artigo.
4. Observação final
Este ensaio tem uma simples finalidade: sintetizar alguns princípios básicos para
uma abordagem quantitativa do grau de relação entre dois fenómenos, quer sejam eles
de natureza social ou económica. Fazendo recurso a uma linguagem acessível, as
considerações teórico-práticas aqui discutidas visam corresponder eficazmente às
necessidades das novas gerações de estudantes angolanos das ciências sociais e
humanas, eles que amanhã virão a desempenhar um papel com elevada responsabilidade
enquanto economistas, gestores ou pesquisadores em Angola.
É preciso sublinhar que devemos sempre encarar os factos como eles se apresentam.
Conhecer plenamente a verdade dos factos exige da parte do investigador uma
abordagem analítica com método e rigor científico, sem qualquer tipo de rodeios ou
tendenciosidade: tudo se joga no reconhecimento da importância de dispormos de
instrumentos práticos tais como aqueles que aqui sugerimos que, em última análise,
possam contribuir para uma tomada de consciência e acção de transformação da
realidade social em que vivemos.
Referências
13