Sunteți pe pagina 1din 57

CAPÍTULO 1: Introdução

PÁGINAS 2-4
1.1 O QUE É BIOESTATÍSTICA?

Bioestatística é definida como a aplicação de princípios de estatística nas áreas de medicina,


saúde pública ou biologia. Os princípios da estatística são baseados na matemática aplicada e
incluem ferramentas e técnicas para coletar informações ou dados e, posteriormente, resumir,
analisar e interpretar esses resultados. Esses princípios se estendem para que sejam feitas
inferências e tiradas conclusões de forma adequada, levando em consideração a incerteza.

As técnicas de bioestatística podem ser utilizadas para abordar cada uma das questões
mencionadas anteriormente. Geralmente, na bioestatística aplicada, o objetivo é fazer uma
inferência sobre uma população específica. Por definição, essa população é o conjunto de todos
os indivíduos sobre os quais gostaríamos de fazer uma afirmação. A população de interesse
pode ser todos os adultos que vivem nos Estados Unidos ou todos os adultos que vivem na
cidade de Boston. A definição da população depende da pergunta do estudo do pesquisador,
que é o objetivo da análise. Suponha que a população de interesse seja todos os adultos que
vivem nos Estados Unidos e queremos estimar a proporção de todos os adultos com doenças
cardiovasculares. Para responder a essa pergunta na íntegra, teríamos que examinar todos os
adultos nos Estados Unidos e avaliar se eles são portadores de doença cardiovascular. Seria
uma tarefa impossível! Uma opção melhor e mais realista seria usar uma análise estatística para
fazer uma estimativa da proporção desejada.

Na bioestatística, estudamos amostras ou subconjuntos da população de interesse. Neste


exemplo, selecionamos uma amostra de adultos que vivem nos Estados Unidos e avaliamos se
cada um deles é portador de doença cardiovascular ou não. Se a amostra for representativa da
população, a proporção de adultos com doença cardiovascular na amostra deve ser uma boa
estimativa da proporção de adultos da população com doença cardiovascular. Na bioestatística,
analisamos amostras e depois fazemos inferências sobre a população, com base nessa análise.
Essa inferência é um grande salto, especialmente se a população for grande (por exemplo, a
população dos Estados Unidos que é de 300 milhões) e a amostra for relativamente pequena
(por exemplo, 5 mil pessoas). Quando ouvimos notícias ou lemos sobre estudos, muitas vezes
pensamos em como os resultados podem ser aplicados a nós, pessoalmente. A grande maioria
das pessoas nunca esteve envolvida em um estudo de pesquisa. Muitas vezes nos perguntamos
se devemos acreditar nos resultados dos estudos de pesquisa quando nós, ou qualquer um que
conhecemos, nunca participamos desses estudos.

1.2 QUAIS SÃO OS PROBLEMAS?

A condução e interpretação apropriadas das aplicações da bioestatística requerem atenção a


uma série de questões importantes. Elas incluem, mas não se limitam às seguintes:

 Definir claramente o objetivo ou a pergunta da pesquisa.


 Escolher um projeto de estudo adequado (por exemplo, a forma como os dados serão
coletados).
 Selecionar uma amostra representativa e garantir que ela seja do tamanho adequado.
 Coletar e analisar cuidadosamente os dados.
 Produzir medidas ou estatísticas resumidas adequadas.
 Gerar medidas de efeito ou associação adequadas.
 Quantificar a incerteza.
 Explicar adequadamente as relações entre as características.
 Limitar as inferências à população apropriada.

Neste livro, cada um dos pontos anteriores será abordado individualmente. Descrevemos como
coletar e resumir dados e como fazer inferências adequadas. Para conseguir isso, usamos
princípios da bioestatística fundamentados na matemática e na teoria da probabilidade. Um dos
principais objetivos é entender e interpretar uma análise bioestatística. Agora, vamos retomar
nossas perguntas originais e pensar em alguns dos problemas anteriormente identificados.

Como a extensão da doença em um grupo ou região é quantificada?

Idealmente, uma amostra de indivíduos é selecionada no grupo ou região de interesse. Essa


amostra deve ter o tamanho suficiente para que os resultados da sua análise sejam
adequadamente precisos. (Discutiremos técnicas para determinar o tamanho adequado da
amostra para análise no Capítulo 8.) Em geral, é preferível uma amostra maior para análise. No
entanto, não queremos tomar mostras com mais participantes do que os necessários, por
questões financeiras e éticas. A amostra também deve ser representativa da população. Por
exemplo, se 60% da população são mulheres, de modo ideal, gostaríamos que a amostra tivesse
aproximadamente 60% de mulheres. Uma vez selecionada a amostra, cada participante é
avaliado em relação ao status da doença. A proporção de participantes da amostra com a doença
é calculada considerando a proporção do número de pessoas com a doença em relação ao
tamanho total da amostra. Essa proporção é uma estimativa da proporção da população com a
doença. Suponha que a proporção da amostra seja calculada como 0,17 (ou seja, 17% das
pessoas da amostra têm a doença). Estimamos que a proporção da população com a doença é
de aproximadamente 0,17 (ou 17%). Como essa é uma estimativa baseada em uma amostra,
devemos justificar a incerteza que é refletida no que chamamos de margem de erro. Isso
resultaria em uma estimativa da proporção da população com a doença em algum ponto entre
0,13 e 0,21 (ou 13 a 21%).

Esse estudo seria provavelmente realizado em um só período de tempo; costuma-se chamar


este tipo de estudo de estudo transversal. Nossa estimativa da extensão da doença refere-se
apenas ao período do estudo. Seria inadequado fazer inferências sobre a extensão da doença
em momentos futuros com base nela. Se tivéssemos selecionado adultos que vivem em Boston
como nossa população, também seria inadequado inferir que a extensão da doença em outras
cidades ou em outras partes de Massachusetts seria a mesma que a observada em uma amostra
de pessoas residentes em Boston. A tarefa de estimar a extensão de uma doença em uma região
ou grupo parece simples à primeira vista. No entanto, existem muitas questões que complicam
esse trabalho. Por exemplo, onde obtemos uma lista da população, como podemos decidir quem
irá compor a amostra, como podemos garantir que grupos específicos estejam representados
(por exemplo, mulheres) na amostra e como encontramos as pessoas que identificamos para a
amostra e as convencemos a participar do estudo? Todas essas perguntas devem ser feitas
corretamente para obtermos dados válidos e inferências corretas.
Como é estimada a taxa de desenvolvimento de uma nova doença?

Para estimar a taxa de desenvolvimento de uma nova doença, por exemplo, a doença
cardiovascular, precisamos de uma estratégia de amostragem específica. Para esta análise,
usaríamos uma amostra apenas de pessoas sem doença cardiovascular e as acompanharíamos
ao longo do tempo (prospectivamente) para avaliar o desenvolvimento da doença. Uma questão
principal nesses tipos de estudos é o período de acompanhamento. O pesquisador deve decidir
se irá acompanhar os participantes por 1, 5 ou 10 anos, ou por algum outro período, para
observar o desenvolvimento ou não da doença. Se for interessante estimar o desenvolvimento
da doença ao longo de 10 anos, será preciso acompanhar cada participante da amostra por 10
anos para determinar o status da doença de cada um. A proporção do número de novos casos
da doença em relação ao tamanho total da amostra reflete a proporção ou a incidência cumulativa
de novos casos da doença ao longo do período de acompanhamento predeterminado. Suponha
que acompanhamos cada um dos participantes da nossa amostra por 5 anos e descobrimos que
2,4% desenvolveram a doença. Novamente, de modo geral, é interessante fornecer uma faixa
de valores plausível para a proporção de novos casos da doença. Isso é conseguido
incorporando uma margem de erro que reflita a precisão da nossa estimativa. A incorporação da
margem de erro pode resultar em uma estimativa da incidência cumulativa da doença entre 1,2
e 3,6% ao longo de 5 anos.

A epidemiologia é um campo de conhecimento focado no estudo da saúde e da doença em


populações humanas, padrões de saúde ou de doença, e os fatores que influenciam esses
padrões. O estudo descrito aqui é um exemplo de estudo epidemiológico. Os leitores
interessados em aprender mais sobre epidemiologia devem consultar Magnus.6

Como os fatores de risco ou as características que podem estar relacionados ao


desenvolvimento ou à progressão da doença são identificados?

Suponha que criamos a hipótese de que um determinado fator de risco ou exposição estejam
relacionados ao desenvolvimento de uma doença. Há diversos projetos ou formas de estudo
diferentes em que podemos coletar informações para avaliar o relacionamento entre um possível
fator de risco e as primeiras manifestações de uma doença. O projeto de estudo mais apropriado
depende, entre outras coisas, da distribuição do fator de risco e do resultado na população de
interesse (por exemplo, quantos participantes estão suscetíveis a ter, ou não, um determinado
fator de risco). (Discutimos diferentes projetos de estudo no Capítulo 2 e qual projeto é o melhor
em uma situação específica). Independentemente do projeto específico empregado, tanto o fator
de risco quanto o resultado devem ser medidos em cada integrante da amostra. Se estivermos
interessados na relação entre o fator de risco e o desenvolvimento da doença, novamente
recrutaríamos participantes sem a doença no início do estudo e acompanharíamos todos os
participantes para observar o desenvolvimento, ou não, da doença. Para avaliar se existe uma
relação entre um fator de risco e o resultado, estimamos a proporção (ou porcentagem) de
participantes com o fator de risco que podem desenvolver a doença e comparamos com a
proporção (ou porcentagem) de participantes que não têm o fator de risco e podem desenvolver
a doença. Existem várias maneiras de fazer essa comparação; ela pode ser baseada em uma
diferença em proporções ou em uma razão de proporções. (Os detalhes dessas comparações
são amplamente discutidos no Capítulo 6 e no Capítulo 7.)

Suponha que entre os participantes com o fator de risco, 12% desenvolvam a doença durante o
período de acompanhamento e entre aqueles sem o fator de risco, 6% desenvolvam doença. A
razão das proporções é chamada de risco relativo e aqui é igual á 0,12 / 0,06 = 2,0. A
interpretação é que duas vezes mais pessoas com o fator de risco desenvolvem a doença em
comparação com pessoas sem o fator de risco. O problema, então, é determinar se essa
estimativa, observada em uma amostra de estudo, reflete um risco aumentado na população.
Representar a incerteza pode resultar em uma estimativa do risco relativo de 1,1 a 3,2 vezes
maior para pessoas com o fator de risco. Como a faixa contém valores de risco superiores a 1,
os dados refletem um risco maior (porque o valor de 1 sugere que não há aumento de risco).

Outro problema em avaliar a relação entre um fator de risco específico e o status da doença
envolve entender relações complexas entre fatores de risco. Pessoas com o fator de risco podem
ser diferentes de pessoas sem o fator de risco; por exemplo, podem ser mais velhas e mais
propensas a ter outros fatores de risco. Existem métodos que podem ser usados para avaliar a
associação entre o fator de risco e o status da doença, levando em consideração o impacto dos
outros fatores de risco. Essas técnicas envolvem modelagem estatística. Discutimos como esses
modelos são desenvolvidos e, mais importante, como os resultados são interpretados, no
Capítulo 9.

Como é determinada a eficácia de um novo medicamento?

O projeto de estudo ideal do ponto de vista estatístico é o ensaio clínico aleatório. (O termo clínico
significa que o estudo envolve pessoas.) Por exemplo, suponha que queiramos avaliar a eficácia
de um novo medicamento destinado a reduzir o colesterol. A maioria dos ensaios clínicos
envolvem critérios específicos de inclusão e exclusão. Por exemplo, podemos querer incluir
apenas pessoas com níveis de colesterol total superiores a 200 ou 220, porque o novo
medicamento provavelmente teria mais chance de apresentar efeito em pessoas com níveis
elevados de colesterol. Podemos também excluir pessoas com antecedentes de doença
cardiovascular. Uma vez determinados os critérios de inclusão e exclusão, recrutamos os
participantes. Cada participante é designado aleatoriamente para receber o novo medicamento
experimental ou um medicamento de controle. O componente de escolha aleatória é a
característica fundamental desses estudos. A escolha aleatória teoricamente promove o
equilíbrio entre os grupos de comparação. O medicamento de controle pode ser um placebo
(uma substância inerte) ou um medicamento para reduzir o colesterol que é considerado o
padrão atual de tratamento.

A escolha do comparador adequado depende da natureza da doença. Por exemplo, no caso de


uma doença que represente prejuízo à vida, seria antiético não oferecer o tratamento; logo, um
comparador placebo nunca seria apropriado. Nesse exemplo, um placebo poderia ser apropriado
se os níveis de colesterol dos participantes não fossem elevados o suficiente para que
necessitassem de tratamento. Quando os participantes são inscritos e escolhidos aleatoriamente
para receber o tratamento experimental ou o comparador, eles não são informados sobre qual
tratamento receberão. Isso é chamado de estudo cego ou mascarado. Os participantes são
instruídos sobre a dosagem adequada e, após um tempo predeterminado, os níveis de colesterol
são medidos e comparados entre os grupos. (Novamente, há várias maneiras de fazer a
comparação e discutiremos diferentes opções no Capítulo 6 e no Capítulo 7.) Como os
participantes são distribuídos aleatoriamente nos grupos de tratamento, os grupos devem ser
comparáveis em relação a todas as características, exceto no tratamento recebido. Se
verificarmos que os níveis de colesterol estão diferentes entre os grupos, a diferença pode ser
atribuída ao tratamento.

Reforçando, devemos interpretar a diferença observada depois de considerar a casualidade ou


a incerteza. Se observarmos uma grande diferença nos níveis de colesterol entre os participantes
que receberam o medicamento experimental e o comparador, podemos inferir que o
medicamento experimental é eficaz. No entanto, as inferências sobre o efeito do medicamento
podem ser generalizadas apenas para a população à qual os participantes pertencem –
especificamente para a população definida pelos critérios de inclusão e exclusão. Os ensaios
clínicos devem ser cuidadosamente projetados e analisados. Existe uma série de questões que
são específicas dos ensaios clínicos, discutimos isso em detalhes no Capítulo 2.

Os ensaios clínicos são amplamente discutidos nos noticiários, especialmente os mais recentes.
Eles são rigorosamente regulamentados nos Estados Unidos pela FDA (Food and Drug
Administration).7 Relatórios recentes de notícias discutem estudos envolvendo medicamentos
que receberam aprovação para indicações específicas e que, posteriormente, foram retirados do
mercado por questões de segurança. Analisamos esses estudos e avaliamos como eles foram
conduzidos e, mais importante, por que eles estão sendo reavaliados. Os ensaios clínicos
aleatórios são considerados o padrão-ouro para a avaliação de medicamentos. Mesmo assim,
eles podem gerar controvérsias. Estudos diferentes dos clínicos são menos recomendados e
muitas vezes mais controversos.

O que poderia explicar resultados contraditórios entre diferentes estudos da mesma


doença?

Todos os estudos estatísticos são baseados na análise de uma amostra da população de


interesse. Às vezes, os estudos não são projetados adequadamente, por isso, seus resultados
podem ser questionáveis. Às vezes, poucos participantes são arrolados, o que pode gerar
resultados imprecisos. Há também casos em que os estudos são adequadamente projetados, no
entanto, duas réplicas diferentes produzem resultados diferentes. Ao longo deste livro, vamos
discutir como e quando isso pode ocorrer.

1.3 RESUMO

Neste livro, investigamos em detalhes cada uma das questões levantadas neste capítulo.
Entender os princípios da bioestatística é fundamental para a educação em saúde pública. Nossa
abordagem será feita por meio de aprendizagem ativa: os exemplos são tirados do Framingham
Heart Study (O estudo de Framingham ) e de ensaios clínicos, e são utilizados em todo o livro
para ilustrar conceitos. São discutidas aplicações exemplificadas envolvendo fatores de risco
importantes como pressão arterial, colesterol, tabagismo e diabetes e suas relações com
doenças cardiovasculares e cerebrovasculares incidentes. Exemplos com relativamente poucos
indivíduos ajudam a ilustrar cálculos e, ao mesmo tempo, reduzem o tempo real de computação,
um foco especial é o domínio de cálculos "manuais". Todas as técnicas são aplicadas aos dados
reais do estudo de Framingham e de ensaios clínicos. Em cada tópico, discutimos metodologia
– incluindo suposições, fórmulas estatísticas e a interpretação adequada dos resultados. As
fórmulas são resumidas ao final de cada capítulo. Foram selecionados exemplos para
representar problemas importantes e oportunos de saúde pública.
CAPÍTULO 4: Resumo dos dados coletados na amostra
PÁGINAS 35-41

Objetivos de aprendizagem
Até o final deste capítulo, o leitor estará apto a:
 Distinguir entre variáveis dicotômicas, ordinais, categóricas e contínuas.
 Identificar resumos numéricos e gráficos adequados para cada tipo de variável.
 Calcular a média, a mediana, o desvio padrão, quartis e intervalo de uma variável
contínua.
 Criar uma tabela de distribuição de frequência para variáveis dicotômicas, categóricas e
ordinais.
 Fornecer um exemplo de quando a média é uma melhor medida de localização do que a
mediana.
 Interpretar o desvio padrão de uma variável contínua.
 Gerar e interpretar um diagrama de caixa para uma variável contínua.
 Produzir e interpretar diagramas de caixa lado a lado.
 Diferenciar um histograma de um gráfico de barras.

Quando e por quê

Perguntas importantes
 Qual é a melhor maneira de usar argumentos para ação usando dados?
 Os pesquisadores estão sendo fraudulentos ou apenas confusos quando relatam
diferenças relativas em vez de diferenças absolutas?
 Como podemos ter certeza de que estamos comparando estatísticas compatíveis (maçãs
com maçãs) quando tentamos sintetizar dados de várias fontes?

No noticiário

Estatísticas resumidas sobre indicadores importantes em diferentes grupos e ao longo do tempo


podem gerar afirmações poderosas. Tabelas ou exibições gráficas simples de médias, contagens
ou taxas podem chamar a atenção para um problema que seria ignorado. Alguns exemplos de
problemas atuais e algumas estatísticas importantes são descritas a seguir.

No ano de 2014, mais de 21 milhões de americanos com 12 anos de idade ou mais tinham um
distúrbio de uso de substâncias. Cerca de 2 milhões desses distúrbios envolviam a prescrição
de analgésicos e mais de meio milhão envolviam heroína.1

O National Institute on Drug Abuse relata um aumento de 2,8 vezes de mortes por overdose de
medicamentos prescritos nos Estados Unidos de 2001 a 2014, um aumento de 3,4 vezes de
mortes por analgésicos opioides e um aumento de 6 vezes de mortes por heroína no mesmo
período.2
Explore mais a fundo

 Como você resumiria a extensão do uso de medicamentos prescritos em sua


comunidade?
 O que você mediria e como? Quais são os desafios na coleta desses dados?
 Se você comparasse a extensão do uso de medicamentos prescritos em sua comunidade
com a de outra comunidade, como poderia garantir que os dados são comparáveis?

Antes de serem realizadas análises bioestatísticas, devemos definir, explicitamente, a população


de interesse. A composição da população depende da pergunta de pesquisa do pesquisador. É
importante definir explicitamente a população, pois as inferências baseadas na amostra do
estudo serão generalizáveis apenas para a população especificada. A população é o conjunto
de todos os indivíduos sobre os quais queremos fazer generalizações. Por exemplo, se
desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os adultos de 30 a
75 anos de idade que vivem nos Estados Unidos, todos os adultos dessa faixa etária que vivem
nos Estados Unidos no período especificado do estudo compõem a população de interesse. Se
desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os adultos de 30 a
75 anos de idade que vivem no estado de Massachusetts, todos os adultos dessa faixa etária
que vivem em Massachusetts no período especificado do estudo compõem a população de
interesse. Se desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os
adultos de 30 a 75 anos de idade que vivem na cidade de Boston, todos os adultos dessa faixa
etária que vivem em Boston no período especificado do estudo compõem a população de
interesse.

Na maioria das aplicações, a população é tão grande que é impraticável estudá-la toda. Em vez
disso, selecionamos uma amostra (um subconjunto) da população e fazemos inferências sobre
a população com base nos resultados de uma análise da amostra. A amostra é um subconjunto
de indivíduos da população. Idealmente, os indivíduos são selecionados aleatoriamente na
população para a amostra. (Discutimos em detalhes esse procedimento e outros conceitos
relacionados à amostragem no Capítulo 5.)

Há uma série de técnicas que podem ser usadas para selecionar uma amostra.
Independentemente das técnicas específicas utilizadas, a amostra deve ser representativa da
população (ou seja, as características dos indivíduos da amostra devem ser semelhantes às
características dos indivíduos da população). Por definição, o número de indivíduos na amostra
é menor do que o número de indivíduos na população. Existem fórmulas para determinar o
número adequado de indivíduos a serem incluídos na amostra que depende da característica
que está sendo medida (por exemplo, exposição, fator de risco e resultado) e o nível desejado
de precisão na estimativa. Apresentamos detalhes sobre cálculos de tamanho da amostra no
Capítulo 8.

Uma vez selecionada a amostra, a característica de interesse deve ser resumida na amostra
usando as técnicas adequadas. Esta é a primeira etapa de uma análise. Depois que a amostra
é adequadamente resumida, procedimentos de inferência estatística são utilizados para gerar
inferências sobre a população com base na amostra. Discutimos os procedimentos de inferência
estatística nos Capítulos 6, 7, 9, 10 e 11.
Neste capítulo, apresentamos técnicas para resumir os dados coletados em uma amostra. Os
resumos numéricos e as exibições gráficas adequadas dependem do tipo de característica
estudada. As características – às vezes chamadas variáveis – são classificadas em um dos
seguintes tipos: dicotômicas, ordinais, categóricas ou contínuas.

As variáveis dicotômicas têm apenas duas respostas possíveis. As opções de resposta são
geralmente codificadas como "sim" ou "não". A exposição a um fator de risco específico (por
exemplo, fumar) é um exemplo de uma variável dicotômica. O status da doença prevalente é
outro exemplo de uma variável dicotômica, de maneira que cada indivíduo de uma amostra é
classificado como tendo ou não a doença de interesse em um ponto no tempo.

As variáveis ordinais e categóricas têm mais de duas respostas possíveis, mas as opções de
resposta são ordenadas e não ordenadas, respectivamente. A gravidade dos sintomas é um
exemplo de uma variável ordinal com as possíveis respostas de mínima, moderada e grave. O
National Heart, Lung, and Blood Institute (NHLBI) (Instituto Nacional do Coração, Sangue e
Pulmão) emite orientações para classificar a pressão arterial como normal, pré-hipertensão,
hipertensão estágio I ou hipertensão estágio II.1 O esquema de classificação é mostrado na
Tabela 4-1 e se baseia em níveis específicos de pressão arterial sistólica (PAS) e pressão arterial
diastólica (PAD). Os participantes são classificados na categoria mais alta, conforme definido
pela sua PAS e PAD. A categoria de pressão arterial é uma variável ordinal.

TABELA 4‑ 1 Categorias de pressão arterial

Classificação da pressão arterial PAS e/ou PAD


Normal

Pré-hipertensão

Hipertensão estágio I

Hipertensão estágio II

As variáveis categóricas, às vezes chamadas de variáveis nominais, são semelhantes às


variáveis ordinais, exceto pelo fato de que suas respostas são não ordenadas. Raça/etnia é um
exemplo de variável categórica. Em geral, ela é medida usando as seguintes opções de resposta:
branco, negro, hispânico, índio americano ou nativo do Alasca, Ásia ou Ilhas do Pacífico, ou
outro. Outro exemplo de uma variável categórica é o tipo sanguíneo, com as opções de resposta
A, B, AB e O.

As variáveis contínuas, às vezes chamadas de variáveis quantitativas ou de medição, em teoria


assumem um número ilimitado de respostas entre valores mínimos e máximos definidos. A
pressão arterial sistólica, a pressão arterial diastólica, o nível de colesterol total, a contagem de
células CD4, a contagem de plaquetas, a idade, o peso e a altura são exemplos de variáveis
contínuas. Por exemplo, a pressão arterial sistólica é medida em milímetros de mercúrio (mmHg),
um indivíduo em um estudo pode ter uma pressão arterial sistólica de 120, 120,2 ou 120,23,
dependendo da precisão do instrumento utilizado para medir a pressão arterial sistólica. No
Capítulo 11, apresentamos técnicas estatísticas para uma variável contínua específica que mede
o tempo para um evento de interesse, por exemplo, tempo para o desenvolvimento de doenças
cardíacas, câncer ou morte.

Quase todas as medidas numéricas resumidas dependem do tipo específico de variável sendo
considerada. Uma exceção é o tamanho da amostra, que é uma medida de resumo importante
para qualquer tipo de variável (dicotômica, ordinal, categórica ou contínua). O tamanho da
amostra, indicado como n, reflete o número de unidades independentes ou distintas
(participantes) da amostra. Por exemplo, se um estudo for conduzido para avaliar o colesterol
total em uma população e uma amostra aleatória de 100 indivíduos for selecionada para
participar, então, n = 100 (supondo que todos os indivíduos selecionados concordam em
participar). Em algumas aplicações, a unidade de análise não é um participante individual, mas
pode ser uma amostra de sangue ou espécime.

Suponha que no estudo de exemplo cada um dos 100 participantes forneça amostras de sangue
para o teste de colesterol em três momentos diferentes (por exemplo, no início do estudo, 6 e 12
meses depois). A unidade de análise poderia ser a amostra de sangue, nesse caso, o tamanho
da amostra seria n = 300. É importante notar que essas 300 amostras de sangue não são 300
observações independentes ou não relacionadas, pois várias amostras de sangue são retiradas
de cada participante. As várias medições realizadas no mesmo indivíduo são chamadas de
dados de medidas agrupadas ou repetidas. Os métodos estatísticos que explicam o agrupamento
das medidas realizadas no mesmo indivíduo devem ser usados na análise das 300 medidas de
colesterol total realizadas nos participantes ao longo do tempo. Os detalhes dessas técnicas
podem ser encontrados em Sullivan.2 O tamanho da amostra na maioria das análises discutidas
neste livro refere-se ao número de indivíduos que participam do estudo. Nos próximos exemplos,
indicamos o tamanho da amostra. É sempre importante informar o tamanho da amostra ao
resumir os dados, pois isso dá ao leitor uma noção da precisão da análise. A noção de precisão
é discutida em detalhes nos capítulos seguintes.

As medidas numéricas resumidas calculadas nas amostras são chamadas de estatísticas. As


medidas resumidas calculadas sobre as populações são chamadas de parâmetros. O tamanho
da amostra é um exemplo de uma estatística importante que sempre deve ser informada ao
resumir os dados. Nas seções a seguir, apresentamos exemplos de estatísticas e exibições
gráficas para cada tipo de variável.

4.1 VARIÁVEIS DICOTÔMICAS

As variáveis dicotômicas assumem uma de apenas duas respostas possíveis. O sexo é um


exemplo de uma variável dicotômica, com as opções de resposta "masculino" ou "feminino",
assim como é o status atual de tabagismo e diabetes, com as opções de resposta "sim" ou "não".

4.1.1 Estatística descritiva para variáveis dicotômicas

As variáveis dicotômicas são frequentemente usadas para classificar os participantes como


possuidores ou não de uma característica específica, tendo ou não um atributo específico. Por
exemplo, em um estudo de fatores de risco cardiovascular, podemos coletar informações sobre
se os participantes são diabéticos ou não, fumantes ou não, se estão ou não em tratamento de
hipertensão arterial ou colesterol alto. As opções de resposta para cada uma dessas variáveis
são "sim" ou "não".

Ao analisar variáveis dicotômicas, as respostas são frequentemente classificadas como bem-


sucedida ou falha, sendo que a bem-sucedida denota a resposta de interesse. A resposta bem-
sucedida não é necessariamente uma resposta positiva ou que denota saúde, mas sim a
resposta de interesse. Na verdade, em muitas aplicações médicas, o foco frequentemente está
na resposta que demonstra o problema ou "em risco".

Exemplo 4.1. O sétimo exame dos descendentes (offspring) do Framingham Heart Study foi
realizado entre 1998 e 2001. Um total de n = 3.539 participantes (1.625 homens e 1.914
mulheres) participaram do sétimo exame e passaram por um extenso exame físico. Uma série
de variáveis foi avaliada nessa análise, incluindo características demográficas, como sexo, nível
de instrução, renda e estado civil; características clínicas, como altura, peso, pressão arterial
sistólica e diastólica e colesterol total; além de características comportamentais, como fumar e
se exercitar.

As variáveis dicotômicas costumam ser resumidas em tabelas de distribuição de frequência. A


Tabela 4-2 exibe uma tabela de distribuição de frequência para a variável sexo, medida no sétimo
exame do Framingham Offspring Study. A primeira coluna da tabela de distribuição de frequência
indica as opções de resposta específicas da variável dicotômica (neste exemplo, masculino e
feminino). A segunda coluna contém as frequências (contagens ou números) de indivíduos em
cada categoria de resposta (números de homens e mulheres, respectivamente). A terceira coluna
contém as frequências relativas, que são calculadas dividindo a frequência em cada categoria
de resposta pelo tamanho da amostra (por exemplo, 1.625 / 3.539 = 0,459). As frequências
relativas são frequentemente expressas como porcentagens, sendo multiplicadas por 100, e são
mais utilizadas para resumir variáveis dicotômicas. Nesta amostra, por exemplo, 45,9% são
homens e 54,1% são mulheres.

TABELA 4‑ 2 Tabela de distribuição de frequência para sexo

Frequência Frequência relativa (%)


Masculino 1625 45,9

Feminino 1914 54,1

Total 3539 100,0

Outro exemplo de tabela de distribuição de frequência é apresentado na Tabela 4-3, mostrando


a distribuição do tratamento com medicação anti-hipertensiva para pessoas que participaram do
sétimo exame do Framingham Offspring Study. Observe que existem apenas n = 3.532 respostas
válidas, embora o tamanho da amostra seja n = 3.539. Faltam dados para sete indivíduos nesta
questão específica. Essa falta de dados ocorre nos estudos por uma série de razões Quando
faltam poucos dados (por exemplo, menos de 5%) e não existe um padrão aparente para essa
falta (por exemplo, não há razão sistemática para os dados faltantes), as análises estatísticas
com base nos dados disponíveis são geralmente adequadas. No entanto, se a falta for excessiva
ou se houver um padrão para a falta, é preciso ter cuidado ao realizar as análises estatísticas.
As técnicas para lidar com a falta de dados vão além do escopo deste livro, mais detalhes podem
ser encontrados em Little and Rubin.3 Na Tabela 4‑ 3, podemos ver que 34,5% dos participantes
estão recebendo tratamento para hipertensão.

TABELA 4‑ 3 Tabela de distribuição de frequência para


tratamento com medicação anti-hipertensiva

Frequência Frequência relativa (%)


Nenhum tratamento 2313 65,5

Com tratamento 1219 34,5

Total 3532 100,0

Às vezes, é interessante comparar dois ou mais grupos com base em uma variável de resultado
dicotômica. Por exemplo, suponha que desejamos comparar a extensão do tratamento com
medicação anti-hipertensiva em homens e mulheres. A Tabela 4‑ 4 resume o tratamento com
medicação anti-hipertensiva em homens e mulheres que participaram do sétimo exame do
Framingham Offspring Study. A primeira coluna da tabela indica o sexo do participante. O sexo
é uma variável dicotômica que, neste exemplo, é usada para distinguir os grupos a serem
comparados (homens e mulheres). A variável de resultado também é uma variável dicotômica e
representa o tratamento com medicação anti-hipertensiva ou não. No total, n = 611 homens e n
= 608 mulheres estão em tratamento anti-hipertensivo. Como há números diferentes de homens
e mulheres (1.622 contra 1.910) na amostra do estudo, a comparação das frequências (611
contra 608) não é a mais adequada. As frequências indicam que um número praticamente igual
de homens e mulheres estão em tratamento. Uma comparação mais adequada é a baseada em
frequências relativas, 37,7% contra 31,8%, que incorporam os diferentes números de homens e
mulheres na amostra. Observe que a soma da coluna mais à direita não é 100%, como foi nos
exemplos anteriores. Neste exemplo, a linha inferior contém dados sobre a amostra total e 34,5%
de todos os participantes estão sendo tratados com medicação anti-hipertensiva. No Capítulo 6
e no Capítulo 7, discutiremos métodos formais de comparação das frequências relativas entre
os grupos.
TABELA 4‑ 4 Tratamento com medicação anti-hipertensiva em
homens e mulheres que participaram do sétimo exame do
Framingham Offspring Study

Frequência
n Frequência relativa (%)

Masculino 1622 611 37,7

Feminino 1910 608 31,8


Total 3532 1219 100,0

4.1.2 Gráficos de barras para variáveis dicotômicas

Exibições gráficas são bastante úteis para resumir dados. Existem muitas opções de exibições
gráficas e muitos programas de software amplamente disponíveis oferecem uma variedade de
exibições. Entretanto, é importante escolher a exibição gráfica que apresenta, com exatidão, as
informações da amostra. Discutimos a visualização de dados em detalhes no Capítulo 12. A
exibição gráfica adequada depende do tipo de variável que está sendo analisada. Variáveis
dicotômicas são melhor resumidas usando gráficos de barras. As opções de resposta (sim/não,
presente/ausente) são mostradas no eixo horizontal, e as frequências ou frequências relativas
são plotadas no eixo vertical, produzindo um gráfico de barras de frequência ou um gráfico de
barras de frequência relativa, respectivamente.

A Figura 4‑ 1 é um gráfico de barras de frequência que mostra a distribuição dos homens e das
mulheres que compareceram ao sétimo exame do Framingham Offspring Study. O eixo
horizontal mostra as duas opções de resposta (masculino e feminino), e o eixo vertical mostra as
frequências (os números de homens e mulheres que compareceram ao sétimo exame).
FIGURA 4‑ 1 Gráfico de barras de frequência de distribuição
por sexo

FREQUÊNCIA

Masculino Feminino
Sexo
Observe que há um espaço entre as duas opções de resposta (masculino e
feminino). Isso é importante para variáveis dicotômicas e categóricas.

A Figura 4–2 é um gráfico de barras de frequência relativa da distribuição do tratamento com


medicação anti-hipertensiva medida no sétimo exame do Framingham Offspring Study. Observe
que o eixo vertical na Figura 4–2 mostra as frequências relativas e não as frequências, como era
o caso na Figura 4–1. Na Figura 4–2, não é necessário mostrar as duas respostas, já que as
frequências relativas, expressas em percentuais, totalizam 100%. Se 65,5% da amostra não
estão sendo tratados, então, 34,5% devem estar em tratamento. Esses tipos de gráficos de
barras são muito úteis para comparar frequências relativas entre grupos.
FIGURA 4–2 Gráfico de barras de frequência relativa da distribuição
do tratamento com a medicação anti-hipertensiva

Frequência relativa %

Não Sim
Tratamento com anti-hipertensivos

A Figura 4–3 é um gráfico de barras de frequência relativa que descreve o tratamento com
medicamento anti-hipertensivo em homens em relação a mulheres que compareceram ao sétimo
exame do Framingham Offspring Study. Observe que o eixo vertical mostra frequências relativas
e, neste exemplo, 37,7% dos homens estavam usando medicamentos anti-hipertensivos em
comparação a 31,8% das mulheres. A Figura 4–4 é uma demonstração alternativa dos mesmos
dados. Observe o aumento do eixo vertical. Como as frequências relativas se comparam
visualmente? Por fim, considere uma terceira exibição dos mesmos dados, mostrada na Figura
4–5. Como as frequências relativas se comparam?
FIGURA 4–3 Gráfico de barras de frequência relativa da distribuição
do tratamento com a medicação anti-hipertensiva por sexo

% usando medicação anti-hipertensiva

Masculino Feminino
Sexo

FIGURA 4‑ 4 Gráfico de barras de frequência relativa da distribuição


do tratamento com a medicação anti-hipertensiva por sexo
% usando medicação anti-hipertensiva

Masculino Feminino
Sexo
FIGURA 4‑ 5 Gráfico de barras de frequência relativa da distribuição
do tratamento com a medicação anti-hipertensiva por sexo

% usando medicação anti-hipertensiva

Masculino Feminino
Sexo

Os eixos de qualquer exibição gráfica devem ser dimensionados para acomodar a faixa dos
dados. Enquanto as frequências relativas podem, em teoria, ir de 0% a 100%, não é necessário
sempre dimensionar os eixos de 0% a 100%. Também é potencialmente ilusório restringir o
dimensionamento do eixo vertical, como foi feito na Figura 4–3, para exagerar a diferença no uso
de medicação anti-hipertensiva entre homens e mulheres, pelo menos de um ponto de vista
visual. Nesse exemplo, as frequências relativas são 31,8% e 37,7%, assim, subir de 0% para
40% é adequado para acomodar os dados. É sempre importante identificar os eixos claramente,
para que os leitores possam interpretar os dados adequadamente.

PÁGINAS 44-46
A Tabela 4–10 é uma tabela de distribuição de frequência para uma variável categórica
dicotômica. Variáveis dicotômicas são um caso especial de variáveis categóricas com
exatamente duas opções de resposta. A Tabela 4–10 mostra a distribuição da mão dominante
de participantes que compareceram ao sétimo exame do Framingham Offspring Study. As
opções de resposta são "direita" ou "esquerda". Há n = 3.513 respostas válidas para a avaliação
da mão dominante. Um total de 26 participantes não forneceu dados sobre a mão dominante. A
maioria da amostra de Framingham é destra (89,5%). A Tabela 4–11 é uma tabela de distribuição
de frequência para uma variável categórica que reflete a posição do tabagismo. A posição do
tabagismo aqui é medida como não fumante, ex-fumante ou fumante atualmente. Há n = 3.536
respostas válidas para as perguntas sobre a condição do tabagismo. Três participantes não
forneceram dados adequados a serem classificados. Quase metade da amostra é de ex-
fumantes (48,8%), mais de um terço (37,6%) nunca fumou e aproximadamente 14% são
fumantes atualmente. Os efeitos do tabagismo adversos à saúde foram um grande foco das
mensagens de saúde pública em anos recentes, e o percentual de participantes que se declaram
fumantes atualmente deve ser interpretado com relação ao período do estudo. A Tabela 4–12
mostra as proporções dos participantes que se declaram fumantes atualmente no momento de
cada exame do Framingham offspring. As datas de cada exame também são fornecidas.

TABELA 4‑ 10 Tabela de distribuição de frequência para mão


dominante

Frequência
Frequência relativa (%)

Direita 3143 89,5

Esquerda 370 10,5

Total 3513 100,0

TABELA 4‑ 11 Tabela de distribuição de frequência para


condição do tabagismo

Frequência
Frequência relativa (%)

Não fumante 1330 37,6

Ex-fumante 1724 48,8

Atuais 482 13,6

Total 3536 100,0


TABELA 4‑ 12 Fumantes atualmente no Framingham Offspring
Study por data exame

Fumantes
Ciclo de exame Datas (%)
1 De agosto de 1971 a 59,7
setembro de 1975
2 De outubro de 1979 a 28,5
outubro de 1983
3 De dezembro de 1983 a 23,9
setembro de 1987
4 De abril de 1987 a setembro 21,7
de 1991
5 De janeiro de 1991 a junho 17,4
de 1995
6 De janeiro de 1995 a 13,8
setembro de 1998
7 De setembro de 1998 a 13,6
outubro de 2001

Nas próximas duas seções, apresentamos exibições gráficas para variáveis ordinais e
categóricas, respectivamente. Enquanto os resumos numéricos para variáveis ordinais e
categóricas são idênticos (pelo menos em termos das frequências e frequências relativas), as
exibições gráficas para variáveis ordinais e categóricas são diferentes, em um modo muito
importante.

4.2.2 Histogramas para variáveis ordinais

Os histogramas são exibições gráficas apropriadas para variáveis ordinais. Um histograma difere
de um gráfico de barras em uma característica importante. O eixo horizontal de um histograma
mostra as opções de resposta ordenadas distintas da variável ordinal. O eixo vertical pode
mostrar frequências ou frequências relativas, produzindo um histograma de frequência ou um
histograma de frequência relativa, respectivamente. As barras são centradas sobre cada opção
de resposta e dimensionadas de acordo com as frequências ou frequências relativas, conforme
desejado. A diferença entre um histograma e um gráfico de barras é que as barras em um
histograma ficam juntas, não há espaço entre respostas adjacentes. Isso reforça a ideia de que
as categorias de resposta são ordenadas e baseadas em uma sequência contínua subjacente.
Esta sequência contínua subjacente pode ou não ser mensurável.

A Figura 4-6 é um histograma de frequência para os dados de pressão arterial exibidos na Tabela
4-5. O eixo horizontal exibe as categorias de pressão arterial ordenada e o eixo vertical exibe as
frequências ou números de participantes classificados em cada categoria. O histograma
transmite imediatamente a mensagem de que a maioria dos participantes está nas duas
categorias inferiores (mais saudáveis) da distribuição. Um pequeno número de participantes está
na categoria de hipertensão estágio II. O histograma na Figura 4-7 é um histograma de frequência
relativa para os mesmos dados. Observe que o valor é o mesmo, exceto para o eixo vertical, que
é dimensionado para acomodar frequências relativas em vez de frequências.

FIGURA 4‑ 6 Histograma de frequência para categorias de pressão arterial


FREQUÊNCIA

Normal Pré- Hipertensão Hipertensão


hipertensão estágio I estágio II

Pressão arterial alta

FIGURA 4‑ 7 Histograma de frequência relativa para categorias de pressão arterial


Frequência relativa %

Normal Pré- Hipertensão Hipertensão


hipertensão estágio I estágio II
Pressão arterial alta
Normalmente, os histogramas de frequência relativa são preferíveis em relação aos histogramas
de frequência, pois as frequências relativas são mais adequadas para resumir os dados. Na
Figura 4-7, podemos ver que aproximadamente 34% dos participantes têm pressão arterial
normal, 41% têm pré-hipertensão, pouco menos de 20% apresentam hipertensão no estágio I e
6% apresentam hipertensão no estágio II.

A Figura 4-8 é um histograma de frequência relativa para a variável de colesterol total resumida
na Tabela 4-7. As barras do histograma ficam juntas para refletir o fato de que existe uma
sequência contínua subjacente de medidas de colesterol total. Na Figura 4-8, vemos que mais
de 50% dos participantes têm níveis desejáveis de colesterol total e pouco menos de 15% têm
níveis de colesterol total alto. O eixo horizontal pode ser dimensionado de forma diferente. A
Figura 4-9 cria a sequência contínua do colesterol total subjacente às categorias usadas aqui
para resumir os dados mais óbvios. Outra alternativa é marcar os pontos de transição. Na Figura
4-9, o eixo horizontal pode ser rotulado com 200 e 240 nos pontos de interseção das barras
adjacentes.

FIGURA 4–8 Histograma de frequência relativa para categorias de colesterol total


Frequência relativa %

Desejável Limítrofe Alto

Colesterol total
FIGURA 4–9 Histograma de frequência relativa para categorias de colesterol total
Frequência relativa %

Colesterol total

A Figura 4-10 é um histograma de frequência relativa para os dados de IMC resumidos na Tabela
4-8. As categorias de IMC ordenadas são mostradas no texto ao longo do eixo horizontal e as
frequências relativas, como porcentagens, são exibidas ao longo do eixo vertical. Na Figura 4-
10, fica evidente que uma pequena porcentagem dos participantes está abaixo do peso e que a
maioria dos participantes está com sobrepeso ou obesidade, com o sobrepeso mais provável do
que a obesidade. O eixo horizontal da Figura 4-10 pode ser dimensionado de forma diferente
para mostrar os valores numéricos de IMC que definem as categorias ordinais ou com rótulos
para indicar os valores de IMC que separam as barras adjacentes (por exemplo, 18,5, 25, 30).
PÁGINAS 50-67
4.3 VARIÁVEIS DICOTÔMICAS

As variáveis contínuas, às vezes chamadas de variáveis de medição ou quantitativas, assumem


um número ilimitado de respostas distintas entre um valor mínimo e máximo teóricos. Em um
estudo de fatores de risco cardiovascular, podemos medir as idades, alturas, pesos, pressão
arterial sistólica e diastólica dos participantes, níveis séricos de colesterol total, etc. Os valores
medidos para cada uma dessas variáveis contínuas dependem da escala de medição. Por
exemplo, em estudos com adultos, como o Framingham Heart Study, a idade geralmente é
medida em anos. Estudos com crianças podem medir a idade em dias ou mesmo em horas, o
que for mais apropriado. As alturas podem ser medidas em polegadas ou centímetros, os pesos
podem ser medidos em libras ou em quilogramas. Supondo que o peso seja medido em libras,
as medições podem estar na libra mais próxima, o décimo ou o centésimo de libra mais próximo
(por exemplo, 145, 145,1, 145,13), dependendo da precisão da escala.

4.3.1 Estatística descritiva para variáveis contínuas

Para ilustrar os cálculos de estatística descritiva em detalhes, selecionamos um pequeno


subconjunto dos dados do Framingham Heart Study. Depois de realizar cálculos manuais sobre
o subconjunto pequeno, fornecemos estatísticas descritivas para a amostra completa que foi
gerada pelo computador.

Exemplo 4.3. No sétimo exame dos descendentes do Framingham Heart Study (n = 3.539), várias
variáveis contínuas foram medidas, incluindo pressão arterial sistólica e diastólica, colesterol
sérico total, altura e peso. Usando as alturas e pesos medidos de cada participante, podemos
calcular seu IMC. Neste estudo, a altura é medida em polegadas e o peso em libras. A seguinte
fórmula é usada para calcular o IMC usando estas métricas:

Peso em Kg
IMC = 703,03 x (Altura em centímetros)2

Para ilustrar o cálculo de estatística descritiva para variáveis contínuas, selecionamos


aleatoriamente um subconjunto de 10 participantes que compareceram ao sétimo exame do
Framingham Offspring Study. Os valores dos dados são mostrados na Tabela 4-13. A primeira
coluna contém um número de identificação exclusivo para cada participante, da segunda até a
sexta coluna, as medidas reais dos participantes e a coluna mais à direita contém o IMC
calculado usando a fórmula mostrada. Agora, a estatística descritiva de cada variável contínua é
calculada. As fórmulas para os cálculos são apresentadas em exemplos e resumidas no final
deste capítulo.
TABELA 4‑ 13 Subamostra de n = 10 participantes que compareceram ao
sétimo exame do Framingham Offspring Study.
ID do Pressão Pressão arterial Colesterol total Altura(in.) IMC
Peso (lbs)
participante arterial sistólica diastólica do soro
63,00 24,4
69,75 26,4
65,75 24,9
70,00 25,5
70,50 22,8
70,00 29,6
72,00 31,9
60,75 28,8
69,00 31,5
61,00 26,8

A primeira estatística resumida para uma variável contínua (bem como para variáveis
dicotômicas, categóricas e ordinais) é o tamanho da amostra. O tamanho da amostra aqui é
n = 10. É sempre importante informar o tamanho da amostra para expressar a dimensão do
estudo. Estudos maiores geralmente são vistos de forma mais favorável, pois tamanhos de
amostra maiores geralmente produzem resultados mais precisos. No entanto, há um ponto em
que aumentar o tamanho da amostra não aumenta materialmente a precisão da análise. (Os
cálculos de tamanho de amostra são discutidos em detalhes no Capítulo 8.)

Como a amostra é pequena (n = 10), é relativamente fácil resumir a amostra inspecionando os


valores observados. Suponha que consideramos primeiro as pressões arteriais diastólicas. Para
facilitar a interpretação, ordenamos as pressões arteriais diastólicas em ordem crescente:

62 63 64 67 70
72 76 77 81 81

As pressões arteriais diastólicas inferiores a 80 são consideradas normais (consulte a


Tabela 4-1); assim, podemos resumir que os participantes desta amostra, de modo geral,
apresentam pressões diastólicas normais. Existem dois participantes com pressão arterial
diastólica de 81, mas dificilmente excedem o limite superior da classificação "normal". As
pressões arteriais diastólicas nesta amostra não são todas idênticas (com exceção dos dois
valores medidos de 81), mas são relativamente semelhantes. Em geral, do ponto de vista clínico,
os participantes desta amostra podem ser descritos como tendo pressões arteriais diastólicas
saudáveis.

Para amostras maiores, como o sétimo exame do Framingham Offspring Study com n = 3.539,
é impossível inspecionar valores individuais para gerar um resumo, portanto, as estatísticas
resumidas são necessárias. Um resumo útil de uma variável contínua apresenta dois aspectos
gerais. O primeiro é uma descrição do centro ou da média dos dados (ou seja, o que é um valor
típico) e o segundo aborda a variabilidade dos dados.

Usando a pressão arterial diastólica, agora ilustramos o cálculo de várias estatísticas que
descrevem o valor médio e a variabilidade dos dados. Na bioestatística, o termo "média" é um
termo muito geral. Existem várias estatísticas que descrevem o valor médio de uma variável
contínua. O primeiro provavelmente é o mais familiar – a média da amostra. A média da amostra
é calculada pela soma de todos os valores e da divisão pelo tamanho da amostra. A média da
amostra das pressões arteriais diastólicas é calculada da seguinte forma:

62+63+64+67+70+72+76+77+81+81
Média da amostra =
10
713
= = 71,3
10

Para simplificar as fórmulas para as estatísticas da amostra (e para os parâmetros da população),


geralmente indicamos a variável de interesse como X. O X é simplesmente um espaço reservado
para a variável a ser analisada. Aqui, X = pressão arterial diastólica. A média da amostra é
indicada por X̅ (lê-se "X barra") e a fórmula da amostra é:

ΣX
̅=
X
𝑛
Onde Σ indica soma (ou seja, a soma das pressões arteriais diastólicas nesta amostra). A
̅ = 71,3.
pressão arterial diastólica média é X

Ao relatar estatísticas resumidas de uma variável contínua, a convenção é relatar mais uma casa
decimal além do número de casas decimais medidas. Aqui, as pressões arteriais sistólica e
diastólica, colesterol sérico total e peso são arredondados para o número inteiro mais próximo,
portanto, as estatísticas resumidas são informadas na casa decimal mais próxima. A altura é
medida até o quarto de polegada mais próximo (centésimos); portanto, as estatísticas resumidas
são relatadas na casa de milésimo mais próxima. O IMC é calculado até o décimo mais próximo,
de modo que as estatísticas resumidas são relatadas na casa centesimal mais próxima.

A média da amostra é uma medida da pressão arterial diastólica média. Uma segunda medida
do valor médio é a mediana da amostra. A mediana da amostra é o valor do meio do conjunto de
dados ordenados, ou o valor que separa os 50% superiores dos valores 50% inferiores. Quando
há um número ímpar de observações na amostra, a mediana é o valor que tem a mesma
quantidade de valores acima e abaixo no conjunto de dados ordenados. Quando há um número
par de observações na amostra, a mediana é definida como a média dos dois valores do meio
no conjunto de dados ordenados. Na amostra de n = 10 pressões arteriais diastólicas, os dois
valores médios são 70 e 72 e, portanto, a mediana é (70 + 72)/2 = 71. Metade das pressões
arteriais diastólicas estão acima de 71 e metade estão abaixo.

A média e a mediana fornecem informações diferentes sobre o valor médio de uma variável
contínua. Suponha que a amostra de 10 pressões diastólicas fosse a seguinte:

62 63 64 67 70
72 76 77 81 140

A média dessa amostra é ̅


X = 772/10 = 77,2. Isso não representa um valor típico, pois a maioria
das pressões arteriais diastólicas nesta amostra estão abaixo de 77,2. O valor extremo de 140
está afetando o cálculo da média. Para essa mesma amostra, a mediana é 71. A mediana não é
afetada por valores extremos ou atípicos. Por essa razão, a mediana é preferida em relação à
média quando houver valores extremos (valores muito pequenos ou muito grandes em relação
aos demais). Quando não houver valores extremos, a média é a medida preferida de um valor
típico, em parte porque cada observação é considerada no cálculo da média. Quando não houver
valores extremos, a média e a mediana da amostra terão um valor próximo.

A Tabela 4-14 exibe as médias e as medianas da amostra para cada uma das medidas contínuas
na amostra de n = 10. Para cada variável contínua medida nesta subamostra de participantes,
as médias e as medianas não são idênticas, mas são de valor relativamente próximo, sugerindo
que a média é o resumo mais apropriado de um valor típico para cada uma dessas variáveis. (Se
a média e a mediana forem muito diferentes, isso sugere que existem valores atípicos que afetam
a média.)

TABELA 4‑ 14 Médias e medianas de variáveis na subamostra


de tamanho n = 10

Média Mediana
Pressão arterial diastólica 71,3 71,0

Pressão arterial sistólica 121,2 122,5

Colesterol sérico total 202,3 206,5

Peso (lbs) 176,0 169,5

Altura (in.) 67,175 69,375

Indice de massa corporal (IMC) 27,26 26,60

Uma terceira medida de um valor típico de uma variável contínua é a moda. A moda é definida
como o valor mais frequente. A moda da pressão arterial diastólica é 81, a moda dos níveis de
colesterol total é 227 e a moda das alturas é 70, pois esses valores aparecem duas vezes,
enquanto os outros valores só aparecem uma vez. Para cada uma das outras variáveis
contínuas, existem 10 valores distintos e, portanto, não existe nenhuma moda (porque nenhum
valor aparece com mais frequência do que qualquer outro). Suponha que as pressões arteriais
diastólicas fossem:

62 63 64 64 70
72 76 77 81 81
Nessa amostra, existem duas modas, 64 e 81. A moda é uma estatística resumida útil para uma
variável contínua. Não é apresentada no lugar da média ou da mediana, mas sim além da média
ou da mediana.

O segundo aspecto de uma variável contínua que deve ser resumido é a variabilidade na
amostra. Uma medida de variabilidade relativamente bruta, mas importante em uma amostra, é
a amplitude da amostra. A amplitude da amostra é calculada da seguinte forma:

Amplitude da amostra = valor máximo − valor mínimo

A Tabela 4-15 exibe as amplitudes da amostra para cada uma das medidas contínuas na
subamostra de n = 10 observações. A amplitude de uma variável depende da escala da medição.
As pressões arteriais são medidas em milímetros de mercúrio, o colesterol total é medido em
miligramas por decilitro, peso em libras, etc. A amplitude do colesterol sérico total é grande, com
uma diferença de 125 unidades entre o mínimo e o máximo da amostra de tamanho n = 10. Por
outro lado, as alturas dos participantes são mais homogêneas, com uma amplitude de 28,5 cm
(11,25 pol.). A amplitude é uma estatística descritiva importante para uma variável contínua, mas
é baseada em apenas dois valores do conjunto de dados. Assim como a média, a amplitude da
amostra pode ser afetada por valores extremos e, portanto, deve ser interpretada com cuidado.
A medida de variabilidade mais utilizada para uma variável contínua é chamada de desvio
padrão, que descrevemos agora.

TABELA 4‑ 15 Amplitudes de variáveis da subamostra de


tamanho n = 10

Mínimo Máximo Amplitude


Pressão arterial 62 81 19
diastólica

Pressão arterial 105 141 36


sistólica

Colesterol sérico 150 275 125


total

Peso (lbs) 138 235 97

Altura (in.) 60,75 72,0 11,25


Indice de massa 22,8 31,9 9,1
corporal (IMC)
Supondo que não existam valores extremos ou periféricos da variável, a média é o resumo mais
adequado de um valor típico. Para resumir a variabilidade dos dados, estimamos
especificamente a variabilidade na amostra em torno da sua média. Se todos os valores
observados em uma amostra estiverem próximos da sua média, o desvio padrão é pequeno (ou
seja, próximo a zero), e se os valores observados variarem amplamente em relação à média da
amostra, o desvio padrão é grande. Se todos os valores na amostra forem idênticos, o desvio
padrão da amostra será zero.

Na amostra de n = 10 pressões arteriais diastólicas, encontramos = 71,3. A Tabela 4‑ 16 exibe


cada um dos valores observados junto com os respectivos desvios da média da amostra. Os
desvios da média refletem a distância da pressão arterial diastólica de cada indivíduo em relação
à pressão arterial diastólica média. A pressão arterial diastólica do primeiro participante é de 4,7
unidades acima da média, enquanto a pressão arterial diastólica do segundo participante é de
7,3 unidades abaixo da média. Precisamos de um resumo desses desvios da média, em
particular uma medida da distância (em média) entre a pressão arterial diastólica de cada
participante em relação à pressão arterial diastólica média. Se calcularmos a média dos desvios,
somando os desvios e dividindo pelo tamanho da amostra, nos deparamos com um problema: a
soma dos desvios da média é zero. Isso sempre acontecerá, pois é uma propriedade da média
da amostra, a soma dos desvios abaixo da média sempre será igual à soma dos desvios acima
da média.

TABELA 4‑ 16 Desvios da média

Pressão arterial Desvio da média


diastólica (X) (𝐗 − 𝐗̅)
76 4,7
64 -7,3
62 -9,3
81 9,7
70 -1,3
72 0,7
81 9,7
63 -8,3
67 -4,3
77 5,7
ΣX = 713 Σ(X − ̅
X) = 0
O objetivo é capturar a magnitude desses desvios em uma medida resumida. Para resolver este
problema dos desvios que somam zero, poderíamos usar os valores absolutos ou os quadrados
de cada desvio da média. Esses dois métodos solucionam o problema. O método mais popular
para resumir os desvios da média envolve elevar os desvios quadráticos. (Os valores absolutos
são difíceis em termos de provas matemáticas, que estão além do escopo deste livro.) A Tabela
4-17 exibe cada um dos valores observados, os respectivos desvios da média da amostra e os
desvios quadráticos da média.

TABELA 4‑ 16 Desvios da média

Desvio
quadrático da
Pressão arterial Desvio da média ̅ )𝟐
média (𝐗 − 𝐗
diastólica (X) (𝐗 − 𝐗̅)
76 4,7 22,09
64 -7,3 53,29
62 -9,3 86,49
81 9,7 94,09
70 -1,3 1,69
72 0,7 0,49
81 9,7 94,09
63 -8,3 68,89
67 -4,3 18,49
77 5,7 32,49

ΣX = 713 Σ(X − ̅
X) = 0 Σ(X − ̅
X)2 = 472,10

Os desvios quadráticos são interpretados da seguinte forma: O desvio quadrático do primeiro


participante é de 22,09, o que significa que a pressão arterial diastólica é de 22,09 unidades
quadráticas da pressão arterial diastólica média. A pressão arterial diastólica do segundo
participante é de 53,29 unidades quadráticas da pressão arterial diastólica média. Uma
quantidade que costuma ser usada para medir a variabilidade em uma amostra é chamada de
variância da amostra e é essencialmente a média dos desvios quadráticos. A variância da
amostra é indicada por s2 e é calculada da seguinte forma:

̅ )2
∑(X − X
2
𝑠 =
𝑛−1
A variância da amostra, na verdade, não é a média dos desvios quadráticos porque dividimos
por (n – 1) em vez de n. Na inferência estatística (que é descrita em detalhes nos Capítulos 6, 7,
9, 10 e 11), fazemos generalizações ou estimativas de parâmetros da população com base em
estatísticas da amostra. Se calculássemos a variância da amostra tomando a média dos desvios
quadráticos e dividindo por n, iríamos subestimar consistentemente a verdadeira variância da
população. A divisão por (n – 1) produz uma melhor estimativa da variância da população. A
variância da amostra é, no entanto, geralmente interpretada como o desvio quadrático da média.
Neste exemplo de n = 10 pressões arteriais diastólicas, a variância da amostra é s2 = 472,10 / 9
= 52,46. Assim, em média, as pressões arteriais diastólicas são de 52,46 unidades quadráticas
da pressão arterial diastólica média.

Por causa da quadratura, a variância não é particularmente interpretável. A medida mais comum
de variabilidade em uma amostra é o desvio padrão da amostra, definido como a raiz quadrada
da variância da amostra:

∑(X − ̅
X) 2
𝑠 = √𝑠 2 = √
𝑛−1

O desvio padrão da amostra das pressões arteriais diastólicas é 𝑠 = √52,46 = 7,2 . Em média,
as pressões arteriais diastólicas estão 7,2 unidades (acima ou abaixo) da pressão arterial
diastólica média.

Quando um conjunto de dados tem valores atípicos ou valores extremos, resumimos um valor
típico usando a mediana em oposição à média. Quando um conjunto de dados tem valores
atípicos, a variabilidade é, muitas vezes, resumida por uma estatística chamada amplitude
interquartil (AIQ). A amplitude interquartil é a diferença entre o primeiro e o terceiro quartil. O
primeiro quartil, indicado como Q1, é o valor no conjunto de dados que tem 25% dos valores
abaixo dele. O terceiro quartil, indicado como Q3, é o valor no conjunto de dados que tem 25%
dos valores acima dele. A AIQ é definida como

AIQ = Q3 − Q1
Na amostra de n = 10 pressões arteriais diastólicas, a mediana é 71 (50% dos valores estão
acima de 71 e 50% estão abaixo). Os quartis podem ser calculados da mesma forma que
calculamos a mediana, mas consideramos cada metade do conjunto de dados separadamente
(veja a Figura 4-16).
FIGURA 4‑ 16 Cálculo dos quartis

Metade inferior Metade superior

Quartil inferior
Quartil superior
Mediana = 71

Existem cinco valores abaixo da mediana (metade inferior) e o valor médio é 64, que é o primeiro
quartil. Existem cinco valores acima da mediana (metade superior) e o valor médio é 77, que é o
terceiro quartil. A AIQ é 77 – 64 = 13; a AIQ é a amplitude no meio de 50% dos dados. Quando
o tamanho da amostra for ímpar, a mediana e os quartis são determinados da mesma maneira.
Suponha, no exemplo anterior, que o valor mais baixo (62) foi excluído e o tamanho da amostra
se tornou n = 9. A mediana e os quartis são indicados graficamente na Figura 4-17. Quando o
tamanho da amostra for 9, a mediana é o número do meio, 72. Os quartis são determinados da
mesma maneira, observando as metades inferior e superior, respectivamente. Existem quatro
valores na metade inferior, assim, o primeiro quartil é a média dos dois valores do meio da
metade inferior, (64 + 67) / 2 = 65,5. A mesma abordagem é usada na metade superior para
determinar o terceiro quartil, (77 + 81) / 2 = 79. Alguns pacotes de cálculo estatístico usam
algoritmos ligeiramente diferentes para calcular os quartis. Os resultados podem ser diferentes,
principalmente para amostras pequenas.

FIGURA 4‑ 17 Mediana e quartis para n = 9

Quartil inferior Quartil superior


Mediana = 72

Quando não houver valores atípicos em uma amostra, a média e o desvio padrão são usados
para resumir um valor típico e a variabilidade na amostra, respectivamente. Quando houver
valores atípicos em uma amostra, a mediana e a AIQ são usadas para resumir um valor típico e
a variabilidade na amostra, respectivamente.
Uma questão importante é determinar se uma amostra tem valores atípicos ou não. Existem
vários métodos para determinar valores atípicos em uma amostra. Um método muito popular é
baseado no seguinte:

Os valores atípicos são os valores abaixo de Q1 − 1,5 × (Q3 − Q1)


ou acima de Q3 + 1,5 × (Q3 − Q1),
ou de maneira equivalente, valores abaixo de Q1 − 1,5 × IQR
ou acima de Q3 + 1,5 × AIQ

Esse método é chamado de Teste de Tukey.6 nas pressões arteriais diastólicas, o limite inferior
é 64 – 1,5 × (77 – 64) = 44,5 e o limite superior é 77 + 1,5 × (77 – 64) = 96,5. As pressões arteriais
diastólicas variam de 62 a 81; portanto, não há valores atípicos. O melhor resumo de uma
pressão arterial diastólica típica é a média ( = 71,3), e o melhor resumo da variabilidade
é dado pelo desvio padrão. (s = 7,2).

A Tabela 4-18 exibe as médias, desvios-padrão, medianas, quartis e AIQs para cada uma das
variáveis contínuas mostradas na Tabela 4-13, na subamostra de n = 10 participantes que
compareceram ao sétimo exame do Framingham Offspring Study. A Tabela 4-19 exibe os valores
mínimos e máximos observados junto com os limites para determinar os valores atípicos usando
a regra de quartil para cada uma das variáveis na subamostra de n = 10 participantes. Existem
valores atípicos em alguma das variáveis? Quais estatísticas são mais adequadas para resumir
o valor médio ou típico e a dispersão ou variabilidade? Como não há valores suspeitos de serem
valores atípicos na subamostra de n = 10 participantes, a média e o desvio padrão são as
estatísticas mais adequadas para resumir valores médios e a dispersão, respectivamente, de
cada uma dessas características.

TABELA 4‑ 18 Estatísticas resumidas sobre n = 10 participantes que


comparecem ao sétimo exame do Framingham Offspring Study
Desvio
̅
Média 𝐗 padrão (s) Mediana Q1 Q2 AIQ
Pressão arterial sistólica 121,2 11,1 122,5 133,0 127,0 14,0
Pressão arterial diastólica 71,3 7,2 71,0 64,0 77,0 13,0
Colesterol sérico total 202,3 37,7 206,5 163,0 227,0 64,0
Peso (lbs) 176,0 33,0 169,5 151,0 206,0 55,0
Altura (in.) 67,175 4,205 69,375 63,0 70,0 7,0
Indice de massa corporal (IMC) 27,26 3,10 26,60 24,9 29,6 4,7
TABELA 4‑ 18 Limites para avaliar valores atípicos em características medidas em n =
10 participantes que compareceram ao sétimo exame do Framingham Offspring Study.
Mínimo Máximo Limite inferiora Limite inferiorb
Pressão arterial sistólica 105 141 92 148
Pressão arterial diastólica 62 81 44,5 96,5
Colesterol sérico total 150 275 67 323
Peso (lbs) 138 235 68,5 288,5
Altura (in.) 60,75 72,00 52,5 80,5
Indice de massa corporal (IMC) 22,8 31,9 17,85 36,65
a
Determinado por Q1-1,5 x (Q3-Q1).
b
Determinado por Q3-1,5 x (Q3-Q1).

A Tabela 4-18 exibe as médias, desvios-padrão, medianas, quartis e AQs para cada uma das
variáveis contínuas mostradas na Tabela 4-13 na amostra total de (n = 3.539) participantes que
compareceram ao sétimo exame do Framingham Offspring Study. Analisando apenas as médias
e as medianas, parece que algumas das características estão sujeitas a valores atípicos na
amostra total?

TABELA 4‑ 20 Estatísticas resumidas sobre amostras de participantes que


compareceram ao sétimo exame do Framingham Offspring Study (n = 3.539)
Desvio
̅
Média 𝐗 padrão (s) Mediana Q1 Q2 AIQ
Pressão arterial sistólica 127,3 19,0 125,0 114,0 138,0 24,0
Pressão arterial diastólica 74,0 9,9 74,0 67,0 80,0 13,0
Colesterol sérico total 200,3 36,8 198,0 175,0 223,0 48,0
Peso (lbs) 174,4 38,7 170,0 146,0 198,0 52,0
Altura (in.) 65,957 3,749 65,750 63,000 68,750 5,75
Indice de massa corporal 28,15 5,32 27,40 24,5 30,8 6,3
(IMC)

A Tabela 4-21 exibe os valores mínimos e máximos observados junto com os limites para
determinar os valores atípicos usando a regra de quartil para cada uma das variáveis na amostra
completa (n = 3.539) de participantes que compareceram ao sétimo exame do Framingham
Offspring Study. Existem valores atípicos em alguma das variáveis? Quais estatísticas são mais
adequadas para resumir os valores médios ou típicos e a dispersão ou variabilidade para cada
variável?
TABELA 4‑ 21 Limites para avaliar valores atípicos em características medidas nos
participantes que compareceram ao sétimo exame do Framingham Offspring Study
Mínimo Máximo Limite inferiora Limite inferiorb
Pressão arterial sistólica 81,0 216,0 78 174
Pressão arterial diastólica 41,0 114,0 47,5 99,5
Colesterol sérico total 83,0 357,0 103 295
Peso (lbs) 90,0 375,0 68,0 276,0
Altura (in.) 55,00 78,75 54,4 77,4
Indice de massa corporal (IMC) 15,8 64,0 15,05 40,25
a
Determinado por Q1-1,5 x (Q3-Q1).
b
Determinado por Q3-1,5 x (Q3-Q1).

Na amostra total, cada uma das características tem valores atípicos na extremidade superior da
distribuição, pois os valores máximos excedem os limites superiores em cada caso. Há também
valores atípicos na extremidade inferior para pressão arterial diastólica e colesterol total, pois os
mínimos estão abaixo dos limites inferiores. Para algumas dessas características, a diferença
entre o limite superior e o máximo (ou o limite inferior e o mínimo) é pequena (por exemplo, altura,
pressões arteriais sistólica e diastólica), enquanto que para outros (por exemplo, colesterol total,
peso e IMC), a diferença é muito maior. Esse método de determinação de valores atípicos é
popular, mas geralmente não é aplicado como uma regra rígida e rápida. Nessa aplicação, seria
razoável apresentar médias e desvios padrão para a altura e pressões arteriais sistólica e
diastólica, e medianas e AIQs para colesterol total, peso e IMC. Outro método para avaliar se
uma distribuição está sujeita a valores atípicos ou extremos é por meio de exibições gráficas.

4.3.2 Diagramas de caixa para variáveis contínuas

Os diagramas de caixa são muito úteis para exibir a distribuição de uma variável contínua. No
Exemplo 4.3, consideramos uma subamostra de n = 10 participantes que compareceram ao
sétimo exame do Framingham Offspring Study. Calculamos as seguintes estatísticas resumidas
sobre as pressões arteriais diastólicas. Essas estatísticas são, às vezes, chamadas de quantis
ou percentis da distribuição. Um quantil ou percentil específico é um valor no conjunto de dados
que contém uma porcentagem específica dos valores contidos nele ou abaixo dele. Por exemplo,
o primeiro quartil é o percentil 25, o que significa que ele detém 25% dos valores contidos nele
ou abaixo dele. A mediana é o percentil 50, o terceiro quartil é o percentil 75 e o máximo é o
percentil 100 (ou seja, 100% dos valores estão contidos nele ou abaixo dele).

Mínimo 62
Q1 64
Mediana 71
Q3 77
Máximo 81

Um diagrama de caixa (box-whisker) é uma exibição gráfica desses percentis. A Figura 4-18 é
um diagrama de caixa das pressões arteriais diastólicas medidas na subamostra de n = 10
participantes descrita no Exemplo 4.3. As linhas horizontais representam (de cima para baixo) o
máximo, o terceiro quartil, a mediana (também indicada pelo ponto), o primeiro quartil e o mínimo.
A caixa sombreada representa o meio de 50% da distribuição (entre o primeiro e o terceiro
quartis). Um diagrama de caixa serve para transmitir a distribuição de uma variável com uma
rápida olhada.

FIGURA 4‑ 18 Diagrama de caixa das pressões arteriais diastólicas


na subamostra de n = 10
Pressão arterial diastólica

A Figura 4-19 é um diagrama de caixa das pressões arteriais diastólicas medidas na amostra
total dos participantes que compareceram ao sétimo exame do Framingham Offspring Study. Na
amostra total, determinamos que houve valores atípicos tanto na extremidade inferior quanto na
extremidade superior (consulte a Tabela 4-21). Na Figura 4-19, os valores típicos são exibidos
como linhas horizontais na parte superior e inferior da distribuição. Na extremidade inferior da
distribuição, existem cinco valores que são considerados atípicos (ou seja, valores abaixo de
47,5, que foi o limite inferior para a determinação de valores atípicos). Na extremidade superior
da distribuição, existem 12 valores que são considerados atípicos (ou seja, valores acima de
99,5, que foi o limite superior para a determinação de valores atípicos). Os "bigodes" (as linhas
horizontais entalhadas) do diagrama de caixa são os limites que determinamos para a detecção
de valores atípicos (47,5 e 99,5).
FIGURA 4‑ 19 Diagrama de caixa das pressões arteriais
diastólicas dos participantes que compareceram ao sétimo
exame do Framingham Offspring Study

Pressão arterial diastólica

A Figura 4-20 é um diagrama de caixa dos níveis de colesterol sérico total medidos na amostra
total dos participantes que compareceram ao sétimo exame do Framingham Offspring Study. Na
amostra total, determinamos que houve valores atípicos tanto na extremidade inferior quanto na
extremidade superior (consulte a Tabela 4-21). Novamente, na Figura 4-20, os valores típicos
são exibidos como linhas horizontais na parte superior e inferior da distribuição. Os valores
atípicos de colesterol total são mais numerosos do que os que observamos para a pressão
arterial diastólica, principalmente na extremidade superior da distribuição.

FIGURA 4‑ 20 Diagrama de caixa dos níveis de colesterol


sérico total dos participantes que compareceram ao sétimo
exame do Framingham Offspring Study
Colesterol total
Os diagramas de caixa são muito úteis para comparar distribuições. A Figura 4-21 mostra
diagramas de caixa, lado a lado, das distribuições de peso (em libras) para homens e mulheres
que participaram do sétimo exame do Framingham Offspring Study. A figura mostra claramente
uma mudança nas distribuições, com homens com pesos muito mais altos. De fato, o percentil
25 do peso dos homens é de aproximadamente 180 libras, igual ao percentil 75 das mulheres.
Especificamente, 25% dos homens pesam 180 libras ou menos em comparação com 75% das
mulheres. Há um número substancial de valores atípicos na extremidade superior da distribuição
entre homens e mulheres. Existem dois valores atípicos baixos entre os homens.

FIGURA 4‑ 21 Gráficos de caixa, lado a lado, das distribuições de peso


para homens e mulheres que participaram do sétimo exame do
Framingham Offspring Study
Peso

Feminino Masculino
Sexo

Como os homens geralmente são mais altos que as mulheres (veja a Figura 4-22), não é
surpreendente que eles tenham pesos superiores aos delas. Uma comparação mais adequada
é a que usa o IMC (veja a Figura 4-23). As distribuições de IMC são semelhantes para homens
e mulheres. Há novamente um número substancial de valores atípicos nas distribuições para
homens e mulheres. No entanto, ao levar em consideração a altura (comparando o IMC em vez
de comparar o peso), vemos que os valores atípicos mais extremos estão entre as mulheres.
Quais são as estatísticas mais adequadas para resumir o IMC típico para homens e mulheres?
FIGURA 4‑ 22 Gráficos de caixa, lado a lado, das distribuições de
altura para homens e mulheres que participaram do sétimo exame do
Framingham Offspring Study

Altura

Feminino Masculino
Sexo

FIGURA 4‑ 23 Gráficos de caixa, lado a lado, das distribuições de


índice de massa corporal para homens e mulheres que participaram do
sétimo exame do Framingham Offspring Study
Índice de massa corporal

Feminino Masculino
Sexo
Nos diagramas de caixa, os valores atípicos são valores que excedem Q3 + 1,5 × AIQ ou ficam
abaixo de Q1 – 1,5 × AIQ. Alguns pacotes de cálculos estatísticos utilizam o seguinte para
determinar valores atípicos: valores que excedem Q3 + 3 × AIQ ou ficam abaixo de Q1 – 3 × AIQ,
isso resultaria em menos observações sendo classificadas como valores atípicos.7,8 A regra que
usa 1,5 × AIQ é a regra mais comumente aplicada para determinar os valores atípicos.

4.4 RESUMO

O primeiro aspecto importante de qualquer análise estatística é um resumo adequado das


principais variáveis. Isso envolve identificar primeiro o tipo de variável que está sendo analisada.
Essa etapa é extremamente importante, pois os resumos numéricos e gráficos adequados
dependem do tipo de variável sendo analisada. As variáveis são dicotômicas, ordinais,
categóricas ou contínuas. Os melhores resumos numéricos para variáveis dicotômicas, ordinais
e categóricas são as frequências relativas. Os melhores resumos numéricos para variáveis
contínuas incluem a média e o desvio padrão, ou a mediana e a amplitude interquartil,
dependendo da existência ou não de valores atípicos na amostra. A média e o desvio padrão, ou
a mediana e a amplitude interquartil, resumem a localização e a dispersão, respectivamente. O
melhor resumo gráfico para variáveis dicotômicas e categóricas é um gráfico de barras, e o
melhor resumo gráfico para uma variável ordinal é um histograma. Os gráficos de barras e os
histogramas podem ser desenvolvidos para exibir frequências ou frequências relativas, sendo a
última a exibição mais popular. Os diagramas de caixa fornecem um resumo muito útil e
informativo das variáveis contínuas. Os diagramas de caixa também são úteis para comparar as
distribuições de uma variável contínua entre grupos de comparação mutuamente exclusivos (ou
seja, não sobrepostos). A Figura 4-24 resume as principais estatísticas e exibições gráficas
organizadas por tipo de variável.

Figura 4‑ 24 Principais estatísticas e exibições gráficas

Tipo de variável Estatística/ Definição


Exibição gráfica
Dicotômica, ordinal, Frequência relativa Frequência/n
categórica
Dicotômica ou Gráfico de barras de
categórica frequência ou frequência
relativa

Ordinal Histograma de frequência


ou frequência relativa

Contínua Média

Desvio padrão
Tipo de variável Estatística/ Definição
Exibição gráfica
Mediana Valor do meio no conjunto de
dados ordenados
Primeiro quartil Q1 = valor que tem 25% abaixo
dele
Terceiro quartil Q3 = valor que tem 25% acima
dele
Amplitude interquartil AIQ = Q3 - Q1
Critério para valores Valores abaixo de Q1 - 1,5 x
atípicos (Q3-Q1) ou acima de Q3 + 1,5 x
(Q3-Q1)
Gráfico de caixa

4.5 PROBLEMAS PRÁTICOS

1. Um estudo foi realizado para estimar o nível médio de colesterol total em crianças entre 2 e
6 anos de idade. Uma amostra de 9 participantes foi selecionada e seus níveis de colesterol
total foram medidos da seguinte forma.

185 225 240 196 175


180 194 147 223

a. Calcule a média da amostra.


b. Calcule o desvio padrão da amostra.
c. Calcule a mediana.
d. Calcule o primeiro e o terceiro quartis.
e. Qual medida, a média ou a mediana, é a melhor para um valor típico? Justifique.
f. Qual medida, o desvio padrão ou a amplitude interquartil, é a melhor para medir a
dispersão? Justifique.

2. Gere um gráfico de caixa para os dados no Problema 1.

3. Os gráficos de caixa na Figura 4-25 mostram as distribuições de níveis de colesterol total


em meninos e meninas entre 10 e 15 anos de idade.
a. Qual é a mediana do nível de colesterol total entre os meninos?
b. Existe algum valor atípico de colesterol total para os meninos? Justifique
resumidamente.
c. Qual proporção dos meninos tem colesterol total inferior a 205?
d. Qual proporção das meninas tem colesterol total inferior a 205?
4. Os seguintes dados foram coletados como parte de um estudo sobre o consumo de café
entre estudantes de pós-graduação. Os seguintes dados refletem a quantidade consumida
por dia, em copos:

3 4 6 8 2 1 0 2

a. Calcule a média da amostra.


b. Calcule o desvio padrão da amostra.
c. Calcule a mediana.
d. Calcule o primeiro e o terceiro quartis.
e. Qual medida, a média ou a mediana, é a melhor para um valor típico? Justifique.
f. Qual medida, o desvio padrão ou a amplitude interquartil, é a melhor para medir a
dispersão? Justifique.

5. No início de um estudo de uma nova medicação anti-hipertensiva, as pressões arteriais


sistólicas foram medidas. Os dados obtidos foram os seguintes:

120 112 138 145 135


150 145 163 148 128
143 156 160 142 150

a. Calcule a média da amostra.


b. Calcule a mediana da amostra.
c. Calcule o desvio padrão da amostra.
d. Calcule a amplitude da amostra.
e. Existe algum valor atípico? Justifique.

6. Organize as pressões arteriais sistólicas no Problema 5 em categorias e crie uma tabela de


distribuição de frequência.

7. Gere um histograma de frequência relativa usando os dados do Problema 6.

8. A Figura 4-26 mostra o peso ao nascer (em gramas) de bebês que tiveram tempo de
gestação completo, classificados pelo ganho de peso de suas mães durante a gravidez:
a. Qual é a mediana do peso ao nascer dos bebês cujas mães engordaram entre 50 e
74 libras?
b. Qual é a amplitude interquartil das mães que engordaram 75 libras ou mais?
c. Existem valores atípicos no peso ao nascer dos bebês cujas mães engordaram
menos de 50 libras?
d. Quais são as melhores medidas de um peso ao nascer típico e a variabilidade no
peso ao nascer dos bebês cujas mães engordaram menos de 50 libras?
9. A medições a seguir são de altura do bebê (em centímetros) de uma amostra de crianças
que participaram de um estudo sobre saúde infantil:

28 30 41 48 29
48 62 49 51 39

a. Calcule a média da amostra.


b. Calcule o desvio padrão da amostra.
c. Calcule a mediana.
d. Calcule o primeiro e o terceiro quartis.
e. Qual medida, a média ou a mediana, é a melhor para um valor típico? Justifique.
f. Qual medida, o desvio padrão ou a amplitude interquartil, é a melhor para medir a
dispersão? Justifique.

10. Construa uma tabela de distribuição de frequência usando os dados do Problema 9 e as


seguintes categorias: menos que 35, 35‑ 44, 45‑ 54, 55 ou mais.

11. Gere um histograma de frequência relativa usando os dados do Problema 10.

12. Os seguintes dados foram coletados de 10 pacientes submetidos a fisioterapia após cirurgia
do joelho que foram selecionados aleatoriamente. Os dados representam a porcentagem de
ganho de amplitude de movimento após 3 semanas de fisioterapia.

24% 32 % 50 % 62 % 21 %
45 % 80 % 24% 30 % 10 %

a. Calcule o ganho percentual médio da amostra em amplitude de movimento.


b. Calcule o desvio padrão da amostra.
c. Calcule a mediana.
d. Calcule o primeiro e o terceiro quartis.

13. Os níveis de HDL a seguir foram medidos em mulheres saudáveis.

65 60 58 52 70 54 72 80 38

a. Calcule a média da amostra de HDL das mulheres saudáveis.


b. Calcule o desvio padrão da amostra de HDL das mulheres saudáveis.
c. Calcule a mediana da amostra de HDL das mulheres saudáveis.

14. No início de um ensaio clínico de um novo tratamento contra o câncer, os participantes foram
convidados a avaliar sua qualidade de vida. Os dados de todos os participantes foram
resumidos (na Tabela 4-22). Gere uma exibição gráfica da qualidade de vida inicial.

15. As estatísticas resumidas sobre os níveis de triglicerídeos foram medidas em uma amostra
de n = 200 participantes. Há valores atípicos? Justifique sua resposta.

n = 200 s = 64 Mín. = 38 Q1 = 59

Mediana = 180 Q3 = 243 Máx. = 394


16. A Figura 4‑ 27 é uma exibição gráfica das idades dos participantes de um estudo de fatores
de risco para demência. Identifique a mediana e o primeiro e terceiro quartis da idade.

17. Um ensaio clínico foi realizado para avaliar a eficácia de um novo medicamento para
aumentar o colesterol HDL (colesterol "bom") de homens com alto risco de doença
cardiovascular. Os participantes foram escolhidos aleatoriamente para receber o novo
medicamento ou placebo e acompanhados durante 12 semanas, tempo em que o colesterol
HDL foi medido. Os dados estão resumidos na Figura 4-28.
a. Qual é o percentil 25 de HDL de pacientes que receberam o placebo?
b. Qual é a mediana de HDL dos pacientes que receberam o novo medicamento?
c. Existem valores atípicos de HDL dos pacientes que receberam o novo medicamento?
Justifique.

18. Um estudo piloto foi realizado para investigar a viabilidade de recrutar mulheres grávidas
para um estudo de fatores de risco para parto prematuro. As mulheres foram convidadas a
participar em sua primeira consulta médica de pré-natal. Os dados a seguir representam as
idades gestacionais, em semanas, das mulheres que concordaram em participar do estudo.

11 14 21 22 9 10 13 18

a. Calcule a média da amostra de idade gestacional.


b. Calcule o desvio padrão da amostra de idade gestacional.
c. Calcule a mediana da idade gestacional.
d. Qual proporção da amostra está no primeiro trimestre da gravidez (ou seja, entre 1
semana e 13 semanas, inclusive, de gravidez)?

19. Se houver valores atípicos em uma amostra, qual das seguintes afirmações é sempre
verdadeira?
a. Média > Mediana
b. O desvio padrão é menor do que o esperado (menor do que se não existissem valores
atípicos)
c. Média < Mediana
d. O desvio padrão é maior do que o esperado (maior do que se não existissem valores
atípicos)

20. Os dados a seguir são uma amostra da contagem de leucócitos em milhares de células por
milímetro cúbico de nove pacientes que deram entrada em um hospital de Boston, MA, em
um determinado dia.

7 35 5 9 8 3 10 12 8

a. Existe algum valor atípico nesses dados? Justifique.


b. Resuma os dados adequadamente.

TABELA 4‑ 22 Qualidade de vida


Qualidade de vida Número de participantes
Excelente 25
Muito boa 29
Boa 36
Razoável 53
Insatisfatória 57
Meninos

Meninas

FIGURA 4‑ 25 Diagramas de caixa de níveis de colesterol total em meninos e meninas

34 + quilos

22 a 33 quilos

Menos de 22 quilos

Peso ao nascer (gramas)

FIGURA 4‑ 26 Peso de bebês ao nascer por ganho de peso da mãe


FIGURA 4‑ 27 Idades dos participantes de um estudo de fatores de risco para demência

Novo medicamento

Placebo

FIGURA 4‑ 28 Colesterol HDL


CAPÍTULO 5: Modelos de probabilidade
PÁGINAS 78-87

5.6.2 Um modelo de probabilidade para um resultado contínuo: A distribuição normal

O modelo de distribuição normal é um modelo de distribuição de probabilidade importante que é


adequado quando uma experiência ou processo específicos apresentam um resultado contínuo.
Existem muitos modelos de probabilidade diferentes para resultados contínuos e o modelo
adequado depende da distribuição do resultado de interesse. O modelo de probabilidade normal
se aplica quando a distribuição do resultado contínuo segue o que chamamos de distribuição
gaussiana, ou é bem descrita por uma curva em forma de sino (Figura 5-1).

FIGURA 5‑ 1 Distribuição normal

O eixo horizontal ou x é usado para exibir a escala da característica que está sendo analisada
(por exemplo, altura, peso, pressão arterial sistólica). O eixo vertical reflete a probabilidade de
se observar cada valor. Note que a curva é mais alta no meio, sugerindo que os valores médios
têm maiores probabilidades ou tendem mais a ocorrer. A curva cai acima e abaixo do meio,
sugerindo que os valores nas duas extremidades são muito menos prováveis de ocorrer.
Semelhante ao modelo de distribuição binomial, existem algumas suposições para o uso
adequado do modelo de distribuição normal. O modelo de distribuição normal é apropriado para
um resultado contínuo se as condições a seguir forem verdadeiras. Primeiro, em uma distribuição
normal, a média é igual à mediana e também igual à moda, que é definida como o valor
observado com mais frequência. Conforme discutimos no Capítulo 4, nem sempre a média e a
mediana são iguais. Por exemplo, se uma característica específica estiver sujeita a valores
atípicos, a média não será igual à mediana e, portanto, a característica não seguirá uma
distribuição normal. Um exemplo pode ser o período de permanência no hospital (medido em
dias) após um procedimento específico. O período de permanência frequentemente segue uma
distribuição assimétrica, conforme ilustrado na Figura 5–2.

FIGURA 5‑ 2 Distribuição anormal

Muitas características são aproximadamente distribuídas de maneira normal, como altura e peso
para grupos específicos de idade e sexo, assim como o são muitas medidas laboratoriais e
clínicas, como o nível de colesterol e a pressão arterial sistólica. A primeira propriedade da
distribuição normal implica o seguinte: P(x > µ) = P(x < µ) = 0,5, onde x indica a variável contínua
de interesse e µ é a média da população. A probabilidade de um valor exceder a média é de 0,5
e equivalente à probabilidade de um valor estar abaixo da média, que é a definição da mediana.
Em uma distribuição normal, a média, a mediana e a moda (o valor mais frequente) são iguais.
Uma variável contínua que segue uma distribuição normal é aquela para a qual as três instruções
a seguir também são verdadeiras.
i. Aproximadamente 68% dos valores se situam entre a média e um desvio padrão
(em qualquer direção), ou seja, P(µ-σ < x < µ+σ) = 0,68, onde µ é a média da
população e σ é o desvio padrão da população.
ii. Aproximadamente 95% dos valores se situam entre a média e dois desvios padrão
(em qualquer direção), ou seja, P(µ - 2σ < x < µ + 2σ) = 0,95.
iii. Aproximadamente 99,9% dos valores se situam entre a média e três desvios
padrão (em qualquer direção), ou seja, P(µ - 3σ < x < µ + 3σ) = 0,999.

Parte (iii) do precedente indica que, para uma variável contínua com uma distribuição normal,
quase todas as observações se situam entre µ-3σ e µ + 3σ; portanto, o valor mínimo é
aproximadamente µ-3σ e o máximo é aproximadamente µ + 3σ. Nos exemplos a seguir, vamos
ilustrar como estas probabilidades 0,68, 0,95 e 0,999 foram derivadas.

Outro atributo de uma distribuição normal é que ela é simétrica em relação à média. A curva à
direita da média é uma imagem espelhada da curva à esquerda. Uma variável contínua com uma
distribuição como a mostrada na Figura 5-1 – cuja média, mediana e moda são iguais – é
simétrica e responde aos critérios das condições precedentes (i) até (iii), segue uma distribuição
normal. Semelhante ao caso binomial, existe um modelo de distribuição normal que pode ser
usado para calcular probabilidades. O modelo de probabilidade normal é mostrado abaixo; o
cálculo das probabilidades com o modelo de distribuição normal requer cálculo matemático,

1 2 2
P(x) = 𝑒 −(𝑥−𝜇) /2𝜎 ) ,
𝜎√2Π

onde µ é a média da população e σ é o desvio padrão da população. Existe uma alternativa para
o uso de cálculo matemático para computar probabilidades de variáveis normais, ela envolve o
uso de tabelas de probabilidade. Esta é a abordagem que usamos.

Exemplo 5.11. O índice de massa corporal (IMC) para sexo e grupos etários específicos é
distribuído aproximadamente de maneira normal. O IMC médio de homens com 60 anos de idade
é 29, com um desvio padrão de 6, e o IMC médio de mulheres de 60 anos é 28, com um desvio
padrão de 7. Suponha que consideremos a distribuição do IMC entre os homens com 60 anos
de idade. Saber que a distribuição é normal e ter a média e o desvio padrão nos permite gerar
completamente a distribuição. A distribuição do IMC entre os homens com 60 anos é mostrada
na Figura 5-3.

FIGURA 5‑ 3 Distribuição do IMC entre homens de 60 anos: Média = 29,


desvio padrão = 6
Observe que a média (µ = 29) está no centro da distribuição, a escala do eixo horizontal está em
unidades do desvio padrão (σ = 6) e a amplitude da distribuição vai essencialmente de µ - 3σ a
µ + 3σ. Isso não quer dizer que não existam valores de IMC abaixo de 11 ou acima de 47, eles
existem, mas ocorrem com pouca frequência. Para calcular probabilidades sobre distribuições
normais, calculamos áreas abaixo da curva. Por exemplo, suponha que um homem de 60 anos
seja selecionado aleatoriamente, qual a probabilidade de seu IMC ser inferior a 29? A
probabilidade é exibida graficamente e representada pela área abaixo da curva à esquerda do
valor 29 na Figura 5-4.

FIGURA 5–4 P(IMC < 29)

P(IMC < 29)

A probabilidade de um homem ter um IMC inferior a 29 é equivalente à área abaixo da curva à


esquerda da linha traçada em 29. Para qualquer distribuição de probabilidade, a área total abaixo
da curva é 1. Na distribuição normal, sabemos que a média é igual à mediana e, portanto, metade
(50%) da área abaixo da curva está acima da média e metade está abaixo, então, P (IMC <29)
= 0,50.

Podemos calcular a probabilidade de um homem ter um IMC de 29 ou menor, P(x ≤ 29). Isso
pode ser pensado como P(x ≤ 29) = P(x < 29) + P(x = 29). Sabemos que P(x < 29) = 0,50. Com
a distribuição normal, P(x = 29) é definido como 0. Na verdade, a probabilidade de ser
exatamente igual a qualquer valor é sempre definida como 0. Isso não quer dizer que não existam
homens com um IMC de 29. Não há área em uma linha única, assim P(x = 29) é definido como
0. Portanto, P(x ≤ 29) = P(x < 29). Este conceito será mais ilustrado.

Suponha que queremos saber a probabilidade de um homem ter um IMC menor que 35. A
probabilidade é exibida graficamente e representada pela área abaixo da curva à esquerda do
valor 35 na Figura 5-5. A probabilidade de um homem ter um IMC inferior a 35 é equivalente à
área abaixo da curva à esquerda da linha traçada em 35. Na distribuição normal, sabemos que
aproximadamente 68% da área abaixo da curva está entre a média mais ou menos um desvio
padrão. Para os homens de 60 anos, 68% da área abaixo da curva está entre 23 e 35. Também
sabemos que a distribuição normal é simétrica em relação à média; portanto, P(29 < x < 35) =
P(23 < x < 29) = 0,34. Assim, P(x < 35) = 0,5 + 0,34 = 0,84.

FIGURA 5–5 P(IMC < 35)

P(IMC < 35)

Qual a probabilidade de um homem de 60 anos ter um IMC inferior a 41? Usando uma lógica
semelhante e o fato de que aproximadamente 95% da área abaixo da curva está entre a média
mais ou menos dois desvios padrão – ou seja, P(29 < x < 41) = P(17 < x < 29) = 0,475 – podemos
calcular P(x < 41) = 0,5 + 0,475 = 0,975.

Suponha que agora queremos calcular a probabilidade de que um homem com 60 anos tenha
um IMC inferior a 30 (o limiar para classificar alguém como obeso). A área de interesse, que
reflete a probabilidade, é exibida graficamente na Figura 5-6. Como 30 não é a média nem um
múltiplo de desvios padrão acima ou abaixo da média, não podemos usar as propriedades de
uma distribuição normal para determinar P(x < 30). Com base nos cálculos anteriores, P(x < 30)
está certamente entre 0,5 e 0,84, mas podemos determinar um valor mais exato. Para fazer isso,
precisamos de uma tabela de probabilidades para a distribuição normal.
FIGURA 5–6 P(IMC < 30)

P(IMC < 30)

Como todas as aplicações que encontramos poderiam envolver uma distribuição normal com
média e desvio padrão diferentes, usaremos uma tabela de probabilidades para a distribuição
normal padrão. A distribuição normal padrão é uma distribuição normal com uma média de 0 e
desvio padrão de 1. Sempre usaremos z para indicar uma variável normal padrão. Até este ponto,
usamos x para indicar a variável de interesse (por exemplo, x = IMC, x = altura, x = peso). A letra
z será reservada para indicar a distribuição normal padrão. A distribuição normal padrão é exibida
na Figura 5-7.
P(IMC < 30)
FIGURA 5‑ 7 A distribuição normal padrão: µ = 0, σ = 1

A média da distribuição normal padrão é 0; assim, a distribuição está centrada em 0. Os múltiplos


do desvio padrão acima e abaixo da média estão em unidades do desvio padrão (σ = 1). A
amplitude da distribuição normal padrão é de aproximadamente -3 a 3. A Tabela 1 no Apêndice
contém probabilidades para a distribuição normal padrão.

O corpo da Tabela 1 contém probabilidades para a distribuição normal padrão que correspondem
a áreas abaixo da curva normal padrão. Especificamente, a Tabela 1 é organizada para fornecer
a área abaixo da curva à esquerda ou inferior ao valor z especificado. A Tabela 1 pode conter
duas casas decimais de z. A casa das unidades e a primeira casa decimal são mostradas na
coluna da esquerda e a segunda casa decimal é exibida na linha superior. Por exemplo, suponha
que queremos calcular P(z < 0). Como a Tabela 1 contém z para duas casas decimais, isso
equivale a P(z < 0,00). Localizamos 0,0 na coluna da esquerda (unidades e casa decimal) e 0,00
na linha superior (casa centesimal). P(z < 0,00) = 0,5000. Da mesma forma, P(z < 0,52) = 0,6985.

A pergunta de interesse é P(x < 30). Agora, temos a Tabela 1, que contém todas as
probabilidades para a distribuição normal padrão. O IMC segue uma distribuição normal com
uma média de 29 e um desvio padrão de 6. Podemos usar a distribuição normal padrão para
resolver esse problema.

A Figura 5-8 mostra as distribuições de IMC para homens com 60 anos e a distribuição normal
padrão lado a lado. As áreas abaixo da curva são idênticas; apenas a escala do eixo x é diferente.
O IMC varia de 11 a 47, enquanto a variável normal padrão, z, varia de -3 a 3. Queremos calcular
P(x < 30). Determinamos o valor de z que corresponde a x = 30 e depois usamos a Tabela 1
para encontrar a probabilidade ou a área abaixo da curva. A fórmula a seguir converte um valor
de x em pontuação z, também chamada de pontuação padronizada:

𝜒−𝜇
Z= ,
𝜎
FIGURA 5‑ 8 Distribuição do IMC e distribuição padrão normal

X = IMC, = 29, σ = 6 Z, = 0, σ = 1

onde µ é a média e σ é o desvio padrão da variável x. Queremos calcular P(x < 30). Usando a
fórmula anterior, convertemos (x = 30) para sua pontuação z correspondente (isso é chamado
de padronização):

30-29 1
Ζ= = = 0,17
6 6
Portanto, P(x < 30) = P(z < 0,17). Podemos resolver esta última usando a Tabela 1: P(x < 30) =
P(z < 0,17) = 0,5675. Observe na Figura 5-9 que a área abaixo de 30 e a área abaixo de 0,17
nas distribuições x e z, respectivamente, são idênticas.
FIGURA 5‑ 9 P(x < 30) = P(z < 0,17)

P(x < 30)

P(z < 0,17)

Usando a Tabela 1, P(z < 0,17) = 0,5675. Portanto, a probabilidade de um homem de 60 anos
ter um IMC inferior a 30 é de 56,75%.

Suponha que queremos calcular a probabilidade de um homem de 60 anos ter um IMC igual a
30 ou menor. Especificamente, queremos P(x ≤ 30). P(x ≤ 30) = P(x < 30) + P(x = 30). O segundo
termo reflete a probabilidade de observar um homem de 60 anos de idade com um IMC de
exatamente 30. Estamos calculando probabilidades para a distribuição normal como áreas
abaixo da curva. Não há área em uma linha única, assim, P(x = 30) é definido como 0. Este será
o caso para a distribuição normal e para outras distribuições de probabilidade de variáveis
contínuas. Portanto, P(x ≤ 30) = P(x < 30) = 0,5675. Observe que, na distribuição binomial e em
outras distribuições de probabilidade de variáveis discretas, a probabilidade de assumir um valor
específico não é definida como 0 (consulte a Seção 5.6.1).
Considere novamente o Exemplo 5.11. Qual a probabilidade de um homem de 60 anos ter um
IMC superior a 35? Especificamente, qual é o P(x > 35)? Novamente, padronizamos:

35 − 29 6
Ρ(𝜒 > 35) = Ρ(𝓏 > = =1).
6 6

Agora precisamos calcular P(z > 1). Se olharmos para z = 1,00 na Tabela 1, encontramos que
P(z < 1,00) = 0,8413. A Tabela 1 sempre oferece a probabilidade de que z seja menor do que o
valor especificado. Queremos P(z > 1) (veja a Figura 5‑ 10). A Tabela 1 oferece P(z < 1) = 0,8413;
portanto, P(z > 1) = 1 - 0,8413 = 0,1587. Quase 16% dos homens de 60 anos de idade
apresentam IMC superior a 35.

FIGURA 5‑ 10 Usando a Tabela 1 para calcular P(z > 1)

P(z <1) = 0,8413

P(z > 1) = ?

Qual a probabilidade de um homem de 60 anos ter um IMC entre 30 e 35? Observe que é o
mesmo que perguntar qual é a proporção de homens de 60 anos com IMC entre 30 e 35.
Especificamente, queremos P(30 < x < 35). Para resolver isso, padronizamos e usamos a Tabela
1. A partir dos exemplos anteriores, P(30 < x < 35) = P(0,17 < z < 1). Isso pode ser calculado
como P(0,17 < z < 1) = 0,8413 - 0,5675 = 0,2738. Essa probabilidade pode ser pensada como
P(0,17 < z < 1) = P(z < 1) - P(z < 0,17).

Agora, considere o IMC das mulheres. Qual a probabilidade de uma mulher de 60 anos ter um
IMC inferior a 30? Usamos a mesma abordagem, mas lembre-se de que, para as mulheres de
60 anos, a média é de 28 e o desvio padrão é de 7,
30 − 28 2
Ρ (𝜒 < 30) = Ρ (𝑧 < = = 0.29
7 7
Usando a Tabela 1, P(z < 0,29) = 0,6141. Portanto, 61,41% das mulheres de 60 anos têm IMC
inferior a 30 e 38,59% das mulheres têm IMC de 30 ou superior.

Qual a probabilidade de uma mulher de 60 anos ter um IMC superior a 40? Especificamente,
qual é o P(x > 40)? Novamente, padronizamos:

40 − 28 12
Ρ (𝜒 > 40) = Ρ (𝑧 > = = 1.71
7 7

Agora precisamos calcular P(z > 1,71). Se olharmos para z = 1,71 na Tabela 1, definimos que
P(z < 1,71) = 0,9564. P(z. 1,71) = 1 - 0,9564 = 0,0436. Menos de 5% das mulheres de 60 anos
têm IMC superior a 40.

A Tabela 1 é muito útil para calcular probabilidades sobre distribuições normais. Para fazer isso,
primeiro padronizamos ou convertemos um problema sobre uma distribuição normal (x) em um
problema sobre a distribuição normal padrão (z). Uma vez que temos o problema em termos de
z, usamos a Tabela 1 do Apêndice para calcular a probabilidade desejada.

A distribuição normal padrão também pode ser útil para o cálculo de percentis. Um percentil é
um valor na distribuição que contém uma porcentagem específica da população abaixo dele. O
percentil p é o valor que contém p% dos valores abaixo dele. Por exemplo, a mediana é o
percentil 50, o primeiro quartil é o percentil 25, e o terceiro quartil é o percentil 75. Em alguns
casos, pode ser interessante calcular outros percentis, por exemplo, o 5 ou o 95. A fórmula a
seguir é usada para calcular percentis de uma distribuição normal.

x = μ + zσ,
onde µ é a média, σ é o desvio padrão da variável x, e z é o valor da distribuição normal padrão
do percentil desejado.

Exemplo 5.12. Considere novamente o Exemplo 5-11, onde analisamos o IMC de homens e
mulheres de 60 anos de idade. O IMC médio de homens com 60 anos de idade é 29, com um
desvio padrão de 6, e o IMC médio de mulheres de 60 anos é 28, com um desvio padrão de 7.
Qual é o percentil 90 do IMC dos homens?

A Figura 5-11 mostra a distribuição do IMC entre os homens de 60 anos de idade. O percentil 90
é o IMC que tem 90% dos valores de IMC abaixo dele. Assim, deve ser um valor na extremidade
superior (direita) da distribuição, se 90% dos valores estiverem abaixo dele e, portanto, apenas
10% estarão acima dele. A linha vertical na Figura 5-11 é uma estimativa do valor do percentil 90.
FIGURA 5‑ 11 Distribuição do IMC entre homens de 60 anos: Média = 29, desvio
padrão = 6

Percentil 90

Para calcular o percentil 90, usamos a fórmula x = μ + zσ. A média e o desvio padrão são 29 e
6, respectivamente; o que é necessário é o valor z que reflete o percentil 90 da distribuição normal
padrão. Para calcular esse valor, usamos a Tabela 1 – no entanto, usamos a Tabela 1 quase ao
"contrário". Ao calcular percentis, conhecemos a área abaixo da curva (ou a probabilidade) e
queremos calcular a pontuação z. No Exemplo 5.11, calculamos as pontuações z e usamos a
Tabela 1 para determinar as áreas abaixo da curva ou as probabilidades. Aqui, sabemos que a
área abaixo da curva abaixo do valor z desejado é 0,90 (ou 90%). Qual pontuação z tem 0,90
abaixo dela? O interior da Tabela 1 contém áreas abaixo da curva abaixo de z. Se a área abaixo
da curva abaixo de z é 0,90, encontramos 0,90 no corpo (centro) da Tabela 1. O valor 0,90 não
existe exatamente; no entanto, os valores 0,8997 e 0,9015 estão contidos na Tabela 1. Eles
correspondem aos valores de z 1,28 e 1,29, respectivamente, (ou seja, 89,97% da área abaixo
da curva normal padrão está abaixo de 1,28). O valor exato de z que contém 90% dos valores
abaixo dele é 1,282. Esse valor é determinado por um pacote de cálculos estatísticos (por
exemplo, Microsoft Excel®) com mais precisão do que a mostrada na Tabela 1. Usando z = 1,282,
agora podemos calcular o percentil 90 do IMC dos homens: x = 29 + 1,282(6) = 36,69. 90% do
IMC dos homens de 60 anos está abaixo de 36,69 e 10% do IMC dos homens de 60 anos está
acima de 36,69. Qual é o percentil 90 do IMC entre as mulheres de 60 anos de idade? x = 28 +
1,282(7) = 36,97. 90% do IMC das mulheres de 60 anos está abaixo de 36,97 e 10% do IMC das
mulheres de 60 anos está acima de 36,97.

A Tabela 1A do Apêndice foi criada usando a Tabela 1 e contém os valores z para percentis
populares. Ela pode ser usada para calcular percentis de distribuições normais. Uma aplicação
popular de percentis está na antropometria, que é o estudo das medidas humanas. Essas
medidas, como peso e altura, são usadas para estudar padrões de tamanho corporal. Por
exemplo, os pediatras geralmente medem o peso, o comprimento ou altura, e a circunferência
da cabeça das crianças. Os valores observados são, muitas vezes, convertidos em percentis
para avaliar como uma determinada criança está em relação aos seus pares (ou seja, crianças
do mesmo sexo e idade). Por exemplo, se o peso de uma criança for extremamente baixo para
a sua idade, isso pode ser uma indicação de desnutrição. As tabelas de crescimento para
meninos e meninas, incluindo as de altura, peso, IMC e circunferência da cabeça por idade, e
outras tabelas antropométricas, estão disponíveis para bebês desde o nascimento até 36 meses,
e para crianças e jovens de 2 a 20 anos de idade, no site do Centro de Controle de Doenças dos
Estados Unidos (Centers for Disease Control, CDC) em
http://www.cdc.gov/nchs/about/major/nhanes/growthcharts.

Exemplo 5.13. Para bebês do sexo feminino, o comprimento médio aos 10 meses é de 72 cm
com um desvio padrão de 3 cm. Suponha que uma menina de 10 meses tenha um comprimento
de 67 cm. Como está o seu comprimento comparado ao de outras meninas de 10 meses?

Podemos calcular o percentil dela determinando a proporção de meninas com comprimentos


abaixo de 67. Especificamente:

67 − 72 −5
Ρ (𝜒 < 67) = Ρ (𝑧 > = = −1.67
3 3
Usando a Tabela 1, P(z < -1,67) = 0,0475. Esta garota está no percentil 4,75. Menos de 5% das
meninas de 10 meses medem menos de 67 cm. Esse pode ser um caso que exige alguma
intervenção.

Sullivan, L. M. (2018). Essentials of biostatistics in public health. (Componentes básicos da bioestatística


em saúde pública.) Burlington, Massachusetts: Jones & Bartlett Learning.

S-ar putea să vă placă și