Sunteți pe pagina 1din 48

ESTADSTICA DESCRIPTIVA

DIPLOMA EN BIOESTADSTICA Y
EPIDEMIOLOGA APLICADA VERSIN 2016
PROFESORA: SANDRA PARDO VARGAS
ODONTLOGA, EPIDEMILOGA, BIOESTADSTICA

Temas
Introduccin y conceptos bsicos
Clasificacin de variables
Tablas uni y bidimensionales
Grficos
Medidas de resumen (medidas de tendencia central, de

dispersin, de forma y de posicin)


Estadstica descriptiva en STATA

Concepto de Estadstica
Ciencia de recolectar, resumir, analizar e interpretar datos, con el fin de
explicar condiciones o situaciones, apoyando la toma de decisiones.
Es un conjunto de teoras y mtodos que han sido desarrollados para tratar
la recopilacin, organizacin, presentacin, anlisis, interpretacin y
descripciones de datos muestrales con el fin de extraer conclusiones tiles
de ellos.

Es representativa
esta muestra? Es decir, puede aceptarse que
este grupo sea equivalente, en cuanto a la cifra
de ingresos, al grupo no representado,
formado por aquellos cuyo paradero se
desconoca o que no contestaron?

Sorprendente precisin.
Podemos estar seguros de que todos
ellos continen siendo honestos?
Se pusieron en contacto con todos los
miembros vivientes de la promocin de
1924?
Al cabo de veinticinco aos, debe haber
muchos con direcciones desconocidas.
Muchos no contestaron el cuestionario.
Quines son los que no contestaron?
Capitalistas, inversionistas, mecnicos,
vagabundos, desempleados.

Persona que al tener la cabeza en un


horno y los pies en hielo dice en
promedio me siento muy bien?
El americano medio se cepilla los dientes
1,02 veces al da

Examine dos veces lo que


lea, y evitar creer una
cantidad de cosas que no
son verdad.

http://www.ine.cl/epf/VII/principales-resultados.php

Etapas del mtodo cientfico y estadstico


1. Eleccin y enunciado del problema (averiguar sus causas y encontrar sus
soluciones).
2. Formulacin de una hiptesis o explicacin posible de la situacin problema
(conocimiento existente, experiencia, observacin, intuicin)
3. Deduccin de una consecuencia verificable de la hiptesis.
4. Verificacin de la hiptesis
- Recoleccin de la informacin aplicar Mtodo estadstico
- Planificacin: Definicin de objetivos, poblacin, muestra, unidades de
observacin, grupo control.
- Preparacin del plan de tabulacin y anlisis (Diseo de tablas y
pruebas estadsticas)
- Ejecucin: Recoleccin de la informacin y elaboracin de la informacin.
- Resumen, anlisis e interpretacin de los resultados
5. Conclusin
Si la hiptesis ha sido rechazada, el problema persiste y habr que seguir investigando.
Si la hiptesis no se rechaz habr que seguir aportando mayores evidencias a su
veracidad.

Conceptos Bsicos
Estadstica descriptiva: Describe, analiza y representa un
grupo de datos, utilizando mtodos numricos, tablas y
grficos que resumen y presentan la informacin contenida
en ellos.
Estadstica inferencial: Apoyndose en el clculo de
probabilidades y a partir de datos muestrales, efecta
estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos.

Conceptos Bsicos
Poblacin (Simbologa N)

Es el conjunto sobre el que estamos interesados en


obtener conclusiones (hacer inferencia). Corresponde al
universo del que se desea medir alguna caracterstica
particular, el cual, normalmente es demasiado grande para
poder abarcar.
Ejemplo: deseamos medir el rendimiento de los alumnos de la carrera
de medicina de la Universidad de Chile, por lo que la poblacin son
todos los estudiantes de dicha carrera.

Conceptos Bsicos
Muestra (simbologa n)

Es un subconjunto de elementos de la poblacin al que tenemos


acceso y sobre el que realmente hacemos las observaciones
(mediciones).
Unidad de observacin
Est conformada por cada uno de los elementos que constituyen la
muestra y es a quien se realiza la medicin.

Conceptos Bsicos
Variable:
Es una caracterstica
observable que vara entre
los diferentes individuos de
una poblacin. La
informacin que disponemos
de cada individuo es
resumida en variables.

Observacin:
Son distintas
caractersticas,
propiedades o
atributos
observadas en un
mismo sujeto u
objeto.

Dato: Corresponde
a una caracterstica
o atributo en
particular. Son
medidas
recopiladas en
forma agrupada o
no agrupada.

Sexo

Edad

Hipert

Hiperli

Diabetes

72

67

46

Variables

Dato

Observacin

N de
ficha

Variables
Una variable es una caracterstica observable que vara entre los
diferentes individuos de una poblacin. La informacin que
disponemos de cada individuo es resumida en variables.

En los individuos de la poblacin, podemos por ejemplo medir las


siguientes variables:
El grupo sanguneo
{A, B, AB, O}

Su nivel de felicidad

{Deprimido, Ni fu ni fa, Muy Feliz}

El nmero de hijos
{0,1,2,3,...}

La estatura

{162 ; 174; ...}

Tipos de variables

Cualitativa

Segn Tamao de recorrido

Nominal
Dicotmica
Slo nombra o etiqueta la unidad de La variable puede tomar dos
categoras o
anlisis. Ej: Color de ojos
valores. Ej: Si una persona fuma o no.
Politmica
Ordinal
La variable puede tomar ms de dos categoras
Relacin de orden entre los valores de o valores. Ej: Ciudades
la variable. Ej: Nivel socioeconmico

Cuantitativa

Segn nivel de medicin

Intervalo
Se puede establecer una distancia
entre las observaciones. Tiene una
unidad de medicin constante para
todo par de unidades de observacin
y el punto cero en esta escala es
arbitrario. Ej: Temperatura
Razn
Posee las caractersticas de una escala
de intervalos, adems de tener un
cero absoluto.Ej: Edad

Escalas de Medida

Discreta
La variable tiene un recorrido finito o a lo ms
numerable de categoras o niveles. Ej: Nmero
de hijos.
Continua
Corresponde a cantidades medibles pero que
no se restringen a ciertos valores especficos
(como los enteros). En este caso la diferencia
entre dos posibles valores de datos puede ser
arbitrariamente pequea. Ej: Peso

Razn 0 Absoluto
Intervalo 0 Arbitrario
Ordinal Relacin de orden

Nominal Relacin de identidad

Cualitativas

Tipos de variables

Si sus valores (categoras) no se pueden asociar naturalmente a un nmero


(no se pueden hacer operaciones algebraicas con ellos). Miden cualidades
o caractersticas del fenmeno o individuo.
n Nominales: Si sus valores no se pueden ordenar
n Sexo, estado civil, grupo sanguneo, religin, nacionalidad, fumar (S/No)
n Ordinales: Si sus valores se pueden ordenar
n Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas

Si sus valores son numricos (tiene sentido hacer operaciones algebraicas


con ellos)
n Discretas: Si toma valores enteros
n Nmero de hijos, Nmero de cigarrillos, cantidad de das trabajados
n Continuas: Si entre dos valores, son posibles infinitos valores intermedios.

Toman valores en todos los reales

n Altura, Presin intraocular, Dosis de medicamento administrado, edad

Ejercicio
Clasifique las variables que aparecen a continuacin
identifique el tipo que le corresponde segn la forma de
expresar sus valores y la escala en que originalmente
clasificara un grupo de unidades de observacin.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

Numero de Hijos (01,2)


Nivel educacional (ninguno, bsica, media, universitaria)
Sexo (masculino, femenino)
Estatura en cm
Numero de das trabajados (1, 2, 3)
Nivel socioeconmico (alto, medio, bajo)
Peso del recin nacido en Kg
Gravedad de la enfermedad (0,1,2)
Regiones de Chile (primera, segunda, )
Temperatura ambiental en C
Niveles de ansiedad (poco ansioso, ansioso, muy ansioso)

Presentacin ordenada de datos


n Las variables pueden codificarse como

No se puede mostrar la imagen. Puede que su equipo no tenga suficiente memoria para abrir la imagen o que sta est daada. Reinicie el equipo y, a
continuacin, abra el archivo de nuevo. Si sigue apareciendo la x roja, puede que tenga que borrar la imagen e insertarla de nuevo.

nmeros.
n Es conveniente asignar etiquetas a los
valores de las variables para recordar qu
significan los cdigos numricos.
n Sexo (Cualit: Cdigos arbitrarios)
n 1 = Hombre
n 2 = Mujer
n Raza (Cualit: Cdigos arbitrarios)
n 1 = Blanca
n 2 = Negra,...
n Felicidad Ordinal: Respetar un orden al

No se puede mostrar la imagen. Puede que su equipo no tenga suficiente memoria para abrir la imagen o que sta est daada. Reinicie el equipo y, a
continuacin, abra el archivo de nuevo. Si sigue apareciendo la x roja, puede que tenga que borrar la imagen e insertarla de nuevo.

codificar.

n 1 = Muy feliz
n 2 = Bastante feliz
n 3 = No demasiado feliz

n Se pueden asignar cdigos a respuestas

especiales como

n 0 = No sabe
n 99 = No contesta...

n Estas situaciones debern ser tenidas en cuentas

en el anlisis. Datos perdidos (missing data)

Aunque se codifiquen como nmeros, debemos recordar siempre el verdadero tipo de las variables y su significado

cuando vayamos a usar programas de clculo estadstico.


No todo est permitido con cualquier tipo de variable.

Presentacin ordenada de datos

Cuando se quieren presentar los resultados de un


estudio de investigacin o se quiere analizar un conjunto
de datos y elaborar de un informe, debe iniciarse con un
anlisis descriptivo. Este anlisis incluye el uso de tablas
de frecuencias, grficos y medidas resumen. El elegir
determinada tabla, grfico o medida resumen,
depender del tipo de variable, por lo que identificar su
escala de medicin y tamao del recorrido, es
indispensable.
Gnero

Frec.

Porcentaje

Hombre

4/10=0,4=40%

Mujer

6/10=0,6=60%

Total

10

100%

7
6
5
4
3
2
1
0
Hombre

Mujer

Las tablas de frecuencias y las representaciones grficas son dos maneras


equivalentes de presentar la informacin. Las dos exponen ordenadamente la
informacin recogida en una muestra.

Tablas de frecuencia
Exponen la informacin recogida en la muestra, de forma que no se
pierda nada de informacin (o poca).
Frecuencias absolutas: Contabilizan el
nmero de individuos de cada modalidad
Frecuencias relativas (porcentajes):
Contabilizan el nmero de individuos de
cada modalidad, pero dividido por el total
Frecuencias acumuladas: Slo tienen
sentido para variables ordinales y
numricas.

Tablas estadsticas
Unidimensional o Univariada
Distribucin de la poblacin, segn estado
civil. Santiago 2010
. tab EST_CIVIL
EST_CIVIL

Freq.

Percent

Cum.

Soltero

33,353

34.06

34.06

Casado

59,652

60.91

94.97

Separado

4,925

5.03

100.00

Total

97,930

100.00

Ttulo de la Tabla: Indica que informacin se presenta; donde fueron


registrados los datos; cuando se obtuvo la informacin.

Ejemplo de una tabla univariada


Nmero de hijos

Cuntos individuos tienen


menos de 2 hijos?
frec. indiv. sin hijos
+ frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos
Qu porcentaje de individuos
tiene 6 hijos o menos?
97,3%

0
1
2
3
4
5
6
7
Ocho+
Total

Frec.
419
255
375
215
127
54
24
23
17
1509

Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

Las frecuencias acumuladas tiene sentido para las variables en nivel de medicin
ordinal o superior.
El tipo de frecuencia depende del objetivo de la tabla, asi como del tamao de la
muestra.
Para realizar algunos tipos de comparaciones se debe utilizar frecuencias relativas.
Las tablas, habitualmente deben ser enumeradas cuando hay mas de una en el texto.

50%

Ejemplo de una tabla univariada


Frecuencia de hbitos orales nocivos en estudiantes de
la Escuela San Rafael, Calbuco 2016

Hbito Oral
Deglucin atpica
Interposicin lingual
Succin digital
Onicofagia
Respiracin bucal
Interposicin labial
Interposicin de objetos
Total

Frecuencia
41
29
17
8
8
6
3
112

Porcentaje
36,6
25,9
15,2
7,1
7,1
5,4
2,7
100

Se estudio un total
de 112 escolares.
Por tratarse de una
variable de escala
nominal, no hay
orden
preestablecido de
categoras y se
colocaran por
orden de
frecuencia.

Definir el propsito de la tabla.


Escribir un titulo que indique QU se presenta en la tabla, CMO, CUNDO y

DNDE.
Asignar escalas de clasificacin en filas y columnas.

Tabulaciones de una Variable Cuantitativa con muchos valores


La distribucin de frecuencias se
representa mediante una tabla donde se
fijan intervalos

Notaci
n
Marca de
Clase

Amplitud

Rango

Frecuencia
absoluta

Frecuencia
RelaEva

Frecuencia
Absoluta
Acumulada

Concentracin de protenas totales en el plasma de


prematuros de 15 das de edad, Clnica Las Lilas 2014
Marca de Frecuencia F.Absoluta
F. Relativa
F. Relativa
Protenas
Clase
Absoluta acumulada
acumulada
(g/l)

40 44
45 49
50 54
55 59
60 64
65 69
Total

Mi
42
47
52
57
62
67

ni
2
6
12
13
5
2
40

Ni
2
8
20
33
38
40

f%
5
15
30
32,5
12,5
5
100

F%
5
20
50
82,5
95
100

Denicin
Es el punto medio de cada
i intervalo (clase) y representa
el valor de cada intervalo.
Es la diferencia entre el lmite
superior e inferior del
intervalo
Corresponde a la diferencia
entre el mayor y el menor
valor de los datos en estudio.
Corresponde al nmero de
i observaciones que
pertenecen al intervalo de
clase.
Es la razn entre la frecuencia
i absoluta en cada intervalo y el
total de la muestra.
Corresponde a la suma de las
frecuencias absolutas
i anteriores, ms la frecuencia
en cuesEn.
Corresponde a la suma de las
frecuencias relaEvas
i
anteriores, ms la frecuencia
en cuesEn.

Frecuencia
RelaEva
Acumulada

Ejemplo de una tabla univariada con intervalos de


clase de igual amplitud
Niveles de Colesterol en la Sangre de 1067 pacientes
varones de entre 25 y 35 aos. S X. Ao Y

Niveles colesterol
(mg/dl)

Frec

Frec. Aum

80-120

13

1,21

13

120-160

150

14,06

163

160-200

442

41,42

605

200-240

299

28,02

904

240-280

115

10,78

1019

280-320

34

3,19

1053

320-360

0,84

1062

360-400

0,48

1067

Total

1067

100

Ejemplo tabla bivariada


Distribucin de Niveles de Colesterol en la
Sangre segn sexo. Clnica X, Ao Y
Niveles de
colesterol
(mg/dl)

Hombres
Frec

Mujeres
Frec

80-120

10

120-160

100

50

160-200

200

222

200-240

220

99

240-280

100

15

280-320

30

320-360

360-400

Total

668

399

En la tabla:
1.Clasificar las variables
2.Determinar frecuencias
porcentuales con el fin de
comparar segn sexo.
3.Caracterizar las distribuciones de
los 1067 pacientes segn sexo.

Ejemplo tabla bivariada

Condicin nutricional, segn sexo. Escolares Colegio X Ao Y

ADM
Peso normal
Sobrepeso
Obesidad
Total

Femenino

Frecuencia

49
3
7
59

Porcentaje

83,1
5,1
11,8
100

Masculino

Frecuencia

45
2
6
53

Porcentaje

84,9
3,8
11,3
100

Total
94
5
13
112

Grficos Estadsticos
Un grfico estadstico es una representacin visual de
una serie de datos estadsticos. Es una herramienta muy
eficaz, ya que un buen grfico:
Capta la atencin del lector
Presenta la informacin de forma sencilla, clara y precisa.
Facilita la comparacin de datos y destaca las tendencias y las
diferencias.
Ilustra el mensaje, tema o trama del texto al que acompaa.
Es autoexplicativo.
Indica mediante leyendas en los ejes los nombres de las variables y
unidades de medida.
Cumple un objetivo (qu, para qu, a quin, dnde).
Considera el recorrido de las variables y el nivel de medicin.

Diagrama de barras

30
25
20
15
10
5
0

Bronquitis

Otitis

Heridas

Fracturas

Vacunas

Porcentaje de mujeres

35

Motivo de consulta mdica,


durante la primera semana de 2011 en la Clnica
X

Frecuencia relativa (%)

Nmero de pacientes

Frecuencia absoluta

Se usa fundamentalmente para representar distribuciones de frecuencias de


una variable cualitativa o cuantitativa discreta. Uno de los ejes sirve para
inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la
escala de clasificacin utilizada. Se usan comnmente para comparar
magnitudes o para ver la evolucin de una magnitud en el tiempo.
Nmero de hijos por mujer, comuna
Recoleta, 2006
50
40
30
20
10
0
0

Diagrama de barras
La orientacin del grfico puede ser:
Vertical: las distintas categoras estn situadas en el eje horizontal y
las barras de frecuencias crecen verticalmente.
Horizontal: las categoras se sitan en el eje vertical y las barras
crecen horizontalmente. Suelen usarse cuando hay muchas categoras
o sus nombres son demasiado largos.
Ejemplo
Porcentaje habitantes usuarios de internet del ao 2007 por pases

Fuente: Unin Internacional de Telecomunicaciones

Tipos de Diagrama de barras


Patrones de consumo de alcohol, segn sexo. Chile 2009
53,2

39,1

37,2
25,2

23,7

Sin riesgo

21,6

Riesgo de dao crnico


Hombres

Riesgo de dao crnico y


agudo

Mujeres

Distribucin porcentual de poblacin mayor de 15 aos


con exceso de peso. Chile 2003 y 2010
Sobrepeso

1,3

Obesidad

Obesidad mrbida

2,3

21,9

25,1

37,8

39,3

2003

2010

Grficos de Sectores
Es una representacin circular de las frecuencias relativas de una variable
cualitativa o discreta que permite, de una manera sencilla y rpida, su
comparacin. El crculo representa la totalidad que se quiere observar y cada
porcin, llamadas sectores, representan la proporcin de cada categora de la
variable respecto el total. Suele expresarse en porcentajes.

Grficos de Sectores
Son tiles cuando las categoras son pocas. Si el grfico tuviera muchas
variables, no aportara casi informacin y sera prcticamente incomprensible,
como ocurre en el siguiente ejemplo.

Histograma
Este grfico se usa para representar una distribucin de frecuencias de una
variable cuantitativa continua. En uno de los ejes se posicionan las clases de
la variable continua (los intervalos o las marcas de clase que son los puntos
medios de cada intervalo) y en el otro eje las frecuencias. No existe
separacin entre las barras.

.02
.01
0

Density

.03

.04

Edad en aos de pacientes con cncer de mama

20

40

60
Edad en aos

80

100

Inusual!

Density/frecuencia

Inusual!

Media!
Aritmtica!

-3

-2

-1

Comn!

Distribucin de los nacidos vivos segn edad y


estado civil de la madre. Chile, Ao 1992
2

10

Percent

20

30

10

20

30

40

50

10

Ed ad (Aos)
Graphs by 1= casa do /a 2= No casado/a

20

30

40

50

Cartograma
Un cartograma es un mapa en el que se presentan datos estadsticos por
regiones bien poniendo el nmero o coloreando las distintas zonas en
funcin del dato que representan.

Distribucin comunal de las termoelctricas y la RME por


mortalidad cardiovascular en Chile. Hombres. 2000-2010

Grfico de lneas
Un grfico de lneas es una representacin grfica en un eje cartesiano de la
relacin que existe entre dos variables reflejando con claridad los cambios
producidos. Se suelen usar para presentar tendencias temporales. En el eje
horizontal se ha de posicionar la variable que indica las unidades de tiempo y
en el vertical se introduce la escala de la variable cuya variacin en el tiempo
queremos ver. Pueden aparecer varias variables para compararlas.

Polgono de frecuencias
Es una lnea poligonal que une los vrtices superiores de las barras de un
diagrama de barras, o los puntos medios de barras de un histograma. Se
utiliza, al igual que el histograma, para representar distribuciones de
frecuencias de variables cuantitativas continuas, pero como no se utilizan
barras en su confeccin sino segmentos de recta, de ah el nombre de
polgono. Habitualmente se usa cuando se quiere mostrar en el mismo
grfico ms de una distribucin.

Grfico de Tallos y Hojas


Cumplen la misma finalidad que los histogramas pero son ms sencillo de
construir. Se separa cada valor de la variable en la componente tallo y hoja.
El conjunto de hojas muestra la distribucin de los puntos muestrales
Es fcil identificar un nmero representativo, computar la mediana y el rango
Podemos evaluar simetra, dispersin, valores faltantes, situacin especial de
algn valor y la concentracin de datos.
En su construccin:
Si los valores tienen muchos dgitos el tallo puede tener 2 cifras y las hojas
tambin. Est permitido usar ms de una lnea para el tallo
Consiste en mantener la decena del dato y clasificar la unidad numrica. Las
unidades, por cada decena, son puestas en orden ascendente.
1* | 69
2* | 23677
3* | 1122235555679
4* | 2455568
5* | 178
Ahora es fcil observar, por ejemplo que:
1) La persona con menor edad tiene 16 aos
2) La persona de mayor edad tiene 58 aos
3) Existen tres personas con 45 aos, etc.

Ejemplo Grfico de Tallos y hojas

Esperanza de vida en mujeres, 97 paises del mundo

4* | 123566788
5* | 00122333455556689
6* | 0001233334556666667788889999
7* | 12222333344445555556666677788888999
8* | 00000012

Grfico de Correlacin o Diagrama de dispersin


Este grfico nos informa del grado de correlacin entre las dos variables, es
decir, nos muestra si el incremento o disminucin de los valores de una de
las variables (denominada variable independiente y que se suele representar
en el eje horizontal), altera de alguna manera los valores de la otra,
denominada variable dependiente y que representa generalmente en el eje
vertical.

Correlacin directa: A medida que aumenta la


estatura, aumenta el peso

Correlacin inversa, a medida que aumenta el consumo de


vino, disminuyen las enfermedades cardiacas

Es importante indicar que CORRELACIN NO IMPLICA


CAUSALIDAD.
El que dos variables estn altamente correlaciones no implica que X
causa Y ni que Y causa X.

Animacin: Evolucin de r y diagrama de


dispersin
La correlacin lineal entre dos
variables cuantitativas se puede
medir a travs del Coeficiente de
correlacin de Pearson (r), el cual:

Relacin inversa
perfecta

-1

Variables
incorreladas

Slo toma valores en [-1,1]


Si r=0, no hay correlacinl
lineal entre las variables.
Relacin lineal perfecta entre
dos variables r=+1 o r=-1
Cuanto ms cerca est r de +1
o -1 mejor ser el grado de
relacin lineal.

Relacin directa casi


perfecta

+1

Una de las reglas de oro de la estadstica es que una correlacin


no implica causalidad.
Slo porque los movimientos de dos variables sigan caminos similares durante un
tiempo no implica que uno haga que ocurra el otro.

Ejemplo interesante. Datos de Anscombe


Graphs in Statistical Analysis, F.Anscombe.
The American Statistician, vol. 27, 1: 17, 1973

x1

y1

x2

y2

x3

y3

x4

y4

10

8.04

10

9.14

10

7.46

6.58

6.95

8.14

6.77

5.76

13

7.58

13

8.74

13

12.74

7.71

8.81

8.77

7.11

8.84

11

8.33

11

9.26

11

7.81

8.47

14

9.96

14

8.1

14

8.84

7.04

7.24

6.13

6.08

5.25

4.26

3.1

5.39

19

12.5

12

10.84

12

9.13

12

8.15

5.56

4.82

7.26

6.42

7.91

5.68

4.74

5.73

6.89

Grficos de correlacin para los datos de


Anscombe
El siguiente es un basado en 4 pares de
variables ideadas por Francis Anscombe.
10

12

10

6
4
4

x1

y1

10

12

14

x2

10

Fitted values

Fitted values

Fig.3. Diagrama de dispersin y3 vs x3

12

14

y2

10

10

12

12

14

Fig.4. Diagrama de dispersin y4 vs x4

Las cuatro relaciones con distintas entre


si, pero sus correlaciones son las
mismas. Esto nos ensea la importancia
de usar grficos de dispersin para
visualizar la relacin entre dos variables,
ms que confiar en su correlacin.

Fig.2. Diagrama de dispersin y2 vs x2

Fig. 1 Diagrama de dispersin y1 vs x1

Las 4 variables Y tienen la misma media


y desviacin estndar. Adems el
coeficiente de correlacin entre X e Y es
el mismo en los 4 casos (0.816) y
comparten la misma recta de regresin y
= 0.5 x + 3

x3

10

Fitted values

12
y3

14

10

x4
Fitted values

15
y4

20

Cajas y Bigotes o Box Plot


Este grfico se utiliza para graficar variables cuantitativas o para relacionar
una variable cualitativa con una cuantitativa Consta de dos partes: la caja,
que representa los datos entre el percentil 25 y 75 y en cuyo interior se
identifica el valor de la mediana y los bigotes: El bigote inferior indica los
valores contenidos entre el valor mnimo de la serie y el percentil 25,
mientras el bigote superior representa los datos contenidos entre el
percentil 75 y el valor mximo de la serie de datos.

Cajas y Bigotes o Box Plot


Este grfico nos da informacin sobre:
Localizacin del centro de los datos
Dispersin de los datos
Simetra
Colas de la distribucin
Existencia de outliers
Variacin de la Esperanza de Vida segn gnero en 97 pases del mundo

40

50

60

70

80

Va ria cin de la Esperanza de vida en hombres y muj ere s e n 97 pa ses del mundo

EVhombres

EVmujeres

Eleccin del grfico


Distribucin de frecuencia

Tipo de variable

Nominal, ordinal, Barras simples


c u a n t i t a t i v a Sectores
discreta
Cuantitativa
continua

Histograma
Polgono de frecuencias
Box Plot

Asociacin de dos
variables
Dos variables
cualitativas: Barras
agrupadas
Dos variables
cuantitativas:
Correlacin
Una variable
cualitativa y una
cuantitativa: Box Plot

S-ar putea să vă placă și