Sunteți pe pagina 1din 31

Tema 1.

Introduccin a la Estadstica
Contenido 1.1.- Inters de este curso 1.2.- Definicin de Estadstica 1.3.- Clasificacin de la Estadstica 1.4.- Conceptos bsicos 1.5.- Variables y su clasificacin 1.6.- Organizacin y descripcin de los datos 1.7.- Distribucin de frecuencias y grficos

1.1.- Inters de este curso


Problemas con dos caractersticas bsicas: Se dispone de evidencia experimental o se tienen observaciones para resolver el problema. Hay incertidumbre sobre las conclusiones que se dan al resolver el problema.

Ejemplos sencillos son:


* Durante cuanto tiempo se tiene que probar un programa antes de lanzarlo comercialmente. * Qu tipo de procesador se debe incluir en una red para garantizar cierto nivel de servicio. * Cul es el modelo adecuado que permite predecir la respuesta a un tratamiento mdico por el que estamos interesados como parte del desarrollo de un sistema de ayuda a la decisin.

Pasos en un estudio estadstico


Plantear hiptesis sobre una poblacin
Los fumadores tienen ms bajas laborales que los no fumadores En qu sentido? Mayor nmero? Tiempo medio?

Decidir qu datos recoger (diseo de experimentos)


Qu individuos pertenecern al estudio (muestras)
Fumadores y no fumadores en edad laboral. Criterios de exclusin Cmo se eligen? -

Qu datos recoger de los mismos (variables)


Nmero de bajas. Tiempo de duracin de cada baja. Sexo?

Recoger los datos (muestreo)


Estratificado? Sistemticamente?

No tenis que entenderlo (an)

Describir (resumir) los datos obtenidos


tiempo medio de baja en fumadores y no (estadsticos) % de bajas por fumadores y sexo (frecuencias), grficos,...

Realizar una inferencia sobre la poblacin


Los fumadores estn de baja al menos 10 das/ao ms de media que los no fumadores.

Cuantificar la confianza en la inferencia


Nivel de confianza del 95% Significacin del contraste: p=2%

1.2.- Definicin de Estadstica


La Estadstica es la Ciencia de la Sistematizacin, recogida, ordenacin y presentacin de los datos referentes a un fenmeno que presenta variabilidad o incertidumbre para su estudio metdico, con objeto de deducir las leyes que rigen esos fenmenos,

y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

1.3.- Clasificacin de Estadstica


Estadstica Descriptiva: Describe, analiza y representa un grupo de datos utilizando mtodos numricos y grficos que resumen y presentan la informacin contenida en ellos. Estadstica Inferencial: Apoyndose en el clculo de probabilidades y a partir de datos muestrales, efecta estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.

1.4.- Conceptos Bsicos


Individuos o elementos: personas u objetos que contienen cierta informacin que se desea estudiar. Poblacin: conjunto de individuos o elementos que cumplen ciertas propiedades comunes, puede ser finita o infinita.
* Normalmente es demasiado grande para poder abarcarla

Muestra: subconjunto de la poblacin al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones)
* Debera ser representativo * Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales).

Caracteres (variables): propiedades, rasgos o cualidades de los elementos de la poblacin. Estos caracteres se pueden dividir en cualitativos y cuantitativos. Grupo sanguneo, altura,
Modalidades: diferentes situaciones posibles de un carcter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes: cada elemento posee una y solo una de las modalidades posibles. {A, AB,}, .. Clases: conjunto de una o mas modalidades en el que se verifica que cada modalidad pertenece a una y solo una de las clases.
Intervalos de alturas,

Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de una poblacin. Media de altura de todos los
espaoles

Estadstico: funcin definida sobre los valores numricos de una muestra. Media de altura de los castellano-manchegos

1.5.- Variables y su clasificacin


Los datos estadsticos proceden de observar o medir ciertos atributos o caracteres correspondientes a los individuos de una poblacin. Estos atributos se denominan variables estadsticas. Una variable es una caracterstica observable que vara entre los diferentes individuos de una poblacin. La informacin que disponemos de cada individuo es resumida en variables.
En los individuos de la poblacin espaola, de uno a otro es variable: - El grupo sanguneo {A, B, AB, O} Var. Cualitativa Nominal - Su nivel de felicidad declarado {Deprimido, Ni fu ni fa, Muy Feliz} Var. C. Ordinal - El nmero de hijos {0,1,2,3,...} Var. Numrica discreta - La altura {162 ; 174; ...} Var. Numrica continua

Clasificacin de variables
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un nmero (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar


Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

Ordinales: Si sus valores se pueden ordenar


Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas
Si sus valores son numricos (tiene sentido hacer operaciones algebraicas con ellos) Discretas: Si toma valores enteros
Nmero de hijos, Nmero de cigarrillos, Nmero de cumpleaos

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


Altura, Presin intraocular, Consumo de gasolina de un coche, Edad

1.6.- Organizacin y descripcin de los datos


Para poder sacar conclusiones de un conjunto de datos utilizamos:

- Tablas, grficos y diagramas: comunican rpidamente una imagen visual de los datos.
7

Gnero Hombre

Frec. 4

6 5 4 3

Mujer

2 1 0 Hombre Mujer

- Medidas numricas: describen numricamente sus caractersticas.


Media, Mediana, Cuartiles, Desviacin,

1.7.- Distribucin de frecuencias y grficos


1.7.1.- Para una variable

La distribucin de frecuencias para una variable est formada por el conjunto de clases y sus frecuencias correspondientes. Se representa de forma ordenada en tablas que denominamos: Tablas de frecuencias, estas exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin (o poca).
Clases Frec. Frec. Porcentaje Absoluta Relativa (%) ni n1 nj fi f1 fj = nj/n fix100 f1x100 Fjx100 F. Abs. F. Rel. Acumulada acumulada Ni N1
Nj = n1++nj

Porcentaje acumulado Fix100 Fix100


Fj =Fjx100

C c1 cj

Fi F1
Fj = f1++fj

ck

nk
n

fk
1

fkx100
100

Nk = n

Fk= 1

Fk= 100

Ejemplo
Cuntos individuos tienen menos de 2 hijos?
frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
0 1 2 3 4 5 6 7 Ocho+ Total Nmero de hij os Porcent. (vlido) 27,8 16,9 24,9 14,2 8,4 3,6 1,6 1,5 1,1 100,0 Porcent. acum. 27,8 44,7 69,5 83,8 92,2 95,8 97,3 98,9 100,0

Qu porcentaje de individuos tiene 6 hijos o menos?


97,3%

Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual?
2 hijos

Frec. 419 255 375 215 127 54 24 23 17 1509

50%

Representaciones grficas ms usuales Grficos para variables cualitativas - Diagramas de barras - Diagramas de sectores - Pictogramas Grficos para variables numricas - Diagramas de barras (v. discretas) - Histogramas (v. continuas)

Grficos para variables cualitativas


Diagramas de barras - Barras de igual anchura dnde las alturas son proporcionales a las frecuencias (abs. o rel.) - Se pueden aplicar tambin a variables discretas

Diagramas de sectores (tartas, polares) - No usarlo con variables ordinales. - El rea de cada sector es proporcional a su frecuencia (abs. o rel.)

Pictogramas - Fciles de entender. - El rea de cada modalidad debe ser proporcional a la frecuencia.

Diagrama de Pareto - Grfico de barras de frecuencias en el que las barras se colocan en orden descendente de altura de izquierda a derecha. - Es utilizado en control de procesos y de calidad donde las alturas de las barras significan a menudo frecuencias de problemas en el proceso de produccin.

Grficos para variables numricas


Son diferentes en funcin de que las variables sean discretas o continuas. Valen con frecuencias absolutas o relativas.
- Diagramas barras para v. discretas Se deja un hueco entre barras para indicar los valores que no son posibles
419
400

375

300

Recuento

255 215
200

127
100

54 24 23 17

7 Ocho o ms

Nme ro de hijos

Recuento

- Histogramas para v. continuas El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

250

200

150

100

50

20

40

60

80

Edad del encue stado

POLGONOS DE FRECUENCIAS
- Polgono de frecuencias: lnea que une los centros de las bases superiores de un diagrama de barras (v. discretas) o de un histograma (v. continuas) de frecuencias absolutas o relativas. (diagrama diferencial)

- Polgono de frecuencias acumuladas: lnea que une los extremos derechos de las bases superiores de un diagrama de barras (v. discretas) o de un histograma (v. continuas) de frecuencias absolutas o relativas acumuladas. (diagrama acumulado)

Ejemplo

El CI o Cociente Intelectual es una estimacin general de la capacidad que tienen los individuos de pensar y razonar. Existen tests diseados para evaluar el nivel de inteligencia.

La curva anterior indica la distribucin de los niveles de CI en la poblacin general. Esto significa que, si el total de la poblacin participara en uno de eso tests, sin considerar los problemas lingsticos, aproximadamente el 70% de los individuos obtendra una puntuacin media que revelara un CI comprendido entre 85 y 115.

1.7.2.- Distribucin conjunta de dos variables La distribucin conjunta de dos variables viene representada por una tabla de doble entrada (tabla de contingencia) donde aparecen en las filas y las columnas las clases de las variables en cuestin (categoras, valores discretos, marcas de clase,, dependiendo del tipo de variables con las que estemos trabajando) y en las celdas las frecuencias, porcentajes, En ellas estudiaremos: Distribuciones marginales Distribuciones condicionadas

Hemos colocado X, con r clases, en las filas e Y, con s clases, en las columnas
Y X x1 x2 y1 n11 n21 y2 n12 n22 yj n1j n2j ys n1s n2s n1 . n2 .

xi
xr

ni1
nr1

n12
nr2

nij
nrj

nis
nrs

ni .
nr.

n.1

n.2

n.j

n.s

Los valores de las celdas nij son el nmero de datos que pertenece a la clase i-sima de X y a la clase j-sima de Y que llamamos frecuencia absoluta conjunta de la clase ij. Una tabla de este tipo se llama distribucin conjunta de frecuencias absolutas

La suma de todas las frecuencias absolutas ha de ser igual al total

de observaciones, n
En el caso en que los valores de las celdas representen la proporcin de datos que pertenece a la clase i-sima de X y a la clase j-sima de Y (pij) que llamaremos proporciones o frecuencias relativas conjuntas, la tabla se llama distribucin conjunta de proporciones o frecuencias relativas La suma de todas las proporciones o frecuencias relativas ha de ser 1

Ejemplo Consideramos dos variables: X = N de horas diarias ante el televisor, con tres categoras x1= 2 horas o menos, x2= tres horas, x3 = 4 horas o ms Y = Hbito de lectura, con tres categoras y1 = casi nunca, y2 = 1-2 veces por semana, y3 = todos los das Preguntadas 60 personas sobre esas variables, se recogen los datos en la siguiente tabla: Y: Hbito de lectura
Casi nunca 1-2 veces por (1) sem. (2) 2 horas o menos (1) X: TV diaria 3 horas (2) 4 horas o ms (3) n11=6 n21=9 n31=4 n12 =9 n22=8 n32=3 Todos los das (3) n13=12 n23=7 n33=2

Distribuciones

marginales

Cada una de las dos variables de una distribucin conjunta tiene su propia distribucin, la misma que si la considerramos cada variable por separado. Estas dos distribuciones se llaman marginales, ya que se colocan en los mrgenes de la tabla que nos da la distribucin conjunta
Y: Hbito de lectura Casi nunca (1) 2 horas o menos (1) X: TV 3 horas (2) diaria 4 horas o ms (3) n11=6 n21=9 n31=4 1-2 veces por sem. (2) n12 =9 n22=8 n32=3 Todos los das (3) n13=12 n23=7 n33=2

n1.= 27 n2.= 24 n3.= 9

n.1= 19

n.2= 20

n.3= 21

n = 60

Distribuciones

condicionadas

En una distribucin de frecuencias conjuntas, recibe el nombre de distribucin condicionada la distribucin de una de las variables respecto de un valor de la otra variable. Las distribuciones condicionadas permiten cuantificar la proporcin de cada uno de los valores de una variable asociado a uno de los valores de la otra. La distribucin de los hbitos de lectura condicionada al nmero de horas frente al televisor ser:
Y: Hbito de lectura Casi nunca (1) 2 horas o menos (1) X: TV 3 horas (2) diaria 4 horas o ms (3) 1-2 veces por sem. (2) Todos los das (3)

6/27 9/24 4/9


n.1= 19

9/27 8/24 3/9


n.2= 20

12/27 7/24 2/9


n.3= 21

n1.= 27 n2.= 24 n3.= 9

n = 60

Ejemplo de tabla de contingencia en SPSS


Tabla de contingencia Pas de orige n * Nm e ro de cilindros Nmero de cilindros 4 cilindros 5 cilindros 6 cilindros 72 0 74 28,5% ,0% 29,2% 34,8% 17,8% 66 90,4% 31,9% 16,3% 69 87,3% 33,3% 17,0% 207 51,1% 100,0% 51,1% ,0% ,0% 3 4,1% 100,0% ,7% 0 ,0% ,0% ,0% 3 ,7% 100,0% ,7% 88,1% 18,3% 4 5,5% 4,8% 1,0% 6 7,6% 7,1% 1,5% 84 20,7% 100,0% 20,7%

Pas de origen

EE.UU.

Europa

Japn

Total

Recuento % de Pas de origen % de Nmero de cilindros % del total Recuento % de Pas de origen % de Nmero de cilindros % del total Recuento % de Pas de origen % de Nmero de cilindros % del total Recuento % de Pas de origen % de Nmero de cilindros % del total

3 cilindros 0 ,0% ,0% ,0% 0 ,0% ,0% ,0% 4 5,1% 100,0% 1,0% 4 1,0% 100,0% 1,0%

8 cilindros 107 42,3% 100,0% 26,4% 0 ,0% ,0% ,0% 0 ,0% ,0% ,0% 107 26,4% 100,0% 26,4%

Total 253 100,0% 62,5% 62,5% 73 100,0% 18,0% 18,0% 79 100,0% 19,5% 19,5% 405 100,0% 100,0% 100,0%

Representacin grfica conjunta de dos variables


Para variables cualitatvas y/o ordinales se hace mediante el diagrama de barras o bien tridimensional o bien en dos dimensiones con leyendas que permitan su comprensin. * La grfica bidimensional se presenta mediante barras agrupadas por clases de una variable y con diferentes colores para las categoras de la otra variable. (Ej. Fig.1) * Para la grfica de barras tridimensional se necesitan tres ejes: en los dos horizontales se representan las categoras de cada una de las variables y en el vertical el valor de las frecuencias conjuntas o proporciones conjuntas. (Ej. Fig.2) * Puede representarse mediante barras apiladas las distribuciones de las distribuciones marginales de cada variable. (Ej. Fig.3)

Diagrama de barras agrupadas de una distribucin conjunta de dos variables

Figura 1

Diagrama de barras tridimensional de una distribucin conjunta de dos variables

Figura 2

Diagrama de barras apiladas para distribuciones marginales

Figura 3

Hay

dos formas de representar grficamente la distribucin conjunta de dos variables cuantitatvas: Cuando las variables son discretas y el nmero de valores diferentes no es muy elevado se hace un diagrama de barras como en variables cualitatvas u ordinales. Cuando son variables continuas y se hace mediante un diagrama tridimensional, ste se realiza a partir de los datos agrupados en intervalos. Otra forma de representar grficamente dos variables cuantitativas medidas conjuntamente es mediante el diagrama de dispersin o nube de puntos. En ste cada par de valores se representa como un punto del plano. (Ej. Fig.5) Esta representacin permite visualizar claramente si hay una relacin entre las variables.

Diagrama de dispersin del peso y la potencia

Figura 5

S-ar putea să vă placă și