Documente Academic
Documente Profesional
Documente Cultură
Introduccin a la Estadstica
Contenido 1.1.- Inters de este curso 1.2.- Definicin de Estadstica 1.3.- Clasificacin de la Estadstica 1.4.- Conceptos bsicos 1.5.- Variables y su clasificacin 1.6.- Organizacin y descripcin de los datos 1.7.- Distribucin de frecuencias y grficos
y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
Muestra: subconjunto de la poblacin al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones)
* Debera ser representativo * Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales).
Caracteres (variables): propiedades, rasgos o cualidades de los elementos de la poblacin. Estos caracteres se pueden dividir en cualitativos y cuantitativos. Grupo sanguneo, altura,
Modalidades: diferentes situaciones posibles de un carcter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes: cada elemento posee una y solo una de las modalidades posibles. {A, AB,}, .. Clases: conjunto de una o mas modalidades en el que se verifica que cada modalidad pertenece a una y solo una de las clases.
Intervalos de alturas,
Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de una poblacin. Media de altura de todos los
espaoles
Estadstico: funcin definida sobre los valores numricos de una muestra. Media de altura de los castellano-manchegos
Clasificacin de variables
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un nmero (no se pueden hacer operaciones algebraicas con ellos)
Cuantitativas o Numricas
Si sus valores son numricos (tiene sentido hacer operaciones algebraicas con ellos) Discretas: Si toma valores enteros
Nmero de hijos, Nmero de cigarrillos, Nmero de cumpleaos
- Tablas, grficos y diagramas: comunican rpidamente una imagen visual de los datos.
7
Gnero Hombre
Frec. 4
6 5 4 3
Mujer
2 1 0 Hombre Mujer
La distribucin de frecuencias para una variable est formada por el conjunto de clases y sus frecuencias correspondientes. Se representa de forma ordenada en tablas que denominamos: Tablas de frecuencias, estas exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin (o poca).
Clases Frec. Frec. Porcentaje Absoluta Relativa (%) ni n1 nj fi f1 fj = nj/n fix100 f1x100 Fjx100 F. Abs. F. Rel. Acumulada acumulada Ni N1
Nj = n1++nj
C c1 cj
Fi F1
Fj = f1++fj
ck
nk
n
fk
1
fkx100
100
Nk = n
Fk= 1
Fk= 100
Ejemplo
Cuntos individuos tienen menos de 2 hijos?
frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
0 1 2 3 4 5 6 7 Ocho+ Total Nmero de hij os Porcent. (vlido) 27,8 16,9 24,9 14,2 8,4 3,6 1,6 1,5 1,1 100,0 Porcent. acum. 27,8 44,7 69,5 83,8 92,2 95,8 97,3 98,9 100,0
Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual?
2 hijos
50%
Representaciones grficas ms usuales Grficos para variables cualitativas - Diagramas de barras - Diagramas de sectores - Pictogramas Grficos para variables numricas - Diagramas de barras (v. discretas) - Histogramas (v. continuas)
Diagramas de sectores (tartas, polares) - No usarlo con variables ordinales. - El rea de cada sector es proporcional a su frecuencia (abs. o rel.)
Pictogramas - Fciles de entender. - El rea de cada modalidad debe ser proporcional a la frecuencia.
Diagrama de Pareto - Grfico de barras de frecuencias en el que las barras se colocan en orden descendente de altura de izquierda a derecha. - Es utilizado en control de procesos y de calidad donde las alturas de las barras significan a menudo frecuencias de problemas en el proceso de produccin.
375
300
Recuento
255 215
200
127
100
54 24 23 17
7 Ocho o ms
Nme ro de hijos
Recuento
- Histogramas para v. continuas El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
250
200
150
100
50
20
40
60
80
POLGONOS DE FRECUENCIAS
- Polgono de frecuencias: lnea que une los centros de las bases superiores de un diagrama de barras (v. discretas) o de un histograma (v. continuas) de frecuencias absolutas o relativas. (diagrama diferencial)
- Polgono de frecuencias acumuladas: lnea que une los extremos derechos de las bases superiores de un diagrama de barras (v. discretas) o de un histograma (v. continuas) de frecuencias absolutas o relativas acumuladas. (diagrama acumulado)
Ejemplo
El CI o Cociente Intelectual es una estimacin general de la capacidad que tienen los individuos de pensar y razonar. Existen tests diseados para evaluar el nivel de inteligencia.
La curva anterior indica la distribucin de los niveles de CI en la poblacin general. Esto significa que, si el total de la poblacin participara en uno de eso tests, sin considerar los problemas lingsticos, aproximadamente el 70% de los individuos obtendra una puntuacin media que revelara un CI comprendido entre 85 y 115.
1.7.2.- Distribucin conjunta de dos variables La distribucin conjunta de dos variables viene representada por una tabla de doble entrada (tabla de contingencia) donde aparecen en las filas y las columnas las clases de las variables en cuestin (categoras, valores discretos, marcas de clase,, dependiendo del tipo de variables con las que estemos trabajando) y en las celdas las frecuencias, porcentajes, En ellas estudiaremos: Distribuciones marginales Distribuciones condicionadas
Hemos colocado X, con r clases, en las filas e Y, con s clases, en las columnas
Y X x1 x2 y1 n11 n21 y2 n12 n22 yj n1j n2j ys n1s n2s n1 . n2 .
xi
xr
ni1
nr1
n12
nr2
nij
nrj
nis
nrs
ni .
nr.
n.1
n.2
n.j
n.s
Los valores de las celdas nij son el nmero de datos que pertenece a la clase i-sima de X y a la clase j-sima de Y que llamamos frecuencia absoluta conjunta de la clase ij. Una tabla de este tipo se llama distribucin conjunta de frecuencias absolutas
de observaciones, n
En el caso en que los valores de las celdas representen la proporcin de datos que pertenece a la clase i-sima de X y a la clase j-sima de Y (pij) que llamaremos proporciones o frecuencias relativas conjuntas, la tabla se llama distribucin conjunta de proporciones o frecuencias relativas La suma de todas las proporciones o frecuencias relativas ha de ser 1
Ejemplo Consideramos dos variables: X = N de horas diarias ante el televisor, con tres categoras x1= 2 horas o menos, x2= tres horas, x3 = 4 horas o ms Y = Hbito de lectura, con tres categoras y1 = casi nunca, y2 = 1-2 veces por semana, y3 = todos los das Preguntadas 60 personas sobre esas variables, se recogen los datos en la siguiente tabla: Y: Hbito de lectura
Casi nunca 1-2 veces por (1) sem. (2) 2 horas o menos (1) X: TV diaria 3 horas (2) 4 horas o ms (3) n11=6 n21=9 n31=4 n12 =9 n22=8 n32=3 Todos los das (3) n13=12 n23=7 n33=2
Distribuciones
marginales
Cada una de las dos variables de una distribucin conjunta tiene su propia distribucin, la misma que si la considerramos cada variable por separado. Estas dos distribuciones se llaman marginales, ya que se colocan en los mrgenes de la tabla que nos da la distribucin conjunta
Y: Hbito de lectura Casi nunca (1) 2 horas o menos (1) X: TV 3 horas (2) diaria 4 horas o ms (3) n11=6 n21=9 n31=4 1-2 veces por sem. (2) n12 =9 n22=8 n32=3 Todos los das (3) n13=12 n23=7 n33=2
n.1= 19
n.2= 20
n.3= 21
n = 60
Distribuciones
condicionadas
En una distribucin de frecuencias conjuntas, recibe el nombre de distribucin condicionada la distribucin de una de las variables respecto de un valor de la otra variable. Las distribuciones condicionadas permiten cuantificar la proporcin de cada uno de los valores de una variable asociado a uno de los valores de la otra. La distribucin de los hbitos de lectura condicionada al nmero de horas frente al televisor ser:
Y: Hbito de lectura Casi nunca (1) 2 horas o menos (1) X: TV 3 horas (2) diaria 4 horas o ms (3) 1-2 veces por sem. (2) Todos los das (3)
n = 60
Pas de origen
EE.UU.
Europa
Japn
Total
Recuento % de Pas de origen % de Nmero de cilindros % del total Recuento % de Pas de origen % de Nmero de cilindros % del total Recuento % de Pas de origen % de Nmero de cilindros % del total Recuento % de Pas de origen % de Nmero de cilindros % del total
3 cilindros 0 ,0% ,0% ,0% 0 ,0% ,0% ,0% 4 5,1% 100,0% 1,0% 4 1,0% 100,0% 1,0%
8 cilindros 107 42,3% 100,0% 26,4% 0 ,0% ,0% ,0% 0 ,0% ,0% ,0% 107 26,4% 100,0% 26,4%
Total 253 100,0% 62,5% 62,5% 73 100,0% 18,0% 18,0% 79 100,0% 19,5% 19,5% 405 100,0% 100,0% 100,0%
Figura 1
Figura 2
Figura 3
Hay
dos formas de representar grficamente la distribucin conjunta de dos variables cuantitatvas: Cuando las variables son discretas y el nmero de valores diferentes no es muy elevado se hace un diagrama de barras como en variables cualitatvas u ordinales. Cuando son variables continuas y se hace mediante un diagrama tridimensional, ste se realiza a partir de los datos agrupados en intervalos. Otra forma de representar grficamente dos variables cuantitativas medidas conjuntamente es mediante el diagrama de dispersin o nube de puntos. En ste cada par de valores se representa como un punto del plano. (Ej. Fig.5) Esta representacin permite visualizar claramente si hay una relacin entre las variables.
Figura 5