Sunteți pe pagina 1din 8

ESTADSTICA DESCRIPTIVA Y BIDIMENSIONAL

1.
2.
3.
4.
5.
6.
7.
8.
9.

NDICE
Definicin de Estadstica
Conceptos generales
Tratamiento de la informacin
Representacin de los datos
Medidas de centralizacin
Medidas de dispersin
Estadstica bidimensional
Correlacin
Regresin

Definicin de Estadstica : la palabra estadstica procede del vocablo "estado" pues era
funcin principal de los gobiernos de los estados establecer registros de poblacin ,
nacimientos , defunciones , etc . Hoy en da la mayora de las personas entienden por
estadstica al conjunto de datos , tablas , grficos , que se suelen publicar en los
periodicos .
En la actualidad se entiende por estadstica como un mtodo para tomar decisiones , de
ah que se emplee en multitud de estudios cientficos .
La estadstica se puede dividir en dos partes :
- Estadstica descriptiva o deductiva , que trata del recuento , ordenacin y
clasificacin de los datos obtenidos por las observaciones . Se construyen tablas y
se representan grficos , se calculan parmetros estadsticos que caracterizan la
distribucin , etc.
- Estadstica inferencial o inductiva , que establece previsiones y conclusiones
sobre una poblacin a partir de los resultados obtenidos de una muestra . Se apoya
fuertemente en el clculo de probabilidades .
Poblacin : es el conjunto de todos los elementos que cumplen una determinada
caracterstica . Ejemplo : alumnos matriculados en COU en toda Espaa .
Muestra : cualquier subconjunto de la poblacin . Ejemplo : alumnos de COU del
Sotomayor .
Carcter estadstico : es la propiedad que permite clasificar a los individuos , puede
haber de dos tipos :
- Cuantitativos : son aquellos que se pueden medir . Ejemplo : n de hijos , altura ,
temperatura .
- Cualitativos : son aquellos que no se pueden medir . Ejemplo : profesin , color de
ojos , estado civil .
Variable estadstica : es el conjunto de valores que puede tomar el carcter estadstico
cuantitativo ( pues el cualitativo tiene "modalidades'' ) . Puede ser de dos tipos :
- Discreta : si puede tomar un nmero finito de valores . Ejemplo : n de hijos
- Continua : si puede tomar todos los valores posibles dentro de un intervalo .
Ejmplo : temperatura , altura .
Frecuencia absoluta fi : ( de un determinado valor xi ) al nmero de veces que se repite
dicho valor .

Frecuencia absoluta acumulada Fi : ( de un determinado valor xi ) a su frecuencia


absoluta ms la suma de las frecuencias absolutas de todos los valores anteriores .
Frecuencia relativa hi : es el cociente fi/N , donde N es el nmero total de datos .
Frecuencia relativa acumulada Hi : es el cociente Fi/N
Si las frecuencias relativas las multiplicamos por 100 obtenemos los % .
Tratamiento de la informacin : se deben de seguir los siguientes pasos :
- recogida de datos
- ordenacin de los datos
- recuento de frecuencias
- agrupacin de los datos , en caso de que sea una variable aleatoria continua o bien
discreta pero con un nmero de datos muy grande se agrupan en clases .
N de clases = N
Los puntos medios de cada clase se llaman marcas de clase .
Adems se debe adoptar el criterio de que los intervalos sean cerrados por la
izquierda y abiertos por la derecha .
- construccin de la tabla estadstica que incluir , clases , marca de clase , fi , Fi , hi ,
Hi .
Ejemplo : Las notas de Matemticas de una clase han sido las siguientes :
5 3 4 1 2 8 9 8 7 6 6 7 9 8 7 7 1 0 1 5 9 9 8 0 8 8 8 9 5 7
Construir una tabla :
fi
Fi
hi
Hi
xi
0
2
2
2/30
2/30
1
3
5
3/30
5/30
2
1
6
1/30
6/30
3
1
7
1/30
7/30
4
1
8
1/30
8/30
5
3
11
3/30
11/30
6
2
13
2/30
13/30
7
5
18
5/30
18/30
8
7
25
7/30
25/30
9
5
30
5/30
30/30
30
1

Representaciones grficas : para hacer ms clara y evidente la informacin que nos


dan las tablas se utilizan los grficos , que pueden ser :

Diagramas de barras ( datos cualitativos y cuantitativos de tipo discreto ) . En el eje


y se pueden representar frecuencias absolutas o relativas .
Frecuencias absolutas fi

8
7
6
5
4
3
2
1
0
0

Notas

Histogramas ( datos cuantitativos de tipo continuo o discreto con un gran nmero


de datos ) . El histograma consiste en levantar sobre cada intervalo un rectngulo
cuyo rea sea igual a su frecuencia absoluta
rea = base altura
fi = x i n i
luego la altura de cada rectngulo vendr dada por ni que se llama funcin de
densidad . Si por ejemplo un intervalo es doble de ancho que los dems su altura ni
debe ser la mitad de la frecuencia absoluta y as no se puede inducir a errores .
Normalmente la amplitud de los intervalos es cte por lo que ni ser
proporcional a fi y por tanto podemos tomar fi como la altura ni ya que la forma del
grfico ser la misma , aunque ahora el rea del rectngulo ya no sea exactamente
la frecuencia absoluta ( a no ser que la amplitud del intervalo sea igual a 1 ) .

Polgono de frecuencias

frecuencias absolutas fi

8
7
6
5
4
3
2
1
0
0

notas

Diagrama de sectores
0
1

1
1

7
5

3
4
5
6
7
8

Cartogramas
Pirmides de poblacin
Diagramas lineales
Pictogramas
CLCULO DE PARMETROS :

Medidas de centralizacin :
Media aritmtica :
x + x 2 + ..... x i
x= 1
=
N
N

si son pocos datos

x 1f1 + x 2 f 2 + ..... x i f i
=
si son muchos valores pero se repiten mucho
f1 + f 2 + ......
N
En el caso de que los datos estn agrupados en clases , se tomar la marca de clase
como xi .
No siempre se puede calcular la media aritmtica como por ejemplo cuando los
datos son cualitativos o los datos estn agrupados en clases abiertas .
Ejemplo : hacer los clculos para el ejercicio de las notas
x=

Moda : es el valor de la variable que presenta mayor frecuencia absoluta . Puede


haber ms de una . Cuando los datos estn agrupados en clases se puede tomar la
marca de clase o utilizar la frmula :
d1
donde : Linf = lmite inferior de la clase modal , =amplitud
M0 = Linf +
d1 + d 2
del intervalo , d1= diferencia entre la fi de la clase modal y la fi de la clase anterior y
d2 = diferencia entre la fi de la clase modal y la fi de la clase posterior .
Tambin se puede hacer grficamente :

La moda si sirve para datos cualitativos , pero no tiene por qu situarse en la zona
central del grfico .
Ejemplo : en el ejercicio de las notas la moda sera x=8

Mediana : es el valor de la variable tal que el nmero de observaciones menores


que l es igual al nmero de observaciones mayores que l . Si el nmero de datos
es par , se puede tomar la media aritmtica de los dos valores centrales .
Cuando los datos estn agrupados la mediana viene dada por el primer valor de la
variable cuya Fi excede a la mitad del nmero de datos . Si la mitad del nmero de
datos coincide con Fi se tomar la semisuma ente este valor y el siguiente .
Cuando los datos estn agrupados en clases se puede utilizar reglas de tres o la
frmula :
N
Fi 1
2
M = Linf +
fi
Grficamente se hace a partir del polgono de frecuencias acumuladas .
Ejemplo : En el caso de las notas podras ordenar de menor a mayor los datos y
obtendramos : 0 0 1 1 1 2 3 4 5 5 5 6 6 7 7 7 7 7 8 8 8 8 8 8 8 9 9 9 9 9
dato nmero 15-16 (por ser par)
luego la mediana sera 7
Tambin se podra observar las Fi y ver que en el 7 se excede a la mitad del n de datos ,
es decir , sobrepasa el 15 .

Cuantiles : son parmetros que dividen la distribucin en partes iguales , as por


ejemplo la mediana los divide en dos partes iguales , los cuartiles son tres valores
que dividen a la serie de datos en cuatro partes iguales , los quintiles son cuatro
valores que lo dividen en 5 partes , los deciles en 10 y los percentiles en 100 . Se
calculan de la misma manera que la mediana .
N
n
Fi 1
100
donde n es el
Tambin se puede utilizar la frmula : Cn = Linf +
fi
valor que deja el n% de valores por debajo de l .

Medidas de dispersin :
Rango o recorrido : es la diferencia entre el mayor valor y el menor . Depende
mucho de los valores extremos por que se suele utilizar el rango intercuartlico =
Q3 - Q1 o el rango entre percentiles = P90 - P10
Ejemplo : Para el caso de las notas sera 9 - 0 = 9

Varianza s2 : es la media aritmtica de los cuadrados de las desviaciones respecto a


la media ( desviacin respecto a la media d = xi - x ) .
2
2
2
(
x 1 x ) + (x 2 x ) + ....... (x i x )
2
s =
=
N
N

2
2
f1 (x 1 x ) + f 2 (x 2 x ) + ....... f i (x i x )
s =
=
f 1 + f 2 + ....
N
Al igual que la media en el caso de que los datos estn agrupados en clases , se
tomar la marca de clase como xi .
Otra forma de calcular s2 es :
2

s =

f (x
i

x)

f (x
=
i

2
i

+ x 2 2x i x

) = f x
i

2
i

+ x 2x =
2

f x
i

2
i

x2

N
N
N
N
Se llama desviacin tpica s a la raz cuadrada de la varianza . Es ms til que la
varianza ya que tiene las mismas dimensiones que la media
Ejemplo : Hacer los clculos para el ejercicio de las notas
-

Coeficiente de variacin : es el cociente entre la desviacin tpica y la media


aritmtica . Valores muy bajos indican muestras muy concentradas .

C.V. =
x
DISTRIBUCIONES BIDIMENSIONALES :

Variables estadsticas bidimensionales : es cuando al estudiar un fenmeno


obtenemos dos medidas x e y , en vez de una como hemos hecho hasta ahora .
Ejemplo : pulso y t de los enfermos de un hospital , ingresos y gastos de las familias de
los trabajadores de una empresa , edad y n de das que faltan al trabajo los productores
de una fbrica .
Tipos de distribuciones bidimensionales :
- cualitativa - cualitativa
- cualitativa - cuantitativa ( discreta o continua )
- cuantitativa ( discreta o continua ) - cuantitativa ( discreta o continua )
Tipos de tablas :
- Tabla de dos columnas xi , yi ( pocos datos )
- Tabla de tres columnas xi , yi , fi ( muchos datos y pocos valores posibles )
- Tablas de doble entrada ( muchos datos y muchos valores posibles )

y1
y2
.....
ym
fi*

x1
f11
f12
.....
f1m
f1*

x2
f21
f22
......
f2m
f2*

......
......
......
......
......
......

xn
fn1
fn2
......
fnm
fn*

f*j
f*1
f*2
......
f*m
f**=N

Diagramas de dispersin :
Si hay pocos datos ( tabla de dos columnas ), se representan las variables en los ejes x e
y.
Si hay muchos datos pero muy agrupados ( tabla de tres columnas y tablas de doble
entrada ), se hace igual pero con los puntos ms gordos segn la fi ,o se pintan muchos

puntos juntos , o se pinta en tres dimensiones x , y , fi , con lo que obtendramos un


diagrama de barras en tres dimensiones .
Si hay muchos datos y muchos valores posibles , se pueden agrupar en clases , y se
utilizan los estereogramas ( 3 dimensiones ) en los que el volumen de cada prisma es
proporcional a la frecuencia . Tambin se puede tomar la marca de clase de los
intervalos y tratar la variable continua como si fuese discreta .
Clculo de parmetros :
- Cuando hay pocos datos o estn muy agrupados ( tablas de 2 o 3 columnas )
2
2
xifi
yifi
f i (x i x )
f i (y i y )

2
2
x=
y=
sx =
sy =
N
N
N
N
Aparece un parmetro nuevo que es la covarianza que es la media aritmtica de las
desviaciones de cada una de las variables respecto a sus medias respectivas .
f i (x i x )(y i y ) = f i x i y i x y
s xy =
N
N
- Cuando hay muchos datos ( tablas de doble entrada )
x i f ij
y j f ij
y jf * j =
x i f i* =
x=
y=

N
N
N
N
2
2
f ij (x i x )
f i* (x i x ) =
s 2x =
= f ij x i2 x 2

N
N
2
2
f ij (y j y )
(
)
f
y

*
j
j
s 2y =
=
= f ij y 2j y 2
N
N
f ij (x i x )(y j y) = f ij x i y j x y
s xy =
N
N
Correlacin o dependencia : es la teora que trata de estudiar la relacin o dependencia
entre las dos variables que intervienen en una distribucin bidimensional , segn sean
los diagramas de dispersin podemos establecer los siguientes casos :
- Independencia funcional o correlacin nula : cuando no existe ninguna relacin
entre las variables .( r = 0 )
- Dependencia funcional o correlacin funcional : cuando existe una funcin tal
que todos los valores de la variable la satisfacen ( a cada valor de x le corresponde
uno solo de y o a la inversa ) (r = 1)
- Dependencia aleatoria o correlacin curvilinea ( lineal ): cuando los puntos del
diagrama se ajustan a una linea recta o a una curva , puede ser positiva o directa , o
negativa o inversa ( -1<r<0 0<r<1)
Ejemplo : a 12 alumnos de COU se les toma las notas de los ltimos exmenes de
Matemticas , Fsica y Filosofa :
Matemticas
2
3
4
4
5
6

Fsica
1
3
2
4
4
4

Filosofa
2
5
7
8
5
3

6
7
7
8
10
10

6
4
6
7
9
10

4
6
7
5
5
9

Si representamos las variables matemticas- fsica en un diagrama y matemticasfilosofa en otro vemos que la correlacin es mucho ms fuerte en el primero que en el
segundo ya que los valores estn ms alineados .
Coeficiente de correlacin lineal : es una forma de cuantificar de forma ms precisa el
ttipo de correlacin que hay entre las dos variables .
s xy
r=
sxsy
Regresin : consiste en ajustar lo ms posible la nube de puntos de un diagrama de
dispersin a una curva . Cuando esta es una recta obtenemos la recta de regresin lineal
, cuando es una parbola , regresin parablica , cuando es una exponencial , regresin
exponencial , etc . ( logicamente r debe ser distinto de 0 en todos los casos ) .
s xy
La recta de regresin de y sobre x es : y y = 2 ( x x ) en la cual se hace mnima
sx
la distancia entre los valores yj obtenidos experimentalmente y los valores tericos de y.
s xy
A valor 2 se le llama coeficiente de regresin de y sobre x ( nos da la pendiente de
sx
la recta de regresin ).
s xy
La recta de regresin de x sobre y es : x x = 2 ( y y) en la cual se hace mnima
sy
la distancia entre los valores xi obtenidos experimentalmente y los valores teoricos de x.
s xy
A valor 2 se le llama coeficiente de regresin de x sobre y ( su inversa nos da la
sy
otra pendiente ) .

S-ar putea să vă placă și