Sunteți pe pagina 1din 7

ESTADSTICA

MAT3

LA ESTADSTICA es la rama de las matemticas que estudia los fenmenos


aleatorios, tambin llamados de azar, por no saber con anterioridad qu es lo que
va a ocurrir. Es decir, no estudia fenmenos determinsticos, donde se sabe de
antemano el resultado.
La palabra estadstica tiene que ver con Estado, con el pas, y es que
tradicionalmente se relaciona con la informacin que tiene un estado para su
organizacin. Aunque los primeros testimonios escritos de estadsticas datan del
3000 a.C. en Babilonia, pasando hasta el siglo XVI (Grecia, Roma, Edad Media) la
estadstica slo consista en la recopilacin de datos. El primer trabajo estadstico
serio no llega hasta el s. XVII en Inglaterra, pero ser un siglo ms tarde, en
Alemania, cuando empez a sistematizarse y estudiarse seriamente.
La estadstica es un conjunto de mtodos cientficos de recogida, organizacin,
resumen, presentacin y anlisis de datos que permiten extraer conclusiones
vlidas y tomar decisiones acertadas basadas en esos datos.
Muchas veces, aunque incorrectamente, tambin solemos llamar Estadstica a los
propios datos, o a nmeros derivados de esos datos, como por ejemplo, la media
aritmtica.
Un estudio estadstico consiste en recoger mucha informacin y ordenarla para
sacar conclusiones. La forma ms reducida y clara de ordenar informacin es
mediante una tabla.
Una serie estadstica es el conjunto de todos los resultados de un fenmeno
aleatorio.
Poblacin o universo es el conjunto de todos los elementos o individuos
sometidos a un estudio. La poblacin puede ser finita o infinita.
Una muestra es el subconjunto de poblacin sobre el que se realiza el estudio
cuando no es posible hacerlo sobre la poblacin entera. Las muestras han de ser
representativas.
Individuo es cada uno de los elementos que forman la poblacin o la muestra.
Si la muestra es representativa de una poblacin, se pueden sacar conclusiones
importantes sobre esa poblacin, derivadas del anlisis de la muestra (por ejemplo,
un sondeo electoral ante unas elecciones). La parte estadstica que analiza las
condiciones bajo las cuales tales conclusiones son vlidas se llama Estadstica
Inferencial o Inferencia Estadstica.
La parte de la Estadstica que slo describe y analiza un grupo determinado, se
sacar conclusiones o inferencias sobre un grupo ms amplio, se llama Estadstica
Descriptiva o Deductiva.
Una variable xi es la caracterstica que deseamos estudiar y representar. Una
variable puede ser cuantitativa, cuando puede ser representada por nmeros
(nmero de hermanos), o cualitativa, cuando no se puede (color preferido). Sin
embargo, para un estudio estadstico tambin podramos trabajar con variables
cualitativas asignando un nmero a cada cualidad; por ejemplo, si preguntamos
cul es tu color preferido, podemos asignar para las respuestas los valores 1 para
rojo, 2 para verde, 3 para amarillo, etc.
Una variable discreta slo toma valores aislados, mientras que una variable
continua toma todos los valores posibles del intervalo.

Dpto. de Matemticas colegio NUESTRA SEORA DEL PILAR - Madrid

ESTADSTICA

MAT3

Por ejemplo, si preguntamos cuntos hermanos tienen los individuos de una


muestra, nos dirn que ninguno, que 1, que 2, que 3, etc., pero no hay valores
intermedios: nadie tiene 2,6 hermanos; el nmero de hermanos es una variable
discreta. En cambio, si les preguntamos cul es su sueldo mensual, puede ser 700
euros, 800, 900, 1000, etc. Pero tambin puede situarse mejor que entre 900 y
1000, entre 900 y 950; pero todava podemos ser ms exactos, entre 920 y 930; y
acercarnos ms, y ms llegar hasta cntimos Estamos ante variables continuas,
que podemos agrupar en intervalos. Otros ejemplos de variables continuas seran la
altura, el peso de los individuos, las notas de alumnos, la distancia entre ciudades
En general, los conteos dan origen a variables discretas, y las mediciones, a
variables continuas.
Si la variable, continua o discreta, conllevan un nmero grande de datos, para
trabajar ms cmodamente esos datos se agrupan en intervalos o clases. Un
intervalo viene delimitado por las cotas inferior y superior, y la diferencia entre esas
cotas es la amplitud del intervalo. De cada intervalo se toma un valor
representativo llamado marca de clase que en muchas ocasiones se hace coincidir
con el valor medio del intervalo, es decir, sumando las cotas superior e inferior y
dividiendo entre 2.
No necesariamente todos los intervalos han de tener la misma amplitud.
Cuando un caso est en el lmite de 2 intervalos, se incluir siempre en el mayor
de ellos. Es decir, los intervalos son cerrados por la izquierda y abiertos por la
derecha [a,b). El ltimo intervalo, el que recoge los valores ms grandes, ser
tambin, lgicamente, cerrado por la derecha, a no ser que su lmite sea el infinito

Tambin el primer intervalo puede tener - como lmite inferior.

El nmero de individuos correspondiente a cada valor de la variable se llama


frecuencia o frecuencia absoluta fi de ese valor; es el nmero de veces que se
repite esa modalidad o valor. La suma de las frecuencias absolutas de todas las
variables da como resultado el total de individuos que forman la muestra.
La frecuencia relativa hi de un valor es la proporcin de veces que se presenta,
y se obtiene dividiendo su frecuencia absoluta por el nmero total de datos o
individuos,
. El resultado de sumar todas las frecuencias relativas da como
resultado la unidad, 1. Para obtener las frecuencias relativas da igual si trabajamos
con variable discreta o continua; pero es necesario conocer la frecuencia absoluta.
Se suele expresar en porcentaje. El porcentaje resulta de multiplicar la frecuencia
relativa por 100. La suma de todos los porcentajes debe ser 100%.
La frecuencia absoluta acumulada Fi de un valor xi de una variable estadstica
es la suma de las frecuencias absolutas de todos los valores anteriores, los
menores o iguales a xi. Los valores de la variable han de estar ordenados de menor
a mayor. La frecuencia absoluta acumulada correspondiente al ltimo valor de la
variable debe coincidir con el nmero de individuos de la muestra.
La frecuencia relativa acumulada, Hi, de un valor xi de una variable estadstica
es el cociente entre su variable absoluta acumulada, Fi, y el nmero total de datos,
N.

Dpto. de Matemticas colegio NUESTRA SEORA DEL PILAR - Madrid

ESTADSTICA

MAT3

PARMETROS ESTADSTICOS
Hay 2 tipos de parmetros estadsticos: de centralizacin y de dispersin; y
medidas de posicin.
Por los parmetros de centralizacin podemos calcular en torno a qu valores
centrales podemos resumir los datos; y los de dispersin, cunto se alejan del
centro los datos.
Une media es un valor tpico, representativo, de un conjunto de datos. Como los
valores representativos tienen tendencia a estar en el centro del conjunto de datos,
los solemos llamar parmetros de centralizacin. En cambio, el grado con que los
datos numricos tienden a dispersarse en torno a un valor central se mide con los
parmetros de dispersin.
Por ejemplo, tenemos dos grupos en 3 de la ESO; en 3A, la nota de
matemticas de la mayora de los alumnos est entre 4 y 6; y en 3B, ms o
menos la mitad de los alumnos est entre 8 y 9, y la otra mitad, entre 1 y 2. Si slo
usramos las medidas de centralizacin, los dos grupos pareceran similares,
cuando en realidad son muy distintos; tambin hemos de usar las medidas de
dispersin para darnos cuenta de lo diferentes que son ambos grupos.

1. PARMETROS DE CENTRALIZACIN
Indican en torno a qu valores se agrupan la mayora de los datos. Son 3:

La Moda, Mo: es el valor de la variable de mayor frecuencia absoluta: puede


haber ms de una Moda, o no existir. Una distribucin con slo una moda es
unimodal.

La Media Aritmtica , es el resultado de dividir la suma de todos los

valores de la variable por el nmero total de observaciones, teniendo en cuenta las


veces que se repite cada valor, es decir, su frecuencia o peso; matemticamente:

La Mediana, Me, es el valor central de un conjunto de datos numricos


ordenados. Cuando se trata de un nmero par de datos, la Mediana es la media
aritmtica de los dos datos centrales; en una serie de datos, SLO hay una
mediana.

2. MEDIDAS DE POSICIN: LOS CUARTILES


Los cuartiles de una variable estadstica son tres valores de la variable que
dividen los datos en cuatro partes iguales:
El primer cuartil, Q1, deja por debajo la cuarta parte de los datos.
El segundo cuartil, Q2, coincide con la mediana: Q2=Me
El tercer cuartil, Q3, deja por debajo tres cuartas partes de los datos.
Para datos agrupados, los cuartiles se aproximan por las marcas de clase.

Dpto. de Matemticas colegio NUESTRA SEORA DEL PILAR - Madrid

ESTADSTICA

MAT3

3. PARMETROS DE DISPERSIN
Los parmetros de dispersin permiten conocer el grado de mayor o menor
agrupamiento de los datos entre s o con respecto a un valor central; son:

El Rango o Recorrido de una serie estadstica es la diferencia entre el


mayor y el menor de los datos de la serie.

La desviacin respecto a la media de un dato es el valor absoluto de la


diferencia entre dicho dato y la media aritmtica del conjunto de datos:

La varianza,

, es el promedio de los cuadrados de las desviaciones:

Y se puede calcular con cualquiera de las dos ecuaciones anteriores.

La desviacin tpica,

, es la raz cuadrada positiva de la varianza.1

En una distribucin estadstica, con una muestra grande, y que no sea muy
extraa, aproximadamente las 2/3 partes de las variables xi estn en el intervalo
(
,
(RECUERDA! siendo la media aritmtica y la desviacin tpica).

El coeficiente de variacin, CV, es la razn (cociente) entre la desviacin


tpica y la media aritmtica. El CV permite comparar la dispersin entre 2 series
estadsticas distintas.
El coeficiente de variacin es una medida de dispersin relativa. Pensemos
que, por ejemplo, una dispersin de 10 centmetros no tiene la misma importancia
en una medida de 1 metro que en otra de 100 metros.
El coeficiente de variacin es independiente de las unidades de medida, es decir,
no tiene unidades, lo que lo convierte en muy til para comparar distribuciones con
unidades de medida muy diferentes. En cambio, su inconveniente reside en no ser
conveniente para valores de las variables prximos a cero.
Como el CV no tiene unidad (numerador y denominador tiene la misma, y al
dividir se van), se suele expresar como un porcentaje:
a. Si: CV < 30% la dispersin es baja
b. Si: CV > 60% la dispersin es alta
c. Si: 30% < CV < 60% la dispersin es media

El ejemplo ms importante de distribuciones continuas de probabilidad es la


distribucin normal, curva normal o campana de Gauss, que vers en el
Bachillerato, y para las que las propiedades de la desviacin tpica en Distribuciones
Normales son:
1) El 68,27% de las observaciones estn entre

2) El 95,45% de las observaciones estn entre

3) El 99,73% de las observaciones estn entre

Dpto. de Matemticas colegio NUESTRA SEORA DEL PILAR - Madrid

ESTADSTICA

MAT3

Por ejemplo, si CV=31%, nos indica que el valor de la desviacin tpica ,

, es el

31% de la media.
Los clculos de estas medidas de dispersin son complejos para hacerse a mano,
y se suele usar una hoja de clculo, o en su defecto, la calculadora cientfica.

CMO HACER UNA TABLA DE DATOS Y SUS CLCULOS


Para hacer la tabla y los clculos de los parmetros anteriores, vamos a seguir los
siguientes pasos:
1. RECUENTO DE DATOS
En la primera columna de la tabla ponemos los datos, ordenados de mayor a
menor; por ejemplo, las notas de los 34 alumnos de una clase en matemticas.
Los datos se recogen, se recuentan, se agrupan y, en la tabla, se ordenan en filas
de menor a mayor.
Si hay casi tantos datos distintos como el nmero total de datos, los agrupamos
en intervalos. Habitualmente, los intervalos son de la misma amplitud, cerrados por
la izquierda y abiertos por la derecha.
La marca de clase ser el punto medio de cada intervalo: sumamos los dos
extremos de cada intervalo y lo dividimos entre dos. A todos los efectos,
trabajaremos, a partir de ahora, con la marca de clase como si fuese una variable
discreta, en lugar del inrvalo.
2. TABLA DE FRECUENCIAS
En la segunda columna (la tercera, si hubisemos hecho una segunda para los
intervalos), ponemos las frecuencias absolutas; es decir, el nmero de veces que
se repite cada dato. En nuestro caso, cuntos alumnos han sacado un cero, cuntos
un uno cuntos un diez. Si no hubiese frecuencia para un dato, si fuese cero (por
ejemplo, ningn alumno ha sacado un 6, tambin se pone, no se omite).
Al final de la columna sumamos todas las frecuencias absolutas. El resultado ha
de ser el nmero total de datos; en nuestro caso, el nmero total de alumnos de
esa clase, 34.
La siguiente columna es para las frecuencias relativas. Cada frecuencia relativa
es la resultante de dividir cada frecuencia absoluta entre el nmero total de datos
(34 en nuestro ejemplo). Igualmente, al final de la columna sumamos todos y el
resultado ha de ser 1; si no lo hemos hecho con una hoja de clculo, el resultado
puede ser un poco (slo un poco) menor, al haber despreciado decimales.
La siguiente columna, la cuarta, es la de las frecuencias relativas expresadas en
porcentaje. Se calcula cada una multiplicando la frecuencia relativa de la columna
anterior por 100. Se suman toda la columna al final, y ha de dar 100 (todo, el
100%).
Pasamos a las frecuencias acumuladas.
Vamos a hacer otras tres columnas, como las anteriores, de frecuencias
absolutas, frecuencias relativas y frecuencias relativas porcentuales: pero ahora
con los datos acumulados.
Es decir, cada celda es la suma de la anterior y el valor de la columna de la
izquierda.

Dpto. de Matemticas colegio NUESTRA SEORA DEL PILAR - Madrid

ESTADSTICA

MAT3

El ltimo valor de cada de las tres columnas (ATENCIN! No la suma, sino el


ltimo), ha de ser, respectivamente, el de todos los datos (34 en nuestro caso), 1 y
100.
3. DIAGRAMA DE SECTORES
Si queremos hacer un diagrama de sectores, hemos de incluir una columna, en
que cada celda sea el resultado de multiplicar cada frecuencia relativa por 360, que
son los grados del crculo. Cada resultado es el nmero de grados del sector circular
resultante para cada dato.
Al final, sumamos toda la columna y ha de darnos, lgicamente, 360, el crculo
completo.
4. MEDIA ARITMTICA
A partir de aqu, las columnas las vamos a hacer no por su valor en s, sino para
calcular los parmetros estadsticos correspondientes.
En cada celda de la siguiente columna vamos a multiplicar cada dato por su
frecuencia absoluta, y al final de la columna los sumamos todos.
Es decir, vamos a multiplicar cada valor de la primera columna por el
correspondiente de la segunda (de la tercera si ussemos intervalos y marcas de
clase).
Aparte, dividiremos el resultado de esa suma entre el nmero total de datos (34
en este caso), y as obtendremos la media aritmtica.
5. VARIANZA
Para calcular la varianza crearemos las tres siguientes columnas.
Una vez calculada la media aritmtica
en el paso anterior, en la primera de
estas columnas restamos a cada valor (primera columna) la media aritmtica. Da
exactamente lo mismo hacerlo al revs: la media aritmtica menos cada valor.
Lgicamente, unos resultados sern positivos y otros negativos. Est bien.
En la siguiente columna, elevamos al cuadrado los resultados de la columna
anterior; no hace falta decir que ahora TODOS sern positivos.
En la tercera de estas tres columnas, multiplicamos cada valor de la anterior
columna por su frecuencia absoluta (segunda columna de la tabla, tercera si
hubiesen intervalos).
Al final de la columna, sumamos todos los valores.
Si dividimos este valor entre el nmero total de datos (34 en este ejercicio), ya
tenemos la varianza.
Si calculamos su raz positiva, tenemos la desviacin tpica.
Y si la dividimos entre la media aritmtica, hemos calculado el coeficiente de
variacin.
6. OTROS CCULOS
Con la tabla tambin podemos calcular la mediana, la moda, el rango

Dpto. de Matemticas colegio NUESTRA SEORA DEL PILAR - Madrid

ESTADSTICA

MAT3

3ESO-B - notas de 34 alumnos en matemticas - junio


xi

fi

0 0
1 1
2 0
3 2
4 9
5 8
6 10
7 2
8 1
9 1
10 0
34

hi

hi (%)

Fi

Hi

Hi (%)

xi fi

0,000
0,029
0,000
0,059
0,265
0,235
0,294
0,059
0,029
0,029
0,000
1

0,00%
2,94%
0,00%
5,88%
26,47%
23,53%
29,41%
5,88%
2,94%
2,94%
0,00%
100%

0
1
1
3
12
20
30
32
33
34
34

0,000
0,029
0,029
0,088
0,353
0,588
0,882
0,941
0,971
1,000
1

0,00%
2,94%
2,94%
8,82%
35,29%
58,82%
88,24%
94,12%
97,06%

0
1
0
6
36
40
60
14
8
9
0
174

Media aritmtica =

10
5,12

Desviacin Media =

0,886

Rango =

Moda =
Varianza=
Desv.T=
CV=

100,00%

100%

6
2,22
1,49
29,12%

Dpto. de Matemticas colegio NUESTRA SEORA DEL PILAR - Madrid

Q2=

5,12
4,12
3,12
2,12
1,12
0,12
0,88
1,88
2,88
3,88
4,88
30,12

26,19
16,96
9,72
4,48
1,25
0,01
0,78
3,54
8,31
15,07
23,84

Q1=

Mediana=

Q3=

0,00
16,96
0,00
8,97
11,24
0,11
7,79
7,09
8,31
15,07
0,00
76

S-ar putea să vă placă și