Sunteți pe pagina 1din 22

Universidad del Mar

Curso Formación de Profesores Guías de Tesis


Prof.: Luis Gutiérrez Dinamarca

ESTADISTICA

Métodos estadísticos  Etapas:

 Recolección
 Organización
 Presentación
 Análisis
 Interpretación

Ramas de la Estadística:

Descriptiva: Medidas de tendencia central


Medidas de dispersión

Inferencial: Probabilidad
Muestreo

La estadística es de mucha utilidad en cualquier actividad humana, tales como en


la rama de la industria y el comercio, su función es apoyar al administrador de negocios,
al contador público, al economista, etc. A decidir sobre el parámetro, de la población de
donde proceda una muestra.

DEFINICIÓN.

Es un conjunto de teorías y métodos que han sido desarrollados para tratar la


recopilación, organización, presentación, análisis, interpretación y descripciones de datos
muestrales con el fin de extraer conclusiones útiles de ellos.

MÉTODOS ESTADÍSTICOS.

Es un conjunto de procedimientos y técnicas, con un orden lógico que tiene por


objeto recopilar, por elaboración, presentación y análisis de la información necesaria para
la comprobación de la hipótesis.

FASES O ETAPAS DE LOS MÉTODOS ESTADÍSTICOS.

 Recolección  Análisis
 Organización  Interpret
 Presentación ación

Dato estadístico: todo número que se pueda analizar, comparar e interpretar.

RAMAS DE LA ESTADÍSTICA.

a) Descriptiva: describe la información estadística.


b) Inferencial: describe e interpreta.
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

MUESTREO Y POBLACIÓN.

Muestra: es parte de una población de objetos, personas, empresas o cosas, que es


representativa del total de elementos que conforman el universo.

Población: es la totalidad de las posibles observaciones o medidas que se estén


considerando en alguna investigación, de cuyo conjunto se toma una muestra.

Parámetro: es una medida que describe alguna característica de la población.

Estadístico: es una medida que describe alguna característica de la muestra.

Símbolos más usuales Población Parámetro Muestra Estadistico


Tamaño de la muestra N n
Media aritmética M x
Varianza ² S²
Desviación estándar  S
Proporción P p

Muestreo: primer concepto que debemos establecer es el de inferencia estadística.

La idea fundamental es medir una porción pequeña de alguna población para


inferir que características tiene la población total. Algunos ejemplos son:

1) Tocar el agua de una piscina para calcular su temperatura.

2) Tomar una cucharada de la sopa para ver si el resto de ella es de buen sabor

3) En el mercado muchas ocasiones se nos da a probar parte de una fruta para


indicarnos cual es su sabor de toda ella.

4) Hojear un libro o una revista

5) Cuando salimos por primera ocasión con la novia.

6) Las fábricas producen unas cuantas piezas de algún nuevo producto antes de pasar a
la producción a gran escala.

7) La calidad de una bebida se hace por medio de un catador.

Podríamos decir que la estadística comprende la rama descriptiva, la teoría de la


probabilidad y el muestreo. Las 3 ramas, utilizan el método científico, que consiste en:

a) Definir detalladamente el problema


b) Crear un plan para la recopilación de datos
c) Reunir los datos.
d) Analizar e interpretar los datos.
e) Anotar las conclusiones y otros descubrimientos en forma clara y concisa.
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Ejemplo:

Inflacióncausadevaluación derroche Importaciónanálisiscrisis = mala política

TIPOS DE MUESTREO.

Tipo. Característica.

Aleatorio Lista de elementos: lista de control escolar


lista de electores, encuestas, etc.

Sistemático Lista aleatoria de elementos: encuesta, entrevista

Subgrupos homogéneos: clases sociales: proletarios:


Estratos campesino
Burgueses: industriales, banqueros, etc.

Conglomerados Colecciones aleatorias de elementos: delegaciones


D.F.: cuauhtémoc características.

TABLAS DE FRECUENCIA.

Edades Recopilación: Organización

22,21,20,21,25,21,22,20,25,22 19,19,20,20,20,20,20,20,21,21
20,20,19,22,23,21,27,19,20,20 21,21,22,22,22,22,23,25,25,27.

Distribución de frecuencias:

X f F f% F%
19 2 2 0.10 0.10
20 6 8 0.30 0.40
21 4 12 0.20 0.60
22 4 16 0.20 0.80
23 1 17 0.05 0.85
25 2 19 0.10 0.95
27 1 20 0.05 1.00
x= 20 1.00

f  frecuencia absoluta simple


F  frecuencia absoluta acumulada
f%  frecuencia relativa simple o porcentual
F%  frecuencia relativa acumulada
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

DISTRIBUCIÓN DE CLASES Y FRECUENCIAS O DATOS AGRUPADOS.

1. Num. G  1  3.32 log N  log 20


 1  3.32(1.30)  1  4.316  5.316  5

2. Rango  Ls  Li  27  19  8

Rango 8
3. Intervalo de clase  i  C    1.6
Num. G 5

Lim. Clase Front. clase f F f% F%


19-20.6 18.5-20.1 8 8 0.40 0.40
20.7-22.3 20.1-21.7 8 16 0.40 0.80
22.4-24.0 21.7-23.3 1 17 0.05 0.85
24.1-25.7 23.3-24.9 2 19 0.10 0.95
25.8-27.4 24.9-26.5 1 20 0.05 1.00
x=20

HISTOGRAMA
FRECUENCIA

10
8 18.5-20.1
6
20.1-21.7
4
2 21.7-23.3
0 23.3-24.9
1 24.9-26.5
FRONTERA DE CLASE

PASTEL

18.5-20.1
20.1-21.7
21.7-23.3
23.3-24.9
24.9-26.5
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

BARRAS

FRECUENCIA
10
8
6
Serie1
4
2
0
19- 20.7- 22.4- 24.1- 25.8-
20.6 22.3 24.0 25.7 27.4
LIM ITE DE CLASE

OJIVA
ACUMULADA
FRECUENCIA

25
20
18.5-20.1
15
10 20.1-21.7
5 21.7-23.3
0 23.3-24.9
1 24.9-26.5
FRONTERA DE CLASE

Cartogramas = mapas
Dictogramas = Figuras, Dibujos

La siguiente muestra representa el tiempo de ensamble para 30 empleados:

10,14,15,13,17,16,12,14,11,13,15,18,9,14,14,9,15,11,13,11,12,10,17,16,12,
11,16,12,14,15.
F F f% F%
X
9 2 2 0.066 0.066
10 2 4 0.066 0.132
11 4 8 0.133 0.265
12 4 12 0.133 0.398
13 3 15 0.10 0.498
14 5 20 0.166 0.664
15 4 24 0.133 0.797
16 3 27 0.10 0.897
 2 29 0.066 0.963
 1 30 0.033 0.996
 0.996
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

1. Num. G  1  3.32 log N  log 30


 1  3.32(1.47)  1  4.88  5.88  6

2. Rango  Ls  Li  18  9  9

Rango 9
3. Intervalo de clase  i  C    15
.
Num. G 6

Lim. Clase Front. clase f F f% F%


9-10.5 8.5-10 4 4 0.133 0.133
10.6-12.1 10-11.5 8 12 0.266 0.399
12.2-13.7 11.5-13 3 15 0.100 0.499
13.8-15.3 13-14.5 9 24 0.300 0.799
15.4-16.9 14.5-16 3 27 0.100 0.899
17-18.5 16-17.5 3 30 0.100 0.999
x=30 0.999

MEDIDAS DE TENDENCIA CENTRAL O MEDIDAS DE POSICION, LOCALIZACION,


CENTRALIZACION. HISTOGRAMA
FRECUENCIA

Una medida 10de posición o tendencia central es un valor


8.5-10que se calcula para un
8
grupo de datos y que 6
se utiliza para describirlos de alguna manera.
10-11.5
4 11.5-13
Media aritmética (valor
2 promedio).
0 13-14.5
14.5-16
Es el valor típico de la serie. Se1define como la división de la suma de todos los
valores entre el número de elementos o valores. 16-17.5
FRONTERA DE CLASE
x X  Media Aritmetica
X 
n  x  Suma de las muestras
n  numero total de las muestras

Propiedades.

 La media es única.
 Si se suma o se resta un elemento, la media también cambia
 Si se le suma una constante a la muestra original, la
media se modifica de igual magnitud.
 La suma algebraica de las variables con respecto a la media es = 0.

(X i  X)  0
25
X  5
5
2  6  7  8  2   x  25
 (2  5)  (6  5)  (7  5)  (8  5)  (2  5)
 3  1  2  3  ( 3)  0
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Calculo de la media aritmética.

a) Serie simple o datos no agrupados

X 1  X 2 .... X n  x
X  
N N
399
X   13.3
30

b) Datos organizados:

Pm1 f 1  Pm2 f 2 .... Pmn f n  Pmf


X  
f 1  f 2 ... f n f

Lim. Clase Front. clase f Pmf


9-10.5 8.5-10 4 39
10.6-12.1 10-11.5 8 90.8
12.2-13.7 11.5-13 3 38.85
13.8-15.3 13-14.5 9 130.95
15.4-16.9 14.5-16 3 48.45
17-18.5 17.75 3 53.25
x=30 401.3

MODA= MODO= Mo  Pmf 401.3


X    13.37
 f 30
Dato estadístico que se repite con mayor frecuencia.

a) Serie simple.

 Unimodal: cuando se repite un solo número varias veces


 Bimodal: serie se repiten 2 veces igual número de veces.
 Multimodal: serie se repiten más de 2 veces
 Nula: cuando no hay ningún número que se repita.

b) Datos agrupados.

 1 
M 0  L1   i
 1   2 
 93 
M 0  13    (15
. )
 (9  3)  (9  3) 
 6 
 13   . )  13  0.75  13.75
 (15
 6  6

MEDIANA = Md.
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Es el dato que divide a la serie en 2 partes iguales.

a) Serie simple:
n  1 30  1 31
Md     155
.
2 2 2
b) Datos agrupados:

n   30 
  f    12 
Md  Li   2 .  2
 (i )  115  (15
. )
 fm   3 
   
 115
.  15
.  13

MEDIA GEOMETRICA = G = GM
a) Serie simple:

G X 1 * X 2 *.....* X n
log X 1  log X 2 ... log X n 33.45
G   111
. Anti log  12.88  13
n 30

b) Datos agrupados:

log Pm1 f 1  log Pm2 f 2 ..... log pmn f n


 log Pmf
G 
f 1  f 2 .... f n N
log 9.75(4)  log 11.35(8)  log 12.95(3)  lg 14.55(9)  log 1615
. (3)  log 17.75(3)
G
30
3.95  8.93  3.33  10.46  3.62  3.74 33.53
G   111
. Anti log  12.88  13
30 30

MEDIA ARMONICA = Ho

a) Datos no organizados:

n n
Ho  
1 1 1 1
X1

X2
.....
Xn
x
30
Ho 
 1  1  1  1  1  1  1  1  1  1
  2    2    4    4    3   5    4    3    2   
 9  10   11  12   13  14   15  16  17   18 
30
  12.5  13
240
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

b) Datos agrupados

N N
Ho  
f1 f f f
 2 ..... n
Pm1 Pm2 Pmn
 Pm
30
Ho 
4 8 3 9 3 3
    
4.75 11.35 12.95 14.55 1615 . 17.75
30 30
   13.04  13
0.41  0.70  0.23  0.621  0.18  0.17 2.30

MEDIDAS DE DISPERSIÓN O VARIABILIDAD.

Es el grado de error que existe entre los números con respecto a la media
aritmética.

1. DESVIACIÓN MEDIA

a) DATOS ORGANIZADOS

DM 
f Pm  X
n
4 9.75  13  811.35  13  312.95  13  9 14.55  13  316.15  13  317.75  13
DM 
30
13  13.2  0.15  13.95  9.45  14.25 64
DM    2.13
30 30

2. VARIANZA O VARIANCIA

a) serie simple

  2
Xi  X
S 2

n 1
2 (9  13) 2  2 (10  13) 2  4 (11  13) 2  4 (12  13) 2  3(13  13) 2
 5(14  13) 2  4 (15  13) 2  3(16  13) 2  2 (17  13) 2  (18  13) 2
S2 
30  1  29
32  18  16  4  5  16  27  32  10 175
   6.03
29 29

b) datos clasificados

 f  Pm  X 
2

S 2

n 1
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

DESVIACION ESTANDAR.

a) serie simple

 X  X
2

S
n 1

b) datos agrupados

 f  Pm  X 
2

S
n 1
S 6.33  2.50

VARIABLES ESTADÍSTICAS BIDIMENSIONALES.

Variables estadísticas bidimensionales

Se trata de variables que surgen cuando se estudian dos características asociadas


a la observación de un fenómeno.

Ejemplo 1.- Estudiamos la talla, medida en cm. y el peso, medido en kg. de


un grupo de 10 personas, podemos obtener los siguientes valores:

TALLA (cm) 160 165 168 170 171 175 175 180 180 182
PESO (kg) 55 58 58 61 67 62 66 74 79 83

Podemos llamar X a la talla e Y al peso con lo que se obtendría la variable bidimensional


(X, Y) que toma 10 valores, que son las 10 parejas de valores de la tabla anterior: (160,55),
(165,58), etc.
Cuando el número de valores de la variable bidimensional no es muy grande, los mismos se
expresan en una tabla semejante a la anterior, pero en algunos casos el número de "parejas"
de valores (x,y) es grande y además muchos de ellos aparecen repetidos; en este caso se
utiliza una "Tabla de doble entrada" como la que se muestra a continuación en el
ejemplo 2.
En la primera fila se colocan los valores de una de las características o variable que
componen la variable bidimensional y en la primera columna los de la otra.
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Ejemplo 2.- Se representa por X el número de hijos de 100 familias y por Y el número
de hijas:

nº hijas (Y) 0 1 2 3
nº hijos (X) ----------- -- -- -- --

0 ----------- 10 15 15 3

1 ---------- 10 12 7 2

2 ---------- 8 4 3 1

3 ---------- 3 2 1 0

4 ---------- 2 1 1 0

La lectura de esta tabla es sencilla. Por ejemplo: habría 7 familias que tendrían 1 hijo y 2
hijas y ninguna familia tendría 3 hijos y 3 hijas.
En realidad la tabla de doble entrada anterior se convertiría en una tabla simple si
escribiéramos los 100 pares de valores iguales o repetidos en una tabla simple.

VARIABLES ESTADÍSTICAS BIDIMENSIONALES.


REGRESIÓN Y CORRELACIÓN
INTRODUCCIÓN
Estudiaremos el grado de causas comunes entre ambas, problema denominado correlación.
También analizaremos una de las variables condicionándola al comportamiento de la otra;
este problema recibe el nombre de regresión.
Las ideas matemáticas sobre estos temas y su desarrollo son debidas a los científicos
ingleses Francis Galton (1822-1911) y Karl Pearson(1857-1936), que las aportaron desde la
Biología y la Física, asociadas a problemas relacionados con la evolución y la herencia.
OBJETIVOS
• Estudiar distribuciones de puntos en el plano.
• Descubrir posibles relaciones entre las variables estudiadas.
• Distinguir entre relaciones estadísticas y funcionales.
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

• Comprender el concepto de correlación lineal, averiguar su signo y su valor


aproximado. Entender que el grado de correlación informa sobre la influencia de
una variable en otra.
• Decidir, según el valor de r, si puede hacerse una estimación fiable. Utilizar la recta
de regresión para estimar una variable a partir de la otra.

1. VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Se trata de variables que surgen cuando se estudian dos características asociadas a la


observación de un fenómeno.
Ejemplo 1.- Estudiamos la talla, medida en cm. y el peso, medido en kg. de un grupo de 10
personas, podemos obtener los siguientes valores:

TALLA (cm) 160 165 168 170 171 175 175 180 180 182
PESO (kg) 55 58 58 61 67 62 66 74 79 83

Podemos llamar X a la talla e Y al peso con lo que se obtendría la variable bidimensional


(X, Y) que toma 10 valores, que son las 10 parejas de valores de la tabla anterior: (160,55),
(165,58), etc.
Cuando el número de valores de la variable bidimensional no es muy grande, los mismos se
expresan en una tabla semejante a la anterior, pero en algunos casos el número de "parejas"
de valores (x , y) es grande y además muchos de ellos aparecen repetidos; en este caso se
utiliza una "Tabla de doble entrada" como la que se muestra a continuación en el ejemplo 2.
En la primera fila se colocan los valores de una de las características o variable que
componen la variable bidimensional y en la primera columna los de la otra.
Ejemplo 2.- Se representa por X el número de hijos de 100 familias y por Y el número de
hijas:

nº hijas (Y) 0 1 2 3
nº hijos (X) ----------- -- -- --

0 ----------- 10 15 15 3
1 ---------- 10 12 7 2
2 ---------- 8 4 3 1
3 ---------- 3 2 1 0
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

4 ---------- 2 1 1 0

La lectura de esta tabla es sencilla. Por ejemplo: habría 7 familias que tendrían 1 hijo y 2
hijas y ninguna familia tendría 3 hijos y 3 hijas.
En realidad la tabla de doble entrada anterior se convertiría en una tabla simple si
escribiéramos los 100 pares de valores iguales o repetidos en una tabla simple.
Los ejemplos con que vamos a trabajar este tema serán del primer tipo por razones de
limitación a la hora de visualizar más número de valores en las escenas. Esto no limita las
posibilidades de estudiar el tema y entender los conceptos básicos.

2. REPRESENTACIÓN GRÁFICA: DIAGRAMAS DE DISPERSIÓN O NUBES DE


PUNTOS

La representación gráfica de este tipo de variables es en realidad semejante a la


representación de puntos en el plano, usando unos ejes de coordenadas. Cada pareja de
valores da lugar a un punto en el plano y el conjunto de puntos que se obtiene se denomina
"diagrama de dispersión o nube de puntos".
En el ejemplo 1 anterior en el que se estudiaba la talla y el peso de 10 personas se obtendría
el siguiente diagrama de dispersión: (En el eje X se representa la talla en cm. y en el eje Y
el peso en kg.)
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

En la escena siguiente se puede observar otro diagrama de dispersión correspondiente a una


variable bidimensional que toma 6 valores a los que hemos llamado:
(a , a1), (b , b1), (c , c1), (d , d1), (e , e1), (f , f1)
Si se van cambiando usando las ventanitas inferiores de la escena, los valores de la
variable, se pueden observar los cambios en la nube de puntos.
3. TIPOS DE DEPENDENCIA A PARTIR DE LA REPRESENTACIÓN GRÁFICA

Uno de los objetivos de este tema es estudiar el tipo de dependencia que hay entre las dos
características o variables estudiadas para que fenómeno en cuestión. Por ejemplo:
" ¿ A mayor talla de una persona le corresponde mayor peso ? "
" ¿ Cuanto mayor es el número de hijos varones de una familia mayor es el número de
hijas? "
A estas cuestiones parece que se responde rápidamente que sí. Pero
¿Cómo se observa en la nube de puntos este hecho?
Se puede ver en el primera figura que correspondía al diagrama de talla - peso que la serie
de puntos presenta una tendencia "ascendente" . Se dice en este caso que existen entre las
dos variables una "dependencia directa" .
En caso en que la tendencia sea "descendente" se diría que estaríamos ante una "
dependencia inversa”
Naturalmente en caso en que no se pueda observar una tendencia clara estaríamos ante una
dependencia muy débil que no se puede observar mediante la nube de puntos y se verá
cómo estudiarla a continuación. Realiza los siguientes ejercicios:
1.- En la escena que correspondía a la variable con 6 pares de valores: ¿Qué se puede decir
de la dependencia para los valores que aparecen inicialmente?.
2.- Modifica dichos valores para que la dependencia sea directa y posteriormente inversa.

4. COVARIANZA Y SU INTERPRETACIÓN

Una medida específica de las variables bidimensionales es la covarianza.


Para variables expresadas mediante una tabla simple (sin pares de valores repetidos), la
covarianza se calcula mediante la formula:
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Donde xi e yi representan los pares de valores de la variable y el producto corresponde


al producto de las medias aritméticas de las variables x e y respectivamente.
Calculemos la covarianza para el ejemplo primero correspondiente a la variable talla - peso:
La suma de todos los productos de los valores de x (talla) por los de y (peso) sería:
160 • 55 + 165 • 58 + 168 • 58 + 170 • 61 + 171 • 67 + 175 • 62 + 175 • 66 + 180 • 74 + 180
• 79 + 182 • 83 = 114987 que dividido por el número de valores (10) será: 11498,7
A este valor debemos restarle el producto de las medias de ambas variables que
naturalmente sabes calcular:
Media de x (talla): 172,6
Media de y (peso): 66,3
Con lo que la covarianza Sxy = 11498,7 - 172,6 • 66,3 = 55,32
(Con una calculadora con funciones estadísticas este cálculo es sencillo).
Hemos obtenido un valor positivo para la covarianza que corresponde a una dependencia
directa como ya habíamos intuido con la nube de puntos.
En el ejemplo 2 (hijos - hijas) se puede comprobar que también la covarianza es positiva.
(Se deja como ejercicio la comprobación). Téngase en cuenta que en este caso la variable
bidimensional toma "100 valores"
Ejemplo 3.- Partimos de la escena siguiente, en la que se pueden ver inicialmente la nube
de puntos de la variables bidimensional que toma los siguientes 6 pares de valores:

x 2 4 6 8 10 12
y 8 7 7 6 6 4

3.- A la vista de la nube de puntos ¿qué tipo de dependencia se puede suponer?.


4.- Calcular la covarianza y confirmar la afirmación anterior.
5.-Observa que la covarianza es negativa (-3,5) y por tanto la dependencia se inversa.
6.- Calcular la covarianza de la variable hijos-hijas del ejemplo 2 y deducir del valor el tipo
de dependencia.

5. RECTA DE REGRESIÓN
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Supongamos que en una variable bidimensional queremos precisar la relación que existe
entre las dos variables que la forman. En concreto queremos expresar mediante una relación
cómo depende una de ellas (variable dependiente) de la otra (variable independiente).
Normalmente se elige como y la variable dependiente y como x la independiente.

Si esa relación se expresa mediante una función lineal del tipo y = ax + b, su gráfica
correspondería a una recta.

En el caso que nos ocupa nos interesa la recta que mejor "se ajuste" a los puntos de la nube
de puntos de la variable. Dicha recta se denomina: recta de regresión.

Por un método que se denomina de "mínimos cuadrados" y cuya concreción no


corresponde a este nivel de estudio, se deduce que la recta de regresión debe pasar por el
punto correspondiente a las medias de ambas variables y que debe tener por pendiente la
covarianza dividida por la varianza de la variable x.

Con ello la expresión de la recta de regresión será:


Esta es la llamada "Recta de regresión de y sobre x". Si se deseara estudiar la dependencia
de x respecto a y sólo habría que cambiar en la expresión de la recta x por y, obteniéndose
la recta regresión de x sobre y.

En la imagen siguiente se muestra la recta de regresión de y (peso) sobre x (talla) del


ejemplo 1 de este tema. En este caso se supone que represente cómo depende el peso de una
persona de su talla.

Si recordamos que entre la talla y el peso decíamos que existía una dependencia directa, la
recta de regresión lo confirma ya que su pendiente es positiva: a medida que aumenta la
talla aumenta el peso. Por tanto:

Dependencia directa - Pendiente de la recta positiva - Función creciente.


Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Pero ¿qué utilidad tiene la recta de regresión?

En la tabla de valores de la variable talla - peso, solamente nos dan los valores de un
determinado número de personas (10 en este caso): las personas de las que se conocen
dichos valores. Mediante la recta de regresión podríamos obtener de manera aproximada el
peso de una persona de la que conociéramos la talla, en una población semejante a aquella
de la que se ha obtenido la muestra.

Si observamos la gráfica anterior, podríamos suponer por ejemplo que una persona de 185
cm. pesaría algo más de 80 kg.

De manera más precisa, si conocemos la expresión de la recta de regresión, se pueden


calcular valores para la variable y, conocidos los de x, como si se tratara de una función.

Ejemplo 4.- La recta de regresión de la variable y (talla) sobre x (peso) será la recta:

- que pasa por el punto (172,6 ; 66,3)

- tiene de pendiente: 55,32 / 50,71 = 1,0909

Recta: y - 66,3 = 1,0909 ( x - 172,6) que operando y simplificando queda:

y = 1,0909x - 121,9

El valor del peso que suponíamos aproximado para una talla de 185 cm sería: Peso= 1.0909
• 185 - 121,9 = 79.9

Este valor obtenido es algo menor al esperado. Eso quiere decir que las predicciones hechas
con la recta de regresión no son exactas. En el apartado siguiente precisaremos la
"fiabilidad" de las mismas.

Por tanto la recta de regresión se puede utilizar para realizar predicciones para la variable y
a partir de valores conocidos de la variable x.

1.- Observa la tabla de valores siguiente y la escena donde dichos valores están
representados. En la escena a los pares de valores le llamamos (a,a1) ; (b,b1); etc.

x 2 4 6 8 10 12
y 8 7 7 6 6 4

2.-Calcular la recta de regresión de y sobre x. Se debe obtener los valores siguientes:


Media de x: 7 ; Media de y: 6,33 ; covarianza: -3,99 ; varianza de x: 11,66 y con ello:

recta de regresión: y = -0,342 x + 8,72

3.-¿Cómo es la pendiente ? ¿qué tipo de dependencia existe entre las variables?


Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

4.- Da algunos valores a x y obtén los correspondientes a y según la recta de regresión.


Comprueba en la escena si los valores obtenidos son correctos.

5.- Cambia los valores iniciales de la tabla en la escena viendo cómo varía la recta de
regresión y calcúlala en los casos que se desee (por ejemplo un caso en que la pendiente de
la recta sea positiva).

6. COEFICIENTE DE CORRELACIÓN

Una vez observado que en una variable bidimensional existe una cierta dependencia entre
las dos características o variables que la forman (nube de puntos y covarianza), podemos
precisar el grado de dicha dependencia.

- Si los puntos de la nube estuvieran todos sobre la recta de regresión se diría que existe una
dependencia funcional. De su estudio se encargan las funciones.

- Si los puntos no están todos sobre la recta de regresión se dice que entre las
variables hay una cierta correlación lineal. Este es el caso que nos ocupa. Para
cuantificar el grado de dicha correlación se usa el:

Coeficiente de correlación de Pearson. Si le llamamos r, su valor es:

Puede observarse que el signo del coeficiente de correlación es el mismo que el de la


covarianza y puede deducirse que el valor del mismo esta comprendido entre -1 y 1.

En la escena siguiente se ha añadido el valor del coeficiente de correlación.

1.- Observa que se pueden deducir las siguientes conclusiones relativas al coeficiente de
correlación (r):

- Su signo es el mismo de la covarianza, luego si r es positivo la dependencia es directa y si


es negativo inversa.

- Si r se acerca a -1 o a +1, la dependencia es fuerte y por tanto las predicciones que se


realicen a partir de la recta de regresión serán bastante fiables.
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

- Si r se acerca a 0 la dependencia es débil y por tanto las predicciones que se realicen a


partir de la recta de regresión serán poco fiables.

2.- Calcular el coeficiente de correlación para la variable talla - peso y deducir del valor del
mismo el tipo de dependencia y la fiabilidad de las predicciones. (Sol: r = 0,90).

7. USO DE SOFTWARE PARA CÁLCULOS Y CORRELACIONES

Usualmente cuando tienen los datos ya recopilados, se usa el software Excel para
tabularlos. Normalmente se digitan en columnas y se extraen promedios, sumas y
porcentajes de la forma más sencilla.

Pero no siempre es aconsejable quedarse con lo parámetros de nivel básico como lo es el


promedio o un porcentaje. La idea es poder sacar conclusiones con apoyo estadístico y,
para ello se debe contar con parámetros estadísticos que permitan apoyar una decisión en
un sentido u otro.
De ahí la importancia de calcular Estadígrafos Estadísticos como las Desviaciones Media,
Varianza y Standard, con apoyo computacional.

Usando Excel.

Sea la tabla siguiente un ejemplo de mediciones de edad, peso y estatura de jóvenes de una
carrera X de nuestra universidad.

Edad (años) Peso (Kg.) Estatura (cm.) IMC (unid.)


23 84,6 178 26,70
23 67,6 179 21,10
22 45,6 155 18,98
21 67,4 177 21,51
19 87,9 193 23,60
25 77,9 181 23,78
23 56,5 165 20,75
24 60,9 160 23,79
22 59,9 155 24,93
23 66,6 177 21,26
23 89,8 191 24,62
24 73,2 187 20,93
20 62,5 159 24,72
21 57,5 160 22,46
20 55,5 150 24,67

El propósito es calcular el índice de Masa Corporal (IMC) y así clasificar las personas de
la muestra según el IMC de cada cual.
Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Si no se está bien familiarizado con Excel, costará un poco realizar tablas de frecuencias y
gráficos estadísticos como el Histograma.

Es por esta razón que las planilla en Excel, se pueden exportar a una planilla en SPSS.

El software SPSS lo podemos encontrar en diversas versiones, siendo a más popular la


versión 11,5 (en inglés) y la versión 15.0 (en Español).
El software SPSS (Stadistic Program for Social Science), se especializa en cálculos
estadísticos inferenciales, que apoyan una acertada toma de decisiones. Resulta muy fácil
extraer de él estadígrafos estadísticos avanzados como desviaciones, correlaciones, y
cálculos de Regresiones lineales, donde el cálculo de la pendiente es inmediato (también en
Excel).

La forma de exportar una planilla Excel a SPSS (versión 15,0 en español… si alguien la
quiere, se la podemos grabar y enviar), se rige por el siguiente procedimiento:

1. Iniciar SPSS.

Oprimir “cancelar”

2. Ingresar a “archivo” y “abrir” datos.


Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

Elegir la carpeta donde se encuentra el archivo y elegir el “tipo” de documento como:


“ *.*” (de esta forma aparecen todos los archivos de donde se elige el que queremos).
En este caso hablamos del archivo “apoyo clase” que se encuentra en el “escritorio”.

Luego se acepta el cuadro siguiente y se logra exportar al archivo Excel a SPSS.

El cómo comenzar a extraer información estadística dependerá de los conocimientos


estadísticos de cada persona. Se puede pinchar el menú “analizar” o “gráficos”.
Ahí se pueden calcular todo tipo de parámetros usando variables divariadas. Es decir
comparar o correlacionar dos variables. Recordemos que en Excel es sencillo realizar
correlaciones correlaciones, pero se deben realizar más pasos que en SPSS.

La presentación de la planilla en SPSS es la siguiente:


Universidad del Mar
Curso Formación de Profesores Guías de Tesis
Prof.: Luis Gutiérrez Dinamarca

La ventaja de extraer todo tipo de parámetros radica en que el Software está en español.

Por ejemplo, la correlación entre el PESO y la ESTATURA está dada por:


Correlations

Peso (Kg.) Estatura (cm.)


Peso (Kg.) Pearson Correlation 1 ,878(**)
Sig. (2-tailed) ,000
N 15 15
Estatura (cm.) Pearson Correlation ,878(**) 1
Sig. (2-tailed) ,000
N 15 15
** Correlation is significant at the 0.01 level (2-tailed).

Siempre aconsejo realizar una correlación Bivariada, aunque puede ser “parciales” o
“distancias”.

Las correlaciones serán los principales estadígrafos que probarán las hipótesis. De modo
que una buena interpretación de ellas es fundamental para una buena toma de decisiones.

Los gráficos y otros estadígrafos son fácilmente extraíbles desde el menú Analizar de SPSS.
Dejo al lector la posibilidad de “navegar” por este Software.

S-ar putea să vă placă și