Sunteți pe pagina 1din 4

Primer paso: Importar datos de Excel a R.

Pasar el documento .xlsx a .csv (Comma Separated Values) o .txt (Tab Delimited File).
NOTA: AL HACER ESTO, NO GUARDA LA HOJAS DEL DOCUMENTO, SOLO EN LA
QUE SE ESTABA TRABAJANDO.

Ya en R:
1. Digitar el comando: Data1 <- read.table(file.choose(),header=TRUE,sep=\t)

Data 1 <- : Crea el espacio de memoria para esos datos.


read.table () > Lee la tabla de datos.
file.choose () -> Elige el archivo.
header=TRUE -> Deja saber a R, que la primera fila son variables.
sep=\t -> Le deja saber a R, que el archivo es de tipo Tab Delimited File.
En el caso que se trabaje con un .csv, el comando sep -> sep=,.

NOTA: TODOS LOS DATOS TIENEN UN TIPO EN R, SEA NUMERICOS (numeric),


ENTEROS (integer), O UN FACTOR (factor).
PARA IDENTIFICAR ESTO EN R, SE USA EL COMANDO:
class(Variable).
PARA LOS FACTORES, EXISISTE UN COMANDO QUE PERMITE IDENTIFICAR
ESTOS FACTORES (Verdadero o Falso, Hombre o Mujer), QUE ES:
levels(VariableDelTipofactor).
SE PUEDE DAR QUE ESTOS DATOS SE DEFINAN EN 0 Y 1 PARA CADA FACTOR,
EN ESTE CASO SE HACE:
a. Variable<-as.factor(Data1$Variable) -> Fuerza a la variable a ser vista con
factores.
b. class(Variable) -> Para comprobar que quedo hecha la conversin.
c. summary(Variable) -> Me da la frecuencia con la que aparecen los datos 0 y 1.

2. ORDENAR DATOS DE MAYOR A MENOR:


Para hallar la media de una columna de datos, se usa el comando general:
sort(x)-> Sea x una variable.
Pero, en este caso, el comando a usar es:
sort (Data1$NombreDeVariableEnLaPrimeraFila) -> Extrae del objeto Data1,
por medio de $, la Variable que desee uno, mientras este definida en las variables
que da el comando: names(Data1).
3. MEDIA (MEAN):
Para hallar la media de una columna de datos, se usa el comando general:
mean(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
mean (Data1$NombreDeVariableEnLaPrimeraFila) -> Extrae del objeto Data1,
por medio de $, la Variable que desee uno, mientras este definida en las variables
que da el comando: names(Data1).

4. MEDIANA(MEDIAN):
Para hallar la mediana de una columna de datos, se usa el comando general:
median(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
median (Data1$NombreDeVariableEnLaPrimeraFila). -> Extrae del objeto
Data1, por medio de $, la Variable que desee uno, mientras este definida en las
variables que da el comando: names(Data1).

5. DESVIACIN TPICA(STANDARD DEVIATION):


Para hallar la desviacin tpica de una columna de datos, se usa el comando
general:
sd(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
sd(Data1$NombreDeVariableEnLaPrimeraFila). -> Extrae del objeto Data1, por
medio de $, la Variable que desee uno, mientras este definida en las variables que
da el comando: names(Data1).

6. VARIANZA(VARIANCE):
Para hallar la varianza de una columna de datos, se usa el comando general:
var(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
var(Data1$NombreDeVariableEnLaPrimeraFila). -> Extrae del objeto Data1,
por medio de $, la Variable que desee uno, mientras este definida en las variables
que da el comando: names(Data1).

7. COMANDO DE RESUMEN (SUMMARY) (DATOS MAXIMO Y


MINIMO, CUARTILES):
Para hallar datos como: Mximo, Mnimo, Cuartiles, etc. de una columna de datos,
se usa el comando general:
summary(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
summary(Data1$NombreDeVariableEnLaPrimeraFila). -> Extrae del objeto
Data1, por medio de $, la Variable que desee uno, mientras este definida en las
variables que da el comando: names(Data1).
8. HISTOGRAMA:
Se usa el comando general:
hist(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
hist(Data1$NombreDeVariableEnLaPrimeraFila)

9. DIAGRAMA DE BARRAS:
Se usa el comando general:
barplot(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
barplot(Data1$NombreDeVariableEnLaPrimeraFila)

10. DIAGRAMA DE CAJA Y BIGOTES:

Se usa el comando general:


boxplot(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
boxplot(Data1$NombreDeVariableEnLaPrimeraFila)

11. DIAGRAMA OJIVA:


Este no es un proceso directo, tiene los siguientes pasos:
Primero encontramos el rango de la variable, con la funcin range().
Ej:
> VARI = Data1$Variable
> range (A)
[1] 1.6, 5.1.
Divida el intervalo en subintervalos que no se superponen definiendo una secuencia de
puntos de ruptura (break) iguales de distancia, Si redondeamos el inicio y final de los
intervalos (1.6 , 5.1), a su entero y medio mas cercano, tenemos (1.5 5.5), con esto
definimos los puntos de ruptura a razn de la secuencia anterior. (con paso de 0.5 en 0.5).
Ej:
> breaks = seq (1,5, 5,5, by = 0,5) # secuencia entero y medio.
> breaks
[1] 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5
Clasifique los datos de acuerdo con los subintervalos de media unidad de longitud con
corte. Como los intervalos deben ser cerrados a la izquierda y abiertos a la derecha,
establecemos el argumento correcto como FALSE.
Ej:
> VARI.cut = cut (VARI, breaks, right = FALSE)
Calcule la frecuencia de los datos en cada subintervalo con la funcin de tabla.
Ej:
> VARI.freq = tabla (VARI.cut)
Obtenemos la distribucin de frecuencia los datos, la cual es:
Ej:
> VARI.freq
VARI.cut [1,5,2] [2,2,5] [2,5,3] [3,3,5] [3,5,4] [4,4,5] [4,5,5] [5,5,5]
51 41 5 7 30 73 61 4
Con esto, computamos su frecuencia acumulativa con cumsum, agregamos un elemento
inicial 0, y se inicia la grfica.
Ej:
> cumfreq0 = c(0, cumsum(VARI.freq))
> plot(breaks, cumfreq0, # Grafica datos
+ main="Titulo", # Titulo
+ xlab="Eje x", # Etiqueta eje x
+ ylab="Eje y") # Etiqueta eje y
> lines(breaks, cumfreq0) # Unir los puntos

NOTA: DENTRO DE ESTOS COMANDOS, SE PUEDE AGREGAR TITULOS, Y


ROTULOS A CADA EJE, POR EJEMPLO:
hist(Data1$NombreDeVariableEnLaPrimeraFila,main=TITULO, xlab=EJEx,
ylabEJEy).

12. TABLA TALLO Y HOJAS:


Se usa el comando general:
stem(x). -> Sea x una variable.
Pero, en este caso, el comando a usar es:
stem(Data1$NombreDeVariableEnLaPrimeraFila)

S-ar putea să vă placă și