Sunteți pe pagina 1din 2

Remaniement Jeu de données ordonne - la base du remaniement de données

de données Les jeux de données ordonnés sont


*E
111
Dans un jeu de complémentaires de la vectorisation dans R.
avecdplyrettidyr données dit R préserve les observations quand les
«ordonné»: variables sont manipulées.
Aide-mémoire Aucun autre format ne fonctionne aussi
Chaque variable ...chaque observation
intuitivement que celui de R. M A
_ est en colonne et... _ est en ligne *
Syntaxe - conventions utiles Reorganisation des données - changer la disposition des données
dplyi tbl_df(iris)
dplyr: data_frame(a = 1:3, b = 4:6)
Convertit le jeu de données en classe tbl. Combine les vecteurs dans un data
Les tbl sont plus faciles à explorer que les data frames : frame (de façon optimisée).
R n’affiche que les données adaptées à la taille de l’écran dplyr: arrange(mtcars, mpg)
les °bservations par les valeurs
Source: local data frame [150 x 5] / r gather(cases, "year", "n", 2:4) tidyr spread(pollution, size, amount)
d une variable (ordre croissant). Y'e
Sepal. Length Sepal. Width Petal. Length Fusionne des colonnes en lignes. Distribue les lignes dans des colonnes.
arrange(mtcars, desc(mpg))
î 5.1 3.5 1.4
2 4.9 3.0 1.4 T rie les observations par les valeurs
3 4.7 3.2 1.3 d’une colonne (ordre décroissant).
4 4.6 3.1 1.5
rename(tb, y = year)
5 5.0 3.6 1.4
tidyr separate(storms, date, c("y", "m", "d")) unite(data,col, ...,sep)
Renomme les variables du jeu de
Variables not shown: Petal.Width (dbl), Concatène plusieurs colonnes en une données.
Species (fctr) _
Divise une colonne en plusieurs. seule.
dplyi glimpse(iris)
Fournit un résumé des jeux de données de class tbl
Extraction d’ observations (lignes) Extraction de variables (colonnes)
utils: View(iris)
Affiche les données dans un tableur (attention au V
majuscule)
j iris x «n dplyr::filter(iris, Sepal.Length > 7) dplyi select(iris, Sepal.Width, Petal.Length, Species)
ci
Sepal.Length Sepal.Width Petal.Length c
Petal.Width Species Permet d’extraire des observations selon une condition logique Selectionnedes colonnes selon leur nom ou leur fonction
5 3.S 1.4 0.2 setosa assistantes
4.9 3.0 1.4 0.2 setosa
dplyr distinct(iris)
4.7 3.2 1.3 0.2 setosa
Dédoublonnela base onctions assistantes à la sélection - Tselect
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa dplyi ::sample_frac(iris, 0.5, replace = TRUE)
5.4 3.9 1.7 0.4 setosa
4.6 3.4 1.4 0.3 setosa
Sélectionne aléatoirement une fraction d’observations select(iris,contains( '))
5.0 3.4 1.5 0.2 setosa dplyi ::sample_n(iris, 10, replace = TRUE) Sélectionne les variables contenant la chaîne de caractères
Sélectionne aléatoirement n observations select(iris,ends_with( Length"))
dplyi %>% Sélectionne les variables se terminant par la chaîne de caractères "Length"
dply r::slice(iris, 10:15) select(iris, everythingO)
Passe l’objetse trouvant à gauche comme premier Sélectionne les lignes selon leur position Sélectionne toutes les variables
argument de la fonction se trouvant à droite. dplyi ::top_n(storms, 2, date) select(iris, matches( t."))
Sélectionnetoutes les variables qui correspondent à l’ expression régulière .t.
x %>% f (y) équivaut à f(x, y) Sélectionne et ordonne les n premières observations (ou groupes si select(iris,num_range( ", 1:5))
y %>% f(x, z) équivaut à f(y, x, z) les données sont groupées) Sélectionne les variables nommées xl, x2, x3, x4, x5.

Utiliser l’opérateur%>% rend le code plus lisible :


Opérateurs logiques dans R ?Comparison et ?base::Logic select(iris,one_of(c("Species", "Genus")))
Sélectionne les variables dans la liste de noms spécifiée
< Inférieur strictement à ! - Différent de select(iris,starts_with("Sepal"))
iris %>% > Supérieur strictement à %in% Appartient à Sélectionne les variables débutant par la chaîne de caractères "Sepal"
g roup_by( Species) %>% select(iris, Sepal.Length:Petal.Width)
summarise(avg = mean(Sepal. Width) ) %>% == Egal à is. na Est manquant Sélectionne toutes les variables de Sepal.Length à Petal.Width (incluses).
arrange(avg) <= Inférieur ou égala ! is. na N’est pas manquant select(iris,- Species)
>= Supérieurou égal à &, |, ! ,xor,any,all Opérateurs booléens Sélectionne toutes les variables sauf Species.
Traduit par Diane Beldame •thinkr.fr
RStudio® is a trademark of RStudio, Inc. •CC BY RStudio* info@rstudio.com •844-448-1212* rstudio.com devtools::install_github("rstudio/EDAWR") poi Pour en savoir plusbrowseVignettes(package = c("dplyr", "tidyr")) •dplyr 0.4.0* tidyr 0.2.0 •Mise à jour: 1/15
Résumer des données Construire de nouvelles variables Fusionner des jeux de données

dplyt summarise(iris, avg= mean(Sepal.Length))


Résume de l’information en une seule ligne
dplyr mutate(iris, sepal = Sepal.Length + Sepal. Width)
Calcule et ajoute une ou plusieurs nouvellesvariables
Jointures
A
B
C
ransformantes
1
2
3
|

TT =
dplyi summarise_each(iris, funs(mean)) dplyr mutate_each(iris, funs(min_rank)) “FF? dpli leftJoin(a, b, by = "xl")
Applique une fonction (de résumé) sur chaque variable Applique une fonction window à chaque variable c iSr Joindre à a les variables de b selon xl
3

dplyt count(iris, Species, wt = Sepal.Length) dplyr::transmute(iris, sepal = Sepal.Length+ Sepal. Width)


Dénombre le nombre d’observations de chaque valeur
d’une variable (avec ou sans poids)
Construit une ou plusieurs variables en supprimant les
originales
Tf F
D ifl MA
rightjoin(a, b, by = "xl")
Joindre à b les variables de a selon xl
y innerjoin(a, b, by = "xl")

[
Mutoteutilisedesfonctionswindowqui prennent en entrée un
I B 2 |F Joindre a et b en ne gardant que les
observations des deux tableaux
fulljoin(a, b, by = "xl")
Summarise utilise des fonctions de résumé qui prennent IF Joindre a et b en gardant toutes les
en entrée un vecteur de valeurs et retournent une seule
vecteur et retournent un vecteur tel que: ®

D| J observations
valeurtelque: dplyt ::cume_dist NA IT
Jointur îltrante
dplyr::first dplyi lead Distribution cumulée
semiJoin(a, b, by = "xl")
Première valeur d’un min Copier avec des valeurs décalées à dplyr::cumall Toutes les observations de a ayant des valeurs
vecteur Valeur minimum d’un vecteur Cumul tant que vrai
dply i last gauche correspondantes dans b
max dplyt lag dplyr::cumany /r::antiJoin(a, b, by = "xl")
Dernière valeur d’un
vecteur Valeur maximum d’un vecteur Copier avec des valeurs décalées à Cumuldèsquevrai Toutes les observations de a n’ayant aucune
dply i nth mean droite dplyr::cummean correspondance dans b.
Nième valeur d’un vecteur Moyenne d’un vecteur dplyi dense_rank Moyenne glissante y
dplyr::n
Nb de valeurs d’un
median
Médiane d’un vecteur
Ordonne sans sauts de rangs cumsum
A 1
_ B 2
vecteur dplyt min_rank Somme cumulée B 2 J- C 3
var C 3 D 4
dply i n_distinct Ordonne avec sauts de rangs cummax
Variance d’un vecteur Operations ensemblistes
N b de valeurs distinctes dplyr: percent_rank Maximum cumulé
d’un vecteur sd
Ecart-type d’un vecteur Rangs de (min_rank) entre [0, 1], cummin dplyi intersect(y,z)
IQR
IQR d’un vecteur dplyi row_number Minimum cumulé Observations appartenant à y et z
Ordonne en affectant aux liens la cumprod
Groupement de données première position. Produit cumulé dplyi::union(y, z)
dplyrntile pmax Observations appartenant à y et zou l’un des 2
dplyt group_by(iris, Species) Divise en n groupes. Maximum par élément
Regroupe les observations d’iris par la valeur de Species. dplyi setdiff(y,z)
dplyi between pmin
dplyt ungroup(iris) Observations appartenant à y et pas à z
Les va leurs sont-elles entre a et b? Minimum parélément
Dégroupe le jeu de données Assemblages

iris %>% group_by(Species) %>% summariseÿ..) iris %>% group_by(Species) %>% mutate(...)
Construit un tbl résumant chaque groupe Construit de nouvelles variables, par groupe B 2 dply bind_rows(y, z)
B 2 Ajoutez à y comme nouvelles lignes.
___
D 4
dplyr::bind_cols(y,z)
B 2 Ajoutez à y comme nouvelles colonnes.
c D 4 NB: matches rows by position.
RStudio® is a trademark of RStudio, Inc. •CCBYRStudio» info@rstudio.com » 844ÿ48-1212 « rstudio.com
devtools::install_github("rstudio/EDAWR") pour lesjeux dedonées En savoir plus avec browseVignettestpackageÿcCdplyr”, "tîdyr")) •dplyr 0.4.0* tidyr 0.2.0 •Mise à jour 1/15
Traduit par Diane Beldame •thinkr.fr

S-ar putea să vă placă și