Sunteți pe pagina 1din 50

Introduction du logiciel libre de statistiques :

R et R commander

(La version 05/09/2011)


Toshiharu OKAYASU
Conseiller Principal
Projet de Renforcement du Programme de Prvention du VIH /JICA

Prambule
Le but du prsent document de fournir un point de dpart pour des dbutants
intresss R et surtout le package R commander.
R est un systme danalyse statistique et graphique cre par Ross Ihaka et Robert
Gentleman. R est distribu librement sous les termes de la GNU General Public

Licence ; son dveloppent et sa distribution assurs par plusieurs statisticiens


rassembls dans le R Development Core Team. R est disponible pour WINDOWS,
Macihtosh et UNIX partir du site internet du Comprehensive R Archive Network
(CRAN). Cependant R est assez compliqu pour des dbutants dutilisateurs du
logiciel statistiques. Pour surmonter ce problmes, le package R
(Rcmdr) a t dvelopp par

commander

Pr. John FOX de luniversit de McMaster au Canada.

Ce manuel prsente des principales utilisations de R

commander en utilisant des

donnes de lenqute de lvaluation du Projet de renforcement du Programme de


Prvention du VIH /JICA et Programme National du sida(PNLS) du ministre de la
Sant Publique Madagascar.

Si vous intressez ce manuel et des donnes

dexercice et des suggestions, vous adressez au bureau du Projet.


Je vous souhaite un renforcement de capacit de lanalyse en statistiques de PNLS
et des intresss de ce manuel.

Toshiharu OKAYASU

Tables des matires


Menu de statistiques

R Commander (version 1.7.0) ................................................ 4

Installation de R .................................................................................................................. 5
Installation du package R

commander (Rmdr) et dmarrage ........................................ 8

Donnes dans les packages ................................................................................................. 9


Importation des donnes ................................................................................................... 11
Convertir des variables numriques en facteurs ............................................................. 14
Recoder des variables ........................................................................................................ 15
Dcouper une variable numrique en classe .................................................................... 17
Les tableaux croiss la main .......................................................................................... 18
Les tableaux croiss en double entre .............................................................................. 19
Tables de contingences avec tableau plusieurs entres................................................ 20
Fusionner des jeux de donnes ......................................................................................... 21
Nom des cas ....................................................................................................................... 23
Exporter le jeu de donnes actif ....................................................................................... 26
Distribution de frquence ................................................................................................. 27
Utilisation de Fentre de Script ....................................................................................... 28
Eliminer les cas contenant des valeurs manquants ........................................................ 29
Graphe en camembert ....................................................................................................... 31
Graphe en Nuage de points .............................................................................................. 32
Graphe en 3D .................................................................................................................... 33
Test de corrlation ............................................................................................................. 34
Test de normalit de Shapiro Wilk ................................................................................... 36
Test F de deux variances ................................................................................................... 38
Test de Welch ..................................................................................................................... 39
Test

de Wilcoxon bivari

(Test non paramtrique pour comparer deux moyennes

(Mdians) ........................................................................................................................... 40
R commander Personnalis .............................................................................................. 43
ANNEXE :

Test statistique de base et R commander ................................................... 45

Type de donnes ................................................................................................................ 46


Schma de test statistique 1 ............................................................................................. 47
Schma de test statistique 2 ............................................................................................. 48
Distribution T .................................................................................................................... 49
Distribution Chi-carre ..................................................................................................... 50

Menu de statistiques

R Commander (version 1.7.0)

Statistiques Rsum -Jeu de donne actif


|
|-distribution de frquence
|
|-Dnombrer les observations manquantes
|
|-Tableau de statistiques
|
|-Matrice de corrlation
|
|-Test de corrlation
|
|-Test de normalit de Shapiro-Wilk
Table de contingences- Tableau de double entre
|
-Tableau de plusieurs entre
|
-Remplir et analyser un tableau double entre
Moyennes -T test uni vari
|
|-T test indpendant
|
|-T test apparie
|
|-ANOVA un facteur
|
|-ANOVA plusieurs facteurs
Proportions Test de proportion uni-vari
|
|-Test de proportions bi vari
Variances-Test F de deux variences
|
|-Test de Bartlett
|
|-Test de Levene
Tests non paramtriques- Test Wilcoxon bi vari
|
|-Test Wilcoxon appari
|
|-Test de Kruskal-wallis
|
|-Test de somme de rangs de Fridman
Analyse multi vari Fiabilit dchelle
|
|Analyse en composantes principales
|
|-Analyse factorielle
|
|-Classification-Classification pour K-means
|
|-Classification hirarchique
|
|-Rsum Classification hirarchique
|
|-Ajouter les groupes de la classification en jeu de donnes
Ajustement de modle-Rgression linaire
|-Modle linaire
|- Modle linaire gnralis
|- Modle logit multinominal
|- Modle de rgression oridnaire

Installation de R
Tlchargez R2-13.1-win.exe
(www.r-project.org/)
Double-cliquez sur R-2.13.1-win.exe

Slectionnez

la

langue

dinstallation.
Cliquez sur OK.

Cliquez sur Suivant.

Cliquez sur Suivant.

Cliquez sur Suivant.

Slectionnez toutes les


options et Cliquez sur
Suivant.

Slectionnez

sur

cliquez sur Suivant.

Non

et

Cliquez sur Suivant.

Cliquez

sur

attendez

Suivant
la

dinstallation.

Note : Quand R se dmarre, il peut vous demander les packages manquants. Vous
allez tlchargez ou vous allez copier et coller des packages manquants dans le
fichier de library.
Quand licne de R est sur votre bureau de lordinateur, cliquez droite et
slectionnez la proprit.

Ajoutez --sdi -q

aprs Rgui.exe dans

le cible

N.B --sdi signifie lutilisateur


simple. -q signifie lenlvement
de message de dmarrage.

et

finition

Installation du package R

commander (Rmdr) et dmarrage

Double cliquez sur licne de R sur votre bureau de lordinateur.

Si la connexion internet est disponible, vous pouvez tlcharger un package de


Rcommander.
Packages >Installer le(s) package(s)

Slectionnez
le pays plus
proche, en cas
de
Madagascar,
Afrique

de

Sud

est
Slectionnez

recommand.

Rcmdr

et

Cliquez

sur

OK.

Tapez library (Rcmdr) dans R Console.

R Commander sera apparu.

Quand vous mettez le curseur


au

coin

de

la

fentre

Commander, vous changez la


taille de fentre.

Messages seront affichs avec


chaque lopration.

Donnes dans les packages


Quand vous installez R et Rcmdr, certaines donnes de packages aussi ont t
installes en mme temps. Pour voir et utiliser ces donnes, cliquez sur ;
Donnes > Donnes dans les packages > Liste des jeux des donnes dans les
packages

Donnes > Donnes dans les packages > Lire des jeux des donnes dans les
packages

Slectionnez le package et
donnes.
Mettez le nom de jeu de
donnes

Pour voir le contenu de donnes dans les packages, cliquez sur ;


Aide >Aide sur le jeu de donnes actif (si dispo.)

10

Importation des donnes


R Commander peut lire des donnes un ficher text(.csv), le presse-papier,
SPSS(.sav), donnes minitab, Excel , Access, dBase.
Donnez >Importation des donnes >depuis Excel, Acess ou dBase

11

Mettez le nom dun jeu de donnes : Par exemple< DRSP_AaG> et cliquez sur OK.

Chercherez vos donnes dans votre ordinateur.

Slectionnez le type de ficher


(Access, Excel) et cliquez
sur Ouvrir
Si vos donnes dAccess qui a plusieurs tableaux, vous devez slectionner un
tableau et cliquez sur OK.

Dans la case de Messages,


NOTE va expliquer nombre
de lignes (nombres des
chantillons) et nombres de
colonnes
(nombres
des
variables)

12

Si vous voulez voir le jeu des donnes, cliquez sur Visualiser.

Quand vous cliquez le triangle


en bas droite, vous allez voir
dautres variables.
Note : R va lire des donnes
non entre automatiquement
comme NA ou case vide.

Rsums des donnes du jeu des donnes


Pour voir des donnes entiers, cliquez sur ;
Statistiques >Rsums >Jeu de donnes actif

R vous demande la continuit, cliquez sur OK.

Dans la fentre de sortie, un rsum sera affich.


-Pour des donnes numriques/quantitatives, Min (Minimum), 1st Qu. (Premier
Quantile), Median (Mdian), Mean (Moyenne) ,3rd Qu. (Troisime Quantile) , Max
(Maximum) et NAs (Non Applicable) seront apparus.
-Pour des donnes catgoriques, nombre de chaque catgorie seront affichs.

13

Note : Certaines donnes sont traites comme numriques au lieu de donnes


catgoriques, il faut changer le type de donnes comme Facteurs (donnes
catgoriques). Par exemple, le type de ltude, nous voudrions savoir combien pour
2008 et combien pour 2011 mais pas Mdian, ni Moyennne. Il faut les changer pour
les donnes en facteurs.
Convertir des variables numriques en facteurs
R a deux types de variables ; variables numriques et facteurs.
Note : pour faire le tableau crois, il faut des variables en facteurs pour des donnes
traites.
Donnes > Grer les variables dans le jeu de donnes actif >Convertir des variables
numriques en facteurs

Pour la case de variables, slectionnez sur TYPEETUDE,

Cliquez sur OK

14

Ecrivez les noms de niveau. Et


cliquez sur OK.
Note : ici, nous avons crit les
nombres, mais ils vont les traiter
comme facteur (catgorie)
Vous vrifiez le changement avec la fonction de Rsums des donnes du jeu des
donnes

Exercices : vous allez changer le type de donnes pour des dautre donnes.
Recoder des variables
Quand nous voudrions compter le nombre par catgorie avec des donnes
numrique, il faut recoder des variables. Par exemple, on a besoin le nombre des
attributions par catgorie au lieu de Moyenne et Mdian.

Donnes > Grer les variables dans le jeu de donnes actif >Recoder des variables

15

Slectionnez une ou des


variables. Ex.ATTRIBUTIONS
Et mettez le nouveau nom.
Ex.Attribution_categorie.
Entrez
les
directives
de
recodage. Pour des donnes en
facteurs, il faut ajouter .
Et cliquez sur OK.

Pour la vrification de recodage, vous cliquez sur Visualiser.

Donnes

recodes

seront

apparues la fin de votre


tableau actif.

Pour la vrification de changement , cliquez sur ;


Statistiques >Rsums >Jeu de donnes actif

16

Dcouper une variable numrique en classe


Statistiques >Donne>Dcoder une variable numrique en classe

Slectionnez
Variables

dcouper. Ex. A2 POPTOTALE.


Et mettez le nom de la nouvelle
variable. Ex. POP11enClasse.
Fixez le nombre de classe. Ex.3.
Cliquez sur OK.
Si vous glissez ce buton, vous
pouvez changer le nombre de
classes.

Mettez des noms des classes,


Cliquez sur OK.

Pour la vrification, cliquez sur Visualiser.

17

Donnes en classes seront


apparues la fin de tableau.

Les tableaux croiss la main


Statistiques >Tables de contingence>Remplir et analyser un tableau double
entre
Vous pouvez changer nombre
de lignes et de colonnes en
glissant

les buttons.

Mettez des noms de variables


dans les case de 1, 2
et des
chiffres dans les cases vides.
Note : cette fonction est comme
STATCALC dEpi info.

18

Les tableaux croiss en double entre


Statistiques >Tables de contingence>Tableau double entre

Slectionnez une variable en


ligne. Ex. PROFESSION.
Slectionnez une variable en
colonne. Ex. POP11en classe.
Cliquez sur OK.

Une

case

de

Frquence

Escompt sera moins de 5, vous


couchez
Ficher.

19

sur

Test

exact

de

Tables de contingences avec tableau plusieurs entres


Statistiques >Tables de contingence>Tableau plusieurs entres

-Slectionnez une variable en


ligne. Ex. PROFFESSION.
-Slectionnez une variable en
colonne Ex. G11Collaboration.
-Slectionnez une ou plusieurs
variables de contrles. Ex.
POPenclasse.
NOTE : variables de contrle
vont stratifier le tableau 2x2
par chaque variable en facteur.

20

Fusionner des jeux de donnes


Tous dabord, il faut insrer le jeu de donnes que vous voulez ajouter.
Donnez >Importation des donnes >depuis Excel, Acess ou dBase

Mettez le nom dun jeu de donnes : Par exemple< DRSP_HaN> et cliquez sur OK.

Si vous cliquez la case cote de Donnes, deux tableaux seront apparus. Cliquez sur
Cancel si la slection est bonne.

21

Donnes > Fusionner des jeux de donnes

-Mettez le nom du tableau de


donnes fusionnes.
-Slectionnez le premier jeu et
le second jeu
-Slectionnez la Fusion des
colonnes.
-Cliquez sur OK.

Pour la vrification de la fusion des donnes, cliquez sur Visualiser.

22

Nom des cas


Donnes > Jeu de donnes actif > Nom des cas
Note : Quand vous avez fait la de saisie des donnes avec plusieurs tableaux (Access
etc), vous devez utiliser le mme code (ID) pour chaque donnes de tableaux
diffrents. Cependant R va importer des ordres des donnes diffrents que vous
avez fixs avec Access, car la fusion des jeux de donnes fait avec le nom de cas
(row.names), pas le champ commun.
Pour que deux

ou plusieurs tableaux se fusionner correctement, il faut utiliser la

fonction de <Nom de cas>.

23

24

Note pour 1er tableau, ID sera affich comme row.names.

25

Exporter le jeu de donnes actif


R peut exporter le jeu de donnes actif en tant que le fiche texte (.txt)
Donnes > Donnes de jeu actif > Exporter le jeu de donnes actif

Cliquez sur OK sil y a pas de


changement.

Vous allez indiquer un endroit


de sauvegarder des donnes.

26

Distribution de frquence
Statistiques > Rsum >Distribution de frquence
Vous peuvez compter des nombres et pourcentage de donnes en facteur et test
dajustement de Chi-Carre.

Slectionnez une ou plusieurs variables.

Si vous voulez faire un Test


dajustement au Chi-deux,
slectionnez une variable et
cochez la case de Test
dajustement.

Vous
allez
dfinir
les
probabilits dhypothse. Par
dfaut R peut calculer des
probabilits en fonction de type
de donnes.

27

df=Degrs

de

Libert

Utilisation de Fentre de Script


Si vous connaissez certains script de R comme sum( ) qui signe le total ou la somme,
vous allez directement crire des script directement dans la Utilisation de Fentre
de Script.

sum(nom de jeu de donnes


actif et ajouter $ et ensuite
nom de variable)
Ex.
sum(DRSP_AaG$A31ACSB1
PUBF)
Cliquez Soumettre.
Note :

si

vos

variables

contient NA, R ne peut pas


calculer le la somme.

28

Eliminer les cas contenant des valeurs manquants


Donnes > Jeu de donnes actif > Eliminer les cas contenant des valeurs
manquants

Dcochez la case de Inclure tout


si vos variables.
Slectionnez une variable et
mettez le nom du nouveau
tableau.
Quand vous cliquez sur OK, le
nouveau tableau sera apparu en
tant que le jeu de donnes actif.

Pour la vrification des donnes, cliquez sur Visualiser.

29

30

Graphe en camembert
Graphe >Graphe en camembert

Slectionnez une variable et cliquez


sur OK.

Pour sauver le graphe,


Ficher > Sauver sous > Png ou Jpeg

etc

31

Graphe en Nuage de points


Graphe > Nuage de points

Ligne des moindres carres

Montre ltendue

Courbe de lissage

32

Graphe en 3D
Graphe >Graphe en 3D> Nuage de points en 3D

Moindre carre linaire

Note : Si vous glissez le


curseur avec le clic gauche,
le graphe va se tourner.

33

Test de corrlation
Statistique >Rsum > Test de corrlation

Note. Cette exercice est cvec les donnes de table SDSP_AaG de SDSP final.(Access)

En cliquant Ctrl, vous devez slectionner deux variables.


Pour le Type de corrlation, si votre variables sont comme la distribution normale,
vous utilisez Coefficient de Person, si non coeffcient de Sepearman. Taux de Kendall
est moins utilis par rapport de deux mthodes.
Pour Hypothse alternative, vous slectionnez

Bilatral.

Cor signifie le coefficient de corrlations. Cor =r=0.1525174 est trs faible


corrlation.
Pour une vrification de la corrlation, vous allez crer le graphe de nuage des
34

points.
r
0,2
0,4

r
r

0, 7
1,0

0,2
0,20,2
r

0,40,4
0,7 0,7

Coef icient de corr

corrlation trs faible


0,4 corrlation faible
0,7correlationmoyennementforte
1,0 corrlation forte

Vrifiez

sur

la

moindres carres

35

ligne

des

Test de normalit de Shapiro Wilk


Statistiques > Rsum > Test de Normalit de Sapiro Wilk

Comme la value de P >0,05(P=0,8718), on ne peut pas dire que cette variable ne suit
pas la distribution normale Si bien que vous utiliser le test paramtrique.
On va vrifier cette distribution avec une graphe.
Graphe>Histogramme

36

Le

graphe

est

comme

distribution normale.

37

la

Test F de deux variances


Avant que deux comparer deux moyennes, vous devez vrifier que variables cibles
suivent la distribution normale
sont gales ou pas (Test

(Test de normalit de Sapio Wilk )et les variances

F de deux variances) . Nous voudrions comparer les

moyens de temps en tant que le responsable VIH par profession au niveaux de


DRSP.

38

Comme le rsultat de F test de Variance, on prend une hypothse alternative


<variance nest pas gal>, il faut faire le test de Welch.

Test de Welch
Test de Welch est inclus dans t-test indpendant.
Statistiques > Moyennes > T Test indpendant

Nous avons fait le test de


variance (test F de deux
variance) et rsultat est que
variances ne sont pas gales.
Vous cliquez sur NON.
Attention !
Par dfaut, variance gales :
NON.
Quand vous cliquez sur OUI,
R

va

calculer

indpendant :

39

Test

Test

de Wilcoxon bivari

(Test non paramtrique pour comparer deux

moyennes (Mdians)
Nous voudrions comparer la moyenne de deux groupes de FS (2008 et 2011) pour la
ralisation de dpistage du VIH en 2011.

Cette

variable

ne

se

ressemble avec la distribution


normale.

40

Le rsultat de test de Sapiro Wilk est


P<0,05 si bien que cette variable ne
suit pas la distribution normale.

41

Note : Le test non paramtrique ne montre pas la moyenne mais le mdian


variables ne suit pas la distribution normale.

42

car les

R commander Personnalis
Vous pouvez personnaliser R commander
et le fichier Rcmdr-menus.

en modifiant le fichier MyProgramme.R

Si vous ne connaissez pas des programmations ou

Rcmdr, il vaux mieux consulter cette partie quelquun qui connaisse R commander
et/ou programmation.

Si vous avez des fichiers de MyProgramme.R et

Rcmdr-menus qui ont dj personnalis, vous les copiez et coller dans le dossier
avec Rpertoire : MyDocement>R>win-library>2.13>Rcmdr>etc ou Programme
files>R>library>2.13>Rcmdr>etc.

Si vous ouvrerez Rcmdr-meus, le contenu va sapparaitre comme ci-dessous ;


Si vous modifiez Rcmdr-menus, menus peuvent tre chang.

Si vous ouvrerez MyProgramme.R,

le contenu va sapparaitre comme ci-dessous ;

Si vous modifiez Myprogramme R,

des programmes peuvent tre chang


43

Avec notre atelier du 29 aout au 2 septembre 2011, nous avons ajout les fonctions
de

Somme

des

donnes,(Statistiques

>Ajouter

>Sommes

des

Donnes) ,Histogramme Stratifi(Graphes >Ajouter > Histogramme Stratifie) ,


Histogramme Stratifi 2(Graphes >Ajouter > Histogramme Stratifie2), Diagramme
de

transition

individuelle(Graphes

>Ajouter

>Diagramme

de

transition

individuelle), Rgression de Cox(Statistiques >Ajustement de Modles >Rgression


de Cox) dans R commander.

44

ANNEXE :

Test statistique de base et R commander

45

Type de donnes

46

Schma de test statistique 1

47

Schma de test statistique 2

48

Distribution T

49

Distribution Chi-carre

50

S-ar putea să vă placă și