Sunteți pe pagina 1din 78

CENTRE UNIVERSITAIRE PROFESSIONNALISE

CUP

BIOMETRIE : TRAITEMENTS
STATISTIQUES DES DONNEES

Prof. EDIA Oi Edia


Maître de Conférences
Université Nangui Abrogoua
Pôle Pêche et Aquaculture / UFR SGE
Laboratoire d‟Environnement et de Biologie Aquatique
Email: square_edia@ymail.com / ediaoi_sge@una.edu.ci
Objectifs du cours

 Acquérir et/ou parfaire la connaissance des


principales notions relatives à l‟utilisation des
méthodes statistiques

 Pratiquer les calculs statistiques et l‟analyse des


données avec le logiciel statistique R

2
Statistique : de quoi parle-t-on?

La statistique : science dont l'objet est de recueillir,


de traiter et d'analyser des données issues de
l'observation de phénomènes aléatoires, c'est-a-dire
dans lesquels le hasard intervient.

L'analyse des données est utilisée pour décrire les


phénomènes étudiés, faire des prévisions et prendre
des décisions à leur sujet.
3
Statistique : de quoi parle-t-on?

la statistique : outil essentiel pour la compréhension


et la gestion des phénomènes complexes.

Les données étant de toute nature, la statistique


utile dans tous les champs disciplinaires, de
l‟économie à la biologie en passant par la géologie,
et bien d‟autres sciences.
4
Statistique : de quoi parle-t-on?

Point fondamental: les données sont entachées


d'incertitudes et présentent des variations pour
plusieurs raisons :
 le déroulement des phénomènes observés n'est pas
prévisible à l'avance avec certitude (e.g. on ne peut pas
prévoir avec certitude les pannes des voitures)
 toute mesure est entachée d'erreur
 seuls quelques individus sont observés et on doit
extrapoler les conclusions de l‟étude à toute une
population (contexte des sondages)
etc... 5
Statistique : de quoi parle-t-on?

L'objectif essentiel de la statistique : maîtriser au


mieux cette incertitude pour extraire des
informations utiles des données, par l'intermédiaire
de l'analyse des variations dans les observations

6
Importance de la statistique

 Dualité monde réel – nombres Monde réel (biologie) Monde virtuel numérique
(mathématiques/statistiques)
Question:
le vaccin protège-t-il
 Exemple 1 : expérience de Pasteur sur la contre la maladie?
vaccination de moutons contre la maladie du
charbon. Planification de
l’expérience
Réponse Vaccin Pas de vaccin
Expérience: Acquisition
(test) (témoin) 24 moutons vaccinés de données Tableau
24 moutons non vaccinés numérique
mort 0 24 tous inoculés (données brutes)

survivant 24 0 Analyse des résultats

% survie 100% 0% Interprétation, phase II: Interprétation, phase I:


signification biologique analyse numérique

 Ici, la réponse est claire


 => pas besoin des statistiques!
Réponse:
le vaccin protège
 C’est rarement le cas en sciences contre la maladie!
7
Importance de la statistique
Monde réel (biologie) Monde virtuel numérique
 Exemple 2 : incidence de E. coli sur le Question: les souris
(mathématiques/statistiques)

cancer du foie chez la souris. développent-elles plus


facilement un cancer
en présence d‟E. coli?
Planification de
Réponse E. coli Sans l’expérience

(test) (témoin) Expérience: Acquisition


13 souris avec E. coli de données Tableau
tumeur 8 19 49 souris sans E. coli numérique
dénombrement des tumeurs (données brutes)
sain 5 30

% sain 38% 61% Statistiques

Analyse des résultats


Ici, la réponse est moins claire
Interprétation, phase II: Interprétation, phase I:
signification biologique analyse numérique

=> les statistiques sont indispensables pour


Réponse:
pouvoir répondre à la question de manière ???
impartiale et satisfaire le plus sceptique ! 8
Importance de la statistique

 Le sceptique est un type malin,


qui vous veux du mal.

 Il a l‟air gentil, mais il ne vous


laissera jamais le bénéfice du
doute !

 L‟objectif est de ne pas lui


laisser la moindre faille logique
qui lui permettrait de remettre en
cause vos résultats
9
Pourquoi faire des statistiques ?

Variabilité : Une expérience donne rarement un


résultat tranché ou parfaitement
reproductible.
Quantité : Les nouvelles technologies permettent
de recueillir des quantités
pharamineuses de données.

10
Utilité des statistiques
Les statistiques : outil permettant de répondre à de
nombreuses questions

Exemples :
 Quelle est la fiabilité d'une mesure ou d‟une
observation ?
 Les conditions expérimentales A sont-elles plus
efficaces que celles des conditions de B ?
 Les effets de la variable A sont-ils différents de
ceux de la variable B ?
11
Rappels : terminologie de base
 Variable : grandeur mesurée (X).

 Individu ou cas : entité sur laquelle une ou plusieurs


observations sont réalisées.

 Observation : mesure particulière d‟une variable (xi) sur


un individu ou cas

 Echantillon : sous-ensemble de la population statistique


constitué des observations réalisées. Le processus de
création d‟un échantillon se nomme échantillonnage.
12
Echantillon vs. population

13
Types de variables
 Variables qualitatives : variables à valeur non numérique et
codées
o Non ordonnées (nominales): sans ordre particulier, un
simple nom. Ex : couleur, forme
o Ordonnées (ordinales): avec un ordre, un peu,
beaucoup… Ex : couverture végétale
 Variables quantitatives :
o Continues pouvant prendre un nombre infini de valeurs
Ex: la taille d'un individu
o Discrètes ne pouvant prendre qu'un nombre fini de
valeurs. Ex : nombre de jambes d‟un individu
14
Types de Statistiques

Deux branches de statistiques

 Statistiques descriptives (Déduction): méthodes


numériques, graphiques, et tabulaires pour
organiser et résumer les données

 Statistiques inférentielles (Induction): Méthodes


pour généraliser sur la population à partir de
l‟échantillon.
15
Démarche d’une étude idéale

1. Définir la population qui vous intéresse

2. Echantillonner aléatoirement des sujets étudiés

3. Mesurer des variables sur chaque sujet

4. Sur les données obtenues, utiliser des statistiques


pour estimer les inférences sur la distribution

16
Données quantitatives Données qualitatives

Partiellement transformées Conservées sous


en données quantitatives forme qualitative

Sélectionner les techniques


statistiques les plus adaptées

Exploiter les données sous


leur forme narrative ou
Techniques Techniques
visuelle d‟origine
descriptives ou inférentielles
exploratoires

Appliquer les techniques


statistiques sélectionnées

Interpréter et discuter
les résultats
17
Statistiques descriptives

Statistiques descriptives sont utilisées pour


condenser et résumer les données collectées.
• 3 possibilités :
– 1. Tables
– 2. Graphes ou figures
– 3. paramètres statistiques : réduction des données
en une seule valeur
18
Statistiques descriptives

Tables
• Deux types de tables sont fréquemment utilisés
en statistiques descriptives
– 1.) Table des fréquences: Fréquence est le nombre
d‟observations correspondant à une catégorie
– 2.) Graphe en tige et feuille

19
Statistiques descriptives

Figures
• Boxplot (boîte à moustache) : la figure qui
communique le plus d‟informations sur les données :
centres, étendue des données, présence des extrêmes ...
• Histogramme
• Diagramme en bâton
• Polygone de fréquence
…. 20
Statistiques descriptives

Boxplot valeur extrême


 La boite de dispersion

50
max
(boxplot) permet de
représenter graphiquement 1.5 . IQR

40
maximum
cinq nombres résumant au
mieux les données. Q3

30
médiane IQR
 Les valeurs extrêmes 20

(outliers) s‟étendent plus Q1


loin que 1.5 fois l‟espace
10

interquartile depuis le
quartile le plus proche (bord min
de la boite).

21
Statistiques descriptives

Paramètres statistiques

Objectif : représenter des données dont on veut


connaître les principales caractéristiques
quantifiant leur variabilité.
Elle utilise à cet effet deux grands groupes de
paramètres : les paramètres de tendance centrale et
ceux de dispersion.
22
Statistiques descriptives

Paramètres de tendance centrale


Moyenne : somme de toutes les valeurs d‟une
variable rapportée à l‟effectif
Médiane : valeur pour laquelle la moitié (50%) des
observations (lorsque celles-ci sont rangées) se
situe au dessus de cette valeur et l'autre moitié se
situe en dessous.
Mode : valeur qui se produit avec la plus grande
fréquence.
23
Statistiques descriptives

Paramètres de dispersion
Etendue : L‟étendue d‟une variable s‟obtient en
faisant la différence entre les valeurs maximum
et minimum de cette variable.
Variance : une mesure arbitraire servant à
caractériser la dispersion d‟un échantillon ou
d‟une population. La variance est toujours
positive ou nulle. 24
Statistiques descriptives

Paramètres de dispersion
Ecart-type : Il mesure la dispersion ou l‟étalement
d‟une série de valeurs autour de leur moyenne.
C‟est la racine carrée de la variance

Erreur-type de la moyenne : l'écart-type théorique


de toutes les moyennes d'échantillons de taille n
extraites à partir d'une population et dépend de la
variance de la population et de la taille
d'échantillon (n).
25
Statistiques descriptives

Paramètres de dispersion
Quantile : nombre xp tel qu'une proportion p des
valeurs de l‟échantillon soit inférieure ou égale à
xp.
Ex : le quantile 0,25 (centile 25% ou 1er quartile)
d'une variable est une valeur (xp) telle que 25%
(p) des valeurs de la variable se situent en dessous
de cette valeur. 26
Statistiques descriptives
Présentation graphique des données
Donnés Donnés
quantitatives qualitatives

Continues Discrètes Catégorielles Ordinales

- Histogramme -Diagramme -Diagramme en -Diagramme en


- Polygone de en bâton bâton bâton
Fréquence - Camembert - Camembert - Camembert
-Diagramme en - Graphe en -Graphe en tige
point tige et feuille et feuille
- Boxplot - Table de
contingence
27
Statistiques descriptives
Paramètres statistiques

Donnés Donnés
quantitatives qualitatives

Distribution Distribution
normale Non normale Mode

- Moyenne -Médiane
- Variance - Rang
-Ecart-type - Distribution
interquartile

28
Statistiques inférentielles

Objectif : réaliser des inférences et des prédictions à


partir des données rassemblées.

Existence de nombreuses techniques inférentielles


permettant de tester des hypothèses en comparant des
moyennes, des variances, des rangs (test de
comparaison) ou encore de vérifier le lien entre des
variables (corrélation et régression). 29
Tests de comparaison

Objectif : Evaluer la variation d‟un paramètre d‟un


échantillon à un autre
L‟utilisation des tests de comparaison nécessite :
*Formulation de l‟hypothèse nulle (H0) et
son hypothèse alternative (H1)
* Détermination du seuil de signification du
test (alpha). Seuils couramment utilisés sont 5
% (significatif), 1% (très significatif) et 0,1 %
(hautement significatif)
30
Tests de comparaison
H0 : hypothèse de la NON DIFFERENCE
H1 : hypothèse de la DIFFERENCE

Test de comparaison

P < 0.05 P > 0.05


Test significatif Test non significatif
(Différence significative) (Différence non significative)
Rejeter H0 Accepter H0
Accepter H1 Rejeter H1

31
Tests de comparaison

Deux groupes de tests


* tests paramétriques
* tests non-paramétriques
Le choix d‟un ces tests suit un certains nombre de
critères. Les fondamentaux sont la distribution
des observations, la taille de l‟échantillon et
souvent l‟homogénéité des variances

32
Synthèse des tests de comparaison
Non paramétrique Paramétrique
Variance égale Variance différente

Wilcoxon Test t appariées ?

2 objets

Mann-Whitney Test t Test de Cochran

Friedman ? ?

Kruskall-Wallis ANOVA ?

33
Analyses exploratoires / Analyses multivariées

Les analyses multivariées se partagent en deux


grandes classes :
 les méthodes d'ordination, qui ordonnent les
objets selon des gradients,
 les méthodes de classification, qui classent les
objets dans des groupes

34
Analyses multivariées

Méthode d‟ordination
Un fichier de données, que ce soit des abondances
d'espèces, des mesures chimiques ou des mesures
biométriques, est constitué d'objets (les lignes) et de
variables (les colonnes)
Chaque variable est une dimension de l'espace
multivarié original dans lequel sont positionnés les
objets 35
Analyses multivariées

Méthode d‟ordination
Le but : représenter les objets étudiés dans un nouvel
espace caractérisé par un nombre réduit de
dimensions orthogonales, et donc indépendantes les
unes des autres

Ces nouvelles dimensions (axes principaux), dont


l'ordre est déterminé par l'importance de
l'information originale qu'ils expliquent 36
Analyses multivariées : Méthodes d’ordination

Analyse en Composantes Principales (ACP)

L‟ACP est particulièrement destinée à la


représentation de fichiers de variables quantitatives

L‟ACP tient compte des doubles absences, i.e.


l'absence d'une variable dans deux relevés contribue à
leur similitude.

37
Analyses multivariées : Méthodes d’ordination

Interprétation ACP
quelques règles pour l'interprétation :

- Un individu sera du côté des variables pour


lesquelles il a de fortes valeurs, inversement il sera
du côté opposé des variables pour lesquelles il a de
faibles valeurs.

- Plus les valeurs d'un individu sont fortes pour une


variable plus il sera éloigné de l'origine suivant l'axe
factoriel décrivant le mieux cette variable.
38
Analyses multivariées : Méthodes d’ordination

Interprétation ACP
- Deux individus à une même extrémité d'un axe (i.e.
éloignés de l'origine) sont proches (i.e. se
ressemblent).
- Deux variables très corrélées positivement sont du
même côté sur un axe.
- Impossible d'interpréter la position d'un individu par
rapport à une seule variable, et réciproquement,
impossible d'interpréter la position d'une variable par
rapport à un seul individu. Les interprétations doivent
se faire de manière globale. 39
Analyses multivariées : Méthodes d’ordination

Analyse Factorielle des Correspondances (AFC)

Cette analyse est spécifique à l'étude de la structure de


tableaux de contingence ou tableaux de fréquence

L‟AFC cherche à mettre en relation les descripteurs


des lignes et des colonnes d'un tableau

40
Analyses multivariées : Méthodes d’ordination

Interprétation AFC
Pour une bonne interprétation :

- Choisir le nombre d'axes de projection à étudier. Ce


choix peut se faire par la même approche que celle
décrite pour l'ACP.
- Etudier les valeurs propres. Les valeurs propres
proches de 1 traduisent une forte liaison entre les
lignes et les colonnes.
- Etudier la contribution des lignes et des colonnes
de la même façon que pour l'ACP.
41
Analyses multivariées : Méthodes d’ordination

Interprétation AFC

- Etudier les coordonnées des éléments actifs :

• ceux qui présentent une forte contribution,


• les extrêmes avec une forte qualité de
représentation (pour qualifier le facteur).

42
Analyses multivariées : Méthode de classification

classification hiérarchique
Les méthodes de classification visent à décrire la
structure générale d'un fichier de données en
appréciant la similarité entre les objets
La première étape de ces méthodes : la constitution
d'une matrice de similarité ou de distance

Il existe une diversité d‟indices de similarité ou de


distance 43
Analyses multivariées : Méthode de classification

classification hiérarchique

On peut utiliser les indices binaires, de JACCARD et


de SØRENSEN pour les données de
présence\absence ou des données qui ne contiennent
que 1 et 0

Parce que tous ceux-ci ne tiennent pas compte des


doubles zéros pour établir la similarité
44
Analyses multivariées : Méthode de classification

classification hiérarchique

Pour les données quantitatives telles que les valeurs


de pH, de température, la distance euclidienne et les
indices de GOWER, de STEINHAUS et de
KULCZINSKI sont plus adaptés

45
Présentation de R

R est un système qui est communément appelé


langage et logiciel, il permet de réaliser des analyses
statistiques.

R a été initialement crée par Robert Gentleman et


Ross Ihaka du département de statistique de
l'Université d'Auckland en Nouvelle Zélande.

Depuis 1997, il s'est formé une équipe qui fait les


éventuelles mises à jour de R 46
Présentation de R

R est disponible gratuitement sur internet à travers


un ensemble de sites dénommé CRAN
(Comprehensive R Archive Network).

Le site maître du CRAN est situé en Autriche à


Vienne. Ce site est accessible par l'URL :
http://cran.r-project.org/
Pour télécharger R, il est conseille d'accéder au site
miroir le plus proche géographiquement de l'endroit
de votre connexion.
47
Présentation de R

Récemment il a été développé une interface très


conviviale appelée R studio qui permet d‟utiliser R.
L‟utilisation de cette interface nécessite l‟installation
préalable de R.

48
Pourquoi R?
 la gratuité ;
 l'utilisation de plus en plus répandue dans
l'enseignement supérieur et les organismes de
recherche ;
 un langage de programmation interactif facile à
apprendre
 une bibliothèque de fonctions très fournie,
rassemblées dans des “packages” 49
PASSONS À QUELQUES
CAS PRATIQUES

50
Statistiques descriptives / Graphes

1. Variables quantitatives

Variables discrètes et variables continues

La distinction entre ces deux types est un peu artificielle


puisque les variables continues stricto sensu n'existent pas
à cause de la précision limitée des instruments de mesure.

Exemple : Fichier cup illustrant la taille des étudiants


. 51
Statistiques descriptives / Graphes

Variables discrètes et variables continues

Utilisons un histogramme pour représenter ces données.


data=read.table(«cup.txt", sep="\t", header=T)
attach(data)
names(data)
hist(Height, main = paste("Taille de", nrow(data),
"Etudiants"), xlab = "Taille [cm]",ylab = "Effectifs",
labels = TRUE, las = 1, ylim = c(0, 10)) 52
Statistiques descriptives / Graphes

Variables discrètes et variables continues

Nous avons utilisé


ici des fréquences
absolues,

53
Statistiques descriptives / Graphes

Variables discrètes et variables continues


Nous avons utilisé ici des fréquences relatives (proba=TRUE)
hist(Height, main = paste ("Taille de", nrow(data),
"Etudiants"), xlab = "Taille [cm]", proba=T)

54
Statistiques descriptives / Graphes

Variables discrètes
Quand la nature discrète de la variable étudiée ne fait pas de
doute, on utilise en général un diagramme en bâtons :
Exemple : Fichier cup1 illustrant les notes des étudiants
data=read.table(«cup1.txt", sep="\t", header=T)
attach(data)
names(data)
plot(table(note), main = paste("Notes de",
nrow(data),"Etudiants"),las = 1, xlab = "note", ylab =
"Nombre d'Etudiants")
55
Statistiques descriptives / Graphes

Variables discrètes

56
Statistiques descriptives / Graphes

Variables discrètes
Les paramètres graphiques lend (line end : n des lignes) et
lwd (line width : épaisseur des lignes) permettent de
contrôler l'aspect terminal des bâtons et l„épaisseur des
bâtons :
plot(table(note), main = paste("Notes de",
nrow(data),"Etudiants"),las = 1, xlab = "note", ylab =
"Nombre d'Etudiants", lwd = 5, lend = "square")
57
Statistiques descriptives / Graphes

Variables discrètes

58
Statistiques descriptives / Graphes

Variables continues

Nous avons déjà vu l'utilisation pour les variables continues


des histogrammes. On peut également utiliser une
représentation en boîte a moustaches (boxplot):
Revenons au fichier cup illustrant le rythme cardiaque des
étudiants

59
Statistiques descriptives / Graphes

Variables continues
data=read.table(«cup.txt", sep="\t", header=T)
attach(data)
names(data)
boxplot(Pulse, main = paste("Rythme cardiaque de",
nrow(data), "Etudiants"),ylab = "Pulsations/minutes", las =
1)

60
Statistiques descriptives / Graphes

Variables continues

61
Statistiques descriptives / Graphes

Variables continues
Les boîtes a moustaches permettent de comparer facilement
des groupes d'individus, par exemple ici les garçons et les
filles :
boxplot(Pulse~Sex, col = c("lightpink","lightblue"), main =
paste("Rythme cardiaque de", nrow(data), "etudiants"),
ylab = "Pulsations/minutes", las = 1)

62
Statistiques descriptives / Graphes

Variables continues

63
Statistiques descriptives / Graphes

Variables continues

Pour ce qui est de la taille on trouve que les garçons sont


significativement plus grands que les filles.
boxplot(Height~Sex, col = c("lightpink","lightblue"), main
= paste("Taille de", nrow(data), "Etudiants"), ylab =
"Taille(cm)", las = 1)

64
Statistiques descriptives / Graphes

Variables continues

65
Statistiques descriptives / Graphes

Variables qualitatives nominales ou non ordonnées


Nous allons illustrer le cas des variables qualitatives non
ordonnées avec un jeu de données (cup2) portant sur 25
Etudiants.
Pour chaque Etudiant on a observe 3 variables qualitatives :
la couleur des cheveux, la couleur des yeux et le sexe.

66
Statistiques descriptives / Graphes

Variables qualitatives nominales ou non ordonnées


Intéressons nous à la couleur des cheveux. On peut
représenter les données sous la forme d'un diagramme en
secteurs avec la fonction pie() :
data=read.table(«cup2.txt", sep="\t", header=T)
attach(data)
names(data)
pie(table(cheveux),col=c("yellow","chocolate4","black","ora
ngered"),main = paste("Couleur des cheveux de",
nrow(data), "Etudiants"))
67
Statistiques descriptives / Graphes

Variables qualitatives nominales ou non ordonnées

68
Statistiques descriptives / Graphes

Variables qualitatives ordonnées


Cette représentation peut être utilisée sur les variables
qualitatives ordonnées.

La règle est simple : les graphiques doivent


impérativement le respecter l‟ordre imposé par les
données.

69
Statistiques descriptives / Graphes

Variables qualitatives ordonnées


Illustration avec le jeu de données Titanic disponible sur R.

Les passagers du Titanic


pouvaient voyager en première
classe (1st), en seconde classe
(2nd) ou en troisième classe (3rd).
La variable classe est donc une
variable qualitative ordinale dont
les trois modalités sont 1st, 2nd et
3rd.
70
Statistiques descriptives / Graphes

Variables qualitatives ordonnées


data(Titanic)
Titanic
classe = apply(Titanic, 1, sum)[1:3]
Classe
1st 2nd 3rd
325 285 706

Il y avait donc 325 passagers en première classe, 285 en


seconde classe et 706 en troisième classe.

pie(classe) 71
Statistiques descriptives / Graphes

Variables qualitatives ordonnées

Horreur ! La première classe


jouxte la troisième classe !

Il faut nécessairement réorganiser les données afin


de respecter l‟ordre ou simplement utiliser autre
graphe (Diagramme de Cleveland) qui préserve
l‟ordre 72
Statistiques descriptives / Graphes

Variables qualitatives ordonnées


dotchart(rev(classe), main="Classe des passagers du
Titanic", pch = 19,xlim = c(0,max(classe)))

Diagramme de
Cleveland

73
Statistiques descriptives

Paramètres statistiques

Revenons au fichier cup


La fonction summary () résume les paramètres statistiques
data=read.table("pasres.txt", sep="\t", header=T)
attach(data)
Summary(data)

74
Tests de comparaison

 Connaitre la nature des données (nombres d‟objets,


appariées ou indépendantes)
 Evaluer la distribution des données (shapiro.test)
 Choisir le test
 Emettre les hypothèses
 Choisir le seuil de signification
 Lancer le test

75
Tests de comparaison

Différents cas pratiques utilisant les tests


indiqués plus haut à réaliser avec le
logiciel R

76
Analyses multivariées

Différents cas pratiques utilisant l‟ACP,


l‟AFC et l‟ACH à réaliser avec le logiciel
R

77
78

S-ar putea să vă placă și