Sunteți pe pagina 1din 10

Classification et Analyse de donnes Introduction

I - Introduction
Le terme d'analyse des donnes recouvre en fait diverses mthodes partir desquelles on collecte, organise,
rsume, prsente et tudie des donnes pour permettre den tirer des conclusions et de prendre des dcisions.
Mais quoi donc servent toutes ces donnes ? Les donnes servent obtenir de linformation, et linformation sert
dcider, agir.

Exemples :
1 - Le mdecin analyse les donnes dun patient pour effectuer un diagnostic et tablir une ordonnance
2 - le politique analyse les donnes conomiques pour connatre la situation et dcider dactions
3 - le qualiticien analyse les donnes dun produit pour le tester et tablir un plan damlioration de la qualit
4 le gestionnaire analyse les donnes comptables pour connatre ltat financier de son entreprise et pour
proposer, par exemple, des rductions de dpenses,.
Nous ne pouvons donc pas chapper aux donnes. Mais pour passer des donnes aux informations et de
linformation la dcision, il faut de la mthode.

II - Mthodologie de linformation
Lanalyse des donnes est un processus qui met en jeu une mthodologie possdant les lments principaux
suivant :

1
Classification et Analyse de donnes Introduction

II-1 : Etape initiale :


a - Etude de la situation existante
b Dtermination des objets atteindre
c Quels types de donnes sont ncessaires ?
d Quels types de traitements sur les donnes peuvent tre envisags ?

II-2 : Dfinition des objectifs atteindre :


II-3 : Etude des donnes existantes :
Cette tude permet de fixer ce que lon sait avant daller plus loin.

II-4 : Conception des donnes :


a Dfinition des variables
b Dfinition des entits
c Dfinition des priodes de temps uniquement pour les situations tudies qui mettent en jeu le temps

II-4.a : Dfinition des variables :


Une variable est toute caractristique dune personne ou dune chose qui peut tre exprime par un nombre.
La valeur de la variable est le nombre rel qui dcrit une personne ou une chose particulire. On distingue
deux types de variables : les variables quantitatives et les variables qualitatives dites aussi variables de
catgories.
Une variable quantitative prend des valeurs numriques pour lesquelles les oprations arithmtiques telles
que la diffrences et moyennes ont un sens.
Une variable qualitative est exprime sous forme de catgories dsignes elles-mmes par des nombres.
Ces nombres sont utiliss uniquement pour des raisons de facilit informatique (codage dune variable
qualitative). Mais aucune opration du type de celles qui sont possible pour les variables quantitatives nest
possible. Inventorier les variables associables un objectif atteindre ncessite une mthode (Exemple :
Diagramme dIshikawa : Il sagit, en rsum, de considrer lobjectif atteindre (appel effet dans la
mthode) et dinventorier toutes les variables qui sont en relation avec lobjectif (ces variables sont
appeles causes dans la mthode). Ensuite, chaque variable est elle mme considre comme un objectif
auquel on va associer de nouvelles variables ; et ainsi de suite jusqu la dfinition globale du domaine
tudi.
II-4.b : Dfinition des entits :
Il faut dfinir sur qui ou quoi les variables seront observes. Les personnes ou les choses observs sont
appeles entits (on les appelle aussi units statistiques, units de populations, individus, etc.). Dfinir des
entits consiste dfinir une population (dindividus ou de choses) de rfrence. Cette population de
rfrence doit elle-mme tre caractrise par des variables de contrles qui permettent de slectionner la
bonne population. Par exemple, la population des femmes de nationalit franaise de plus de 18 ans est
dfinie par trois variables de contrles : le sexe (fminin) ; la nationalit (franaise) ; lage (suprieur 18
ans). Ces variables dites de contrle sont essentielles dans la dfinition des donnes.
2
Classification et Analyse de donnes Introduction

II-4.c : Dfinition des priodes :


Certaines donnes doivent tre suivies au cours du temps. Cest le cas des indicateurs de tableaux de bord
ou des panels de consommateurs par exemple. Cest le cas de toutes donnes o lintention est de prvoir.
Les priodes sont souvent imposes par les donnes elles-mmes et par les objectifs.
II-5 : Dfinition des traitements :
II-5.a : traitements de production de donnes
- Le relev exhaustif : exemple : les recensements de population
Problmes : qualit des donnes (plan de chiffrement, plan de saisie par des oprateurs, absence de
renseignements, incohrence des renseignements,)
De la qualit des donnes dpendra la qualit de la dcision finale. Que peut faire un dcideur qui
il manquerait 20 % de linformation dont il a besoin ? La mise en place dun systme ncessite une
mise en uvre de contraintes svres sur la production de donnes. La connaissance des mthodes
dcrites dans les chapitres ultrieurs permettra linformaticien de rendre compte de lintrt pour
lentreprise de la qualit des donnes.
Le relev par sondage : on opte ce type de sondage quand on ne peut pas effectuer de relevs
exhaustifs. Le relev par sondage ncessite la mise en uvre des techniques mathmatiques
particulires dites techniques dchantillonnage (hors module). Le relev par sondage ncessite
galement la mise en uvre denquteurs, le choix de procdures denqutes (en face face,
enqute postale, enqute par tlphone), puis selon les cas un plan de saisie effectuer et de trs
nombreux contrles. Dans cette situation, cest la qualit des donnes qui est le point central de la
production.
II-5.b : Les traitements des gestion des donnes :
- Le relev exhaustif : Correspond la direction informatique et la gestion de la qualit des
donnes.
- Le relev par sondage : Faite par des statisticiens qui connaissent la valeur des donnes et
lusage quon peut en faire.
II-5.c : Les traitements dexploitation des donnes :
Cest pour orienter la dfinition des donnes ou la gestion des donnes par les dpartements
informatiques. Connatre les mthodes dexploitation des donnes permet de contrler le
chiffrement des donnes et dtre sr que les donnes dont on a besoin seront effectivement
prsentes dans la base de donnes au moment voulu.
II-6 : Collecte des donnes :
- Le relev exhaustif : lopration principale est la saisie dinformation par les oprateurs et plus
particulirement le contrle des donnes dites manquante. (une information manquante, ou mal
renseigne,est plus quune faute : cest un dsastre pour les dcideurs et enfin de compte pour
lentreprise.

- Le relev par sondage : on rappelle les principales oprations :


Raliser un plan denqute ou de sondage avec chantillonnage ou non selon les cas,

Slectionner les enquteurs,


3
Classification et Analyse de donnes Introduction

Former les enquteurs,


Raliser le questionnaire,
Contrler le questionnaire,
Remettre le questionnaire aux enquteurs,
Collecter des informations sur la qualit des donnes
Valider les questionnaires remplis,
Payer les enquteurs sur la base denqutes valides, etc.
II-7 : Saisie ou import de donnes : On met laction sur la saisie informatise ou limport informatis des
donnes.
II-8 : Contrle des donnes :
Malgr tous les contrles raliss et toutes les prcautions prises, on effectue ce niveau un rcapitulatif final de
linformation avant quelle puisse tre mise en gestion dfinitive et quelle tre disponible pour lutilisateur final.
Cest ce niveau que les corrections derreurs doivent tre faites.
II-9 : Gestion des donnes :
Pour un utilisateur final, les donnes doivent tre fiables, et prtes lemploi. On distingue, dune part, la gestion
ralise par ladministrateur de donnes et, dautre part, la prparation des donnes destine aux utilisateurs finaux.
Les principales oprations de gestion des donnes par ladministrateur sont la mise jour du dictionnaire des
donnes avec toutes les informations utiles aux utilisateurs finaux, la mise jour des donnes elles-mmes, les
contrles de qualit, de cohrence de linformation, la prparation de donnes agrges ou des indicateurs, la
prparation des donnes pour les utilisateurs finaux, la diffusion des donnes par des moyens appropris.

4
Classification et Analyse de donnes Introduction

II-10 : Accs aux donnes par lutilisateur :


Linformatique donne lutilisateur la possibilit daccder linformation dont il a besoin avec la sous-utilisation
des mthodes danalyse des donnes. Pour cette raison le choix de bons logiciels daccs aux donnes est essentiel.

II-11 : Analyse immdiate des donnes :


On entend par analyse immdiate des donnes celle qui peut tre faite par lutilisateur-dcideur lui-mme. Cette
analyse est guide par une suite dinterrogations, par exemple : quelles sont les valeurs de tel ou tel indicateur ? A
quelles entits correspondent les valeurs extrmes ? Quelles taient les valeurs du mois prcdent ? Y a-t-il eu
progression de la moyenne ou des valeurs quartiles ? Y a-t-il une relation entre tel indicateur et tel autre ? Quelles
sont les entits hors modle ? Y a-t-il les mmes relations quand on prend des critres de segmentation de
population diffrents ? Lanalyse des donnes suit ici un processus itratif fait denchanements de questions et de
rponses. Les logiciels actuels permettent aux utilisateurs de dialoguer avec les donnes grce des fonctions
dinteractivit. Lutilisateur suit alors une dmarche qui peut se dcrire ainsi : slection dun ensemble de
donnes, slection de vues crant des sous-ensembles particuliers de donnes selon des critres de segmentation,
exploration et visualisation interactive des donnes, dition des graphiques et des tableaux jugs pertinents. Toutes
les mthodes danalyse des donnes peuvent tre utilises selon cette dmarche, de la plus lmentaire ; quelles
sont ces mthodes ?
Les outils sont : Outils daccs aux donnes, outils de conception des donnes, outils de rapports et de tableaux de
bord, dictionnaire des donnes, outils danalyse des donnes et de cartographies, outils de slection et
dinterrogation outils de suivi dactions, outils de prvisions et de simulation et outils de formations et de
documentation.
On y trouve les outils danalyse des donnes proprement dits, et des outils complmentaires qui interviennent dans
le processus qui conduit des donnes linformation puis la dcision.

II-12 : Analyse diffre des donnes :


Pour des raisons de temps, de disponibilit, de complexit, lutilisateur peut lui mme engager des analyses
diffres. Cette analyse diffre a le caractre dune tude statistique de sries dindicateurs qui donnera lieu un
rapport dtude dont on donne ici les lments essentiels de rdaction :
(a) rappel de lobjectif de ltude,
(b) description des donnes relatives ltude (collecte, donnes brutes, donnes aprs codage, problmes
rencontrs, origine des donnes),
(c) description des tableaux slectionns, liste des lments significatifs, des singularits mise jour,
(d) pour chacun des tableaux slectionns dans la phase de lanalyse,
(e) les tableaux et graphique dits doivent tre comments et les lgendes suffisantes pour quun lecteur non
spcialiste puisse saisir dun seul coup dil les traits essentiels,
(f) les conclusions doivent rappeler lobjectif et consigner les principaux rsultats obtenus par rapport
lobjectif, la critique des donnes, la dfinition de nouveaux objectifs achvent le rapport dtude,

5
Classification et Analyse de donnes Introduction

(g) les rfrences bibliographiques, les sources de donnes et les logiciels utiliss doivent tre mentionns.

II-13 : Ralisation de tableaux de bord :


Le tableau de bord est une expression trs simplifie dun rapport dtude, conu et ralis pour utilis
priodiquement. Il consigne les objectifs tenir et les rsultats obtenus. Il n y a pas de modles de tableaux de
bord.

II-14 : Dcisions et actions :


La dcision nest pas le propre des seules entreprises. On la trouve dans les services de lEtat, les collectivits
locales, les services publics. Pour un chercheur, dcider cest, aprs avoir vrifier son hypothse grce aux
donnes, orienter ses recherches dans telle ou telle voie. Pour lEtat, cest aprs avoir tudier les indicateurs
conomiques (chmage, inflation, monnaie, commerce extrieur, balance des paiements) quune politique sera
dfinie et mise en place. Les donnes cependant ne fournissent pas de solution automatise pour le dcideur.

6
Classification et Analyse de donnes Introduction

III- Types de donnes :


III- 1. Tableaux de donnes
Nimporte quel ensemble de donnes non structur nest pas analysable par les mthodes danalyse des donnes.
Les objets sur lesquels on peut appliquer les mthodes dites danalyse des donnes sont appels tableaux de
donnes. Il faudra alors savoir extraire dune situation complexe de donnes une situation analysable que lon
puisse exprimer sous forme de tableaux de donnes. Un tableau de donnes est un tableau double entre,
consignant des nombres mettant en jeu deux ensembles dobjets : les lignes du tableau correspondent aux individus
(ou entits) ; les colonnes du tableau correspondent aux variables.

III- 2. Les variables


Reprenons la dfinition quen donne D.Moore.
Toute caractristique dune personne ou dune chose qui peut tre exprime par un nombre est appele variable.
La valeur de la variable est le nombre rel qui dcrit une personne ou une chose particulire .
On distingue deux types de variables : Les variables quantitatives et les variables qualitatives dites aussi variable
de catgories.
Une variable quantitative prend des valeurs pour lesquelles des oprations arithmtiques telles que diffrence et
moyenne aient un sens. Une variable qualitative prend des valeurs symboliques qui dsignent en fait des catgories.
On ne peut effectuer aucune opration arithmtique sur les valeurs de ces variables. Cest pour des raisons de
facilit informatique que ces variables prennent comme valeurs des nombres au lieu de catgorie. Au lieu de
catgories, on parle aussi de modalits de la variable qualitative comme on parle de modalits de rponses une
question dun questionnaire.

Exemples :

7
Classification et Analyse de donnes Introduction

(1) Les tailles, les poids de personnes sont des variables quantitatives,
(2) Les pourcentages, les taux, les ratios associs des indicateurs sont des variables quantitatives,
(3) Lopinion dune personne exprime dans une enqute selon la question : tes vous satisfait du service
X ? induit une variable qualitative, la question et plusieurs catgories de rponses : oui, je suis satisfait ;
non, je ne suis pas satisfait ; je ne sait pas rpondre. Ces trois rponses possibles sont les modalits de la
variable qualitative,
(4) Dans une enqute de population, les renseignements suivants induisent des variables qualitatives : le sexe,
la classe dge, le type de diplme, le type de statut civil ; le type de profession.
Variable statistique discrte et variables statistique continue :
Variable statistique discrte :
Si les valeurs possibles sont des valeurs isoles. Ex : Nombre denfants

Variables statistique continue :


Si les valeurs possibles sont en nombre infini. Ex : ge dun individu en anne, dixime, centimedannes,
taille, poids

Donc deux sortes de variables quantitatives : Les variables quantitatives discrte et les variables
quantitatives continue.
Exemples : la variable Nombre de tlviseurs par famille peut prendre les valeurs 0, 1, 2, 3, mais ne
prendra jamais la valeur 2.5 ou 1.7
Par contre la variable Surface dexploitation agricole pourrait a priori prendre nimporte quelle valeur
relle positive. Si lon rencontre des exploitation de 2 ou 3 ha, il est matriellement possible den rencontrer
aussi de 2.12 ha, ou 2.36 ha, etc on dira que la variable Surface est continue, alors que la variable
Nombre de tlviseurs par famille est discrte.

Une variable quantitative est discrte si elle ne peut prendre que des valeurs isoles, gnralement
entires. Elle est continue si ses valeurs peuvent tre nimporte lesquelles dun intervalle rel.
On peut de mme diffrencier plusieurs sortes de variables qualitatives.
Une variable est ordinale si lensemble des catgories est munie dun ordre total.
Exemple : taille de vtement : XS < S < M < L < XL < XXL
Il faudra, notamment pour les reprsentations graphiques, prsenter toujours les modalits dans lordre.
Rpartition dune population en fonction de sa taille vestimentaire

Graphique correct Graphique incorrect

8
Classification et Analyse de donnes Introduction

Mais gnralement les variables qualitatives sont uniquement nominales : il ny a aucune raison dcrire
les modalits possibles dans un ordre plutt que dans un autre.
Exemples : - Couleur des yeux (bleus, verts, noirs,)
- Qualit dune production (bonne, mauvaise)
Dans le cas particulier o il ny a que deux modalits , on dit que la variable est dichotomique.
Exemples : Sexe (M et F, 1 ou 0), qualit (Bonne ou mauvaise), etc

III- 3. Les individus ou entits


Dans la dfinition de la variable, il est dit : Toute caractristique dune personne ou dune chose qui . La
personne ou la chose mentionne ici est un individu (ou une entit). Cet individu appartient une population de
rfrence (dfinie par les variables dites de contrle). Si, au lieu dtudier toute la population, on nen examine
quune partie, on dit quon tudie un chantillon et, si cet chantillon est un modle rduit de la population
entire, on dit quon tudie un chantillon reprsentatif.
Exemples :
(a) A partir du recensement de la population, on tablit des chantillons reprsentatifs de la population sur
lesquels seront ultrieurement effectus des sondages.
(b) A partir de lensemble des abonns du tlphone, on tablit des chantillons reprsentatifs de la population
sur lesquels seront ensuite effectues les enqutes de satisfaction.
III- 4. Les tableaux de donnes
III- 4. 1. Tableaux de donnes une variable
Exemple :
Lindicateur de qualit technique du rseau tlphonique tabli sur lensemble des rgions de loprateur Algrie
Tlcom : inefficacit du rseau signifie : pourcentage dappels tlphoniques nayant pas abouti taxation par
rapport au nombre total dappels tlphoniques.

9
Classification et Analyse de donnes Introduction

I dsigne lensemble des rgions ; X lindicateur dinefficacit. x1 , x 2,... , x i ,...., x n Dsigne lensemble des
valeurs de lindicateur X pour la rgion notes 1,2,,n. x i est la valeur de linefficacit induit une variable
quantitative.
On aurait pu prendre une population I laquelle on aurait pos une seule question de type rfrendum et laquelle
ou peut rpondre seulement oui ou non mais qui induit dautres modalits de rponses : vote blanc ; vote
abstention. Quatre modalits de rponses auraient t retenues et elles auraient t codes, par exemple, 1 pour
oui, 0 pour non, 2 pour abstention, 3 pour blanc. On aurait eu le mme modle de tableau de donnes avec pour
x i le vote exprim par la personne indice i au rfrendum.

III- 4. 2. Tableaux de donnes plusieurs variables


La situation prcdente se gnralise aisment et permet de fixer les notations relatives la manipulation des
tableaux de donnes. Considrons un ensemble de plusieurs variables notes : X 1 , X 2,... , X i ,...., X p tablies sur
une mme population I. les valeurs de la variable Xj sont x1 j , x 2 j ,..., x ij ,... x pj . Lensemble des valeurs du
tableau des donnes est not
xij ; i I , j X X 1 , X 2 ,..., X i ,..., X p . La case dindice (i,j)
correspondant la ime ligne et la jme colonne contient la valeur x ij , valeur de la variable Xj sur lindividu
indic i. x ij est soit une valeur numrique associe une variable quantitative, soit un nombre reprsentant le code
dune catgorie

On appelle ce tableau un tableau Individus-Variables.

10

S-ar putea să vă placă și