Sunteți pe pagina 1din 228

Janvier 2009

Relier les examens de langues au Cadre europen commun de rfrence pour les langues : Apprendre, enseigner, valuer (CECRL)

Un manuel

Division des Politiques Linguistiques, Strasbourg www.coe.int/lang/fr

TRADUCTION : Gilles BRETON, Sbastien GEORGES et Christine TAGLIANTE

ii

SOMMAIRE Liste des schmas Liste des figures Liste des Tableaux Liste des Fiches Prface Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7 Annexes Annexe A Fiches et chelles pour la description et la spcification (ch. 1 et 4) A1 A2 A3 A4 A5 Annexe B : : : : : Caractristiques principales des niveaux du CECRL (chapitre 1) Fiches pour la description des examens (chapitre 4) Spcification : activits langagires communicatives (chapitre 4) Spcification : comptence langagire communicative (chapitre 4) Spcifications : rsultat des analyses (chapitre 4) Le CECRL et le manuel Le processus de mise en relation Familiarisation Spcification Formation la standardisation et au calibrage Procdures de dfinition des points de csure Validation iii iii v vii ix 1 7 19 27 37 60 90 136 138 138 144 150 160 173 175 175 181

Grilles danalyse de contenu Chapitre 4 B1 : Grille danalyse de contenu pour la rception orale et la rception crite B2 : Grille danalyse de contenu pour les tches de production orale et de production crite

Annexe C

Fiches et chelles pour la standardisation et le calibrage (Ch.5)

209

Rfrences supplmentaires : Section A: Rsum du processus de mise en relation Section B: Dfinition des points de csure Section C: Thorie classique des tests Section D: Mthodes danalyse qualitative Section E: Thorie de la gnralisabilit Section F: Analyse factorielle Section G: Thorie de la rponse litem Section H: Mise en quivalence des tests

ii

Liste des schmas


Schma 2.1 Preuve de la validit de la mise en relation de lexamen ou du test avec le CECRL Reprsentation graphique des procdures permettant de relier les examens au CECRL 8

Schma 2.2

17

Liste des figures


Figure 6.1 Distribution de frquence pour les scores aux tests dans les deux groupes contrasts Rgression logistique Formulaire denregistrement des jugements des panlistes dans le cadre de la mthode du marque-page Items de discrimination diffrente Cartographie ditems, indiquant la difficult et la discrimination Courbe caractristique empirique de litem pour un item problmatique Une courbe caractristique de test Table de dcision pour neuf niveaux Table de dcision pour cinq niveaux Cartographie ditems avec des descripteurs de comptence 73 80

Figure 6.2 Figure 6.3

86 90 91 113 117 125 126 130

Figure 6.4 Figure 6.5 Figure 7.1 Figure 7.2 Figure 7.3 Figure 7.4 Figure 7.5

iii

iv

Liste des tableaux

Tableau 3.1 Tableau 3.2 Tableau 4.1

Gestion du temps pour les activits de Familiarisation Documents prparer pour les activits de Familiarisation Fiches et chelles du CECRL pour les activits langagires communicatives

25 25 33

Tableau 4.2

Echelles du CECRL pour les aspects de la comptence langagire communicative Gestion du temps pour lvaluation des chantillons de performance orale Gestion du temps pour lvaluation des chantillons de performance crite Documents et matriel prparer pour lvaluation de la production crite Sources de rfrences dans le CECRL Formation la standardisation et au calibrage : rcapitulatif Vue densemble des mthodes discutes Donnes de base dans la mthode de Tucker-Angoff Calcul du score attendu pour les 100 candidats limites Distribution de frquence correspondant la figure 6.1. Tables de dcision pour cinq scores de csure Rsum du tour de prcision de ltendue Rsultats du rajustement Exemple de rponses dans la mthode de lappariement au descripteur de litem (formulaire abrg) Marque-page et niveaux de russite Estimation de la valeur Theta Dispositif de blocs incomplets quilibrs avec trois blocs Dispositif de blocs incomplets quilibrs avec sept blocs Exemple de consistance forte et de dsaccord complet Tableau de frquence pour quatre niveaux et deux panlistes Frquence dattribution des niveaux du CECRL pour un item Rsum des dsaccords par item Rsultat dune procdure de Tucker-Angoff Dcomposition de la variance Exactitude de la dcision

34

Tableau 5.1 Tableau 5.2 Tableau 5.3 Tableau 5.4 Tableau 5.5 Tableau 6.1 Tableau 6.2 Tableau 6.3 Tableau 6.4 Tableau 6.5 Tableau 6.6 Tableau 6.7 Tableau 6.8

48 50 50 52 59 65 66 71 73 74 77 79

82 88 89 102 103 109 110 112 113 114 114 119

Tableau 6.9 Tableau 6.10 Tableau 7.1 Tableau 7.2 Tableau 7.3 Tableau 7.4 Tableau 7.5 Tableau 7.6 Tableau 7.7 Tableau 7.8 Tableau 7.9

Tableau 7.10 Tableau 7.11 Tableau 7.12 Tableau 7.13

Consistance de la dcision Distributions marginales sur les niveaux (occurrences) Distributions marginales sur les niveaux (pourcentages) Dispositif de procdure de dtermination des scores de csure pour une paire

120 123 124 128

Tableau A1 Tableau A2 Tableau A3 Tableau A4 Tableau A5

Caractristiques principales de linteraction et de la production. Caractristiques principales de la rception Elments qualitatifs pertinents pour la rception Elments qualitatifs pertinents pour linteraction orale Elments qualitatifs pertinents pour la production

139 140 162 169 170

Tableau C1 Tableau C2 Tableau C3 Tableau C4

Echelle globale dvaluation de la production orale Grille des critres dvaluation de loral Grille des critres supplmentaires : niveaux plus Grille des critres dvaluation de la production crite

212 213 214 215

vi

Liste des Fiches

Fiche A1 Fiche A2 Fiche A3 Fiche A4 Fiche A5 Fiche A6 Fiche A7 Fiche A8 Fiche A9 Fiche A10 Fiche A11 Fiche A12 Fiche A13 Fiche A14 Fiche A15 Fiche A16 Fiche A17 Fiche A18 Fiche A19 Fiche A20 Fiche A21 Fiche A22 Fiche A23 Fiche A24 :

Description gnrale de l'examen Elaboration de l'examen Correction Notation Communication des rsultats Analyse et rvision de l'examen Justification des dcisions Impression initiale du niveau global Rception orale Rception crite Interaction orale Interaction crite Production orale Production crite Combinaisons de capacits intgres Capacits intgres Mdiation orale Mdiation crite Aspects de la comptence langagire pour la rception Aspects de la comptence langagire en interaction Aspects de la comptence langagire en production Aspects de la comptence langagire en mdiation Reprsentation graphique de la relation de l'examen aux niveaux du CECR Confirmation de lestimation du niveau global de lexamen

146 147 148 148 148 149 149 149 151 152 153 155 156 157 158 158 159 160 164 165 167 172 173 173

Fiche C1 Fiche C2 Fiche C3 Fiche C4 Fiche C5

Fiche de rapport de formation Fiche analytique dvaluation Fiche d'valuation globale (DIALANG) Fiche de synthse de l'valuation globale (DIALANG) Fiche d'valuation des items (DIALANG)

209 210 210 211 211

Ces fiches sont galement disponibles sur le site Internet www.coe.int/lang/fr

vii

viii

Prface
Le Conseil de lEurope tient exprimer sa reconnaissance tous ceux qui ont contribu llaboration de ce manuel et notamment : Les autorits finlandaises qui ont organis le sminaire dHelsinki o le projet fut lanc en juillet 2002. Les consultants qui ont expriment ldition pilote (Pr. Charles Alderson, Dr Gergely A. David, Dr John De Jong, Dr Felianka Kaftandjieva, Dr Michael Makosch, Dr Michael Milanovic, Dr Gnther Nold, Professor Mats Oscarson, Prof. Gnther Schneider, Dr Claude Springer et aussi M Josef Biro, Melle Erna van Hest, M Peter Lenz, Melle Jana Pernicov, Dr Vladimir Kondrat Shleg, Mme Christine Tagliante et Dr John Trim), pour leur retour dinformation dtaill au tout dbut du projet. Le Groupe dauteurs, sous la direction du Dr. Brian North : Dr Neus Figueras Dr. Brian North Prof. Sauli Takala Dr. Piet Van Avermaet
-

Dr.Norman Verhelst

Departament d'Ensenyament, Gnralit de Catalogne, Espagne Fondation Eurocentres, Suisse Universit de Jyvskyla, Finlande Centre pour la diversit et lapprentissage, Universit catholique de Louvain, Belgique Association des centres dvaluation en langue en Europe (ALTE) CITO, Pays Bas

Dr Jay Banerjee (Universit de Lancaster) et Dr Felianka Kaftandjieva (Universit de Sofia) pour leur contribution llaboration du Supplment de rfrence du Manuel. Les institutions qui ont mis disposition des exemples illustrs de performances ainsi que des exemples ditems sur DVD/CD-ROM et disponibles sur le site du Conseil de lEurope comme appui la formation la standardisation (en particulier : Eurocentres ; Cambridge ESOL ; le Centre international dtudes pdagogiques CIEP-, luniversit pour Etrangers de Prugia ; lInstitut-Goethe ; les autorits finlandaises ; DIALANG ; la Generalitat de Catalunya et CAPLE). ALTE (en particulier Nick Saville) et les membres du groupe du projet CECRL nerlandais (Charles Alderson, Neus Figueras, Dr Gnther Nold, Henk Kuijper, Sauli Takala, Claire Tardieu) pour leur contribution la bote outils qui concerne directement ce Manuel sous la forme de grilles danalyse de contenu labores pour la production orale et la production crite dune part, la rception orale et la rception crite dautre part. Les nombreuses personnes et institutions qui ont fourni un retour dinformations dtailles sur la version exprimentale, en particulier : les membres de ALTE ; ASSET languages (Cambridge ESOL) ; lcole de commerce de Budapest ; le CITO ; Claudia Harsch ; linstitut Goethe ; le ministre de lEducation polonais ; le ministre de lEducation tawanais ; le TestDaf ; le Trinity college de Londres et lUniversit pour trangers de Prouse.

Division des Politiques linguistiques Direction de lEducation et des langues (DG IV) F 67075 STRASBOURG www.coe.int/lang/fr www.coe.int/portfolio/fr

ix

Chapitre 1 : Le CECRL et le Manuel


1.1. 1.2. Les objectifs du manuel Le contexte du manuel

1.1.

Les objectifs du Manuel

Ce Manuel a pour principal objectif daider les concepteurs dexamens laborer des procdures transparentes et concrtes pour situer leurs examens par rapport au CECRL, les appliquer et en rendre compte dans un processus cumulatif de perfectionnement continu. Le manuel nest pas le seul guide permettant de relier un test au CECRL et aucune institution nest oblige dentreprendre ce travail dharmonisation. Cependant, les institutions qui affirment que leurs examens sont relis aux niveaux du CECRL trouveront les procdures proposes trs utiles pour dmontrer la validit de leur affirmation. Lapproche dveloppe dans le manuel propose des conseils aux utilisateurs pour :

dcrire ce que recouvre lexamen ainsi que les procdures de passation et danalyse ; mettre en relation les rsultats de lexamen et les Niveaux Communs de Rfrence du CECRL ; apporter des preuves rendant compte des procdures suivies.

Toutefois, suivant en cela les meilleures traditions de laction du Conseil de lEurope pour le dveloppement de lenseignement des langues, le Manuel vise plus largement encourager fortement et faciliter la coopration entre les organismes concerns et les spcialistes des pays membres. Le Manuel a pour objectif de :

contribuer llaboration dune comptence dans le domaine de la relation des examens de langues avec le CECRL ; encourager une plus grande transparence de la part des organismes qui produisent des examens ; encourager la constitution de rseaux dorganismes et dexperts, officiels ou non, tant sur le plan national quinternational.

La division des politiques linguistiques recommande aux concepteurs dexamens utilisant les procdures proposes ou dautres procdures visant les mmes fins, de faire un relev dexprience sous forme de rapport. Ces rapports devraient dcrire la mise en uvre des procdures, les points positifs et les difficults et sils affirment que lexamen est reli aux niveaux du CECR, en apporter des preuves. On encourage fortement les utilisateurs rdiger ces rapports afin : daccrotre la transparence du contenu (justification thorique, objectifs de lexamen, etc) ; daccrotre la transparence du niveau attendu de lexamen ; de donner aux candidats, aux utilisateurs et aux professionnels de lenseignement et de lvaluation loccasion danalyser la qualit de lexamen et de la relation affirme avec le CECRL ; de procurer un argumentaire expliquant pourquoi certaines des procdures recommandes nont pas t suivies ; de procurer de futurs chercheurs un ensemble largi de techniques pouvant venir en complment de celles indiques dans ce manuel.

Il faut souligner que, si ce Manuel recouvre un large ventail dactivits, son objectif est limit :

Cest un guide tout particulirement ax sur les procdures mettre en uvre pour justifier laffirmation selon laquelle un examen ou un test donn est reli au CECR. Ce nest pas un guide gnral pour llaboration de tests ou dexamens de langue de qualit. Il existe plusieurs guides utiles pour ce faire, comme cela est mentionn au chapitre 4 et ce sont ceux-l quil faut consulter. Il ne prescrit pas une approche particulire pour laborer des tests ou des examens de langue. Si le CECRL milite en faveur dune approche actionnelle de lapprentissage des langues, il admet, dans son effort dexhaustivit, que des examens diffrents puissent reflter des buts diffrents (construits). Il nexige pas que les tests soient spcialement conus pour valuer des performances en relation avec le CECRL, mais une utilisation vidente du CECRL pendant le processus de formation, de types de tches, de rdaction ditems et d laboration de grilles dvaluation renforce laffirmation selon laquelle le contenu est reli au CECRL. Il ne fournit pas de label, ni de statut de validit ou daccrditation selon laquelle tel ou tel examen est reli au CECRL. De telles affirmations relvent de la responsabilit des institutions. Des associations de professionnels travaillent sur les standards et les codes de bonnes pratiques (par exemple lAERA American Educational Research Association (AERA/APA/NCME : 1999 ; EALTA www.ealta.org ; ALTE www.ALTE.org. Ces associations sont une source dinformations et de conseils pour lvaluation des langues et les procdures de mise en relation.

Malgr tout, la version exprimentale du Manuel a t utilise par les responsables dexamens de diffrentes faons : en appliquant les procdures un test labor avant le CECRL et par consquent sans relation vidente avec le cadre, afin de pouvoir donner des rsultats en rapport avec les niveaux du CECRL ; pour confirmer la relation entre un test datant davant le CECRL et le construit du CECRL ainsi que les niveaux du CECRL ; cest le cas de tests conus en fonction des spcifications de contenu labores par le Conseil de lEurope depuis 1970 et correspondant prsent aux niveaux du CECRL : Niveau introductif A1 ; niveau intermdiaire A2 ; Niveau seuil B1 ; Niveau autonome B2 ; Niveau indpendant C1 ; Niveau matrise C2 (Van Ek et Trim 2001a-c) ; en apportant la rvision des examens des informations qui permettent une relation plus troite avec le concept hypothtique et les niveaux du CECRL ; en aidant les coles mettre en uvre des procdures pour relier leurs examens au CECRL. Mme si le Manuel na pas t conu comme un outil servant relier au CECRL des cadres de rfrence ou des chelles en usage dans une institution, lensemble des procdures proposes peut malgr tout servir cet effet. Partant dun cadre en usage, ltape de spcification peut servir la mise en relation du contenu de lexamen et de ce quil recouvre. Les chantillons de performances calibrs sur le cadre en usage peuvent tre utiliss pour un inter-calibrage aprs une formation sur la standardisation : il est possible dvaluer des chantillons calibrs du CECRL avec les critres du cadre en usage et de mme dvaluer des chantillons calibrs sur le cadre en usage avec les critres du CECRL utiliss pour les performances orales et crites fournies par le Manuel. Enfin, une tude de validation externe peut tre mene sur des tests ayant pris comme rfrence le cadre en usage. Pour aider les utilisateurs savoir sil est pertinent dutiliser les procdures dans leur propre contexte et ce quimplique leur utilisation, des encadrs reprenant quelques uns des points essentiels et des enjeux sont proposs la fin de chaque chapitre sur le modle du CECRL (les utilisateurs peuvent se demander si).

1.2.

Le contexte du manuel

Le cadre europen commun de rfrence pour les langues se fixe un objectif ambitieux, celui de fournir : une base commune llaboration de programmes de langues vivantes, de rfrentiels, dexamens, de manuels, etc. partout en Europe. Il dcrit aussi compltement que possible ce que les apprenants dune langue doivent apprendre afin de lutiliser dans le but de communiquer ; il numre galement les connaissances et les capacits langagires quils doivent acqurir afin davoir un comportement langagier efficace. La description englobe aussi le contexte culturel dutilisation de la langue. Le cadre dfinit aussi les niveaux de comptence qui permettent de mesurer les progrs de lapprenant chaque tape de lapprentissage et tout moment de la vie (Conseil de LEurope 2001a :1). Mais le CECRL traite aussi de lvaluation et des examens, et cest ce niveau que le manuel peut servir de rfrence : Lun des principaux objectifs du Cadre de rfrence est daider tous les partenaires de lenseignement et de lapprentissage des langues dcrire les niveaux de comptence exigs par les standards et les examens existants afin de faciliter les comparaisons entre les diffrents systmes de certification. Cest dans ce but quont t labors le Schma descriptif et les Niveaux communs de rfrence. Ceux-ci fournissent une grille de lecture conceptuelle que les utilisateurs peuvent utiliser pour dcrire leur systme (Conseil de lEurope 2001a :21). Lobjectif du CECRL est de faciliter la rflexion, la communication et le travail en rseau dans le domaine de lenseignement et de lapprentissage des langues. Au niveau local, lobjectif de toute stratgie devrait tre de rpondre aux besoins propres un contexte. La clef pour concilier les deux objectifs en un systme cohrent est la souplesse. Le CECRL est un outil de rfrence semblable un accordon, fournissant des catgories, des niveaux et des descripteurs que des professionnels de lducation peuvent regrouper ou subdiviser, dtailler ou rsumer tout en gardant la structure hirarchique commune. On encourage les utilisateurs mettre en place des ensembles dactivits langagires, de comptences et de performances convenant leur contexte local mais qui soient aussi en rapport avec le schma gnral afin de permettre une communication plus aise avec des collgues dautres institutions et dautres parties prenantes telles que les apprenants, les parents et les employeurs. Il ny a pas de contradiction entre dune part un cadre commun de rfrence ncessaire lorganisation de lenseignement et facilitant les comparaisons et dautre part des stratgies et des dcisions locales ncessaires pour faciliter un apprentissage efficace et laborer des examens convenant tout type de contexte. Le CECRL remplit dj cette fonction avec souplesse dans son application avec le Portfolio Europen des Langues. Le portfolio est un nouvel outil dans le domaine de lducation qui a t conu grce une coopration la fois intensive et extensive. Les conditions de son application de faon suffisamment uniforme sont assez bonnes, mme si le projet du portfolio a d prendre en compte un certain nombre de contraintes. Par contre la reconnaissance mutuelle de qualifications langagires octroyes par toutes les parties concernes est une question beaucoup plus complique. En Europe, les professionnels de lvaluation en langue ont des traditions trs diffrentes. Dun ct, on trouve les producteurs dexamens qui oprent selon le mode classique dexamens annuels prpars par une commission de spcialistes et nots en fonction de la connaissance intuitive du standard exig. Il existe de nombreux cas o lexamen ou le test dbouchant sur une qualification reconnue est prpar par lenseignant ou le personnel de lcole plutt que par une commission externe, parfois sous le contrle dun expert extrieur. Il y a ensuite de nombreux examens qui se concentrent sur la mise en uvre de

spcifications de tches, avec des critres crits, un barme et une formation des examinateurs permettant dassurer une cohrence ; ils incluent ou excluent selon le cas une forme de pr-test ou de validation empirique. Enfin, de lautre ct, on trouve des systmes extrmement centraliss qui utilisent essentiellement des questions rponse ferme pour mesurer des capacits de rception. Les questions sont extraites de banques ditems. On y ajoute quelquefois des tches de production (habituellement crites) afin de mesurer la comptence et de dlivrer les certifications. Les politiques nationales, les traditions et les cultures de lvaluation autant que les politiques, les cultures et les intrts lgitimes des organismes spcialiss dans les tests et les examens de langue sont des facteurs qui peuvent tre un frein lintrt quil y a une reconnaissance mutuelle des qualifications. Toutefois, il y va de lintrt de chacun que lon applique des procdures convenables en matire dvaluation. Paralllement la question de la tradition, se pose celle de la comptence et des ressources. Des tablissements reconnus ont, ou peuvent avoir les ressources la fois humaines et matrielles qui leur permettent de mettre en uvre et dappliquer des procdures traduisant de bonnes pratiques ainsi que des systmes convenables de formation, d'assurance qualit et de contrle. Dans dautres cas, lexprience de lvaluation et les connaissances ncessaires sont moindres. Il peut ny avoir quune familiarit limite avec les techniques de travail en rseau et de formation des examinateurs lvaluation en fonction de standards et qui sont un pralable toute valuation cohrente de la performance. Dun autre ct, il peut ny avoir que peu de familiarit avec des approches qualitatives et psychomtriques, pralable ncessaire la validation adquate dun examen. Mais surtout, il peut ny avoir quune familiarit limite avec les techniques de mise en relation des examens puisque, dans la plupart des cas, les groupes qui soccupent dvaluation ont lhabitude de travailler de manire isole. Il nest donc pas tonnant qu la suite de la publication du CECRL, on ait souvent fait appel au Conseil de lEurope pour quil joue un rle plus actif auprs des producteurs dexamens dans leurs efforts pour valider la relation de leurs examens avec le Cadre europen commun de rfrence. Ce fut le thme central dun sminaire aimablement organis par les autorits finlandaises Helsinki en juillet 2002 (Conseil de lEurope 2002) qui dboucha sur la dcision de la Division des Politiques linguistiques de Strasbourg de dmarrer le projet dlaboration de ce Manuel. Ce Manuel fait suite au travail entrepris par la Division des Politiques linguistiques du Conseil de lEurope pour concevoir des outils permettant la mise en place de projets. Ces outils fournissent un socle commun dlments de rfrence et dobjectifs constituant une structure cohrente et transparente pour un enseignement/apprentissage et une valuation efficaces correspondant aux besoins la fois des apprenants et de la socit. Cette structure peut aussi faciliter la mobilit personnelle. Cest avec la publication du Threshold level (Van Ek 1976 ;Van Ek et Trim 200o1b) en 1970 , et llaboration des versions de ce niveau dans diffrentes langues (Niveau Seuil (D. Coste 1976) que ce travail sest fait largement connatre. En 1990, les recherches sur le CECRL et son laboration ont donn lieu des exprimentations de deux versions. 2001 a t lanne de la publication de la version dfinitive en anglais et en franais et celle de lorganisation de lanne europenne des langues (Conseil de lEurope 2001a, 2001b), Le CECRL est publi prsent en plus de 30 langues. A lorigine, les niveaux communs de rfrence (A1-C2) constituaient limpact principal du CECRL. A prsent les concepteurs de programmes sinspirent du CECRL pour laborer une nouvelle gnration dobjectifs plus dtaills partir des descripteurs du CECRL (voir partie 4.3.3). Ce Manuel, avec laccent mis sur la mise en relation rciproque des valuations grce la mdiation du CECRL, est un complment logique ce travail sur les niveaux et les objectifs. Il nest nulle part envisag une quivalence quelconque entre des examens diffrents qui auraient t relis au CECRL en suivant les procdures proposes dans ce manuel. Le contenu et la forme des examens varient en fonction des besoins lis au contexte et des traditions de la culture pdagogique qui ont dtermin leur conception. Deux examens peuvent trs bien tre au niveau B2 tout en tant trs diffrents. Des apprenants dans

deux contextes diffrents peuvent obtenir des rsultats diffrents (a) un examen dont la forme et le contenu leur sont familiers et (b) un examen du mme niveau conu dans un contexte diffrent. Ensuite, ce nest pas parce quils ont suivi les procdures pour relier les examens prconises par ce Manuel que plusieurs examens peuvent, par exemple, se rclamer exactement du mme niveau, par exemple B2. B2, comme tout autre niveau, est situer sur une bande de performance langagire qui est trs large ; le point de csure pour passer dun niveau un autre dans ces diffrents examens peut tre dtermin des endroits diffrents dans cette bande qui ne correspondent pas tous exactement la mme ligne de dmarcation entre le B1 et le B2. Les programmes et les examens pour lapprentissage des langues doivent tre conus et adapts au contexte dans lequel ils seront utiliss. Les auteurs du CECRL sont trs clairs ce propos : le CECRL ne doit en aucune faon tre considr comme un projet dharmonisation. Le CECRL na aucune intention de dire aux professionnels du domaine des langues quels devraient tre les objectifs : Il nest PAS dans notre intention de dire aux praticiens ce quil faut faire et comment le faire. Nous posons des questions, nous ny rpondons pas. Le CECRL na pas pour fonction dimposer aux intresss des objectifs atteindre ou des mthodes utiliser (Conseil de lEurope 2001a :Xi Note lutilisateur). Il nest pas non plus dans lintention de ce Manuel de dire aux professionnels du domaine ce que devraient tre les standards et la faon de prouver le lien tabli avec eux. Le CECRL et ce Manuel ont tous les deux comme objectifs dencourager la rflexion, de faciliter la communication (entre les professionnels du domaine et entre les parties concernes par lducation) et de fournir des outils de rfrence concernant les processus et les techniques. Les Etats membres et les institutions concerns par lenseignement et lapprentissage des langues travaillent et cooprent de faon autonome ; cest eux et elles que reviennent le privilge et la responsabilit du choix de lapproche la plus approprie leur but et leur contexte. Une version exprimentale de ce Manuel a t publie en septembre 2003 (Conseil de lEurope 2003) et a t prsente au sminaire de Strasbourg en avril 2004. Lexistence de ce Manuel en septembre 2003, juste aprs la publication complte du CECRL en anglais et en franais (2001), a eu un impact considrable. Dune certaine faon, on peut dire que limportance de limpact la fois du CECRL et du manuel est le fruit dun calcul heureux. Juste au moment o les concepteurs dexamens cherchaient les moyens de rendre ces examens plus transparents et plus pertinents dans un contexte europen, le CECRL et le Manuel taient l pour les leur proposer. En consquence, la mthodologie de beaucoup de projets de mise relation avec le CECRL a t influence par lapproche propose dans le Manuel. En mme temps, ces approches ont donn lieu des remises en question et des commentaires loccasion des tudes de cas (plus de 20) menes en relation avec le projet. Beaucoup de ces tudes ont t prsentes une runion Cambridge en dcembre 2007 et au colloque du sminaire dEALTA Athnes en 2008. Des retours dinformations dinstitutions impliques dans lexprimentation et dun large ventail de professionnels intresss que ce soit en Europe ou au del ont largement contribu la prparation de cette version revue, qui, pour ne pas tre totalement dfinitive, est plus exhaustive. Les articles de la runion de Cambridge sont publis dans un recueil dtudes de cas dans la srie des Studies in Language Testing publie au Cambridge University Press ; les articles de la runion dAthnes sont publis dans un recueil dtudes de cas par le CITO, en coopration avec le Conseil de lEurope et EALTA. Nous esprons que ces tudes, ce Manuel et lensemble croissant doutils accompagnant le CECRL contribuent au dveloppement de lexpertise pour relier les examens de langues au CECRL et aux discussions sur les enjeux de ce processus.

Les utilisateurs peuvent se demander : si lutilisation du CECRL est pertinente dans leur valuation et leur contexte ; pourquoi et dans quels buts ils appliquent ce Manuel ; quelles modifications sont introduire dans leur contexte spcifique pour lapplication du Manuel ; quelles parties du Manuel les concernent le plus; comment ils pensent faire connatre leurs rsultats afin de contribuer lamlioration de lexpertise dans le domaine de la mise en relation.

Chapitre 2 : Le processus de mise en relation


2.1. 2.2. 2.3. 2.4. 2.5. Approche adopte Questions lies la qualit Etapes du processus Utilisation du CECRL Utilisation du Manuel

2.1.

Approche adopte

Relier un examen ou un test au CECRL est une entreprise complexe. Lexistence dune relation entre lexamen et le CECRL nest pas un fait directement observable, mais relve dune affirmation pour laquelle le concepteur dexamen devra apporter des preuves tant au plan thorique quempirique. La procdure par laquelle on obtient ces preuves est la validation de laffirmation . Mettre en relation des examens ou des tests avec le CECRL prsuppose que lon ait dfini un ou plusieurs points de csure. Ces points de csure rpartissent la distribution des performances des candidats sur deux ou plus de deux niveaux du CECRL. On peut garantir des normes convenables si on applique un processus appropri de dfinition des points de csure ds le dbut de la mise en relation. La dfinition de points de csure implique des prises de dcision exigeant des donnes de haute qualit et un travail rigoureux. A partir du moment o ces dcisions peuvent avoir des consquences importantes, elles doivent tre quitables, ouvertes, valides, efficaces et dfendables. Ce sera le cas si des processus systmatiques prouvs et des critres explicites sont utiliss. Lors de la dfinition de points de csure, il est frquent de se rfrer des contenus et des performances standards. Les contenus standards dcrivent les contenus lis aux domaines partir desquels lexamen peut tre ou a t labor. Cette description renvoie trs souvent aux niveaux de performance. De telles descriptions ont forcment un caractre gnral et sont habituellement formules en termes qualitatifs. Dans les textes traitant de dfinition de points de csure, on les appelle Descripteurs du niveau de performance (DNP : cf. partie 6.7) et ils jouent le rle dun systme gnral de rfrence partir duquel des examens prcis peuvent tre dcrits. Les normes de performance renvoient des examens spcifiques et prsentent la performance minimale pour cet examen ou ce test spcifique ; en ce sens ils sont synonymes de point de csure. Il faut toutefois souligner un point important. Le Cadre europen commun de rfrence pour les langues (CECRL) fournit les contenus et les descripteurs du niveau de performance. Les DNP y sont donns, contrairement ce qui se passe dans les autres contextes de dfinition de points de csure, o les DNP doivent tre dfinis en premier. Cela signifie quon doit se rfrer au CECRL chaque tape du processus de mise en relation (cf. schma 2.1). Lapproche retenue dans ce Manuel rend indispensable une connaissance approfondie du CECRL.

SCHEMA 2.1 : PREUVE DE LA VALIDITE DE LA MISE EN RELATION DE LEXAMEN OU DU TEST AVEC LE CECRL

EXAMEN / TEST
Dfinition des points de csure/calibrage : Preuve de : La validit interne (cohrence) La validit externe La validit procdurale

Spcification de lexamen ou du test : Etendue des contenus/reprsentativit

Classement/rsultats obtenus lexamen ou au test : Fiabilit et validit Rsultats

Spcification (documentation)

Formation/Standardisation (documentation)

Familiarisation (documentation)

Cadre europen commun de rfrence pour les langues (CECRL)


8

On peut envisager la mise en relation dun examen ou dun test avec le CECRL comme un processus dlaboration dune argumentation bas sur un raisonnement thorique. Le concept de validit est au centre de ce processus. Le manuel prsente cinq sries de dmarches troitement lies. On conseille aux utilisateurs de suivre ces dmarches une une, ce qui leur permet de concevoir leur plan de mise en relation comme une suite dactivits indpendantes et ralisables : Familiarisation Spcification Formation la standardisation/calibrage Dfinition des points de csure Validation Le projet doit dmarrer par ltape de Familiarisation dcrite au chapitre 3. Ce nest quaprs cette tape quil est possible de dcrire lexamen ou le test concern, laide des procdures de Spcification (chapitre 4). Ces procdures dbutent par des contrles et des rapports tmoignant de la qualit de lexamen (fiabilit et validit) ; la dmonstration de la qualit de lexamen est un pr-requis au processus de mise en relation. La dfinition des points de csure impliquant que lon porte des jugements sur les items et les performances, les donnes obtenues doivent tre de grande qualit. Cest pourquoi la formation des personnes concernes doit tre extrmement rigoureuse. Elle est dcrite dans le chapitre 5. Il existe un grand nombre de mthodes permettant de dfinir les points de csure. Celles que lon considre comme tant les plus pertinentes dans ce contexte sont dcrites au chapitre 6. La qualit de la dfinition des points de csure peut varier, cest pourquoi il est important dapporter des preuves sur le degr de justification des points de csure. Diffrents types de preuve de validit de la dfinition des points de csure, qui devront tre apports, sont prsents au chapitre 7. Les utilisateurs du Manuel devront choisir la procdure la plus approprie leur contexte parmi toute la gamme propose ici ou dans la littrature consacre au sujet. Lapproche retenue est globale. Un des objectifs du Manuel est de favoriser lapplication des meilleures procdures mme dans les cas o les ressources et lexpertise disponibles sont limites. Les premiers pas peuvent tre modestes mais le but est daider les producteurs dexamens travailler dans un cadre structur de sorte que le travail ultrieur puisse sappuyer sur ce qui a t fait prcdemment. La structure commune prconise par le Manuel peut donner loccasion des organismes de conjuguer plus facilement leurs efforts et de chercher des synergies dans certains domaines. Il est important dinsister sur le fait que les cinq sries de procdures (ou tapes ), ne constituent pas uniquement des jalons isols les uns des autres sur un processus linaire. Il est primordial de vrifier, lissue de chaque tape, quon est sur la bonne voie : linterprtation des niveaux correspond bien linterprtation courante, illustre par des exemples reprsentatifs. Dans le cas de la rvision ou du dveloppement dun examen, il est conseill dappliquer les procdures recommandes chaque tape du dveloppement ou de la rvision, de faon ce que la mise en relation avec le CECRL se fasse dune faon organise, cyclique, mesure que lquipe devient de plus en plus familiarise avec le CECRL et que le projet ne soit pas remis en cours de route une autre quipe, interne ou extrieure linstitution, avant que le projet principal ne soit achev. Bien quelles ne doivent pas tre considres comme des jalons sur un parcours linaire, les cinq tapes sorganisent selon un ordre logique. A chaque tape on demande aux utilisateurs de commencer par les capacits de production (orale et crite) car ces comptences peuvent tre plus directement relies aux riches descriptions du CECRL, fournissant ainsi une base claire pour la formation, les jugements et les discussions.

2.2. Questions lies la qualit La mise en relation dun examen ou dun test avec le CECRL ne peut tre valide si lexamen ou le test en question ne peut dmontrer une validit en lui-mme. Un test qui ne convient pas un certain contexte ne conviendra pas plus sil est mis en relation avec le CECRL ; de mme, un examen qui ne dispose pas de procdures permettant de sassurer que les examinateurs et les correcteurs appliquent les mmes normes de svrit, ou que les versions dun test administr lors de diffrentes sessions sont quivalentes, ne peut rendre crdible une affirmation de mise en relation avec le CECRL car il ne peut dmontrer de cohrence interne dans loprationnalisation de ses normes. Plusieurs ouvrages de rfrence proposent des conseils de bonne pratique dans le dveloppement de tests. Ce Manuel ne les remettra pas en question, car son objectif principal est de fournir des conseils pour la dfinition des points de csure. Le chapitre 7 traite des problmes lis au dveloppement des tests, leur exprimentation et analyse. Le Supplment de rfrence propose des informations complmentaires, notamment sur les techniques danalyses. Le lecteur est toutefois renvoy la nombreuse littrature sur ce sujet : Alderson et al. (1995), Davidson & Lynch (2002), Ebel & Frisbee (1986), Downing & Haladyna (2006), Milanovic (2002), Weir (1993), ainsi que lensemble des publications et du matriel produits pour le projet Into Europe sous les auspices du British Council de Hongrie (www.examsreform.hu/Pages/Exams.html ). La proccupation pour la qualit dans la conception de tests est galement prsente dans les critres de bonnes pratiques des organismes suivants : EALTA (European Association of Language Testing and assessment Association europenne de lvaluation en langues, www.ealta.eu.org ). Le Guide de bonnes pratiques dans lvaluation en langues de EALTA comporte une liste abordable des points les plus importants prendre en compte, avant, pendant et aprs la conception du test, par tous ceux qui sont impliqus dans lvaluation et les pratiques de test (quil sagisse dindividus ou dinstitutions). ALTE (Association of Language testing in Europe Association des organismes europens dvaluation en langues, www.alte.org ). Le Code de pratiques et les Standards minimum pour tablir des profils de qualit en valuation en langue, proposent une srie de 17 normes minimales qui permettent aux concepteurs de certifications de structurer et dvaluer la conception de leur test ainsi que son processus dadministration. AERA (American Educational Research Association Association amricaine de recherche en ducation, www.aera.net ). AERA (en 1999), propose une srie dtaille et reconnue de normes thoriques pour les tests dans les domaines de lducation et de la psychologie. ILTA (International Language Testing Association Association internationale de lvaluation en langues, www.ilta.org ). Dans la mme ligne quAERA et dautres autorits, ILTA a runi et rsum dans son Code de pratiques pour les valuateurs en langues les principes essentiels thoriques et pratiques de lvaluation en langues. 2.3. Etapes du processus

Le processus de mise en relation dun test avec le CECRL consiste mettre en uvre les diffrentes tapes dune srie de procdures : La familiarisation (chapitre 3) : il sagit dune slection dactivits de formation visant ce que ceux qui participent au processus de mise en relation parviennent une bonne connaissance du CECRL, de ses niveaux et de ses descripteurs. Cette tape de Familiarisation doit se faire en amont des dmarches de Spcification et de

10

Standardisation . Ltape de familiarisation constitue galement un pr-requis logique une mise en relation efficace. Une fois cette tape acheve, le degr de russite de la formation doit tre valu et faire lobjet dun rapport. La spcification (chapitre 4) : il sagit dun inventaire de ltendue de ce que lexamen recouvre (contenu et types de tches) par rapport aux catgories prsentes dans le CECRL au chapitre 4 : Lutilisation de la langue et lapprenant/utilisateur et au chapitre 5 : Les comptences de lapprenant/utilisateur . Tout en faisant fonction de compte rendu, ces procdures servent galement, dans une certaine mesure, la prise de conscience qui pourra ultrieurement aider lamlioration de la qualit de lexamen en question. Les fiches A2 et A8-A20 du chapitre 4 mettent laccent sur lanalyse des contenus et la relation quils entretiennent avec le CECRL. On peut considrer la spcification comme une mthode essentiellement qualitative : elle apporte des preuves laide darguments fonds sur le contenu . Des mthodes quantitatives (Kaftandjieva, 2007) peuvent galement tre utilises pour la validation des contenus. La formation la standardisation, le calibrage (chapitre 5): les dmarches proposes facilitent la mise en uvre dune comprhension commune des Niveaux communs de rfrence , laide des exemples reprsentatifs des performances orales et crites. Ces procdures renforcent la familiarit avec les niveaux du CECRL, telle quelle a t obtenue grce aux activits prsentes au chapitre 3 (familiarisation). Elles garantissent que les valuations des performances refltent les construits dcrits dans le CECRL. Il est logique de standardiser ainsi par une formation suffisante- linterprtation des niveaux, avant de passer a) au calibrage dexemples de performances locales et de tches/items (partie 5.7), et b) la dfinition de points de csure (chapitre 6). Un calibrage russi dexemples locaux peut venir lappui dune affirmation base sur les rsultats de la spcification. En effet, si les conclusions du processus de calibrage indiquent que les chantillons de performances du test ont t avec succs calibrs sur les niveaux pour lesquels ils avaient t conus, cela confirme laffirmation laquelle on est arriv dans la spcification. La dfinition des points de csure (chapitre 6) : le point crucial dans le processus de mise en relation dun examen avec le CECRL est linstauration dune rgle permettant de dcider si on attribue lun des niveaux du CECRL un candidat, partir de la performance quil a ralise lors de lexamen. On prend gnralement une dcision sur les scores de csure, sur les performances la limite du niveau. Les tapes prcdentes, de familiarisation, spcification et standardisation peuvent tre considres comme des activits prparatoires des dcisions valides et logiques. Le chapitre 6 dcrit les procdures qui mnent aux dcisions finales permettant de dfinir les scores de csure. Le matriel prsent sappuie sur limportante littrature au sujet de la dfinition des points de csure et les procdures prsentes au chapitre 6 ont t choisies parmi les nombreuses procdures disponibles censes convenir au contexte de lvaluation en langues. Des procdures supplmentaires bases sur lexploitation de jugements denseignants et sur la thorie de rponse litem (TRI) pour inclure un critre extrieur (par exemple des items reprsentatifs du CECRL, ou des valuations denseignants utilisant des descripteurs du CECRL) dans une tude de mise en relation, sont prsentes dans le Matriel supplmentaire (Extra Material) fourni par Brian North et Neil Jones. La validation (chapitre 7) : Bien que les tapes prcdentes de familiarisation, spcification, standardisation et dfinition des points de csure puissent tre ralises dans un ordre chronologique, il serait imprudent dattendre que tout soit termin avant dentreprendre les activits de validation, comme si elles constituaient lultime verdict sur la qualit du processus de mise en relation. La validation doit plutt tre considre comme un processus continu de contrle de la qualit, qui peut permettre de rpondre la question gnrale : Avons-nous atteint notre but pour cette activit ? . On a cit plus haut un exemple simple mais nanmoins important : il est important de donner aux participants une formation la familiarisation et la standardisation, mais il est tout aussi important de vrifier si les activits de formation ont atteint leur but ; cest cela quon entend par validation. Certains aspects de la validit ainsi que les procdures permettant de runir des preuves de la validit sont prsents dans ce dernier chapitre (chapitre 7).

11

2.4.

Utilisation du CECRL

Un cadre commun de rfrence permet diffrents examens dtre relis entre eux indirectement sans quils prtendent tre exactement quivalents. Lobjectif dun examen peut varier, mais ce quil recouvre peut tre dfini en relation directe avec les catgories et les niveaux du CECRL. De mme que deux tudiants de niveau B2 sont ce niveau pour des raisons diffrentes, deux examens de niveau B2 auront des aspects qui ne seront pas totalement identiques. Les parties du CECR les plus pertinentes pour effectuer la mise en relation des examens sont : le Chapitre 3 : Les Niveaux communs de rfrence ; le Chapitre 4 : Lutilisation de la langue et lapprenant utilisateur ainsi que les chelles pour les Activits langagires communicatives et pour les Stratgies langagires communicatives; le chapitre 5 : Les comptences de lutilisateur/apprenant , en particulier la partie 5.2 Comptences langagires communicatives ainsi que les chelles qui illustrent les aspects de la comptence linguistique, pragmatique et sociolinguistique. Les utilisateurs de ce Manuel trouveront sur le site du Conseil de lEurope le texte complet du CECRL, les documents qui sy rapportent, ainsi quun certain nombre doutils utiles : Documents : Le CECRL, en anglais et en franais, incluant les annexes. Des liens vers les versions en dautres langues : www.coe.int/portfolio Le Manuel, incluant les annexes. Les fiches et grilles de rfrence du Manuel. Le Supplment de rfrence.

www.coe.int/lang

et

Grilles danalyse de contenus CECRL : grille danalyse de contenus pour la rception orale et crite (parfois appele grille du CECRL nerlandais) : annexe B1. CECRL : grilles danalyse de contenus pour la production orale et crite, dveloppe par ALTE : annexe B2. Descripteurs explicatifs (www.coe.int/portfolio ) Les descripteurs du CECRL (en anglais). La banque de descripteurs du Portfolio europen des langues, montrant la relation entre ces descripteurs et les descripteurs originaux. Un recueil de descripteurs C1/C2 (en anglais), du CECRL et de projets lis au CECRL, indiquant ceux qui sont calibrs sur les niveaux du CECRL et ceux qui ne le sont pas. Echantillons illustrs Documentation des DVD prsentant des chantillons reprsentatifs de productions orales (adultes), disponibles, ce jour, en anglais, franais, italien et portugais1. Documentation du DVD illustrant des productions orales dadolescents en allemand, anglais, espagnol, franais et italien, calibrs au Sminaire de calibrage inter-langues Svres en juin 2008. Echantillons reprsentatifs de productions crites, disponibles ce jour en allemand, anglais, franais, italien et portugais. Items reprsentatifs de rception orale et crite en allemand, anglais, espagnol, franais et italien. Dautres ressources seront ajoutes la Bote outils du CECRL. On en trouvera la liste www.coe.int/lang et www.coe.int/portfolio ds quils seront disponibles.
1

Le DVD en allemand est publi avec sa documentation (Bolton et al., Langenscheidt, 2008).

12

Parties du CECRL particulirement appropries Lutilisateur de ce Manuel trouvera particulirement utiles, dans une perspective globale, les chelles et descriptions de niveaux suivants : Version anglaise Vue densemble des Niveaux communs de rfrence Tableau 1 Niveaux communs de rfrence , Chapitre 3 Partie 3.6 Cohrence de contenu dans les niveaux communs de rfrence Document B5 Cohrence dans le calibrage des descripteurs Niveaux de comptence dans le Cadre de rfrence de ALTE Vue densemble des activits communicatives pp. 26-27 Tableau 2, Grille des Portfolios pour lauto valuation DIALANG Document C3 Echelles descriptives dtailles ALTE Document D1 Rsum des capacits langagires Rception gnrale de loral : chelle Rception gnrale de lcrit : chelle Interaction orale gnrale : chelle Interaction crite gnrale : chelle Production orale gnrale : chelle Production crite gnrale : chelle pp. 26-27 p. 24 pp. 33-36 pp.223-224 pp. 249-250 p. 25 pp. 32-34 pp. 159-160 pp. 176-177 Version franaise

pp. 238-243 p. 251 p. 66 p. 69 p. 74 p. 83 p. 58 p. 61

pp. 170-172 p. 178 p. 55 p. 57 p. 61 p. 68 p. 49 p. 51

Vue densemble des aspects de la comptence langagire communicative Table 3 Aspects qualitatifs de lutilisation de la pp. 28-29 langue parle Etendue linguistique gnrale : chelle p. 110 Correction grammaticale p. 114 Adquation sociolinguistique p. 122 Aisance loral p. 129 p. 28 p. p. p. p. 87 90 95 100

En ce qui concerne les examens lis au monde du travail ou lentre en universit, les utilisateurs trouveront, en outre, les chelles suivantes, particulirement appropries dans la mesure o elles traitent des demandes fonctionnelles. Activits communicatives particulirement pertinentes dans les domaines ducatif et professionnel Comprendre en tant quauditeur Prendre des notes (confrences, sminaires) Lire pour sorienter Lire pour sinformer et discuter Lire des instructions Traiter un texte Echange dinformation Discussions et runions formelles p. p. p. p. p. p. p. p. 67 96 70 70 71 96 81 78 p. p. p. p. p. p. p. p. 56 77 58 58 59 77 67 64

13

Comprendre une interaction entre locuteurs p. 66 natifs Monologue suivi : argumenter p. 59 Sadresser un auditoire p.60 Essais et rapports p. 62

p. 55 p. 50 p. 50 p. 52

Le calibrage des descripteurs du CECRL est dcrite dans lannexe A du CECRL, North (2000a), North et Schneider (1998), et Schneider et North (2000). 2.5. Utilisation du Manuel

Les chapitres suivants concernent les diffrentes tapes du processus de mise en relation. Pour chaque tape, lutilisateur peut choisir parmi lensemble de procdures proposes celles qui correspondent le mieux leur contexte. Le manuel ne prtend pas tre un modle pour la conception dun nouvel examen. En revanche il a vocation encourager une rflexion sur les bonnes pratiques. En fait, les utilisateurs qui ont expriment la premire version ont considr que suivre les procdures indiques permettait une analyse critique et une valuation du contenu et des caractristiques de lexamen et quen fait le rsultat du processus avait autant dimportance que laffirmation de la mise en relation. Le Manuel propose un ensemble de procdures et de techniques de principe qui tayent le processus techniquement complexe et exigeant de mise en relation. Chaque tape suppose un jugement averti. Cest lorganisme certificateur concern quincombe la responsabilit de la mise en place dun processus cohrent et appropri. Cette responsabilit comprend : Une rflexion sur les besoins, les ressources et les priorits dans le contexte concern. Un choix des procdures adquates parmi celles qui sont proposes ou parmi dautres dont fait tat la littrature. Une gestion raliste du projet selon une approche modulaire et par tape qui en assure la qualit. Une collaboration et une mise en rseau avec des collgues dautres domaines professionnels et dautres pays. Une utilisation rflchie des procdures. Une communication fidle des rsultats. Une communication prcise, transparente et dtaille des conclusions. Le schma 2.2 est une reprsentation graphique des tapes du processus de mise en relation avec le CECRL. Il souligne le fait que la mise en relation dun examen ou dun test peut tre considre comme une suite darguments justifiant ses diffrents aspects et proposant des preuves certifiant leur validit au fur et mesure que le processus se dveloppe. Les organismes certificateurs peuvent considrer quils ne peuvent pas tous entreprendre des tudes dans tous les domaines indiqus dans le Manuel. Cependant, mme ceux qui disposent de peu de ressources doivent choisir un certain nombre de techniques dans tous les domaines. Une affirmation selon laquelle un examen est reli au CECRL ne peut tre prise au srieux qu partir du moment o une preuve existe que cette affirmation, fonde sur la spcification (contenus standards) et sur la dfinition des points de csure (performances standards) est confirme par la validation.

14

Les utilisateurs du manuel peuvent se demander avant dentamer le processus de mise en relation : Ce que lapproche propose signifie, de manire gnrale, dans leur contexte. Ce que lapproche propose signifie, de faon plus spcifique (temps, ressources, etc.), dans leur contexte. Si les diffrentes procdures sont praticables dans leur contexte. Sils doivent se concentrer sur une ou plusieurs procdures ou bien appliquer les principes de chacun des cinq ensembles de procdures de faon limite, en particulier si les ressources sont limites. Comment ils vont justifier leur conclusion auprs du grand public et de leurs collgues.

15

16

SCHEMA 2.2. : REPRESENTATION GRAPHIQUE DES PROCEDURES PERMETTANT DE RELIER LES EXAMENS AU CECRL
En fonction des diffrents contextes dvaluation, des ressources et de lexpertise dont il dispose, chaque utilisateur reliera ses examens au CECRL en suivant les procdures recommandes avec un degr de rigueur plus ou moins lev.

Processus dargumentation

FAMILIARISATION AVEC LE CECRL

SPECIFICATION

DEFINITION DES POINTS DE CESURE


Standardisation des valuations

VALIDATION

Validit du test validit de contenu aspects oprationnels (pr-tests et exprimentation)) aspects psychomtriques

Description et analyse de la qualit du test : o contenu gnral de lexamen o processus dlaboration o correction, notation, rsultats o analyse de lexamen et rvision

Formation lvaluation des performances par rapport aux niveaux du CECRL laide dchantillons reprsentatifs

Formation lvaluation de la difficult des items par rapport aux items reprsentatifs du CECRL

Sances dvaluation
Description du test en relation avec le CECRL o Estimation gnrale du niveau de lexamen o Activits communicatives values o Aspects de la comptence langagire communicative value o Reprsentation graphique de lexamen Calibrage dchantillons locaux de performances sur les niveaux du CECRL Attribution de niveaux du CECRL des items et des tches locaux Validit de la dfinition des points de csure Validit procdurale Validit interne Validit externe

Etablissement des scores de csure

Justification documente de la relation avec le CECRL sur la base de la spcification )

Justification documente (sur la base Justification documente (confirmation de la spcification et de la standardisation) sur la base de la vrification empirique)

17

18

Chapitre 3 : Familiarisation
3.1. 3.2. 3.3. 3.4. 3.5. Introduction Activits pralables au sminaire Activits introductives pendant le sminaire Analyse qualitative des chelles du CECRL Prparation lvaluation

3.1.

Introduction

Avant dentreprendre les activits de Spcification et de Standardisation, il faut organiser des tches de familiarisation pour que les personnes impliques dans une dmarche de mise en relation de leurs examens avec les niveaux du Cadre aient une excellente connaissance de ce processus. Lexprience tire des tudes de cas et les sminaires de calibrage produisant des DVD ont mis en vidence que de nombreux professionnels du domaine des langues participant un projet de mise en relation ont, en fait, un niveau de familiarisation avec le CECRL bien infrieur celui quils pensent avoir. Alors que la plupart des professionnels connaissent bien les tableaux du CECRL plus globaux (tableau 1 : chelle globale et tableau 2 : grille dauto-valuation du Portfolio), beaucoup nont pas une ide trs prcise des caractristiques de la comptence de lapprenant aux diffrents niveaux dans les diffrentes capacits langagires. Il faut faire une diffrence entre la familiarisation avec le CECRL, avec les instruments dvaluation utiliser et avec les activits entreprendre. Il ny a pas de frontire nette entre la fin de la familiarisation et le dbut de la spcification ou de la standardisation ; chaque fois, les premires activits de la tche principale sinscrivent dans le continuum du processus de familiarisation. Il faut aussi prendre en compte ce qui est en jeu et avoir lesprit le public et les applications par un panel slectionn dexperts ou lapplication du CECRL par une quipe ou lchelle dune institution. Il faut aussi se demander quelles activits de mise en relation pourront servir comme introduction une session spcifique de familiarisation. Le temps que les individus vont consacrer aux activits de familiarisation dpend essentiellement du degr de familiarit quils ont avec le CECRL. La dure que prendra le processus de familiarisation dans sa totalit (repris avant les activits de spcification et de standardisation) dpendra de lobjectif et de limportance du projet de mise en relation. Les membres du groupe de travail peuvent aussi tre nettement influencs par des normes institutionnelles locales donnes aux niveaux du CECRL, ainsi que par leurs interprtations des descripteurs ou par les variantes locales des descripteurs du CECRL. De plus, ils ignorent souvent quil existe une diffrence entre le niveau des descripteurs du CECRL (dans toutes les sous-chelles ainsi que dans les tableaux rcapitulatifs 1,2 et 3) et les niveaux plus du CECRL (que lon trouve uniquement dans les sous-chelles). Il est important que ceux qui sont impliqus dans le processus de mise en relation se concentrent sur les descripteurs du CECRL et ne se laissent pas influencer outre mesure par des descripteurs reprsentant une performance exceptionnelle ce niveau (un niveau plus ). Cest avec ces lments lesprit que ce chapitre propose des activits de familiarisation dans les quatre parties indiques ci-dessous. Ces techniques sont expliques plus en dtail dans la suite du chapitre. Il est vivement conseill aux utilisateurs de slectionner des activits dans chaque partie au dbut des processus de Spcification et de Standardisation.

19

Activits pralables au sminaire Avant un atelier de familiarisation, il faudrait que chaque membre de lquipe responsable du projet entreprenne plusieurs activits bien cibles qui rappellent les aspects importants des niveaux du CECRL. a) Lire la section 3.6 du CECRL (version franaise pages 32 34) qui dcrit les principales caractristiques des niveaux, issues des descripteurs reprsentatifs. b) Slectionner les questions se trouvant dans lencadr la fin des parties concernes du chapitre 3 du CECRL (Niveaux communs de rfrence), chapitre 4 (Lutilisation de la langue et lapprenant/utilisateur) et chapitre 5 (Les comptences de lutilisateur/apprenant). c) Aller sur le site CEFT (www.CEFTrain.net), qui se concentre sur les caractristiques des niveaux et qui propose, uniquement pour langlais, des exemples de vidos, des textes et des chantillons ditems dexamens pour lenseignement dans le primaire, le secondaire et lenseignement aux adultes. Activits introductives pendant le sminaire d) Choisir le texte concernant les diffrents niveaux dans le tableau A1 de ce manuel, qui rsume les traits caractristiques des niveaux communs de rfrence (CECRL 3.6). e) Faire une auto-valuation de son niveau de langue dans une langue trangre laide du tableau 2 du CECRL (grille dauto-valuation du PEL) suivie dune discussion en tandem. Analyse qualitative des chelles du CECRL f) Trier selon leur niveau ou leur rang les descripteurs dune chelle du CECRL pour une capacit langagire. Par exemple, pour la production orale, on peut utiliser les descriptifs de laspect qualitatif Aisance ou bien deux ou trois niveaux du CECRL apparents (par exemple Conversation, tours de parole dans la Discussion informelle). Pour raliser cette activit, on dcoupe les descripteurs qui composent lchelle.

g) Reconstituer le tableau 2 du CECRL partir des descripteurs de chaque case. Prparation pour lvaluation des capacits langagires de production orale et crite h) Reconstituer la grille dvaluation du CECRL qui va tre utilise et dans laquelle certaines cases sont vides. Si le sminaire commence par la production orale, ce sera le tableau 3 du CECRL (tableau C2 du Manuel). Si le sminaire commence par la production crite, ce sera le tableau C4 de ce Manuel (ou rciproquement). i) Montrer des performances filmes dapprenants sur les DVD illustrant les niveaux du CECRL dans la langue concerne. Activits pralables au sminaire

3.2.

Les organisateurs dactivits de familiarisation doivent bien faire la diffrence entre une prsentation du CECRL et un sminaire/atelier de familiarisation. Alors que la premire vise prsenter de faon gnrale limportance et le contenu du CECRL des fins diverses, la familiarisation est suppose assurer une connaissance suffisamment fine des niveaux du CECRL pour analyser et valuer des tches dexamens et des performances en rapport avec eux. Le sminaire de familiarisation sera dautant plus utile et russi que le coordinateur aura runi les documents ncessaires et les informations permettant aux participants de sy prparer en leur faisant parvenir un paquet de pr-tches (par envoi postal ou par courrier lectronique) 2 3 semaines avant le sminaire. Cela donnera loccasion aux participants qui ont dj assist une prsentation du CECRL de rafrachir leur mmoire

20

et aux autres dtudier le matriel de prsentation du CECRL. Quel que soit le degr de familiarisation des participants avec le CECRL, le coordinateur doit les informer quune prparation latelier suppose un minimum de 3 5 heures de travail si on prend en compte les trois activits. Aprs la premire information sur le CECRL, une des activits suivantes peut tre choisie pour commencer le sminaire lui-mme ou pour contribuer la cohsion du groupe. a) Lecture de la partie 3.6 du CECRL (dont le tableau A1) On recommande cette activit aux organisateurs qui ne connaissent pas avec certitude le degr de familiarisation des participants avec les niveaux du CECRL mais elle peut aussi rafrachir la mmoire des connaisseurs. On demande aux participants de prendre connaissance des niveaux du tableau A1 et du texte de la partie 3.6. pour pouvoir identifier les caractristiques de chaque niveau et indiquer de faon sre le niveau atteint par des apprenants avec lesquels ils travaillent. Le travail qui a t fait individuellement avant le sminaire peut tre repris comme activit introductive ou pour rompre la glace . b) Prise en compte dune slection des questions du CECRL de lencadr Cette activit convient plutt une majorit de professionnels qui sont supposs avoir une certaine connaissance des niveaux du CECRL (qui ont par exemple travaill avec le CECRL ou qui connaissent les niveaux). Lobjectif de lexercice est de leur faire prendre conscience des nombreux aspects prendre en compte lors de la conception et de lanalyse des tches dexamens ainsi que de ltendue de ce que le CECRL recouvre. On peut organiser cette activit suivant diffrentes modalits : On peut photocopier une liste de contrle telle que celle qui est prsente ci-dessous, centre sur la production orale pour amener les participants rflchir aux diffrents aspects en jeu dans lvaluation de la production orale. Les personnes qui utilisent le Cadre pour analyser et valuer les Appropri ? performances de production orale envisageront et expliciteront selon le cas : Pourquoi ? comment les conditions matrielles dans lesquelles lapprenant sera amen communiquer affecteront ce quil doit faire ; comment le nombre et la nature des interlocuteurs affecteront ce que lapprenant doit faire ; avec quelles contraintes de temps lapprenant devra effectuer sa performance ; dans quelle mesure les apprenants devront sadapter au contexte mental de leur interlocuteur ; comment tenir compte de la perception du niveau de difficult dune tche pour lvaluation de sa ralisation russie et pour l(auto) valuation de la comptence communicative de lapprenant.

Les coordinateurs peuvent slectionner les questions des encadrs du CECRL qui leur semblent pertinentes et laborer une nouvelle liste de contrle en fonction des capacits langagires sur lesquelles le groupe travaillera. Les coordinateurs peuvent sinspirer du travail accompli par les participants lors de cette activit quand ils discuteront des exercices consistant trier (f-g) la partie 3.4.

21

c) Avoir accs au site de formation CEFTrain Le projet CEFTrain2 a consist choisir des activits visant familiariser les professeurs avec les niveaux du CECRL. Il comprend des exercices avec les chelles du CECRL, les tches et les performances (pour des enseignements dans le primaire, le secondaire et lenseignement aux adultes) qui ont t analyses et mises en relation avec les niveaux du CECRL en tenant compte des avis partags des membres du projet. Ce site est trs utile car il propose aux participants un exemple de ce qui va se faire pendant le sminaire. On conseille aux participants de fixer leur attention sur les capacits langagires qui correspondent leurs proccupations et dont il sera question pendant le sminaire. 3.3. Activits introductives pendant le sminaire

Aprs avoir accueilli les participants, le coordinateur doit sassurer quils ont bien compris la finalit du sminaire et son organisation. La premire activit du sminaire consiste prsenter brivement limportance du CECRL pour lvaluation ; par la suite, le coordinateur organisera une ou deux des activits prsentes ci-dessous, tout en sassurant que les participants rinvestissent le travail fait avant le sminaire. d) Tri du texte des diffrents niveaux du tableau A1 Cest une activit qui permet de faire le lien avec le travail fait individuellement avant le sminaire. Lexercice consiste demander aux participants de trier les traits caractristiques du tableau A1 du manuel qui est une simplification de la partie 3.6 du CECRL. Il faut supprimer les rfrences aux niveaux pour que les participants soient obligs de lire attentivement les descripteurs. Le coordinateur distribue une feuille avec les descripteurs dans le dsordre et la tche consiste attribuer des niveaux A1 C2 aux descripteurs. Une fois le travail achev, le coordinateur distribue le tableau A1 avec les rponses. Le coordinateur demande ensuite aux participants dchanger- en tandem ou en petits groupes - leurs points de vue sur les traits caractristiques de chaque niveau du CECRL, selon la lecture quils ont faite du tableau A1 et de la partie 3.6 (activit a) du CECRL et de lexercice de tri quils viennent dachever. La meilleure faon de procder est de demander aux participants de surligner les lments clefs. On peut demander aux participants quel est le niveau qui leur semble le plus appropri dans leur activit professionnelle, puis leur demander de former des groupes de mme niveau et distribuer une liste de contrle des descripteurs du niveau, comme celle du prototype suisse du PEL disponible sur le site www.sprachenportfolio.ch/esp_e/esp15plus:index.htm (slectionner dans le menu de gauche : ELP model 15+ ; Learners ; Downloads).

e) Auto- valuation avec le tableau 2 du CECRL Cette activit est un bon point de dpart pour des groupes de participants qui connaissent dj le Portfolio. Le tableau 2 reprsente une partie importante du PEL et on en parle souvent comme de la grille du PEL .

Le projet CEFTrain est un projet europen Socrate dont lUniversit dHelsinki a assur la coordination avec des partenaires de quatre pays : lItalie, lAutriche, lAllemagne, et lEspagne, et la participation de Neus Figueras, une des auteures de ce manuel.

22

On demande aux participants de faire une auto-valuation de leur comptence dans deux langues trangres laide de la grille du PEL (Tableau 2 du CECRL). Ils en dbattent ensuite avec leurs voisins. Limportance de cette discussion ne doit pas tre sous-estime. La discussion doit tre dirige de telle faon que les participants prennent conscience de lexistence de profils non uniformes. Le coordinateur explique alors comment le CECRL prend en compte cette non uniformit et encourage sa reconnaissance. On peut avantageusement complter cette auto-valuation (conseille aux utilisateurs du PEL) en consultant une liste de contrle des descripteurs du CECRL, telle quon la trouve dans le prototype suisse du PEL dj mentionn, correspondant au niveau en question. On peut galement demander aux participants dauto-valuer leur niveau en termes de qualit : dans quelle mesure font-ils bien ce quils disent savoir faire ? Pour ce faire, on peut utiliser : a) soit le Tableau 3 du CECRL (tableau C2) qui dfinit chaque niveau pour : ltendue linguistique, la correction grammaticale, laisance, la cohrence et linteraction. b) soit lchelle correspondant lAisance (CECRL p.100) et lchelle pour la Correction grammaticale (CECRL p.90)

3.4.

Analyse qualitative des chelles du CECRL

Une fois les activits introductives acheves, il faut poursuivre la familiarisation par un travail dapprofondissement des niveaux du CECRL et par des discussions sur les descripteurs spcifiques de la comptence. Le coordinateur doit choisir au moins lune des deux options suivantes. f) Tri des descripteurs isols dune chelle du CECRL

Lactivit de tri de descripteurs a t largement exprimente dans le projet suisse dlaboration des descripteurs, dans la conception du PEL dans des contextes diffrents et dans plusieurs projets finlandais. Cette tche a le mrite dobliger les participants examiner les descripteurs indpendamment les uns des autres comme des critres autonomes. Elle exige toutefois quon la prpare et quon en fasse une activit relativement simple. Le coordinateur prpare des enveloppes lavance pour chaque participant ou pour un tandem. Chaque enveloppe contient une ou plusieurs chelles dont les descripteurs ont t dcoups en bandes. Si lon mlange des chelles apparentes (par exemple, Conversation, tours de parole dans la Discussion informelle), on doit sassurer que le nombre de descripteurs isols nexcde pas 40 ! En dcoupant les descripteurs, il faut veiller supprimer la ligne de sparation entre deux descripteurs conscutifs afin de ne pas donner dindication sur la capacit ou lincapacit du coordinateur couper droit ! On demande aussi aux participants de ne rien crire sur les bandes pour pouvoir les rutiliser. Individuellement ou par deux, les participants trient alors les descripteurs selon leur niveau. Ils peuvent commencer avec A , B ou C quils divisent ensuite ou se lancer tout de suite dans les six niveaux, sils le souhaitent. Ils en discutent ensuite avec les autres participants afin darriver un consensus.

23

Puis ils comparent avec la bonne rponse.

Il faut sattendre ce que certains descripteurs ne se retrouvent pas leur place mais, en rgle gnrale, si lon a pris le temps ncessaire pour atteindre un consensus, lordre trouv sera plus ou moins le mme que celui des chelles du CECRL. g) Reconstitution du Tableau 2 du CECRL

Cette activit est une variante de la prcdente mais elle utilise le tableau 2 du CECRL (grille du PEL) elle-mme labore partir des descripteurs du CECRL plutt que les chelles du CECRL. On peut utiliser lensemble des chelles (6 activits langagires x 6 niveaux = 36 descripteurs) ou une version plus simple (une seule colonne = 6 descripteurs). L aussi, la meilleure faon de procder est de mettre les cases dcoupes dans une enveloppe. On distribue la grille vierge agrandie au format A3 de la grille du PEL dont les cases ont t vides de leur contenu. On demande aux participants de replacer les descripteurs dans les cases convenables. Pour viter de faire perdre du temps aux participants, on peut affecter les descripteurs de symboles correspondant aux diffrentes capacits langagires. Il est en effet inutile de leur faire trouver que Je peux utiliser des expressions et des phrases simples pour dcrire lendroit o je vis et les gens que je connais est un descripteur de Production orale. Cette activit peut aussi tre mene en vidant de leur contenu la moiti seulement des cases. Il est recommand de procder ainsi avec des grands groupes ou dans des salles dans lesquelles il ny a que de petites tables.

On a constat que la combinaison de cette activit de reconstitution avec lauto-valuation de son propre niveau de langue (c : voir ci-dessus) tait particulirement efficace si on la pratiquait comme suit : En petits groupes, les participants lisent attentivement chaque descripteur et en discutent pour reconstituer le tableau. Le coordinateur contrle le travail de groupe et aide clarifier les doutes sur linterprtation des diffrents descripteurs. Le coordinateur distribue une copie du Tableau 2 achev et complet pour que les participants vrifient leur exercice de reconstitution et pour faciliter la discussion. On demande aux participants de faire une auto-valuation de leur propre connaissance des langues trangres (dabord individuellement) puis den discuter avec le groupe en se rfrant au Tableau 2 du CECRL Niveaux communs de comptences Grille pour lauto-valuation . Prparation lvaluation

3.5.

Une fois que lon sest assur que les participants se sont familiariss avec les niveaux du CECRL, on peut entamer la dernire tape de familiarisation. Cela suppose une prparation plus pousse lvaluation de tches et de performances dans les diffrentes capacits langagires. Sil sagit dvaluer des tches de rception crite ou orale, le coordinateur peut dcider de ne pas faire lactivit (i). Par contre lactivit (h) est obligatoire pour chaque capacit langagire avant de commencer lvaluation. h) Reconstitution de la grille du CECRL utiliser

Le coordinateur va prparer cette activit partir de lchelle quil va utiliser pour valuer les tches ou performances.

24

Lexercice est organis exactement de la mme faon quen (f) (tri des descripteurs du CECRL). Au lieu de trier les descripteurs dcoups et mis dans une enveloppe, on peut utiliser une fiche type dune liste de contrle avec, dans le dsordre, les descripteurs de la capacit langagire. Cest ensuite aux participants de rattacher chaque descripteur au niveau correspondant (comme cela est dcrit dans le (d) ci-dessus). A lissue des discussions sur les descripteurs et les corrections apportes en grand groupe, le coordinateur distribue une liste de contrle complte avec les rponses. i) Exemples films reprsentatifs de performances dtudiants.

Cette activit donne une trs bonne ide correspondant la ralit des niveaux du CECRL. Elle est tout fait approprie mme si les participants ne vont pas travailler sur la production orale. Le coordinateur ne peut mener bien cette activit que sil peut avoir accs aux chantillons de performances du CECRL (www.ciep.fr/publi_evalcert/dvd-productions-oralescecrl/index.php ). Il faut choisir avec soin les performances les plus appropris, en termes de niveau et dge. La procdure suivre peut tre la suivante : Le coordinateur fait visionner la performance et demande aux participants dattribuer un niveau en utilisant le tableau A1. On distribue ensuite aux participants, avant quils ne discutent entre eux, le tableau 3 du CECRL (Tableau C2) et on leur demande de confirmer le niveau choisi individuellement. Le coordinateur demande ensuite aux participants de discuter, en petits groupes, du niveau quils ont attribu en se rfrant au tableau 3 du CECRL (tableau C2). Le coordinateur annonce ensuite le niveau attribu la performance et distribue les commentaires qui justifient du niveau attribu (voir le site ci-dessus), toujours en se rfrant aux descripteurs du tableau 3 du CECRL (tableau C2). Tableau 3.1 : Gestion du temps pour les activits de Familiarisation Familiarisation Ces activits peuvent tre organises indpendamment de toute autre activit de formation. On peut les utiliser au dbut des activits de Spcification et de Standardisation. Elles durent environ 3 heures : Brve prsentation du CECRL par le coordinateur Activits introductives (d - e) et discussion Activits qualitatives (f - g) y compris le travail de groupe Prparation lvaluation (h-i) Conclusion (30 minutes) (45 minutes) (45 minutes) (30 minutes) (15 minutes)

Tableau 3.2 : Documents prparer pour les activits de familiarisation Ensemble de documents envoyer par courriel ou par la poste aux participants avant la rencontre - Tableau 1 du CECRL - Partie 3.6 - Listes de questions reprenant les encadrs du CECRL les mieux adapts la situation ( la fin de chaque chapitre). Copies des descripteurs dans le dsordre des traits caractristiques du tableau 2.1 pour tous les participants

25

Copies du Tableau A1 du manuel pour tous les participants Copies du tableau 2 du CECRL pour tous les participants (tous contextes) Versions dcoupes du Tableau 2 du CECRL en vue du travail de groupe (tous contextes, un ensemble par enveloppe, une enveloppe pour chaque groupe de travail) Descripteurs dcoups des chelles appropries du CECRL pour lvaluation choisie (pour entrer dans le dtail dune comptence particulire : une chelle dcoupe par enveloppe, une enveloppe pour chaque sous-groupe de travail). par exemple : pour la Production orale : (1) Interaction orale gnrale, (2) Aisance loral, (3) Etendue linguistique gnrale ; pour la rception orale : (1) Comprhension gnrale de loral, (2) Comprendre une interaction entre locuteurs natifs, (3) Comprendre des missions de radio et des enregistrements).

Copies de listes de contrle de descripteurs3 pour un ou deux niveaux particuliers, choisies sur lensemble des chelles du CECRL (pour entrer dans le dtail dun niveau donn). Copies du tableau 3 du CECRL (tableau C2) quand ncessaire. Slection de deux chantillons reprsentatifs de performances dtudiants filmes en vido Documentation sur les chantillons de performance utiliss.

Les utilisateurs du manuel peuvent se demander : jusqu quel point les participants se sont familiariss avec les finalits et les fonctions du CECRL ; quelle est la meilleure stratgie pour renforcer la familiarisation avec le CECRL ; sil est ncessaire de demander aux groupes de lire ou relire certains chapitres ou des parties en supplment du 3.6 du CECRL ; quelles questions de lencadr peuvent tre utiles ; sil serait judicieux de donner une tche prliminaire sur le CEFRL, de recueillir le travail et lanalyser ou le faire de faon informelle ; quelles seraient les chelles de niveaux le plus utiles pour effectuer les exercices de tri ; sil faut montrer des chantillons reprsentatifs du DVD cette tape ; Si un moyen tel quun quiz serait appropri pour savoir sil est ncessaire de renforcer la familiarisation ; Si les rsultats de cette tape de familiarisation entranent une modification de lorganisation.

A cet effet, nutiliser que des descripteurs valids du PEL : il faudrait pouvoir faire correspondre chaque descripteur adapt du PEL au descripteur dorigine du CECRL - comme ce qui est fait dans la base de donnes de descripteur de Gnther Schneider et Peter Lenz dans www.coe.int/portfolio

26

Chapitre 4 : Spcifications
4.1 4.2 4.3 Introduction Description gnrale de lexamen Outils disponibles pour la spcification 4.3.1 Tableaux et fiches 4.3.2 Grilles danalyse de contenus 4.3.2.1 4.3.2.2 Grille danalyse du CECRL pour la rception orale et crite Grille danalyse du CECRL pour la production orale et crite

4.3.3 Ouvrages de rfrence 4.4 Procdures

4.5 Dclaration du niveau : reprsentation graphique de la relation de lexamen avec les niveaux du CECRL

4.1.

Introduction

Ce chapitre traite de lanalyse du contenu dun examen ou dun test dans le but de dcrire le ou les niveaux du CECRL quils recouvrent. La procdure propose peut prendre la forme dun dbat ou dune analyse individuelle suivie dun dbat. Au final, en se fondant sur les spcifications, linstitution disposera de descriptions dtailles lui permettant de dclarer le degr de relation de ses examens avec les catgories et les niveaux du CECRL. Toutefois, comme cela a t prcis dans le chapitre 2, la dclaration du degr de relation nest recevable que si, paralllement, sont apportes, pour toutes les tapes du dveloppement et de ladministration de lexamen ou du test, des preuves de bonnes pratiques, dune validit interne convenable et de procdures adquates assurant la qualit. Ce chapitre a trois objectifs : Contribuer sensibiliser encore plus : limportance dune bonne analyse du contenu de lexamen de langue ; au CECRL et particulirement ses chelles de descripteurs ; aux raisons de relier les examens de langue un cadre de rfrence international tel que le CECRL ; aux moyens dutiliser le CECRL pour la planification et la description des examens de langues. Dfinir des normes minimales pour : la qualit des contenus des spcifications des examens de langue ; le processus de mise en relation des examens avec le CECRL. Apporter aux utilisateurs une aide adapte pour : complter lanalyse de contenus et le processus de mise en relation proposs ; apporter la preuve de la cohrence interne et de la validit du construit ; faire une dclaration de niveau qui rendra les rsultats des examens en question plus transparents, la fois pour les utilisateurs de ces rsultats et les candidats euxmmes.

27

Les procdures de spcifications exposes dans ce chapitre impliquent 4 tapes : assurer une familiarisation convenable avec le CECRL (chapitre 3) ; analyser le contenu de lexamen ou du test en question par rapport aux catgories pertinentes du CECRL ; lutilisateur devra dcrire un domaine valu dans son examen ou son test et qui savrerait non trait dans le CECRL; mettre en relation lexamen ou le test avec lchelle de descripteurs adquate du CECRL, sur la base de lanalyse de contenus ; faire une premire dclaration sur le degr de mise en relation de lexamen ou du test avec lun des niveaux du CECRL, en se fondant sur lanalyse de contenus. Ces procdures impliquent trois types dactivits : les activits de familiarisation dcrites dans le chapitre 3 ; la description dtaille du contenu de lexamen de langue, consigne dans un certain nombre de fiches compltes ; lutilisation des descripteurs adquats du CECRL afin de relier lexamen de langue ses niveaux et ses catgories. Ces procdures lies aux spcifications donnent aux concepteurs dexamens loccasion : dtre encore plus sensibles limportance dune bonne analyse du contenu dun examen ; de se familiariser avec lutilisation du CECRL pour la planification et la description des examens de langue ; de dcrire et danalyser en dtail le contenu dun examen ou dun test ; de fournir la preuve de la qualit de leur examen ou de leur test ; de fournir la preuve de la relation de leur examen ou de leur test avec les niveaux du CECRL ; dapporter des conseils aux rdacteurs ditems ; daccrotre, pour les enseignants, les valuateurs, les utilisateurs dexamens et les candidats, la transparence des contenus, de la qualit et de la relation dun examen ou dun test avec le CECRL. Les fiches complter ont une fonction de sensibilisation (processus) et seront utilises pour tayer la dclaration qui sera faite (produit final). Les procdures dcrites ici ont t spcialement conues pour ce Manuel. Il en existe cependant dautres. Les utilisateurs de ce Manuel peuvent consulter des procdures danalyses descriptives permettant de relier un examen un cadre de rfrence (par exemple Alderson et al. 1995, Chapitre 2 ; Davidson et Lynch, 1993, 2002 ; Lynch et Davidson, 1994, 1998). 4.2. Description gnrale de lexamen

La premire tape consiste en une dfinition et une description claire de lexamen ou du test que lon va relier au CECRL. La validit interne est-elle acceptable ? Pourrait-on recommander un travail dapprofondissement de certains domaines afin daccrotre ou de confirmer la qualit de lexamen et donc le srieux des rsultats de la mise en relation avec le CECRL ? Lexprience acquise lors des tudes de cas qui ont guid la rdaction de lavant-projet du prsent manuel a montr que cette dmarche permettait de remettre en question certains aspects oprationnels de lexamen et refltait bien jusqu quel point lexamen et les procdures qui lui sont associes, remplissait ses objectifs. Ce processus de sensibilisation ne peut tre entrepris par une seule personne (chercheur ou membre de lquipe). Cet exercice met parfois en vidence un manque de cohrence entre les spcifications officielles de lexamen qui nont peut-tre pas t modifies depuis des annes- et lexamen lui-mme tel quil a t administr rcemment. Lexercice est assurment plus facile sil existe des spcifications formelles de lexamen. Sil nen existe pas, le procd consistant complter les fiches de ce chapitre aidera lutilisateur prendre en compte certains aspects qui devraient faire partie intgrante de ces spcifications.

28

On trouvera les fiches suivantes en annexe, partie 2 : A1 : Description gnrale de lexamen A2 : Conception de lexamen A3 : Correction A4 : Notation A5 : Communication des rsultats A6 : Analyses des donnes A7 : Justification des dcisions Avant de complter les fiches, lutilisateur doit se munir dune part des spcifications et dautre part des copies des trois derniers examens administrs aux candidats. Sil sagit de relier au CECRL une suite dexamens de diffrents niveaux, une fiche par examen devra tre complte. La fiche A1 permet de dfinir les buts et les objectifs de lexamen ainsi que sa population cible. Elle permet galement davoir une vue densemble des activits communicatives values, des diffrentes preuves ainsi que des renseignements fournis et de la faon dont les rsultats sont communiqus aux utilisateurs (candidats et centres dexamens). Les fiches A2 A6 dcrivent les tapes les plus importantes du cycle de conception, dveloppement et administration dun examen. On y consignera des informations sur la conception, la correction, la notation, la faon de communiquer les rsultats et les analyses de donnes : Fiche A2 : processus de conception Fiche A3 : critres de correction et barmes de notation pour chaque preuve Fiche A4 : notation et procdures de dfinition des points de csure pour chaque preuve Fiche A5 : communication des rsultats Fiche A6 : analyses et procdures de rvision Fiche A7 : (justification des dcisions). Le concepteur dexamen pourra ici expliquer et justifier ses dcisions. Par exemple, pour quelles raisons certains domaines sont valus et dautres non ? Pourquoi une pondration particulire est-elle utilise ? Pourquoi la double correction nest-elle quexceptionnellement mise en uvre ? Pour quelle raison ne fournit-on pas les rsultats par preuve ou par capacit langagire ? Cela relve-t-il dun problme de fiabilit ou dune dcision politique ? Fiche A8 : elle permet de consigner lestimation initiale de linstitution quant au niveau global du CECRL valu par lexamen. Estimation initiale du niveau global du CECRL B1 B2

A1 A2

C1 C2

Brve justification, rfrences de la documentation :

Fiche A8 : Estimation initiale du niveau global du CECRL Le processus dtaill de spcification est expos dans les fiches A9 A22 (cf. annexe A, parties A2-A5). La fiche A23 prsente les rsultats du processus de spcification sous la forme dun graphique illustrant les catgories et les niveaux pertinents du CECRL couverts par lexamen analys. Cette fiche est traite et illustre au 4.5. Les procdures sont strictement les mmes pour un examen de langue gnrale et pour un examen sur objectifs spcifiques. Le CECRL prend en effet en compte les diffrents

29

domaines (public, personnel, ducationnel et professionnel). De mme, si les activits de communication langagire sont regroupes dans les catgories Rception, interaction, production et mdiation plutt que sous les quatre capacits langagires traditionnelles, cest afin de pouvoir prendre en compte efficacement les objectifs spcifiques ducationnels et professionnels. 4.3. Outils disponibles pour la spcification

Ces outils lis au CECRL sont de trois types. Outre le CECRL lui-mme, traduit, la date de cette publication, en 36 langues, on trouvera : Les tableaux et les fiches annexs ce Manuel. Les grilles danalyses de contenus qui permettent de dtaill de faon extrmement fine les tches proposes dans lexamen, en les classant selon des critres standards. Les rfrentiels pour les diffrentes langues, particulirement utiles pour les spcifications linguistiques. 4.3.1. Tableaux et fiches Ce chapitre propose une srie de tableaux tirs des chelles de descripteurs du CECRL et accompagns de fiches complter. Le CECRL tant extrmement dtaill, le nombre de fiches est considrable. Elles sont disponibles dans les parties A2 A5 des annexes ainsi quen tlchargement sur le site www.coe.int/lang Il existe des fiches et des tableaux associs pour chaque activit langagire communicative (chapitre 4 du CECRL) ainsi que pour les aspects de la comptence langagire communicative (chapitre 5 du CECRL). Les fiches apportent une analyse dtaille de lexamen ou du test en question et permettent de les relier aux sous-chelles appropries du CECRL. Pour la plupart des fiches, une brve description, une rfrence et/ou une justification sont demandes. Dans les tudes de cas qui ont conduit la rdaction de ce manuel, plusieurs utilisateurs ont indiqu que complter ces fiches savrait tre une bonne mthode pour reconsidrer ce que recouvre un examen et pour rvaluer sa fiabilit. 4.3.2. Grilles danalyse de contenus Les grilles danalyse de contenus du CECRL pour la rception orale et crite ainsi que pour la production orale et crite ont t conues pour que les utilisateurs de ce Manuel puissent dcrire leur examen de faon bien plus dtaille que ce que permettent de faire les souschelles du CECRL et les tableaux de lannexe A, cits au paragraphe 4.2. En effet, chaque tche individuelle propose dans lexamen y sera rpertorie. Dans les tudes de cas qui ont conduit la rdaction de ce Manuel, certains utilisateurs ont plbiscit ces grilles, les trouvant beaucoup plus utiles que les fiches utilises actuellement. Ceux qui souhaiteront saider du Manuel pour dvelopper un nouvel examen ou pour analyser de faon critique un examen ou un test prcis trouveront sans doute ces grilles particulirement utiles. Des grilles vierges ainsi que des grilles compltes titre dexemple peuvent tre tlcharges sur le site www.coe.int/portfolio

30

4.3.2.1.

Les grilles danalyse de contenus pour la rception orale et crite

Les grilles danalyse de contenus pour la rception orale et crite du CECRL sont en ligne et permettent aux concepteurs dexamens et de tests danalyser les preuves de rception orale et crite afin de les relier au CECRL4. La grille permet de consigner, partir dune srie de choix tirs directement ou indirectement du CECRL, les caractristiques de chaque tche, de chaque support, de chaque item de lexamen ou du test : source, type de discours, niveau de difficult estim, etc.). Une excellente connaissance du CECRL est naturellement ncessaire pour pouvoir utiliser les grilles de faon totalement efficace. Une composante familiarisation avec le CECRL est par consquent comprise dans cette procdure afin dapporter des conseils plus approfondis. Un lien avec la version en ligne des grilles est disponible ladresse www.coe.int/portfolio Le lien direct est www.lancs.ac.uk/fss/projects/grid On trouvera une version papier des grilles en annexe B. La version papier permet de complter les grilles avec les nouvelles catgories lies aux programmes (curriculum/syllabus). Si les grilles ont t conues pour lanalyse des preuves de rception orale et crite, elles sont cependant galement utilisables pour la conception dpreuves de rception. Dans certaines tudes de cas, elles ont t utilises pour la formation la standardisation (cf. chapitre 5). 4.3.2.2. Les grilles danalyse de contenus pour la production orale et crite

Les grilles danalyse des tches de production orale et crite du CECRL ont t aussi conues pour aider les utilisateurs dcrire de faon standardise les caractristiques des tches de leurs examens, et leur relation avec le CECRL. Les grilles5, modifiables en tant que de besoin, sont toutes disponibles sur le site du Conseil de lEurope. Deux modes dutilisation sont possibles pour chacune des deux grilles : un pour lanalyse et lautre pour la prsentation du rapport. Pour plus dinformation sur les grilles, cf. lannexe B2. Grilles pour lanalyse ( Donnes dentres ) : lutilisation de ces deux grilles convient lors dateliers dans lesquels les participants les compltent pour une srie de tches donnes. Lobjectif est alors de prciser les caractristiques des tches, les performances attendues (longueur de la rponse, type de discours, registre, etc.), les outils de classement et les commentaires faits aux candidats. Un exemple de tche est accompagn de cette analyse, dun chantillon de rponses et de la note attribue ainsi que dun commentaire. Les grilles sont utiles pour former les concepteurs de tches la standardisation des tches prsentes pour diffrentes langues, au mme niveau.

Un groupe de travail constitu de J. Charles Alderson (coordinateur du projet), Neus Figueras, Henk Kuijpers, Gnther Nold, Sauli takala et Claire Tardieu, a dvelopp, sur financement du ministre nerlandais de lEducation, un outil permettant de dcrire et de classer les tches de rception orale et crite en suivant au plus prs les descripteurs du CECRL. A laide dun second financement de ce ministre, le groupe a ensuite conu une version lectronique de cet outil, disponible ladresse www.lancs.ac.uk/fss/projects/grid Cet outil tait lorigine connu sous le nom de la grille nerlandaise . Pour plus dinformation, cf. Partie B1 en annexe ainsi que Alderson et al. (2006). Un rapport dtaill est disponible auprs du coordinateur du projet, ladresse c.alderson@lancaster.ac.uk 5 Les grilles pour la production orale et crite ont t produites dans le groupe Intrt spcifique pour le Manuel de ALTE, en coopration avec le Conseil de lEurope. La gense des grilles remonte aux listes de contrle pour lanalyse de contenus de ALTE. Conues en 1993 grce une subvention LINGUA (93-09/1326/UK-III), leur objectif tait de faciliter la comparaison du matriel dexamen entre les diffrentes langues. La conception des grilles dcrites ici a pris en compte le travail ralis dans le projet nerlandais Dutch Construct Project qui a produit les grilles de production orale et crite.

31

Le fait de complter les grilles permet de passer aisment des chapitres Spcification et Standardisation de linterprtation des niveaux du CECRL des exemples concrets (cf. chapitre 5). Elles peuvent galement servir slectionner des exemples qui seront utiliss pour le calibrage (cf. chapitre 5). Grilles pour la prsentation ( Donnes de sortie ) : lobjectif de cette forme simplifie des grilles est de rendre compte de la description des tches issue de la grille danalyse prsente ci-dessus (pour la rception orale et crite). Elles fournissent une information dtaille qui peut constituer la base de bons guides de documentation et dexamen, condition quelles soient compltes par les rfrences adquates aux critres qualitatifs du CECRL pour chaque chantillon calibr (table 3 du CECRL et Manuel table C.2). 4.3.3. Ouvrages de rfrence Dans les procdures de spcification, lanalyse de contenus se rfre principalement au CECRL lui-mme. Cependant, en tant que cadre commun, le CECRL ne traite par dfinition daucune langue en particulier. Les ouvrages de rfrence suivants, qui dtaillent les spcifications de contenus pour des langues prcises, peuvent donc tre utiles : La srie de spcifications de contenus relis au CECRL, conue en collaboration avec le Conseil de lEurope pendant les annes 1970-1990, donc avant llaboration du CECRL. Pour langlais, la srie de spcification est : A1 : Breakthrough Dcouverte6 ; A2 : Waystage Survie (van Ek et Trim, 2001a) ; B1 : Threshold Level Un Niveau seuil 5van Ek 1976 ; van Ek et Trim 2001b) ; B2 : Vantage Level Comptence oprationnelle effective (van Ek et Trim 2001c). La srie des rfrentiels de niveaux, relis au CECRL, qui ont t conus pour diffrentes langues depuis la parution du CECRL. On trouvera une liste jour sur le site www.coe.int/lang qui inclut les ouvrages suivants : o Pour lallemand : Glaboniat, M., Mller, M., Scmitz, H., Rusch, P., Wertenschlag, L. (2002/5) Profile DEUTSCH (A1-A2. B1-B2. C1-C2.), Berlin: Langenscheidt. o Pour le franais : Beacco etal. (2004, 2006, 2007, 2008) Niveau B2/A2/A1/A1.1 pour le franais : un rfrentiel. o Pour lespagnol : Instituto Cervantes (2007) Niveles de referencia para el espaol Plan curricular del Instituto Cervantes : A1, A2-B1, B2-C1, C2). o Pour litalien : Parizi, F. et Spinelli, B. (publication venir) Profilo della Lingua Italiana, Fireze : La Nuova Italia. Procdures

4.4.

Avant de complter les fiches proposes en annexe A ou sur le site www.coe.int/lang , les procdures impliquent que vous consultiez le CECRL, les annexes de ce Manuel et les autres ouvrages de rfrence cits ci-dessus. 1. Choix de la commission : la premire tape est la mise en place dune commission dexperts, si possible mixte (appartenant linstitution / organisation et extrieurs), et la dsignation dun coordinateur. Ce groupe dexperts internes et externes devrait tre constitu de reprsentants des diffrentes tapes de la conception dun examen ou dun test de langue. 2. Familiarisation : avant de mettre en uvre les procdures de spcification il est essentiel que la commission se familiarise avec le CECRL lui-mme. La commission doit donc commencer son travail par les activits de familiarisation du chapitre 3. 3. Choix de la mthode : une fois cette tape effectue, le groupe doit prendre connaissance des multiples fiches et tableaux associs ainsi que des outils de
6

Breakthrough, le niveau dcouverte , na pas t publi mais est disponible auprs des secrtariats du Conseil de lEurope et de ALTE.

32

spcification cits au paragraphe 4.2. Il dcidera alors du choix de la mthode et des fiches et tableaux qui seront complts. Il nest pas prvu que toutes les fiches de lannexe A soient compltes. Il est rappel que seules les fiches correspondant aux contenus de lexamen doivent tre compltes ; le groupe doit choisir les fiches pertinentes pour lanalyse de lexamen en question. Exemple : si un examen comporte uniquement des tches lexicales, seules les fiches correspondantes seront compltes et seule lchelle du niveau de vocabulaire sera examine. Autre exemple : si un examen mesure plusieurs comptences linguistiques dans diffrentes capacits langagires, on devra alors complter un plus grand nombre de fiches et examiner plus dchelles. La norme minimale est que les fiches suivantes soient compltes : Les fiches de la phase 1 (Description gnrale : A1 A7) La Fiche A8 (Premire estimation du niveau global de lexamen) Certaines des fiches numrotes de A9 A22- qui correspondent lexamen ou au test en question La Fiche A23 (Reprsentation graphique de la relation de lexamen avec les niveaux du CECR) La fiche A24 (Confirmation de lestimation du niveau global de lexamen) Les preuves pertinentes qui permettent dtayer la dclaration 4. Activits langagires communicatives : on compltera normalement en premier les fiches portant sur les activits langagires communicatives (fiches A9-A18). Comme cela a t prcis ci-dessus, chacune des fiches peut tre complte par la personne approprie de linstitution implique. On peut cependant souhaiter procder de faon plus interactive. Linformation consigne dans les fiches sera plus fiable si plus dune personne est implique. Chaque membre de la commission va donc complter tout ou partie des fiches slectionnes. Un consensus devra ensuite tre obtenu grce la confrontation des fiches compltes. Le tableau 4.1 prsente une vue densemble des fiches et des chelles du CECRL qui y sont relies. A la fin de la plupart des fiches, il est demand aux utilisateurs de comparer lpreuve en question avec la sous-chelle correspondante du CECRL. Tableau 4.1 : Fiches et chelles du CECRL pour les activits langagires communicatives Fiche A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 Activits de communication langagire Rception orale Rception crite Interaction orale Interaction crite Production orale Production crite Combinaisons de comptences intgres Comptences intgres Mdiation orale Mdiation crite Fiche Echelle

33

Tableau 4.2 : chelles du CECRL pour les aspects de la comptence langagire communicative Aspects de la comptence langagire communicative
RECEPTION Rception orale Rception crite Comptence linguistique Etendue linguistique gnrale Etendue du vocabulaire Matrise du vocabulaire Correction grammaticale Matrise du systme phonologique Matrise de lorthographe Comptence sociolinguistique Correction sociolinguistique Comptence pragmatique Souplesse Tours de parole Dveloppement thmatique Cohsion et cohrence Aisance loral Prcision Comptence stratgique Reconnatre des indices et faire des dductions Tours de parole (reprise) Cooprer Faire clarifier Planifier Compenser Contrler et corriger INTERACTION Interaction Interaction Orale Ecrite PRODUCTION Production Production Orale Ecrite MEDIATION Mdiation Mdiation Orale Ecrite

5. Comptence langagire communicative: On compltera ensuite les fiches qui concernent les aspects de la comptence langagire communicative (fiches A19A22). Le Tableau 4.2 donne une vue densemble des diffrentes comptences communicatives pour lesquelles il est possible de consigner des informations. Cette partie est organise diffremment. Un tableau des descripteurs du CECRL est fourni. Les utilisateurs doivent ensuite renseigner la fiche correspondante sur la base dune analyse des preuves de lexamen ou du test en question. A la fin de chaque fiche, les utilisateurs comparent lexamen et lchelle correspondante du CECRL. Une description ainsi quune indication du niveau de chacun des aspects pertinents des comptences retenues dans le CECRL sont demandes. Le mme groupe dexperts peut complter les fiches de faon interactive. Les fiches sont proposes dans cet ordre : Rception : fiche A19 Interaction : fiche A20 Production : fiche A21 Mdiation : fiche A22 Aucune chelle du CECRL nest fournie pour la mdiation. Les utilisateurs se rfreront aux descripteurs pour la rception et la production.

34

4.5.

Dclaration du niveau : reprsentation graphique de la relation de lexamen avec les niveaux du CECRL

Une fois lexamen analys en fonction des catgories du CECRL, le rsultat obtenu doit tre prsent sous la forme dun graphique montrant clairement la relation avec les niveaux du CECRL. Cette reprsentation permet de visualiser le contenu de lexamen tudi, rapport aux sous-chelles appropries du CECRL pour ce qui concerne les activits langagires communicatives et les aspects de la comptence linguistique (cf. ci-dessous un exemple de fiche A23 complte).

C2 C1 B2.2 B2 B1.2 B1 A2.2 A2 A1

Panorama

Rception orale

Rception crite

Conversation sociale

Echange dinformation

Notes Messages et Formulaires

Socio linguistique

Pragmatique

Linguistique

Fiche A23 : Reprsentation graphique de la relation de lexamen aux niveaux du CECRL (exemple) Dans le graphique ci-dessus, laxe Y (vertical, gauche) reprsente les niveaux du CECRL. Sur laxe X on reprsentera la comptence langagire gnrale et les activits langagires communicatives ainsi que les aspects de la comptence linguistique. Chaque colonne a comme intitul une catgorie pertinente du CECRL. Les cases qui reprsentent lexamen ou les preuves traits seront ombres. Si lexamen est dun niveau plus lev dans certaines catgories, on le montrera en ombrant les cases correspondantes comme dans lexemple de la Fiche A23 ci-dessus. Lintitul des colonnes de la Fiche A23 peut ne pas correspondre celui qui a t donn aux preuves de lexamen. Quelques intituls peuvent correspondre aux preuves mais il est possible den ajouter dautres, en tant que de besoin. Il se peut, par exemple, que lexamen tudi ne propose pas dpreuve spcifique pour la comptence linguistique mais que le concepteur de lexamen veuille cependant indiquer aux utilisateurs le niveau de comptence linguistique attendu. Les dmarches prsentes dans ce chapitre mettent laccent la fois sur le processus et sur le rsultat. On encourage les praticiens suivre un processus danalyse de contenus et de mise en relation avec le CECRL. On recommande vivement de rexaminer chaque hypothse sur le niveau avance au cours du processus. Il est fort probable que lestimation initiale donne dans la fiche A8 doive tre modifie. Lutilisateur doit reconsidrer les

35

analyses et proposer un jugement raisonn. Lestimation (fiche A8) est confirme ou rvise dans la fiche A24. Les chapitres suivants fournissent des outils qui permettent de renforcer la dclaration de niveau. Une recherche plus pousse et une analyse plus approfondie lors dtapes ultrieures peuvent entraner une rvision de la dclaration avance. Lexactitude de la dclaration est subordonne un large processus de vrification argumente. On recommande vivement aux concepteurs dexamens dimpliquer leurs collgues dans des dbats et des changes tout au long du processus. Estimation confirme (dclaration) du niveau global du CECRL B1 C1 B2 C2

A1 A2

Brve justification, rfrences de la documentation. Si cette fiche prsente une conclusion diffrente de lestimation initiale consigne dans la fiche A8, merci de commenter les raisons principales de ce changement.

Fiche A24 : Estimation confirme (dclaration) du niveau global du CECRL Les utilisateurs de ce Manuel peuvent se demander : Sil est important de runir et/ou danalyser des informations ou des donnes avant dentreprendre ltape de spcification. Sils utiliseront les grilles danalyse de contenus du CECRL. Si tous les examens ou les tests peuvent tre relis au CECRL. Si le fait dachever ltape de spcification prsage des changements dans le plan initial dutilisation de ce Manuel. Si lexprience acquise lissue de ltape de spcification implique, dans lexamen ou le test analys, des changements qui pourraient intervenir lors de la prochaine rforme programme. Comment ils dcideront que ltape de spcification a t acheve de faon satisfaisante.

36

Chapitre 5 : Formation la standardisation et au calibrage


5.1. 5.2. 5.3. 5.4. Introduction La formation ncessaire Planification pralable Animation des stages 5.4.1. Arriver un consensus et le vrifier Formation avec des performances orales et crites 5.5.1. Performance orale 5.5.2. Performance crite Formation avec des tches et des items de capacits de rception crite, orale et de comptences linguistiques 5.6.1. Familiarisation ncessaire 5.6.2. Formation la dfinition des points de csure (standard setting) De la formation au calibrage 5.7.1. 5.7.2. 5.7.3. 5.7.4. Echantillons ncessaires Arriver un consensus et le vrifier Analyse des donnes Documentation

5.5.

5.6.

5.7.

5.1.

Introduction

Le but de la dmarche de mise en relation des examens avec les niveaux du CECRL est de permettre une catgorisation des candidats en termes de niveaux de comptences du CECRL, de telle faon que cette catgorisation reflte de faon fiable ce que signifient les niveaux du CECR. Si on considre quun tudiant est au niveau B1, il faut tre tout fait certain que cet tudiant est vraiment reprsentatif des descripteurs de ce niveau. Il sagit l de la validit. Les procdures qui suivent renvoient la dfinition des points de csure (standard setting), (voir partie B dans le supplment de rfrence de ce manuel). Il existe deux grandes faons dattribuer des niveaux des candidats. Il peut sagir soit dun simple jugement global de la part du professeur ou de lexaminateur, soit des notes qui sont attribues au rsultat de lexamen. La premire option est en gnral choisie pour les capacits de production, alors que la deuxime concerne gnralement les capacits de rception. La distinction nest pourtant pas aussi tranche. Dans des preuves de production crite, parmi les deux ou trois tches proposes, chaque tche peut tre note en fonction de critres analytiques. La totalit des notes obtenues par un candidat peut tre traite de la mme faon que le rsultat dune preuve de rception crite comportant un certain nombre ditems spars. Pour viter tout malentendu, on utilisera respectivement les termes dexamen indirect (examens avec des rsultats base de notes) et dexamen direct (examens valus de faon globale). Examens directs. Dans des examens valus de faon globale le jugement sur le niveau (les six niveaux du CECRL) est direct et il est pour cette raison important daider les valuateurs mettre des jugements valides. Le principal outil utilis pour ce genre particulier de dfinition des points de csure est appel calibrage. Le calibrage consiste proposer un (ou plusieurs) chantillons reprsentatifs illustrant des performances un niveau donn la fois pour la formation la standardisation et comme outil de rfrence pour les dcisions ultrieures concernant des performances de candidats.

37

Examens indirects. Pour les examens avec des rsultats partir de notes, il faut tablir des performances standards. La performance standard est la limite entre deux niveaux de lchelle continue, indique par un examen, et qui est reprsente par une note de csure. Une note de csure de 30, par exemple, signifie quune note de 30 ou plus acquise lexamen signifie quun certain niveau ou un niveau plus lev est atteint (par exemple B1), alors quun rsultat moins lev correspondra un niveau plus bas que le niveau du score de csure (dans ce cas B1). On appelle gnralement le processus pour arriver une note de csure la dfinition des points de csure. Dans le cas des capacits de rception (crite et orale) ou des comptences sous jacentes (grammaire, lexique), il est important de prendre des dcisions sur ces notes de csure.

Les procdures de calibrage et de dfinition de points de csure supposent des dcisions collectives qui doivent tre soigneusement prpares par une formation adquate. Le but principal de ce chapitre est daider cette formation. Comme le calibrage est la suite logique de la formation, il fait partie de ce chapitre. La dfinition des points de csure est un thme complexe, largement discut, souvent sujet controverse et qui a fait lobjet de nombreuses publications. Cest pour cette raison que les procdures permettant de dfinir les points de csure sont prsentes sparment au chapitre 6. Le coordinateur choisira, parmi lventail des mthodes exposes dans le chapitre 6, le supplment de rfrence et les nombreuses publications sur la question, la ou les mthodes qui conviennent le mieux au contexte ou au but recherch. Nanmoins, bien que les procdures suivre vont dpendre de la ou des mthode(s) choisies pour la dfinition des points de csure, elles seront, dans la majorit des cas, identiques celles qui sont dcrites dans les diffrentes parties de ce chapitre. 5.2. La formation ncessaire

Les crits publis sur la dfinition des points de csure voquent trs souvent limportance du groupe dexperts qui recommande la ou les note(s) de csure ou la performance standard, et traite longuement des enjeux que constituent la faon de former ce groupe ; le nombre dvaluateurs impliqu ; leur parcours professionnel ; les connaissances et lexpertise dans le domaine concern que ce groupe devrait avoir ; le moment et la dure de la formation. Des renseignements utiles et dtaills sur la faon dorganiser et de planifier les activits pralables lies aux procdures de dfinition des points de csure sont fournis par Kaftandjieva, dans la partie B du supplment de rfrence ce manuel (2004), Hambleton et Pitoniak (2006) et CCCCizek et Bunch(2007). Lobjectif de cette partie est de dcrire une suite de procdures : (a) pour aider le groupe dexperts atteindre une comprhension commune des niveaux du CECRL ; (b) pour vrifier que la comprhension commune est vraiment atteinte ; (c) pour maintenir cette norme dans le temps. Les indications qui suivent sappuient sur les expriences dcrites dans les rapports dcrivant comment les diffrentes approches et procdures ont t appliques lors de lexprimentation du manuel, ainsi que sur les publications disponibles. La formation la standardisation lie aux niveaux du CECRL comprend quatre tapes : effectuer les activits de familiarisation dcrites dans le chapitre 3 ;

38

travailler avec des performances et des tches dexamens reprsentatives afin datteindre une comprhension adquate des niveaux du CECRL ; transmettre une comptence relier les tches dexamens locaux et des performances ces niveaux ; sassurer que cette comprhension est partage par lensemble du groupe et se droule de faon cohrente.

Avant de commencer la formation, le facilitateur/coordinateur dsign (appel dsormais coordinateur) doit lire attentivement ce manuel et prendre en compte les ouvrages de rfrence recommands et considrs comme tant pertinents dans ce contexte. Afin de faciliter la visualisation du travail de formation la standardisation, on trouvera un Tableau rcapitulatif (Tableau 5.5) la fin de ce chapitre. Les institutions peuvent utiliser le Tableau 5.5 afin de faire une estimation du montant du budget prvoir pour lensemble du processus. Le tableau peut galement servir daide-mmoire fonctionnel aux coordinateurs pour planifier et contrler le processus. Lordre dans lequel sont prsentes les tapes du processus de standardisation nest pas alatoire. La formation avec des chantillons de performances orales et crites - qui sont values directement - est plus aise pour les participants que la formation avec les items de rception orale et crite. La rception crite est laptitude la plus difficile valuer et devrait donc tre traite la fin. Plusieurs tudes de cas lors de lexprimentation du manuel montrent un niveau daccord entre les experts et un ventail de rsultats plus rduit avec des chantillons de production quavec des items de rception. Nous considrons que cet ordre est le plus efficace et le recommandons mais il est bien entendu possible de le modifier selon les besoins et les contraintes de la situation. Des directives dtailles pour la planification, incluant des tableaux reprsentatifs, des chiffres et des documents se trouvent dans le chapitre 13 : organiser des activits de dfinition points de csure, par Cizek et Bunch (2007). Une fois la formation termine et un consensus adquat obtenu sur lvaluation des chantillons illustratifs (avec une fourchette stalant au maximum sur un niveau et demi A2+ B1+), le travail de calibrage (chantillons de production) ou la dfinition de points de csure (pour des examens indirects avec des rsultats base de notes) peut commencer, avec des performances dapprenants locaux. 5.3. Planification pralable

Le coordinateur est responsable : de la logique suivre, base sur ce manuel et sur les rfrences appropries ; des dcisions quant aux types dexpertises auxquels il faut faire appel, quant aux personnes impliquer et leurs rles ainsi que ltape du processus laquelle elles interviendront ; des dcisions quant au nombre et la composition du groupe dvaluateurs. Un groupe de douze quinze personnes est un minimum. Lexprience tire de lexprimentation du manuel et dautres projets de dfinition de points de csure montre quil est intressant de faire appel des valuateurs externes linstitution ainsi qu des experts/parties prenantes reprsentant des points de vue diffrents. de la mobilisation dexperts locaux habitus : travailler avec le CECRL ; produire des programmes et des spcifications dexamens ;

39

valuer des capacits langagires de production en fonction de critres dfinis ; concevoir des examens de langue et rdiger des items; coordonner et former des groupes denseignants et dexaminateurs ; de la collecte de copies dchantillons reprsentatifs du CECRL et de la documentation approprie ; des instructions quils donneront pour recueillir, dans un format dfini localement, le matriel qui sera utilis : - les chantillons locaux dcrits et les vidos de performances orales dtudiants qui seront utilises pour calibrer les performances locales sur des chantillons standards du CECRL et sur le CECRL lui-mme ; - les tches dexamens locaux qui serviront de documents de travail dans les stages sur lvaluation. de la dcision dutiliser ou non les niveaux plus du CECRL. Des descripteurs calibrs pour les niveaux A2+,B1+ et B2+ sont disponibles ; de la prparation, de llaboration et de la reproduction du matriel qui sera utilis aux diffrentes tapes de la dmarche (voir tableau 5.5 pour les dtails) : les descripteurs de niveaux du CECRL ; les tableaux du CECRL et les outils dvaluation (par exemple le tableau 3 du CECRL tableau C2 du manuel) 7 ; une slection dchantillons de performances et de tches reprsentatives du CECRL 8 une slection dchantillons de performances et/ou ditems dexamens locaux ; les fiches de compte rendu et les documents utiliss pour recueillir linformation sur les stages.

de la vrification du nombre de salles disponibles pour les travaux de groupes ainsi que des moyens - tables et matriel audio pour pouvoir travailler sur des chantillons dcrits ou des items de rception orale ; du recueil et de lanalyse des donnes venant des stages de formation la standardisation, de la prsentation et de la reproduction de rsultats significatifs (par exemple, la difficult empirique de la valeur des items ; les valuations dchantillons par dautres groupes) afin de les rutiliser ventuellement dans dautres stages au moment appropri ; de lorganisation mme des stages de faon la plus adapte la situation locale. Le coordinateur devra dcider du nombre de participants par stage ainsi que des dates et du programme les plus appropris. Cela comprend : une dcision concernant le statut des participants (enseignants/examinateurs/rdacteurs ditems), les stages auxquelles ils

Tableau 3 CECRL : les niveaux communs de rfrence : aspects qualitatifs de lutilisation du langage parl anglais pages 28-29 ; franais : page 28) 8 Merci de vous reporter la liste actualise de matriel disponible sur le site www.coe./int/portfolio Vous y trouverez des chantillons de production crite et orale dadultes en allemand, anglais, franais et italien. Lespagnol est prvu ultrieurement. Un deuxime CD de tches et ditems dexamens est en prparation ; ce CD comprend un large ventail de matriel venant des tudes de cas lors de lexprimentation du manuel. A la suite du sminaire de juin 2008 de calibrage de performances orales organis au CIEP, un DVD a t dit avec des performances calibres, de jeunes de 16 18 ans en cinq langues en parallle : allemand, anglais, espagnol, franais et italien.

40

participeront, et les implications sur la prparation des stages selon le public concern ; la ncessit de sassurer dune bonne ambiance et du regroupement dexperts adquat ; la planification approprie du temps (voir ci-dessous) afin de donner loccasion dune rflexion et dune discussion vaste et approfondie qui contribuera lobtention dun consensus sur les valuations ; le rsum des conclusions.

de lorganisation de la documentation et du compte rendu du travail effectu durant les stages de formation afin dassurer la crdibilit du systme et de fournir un support servant la diffusion de stages et des sessions ultrieures. de la planification du contrle continu, de la diffusion et des actions de suivi.

La dure ncessaire Elle dpendra : du degr dexpertise des participants : participation ventuelle des stages dvaluation ; de leur familiarisation avec les chelles dvaluation ; de leur exprience dans la rdaction ditems de production crite et lestimation du degr de difficult dun item ou dune tche ; du degr de familiarisation et dune pratique pralable par exemple avec la grille nerlandaise du CECRL

Avec des participants expriments, il est possible dassurer en une journe la formation pour les capacits de production, le matin tant consacr la production orale et laprs-midi la production crite. Le jour suivant, il est possible de commencer travailler sur les chantillons de performances. Autre possibilit : consacrer le premier jour la formation et aux activits de standardisation de performances orales et le jour suivant aux productions crites. Chaque jour doit dbuter par des performances reprsentatives standardises (le matin), et continuer laprs-midi avec des chantillons locaux. La dure ncessaire la formation pour les capacits de rception ne dpendra pas seulement de la familiarit que les participants ont avec le processus de notation, de slection et de rdaction ditems et de tches dexamens, de la quantit dinformations en retour quils ont reu sur les difficults des items/tches, mais aussi du nombre de capacits valuer. Il est possible dappliquer le format dcrit ci-dessus pour la production orale et crite de chaque capacit. Si comme cela est recommand dans le manuel- la premire capacit de rception est la rception crite, une formation avec des chantillons ditems dexamens reprsentatifs peut avoir lieu le matin et peut tre suivie de lvaluation ditems dexamens locaux. 5.4. Animation des stages

La formation devrait se drouler au cours de stages pendant lesquels les participants se familiarisent avec le CECRL, analysent et valuent des performances ou des items dexamens et parviennent un consensus sur le placement un niveau du CECRL. Pendant les stages, le coordinateur dsign doit : sassurer que les participants arrivent une bonne comprhension de ce quest le CECRL et vrifier jusqu quel point ils prennent conscience de la contribution du CECRL lamlioration de leur travail. On utilisera dans ce but les activits de Familiarisation du Chapitre 3 ;

41

sassurer, lors de lvaluation dchantillons de performances, quune progression logique est suivie afin de parvenir un consensus et de le renforcer : amorce et exemplification ; valuation individuelle ; valuation en tandem ; discussion en grand groupe ;

recueillir des informations et donner rgulirement un retour dinformations de manire aussi claire et visuelle que possible ; vrifier, comme cela est prcis dans les instructions, quun consensus satisfaisant sur linterprtation des niveaux du CECRL est atteint, dune part en ce qui concerne les descripteurs et dautre part en ce qui concerne les performances ou les tches qui les rendent oprationnels.

A lissue de la formation, les coordinateurs ont la responsabilit de sassurer que les participants ont leur disposition tout le matriel ncessaire avant le dbut du processus de calibrage/dfinition de points de csure. 5.4.1. Arriver un consensus et le vrifier Tout au long du stage, on recommande aux coordinateurs de susciter les commentaires et les discussions et de faire une synthse des valuations en tenant compte du contexte afin de parvenir un vritable consensus. Comme dans tout stage de formation dvaluateurs, on demande aux stagiaires dvaluer le niveau correct dun chantillon standard. Ce niveau est connu du coordinateur, mais nest pas donn aux stagiaires avant leur valuation. Il ne sera donn qu la fin du stage, par le coordinateur. Contrairement aux activits de calibrage et de dfinition de points de csure qui suivent, dans cette tape le groupe nest pas invit trouver un consensus sur le niveau sans tenir compte de preuve antrieure, mais doit plutt arriver la rponse correcte dj trouve en appliquant les critres. Cela suppose un certain savoir faire de la part du coordinateur qui doit (a) conduire le groupe vers la rponse correcte au cours de ces expriences initiales importantes et, (b) viter de mettre en cause les participants trop svres ou trop indulgents dans leur interprtation avant quils naient eu le temps de sinvestir dans la formation car cela pourrait les perturber et dstabiliser leurs jugements ultrieurs. Il ne faut pas sous estimer le temps que demande cette volution. Il est essentiel de prendre tout le temps ncessaire la formation avant de passer au travail sur les chantillons locaux. Il y a deux coles sur la faon de conduire le groupe vers le consensus qui convient. La premire est une approche qui prend en compte les sensibilits o lon vite dembarrasser les participants en respectant lanonymat des valuations. Cette approche garantit que les participants qui enregistrent leur valuation individuelle avant la discussion, ne sont pas intimids et que le consensus qui merge progressivement est un consensus authentique. Avec cette approche, les individus sont influencs par les valuations des autres : si un(e) participant(e) est marginal(e) , il/elle sen rend compte et peut se recentrer. La discrtion est galement prserve si le coordinateur distribue des bulletins dvaluation sans faire de commentaires. Si lon veut identifier les valuateurs dans un recueil de donnes pour des analyses ultrieures on peut utiliser des surnoms (Astrix ou Mickey par exemple) ou des numros de code imprims sur les bulletins. La projection rapide des bulletins anonymes

42

au rtro projecteur ou dans un tableau de synthse expose les marginaux sans les gner moins quils ne dcident dargumenter ! Le vote lectronique peut tre utilis avec les mmes effets. Les sminaires de calibrage qui ont donn lieu ldition des DVD allemands, franais, italiens et portugais ont choisi cette approche. Le vote sest fait en 2 fois : un vote individuel avant les discussions et un vote aprs les discussions pour confirmer le consensus.

La deuxime cole prconise une approche plus vigoureuse : les opinions divergentes doivent sexprimer et faire lobjet dun dbat si lon veut parvenir un vrai consensus. Le consensus sera ici plus dlibr, rsultat dune discussion argumente - et peut tre obtenu par un orateur convaincant. Cest la raison pour laquelle il est bon que lanimateur sassure que les participants connaissent les chantillons standards et la raison pour laquelle on a attribu tel niveau leur a t attribu ainsi que leur rapport avec les descripteurs. Les participants apprcient le travail en tandem ou en petits groupes. Le coordinateur peut passer dun groupe un autre et couter les discussions, ramener ventuellement un groupe dans la bonne direction et demander quun compte rendu soit fait par un rapporteur de chaque groupe. Lavantage principal du travail en tandem ou en petits groupes est dobliger de faon naturelle les participants utiliser les critres dfinis pour justifier leurs jugements. La faon la plus simple denregistrer les rsultats du groupe est de les recueillir au fur et mesure et de les prsenter, sur une grille, au rtroprojecteur. Quel que soit le type dapproche choisie, le coordinateur devra calculer le pourcentage de participants qui saccordent sur les diffrentes valuations ou les coefficients de corrlation entre valuateurs. Le coordinateur devra dcider de lopportunit de communiquer ces chiffres aux participants sil considre que cela contribue la formation et une meilleure convergence des valuations. Il est galement intressant de prsenter un schma de dispersion des valuations. Des graphiques sont facilement produits avec le vote lectronique. Une autre faon de faire est de saisir les valuations dans une source de donnes reproduites dans un histogramme format avec Microsoft Excel. Une troisime mthode consiste utiliser les botes moustaches produites par le programme danalyses dpreuves SPSS. 5.5. Formation avec des performances orales et crites

Il se peut que des chantillons de performances et/ou de tches dexamens reprsentatifs ne soient pas encore disponibles dans la langue concerne. Dans ce cas, nous recommandons de travailler avec les chantillons de la langue que le groupe a en commun condition que les groupes aient un niveau minimum B2/C1 de comptence dans cette langue. Dans ce cas, il faut indiquer dans la documentation quil sagit dune formation indirecte. La premire tape de la dmarche est lanalyse et lvaluation de performances orales reprsentatives du CECRL. Elle est suivie (si cela convient) par des performances crites reprsentatives. La majorit des chantillons oraux ont un format identique qui comprend, pour chaque candidat, une phase de production orale (un monologue suivi au cours de laquelle un candidat explique quelque chose un autre candidat qui lui pose des questions) suivie dune phase dinteraction (au cours de laquelle les deux candidats discutent dun sujet de faon spontane)9 Pour lvaluation de la performance crite, il est important dexaminer des chantillons la fois dinteraction crite (par exemple, des notes, des lettres) et de production crite (par

Ce format a t adopt pour le projet Suisse de recherche qui a labor lchelle de descripteurs du CECRL et qui est montr dans le DVD dorigine pour langlais comprenant des performances de ce projet. Cette approche, qui ne correspond pas une situation dexamen, vite les effets produits par lexaminateur. Il a t adopt par les concepteurs du DVD dapprenants adultes en franais, italiens et portugais et pour le DVD du conseil de lEurope/CIEP avec des apprenants adolescents en allemand, anglais, espagnol, franais et italien.

43

exemple des descriptions, des histoires, des critiques) dun candidat. Cest plus particulirement important pour les niveaux lmentaires. Il est important de noter que dans les chantillons reprsentatifs, cest la comptence du candidat dans son ensemble, partir de la performance dans sa totalit que lon value, et non pas les performances spares (monologue/interaction). Dans la documentation, on trouve des raisons argumentes justifiant tel ou tel niveau dun candidat, avec des rfrences explicites aux critres du CECRL (CECRL tableau 3/Tableau C2 pour la performance orale ; tableau B4 pour la performance crite).Cela signifie que les tches dvaluation ont pour but de gnrer des chantillons reprsentatifs et complmentaires de la capacit du candidat sexprimer oralement dans la langue. Sur la base de toutes les preuves disposition, lexpert utilise les descripteurs gnriques critris (CECRL tableau 3/tableau C2) pour juger de la comptence du candidat dans la mesure o elle peut tre dduite dun chantillonnage immanquablement limit et incomplet. Le rsultat la comptence apparaissant travers la performance est ce quon appelle habituellement en franais la comptence. 5.5.1. Performance orale Il est essentiel pour ce stage, que les participants utilisent une grille dvaluation comportant les descripteurs du CECRL, telles que celles fournies dans lannexe B. Nous recommandons fortement lutilisation du tableau 3 du CECRL10 (indiqu comme tant le tableau C2). De plus, les experts peuvent considrer comme tant utiles : une chelle globale simplifie daprs le tableau 3 du CECRL (tableau C1) ; des copies de la grille supplmentaire base sur le tableau 3 du CECRL (tableau C3) si les niveaux plus sont utiliss ; les chelles de descripteurs du CECRL pour linteraction et la production gnrales ; lchelle du CECRL pour la matrise phonologique, si cela savre ncessaire11 ; une fiche standard dvaluation pour noter leurs commentaires et le niveau attribu chaque performance (exemples donns dans les Fiches C2 et C3

Ce stage est organis en trois tapes : Phase 1 : Illustration. Le coordinateur commence le stage par deux ou trois performances orales reprsentatives pour exemplifier les niveaux. Il projette lchantillon et invite les participants commenter la performance avec leurs voisins. Au moment opportun, le coordinateur reconstitue le grand groupe et lui fait expliciter pourquoi cette performance illustre le niveau dcrit sur la grille du Tableau 3 du CECRL (Tableau C2) et non un niveau infrieur ou suprieur. On recommande de passer toute la squence de lchantillon, mme si cela doit prendre 15 minutes. La performance dun candidat dans la phase de linteraction peut tre trs diffrente (en mieux ou moins bien) de sa performance dans la phase de production et comme cela est mentionn dans lintroduction, cest lensemble de la comptence dans la capacit concerne qui doit tre value et non une de ses performances. La slection des chantillons : les recommandations suivantes prennent en compte lexprience tire de lexprimentation du manuel et de lanimation des stages qui ont donn lieu des DVD avec des chantillons reprsentatifs et les projets qui sy rapportent.

CECRL Tableau 3 : niveaux communs de rfrence ; aspects qualitatifs de lutilisation de la langue parle pour langlais page 28-29 ; le franais page 28. 11 La prononciation ne fait pas partie du tableau 3 du CECRL parce quil a t conu pour une utilisation dans des contextes internationaux et les valuateurs habitus travailler dans un contexte monolingue, national peuvent avoir tendance se laisser influencer par leur manque de familiarit avec des accents de personnes parlant dautres langues maternelles.

10

44

Il est judicieux de commencer par les niveaux B1 ou B2 et de montrer des chantillons de performances des niveaux trs proches pour stimuler la discussion sur les limites entre deux niveaux, en se rfrant aux critres (CECRL tableau 3/manuel tableau C2). Le premier de ces exemples doit prsenter une performance de profil relativement plat parmi les catgories du Tableau 3 du CECRL/ Tableau C2 du Manuel - savoir, un locuteur qui serait par exemple de niveau B1 dans toutes les catgories Etendue, Correction, Aisance, Interaction, Cohrence. Un de ces chantillons standards introductifs devrait montrer un profil moins rgulier, par exemple si le locuteur est au niveau B1 dans certaines catgories mais en B2 ou au moins en B1+ dans dautres. Si la question des profils ingaux nest pas traite assez tt au cours de la formation, elle peut poser ultrieurement des problmes. Afin de mettre en vidence le fait que certains candidats peuvent avoir des profils trs ingaux et quil faut examiner sparment les diffrents aspects qualitatifs (Etendue, Correction, Aisance, Interaction, Cohrence), les coordinateurs peuvent envisager dvaluer plusieurs performances en ne prenant en compte quun seul aspect. Cela neutralise la tendance naturelle des valuateurs laisser leur impression gnrale avoir une influence sur leur jugement dans chaque aspect ( effet de halo ).

Lutilisation des instruments de mesure : Les conseils suivants prennent en compte lexprience tire de lexprimentation du manuel, lanimation des stages qui ont donn lieu des DVD avec des chantillons reprsentatifs et les projets qui sy rapportent. On peut demander aux participants dutiliser dabord uniquement lchelle globale (Tableau C1) qui simplifie la grille du Tableau 3 du CECRL (Tableau C2 du manuel) afin de se rendre parfaitement compte de leur impression globale sur le niveau des candidats avant dexaminer les catgories de la grille du Tableau 3 du CECRL (Tableau C2 du manuel). Stant fait une premire impression sur le niveau des performances, ils devraient alors consulter les descripteurs dtaills de ce niveau sur la grille du Tableau 3 du CECRL (Tableau C2), lire les descripteurs pour les niveaux immdiatement suprieurs et infrieurs de chaque catgorie et utiliser la grille pour tracer le profil de la performance du candidat. Si les niveaux plus sont utiliss, les participants devraient ce moment l consulter la grille supplmentaire (tableau B3) pour dcider si le candidat est un exemple fort du niveau une performance de niveau plus . Ils devraient alors utiliser les descripteurs du tableau 3 (tableau C2) et si ncessaire la grille des niveaux plus supplmentaires (tableau C3) comme fil directeur de la discussion avec leur voisin. Au cours de la discussion, les participants voudront peut tre consulter aussi les chelles supplmentaires de descripteurs mentionnes ci-dessus. Phase 2 : Pratique. Dans cette seconde phase, le rle du coordinateur est daider les stagiaires voir sils ont encore tendance tre trop svres ou trop indulgents. Si le vote sest fait par bulletin, le coordinateur utilisera une fiche de synthse sur transparent (par exemple la Fiche B3) ou un graphique pour enregistrer les valuations. Tout au long de cette tape, le coordinateur doit faire visualiser aux participants leur comportement en tant que groupe et animer la discussion comme indiqu plus haut, sans embarrasser les individus. Si lon na pas utilis le vote anonyme, une technique efficace consiste couter les discussions des groupes et, lorsque tout le monde est regroup, faire donner la rponse par les groupes avec lesquels on a la meilleure chance quelle soit correcte.

45

On recommande au coordinateur de mener une discussion au niveau de tout le groupe pour justifier de lattribution dun candidat tel niveau plutt quau niveau suprieur ou infrieur, en se rfrant de faon explicite aux critres des descripteurs. Cela vite que des participants rutilisent des notions prtablies des niveaux du CECRL (souvent de simples traductions dun autre systme) et montre la ncessit de prendre comme seule rfrence les critres des descripteurs. La slection des chantillons : on recommande l aussi lutilisation de deux trois chantillons. Lutilisation des instruments de mesure Avant le stage, les coordinateurs doivent dcider sils continueront utiliser lchelle globale (Tableau B1) aprs ltape dIllustration. Elle est utile en ce sens (a) quelle donne aux participants un point de dpart pour la lecture de la grille (Tableau 3 du CECRL ; Tableau C2 du Manuel) et, (b) quelle aide les participants faire la part de leur premire impression par rapport un jugement rflchi en particulier si lon a consign sparment les deux ractions comme dans la fiche denregistrement propose (Fiche C2) Phase 3 : Evaluation individuelle. Les stagiaires valuent individuellement le reste des performances, rendent leurs bulletins dvaluation et discutent ensuite sur ce que reprsentent les niveaux du CECRL auxquels ces performances ont t affectes. On recommande vivement de continuer analyser les performances par blocs de trois. De la sorte, on focalisera mieux la discussion sur la standardisation plutt que dentrer dans une discussion sur les mrites de certaines performances. Le dernier bloc de trois devrait faire lobjet dun accord presque gnral. La grande majorit des participants devrait en effet tre daccord sur le niveau avec une dispersion infrieure un niveau et demie. Par exemple, pour une performance que lon saccorde situer en B1+, la dispersion des rsultats ne devrait pas excder lventail de B1 B2 ; pour une performance que lon saccorde placer en B1, la dispersion devrait tre de A2+ B1+. Le stage se terminera lorsquon aura atteint ce niveau daccord dans le groupe et que le coordinateur (et les participants) seront satisfaits du degr de consensus atteint pour lvaluation dchantillons standards de performances orales. On recommande l aussi lutilisation de deux trois chantillons. Avant le stage, les coordinateurs doivent dcider sils continuent utiliser lchelle globale (Tableau C1) aprs ltape dIllustration. Elle est utile en ce sens (a) quelle donne aux participants un point de dpart pour la lecture de la grille (Tableau 3 du CECRL ; Tableau C2) et, (b) quelle aide les participants faire la part de leur premire impression par rapport un jugement rflchi en particulier si lon a consign sparment les deux ractions comme dans la fiche denregistrement propose (Fiche C2). Cependant, il peut sembler plus simple dliminer une des deux fiches avec lesquelles les experts travaillent. Lexprience montre quune fois que les experts se sont habitus utiliser le tableau 3 du CECRL (tableau C2), ils nont vrai dire pas besoin de lchelle (tableau C1) pour arriver une premire impression globale. La slection des chantillons: on recommande quau moins une performance par niveau du CECRL soit analyse, value et discute au cours du stage. Lutilisation des instruments de mesure Pendant la discussion, le coordinateur dcide si lutilisation dautres chelles orales du CECRL et la justification de faon plus dtaille du niveau attribu. contribuent une meilleure comprhension du niveau. 5.5.2 Performance crite

On recommande une dmarche semblable celle qui a t prconise pour la performance orale.

46

La grille dvaluation laquelle se reporter est le Tableau C4 de la section C de lannexe. Cette grille est un prolongement du tableau 3 du CECRL, avec deux colonnes sur la Description et sur lArgumentation qui ne doivent tre utilises que pour les textes de ce type. Phase 1 : Illustration : Le stage commence par deux ou trois performances crites standards que le coordinateur utilise pour exemplifier les niveaux. Pour chaque chantillon, un moment donn, le coordinateur reconstitue le grand groupe et lui fait expliciter comment cette performance illustre le niveau dcrit sur la grille du Tableau C4 et pourquoi elle nest pas du niveau infrieur ou suprieur.

47

Tableau 5.1 : Gestion du temps pour lvaluation dchantillons de performance orale Nombre recommand de participants : 30 participants au maximum Premire tape : Familiarisation 60 minutes Deuxime tape : Travail sur des chantillons standards : Phase 1 : Illustration avec environ trois performances standards 60 minutes Pause Phase 2 : Pratique sous contrle du coordinateur avec environ trois 60 performances standards minutes Phase 3 : Etape libre avec environ trois performances standards 60 minutes

Djeuner Troisime tape : Calibrage des chantillons locaux : Evaluation individuelle et discussion de groupe sur environ trois performances Evaluation individuelle denviron cinq performances supplmentaires Pause Planification du suivi et mise en rseau Synthse et clture Documents et matriel prparer Photocopies pour tous les participants : Grille dvaluation du CECRL Tableau 3/du Manuel Tableau C2 Echelle dvaluation simplifie ci-dessus : Tableau C1 (si ncessaire) Grille de niveaux plus en supplment du tableau 3 (si ncessaire) Feuilles dvaluation pour les participants : exemples des Fiches C2 C3 Choix et copies dchelles complmentaires pertinentes ou des Tableaux A1-A3 60 minutes 60 minutes 60 minutes 30 minutes

Auxquels sajoutent : des vidos de performances standards ; le manuel ; des fiches de synthse pour le coordinateur et des transparents (Fiche B 4) ; des vidos locales (enregistres et/ou slectionnes selon les instructions des Etudes de cas).

La slection des chantillons Le premier de ces exemples reprsentatifs doit prsenter une performance de profil relativement plat parmi les catgories du Tableau B4 ( savoir, un locuteur qui serait par exemple de niveau B1 dans toutes les catgories Etendue, Correction, Aisance, Interaction, Cohrence et galement dun bon niveau pour dcrire et argumenter).

48

Comme pour les exemples de performance orale, le coordinateur peut envisager dvaluer plusieurs performances crites dans une mme catgorie afin que les participants se rendent compte de leffet de halo . On recommande que lun de ces premiers chantillons montre un profil moins rgulier, par exemple que le locuteur soit au niveau B1 dans certaines catgories mais en B2 ou au moins en B1+ dans dautres. Si la question des profils ingaux nest pas traite assez tt au cours de la formation, elle peut poser ultrieurement des problmes.

Lutilisation des instruments de mesure Le coordinateur invite les stagiaires lire les textes et examiner la performance par rapport aux critres du Tableau C4.

Phase 2 : Pratique : Dans cette seconde phase o lon utilisera de nouveau trois chantillons le rle du coordinateur est daider les stagiaires voir sils ont encore tendance tre trop svres ou trop indulgents. Si le vote sest fait par bulletin, le coordinateur utilisera une fiche de synthse (par exemple la Fiche C3) pour rapporter les valuations sur transparent. Tout au long de cette phase, le coordinateur doit faire visualiser aux participants leur comportement en tant que groupe et animer la discussion comme indiqu plus haut, sans embarrasser les personnes. Si lon na pas utilis le vote anonyme, une technique efficace consiste couter les discussions des groupes et, lorsque tout le monde est regroup, faire donner la rponse par les groupes avec lesquels on a la meilleure chance quelle soit correcte. Phase 3 : Evaluation individuelle. Les stagiaires valuent individuellement le reste des performances et discutent ensuite des niveaux du CECRL auxquels ces performances ont t affectes. On recommande trs vivement de continuer analyser les performances par blocs de trois. De la sorte, on focalisera mieux la discussion sur la standardisation plutt que dentrer dans une discussion sur les mrites de certaines performances. Le dernier bloc de trois devrait faire lobjet dun accord. Cest--dire que la grande majorit des participants devraient tre daccord sur le niveau avec une dispersion infrieure un niveau et demie. Par exemple, pour une performance que lon saccorde situer en B1+, la dispersion des rsultats ne devrait pas excder lventail de B1 B2 ; pour une performance que lon saccorde placer en B1, la dispersion devrait tre de A2+ B1+. Le stage se terminera lorsquon aura atteint ce niveau daccord dans le groupe.

La slection des chantillons: comme pour les performances orales, on recommande quau moins une performance par niveau du CECRL soit analyse, value et discute au cours du stage. Lutilisation des instruments de mesure Comme au cours des discussions sur les chantillons de production et dinteraction orales, le coordinateur peut dcider dutiliser des chelles spcifiques (par exemple, production crite gnrale, criture crative, essais et rapports) pour faciliter un accord et mieux justifier lattribution dun niveau donn. Le coordinateur peut galement distribuer les Tableaux A2 et A3, en parallle avec le Chapitre 4 sur la Spcification.

49

Tableau 5.2 : Gestion du temps pour lvaluation dchantillons de performance crite

Nombre recommand de participants : 30 participants au maximum Activits dintroduction (Familiarisation)

Travail sur des chantillons standards : Phase 1 : Illustration avec environ trois performances reprsentatives Pause Phase 2 : Pratique sous contrle du coordinateur avec environ trois cinq 60 performances reprsentatives minutes Phase 3 : Etape libre avec environ trois cinq performances reprsentatives 60 minutes Djeuner Calibrage des chantillons locaux : Evaluation individuelle de performances dun niveau lev, moyen et faible et 60 discussion de groupe minutes Evaluation individuelle denviron cinq performances supplmentaires 60 minutes Tableau 5.3: Documents et matriel prparer pour lvaluation de la production crite Documents et matriel prparer Photocopies pour tous les participants : Grille dvaluation (Tableau C4) Feuilles dvaluation pour les participants (exemples des Fiches C2 et C3 Choix et photocopies des chelles complmentaires pertinentes Auxquels sajoutent : des textes de performances standards des fiches de synthse pour le coordinateur et des transparents (Fiche C 4) des textes produits localement (enregistrs et/ou slectionnes selon les instructions des Etudes de cas)

60 minutes 60 minutes

5.6.

Formation avec des tches et des items de capacits de rception (crite et orale) et de comptences linguistiques

Lobjectif des activits dcrites dans cette partie est de sassurer que les participants puissent tablir le lien entre leur interprtation des niveaux du CECRL et les items dexamens reprsentatifs afin de pouvoir ultrieurement utiliser cette comprhension commune pour : relier les preuves ou les items pertinents produits localement aux niveaux du CECRL acqurir, comme une plus value, une comptence pour llaboration ditems dexamens pouvant ventuellement tre considrs comme tant relis aux Niveaux du CECRL.

Les techniques dcrites peuvent tre utilises pour les items et les tches dexamens valuant des capacits de rception et peuvent tre, le cas chant, transfres

50

lvaluation dautres aspects de lutilisation de la langue tels que la grammaire et le vocabulaire. Les tches qui impliquent des capacits intgres (par exemple, couter un texte et rpondre des questions puis utiliser linformation donne pour faire un rsum) devront tre considres du double point de vue de la difficult des aspects rceptifs et productifs de la tche. Il y a gnralement une diffrence dlibre de difficult entre les deux parties de la tche, et il faut traiter cette question au cours de la formation. La difficult des items peut varier (et on peut la faire varier systmatiquement si on le souhaite) en fonction du texte lu ou cout, de laptitude la comprhension que lon teste et de la rponse que le candidat doit donner pour manifester sa comprhension. Comme pour les chantillons de performance, une formation avec des tches et des items reprsentatifs affectes de valeurs de difficult connues doit tre dabord mise en place et suivie ensuite du processus danalyse ditems produits localement (Chapitre 6). La formation avec des items calibrs prpare, dans lordre suivant, : 1. se rendre pleinement compte de ltendue des sous chelles de descripteurs du CECRL pour des domaines particuliers disponibles dans le CECRL (voir chapitre 4); 2. identifier la pertinence du contenu des items analyss en fonction de ce que recouvre le construit par rapport aux niveaux et aux chelles du CECRL. Comme cela est mentionn dans la partie 4.3.2, les recherches du projet hollandais de construit du CECRL (Alderson et al 2006) et la grille danalyse de contenu du CECRL qui en est rsult pour les rceptions orale et crite peuvent tre trs utiles. 3. estimer le niveau de chaque tche et item en fonction des descripteurs pertinents du CECRL ; 4. examiner les raisons possibles de divergences entre les niveaux estims et les niveaux tablis empiriquement ; 5. confirmer le niveau de difficult en les confrontant aux donnes empiriques. Il est essentiel de commencer la formation avec la rception crite. De mme quil est plus facile de travailler sur des performances orale et crite (que lon peut observer en direct) que de travailler sur des comptences de rception (quon ne peut pas observer), il est de loin beaucoup plus facile dorganiser un travail de groupe sur la lecture et la relecture de textes et ditems imprims (que lon peut voir) que dcouter de nombreuses reprises des items et des textes (que lon ne peut pas observer). Une fois le processus dvaluation des items de rception crite achev, il sera plus facile dorganiser le stage sur la capacit la rception orale et de travailler sur des textes de rception orale car les stagiaires auront dj lhabitude de la tche accomplir. Le coordinateur doit dcider de lorganisation des stages et estimer leur dure qui dpendra du contexte et de la formation antrieure des participants. 5.6.1 Familiarisation ncessaire Mme si les stagiaires ont dj particip au stage de Familiarisation dcrit dans le Chapitre 3, il est ncessaire dorganiser une activit consistant trier les descripteurs de la capacit que lon tudie avant de commencer lvaluation de la difficult et la dfinition des points de csure. Le CECRL fournit des chelles globales gnrales (par exemple Rception , Comprhension gnrale de lcrit , Comprhension gnrale de loral ) mais aussi des chelles spcifiques qui dcrivent les diffrentes activits langagires de rception (par

51

exemple Comprendre en tant quauditeur ) et de stratgies ( Reconnatre des indices et faire des dductions ). Les coordinateurs devront faire le choix des chelles les plus pertinentes pour lexamen dans le contexte o on le passe. Le travail doit toujours commencer par lanalyse et la discussion des chelles gnrales (par exemple Comprhension gnrale de loral ). Puis les coordinateurs peuvent rassembler les sous-chelles les plus appropris au contexte pour la capacit donne (par exemple Comprendre en tant quauditeur ) ou utiliser les reformulations des descripteurs du CECRL pour lauto-valuation, utilises dans le projet DIALANG (CECRL, Annexe C) et demander aux participants de trier les descripteurs selon les 6 niveaux du CECRL (voir Partie 3.2. 1, Activit f). La standardisation des items qui valuent des comptences linguistiques devra se faire selon une approche sensiblement diffrente de celle adopte pour la rception orale ou pour la rception crite parce quil est ncessaire de prciser le type de composantes que lon peut sattendre trouver aux diffrents niveaux. Le CECRL fournit des descripteurs gnraux pour des lments de la comptence de communication langagire (CECRL Partie 5.2 ; Manuel Tableaux A1-A3) mais les spcifications linguistiques de ce type sont propres chaque langue. La partie 4.3 passe en revue les diffrents outils disponibles. Le projet DIALANG a aussi labor un ensemble de spcifications pour 14 langues, comprenant des conseils aux rdacteurs ditems. 5.6.2. Formation la dfinition des points de csure (standard setting) Le processus de standardisation se droule en trois tapes suivant des procdures pour la formation semblables celles utilises avec les chantillons de performances standards : Phase 1 : Illustration : Premire valuation du niveau dun texte et des tches et des items qui y correspondent. Cette activit prliminaire aidera les participants sentendre sur les niveaux du CECRL pour la capacit value. Il est essentiel dexaminer la fois le niveau du texte dorigine et la difficult de chaque item qui laccompagne. Un texte na pas un niveau . Cest la comptence des candidats, telle quelle se manifeste dans leurs rponses aux questions, que lon peut relier un niveau du CECRL. Ce quon peut dire au mieux dun texte, cest quil convient pour son utilisation dans un examen visant un niveau donn. Tableau 5.4 : Sources de rfrences dans le CECRL Domaine Situations, catgories de contenu, domaines Thmes de communication Activits de communication Activits de communication et stratgies Textes et types de textes Caractristiques du texte : longueur de la tche, cohrence et structure des tches Tches Rfrence dans le CECRL Tableau 5 dans le CECRL 4.1 Les listes, dans le CECRL 4.2 Les listes, dans le CECRL 4.3 Les listes, dans le CECRL 4.4.2.2 Les listes, dans le CECRL 4.6.2 et 4.6.3 Linformation dans le CECRL 7.3.2.2 La description, dans le CECRL 7.1,7.2 et 7.3

A ce propos, la grille danalyse de contenu du CECRL pour la rception orale et crite dcrite dans le chapitre prcdent, est un instrument trs utile pour faire prendre conscience de limportance des traits qui affectent le niveau de difficult. Nous recommandons aux utilisateurs de se reporter aux fiches compltes du Chapitre 4 (Spcifications) et dexaminer la difficult du texte et de la tche par rapport aux parties appropries du CECRL. Pour la rception crite, par exemple, on utilisera la Fiche A10. Le Tableau 5.4 indique les parties du CECRL auxquelles se reporter.

52

Cette activit doit se faire individuellement dans un premier temps. Le coordinateur devra faire prendre conscience aux stagiaires, comme pour le travail avec les performances des apprenants, des convergences ou des divergences de leurs valuations. Les points suivants nous semblent particulirement importants : Il est trs important que les stagiaires lisent ou coutent rellement le texte et rpondent individuellement aux items qui sy rapportent avant dvaluer la difficult des questions traites et le niveau du CECRL quelles reprsentent le mieux. Aprs avoir rpondu aux items, ils devraient tre en mesure de comparer leur propre rponse et la rponse correcte (et les catgories qualitatives dans le barme des items polychotomiques) chaque item. Pour sassurer dune comprhension claire du corrig type ou du barme, il est bon quune discussion prcde lvaluation de la difficult des questions. Il est galement essentiel que le coordinateur donne des consignes claires sous forme dinstructions prcises distribues aux stagiaires. Litem est la mise en uvre dun descripteur de capacit faire du CECRL. Le problme est donc de savoir quel niveau lapprenant doit se trouver pour tre capable de rpondre correctement ou de faon acceptable la question.. Linstruction prcise que les valuateurs reoivent va dpendre de la mthode applique pour la dfinition des points de csure. Lexemple suivant se rapporte la mthode Basket (partie 6.7.2) Pour des items nots 1-0 (items dichotomiques) A quel niveau du CECRL un candidat peut-il donner une rponse correcte litem suivant ? Pour des items polychotomiques : A quel niveau du CECRL un candidat peut-il donner une rponse correcte litem suivant avec des niveaux de rsultats XXX (par exemple 2,1,0) ?

Les participants notent individuellement leur valuation des items, et justifient ensuite leurs dcisions par deux ou en petits groupes, A la fin de lactivit, le coordinateur rvle le niveau sur lequel la ou les question(s) sont effectivement calibres. Phase 2 : Pratique suivie : Une fois les tapes dillustration et de discussion acheves et un accord obtenu sur la faon denvisager le processus, on demandera aux participants dvaluer individuellement diffrents textes accompagns des tches et des items qui leur correspondent, de les relier aux niveaux du CECRL et didentifier les descripteurs du CECRL que chaque tche ou item met en uvre.

De mme que pour lvaluation des chantillons de production orale et crite, on peut poursuivre le travail avec 4 6 items ou 2 ou 3 mini tests (un texte avec plus dune question). On demandera aux stagiaires de : lire les textes et rpondre aux questions correspondantes ;

53

puis remplir une grille (voir ci-dessous) donnant leur valuation de chaque item afin : didentifier les descripteurs du CECRL que litem met en uvre ; de classer chaque question sur lun des six niveaux du CECRL

Fiche B5 : Fiche dvaluation des questions/items (DIALANG) Comptence______ _ Descripteur mis en Niveau attribu uvre (Enumrer les sous chelles et le niveau) Commentaires (En incluant les rfrences la Fiche A9)

Question/item 1 Question/item 2 Question/item 3 Question/item 4 Question/item 5 Etc. Le travail de groupe devrait prendre en compte les aspects suivants: le type ditems (rponse slectionne, rponse construite) et comment cela affecte la difficult de litem ; la mise en uvre de divers descripteurs du CECRL dans le texte et dans la tche ; la preuve dont on dispose pour justifier le calibrage de chaque item sur un des niveaux du CECRL ; les autres aspects pertinents des caractristiques de litem, du texte, de la rponse, ports dans la colonne commentaires .

Il faut remarquer cet gard que les valuateurs ont tendance surestimer la difficult des questions rponse slectionne (par exemple choix multiple), qui ont tendance tre plus faciles que les valuateurs ne le pensent souvent. De la mme faon, ils sous estiment la difficult des rponses construites (par exemple, rpondre une question, complter une phrase) qui ont tendance tre plus difficiles que les valuateurs ne le pensent. Demander aux participants de rpondre effectivement aux questions avant de se lancer dans des discussions sur la difficult peut permettre de rduire le problme. Quoi quil en soit, se centrer sur linteraction entre un texte et un type ditem pour dfinir la difficult en fonction de la mise en uvre dun descripteur du CECRL est une sensibilisation ncessaire ce moment de la formation. Il nous semble utile dattirer lattention des participants sur le rle de la complexit de la langue, de la longueur du passage quil faut examiner pour trouver la rponse correcte, de la vraisemblance des options dans les questions choix multiples, etc., comme facteurs de la difficult de litem. Les coordinateurs devraient susciter nouveau des commentaires et des discussions et faire une synthse claire des valuations en les prsentant sous forme schmatique non seulement pour que les stagiaires puissent les visualiser mais aussi pour une documentation ultrieure. Phase 3 : Evaluation individuelle : Les stagiaires continuent travailler individuellement avec le reste des items puis discutent des niveaux du CECRL auxquels ils ont t calibrs. De mme que pour les performances de production crite et orale, il est recommand de travailler sur des groupes de 4 6 items. Cela permet de centrer la discussion sur la standardisation plutt que sur les proprits des items ou des diffrents textes. Le dernier groupe ditems devrait faire lobjet dun large consensus.

54

On recommande aux participants de travailler de la mme faon quavec les chantillons des performances orale et crite (en utilisant la grille pour consigner leurs valuations) jusqu ce la dispersion des rsultats ne dpasse pas un niveau et demi (par exemple de A2+ B1+). Le coordinateur peut utiliser une fiche dvaluation globale comme la Fiche C4 afin de reporter sur un transparent les valuations des items faites par les stagiaires et de faire apparatre visuellement les variations de leur accord. Cette fiche sera ncessaire la documentation. Une fois que lon a achev la formation la standardisation (Parties 5.4 et 5.5) et que lon considre que le consensus sur lvaluation des chantillons standards est satisfaisant, ltape de travail sur les performances locales peut commencer. La partie qui suit (5.6.) fait un compte rendu pour chaque tape de la faon de calibrer des chantillons locaux de performances orale et crite. Les procdures suivre sont trs semblables celles de la formation (5.4). Pour tablir des seuils fonctionnels sur des examens conus localement pour les rceptions crite et orale ou pour des comptences sous jacentes, le choix des procdures de dfinition de standards parmi celles qui sont dcrites dans le chapitre 6 de ce manuel (ou dautres crits sur la dfinition des standards) aura une influence sur les procdures suivre. On recommande aux utilisateurs de ce manuel de lire le chapitre 6, et de choisir une mthode ou plus dune, et, en suivant le canevas de la formation dcrite dans cette partie, dlaborer leurs propres procdures, tape par tape, qui soit approprie au contexte. La documentation disponible pourra tre trs utile pour rdiger les procdures, mais il est ncessaire de prendre en compte les points dcrits dans la partie suivante pour le calibrage en rapport avec la slection ditems, lanalyse de donnes et la documentation. 5.7. De la formation au calibrage

Lapplication de la comprhension des niveaux du CECRL au calibrage des chantillons locaux (de performances orale ou crite) ou de tches/ditems locaux (pour les examens portant sur la rception orale et crite et la comptence linguistique valus avec des notes) doit avoir lieu aussitt que possible aprs la formation la standardisation. On recommande trs vivement quelle ait lieu au cours du mme stage, laprs-midi mme ou le jour suivant. Le coordinateur sera le mieux plac pour juger si cela est faisable ou sil vaut mieux le faire plus tard. Si le calibrage dchantillons locaux se fait au cours dun stage part, on recommande, au cours dune phase dharmonisation de montrer aux stagiaires des extraits dune ou deux performances standards values au cours de la session prcdente et on leur rappelle la discussion qui a eu lieu. Les procdures suivre pour le calibrage sont les mmes que celles suivies la formation. 5.7.1 Echantillons ncessaires Mme si cela retarde le projet, il est important dinvestir du temps et de lnergie pour recueillir un jeu dchantillons locaux de bonne qualit. Une fois calibrs sur le CECRL, il y a des chances pour que ces chantillons prennent tout leur sens en termes de rfrence. On recommande en consquence de faire un choix rflchi des items pour garantir la qualit, la reprsentativit (en ce qui concerne les candidats) et le contenu couvert par lexamen. Le processus de collecte peut tre trs semblable celui du processus de production ditems : dfinition des critres de slection ; identification des chantillons de candidats ; travail en atelier pour tudier et filtrer les chantillons en fonction de leur qualit ;

55

slection ; vrification de la reprsentativit du jeu dchantillons slectionns ; apport ventuel dchantillons supplmentaires pour complter lensemble ; documentation des caractristiques des chantillons pour le calibrage grce un outil tel que les grilles du CECRL pour les tches de productions crite et orale (annexe B2).

Il est essentiel que les chantillons locaux de performances utiliss pour le calibrage comprennent, pour les mmes candidats, des discours de types diffrents couvrant lventail des activits dcrites dans le CECRL. Pour la performance orale, cela suppose une activit avec des tapes qui illustrent diffrents types de discours. La technique de tournage pour filmer les chantillons reprsentatifs a t conue pour viter linfluence de lexaminateur et pour fournir un chantillon quilibr la fois de production et dinteraction orale. Pour la production crite, diffrents types de textes sont suggrs. Il est prfrable que les chantillons dcrit incluent la fois des productions libres (par exemple, une lettre amicale, une description) et des activits plus formelles o les candidats suivent un modle appris (par exemple, la lettre de confirmation dune rservation dhtel). Ceci est particulirement important, notamment aux niveaux lmentaires. Il est essentiel de veiller ce que les chantillons de productions recueillis pendant le processus de production, dadministration, denregistrement ou de documentation soient de bonne qualit et utilisables. Dans le cas des vidos, cela implique un son et une image de qualit12; dans le cas de textes crits cela signifie que les performances nont pas t biaises par des circonstances extrieures dues une prolongation du temps imparti, lusage de dictionnaires, une mauvaise criture, etc. Comme cela a t suggr dans la partie antrieure, le fait de complter les grilles du CECRL de tches crite et orale permet de sassurer que la slection des chantillons est quilibre et que les lments de base de la documentation sont disponibles. En gnral, les procdures suivre sont celles dcrites dans les parties 5.3 et 5.4 pour la formation la standardisation avec des chantillons reprsentatifs. . Cela comprendra : lutilisation des mmes outils que ceux utiliss pour la formation (Tableaux C1, C2 et aussi C3 (niveaux plus) ; le tableau C4 pour les performances crites ; les chelles du CECRL et/ou les tableaux A1, A2 et A3 pour les textes et les items de rception et de comptence linguistique) ; une valuation individuelle suivie de discussion en petits groupes conduisant le grand groupe au consensus ; une discussion sur la dispersion dans les valuations individuelles renouvele jusqu ce que lon parvienne un accord acceptable (dispersion gale un niveau et demi).

Un point important est ici souligner : les valuations individuelles doivent tre enregistres avant toute discussion. En fait, lexprience des sminaires de calibrage qui ont dbouch sur ldition de DVD reprsentatifs montre que cest la dispersion des valuations qui est affecte par les discussions (les marginaux se conformant la norme) et non la moyenne et donc le rsultat. Nanmoins, le signe du succs dun sminaire de calibrage est que lvaluation dindividus rassembls et le consensus final arrivent aux mmes niveaux du
12

Si une vido est ultrieurement copie sur un master lui-mme copi pour distribution, les utilisateurs auront alors une copie de troisime gnration qui aggrave tous les dfauts sonores. Cest la raison pour laquelle on recommande de toujours utiliser, mme avec la technologie du DVD digital, un micro extrieur et non celui de la camra. Avec un micro externe dtendue moyenne (1-2 m), il est parfaitement possible dobtenir une bonne qualit de son sans passer par un studio denregistrement. 5.7.2. Parvenir un consensus et le vrifier

56

CECRL pour un chantillon ou un item. La publication de donnes non biaises fait partie des preuves qui peuvent tre fournies 13 5.7.2. Arriver un consensus et le vrifier Si lon ne parvient PAS un accord, le coordinateur doit discuter avec les stagiaires de la raison de ce problme incompatible avec leur matrise de lvaluation des chantillons reprsentatifs. Le coordinateur devra se prononcer sur la cause du problme et faire le ncessaire pour le rsoudre. Parmi les raisons possibles et les solutions : Problme Les chantillons locaux ne proposent quune tche et cette tche est trop diffrente des chantillons du CECRL La grille dvaluation (Tableau C2) ne semble pas approprie pour les chantillons (par exemple contexte professionnel, tche troitement dfinie) Certains stagiaires commencent appliquer dautres normes quand ils valuent leurs apprenants 5.7.3. Analyse des donnes Les valuations des chantillons standards du CECRL devraient tre analyses statistiquement afin de (a) confirmer la relation avec les niveaux et, (b) calculer la fiabilit dun mme valuateur (cohrence) et des valuateurs entre eux (cohrence). Le degr de laccord entre les participants doit tre valu et le niveau moyen des chantillons confirm par lanalyse des valuations au cours du processus de calibrage. Lavantage principal est que les valuateurs dont le comportement nest pas cohrent peuvent tre identifis et quon peut exclure leurs valuations de lanalyse. Plusieurs mthodes permettent datteindre ce but. Outre les corrlations de fiabilit entre les valuateurs il y a, par exemple, le modle multiple de Rasch mis en uvre dans des programmes tels que FACETS. Action possible Vrifier quun ventail assez large de discours est disponible. Trouver dautres chantillons plus proches du CECRL

Rviser la grille en consultant les chelles du CECRL

Proposer un chantillon local et un chantillon du CECRL pour essayer de forcer les praticiens appliquer les mmes normes

13

Ce nest pas toujours le cas pour la dfinition de points de csure dexamens indirects et nots. Comme la dfinition des points de csure est un processus indirect, elle se fait dans beaucoup de mthodes par paliers successifs. Dans les derniers paliers on donne en gnral des informations pour orienter les stagiaires vers des valuations plus prcises et lensemble des jugements individuels initiaux ne concideront pas avec les rsultats finaux dun sminaire de dfinition de points de csure couronn de succs. Les informations qui sont habituellement transmises pour aider les stagiaires dfinir des points de csure comprend la difficult empirique des items ; pour les consquences que les seuils fonctionnels tablis par les jugements peuvent avoir sur le pourcentage de personnes ayant atteint le niveau concern, etc, ainsi que pour dautres informations, veuillez vous reporter au chapitre 6.

57

5.7.4. Documentation A la fin du stage, il est essentiel que le jeu dchantillons calibrs soit archiv, accompagn des comptes rendus du stage. Lors dun stage ultrieur de formation, il sera extrmement utile de pouvoir donner une explication justifiant quun chantillon donn ait t class un certain niveau. A cet gard la documentation qui accompagne les chantillons reprsentatifs des DVD peut servir de modle. Lenregistrement sonore des dbats lors du stage peut tre un document utile pour prparer des notes de ce type sur chaque chantillon calibr. Le coordinateur peut aussi dcider de demander lun des stagiaires de laider en prenant des notes sur la raison du classement de certains chantillons des niveaux donns. On peut alors standardiser ces notes et en faire un ensemble cohrent pour la documentation et les distribuer aux participants lissue du stage. Les utilisateurs du manuel peuvent se demander : comment sassurer de la constitution dun panel quilibr et reprsentatif pour le projet ; quelle taille un panel peut et doit raisonnablement avoir ; quelle est la stratgie la plus approprie au contexte (en termes de ressources, de planification, dapplication, danalyse) ; si le projet a pour but de calibrer des chantillons locaux pour une utilisation ultrieure comme chantillons reprsentatifs dun contexte spcifique ; comment sassurer de la qualit dun tel matriel local en vue du calibrage (et de formations ultrieures) ; sous quelle forme prsenter la documentation sur le matriel local et comment la distribuer ; quelle dure de formation est ncessaire ; si tous les participants doivent tre mis au mme niveau au dpart ou sil est possible de donner certains des tches accomplir avant le stage ; sils vont utiliser les niveaux plus (il y a des arguments pour et contre ; limportant est de ne pas modifier lapproche une fois que le processus est en cours) ; sils vont utiliser les grilles dvaluation du CECRL dans lannexe C ou laborer dautres outils plus spcifiques du CECRL ; comment publier et diffuser les rsultats du processus de standardisation dans le champ de lvaluation ; comment sassurer dune bonne diffusion locale et du suivi.

58

Tableau 5.5 : Formation la standardisation et calibrage : rcapitulatif


Activit FAMILIARISATION Matriel ncessaire Questionnaires de contrle fond sur des rappels du cadre de rfrence Photocopies de ces listes Photocopies des Tableaux 1 et 2 du CECRL Versions abrges du Tableau 2 du CECRL, autres chelles Vidos de performances standards (au minimum 8) Ecrits standards (au minimum 8) Photocopies dchelles spcialises de comptence : Tableau 3 du CECR/ Tableaux B1 B3 (performance orale) Tableau B4 (performance crite) Photocopies de Fiches de notation des stagiaires (Fiches B2 et 3) Fiches de notation du coordinateur (Fiche B4) Photocopies dautres chelles supplmentaires si pertinentes FORMATION (Capacits de rception) Photocopies dchelles spcialises de comptence : Comprhension gnrale de lcrit Comprhension gnrale de loral Photocopies de Fiches de notation des stagiaires (Annexe 2) Fiches de notation du coordinateur (Annexe 3) Photocopies dautres chelles supplmentaires si pertinentes CALIBRAGE DECHANTILLONS DE PERFORMANCES (Production) Modles ditems calibrs Vidos locales (au minimum 8) Ecrits produits localement (au minimum 8) Photocopies dchelles spcialises de comptence Tableau 3 du CECR/ Tableaux B1-B3 (performance orale) Tableau B4 (performance crite) Photocopies de Fiches de notation des stagiaires (Fiches B2 et 3) Fiches de notation du coordinateur (Fiche B4) Photocopies dautres chelles supplmentaires si pertinentes

Dure
2 heures

Effectif
Coordinateur Possibilit de grands groupes

Suggestions
Utiliser le programme dauto formation en ligne sil est disponible

FORMATION (Capacits de production)

3 4 heures par capacit Introduction, 30 min Echantillons standards, 90 min Echantillons locaux, 90 min 3 4 heures par capacit: Introduction, 30 min Echantillons standards, 90 min Echantillons locaux, 90 min 3 4 heures par capacit: Introduction, 30 min Echantillons standards, 90 min Echantillons locaux, 90 min

Coordinateur 30 stagiaires maximum

Traiter deux comptences par jour ou passer une demi-journe sur la formation et une demi-journe sur le calibrage dune seule capacit.

Coordinateur 30 stagiaires maximum

Il est possible de traiter deux comptences par jour car les stagiaires seront maintenant familiariss avec les niveaux du CECRL et les activits de standardisation

Coordinateur 30 stagiaires maximum

Traiter deux comptences par jour ou passer une demi-journe sur la formation et une demi-journe sur le calibrage dune seule comptence

Chapitre 6 : Procdures de dtermination des scores de csure


6.1. 6.2. Introduction Aspects gnraux 6.2.1. Organisation 6.2.2. Concepts 6.3. La mthode de Tucker-Angoff 6.3.1. 6.3.2 6.3.3. 6.3.4. 6.4. Procdure Le candidat aux comptences minimales Les dclarations de probabilit Regroupement des normes individuelles et approximation

Deux variations de la mthode de Tucker-Angoff 6.4.1. La mthode du oui-non 6.4.2. Extension de la mthode de Tucker-Angoff

6.5.

La mthode des groupes contrasts et la mthode des cas limites 6.5.1. La mthode des groupes contrasts 6.5.2. La mthode des cas limites

6.6.

La mthode du corpus de productions 6.6.1. Formation, prcision de ltendue et localisation par agrandissement 6.6.2. Calcul des scores de csure : rgression logistique

6.7.

La mthode dappariement au descripteur de litem et la mthode du panier 6.7.1. La mthode dappariement au descripteur de litem 6.7.2. La mthode du panier

6.8.

La mthode du marque-page 6.8.1. Le travail du panel dexperts 6.8.2. Contenu des livrets ditems ordonns 6.8.3. Aspects techniques

6.9.

Variante de la mthode du marque-page selon le Cito

6.10. Dclinaisons particulires 6.10.1. Dfinition des scores de csure sur plusieurs comptences 6.10.2. Dfinition des scores de csure et ajustement de tests 6.10.3. Dfinition des scores de csure sur plusieurs langues 6.11. Conclusion

60

6.1.

Introduction

L rsultat lmentaire de la participation un test est un score numrique. Dans le cadre de tests constitus dune forte proportion ditems, en rception crite et en rception orale par exemple, ce score correspond gnralement au nombre de bonnes rponses. Dans le cadre des capacits productives, la performance est principalement value partir dun nombre dfinis de critres pour lesquels le candidat reoit un nombre de points (par exemple de zro quatre ou cinq). Le cas chant, le score au test est le nombre total de point acquis par le candidat sur lensemble des critres et lensemble des tches quil ou elle a accompli. Sur la base de ce score une dcision est prise quant aux comptences du candidat, dont la plus importante, celle relative lchec/russite : est-ce que la performance du candidat au test est satisfaisante ? Si la certification est relie au CECRL une autre dcision doit alors tre prise : savoir si le candidat a atteint ou non un niveau particulier du CECRL (B2 par exemple). Ces dcisions (chec/russite et niveau du CECRL) impliquent la dtermination dun score de csure qui dfinit une performance norme. Pour la dcision chec/russite, le score de csure est le score minimal au test qui conduit la dcision russite; les scores infrieurs ce score de csure conduisent eux la dcision chec . De mme, un score de csure pour le niveau B2 correspond au score minimal qui conduira positionner la comptence du candidat au niveau B2 ou plus; les scores infrieurs sont alors interprts comme infra-B2 (c'est--dire B1 ou moins que B1). Certains tests ncessitent plusieurs points de csure. En reliant lexamen au CECRL, on pourrait par exemple souhaiter disposer dun score de csure pour A2, B1 et B2. Ceci est particulirement important. Un score de csure doit tre conu comme une frontire entre deux catgories adjacentes dune seule et mme chelle. Ainsi, dans lexemple dont il est ici question, il faudra considrer que chaque candidat sera class soit en A2, en B1 ou en B2 et que deux scores de csure sont alors ncessaires : lun qui marque la frontire entre les niveaux A2 et B1 et lautre pour la frontire entre les niveaux B1 et B2. En gnral, le nombre de points de csure est gale au nombre de classification moins un. Pour viter toute confusion entre les catgories (niveaux) et les scores de csure (les limites entre ces niveaux), on dnomme souvent le point de csure par les deux catgories adjacentes quil spare. Dans lexemple prcdent avec trois catgories, les points de csure pourront tre indiqus comme A2/B1 et B1/B2. Il est primordial de rester vigilant lgard de la labellisation des deux catgories aux extrmits de lchelle : la labellisation de la catgorie la plus faible, dans cet exemple en A2, pourrait impliquer que tout candidat dont le score est infrieur au score de csure A2/B1 est de niveau A2, incluant galement les candidats ayant un score de zro. Cest pourquoi il est prfrable de rendre la labellisation explicite, pour lexemple ci-dessus, il conviendrait de retenir A2 ou infrieur A2 . De mme, lutilisation de B2 ou suprieur B2 serait plus judicieuse pour la catgorie suprieure de cet exemple. La dtermination du score de csure ou de la performance norme relve souvent dune dcision collgiale. Le groupe qui ralise une pareille dcision est gnralement appel panel ou groupe de dcision. La participation dun panel dure classiquement plusieurs jours. La plus grande partie du temps est consacre des activits qui sont dcrites dans les chapitres prcdents. Pour relier les examens au CECRL, les panlistes doivent tre familiers du CECRL (Chapitre 3), ils doivent sassurer que lexamen recouvre lui mme les spcifications du CECRL (chapitre 4), et enfin, ils doivent tre entrains la faon dappliquer les descripteurs du CECRL lexamen (Chapitre 5). Dans ce prsent chapitre, lattention sera porte sur des aspects plus formels du groupe de dcision : le type de jugement tabli par les panelistes, le type dinformation disponible et la manire dont les jugements sont traits et compils pour parvenir un ou plusieurs scores de csure. De telles procdures ont souvent t formalises et sont connues sous le nom de procdures de dtermination des scores de csure. La dfinition des scores de csure peut avoir des consquences importantes pour les individus et pour les dcisionnaires politiques. Cette dtermination exige un jugement

61

prudent ; autrement dit la dfinition des scores de csure est probablement le pan de la psychomtrie qui associe plus des aspects culturels, politiques et artistiques en un mlange de ses produits que nimporte quel autre Cizek (2001, p. 5). 6.2. Aspects gnraux

Une part essentielle des procdures de dtermination des points de csure tient en lorganisation efficace des rencontres. Gnralement, une partie voire la totalit des phases de familiarisation, de spcification et de standardisation dcrites dans les chapitres prcdents de ce manuel forment un ensemble cohrent avec les procdures de dfinition des scores de csure (au sens strict du terme) qui sont discutes dans ce chapitre. Ainsi, la procdure considre dans son ensemble ncessite des ressources et exige une organisation efficace. Une excellente introduction est propose dans les premiers chapitres de Cizek & Bunch (2007). Dans cette section, lattention est donc restreinte la dtermination des scores de csure, et les autres lments fondamentaux seront seulement brivement exposs. 6.2.1. Organisation Les procdures de dfinition des points de csure par un panel durent gnralement deux trois jours, et dmarrent par une ou deux sessions de familiarisation, de discussion sur les spcifications du test, dentranement avec du matriel servant dillustration. Elles passent ensuite par une tape cruciale au cours de laquelle tous les experts du panel jugent le test constitu des items considrs. Aprs la remise dinstructions appropries, les membres du jury rendent leur jugement, gnralement au cours de deux ou trois tours spars par des phases de discussions, puis de mises en commun et de donnes supplmentaires. Pendant les sessions entre les phases dvaluation, deux types dinformations principales sont fournies. Aprs la premire phase dvaluation, une information indiquant le comportement des membres du jury est remise, montrant que certains dentre eux rendent de vritables jugements dviants. Ce type dinformation est appel information normative, et doit en principe permettre, en premier lieu, de dtecter et dliminer les malentendus au sujet des instructions. Cest une bonne exprience que de permettre aux membres du jury de discuter de cette information en petit groupe. Le risque, avec ces changes, est alors dorienter le groupe vers le point de vue de la personnalit la plus dominante de ce groupe (voir les suggestions dans la section 5.4.1). Cest la tche et le rle du leader du groupe (le facilitateur) que de conduire les discussions de telle sorte que les membres du jury ne se sentent pas influencs par cette personne. Aprs le deuxime tour, une information de nature diffrente nomme impact est souvent donne. Cette information indique les consquences des jugements des panlistes et repose sur le calcul de la proportion des candidats qui atteindraient ou non chaque catgorie selon les scores de csure provisoires dtermins par le rsultat des tours prcdents. Bien entendu, pour tre en mesure de pouvoir raliser cette opration, on devra avoir collect les scores dun chantillon reprsentatif de candidats. Le paragraphe prcdent pourrait prter confusion. La dtermination des points de csure telle quelle est dcrite dans ce chapitre aborde les performances considres dans une approche critrie : il est demand des juges expriments de formuler les minima requis (en termes de performances au test) pour russir lexamen ou pour obtenir le niveau B2 , qui sont supposs tre guids par lapplication dun systme gnral (dans notre cas le CECRL) un test ou un examen. On serait en droit de penser que le pourcentage de participants qui russissent lexamen nest pas important. Mais on ne devrait pas oublier que la procdure conduisant la dfinition des scores de csure en situation de fort enjeu est souvent ancre dans un contexte social et politique, et quil est alors prudent de confronter les panlistes aux consquences sociales de leurs dcisions. Aprs avoir inform les panlistes, il est possible quun certain nombre dentre eux changent davis et deviennent plus stricts ou plus indulgents, par rapport leurs jugements prcdents, et ce pour des

62

raisons opportunistes. Si cela se produit, cela nimplique pas ncessairement que ce changement dopinion devienne la dcision finale. Au contraire, une dviation importante dans les standards aprs mesure de limpact pourrait tre utilise pour engager une discussion plus approfondie dans le but de trouver un consensus raisonnable et rationnel entre deux dcisions trs diffrentes ; ce qui pourrait justifier lorganisation dun quatrime tour de jugement. On doit conserver lesprit que la prsentation des informations normatives et celles relatives la mesure de limpact ncessite un travail prparatoire consquent. Cette prparation doit tre telle que les calculs affrents (qui dpendent des jugements effectus par les panlistes) peuvent tre entrepris efficacement (par exemple pendant la pause du djeuner) pour que linformation soit disponible pour le tour suivant. Pour la grande majorit des procdures dtablissement des points de csure dcrites dans la littrature, de nombreuses variations ont t testes, adaptes des besoins spcifiques ou inspires par des carences dexpriences antrieures. Les applications illustrent ce qui tient essentiellement en la mme procdure : lorganisation des changes (en sance plnire ou en petits groupes), etc. Ces variations peuvent toutefois diffrer par le nombre de tours de jugements. Il nest pas ncessaire de suivre la lettre les dtails des procdures dcrites, des variantes rpondant au mieux un dispositif particulier peuvent tre introduites. Dans la suite de ce chapitre, les dtails des procdures et les variantes possibles ne seront pas abords; les traits essentiels et les caractristiques de chaque mthode doivent tre considrs comme llment retenir. Pour jauger la validit et lefficacit dune procdure applique un projet donn, il est crucial quune documentation dtaille et adquate de lensemble des tapes de la procdure soit disponible. Sans cette description technique dtaille, lvaluation professionnelle des rsultats devient dlicate et lon ne peut plus prtendre avoir labor un argumentaire. 6.2.2. Concepts En insistant sur le fait que les scores de csure ne peuvent tre correctement dfinis en se contentant de suivre mcaniquement une mthode donne, ce chapitre proposera une discussion de quelques aspects fondamentaux qui sont soulevs par une varit de mthode de dtermination des scores de csure. Parmi ces concepts, on trouvera : les dclarations de probabilit ; la probabilit de matrise ou la probabilit de rponse ; la notation crdit partiel ; les concepts lis la TRI (paramtres de difficult, niveau de difficult, discrimination) ; les tables de dcisions ; les livrets ditems ordonns (OIB en anglais), et la zone seuil.

Il est dlicat dintroduire ces concepts dans le rsum. Ainsi, ils seront prsents dans le chapitre lorsquils deviendront, pour la premire fois, ncessaires la description dune mthode particulire. Lordre dans lequel ils sont abords est celui qui aidera lutilisateur suivre le dveloppement de ces concepts. Il ny a pas de relation entre lordre de prsentation des mthodes et leurs caractristiques qualitatives. Le chapitre prsente une varit de mthode pour dfinir les scores de csure afin de proposer un choix, mais comme les situations de dtermination des points de csure diffrent, il ne prconise pas lutilisation dune mthode particulire plus quune autre. Les mthodes pour tablir les points de csure sont parfois divises en deux sousensembles ; dune part celles centres sur le test, et dautre part celles centres sur le candidat. Trois mthodes de cette dernire catgorie sont discutes. La mthode des groupes contrasts et la mthode des cas limites qui utilisent directement le jugement des candidats par un correcteur qui les connait bien. La mthode du corpus de productions, qui

63

requiert des jugements holistiques sur lensemble du travail dun chantillon de candidats, est utilise pour dterminer leur score au test ou lexamen, et ce, pour des rponses des questions choix multiples, des rponses construites, ou encore pour des productions plus consquentes. La caractristique importante de ces mthodes centres sur le candidat tient au fait que les candidats spcifiques sont reports dans des catgories (chec ou russite, niveau B1, B2 ou en cas limite) par un jugement holistique. Parmi les plus anciennes mthodes, comme celles de Tucker-Angoff ou de Nedelsky14, il est demand aux panlistes deffectuer un jugement sur chaque item. Ces jugements reposent sur les caractristiques des items perues par le panel dexperts. La procdure, dans son ensemble, peut tre applique sans aucune donne empirique de candidats. Pour ces mthodes, la mention centre sur le test est tout fait approprie. Avec la popularit grandissante de la thorie de rponse litem (TRI), des mthodes ont t dveloppes. Pour celles-ci, la distinction entre les mthodes centres sur le test et celles centres sur le candidat est moins claire. Dans ces mthodes, linformation disponible pour les panlistes est directement issue des performances dun groupe de candidats. Gnralement, cette information est formalise par la mesure de difficult de litem. La disponibilit dune telle information est cense aider le panel dexperts et les dispenser de la dlicate tche de fournir une estimation de la difficult qui repose exclusivement sur les caractristiques perues dun item. Les mthodes discutes dans ce chapitre pourraient ainsi tre classes en trois groupes. Le premier serait relatif aux mthodes centres sur le candidat (C-C), le deuxime serait relatif aux mthodes centres sur le test (C-T) dans la mesure o elles peuvent tre mises en uvre sans aucune donne empirique, et le troisime serait relatif aux mthodes de la TRI en ce sens o le panel dexperts utilise un rsum des donnes empiriques (classiquement fourni par lanalyse dans le cadre de la TRI). Le tableau 6.1 ci-aprs offre un aperu des mthodes discutes, leur classification est donne dans la colonne classe et la section o elles sont traites est indique dans la colonne section . Dans la section 6.10. des sujets particuliers sont discuts. La qualit de la dfinition des scores de csure est sujette de grande variation. Quelle que soit la mthode retenue ou la combinaison de plusieurs dentre elles, nous ne pouvons pas considrer que les scores de csure ont t correctement dfinis uniquement parce que certaines procdures auraient t respectes. Il est ncessaire de rassembler des preuves videntes de qualit des rsultats des procdures et den faire part de faon suffisamment dtaille et transparente. Cette question concernant la validit sera traite plus longuement dans le dernier chapitre de ce manuel.

Cette mthode est probablement la plus ancienne des mthodes de dtermination des scores de csure. Elle nest pas discute dans ce manuel. Louvrage de Cizek and Bunch (2007, Chapter 4) en offre une bonne description.

14

64

Tableau 6.1: vue densemble des mthodes discutes Mthodes La mthode de Tucker-Angoff La mthode du Oui / Non Extension de la mthode de Tucker-Angoff La mthode des groupes contrasts La mthode des cas limites La mthode du corpus de productions La mthode dappariement du descripteur de litem La mthode du panier La mthode du marque-page Une variante de la mthode du marque page par le Cito La mthode de Tucker-Angoff15 Section 6.3. 6.4.1. 6.4.2. 6.5.1. 6.5.2. 6.6. 6.7.1. 6.7.2. 6.8. 6.9. Classe C-T C-T C-T C-E C-E C-E C-T C-T TRI TRI

6.3.

Bien que cette mthode a t introduite en 1971 comme une remarque dans un chapitre consacr aux tests, ltalonnage, la standardisation et lajustement, quAngoff a crit pour une seconde dition du livre de rfrence Educational Measurement (Thorndike, 1971), cest encore, aprs plus de 35 annes, lune des mthodes les plus rpandues pour dterminer les scores de csure. De nombreuses variations de cette mthode ont t proposes ; dans ce chapitre deux dentre elles seront abordes. Nous commenons avec celle aujourdhui appele la mthode dAngoff , mme si Angoff la prsentait seulement dans une note de bas de page comme tant une variation de la procdure expose dans le corps du texte. 6.3.1. Procdure Un concept de base, qui apparait galement dans de nombreuses autres procdures dtablissement des points de csure, est le concept du candidat aux comptences minimales , galement dsign parfois comme le candidat limite , le candidat la frontire ou encore le candidat russissant peine . L o un point de csure doit tre utilis, par exemple pour le CECRL au niveau B1, le candidat aux capacits minimales est celui qui a les comptences pour tre appari au niveau B1, mais de telle sorte que la perte, si infime soit-elle, dune partie de ses comptences suffirait ne plus le catgoriser dans ce niveau de qualification. La tche des panlistes est de conserver lesprit un tel profil de candidat ou dun ensemble de candidats durant tout le travail de jugement quils doivent effectuer. Pour chaque item du test, le panel dexperts doit indiquer avec quelle probabilit un candidat aux comptences minimales rpondrait correctement. De la sorte, les donnes collectes au cours dun tour de jugement peuvent tre reprsentes comme celles qui figurent dans le tableau 6.2. ci-dessous, o 15 juges formaient un panel pour dterminer les scores de csure pour un test de 50 items. Ltape suivante de la procdure consiste en laddition des probabilits sur lensemble des items et pour tous les juges. Pour le juge 1 par exemple, cette somme quivaut 17.48. La probabilit dune rponse correcte un item binaire tant quivalente son score attendu (voir la section C dans le Supplment au manuel), la somme des probabilits sur lensemble des items quivaut au score attendu au test pour le candidat aux comptences minimales, selon le juge 1. Dans lexemple, nous voyons que ces sommes diffrent dun juge lautre, il en est toujours ainsi dans les sances qui conduisent la dtermination des scores de csure. Par consquent, reste rsoudre raisonnablement le problme de la concatnation des sommes individuelles des juges en une dcision finale. Le plus souvent cest le calcul de
15

Dans la littrature, cette mthode est communment appele la mthode dAngoff, mais Angoff luimme a attribue celle-ci son collgue dETS, Ledyard Tucker.

65

la moyenne des sommes qui est opr, et la moyenne est considre comme le point de csure recherch. Pour rsumer : trois composantes sont essentielles dans cette procdure. Le concept du candidat aux comptences minimales acceptables, la dtermination dune probabilit pour une rponse correcte par un tel candidat (qui doit tre renseigne pour chaque item et par chaque membre expert du panel) et la concatnation des sommes des probabilits pour lensemble des panlistes. Chacun de ces aspects sera comment au cours des sections suivantes. Tableau 6.2: donnes de base dans la mthode de Tucker-Angoff Juge 1 Juge 2 Juge 15 Item 1 Item 2 Item 3 0.25 0.48 0.33 0.32 0.55 0.38 0.30 0.80 19.52 0.35 0.45 0.28 0.35 0.90 18.98

Item 49 0.21 Item 50 0.72 Somme 17.48

6.3.2. Le candidat aux comptences minimales Le concept du candidat aux comptences minimales acceptables ou du candidat frontire est au cur de cette approche. Dans la phase dentranement des panlistes, une attention particulire doit tre rserve lexplicitation de ce concept pour en fournir une dfinition raisonnable, et garantir que la reprsentation interne dun tel profil de candidat par les membres du panel dexperts est i) communment intgre par les panlistes et ii) en accord avec lobjectif et les interprtations des rsultats du test. Supposons quune procdure soit labore pour dfinir les points de csure relatif au niveau B1, c'est--dire pour rechercher un score de csure entre les niveaux A2 et B1. Pour tre certain que ce score de csure reflte les limites et rien dautre que cela, on doit sassurer que les membres experts du panel ont une matrise prcise de la signification de A2 et B1, ou plus gnralement, que ces membres sont trs familiers du CECRL. Plus encore, les panlistes devraient avoir une ide claire et consistante de la dclinaison du CECRL chaque item. En ce sens, ils doivent connatre les descripteurs pertinents ( Etre capable de ) en rpondant chaque item. En particulier, ils doivent avoir une ide prcise des descripteurs critiques, en loccurrence ceux qui permettent dtablir la meilleure distinction entre les niveaux A2 et B1. Le processus pour parvenir une bonne comprhension des diffrences critiques entre les niveaux A2 et B1, pour ce qui concerne chaque item de lexamen, est chronophage et fastidieux. Des conseils pour lorganisation de cette activit peuvent tre consults dans les chapitres prcdents. Dans quelques unes des variations de la mthode de Tucker-Angoff, il est suggr que les membres experts du panel aient lesprit un candidat concret, quils considrent comme un candidat la frontire des niveaux viss, par exemple un candidat quils connaissent bien. Largument mis en avant pour cette procdure est quelle devrait aider les membres experts du panel se construire une reprsentation stable du candidat qui se situe la frontire entre deux niveaux, et ce au fur et mesure quils parcourent la liste des items. Bien que ce soit admis, travailler avec des candidats rels prsente deux inconvnients. Le premier est quun tel candidat est gnralement connu par un seul des panlistes et quil devient difficile

66

dutiliser les caractristiques de celui-ci dans les changes en petits groupes, parce que prcisment lexception dun seul panliste personne dautre ne le connait. Le second inconvnient est plus problmatique. Le recours un candidat rel devient critique si chacun pense un candidat en particulier. En effet, il sera trs difficile de rduire les carts avec la reprsentation correcte de la personne se situant la frontire des niveaux et sur laquelle les panlistes devraient sappuyer pour effectuer leur jugement. Ce problme peut se produire au dmarrage de la procdure de dtermination des scores de csure mais galement pendant les phases dentranement et dchanges en petits groupes. Dans tous les cas de figure, il est recommand que le travail ralis partir du candidat concret ne se fasse pas au dtriment de la phase minutieuse dentranement. 6.3.3. Les dclarations de probabilit Pour chaque item, les membres experts du panel doivent statuer sur la probabilit avec laquelle le candidat la frontire des niveaux viss donnerait une rponse correcte. Parce que les panlistes sont souvent peu familiariss avec les probabilits, ils peuvent tre sceptiques vis--vis de ce type de tche. Il est alors vivement conseill de rendre cette opration plus concrte. Par exemple, on peut leur suggrer dimaginer 100 personnes de mme niveau que le candidat quils sont en train de considrer et qui rpondent litem. La question serait alors : combien dentre-eux vont russir litem ? Le nombre indiqu par les panlistes est ensuite divis par 100 pour tre considr comme la probabilit de rponse correcte du candidat. Cette probabilit est communment nomme le coefficient dAngoff. Lutilisation du nombre 100 dans lexemple ci-dessus prsente deux avantages. Premirement, la rponse propose par les membres du panel peut tre directement interprte comme un pourcentage, et deuximement le nombre de rponse possible (de 0 100) est suffisamment grand pour garantir avec prcision lexpression des probabilits. Supposons quun des membres du panel ait lesprit une probabilit de 2/3, soit de 0.66666. Pour rpondre la question avec 100 personnes, il dira probablement 67 16. Il y a deux aspects prendre en compte quand les panlistes doivent attribuer une probabilit. Le premier, avec des questions choix multiples, est que la probabilit dune rponse correcte peut tre importante, mme si le niveau de comptence du candidat est nettement infrieur celui de la personne la frontire des deux niveaux. La raison est lie au choix heureux par ignorance. Il est utile de le rappeler aux experts du panel, par exemple en les invitant ne pas statuer sur une probabilit infrieure la rponse au hasard (obtenue en divisant un par le nombre de rponses possibles). Il sagit dun point important pour les changes entre les tours de jugement et pendant la phase dentranement. Lautre aspect est li la tendance viter les jugements extrmes ; ce qui signifie que lorsque quon dispose de suffisamment dinformation pour statuer sur une probabilit extrme, il existe une tendance, dans le comportement humain, qui consiste viter ce travers en donnant des valeurs plus grandes que les valeurs relles quand celles-ci sont trs faibles, ou en donnant des valeurs plus faibles que les valeurs relles quand celles-ci sont trs fortes. Si une telle tendance se produit quand on utilise cette procdure, leffet diffrera en fonction du niveau gnral de difficult du test ou de lexamen. Pour un test trs facile et pour le candidat se situant la frontire des niveaux, les probabilits seront trs fortes pour de nombreux items. Si ces probabilits sont systmatiquement biaises vers des valeurs infrieures, par le rflexe humain dcrit ci-avant, alors le point de csure sera plus faible (plus dindulgence) que sans cette tendance. Inversement, pour un test trs difficile pour ce mme candidat : les faibles probabilits seront surestimes, et le point de csure recherch sera biais la hausse.

16

Ce nest pas la mme chose que 100x2/3, mais lerreur est suffisamment petite pour ne pas causer de biais systmatique dans le rsultat final. Si on utilisait 10 au lieu de 100 (ou darrondir la probabilit une dcimale, c'est--dire que les rponses seraient 0, 0.1, 0.2.1) on constaterait une erreur systmatique sur le rsultat final, en particulier si le standard recherch est proche de lune ou lautre des bornes du score. (Reckase 2006a; 2006b.)

67

Bien entendu, il est trs difficile de mesurer quel point cette tendance conservatrice se ralise dans un projet donn de dfinition des points de csure, mais lon peut tenter dliminer ces phnomnes de deux manires. La premire sapplique tous les jugements des mthodes de dfinition des scores de csure : tre modeste au regard des ambitions. Il est illusoire de penser quil est possible dlaborer un test et dobtenir des points de csure pour les six niveaux du CECRL (de A1 C2) dans un seul et mme test ou examen en utilisant les mthodes centres sur le test. Avec la mthode de Tucker-Angoff, cela implique que pour les candidats la frontire des niveaux A1 et A2 il y aurait de nombreux items trs difficiles, et inversement, pour les candidats la frontire des niveaux C1 et C2 il y aurait de nombreux items trs faciles (ncessaires pour le point de csure A1/A2). Mme une faible tendance attribuer des probabilits de faon conservatrice pourrait avoir un effet substantiel sur les scores de csure, en tant trop svre pour les faibles niveaux et trop indulgents pour les niveaux plus levs. La seconde faon pour viter des biais systmatiques dans lestimation des probabilits est de fournir aux panlistes ce que Cizek et Bunch appellent le feedback de ralit. Cela peut tre ralis de la manire suivante et sous la condition que les donnes relles du test soient disponibles. Aprs le premier tour de dtermination des scores de csure, les points de csure provisoires sont calculs. Supposons que dans un test constitu de 50 items comme celui utilis dans lexemple du tableau 6.2., la moyenne des probabilits est 18.52, ainsi le point de csure correspondra un score de 18 ou 19. Si ce point de csure nest pas trop loign du point de csure dfinitif, il est raisonnable de considrer les candidats avec un score avoisinant celui du point de csure provisoire comme des candidats la frontire des niveaux dlimits par ce point de csure. Pour ces candidats on peut calculer la proportion des rponses correctes chaque item et donner les rsultats de ces calculs comme lment de feedback aux panlistes quand ils seront en prparation du deuxime tour de jugement. Ces proportions sont des estimations empiriques de la proportion des rponses correctes pour les candidats qui se situent au point de csure. Les experts du panel pourraient la comparer leurs propres estimations et tre conduits fournir des ajustements raisonnables. A partir des dterminations des probabilits au tour suivant, il peut tre constat si, et dans quelle mesure, les dterminations conservatrices ont t ajustes dans la direction souhaite. Pour dfinir un voisinage raisonnable au point de csure provisoire, on souhaite souvent avoir un compromis entre la largeur de ltendue autorise et le nombre de candidats ayant un score dans cet intervalle. Supposons quon fixe le point de csure provisoirement un score de 19 points, et supposons que seulement 15 candidats aient obtenu ce score. La proportion des rponses correctes pour chaque item dans ce petit groupe aura un fort carttype parce quils sont peu nombreux. Elargir la dfinition du voisinage de 17 21, par exemple, augmenterait considrablement ce nombre, mais dun autre ct, si le point de csure est rellement 19, il pourrait tre litigieux de considrer lgitimement les candidats avec un score de 17 ou 21 comme tant la frontire des niveaux. Une stratgie possible est de dfinir le voisinage comme le point de csure provisoire plus ou moins lcart-type de mesure. Pour viter les biais, il est important que ltendue du voisinage soit symtrique autour du point de csure provisoire. 6.3.4. Regroupement des normes individuelles et approximation Additionner les probabilits associes aux items dun membre du panel fournit le point de csure individuel de cet expert. La moyenne des ces estimations individuelles peut tre apprhende comme le point de csure de lensemble du panel. Mais il nen est pas ainsi. Dune certaine manire les moyennes sont des mesures fragiles. En particulier la moyenne est sensible aux valeurs extrmes, atypiques, qui peuvent provenir dun ou deux experts du panel, qui sobstinent donner des points de csure extrmes, ou qui nauraient pas compris la procdure. Pour limiter linfluence de telles extrmes sur la dcision de groupe on peut utiliser des indices plus robustes. Le plus populaire dentre eux est la mdiane, mais un autre, trs utile, est la moyenne tronque. Une moyenne tronque est la moyenne dun jeu de donne o un certain pourcentage de donnes est exclu du calcul. Les donnes exclues

68

sont les plus extrmes (aussi bien du ct suprieur que du ct infrieur). Si les experts du panel sont au nombre de 20 et que le pourcentage de troncature est fix 10%, alors la plus forte et la plus faible des valeurs sont exclues et la moyenne sera ainsi calcule sur les 18 valeurs restantes. Gnralement le point de csure dun membre individuel du panel, comme celui du groupe dexpert est une moyenne, une moyenne tronque ou la mdiane et correspondra un nombre dcimal. Mais en pratique, la participation individuelle un test ne peut pas rsulter en un score valeur dcimale. Ainsi, le rsultat dcimal devra tre arrondi lentier immdiatement suprieur ou infrieur. Arrondir lentier le plus proche peut apparaitre comme un problme trivial : dans lexemple, cela signifie quil conviendrait darrondir le 18.55 19, mais en ralit la question est bien plus complexe quil ny parait. Pour comprendre, on devrait prendre en compte, ds lors que lon met en uvre une procdure visant dterminer les scores de csure, et quelle que soit lattention mthodologique quon y aura accord, quon aboutira invitablement des erreurs de classification parce que les scores eux-mmes ne sont pas parfaitement fidles. Ces erreurs de classification peuvent se rpartir de deux faons : un candidat avec un score vrai gal auou suprieur au- score de csure peut tre class comme nayant pas atteint le point de csure (approximation par dfaut), a contrario, un candidat avec un score vrai infrieur au score de csure, peut, par lerreur de mesure, tre catgoris comme ayant atteint le point de csure (approximation par excs). Les erreurs de classification ont des consquences au niveau individuel et parfois au niveau de la socit. De faon plus importante encore, les approximations par dfaut pourraient tre diffrentes des approximations par excs. Si lon considre ces dernires comme plus dlicates, alors il est prfrable de rendre plus svre le point de csure et darrondir vers lentier suprieur. Les consquences des erreurs de catgorisation sont discutes plus en dtail dans le chapitre suivant. Une dernire mise en garde pour ce qui concerne larrondissement est voque ici. Les nombres arrondis, et les calculs effectus sur les nombres arrondis, peuvent avoir des consquences imprvues et non souhaites. Par consquent, larrondissement devrait tre effectu le plus tardivement possible. Cest une mauvaise pratique, par exemple, que darrondir les valeurs individuelles des points de csure (la ligne du bas dans le tableau 6.2.) de chaque expert du panel lentier le plus proche, puis de calculer la moyenne des valeurs arrondies pour enfin arrondir de nouveau le rsultat. Un simple exemple permet de mieux comprendre ce phnomne : supposons quavec trois juges dont les points de csure sont respectivement 17.01, 17.51 et 17.53. La moyenne est de 17.35, soit de 17 aprs arrondissement. Si on arrondissait les valeurs demble 17, 18 et 18, la moyenne serait alors de 17.67 et la valeur arrondie serait, elle, fixe 18. 6.4. Deux variations de la mthode de Tucker-Angoff

Dans les mises en uvre de la mthode de Tucker-Angoff, lattribution des probabilits aux rponses correctes est souvent perue comme tant complique comprendre et mettre en uvre. Une variation de cette mthode est appele la mthode du Oui/Non17 qui permet dliminer cette difficult. La proposition originelle dAngoff tait exclusivement ddie aux tests constitus ditems binaires (dichotomiques). Dans de nombreux tests, en particulier pour ceux incluant des capacits productives, les items ont des scores polytomiques pour lesquels on peut obtenir, par exemple 0, 1, 2 ou 3 points. La mthode de Tucker-Angoff peut (en principe) tre applique de telles situations. Dans cette section, les deux variations sont brivement discutes

17

En fait, cest ce quAngoff avait propos lorigine de sa mthode de dtermination des scores de csure. La mthode discute dans la section prcdente a t propose en note de bas de page.

69

6.4.1. La mthode du Oui/Non La description la plus claire quon peut avoir de cette mthode est le texte originel rdig par Angoff lui-mme. Une procdure pour dcider du score minimal qui dtermine la russite peut tre mise en place de la faon suivante : en conservant lesprit lhypothse du candidat aux comptences minimales acceptables, on pourrait parcourir les items du test les uns aprs les autres et dcider si une telle personne est en mesure de rpondre correctement chacun des items. Si un score de un est attribu chaque item rpondu correctement par le dit candidat et quun score de zro est attribu pour chaque item chou, la somme des scores obtenus aux items sera gale au score brut du candidat aux comptences minimales acceptables (Angoff 1971 pp. 514515). Au lieu dattribuer des probabilits (des nombres variant de zro un), les experts du panel attribuent un (en disant oui) ou zro (en disant non). Bien que de bons rsultats aient t rapports avec cette mthode (voir Cizek and Bunch 2007, pp. 8892 pour quelques rsultats), la mthode peut conduire de svres biais. Pour le voir, on peut considrer les rponses donnes (0 ou 1) comme des probabilits arrondies. Considrons dsormais un test plutt homogne qui serait relativement facile pour le candidat la frontire entre les niveaux. Cela signifierait pour tous ces items que le candidat a une probabilit suprieure 50% de rpondre correctement aux items, ainsi un expert du panel devrait rationnellement indiquer Oui pour chaque item. Pourtant, sil procde de la sorte, son point de csure individuel correspondra au score maximal du test alors que le candidat en question obtiendrait en moyenne un score lgrement suprieur la moiti du score maximal. Nous pouvons donc en dduire un principe plus gnral sur la signification de la dfinition des points de csure. Dans lexemple prcdent, il est clair quun rsultat significatif peut tre obtenu si le candidat situ la frontire des niveaux peut rpondre correctement certains items du test (avec une probabilit suprieure .5) et peut chouer aux autres items (avec une probabilit infrieure .5). Cela empcherait que le score de csure soit trs extrme (proche de zro ou proche du score maximal). En dautres termes, cela signifie que le test devrait inclure suffisamment dinformation sur lhabilet du candidat situ la frontire des niveaux et que cela conduit aux mmes conclusions que prcdemment. Si des points de csure doivent tre dfinis pour des comptences distinctes (par exemple pour A1/A2 et B2/C1) en utilisant le mme test, on devra alors collecter suffisamment dinformation sur plusieurs tendues dhabilet ; ce qui est en rgle gnrale difficilement ralisable, moins que le test ne soit trs long. Ignorer ce principe peut conduire des rsultats aberrants, comme ceux montrs dans lexemple suivant. Supposons quun test soit construit pour tablir une distinction entre les niveaux B2 et C1. Utiliser ce test pour fixer les points de csure entre les niveaux A1 et A2 conduirait probablement un score de csure de zro avec la mthode du Oui/Non (un candidat la frontire des niveaux A1 et A2 ne rpondra pas correctement aux items), et conduira une conclusion aberrante : le candidat sera au niveau A2 sil obtient un score de zro ce test. 6.4.2. Extension de la mthode de Tucker-Angoff Une gnralisation de la mthode aux tests constitus dun ensemble ditems dichotomiques et polytomiques est facile comprendre si on apprhende la probabilit dune rponse correcte un item dichotomique comme le score attendu pour cet item (voir Section C du Supplment au manuel). Pour ce qui concerne les items polytomiques, il est plus difficile de dterminer les probabilits de rponse, parce quil convient dattribuer la probabilit dobtenir le score 0, 1, 2, etc. jusquau score maximal de litem. On peut nanmoins circonscrire ce problme en dterminant le score attendu pour un item polytomique. Linstruction qui serait donne aux experts du panel dans cette situation serait la suivante : Imaginez que 100 candidats qui se situent la frontire des niveaux viss rpondent cet item, pour lequel on

70

peut obtenir jusqu 4 points, quel serait, selon vous, le score moyen obtenu par ces 100 candidats ? Au lieu de renseigner les probabilits dans un tableau comme le tableau 6.2., on peut complter par le score moyen attendu tel quil est dtermin par les panlistes. Les autres oprations de la procdure (sommation et concatnation) demeurent les mmes que pour la mthode de Tucker-Angoff applique aux items dichotomiques. Le seul problme qui demeure avec cette mthode est quon doit sassurer que les experts du panel aient correctement intgr la signification dun score moyen. En particulier, ils devraient comprendre que la moyenne peut tre un nombre dcimal bien que les scores individuels ne peuvent tre que des valeurs entires. Une bonne faon est de les former tablir, pour eux-mmes, une table de frquences des scores observables pour les 100 candidats la frontire des niveaux viss et ensuite den calculer la moyenne. Un exemple dune telle table est fourni dans le tableau 6.3., pour un item dont le score maximal est de 3. La tche des panlistes consiste alors renseigner la colonne des frquences dans le tableau (et de vrifier que la somme est gale 100). La troisime colonne (score multipli par la frquence) se complte mcaniquement. A partir de lexemple dans le tableau 6.3., on dduit immdiatement que le rsultat du score attendu est 75/100 = 0.75. Si lon pense quil est risqu de faire remplir la troisime colonne par les panlistes eux-mmes, on peut se contenter de prparer un tableau plus simple (sans cette troisime colonne) et confier aux experts du panel le soin de complter la colonne frquence. Le calcul restant peut alors tre effectu dans un second temps par une tierce personne. Tableau 6.3: calcul du score attendu pour les 100 candidats limites Score Frquence Score * Frquence 0 45 0 1 35 35 2 20 40 3 0 0 100 75 Somme

Pour conclure : La mthode de Tucker-Angoff et ses nombreuses variations sont typiques des mthodes centres sur le test, par le fait que la tche principale des membres experts du panel est de se concentrer sur les caractristiques des items et de catgoriser ces items en regard de la comptence dun candidat dfini comme tant la frontire des niveaux viss. Cette catgorisation est absolue (dans la mthode du Oui/Non) ou probabiliste. Dun point de vue purement formel, on pourrait dire quau cours de lapplication de cette mthode, les experts du panel nont pas besoin dtre forms ou davoir une exprience particulire avec des candidats rels du test. Cependant, en pratique, slectionner un tel panel dexperts conduirait des rsultats inacceptables. Mme avec des enseignants bien expriments, la tche reste abstraite, et les enseignants considrent quil est difficile de rpondre aux exigences de la tche. Cest pourquoi, toutes les variations autour de cette mthode utilisent aujourdhui plusieurs tours de jugements et proposent des lments prgnants sur les performances relles des candidats pour modrer la dtermination des scores de csure. Mesurer limpact des donnes offre une ide des consquences des dcisions sur les groupes de candidats et peut conduire des ajustements non ngligeables. Fournir des donnes relles, comme la proportion pour un groupe de candidats limites, partir des points de csure provisoires, peut donner une indication qui aidera ajuster les estimations de probabilit vers des valeurs plus relles. Et mme avec ces informations, laccent principal de la mthode porte sur les proprits du test, la qualification de cette mthode comme centre sur le test reste donc justifie. Au cours de la section suivante, deux mthodes centres sur les candidats seront dcrites.

71

6.5.

La mthode des groupes contrasts et la mthode des cas limites

Ces deux mthodes sont trs contrastes par rapport celle de Tucker-Angoff. En effet, les jugements des experts du panel reposent premirement (et quasi-exclusivement) sur les performances au test de candidats rels. Elles sont donc prototypiques des mthodes centres sur les candidats. La ncessit commune aux deux mthodes est de disposer de scores au test pour un chantillon de candidats. Comme cest le cas galement pour toutes les mthodes visant dterminer les scores de csure, une attention particulire doit tre apport lchantillon slectionn pour quil soit reprsentatif de la population cible. En outre, les candidats doivent tre bien connus par (au moins) un des experts du panel. En pratique, on aura gnralement recours pour le panel des enseignants/formateurs des candidats de lchantillon retenu. Ainsi, chaque candidat de lchantillon est bien connu par au moins un des panlistes. 6.5.1. La mthode des groupes contrasts La tche des experts du panel est de placer chaque candidat dans lune des deux catgories (dans le cas dun seul score de csure) ou dans k+1 catgories quand il y a k scores de csure dterminer. Si lobjectif de la procdure est de dterminer le score de csure, par exemple, pour le point de csure B1/B2, chaque candidat est catgoris par les panlistes soit en B1 (ou moins) soit en B2 (ou plus). Une fois cette information disponible, une table de frquence munie de deux colonnes est construite. Les lignes reprsentent le score au test et les deux colonnes indiquent les frquences des scores pour les groupes de candidats catgoriss en B1 ou en B2. Un exemple qui repose sur des donnes fictives pour un test constitu de 50 items est propos dans la figure 6.1., o les deux distributions de frquences sont reprsentes graphiquement. Lchantillon total est constitu de 400 candidats, 88 ont t catgoriss en B1 et 312 en B2. Les distributions prsentent ici des caractristiques souvent observes : elles sont trs irrgulires (en lien avec la taille modre de lchantillon) et elles sont fortement en recouvrement. Il nest donc pas intuitif de placer le score de csure. Par ailleurs, les deux groupes diffrent considrablement du point de vue de leur effectif, comme cest souvent le cas dans les dcisions de type russite/chec. Le score moyen des candidats B1 est de 16.78 et de 34.24 pour les candidats B2. Un score de csure acceptable, au moins provisoirement, est la valeur qui se situe au milieu de ces deux moyennes, donc 25.51 = (16.78+34.24)/2. Il faut nanmoins rester prudent en prenant en compte cette valeur (ou une valeur arrondie de cette dernire) pour le point de csure.

25
'B1'

20
frequency

'B2'

15 10 5 0
0 5 10 15 20 25 30 test score 35 40 45 50

Figure 6.1. Distribution de frquence pour les scores au test dans les deux groupes contrasts

72

Pour ce qui concerne la distribution des candidats B1, sept (sur un total de 88) obtiennent un score particulirement lev (au-del de 30 points) et peuvent tre considrs comme au dessus du point de csure. Cela vaut donc la peine de vrifier si ces sept candidats ont t catgoriss par le mme enseignant ou non. Le cas chant, cela pourrait devenir un sujet de discussion dans le panel pour voir si cet enseignant/formateur na pas t trop svre dans ses jugements. Mme sans ces cas atypiques, le recouvrement entre les distributions est souvent observ. Une technique efficace pour oprer un choix rationnel est de construire une table de dcision pour plusieurs scores de csure. Cette technique est illustre peu aprs. Dans le tableau 6.4., le tableau de frquence correspondant la figure 6.1. est partiellement reprsent : les scores faibles (infrieurs 20) et les scores levs ( compter de 28) ont t regroups ; les autres scores sont reprsents. Tableau 6.4: distribution de frquence correspondant la figure 6.1. Score 020 21 22 23 24 25 26 27 2850 B1 63 5 1 1 0 4 1 4 9 B2 9 2 2 6 8 14 16 8 247

Le tableau 6.5. est directement driv du tableau 6.4. Prenons le score de csure 24 par exemple. Dans le tableau 6.4. on peut voir que 18 candidats, catgoriss en B1 par leurs formateurs russissent le test et sont ainsi considrs comme des candidats B2 sur la base de leur score. Ces 18 candidats sont des faux positifs . De faon similaire, 19 candidats catgoriss en B2 par leurs formateurs chouent au test, ils sont donc des faux ngatifs . Rassembls, ces candidats sont au nombre de 37 et sont tous incorrectement classs. Sur un total de 400 personnes, cela reprsente 9.3%.

73

Tableau 6.5: tables de dcision pour cinq scores de csure Score de csure Catgoris en : Infrieur au score de csure Score de csure ou suprieur Total % derreur de catgorisation 21 B1 63 25 88 B2 9 303 312 8.5 B1 68 20 88 22 B2 11 301 312 7.8 B1 69 19 88 23 B2 13 299 312 8.0 B1 70 18 88 24 B2 19 293 312 9.3 B1 70 18 88 25 B2 27 285 312 11.3

Avec le tableau 6.5. on peut sapercevoir que le pourcentage derreur de catgorisation varie avec les variations du score de csure. Il atteint sa valeur minimale pour un score de csure 22 et varie trs peu si le score de csure est fix 23. Ainsi, 22 et 23 pourraient tre prfrs aux valeurs provisoires 25 et 26 dtermines par le milieu des deux moyennes. Il y a un autre aspect de cette procdure que lon ne doit pas omettre. Le nombre derreurs de classification, c'est--dire le nombre de faux positifs et de faux ngatifs. Pour chaque score de csure dans le tableau 6.5. ce nombre diffre mais dans des proportions toutes relatives. Cette comparaison nest pas celle qui doit tre effectue parce que le nombre de candidats classs en B1 et B2 par les enseignants/formateurs varie considrablement. Prenons par exemple le score de csure 24, pour lequel le nombre de faux positifs et de faux ngatifs est quasi-identique. Les faux positifs reprsentent 18 sur 88 soit 20.4% des candidats tiquets B1 alors que les 19 faux ngatifs reprsentent seulement 6.1% des candidats B2. Pour le score de csure 22, ces pourcentages sont respectivement 22.7% et 3.5%, rvlant un dilemme qui peut savrer en pratique : le score de csure optimal selon le pourcentage total derreur de catgorisation nest pas, en gnral, optimal en regard de lquilibre des faux positifs et faux ngatifs. Des considrations prudentes sont ncessaires quant aux consquences des faux positifs et des faux ngatifs avant de parvenir la dcision finale. Il y a deux considrations prendre en compte quand on applique cette mthode des situations forts enjeux. La premire est dordre statistique, la seconde est de nature plus mthodologique. Pour ce qui concerne la premire, la taille de lchantillon utilis dans cet exemple est restreinte, en particulier pour le groupe des candidats B1. Cest ce qui rend les nombres qui figurent dans le tableau 6.5. particulirement instables statistiquement, sousentendu quune rplication laide dun chantillon de mme taille, le tableau pourrait faire lobjet de modifications considrables et conduire un choix trs diffrent pour dfinir le score de csure optimal. Lautre aspect est encore plus important. Le raisonnement conduit pour laborer les tableaux et les interprter repose sur lhypothse que le jugement des enseignants/formateurs a une haute valeur de vracit et correspond la ralit ( si votre formateur vous indique que vous tes B1, alors vous tes B1 ). Bien sr, ce nest pas le cas et les jugements des formateurs, mme bien entrains au CECRL ne seront pas totalement valides. Il est vrai quune surestimation de quelques candidats par un formateur pourrait tre compense par une sous-estimation dun autre candidat par un autre formateur, mais comme personne na de contrle sur ces aspects l ce point demeure problmatique. En effet, les candidats restent la merci des formateurs. Si un ou deux formateurs sont trop indulgents, disons sils catgorisent facilement en B2 dans cet exemple, il sera quasiment impossible de dtecter une telle indulgence. Mme sils obtiennent plus de jugements B2 que leurs collgues du panel, cela ne constitue pas une preuve de leur indulgence, parce quil est possible quils aient eu des candidats plus comptents. On pourrait essayer de vrifier en utilisant les scores au test, en montrant par exemple que le score moyen de leurs candidats est approximativement le mme en moyenne que celui des autres candidats, ils auraient alors ajuster leurs jugements. Cette pratique reste cependant risque. En effet, le cur de la mthode des groupes contrasts demeure une comparaison de deux variables : les scores au test et les jugements des enseignants/formateurs. Pour obtenir une mthode efficace, les donnes des deux variables devraient tre collectes de faon indpendante, ce qui signifie par exemple que les enseignants/formateurs doivent donner leurs jugements sur

74

les candidats sans connatre leur score. Si lon utilise des informations de lune de ces variables pour ajuster lautre, on rompt cette indpendance. En procdant de la sorte on manipule les donnes (vers une certaine dcision) et on compromet lintgralit de la procdure. 6.5.2. La mthode des cas limites Cette mthode est trs similaire celle des groupes contrasts : elle repose galement sur un jugement du niveau de candidats rels. Les jugements eux-mmes sont utiliss pour identifier les candidats qui doivent tre considrs comme tant la frontire du point de csure recherch. En reprenant lexemple de la section prcdente, on pourrait tenter didentifier les candidats qui se situent autour de la frontire entre les niveaux B1 et B2. Lorsque ce groupe est identifi, le score de csure est dfini par la valeur centrale des scores au test de ce mme groupe, par exemple la moyenne ou la mdiane, puis arrondie correctement. Le principe de cette mthode est trs simple, mais lon peut rencontrer quelques difficults lors de la mise en uvre. Quelques-unes dentre elles vont tre examines. La premire, et assurment la plus dlicate, est une dfinition claire dun candidat la frontire des niveaux viss. Dans le CECRL, les niveaux sont oprationnaliss par les descripteurs tre capable de , mais les cas limites ne sont pas explicitement dcrits. Les dfinir comme quelque chose entre deux tre capable de risquerait dtre trop confus pour garantir une comprhension commune du CECRL, de laquelle pourrait surgir des variations incontrlables et indsirables pour les membres du panel. Une bonne faon de procder pour guider les membres experts du panel dans leur comprhension des cas limites serait de recourir au point de rfrence : des exemples de performances limites. La seconde difficult est de nature statistique. Il est frquent que la taille du groupe limite soit modre, pour ne pas dire petite, de telle sorte que la moyenne ou la mdiane du score au test de ce groupe aura un cart-type important. En outre, par cette application en tant que mthode autonome, les informations utiles sur les performances des autres candidats ne sont pas utilises. On peut alors procder en combinant la mthode des cas limites et celles des groupes contrasts. Cest lobjet de la discussion qui suit. Considrons une fois de plus lexemple de la recherche du score de csure pour B1/B2. Au lieu de demander aux panlistes de catgoriser les candidats comme tant limites ou non, on pourrait leur demander de rpartir leurs candidats en trois catgories : B1, B1/B2 et B2. Les deux groupes B1 et B2 peuvent alors tre utiliss pour la mthode des cas limites pour offrir deux points de csure supplmentaires. Cette information est particulirement utile pour la validation de la procdure. Il en sera un peu plus question dans le chapitre suivant. Pour mettre en place la table de dcision (voir tableau 6.5.), les rsultats peuvent tre aisment combins, ou mieux encore, les tables peuvent tre prpares sparment et fournir linformation sur le taux derreur de catgorisation pour les candidats qui sont dfinitivement identifis comme tant non limites (selon les jugements des panlistes) et pour les candidats qui sont jugs limites. Cette mthode fonctionne de faon satisfaisante quand on peut sassurer que tous les candidats de lchantillon sont soit de niveau B1 soit de niveau B2 (ou autour de la frontire entre ces deux niveaux). Sil subsiste un doute que des candidats trs faibles ou trs forts aient particip lexamen, il est alors plus prudent dajouter une ou deux catgories de jugement, qui pourraient tre tiquetes, par exemple, A2/B1 ou moins et B2/C1 ou plus, mme si lon nenvisage pas de rechercher le score de csure pour A2/B1 et B2/C1, ces deux catgories supplmentaires peuvent contribuer claircir le contraste entre les groupes B1 et B2.

75

Un avantage supplmentaire de cette mthode combine est dviter les choix forcs pour les enseignants/formateurs dans le cas o ils seraient dubitatifs eux-mmes lgard de la catgorie dfinitive dans laquelle ils doivent placer les candidats. 6.6. La mthode du corpus de productions

La mthode du corpus de productions (Kingston et al 2001) est peut tre la plus approprie pour les jugements holistiques, bien quelle puisse tre utilise avec toutes les combinaisons de type ditems et de tches. Elle est centre sur les candidats et nutilise pas la TRI. Vous trouverez ci-dessous une brve liste de ce qui est ncessaire pour appliquer cette mthode : Une collection de travail dun chantillon de candidat. Ce travail peut consister seulement en des rponses des questions choix multiples, ou en un mlange de questions choix multiples, de questions ouvertes et de rdactions voire mme en un portfolio. Une condition dapplication ncessaire est que le travail (la performance au test, le portfolio) soit valid par un score numrique. Lchantillon na pas besoin dtre reprsentatif dune population cible du test. Il doit nanmoins couvrir la plupart de ltendue des scores possibles, indpendamment de la frquence relative de ces scores avant la mise en place de la procdure pour dterminer les scores de csure. La tche des experts du panel est de fournir un jugement holistique sur chaque chantillon de travail qui leur est prsent. Dans le cadre du CECRL, un tel jugement consistera en lattribution aux candidats de lun des niveaux prdfinis que lon vise dans la procdure de dfinition des points de csure. Supposons que lon veuille dfinir les points de csure pour A1/A2 et A2/B1, le jugement des experts du panel devra catgoriser chaque production de candidat soit en A1, A2 ou B1 (ou plus). Le type de jugement requis de la part des panlistes est le mme que celui demand dans la mthode des groupes contrasts ou dans la mthode des cas limites. La diffrence essentielle avec ces deux mthodes tient au fait quici tous les panlistes valuent la mme collection dchantillon de production, de telle sorte que les discussions en groupe entre les tours aient du sens. La mthode du corpus de productions ncessite deux tours, bien quil puisse tre ncessaire den ajouter un troisime. Les scores des chantillons de travail des candidats ne sont pas connus des experts du panel. Pour convertir les jugements des panlistes en un score de csure, on doit avoir recours une technique particulire, appele la rgression logistique. La raison est lie la haute slection de lchantillon des travaux utiliss. En effet, lapplication des mthodes usuelles (par exemple rechercher le point central entre les moyennes dans le cas de la mthode des groupes contrasts) pourrait conduire de svres biais.

Dans la suite de cette section, quelques dtails sont proposs pour ce qui concerne lorganisation de la mthode (section 6.6.1.) et sur les techniques danalyse statistique requises (Section 6.6.2.). Des informations supplmentaires pourront tre consultes dans les ouvrages de Kingston et al (2001) et de Cizek and Bunch (2007, Chapitre 9). 6.6.1. Entranement, prcision de ltendue et localisation par agrandissement Ces trois termes font rfrence aux diffrentes phases de cette procdure mais aussi diffrents chantillons de travaux qui vont tre utiliss. Concrtement, il faudra fixer les points de csure pour A1/A2, A2/B1 et B1/B2, et le panel devra tre constitu de 15 membres. Le matriel dentranement consiste en un petit chantillon dextraits de rponses des candidats, slectionn pour quil couvre le plus largement possible ltendue des scores et des niveaux. Dans cet exemple, il serait pertinent de slectionner deux ou trois cas pour chacun des niveaux A1, A2, B1 et B2, et dessayer de slectionner des chantillons de travaux de telle sorte quils reprsentent une variation consquente du point de vue des

76

scores obtenus lintrieur des niveaux. Pour cette slection, on peut compter sur des jugements experts. Pour la phase dentranement elle-mme, le lecteur est renvoy au chapitre 5. Kingston et al insistent sur le fait que des chantillons de travaux inhabituels ou contradictoires du point de vue des scores doivent tre vits, par exemple un travail avec un score trs lev sur des questions rponses ouvertes et un trs faible score sur dautres items similaires. Aprs le premier entranement, un premier tour de jugement est organis, appel prcision de ltendue. Le matriel prsent aux experts du panel est un chantillon de travaux de candidats reprsentant la totalit de ltendue des scores obtenus. Les travaux chantillonns sont prsents dans des dossiers o chacun dentre eux contient un petit nombre dextraits de travaux. Le contenu des dossiers doit tre uniforme du point de vue des scores et prsent par ordre croissant des scores. Les dossiers sont galement prsents dans un ordre croissant selon les scores des chantillons de travaux quils comprennent. Pour un test avec un score maximal de 55, on pourrait prparer 10 chemises avec trois travaux par chemise, de telle sorte que les travaux prsents se rfrent 30 scores diffrents et soient prsents lensemble des experts du panel. Tableau 6.6: rsum du tour de prcision de ltendue Dossier 1 Score 13 15 16 18 19 21 23 24 26 27 28 30 32 33 34 35 36 37 39 41 42 43 45 46 48 49 51 52 53 54 A1 15 15 14 13 11 9 10 7 5 3 0 1 A2 0 0 1 2 4 6 5 8 10 10 12 11 9 11 8 7 8 6 3 1 1 B1 B2 Total 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15

2 3 3 6 4 7 8 7 8 12 14 12 10 11 8 4 1

10

1 0 0 2 5 4 7 11 14 15 15 15 15

La tche de chaque panliste est dattribuer chaque exemplaire de production lune des catgories du CECRL : dans cet exemple A1, A2, B1 ou B2. Ensuite, les jugements sont collects et lquipe organisatrice prpare une table de frquence des jugements comme

77

celle qui figure dans le tableau 6.6. On peut dduire de cette table des informations utiles pour rduire la quantit de travail au cours du second tour. Pour lchantillon des travaux dans le dossier 10, les jugements sont unanimes (B2), on peut ainsi assurment considrer que le point de csure B1/B2 est infrieur 52, le plus faible des scores contenus dans le dossier 10. De faon similaire pour le dossier 1 o il y a unanimit pour la catgorie A1, on peut en dduire que le point de csure A1/A2 est suprieur 16. Les points de csures pour lesquels les jugements des panlistes sont le plus en dsaccord se situent principalement au niveau adjacent entre les catgories. Pour le point de csure A1/A2, le score correspond 24 (dossier 3), pour A2/B1 cest pour un score de 34 et 35 (dossier 5 et 6), et pour B1/B2 le dsaccord le plus grand est observ pour un score de 46 (dossier 8).

Ces scores indiquent la valeur approxime du point de csure, et pour viter un travail inutile pour les membres du panel au cours du second tour, de nouveaux dossiers sont constitus avec des travaux dont le score est au voisinage des points de csure provisoires. Dans cet exemple (tableau 6.6.), un chantillon des travaux avec des scores compris entre 21 et 27 pour A1/A2, entre 32 et 38 pour A2/B1 et entre 42 et 48 pour B1/B2 serait un choix appropri. Ces nouveaux travaux devraient tre rpartis en six dossiers, disons de trois ou quatre chantillons de travaux qui seront valus de la mme manire quau cours du premier tour. Cette seconde slection affine les chantillons tudis de faon plus prononce quau cours du premier tour ; cest pourquoi le second tour est appel localisation par agrandissement (pinpointing). Lchantillon des productions qui doit tre valu au cours du second tour peut tre soit un matriel entirement nouveau, soit identique celui utilis au cours du premier tour, soit un mlange dune association de lancien et du nouvel chantillon. Cette dcision dassociation prcise dpendra principalement du temps ncessaire pour parcourir entirement le nouvel chantillon de travail, mais il est recommand dessayer de constituer une association part gale danciennes et de nouvelles productions. Ce nouvel ensemble offre lopportunit de juger le degr de gnralisabilit de la procdure et linclusion de lancien chantillon de travaux permet dvaluer la consistance des jugements des panlistes. 6.6.2. Calcul des scores de csure : rgression logistique18 La technique utilise pour calculer les points de csure est appele rgression logistique. Comme pour tous les types de rgression, il y a une variable dpendante et une ou plusieurs variables indpendantes. Ici, nous disposons dune seule variable indpendante : le score au test. La variable dpendante est le jugement des membres du panel, qui peut prendre deux valeurs pour un point de csure, disons A2/B1 : la performance est accomplie au regard du point de csure (symbolis par une valeur de un) ou non accomplie (valeur fixe zro). Le modle de rgression appliqu nest pas le modle linaire usuel entre les variables dpendante et indpendante, mais un modle linaire entre la variable indpendante et le logit de la probabilit dobtenir 1 sur la variable dpendante. La formule quivalente est la suivante :

ln

p = a + bs 1 p

O ln est le logarithme naturel, s le score au test, a et b les deux paramtres de la rgression qui doivent tre estims. Le symbole p reprsente la probabilit datteindre le

18

La technique aborde dans cette section utilise lapproche gnrale de la rgression logistique, mais la faon dont les coefficients sont estims nest pas celle utilise habituellement dans les techniques de rgression logistique. Nanmoins, la technique prsente ici est plus simple comprendre et ses rsultats sont trs utiles.

78

point de csure. Bien sr, cette probabilit est inconnue, mais on peut lapproximer par la proportion des membres du panel qui ont jug que le point de csure tait atteint. Dans le tableau 6.7., les rsultats du second tour sont prsents pour les sept travaux autour du point de csure provisoire A2/B1. Notez que pour le calcul des proportions, on doit prendre en compte toutes les cellules indiquant que le point de csure a t atteint. En particulier, pour le score de 38, dix membres du panel ont indiqu le niveau B1 et un membre du panel a indiqu le niveau B2, ce qui correspond un total de 11 personnes sur 15, donc une proportion de 11/15, soit 0.733. La rgression effectue une rgression linaire simple o la variable indpendante est le score et la variable dpendante est donne par la colonne la plus droite du tableau 6.9. Si cette table est ralise sous Excel, la rgression peut tre conduite directement dans le classeur.

Tableau 6.7: rsultats du rajustement Score 32 33 34 35 36 37 38 A2 10 11 9 7 8 6 4 B1 5 4 6 8 7 9 10 B2 p 0.333 0.267 0.400 0.533 0.467 0.600 0.733 ln[p/(1-p)] -0.6931 -1.0116 -0.4055 0.1335 -0.1335 0.4055 1.0116

Lestimation des coefficients de rgression donne : a = - 10.3744 et b = 0.29358 Ltape finale est le calcul du point de csure lui-mme partir de ces deux coefficients. Le score de csure est conceptualis comme le score pour lequel la probabilit datteindre le point de csure est exactement fixe .5 et le logit de p = 0.5 est ln[0.5/(1-0.5)] = ln(1) = 0. Ainsi, nous recherchons le score pour lequel nous avons :

ln

0.5 = 0 = a + bs , 1 0.5
a 10.3744 = = 35.34 , b 0.29358

Nous en dduisons immdiatement que :

cut-off score =

qui sera arrondi 35 ou 36. Dans la figure 6.2., les sept points de donnes (issus du tableau 6.7.) sont reprsents graphiquement ensemble avec la droite de rgression. Le score de csure doit tre lu sur laxe des abscisses au point o la droite de rgression coupe le zro de laxe des ordonnes, comme lindique la ligne verticale en pointill.

79

1.5 1.0 ln [ p/(1-p) ] 0.5 0.0 -0.5 -1.0 -1.5 31 32 33 34

score

35

36

37

38

39

Figure 6.2. Rgression logistique

6.7.

La mthode dappariement au descripteur de litem et la mthode du panier

Dans leur livre sur les procdures de dtermination des scores de csure, Cizek et Bunch (2007) rapportent le commentaire suivant pour introduire la mthode dappariement au descripteur de litem (p. 193) : Les descripteurs de niveau de comptences constituent les fondements de nombreuses mthodes modernes de dtermination des scores de csure, et sont lun des lments clefs sur lesquels les participants comptent lorsquils ralisent leurs valuations, et ce quel que soit le pr-requis exig par la mthode retenue pour conduire cette valuation. Et galement, Dans un sens, cela ne devrait pas tre une exagration de dclarer que les points de csures sont plus dtermins par les panels qui ont recours aux descripteurs que par ceux qui notent les items ou les performances. Cette assertion est la plus dfendable sous deux conditions trs frquentes : 1. quand les descripteurs sont trs bien dtaills et incluent des tats trs spcifiques de comptences pour un niveau donn de performance ; et 2. quand un panliste impliqu dans la procdure de dfinition des scores de csure oprant un jugement sur un item ou une tche dun test sappuie- comme il ou elle devrait - sur les descripteurs pour indiquer comment la performance est lie aux niveaux de comptences. . Dans le CECRL, les niveaux de comptences, de A1 C2 (et qui peuvent tre plus dtaills), sont prsents par des descripteurs de type tre capable de , resitus dans un contexte appropri et de faon encore plus labore par des exemples de rfrence. Les chapitres prcdents, dcrivant les activits incontournables de prparation des notations des panlistes, autant que les spcifications du test, peuvent tre considrs comme un parfait exemple de laccomplissement des conditions mentionnes ci-avant. Les deux mthodes qui sont discutes dans cette section utilisent directement les descripteurs pour parvenir un (ou plus gnralement plusieurs) score de csure. 6.7.1. La mthode dappariement au descripteur de litem Cette mthode est relativement rcente. Elle a t propose par Ferrara, Perie and Johnson in 200219. La tche demande aux membres du panel est de placer chaque item dans les niveaux (A1, A2, etc.) auxquels ils appartiennent en respectant le principe suivant : quelle description de niveau de comptence (c'est--dire niveau du CECRL ou catgorie)
19

En fait la mthode a t prsente en confrence en 2002 lors du meeting of the American Educational Research Association la Nouvelle Orlans et le titre tait Setting performance standards: the item descriptor (ID) matching method .

80

sapparentent le mieux les connaissances, les comptences et les processus cognitifs ncessaires pour rpondre correctement cet item ? (Ferrara, Perie and Johnson 2002, p. 10). On dduit immdiatement de lassertion prcdente que la mthode est centre sur le test. La tche des panlistes est dattribuer un niveau chaque item. Les auteurs prsentent une liste ordonne ditems (accompagne dune brve description). Lordre de prsentation est un ordre croissant selon la difficult, et un indice de difficult est fourni. Un telle liste est appele livret ordonn ditem (ordered item booklet (OIB)) dans la littrature relative aux mthodes de dtermination des scores de csure. La mthode a t dveloppe pour des situations o lanalyse dans le cadre de la TRI est utilise pour estimer les paramtres de difficult des items. La procdure pour convertir ces jugements en un score de csure (pour chaque membre du panel) utilise le concept important de la zone seuil, qui sera explique laide dun exemple. Dans le tableau 6.8., un exemple fictif de jugement est propos pour un test considr comme appropri pour dfinir les points de csure A2/B1 et B1/B2. Le formulaire est lgrement abrg parce que les descriptions des items ont t omises. La colonne la plus droite contient les jugements dun membre du panel. La colonne tiquete difficult contient le paramtre destimation de la difficult dun modle de la TRI. Plus ce nombre est lev, plus la difficult de litem est importante. La colonne tiquete item-ID identifie litem dans le test, de telle sorte quil peut tre recherch pendant la procdure de jugement. Nous supposerons que tous les jugements de ce membre du panel pour les items 1 10 sont soit en A1 soit en A2 et quaprs litem 21 de tels jugements napparaissent plus. On constate, partir du tableau, que selon le jugement du panliste il ny a pas de csure fine entre les items A2 et ceux B1. Les jugements du panliste sont relativement conformes lordre de difficult : les items 15 et 18 sont apparis au niveau A2, alors que certains items plus faciles sont placs en B1. Ltendue des items, qui est prcde par une squence claire et univoque de jugements au plus faible niveau et suivie par une squence claire de jugements au niveau suprieur, est appel la zone seuil. Dans cet exemple, cette tendue (intervalle) contient les items 14 18. Lide de base de cette mthode est que ltendue du seuil, et ltendue correspondante de la variable sous-jacente (la variable latente), indique une rgion o les scores de csure doivent tre positionns. Pour la variable latente, les paramtres de difficult pourraient tre utiliss, de telle manire que le score de csure se situe entre -1.63 et -1.20. Le milieu de ces deux valeurs pourrait alors tre une option raisonnable. Bien sr, chaque procdure dfinit un point de csure dans le domaine du score. Ainsi, le point de csure sur le trait latent doit tre converti en un score de csure. Cette conversion est technique et est discute dans la section 6.8.3. Pour dfinir lintervalle seuil, les auteurs de cette mthode proposent que le point de dpart soit litem qui est prcd par au moins trois jugements conscutifs au plus faible niveau. Dans lexemple donn ici, cest le cas pour les items 11, 12, 13 qui sont tous apparis au niveau A2. Le point final est litem qui est immdiatement suivi par au moins trois jugements au niveau suprieur (ici les items 19, 20 et 21 qui sont apparis au niveau B1). Tableau 6.8: exemple de rponses dans la mthode de lappariement au descripteur de litem (formulaire abrg) Rang de litem Item-id Difficult Jugement 11 22 -2.13 A2 12 13 -2.11 A2 13 7 -1.84 A2 14 1 -1.63 B1 15 4 -1.48 A2

81

16 17 18 19 20 21

8 3 17 15 9 19

-1.47 -1.32 -1.20 -1.06 -.97 -0.94

B1 B1 A2 B1 B1 B1

Pour des applications en relation avec le CECRL, le succs de cette mthode semble dpendre de faon trs critique de ltroite relation entre la difficult et le niveau des items. Idalement, on pourrait dire quun item qui suppose seulement les comptences et habilets dcrites au niveau A2 est plus facile quun item conu pour le niveau B1. Ce serait trop simpliste pour une thorie sur la difficult des items. Il existe une grande variation dans la difficult lintrieur des niveaux attribus aux items. Cette variation est telle que de nombreux items difficiles parmi ceux des niveaux les plus faibles sont plus difficiles que les items faciles parmi ceux des niveaux levs. Ce nest pas sans gnrer une large zone seuil et sans tendre faire disparaitre laspect intuitif de la mthode. 6.7.2. La mthode du panier Il sagit dune mthode qui prsente de nombreuses similarits avec celle de lappariement au descripteur de litem et qui a t utilise pour la dtermination des points de csure dans le projet Dialang (Alderson 2005). Elle est prsente, section 5.6., dans la section entranement la dtermination des points de csure. La similarit tient en la comparaison des ressources exiges par un item en termes de descripteurs, c'est--dire au sens des descripteurs tre capable de du CECRL. La question lmentaire pose aux panlistes nest pas un jugement sur litem mais se centre sur un candidat abstrait ayant les comptences dun niveau dfini. La formulation lmentaire de la question est la suivante : A quel niveau du cadre un candidat peut dj rpondre correctement cet item ? Si lenvergure dun test est large, par exemple sil couvre tous les niveaux de A1 C2, comme ctait le cas pour Dialang, la mme question doit tre pose pour chaque item de chaque niveau. Bien quune telle procdure prsente des avantages indniables pour examiner la validit de la mthode et ses rsultats (voir chapitre suivant), elle est trs chronophage et peut prsenter des pertes de motivation chez les experts du panel. Cest pourquoi un raccourci de mthode a t propos. Les experts du panel doivent mettre chaque item dans un panier correspondant aux niveaux du CECRL. Si un item est plac dans le panier B1, cela signifie quune personne de ce niveau devrait donner une rponse correcte cet item. On suppose ici que si cest le cas les personnes de niveaux suprieurs devraient galement rpondre correctement litem. Notez que ce jugement nimplique pas que les personnes de niveaux infrieurs ne devraient pas fournir une rponse correcte ; cela signifie simplement (pour les membres du panel) quune rponse correcte ne devrait pas tre exige pour les candidats de niveaux infrieurs. Notez que la tche des panlistes dans cette mthode abrge est la mme que dans celle de lappariement au descripteur de litem. Dans ces deux mthodes un appariement doit tre ralis entre un descripteur (un niveau du CECRL) et les exigences requises par les items. Nanmoins, dans la mthode du panier aucune information sur la difficult des items nest fournie aux panlistes. La mthode pour convertir les jugements en score de csure suppose quavec la mthode du panier le panliste propose les exigences minimales requises pour chacun des niveaux. Supposons que pour un test constitu de 50 items, deux items sont placs dans le panier A1, sept dans le panier A2, 12 dans le panier B1. Pour ce panliste, ces 21 (= 2+7+12) items

82

devraient tre traits correctement par nimporte quel candidat de niveau B1 ou suprieur. Ce nombre, qui correspond lexigence minimale, est interprt comme le score de csure. Nous proposons maintenant une courte note technique. Pour un des panlistes, un item pourrait tre jug comme tant si difficile quil ne pourrait pas exiger quun candidat du niveau suprieur le russisse. Au regard de la procdure, cela signifie que litem ne sajuste aucun des paniers envisags. On peut anticiper de telles situations en ajoutant un panier supplmentaire qui serait tiquet suprieur C2 . Bien entendu, si un test vise le niveau B1, il nest pas ncessaire de disposer de paniers pour tous les niveaux. Les trois paniers de niveaux les plus forts pourraient tre nomms B1, B2 et suprieur B2. Il est possible que lajustement de lexigence minimale au point de csure conduise des points de csure trop indulgents. Il serait alors raisonnable de penser quune personne dun niveau donn soit galement en mesure de rpondre correctement des items qui exigent un niveau suprieur. Ce point nest pas pris en compte dans la mthode, mais des tudes comparatives (non encore publies) indiquent que la mthode du panier tend produire des points de csure minors (indulgents) par rapport ceux obtenus avec dautres mthodes. En conclusion de cette section, voici quelques remarques : Les deux mthodes discutes dans cette section sont relativement rcentes et refltent limportance des descripteurs de niveau de comptence, qui dans le cas du CECRL sont oprationnaliss en descripteur du type tre capable de . Il est difficile dimaginer que lune ou lautre de ces mthodes peut tre raisonnablement applique dans le cas de procdure du type russite/chec. En effet, pour chaque niveau de performance (A1, A2,), la performance est dcrite positivement (ce quon est capable de faire) alors quil nest pas facile de dcrire ce quon est en droit dattendre dune personne qui chouerait. En principe, ces deux mthodes peuvent tre utilises pour des items dichotomiques (QCM par exemple, ou items de type vrai/faux) mais aussi pour les questions rponses ouvertes et pour les tches (qui produisent des scores partiels, par exemple dans lintervalle 0-2 ou 0-3). Ces derniers sont plus frquents dans lvaluation des comptences productives. On ne devrait pas sous-estimer la charge de travail implique par la phase dentranement. Par exemple, pour une tche de production orale, un tudiant peut obtenir jusqu trois points. Cette tche apparaitra trois fois dans la liste des items. La premire fois comme tant une combinaison de rponses rapportant 1 point, la deuxime comme tant une combinaison de rponses rapportant deux points et la troisime comme tant une rponse permettant de bnficier du total des points allous cette question, soit trois points. Dans ces trois cas, la description de la tche sera la mme, mais la qualit de la rponse diffrera. Pour garantir une bonne comprhension des diffrences, on devrait se rfrer la consigne de la tche (une partie des spcifications du test) et probablement ajouter des chantillons de rponses qui illustrent lusage attendu de la consigne. Ce point illustre la ncessit davoir de bonnes consignes : on ne peut pas obtenir des points de csure qui aient du sens avec une consigne qui dirait : 0 point pour une mauvaise rponse, un pour une rponse pas trop mauvaise, deux points pour une rponse lgrement meilleure et la totalit des points pour une rponse parfaite. Pour slectionner de bons exemples de rponses (des exemples de rfrence), on devrait sassurer que les correcteurs ont galement une bonne comprhension des consignes de notation et quils les suivent scrupuleusement. En fait, lintgralit du processus dlaboration dun test ou dun examen, de la premire tape (dfinition de lobjectif du test) la dernire (dfinir les points de csure), est une longue chaine de dcisions qui sont en troite relation. Parce que la dtermination du score de csure est la dernire tape, une ngligence lune ou plusieurs des tapes antrieures pourrait donner le sentiment que le score de csure ne semble pas fonctionner correctement. Dans leur discussion au sujet de la mthode dappariement au descripteur de litem, Cizek et Bunch dclarent que les items devraient tre prsents aux panlistes par ordre

83

croissant de difficult, et plus encore, quun indice de difficult devrait tre fourni (comme dans le tableau 6.8.). Il est important de noter que pour la tche confie aux membres du panel, ces indices ne sont pas utiliss. Ils deviennent importants quand les jugements des panlistes doivent tre convertis en un score de csure. Cette conversion nest gnralement pas ralise par les experts du panel eux-mmes, mais en apart par lquipe qui conduit la procdure de dtermination des points de csure. Cette conversion sera discute dans la section 6.8.3. Il pourrait tre prfr de ne pas prsenter de telles valeurs numriques, parce quelles pourraient tre aisment mal interprtes et pourraient dtourner lattention des panlistes de leur tche principale ; en loccurrence lappariement entre les exigences des items et le(s) descripteur(s) dun niveau du CECRL. Bien que les caractristiques formelles de cette mthode soient simples mettre en uvre (le formulaire de jugement est trs facile mettre en uvre, et celui pour la mthode dappariement au descripteur de litem peut tre tlcharg depuis le site : www.sagepub.com/cizek/IDMform), il serait illusoire de penser quune application rapide et prcipite de la mthode pourrait garantir des rsultats pertinents et utiles. Le succs (au regard de la validit, qui sera discute plus en dtail dans le chapitre suivant) dpend de faon prpondrante de trois facteurs : - Premirement, la clart et la puissance discriminative des descripteurs. - Deuximement, de faon complmentaire au premier facteur, le degr de comprhension des descripteurs par les experts du panel. Ce point exige une phase de familiarisation avec le CECRL et une bonne standardisation au sens utilis dans le chapitre prcdent. - Le troisime facteur exige que les items ou les tches du test ou de lexamen puissent tre dcrits de faon univoque et compris selon les descripteurs spcifiques de comptence. Les panlistes doivent comprendre clairement quel tre capable de doit tre appliqu et quel est celui qui ne sapplique pas, et ce pour chaque item ou tche. La dernire recommandation est relative au nombre de tours de jugement et les raisons pour lesquelles il est vivement conseill den avoir plus dun. Un deuxime tour ralis avec des donnes normatives (prpares entre le premier et le deuxime tour), montrant des cas particuliers de dsaccord et invitant lchange en petits groupes cet gard, nest pas conduit pour tendre vers lunanimit, mais pour stimuler les discussions qui conduiront une comprhension non ambige du CECRL et des relations entre les descripteurs et les exigences de chacun des items ou tches. La mthode du marque-page

6.8.

La mthode du marque-page (Mitzel et al 2001) est devenue rapidement populaire aux Etats-Unis. La plupart des aspects de cette mthode ont dj t abords dans les mthodes prcdentes, lexception dun qui sera expliqu plus en dtail au cours de cette section. Nous commenons par un aperu des caractristiques importantes. La mthode est centre sur le test et est applicable aussi bien pour les items dichotomiques que les items polytomiques (questions rponses ouvertes). Les experts du panel utilisent le concept du candidat aux comptences minimales acceptables ou du candidat la limite de deux niveaux. La procdure doit tre rpte autant de fois quil y a de points de csure fixer (par exemple A1/A2, A2/B1 et B1/B2 dun mme test). La charge de travail est nanmoins plus lgre que celle exige par la mthode de Tucker-Angoff. La raison est explique au point suivant. Les items ou les tches sont prsents aux membres du panel par ordre de difficult croissante. Les tches rponse ouverte apparaitront plusieurs fois dans cette liste. Par exemple, si le score peut tre 0, 1 ou 2 points, la tche apparaitra deux reprises, une fois avec une rponse permettant dobtenir un point et la seconde fois avec une rponse permettant dobtenir deux points. Lordre de difficult des items nest pas trivial et sera discut dans la section 6.9. Notez que cet ordre de prsentation est galement utilis dans la mthode dappariement au descripteur de litem, discute dans la section 6.7.1. Les items et les tches sont disposs dans un livret. Chaque page contient un item (dans

84

le cas ditems dichotomiques) ou une combinaison dune tche notation partielle pour les questions rponses ouvertes. Le contenu de chaque page sera dcrit plus en dtail. Dans la littrature sur la dtermination des scores de csure, ce livret est appel Livret ditems ordonnes (Ordered Item Booklet (OIB)). Le concept de matrise dune tche ou dun item. La matrise est ici dfinie en termes probabilistes. Si un candidat matrise un item, on peut sattendre ce quil/elle rponde correctement avec une probabilit associe leve. La dfinition exacte de cette probabilit associe leve est arbitraire, mais dans la plupart des cas, elle est fixe 2/3, mme si certains autres prfrent la fixer 50% alors que dautres la fixent 80%. Dans la littrature sur les points de csure, le critre de matrise se rfre la probabilit de rponse. Les membres du panel doivent dcider si pour un item donn un candidat la frontire des niveaux (pour un point de csure dfini) matrise ou non cet item. Pour une probabilit de rponse fixe 2/3, cela signifie quils doivent dcider si la personne rpondra correctement dans au moins deux cas sur trois. (Si la probabilit de rponse est fixe 80%, il faudra considrer une rponse correcte dans 4 cas sur 5). Il est important de sassurer que les membres du panel aient bien intgr cette notion de probabilit de rponse, et une attention particulire doit tre alloue cette comprhension au cours de la phase dentranement. Bien quil nexiste pas de raison rationnelle pour retenir une valeur particulire pour ce qui concerne la probabilit de rponse, ce choix a des consquences dfinitives sur les points de csure que lon trouvera. En gnral, plus la probabilit de rponse est fixe une valeur leve, plus le point de csure le sera galement. Pour les combinaisons de tches notation partielle, la probabilit de rponse a une signification particulire. Supposons que le score maximal soit de trois pour une tche donne. Si le score partiel est gal un, la probabilit de rponse se rfre la probabilit dobtenir un score de un ou plus. Si le score partiel est de deux, la probabilit de rponse se rfre la probabilit dobtenir au moins deux points. Enfin, si le score obtenu est de trois, la probabilit de rponse se rfre la probabilit de les obtenir.

6.8.1. Le travail du panel dexperts Il est demand aux experts du panel de commencer avec le point de csure le plus bas (par exemple A1/A2), de progresser dans le livret en allant du plus facile vers le plus difficile, et de dcider pour chaque item si la probabilit dune rponse a atteint le seuil fix ou si elle est suprieure. Lorsque la rponse est affirmative, cela signifie que le candidat limite matrise litem, selon le point de vue du panliste. Parce que les jugements soprent en premier lieu sur les items les plus faciles, on sattend ce que les rponses soient affirmatives pour quelques items la suite, mais qu partir dun item donn la rponse devienne ngative. Supposons que ce soit le cas litem 11, alors un marque-page (ou un symbole similaire) doit tre plac cet endroit. Immdiatement, le membre du panel doit changer de point de csure, en traitant le suivant (par exemple A2/B1 ici) et continuer son travail de jugement partir de litem o il se trouve. Sil y a trois points de csure dfinir, le travail est en principe finalis quand les trois marques-pages sont placs dans le livret. Cette opration devrait tre ralise bien avant le dernier item. Il est cependant dusage dinviter les panlistes examiner lensemble des items, et mme considrer la possibilit de dplacer les marques-pages prcdents au fur et mesure quils progressent dans le livret. A chaque tour, chaque membre du panel indique son point de csure provisoire dans un tableau comme celui prsent dans la figure 6.3., pour une situation correspondant trois points de csure. Il est prfrable de laisser aux participants la possibilit dindiquer deux numros de page, comme dans la figure 6.3. Les pages 11/12 pour le point de csure A1/A2 signifient (pour le participant) quun candidat aux comptences minimales acceptables au niveau A1/A2 a au moins une probabilit (gale ou suprieure la probabilit de rponse) de rpondre litem 11 correctement. Ce ne sera pas le cas pour litem 12.

85

Les informations collectes lissue du premier tour, par lquipe organisatrice de la procdure de dfinition des points de csure, vont tre utilises pour le tour suivant et la dcision finale.

Tour 1 Point de csure: A1/A2 A2/B1 B1/B2 Numro des pages: 11/12 24/25 38/39 Figure 6.3: Formulaire denregistrement des jugements des panlistes dans le cadre de la mthode du marque page

6.8.2. Contenu des livrets ditems ordonns Chaque page du livret ditems ordonns contient les informations suivantes :

Le numro de la page du livret. Ce nombre doit tre plac en vidence dans le coin suprieur droit de la page puisque cest la position que les membres du panel doivent indiquer pour leurs jugements. La position de litem dans le test ou dans lexamen (coin suprieur gauche). Si litem le plus facile est litem 5, le coin suprieur gauche portera le numro item 5 , alors que le coin suprieur droit aura le statut 1 parce quil est le plus facile et quil a cette position dans le livret. Dans le cas ditems notation partielle, une double rfrence est ncessaire. Par exemple, item 13-2 fait rfrence litem 13 qui permet de bnficier de deux points. Si trois points peuvent tre acquis cet item, il y aura alors trois pages portant les rfrences suivantes 13-1 , 13-2 et 13-3 respectivement. Au centre et en haut de chaque page, la probabilit de rponse et lchelle de valeur de cette probabilit de rponse seront indiques de la faon suivante : - Pour les items dichotomiques : Niveau daccomplissement requis pour une rponse correcte dans 2 cas sur 3 = -1.84 . La probabilit de rponse est fixe 2/3 et la valeur sur le trait latent dobtenir une rponse correcte est -1.84. La section 6.8.3. explique comment on calcule cette valeur. - Pour les items crdit partiel (comme avec les questions rponse ouverte) le texte sera : niveau daccomplissement requis pour une rponse correcte dobtenir 2 points ou plus dans 2 cas sur 3 = 1.38 . Cette mention apparaitra avec lidentifiant de litem nn-2 . Pour le score le plus lev quil soit possible dobtenir cet item, la prcision ou plus sera enleve. Le texte de litem ainsi que : - pour les QCM, les rponses alternatives (distracteurs) ; - pour les items crdit partiel, la consigne de notation pour obtenir le score partiel. Il est galement conseill dans cette situation de fournir la rgle qui permet dobtenir un point en moins et un point de plus. Ainsi les panlistes pourront voir les diffrences de notation sur une seule et mme page de lOIB. Les rponses correctes : - Pour les QCM, ce sera la clef. - Pour les items crdit partiel, un ou plusieurs chantillons permettant dobtenir le score spcifi pour aider les membres du panel se focaliser sur la signification prcise de ce score. Une rfrence un livret source : - Pour un test de rception crite o plusieurs items sont proposs partir dun seul texte, il est conseill de rassembler tous les textes dans un

86

livret source . Par exemple, avec de nombreux paragraphes, il conviendra dindiquer le(s) paragraphe(s) pertinent(s) dans le coin infrieur droit de la page du livret. Pour les tests de rception orale, les choses sont un peu plus compliques. Un ordinateur doit tre disponible pour chaque panliste pour leur permettre dcouter les items autant de fois quils en ont besoin.

6.8.3. Aspects techniques Sur les valeurs de la probabilit de rponse dans la mthode du marque-page. La mthode de lappariement au descripteur de litem et la mthode du marque-page ont t dveloppes dans le cadre de tests calibrs laide de la TRI. Elles font usage des rsultats de ces mesures. Nous illustrons ce point avec une situation ditems dichotomiques, calibrs laide du modle de Rasch. Les dtails pour les items crdit partiel pourront tre consults dans louvrage de Cizek & Bunch (2007, Chapitre 10). Dans le modle de Rasch, la fonction de rponse litem est donne par :

P( X i = 1| ) =

exp( i ) 1 + exp( i )

(1)

O i est le paramtre de difficult de litem i. (Sa valeur est connue partir de la dtermination du point de csure). Considrons en premier lieu le cas ou lhabilet est gale la difficult de litem ( = i ), alors nous crirons la formule (1) de la faon suivante :

P( X i = 1| = i ) =

exp(i i ) exp(0) 1 1 = = = 1 + exp(i i ) 1 + exp(0) 1 + 1 2

Ce qui signifie pour un trait latent gal la difficult de litem que la probabilit de rpondre correctement quivaut .5, et inversement. Si la probabilit de rponse est fixe , lhabilet requise pour avoir la matrise est gale la difficult de litem. Si lon fixe la valeur de la probabilit de rponse p, on recherche alors la valeur pour , tel que :

exp( i ) =p 1 + exp( i )
La solution est donne par :

= i + ln

p 1 p

Ou ln est le logarithme naturel. Si p=2/3, nous avons (2/3)/(1/3) = 2 and ln(2) = 0.693, et nous trouvons = i + 0.693 . Cest cette valeur qui sera imprime sur les pages intrieures du livret comme la valeur du niveau daccomplissement (voir section 5). Notez que laugmentation 2/3 de la probabilit de rponse (comme seuil dexigence de matrise) fait augmenter la valeur de lchelle 0.693 logits. Si lon porte la probabilit de rponse une valeur de , laugmentation est ln(3) = 1.098, et pour une probabilit de rponse de 4/5, laugmentation est la suivante : ln(4)=1.386 Le point de csure provisoire dans la mthode du marque-page En exemple, les numros des pages sont reprsents dans le tableau 6.9., accompagns du niveau de russite pour une probabilit de rponse de .5 (deuxime colonne) et pour une probabilit de rponse de 2/3 (colonne la plus droite). La diffrence entre les deux dernires colonnes est ln(2)=0.69. Considrons que la probabilit de rponse est fixe .5 et que quelques membres du panel ont appos leurs marques-pages pour A1/A2 en position 13/14. Cela implique, selon ces panlistes, que le candidat aux comptences minimales

87

acceptables matrise (avec une probabilit de rponse .5) les items 1 13, mais pas litem 14. Autrement dit, le niveau (habilet latente) de ce candidat doit se situer entre -1.84 et 1.63. Gnralement, on prend en compte la plus petite de ces deux valeurs provisoires. Notez que ce point de csure provisoire est une valeur exprime sur lchelle latente. Ensuite, on rassemble les points de csure provisoires (puis on calcule la moyenne, tronque ou non, ou la mdiane) pour parvenir au point de csure collectif exprim sur lchelle latente Convertir les points de csure sur lchelle latente en un score de csure La faon la plus simple deffectuer cette conversion sur lchelle latente en score de csure est dutiliser une table qui offre de bonnes estimations de la valeur latente pour tous les scores possibles du test. Un exemple est propos dans le tableau 6.10. Supposons que le point de csure soit de -1.35 sur lchelle latente. A partir de la table, on peut constater quun score de 9 (items corrects) conduit une valeur latente estime -1.409, infrieure celle recherche, alors quun score de 10 a une valeur correspondante de -1.257, suprieure la valeur recherche. On en dduit que le score de csure se situe entre 9 et 10 et que cette valeur doit tre arrondie en prenant en compte les faux positifs et faux ngatifs dont il a t question la section 6.3.4. Tableau 6.9: marque-page et niveaux de russite Numro de page Niveau de russite pour Niveau de russite pour RP = 0.5 for RP = 2/3 11 -2.13 -1.44 12 -2.11 -1.42 13 -1.84 -1.15 14 -1.63 -0.94 15 -1.48 -0.79 19 -1.32 -0.63 20 -1.20 -0.51 21 -1.03 -0.34

88

Tableau 6.10: estimation de la valeur Theta Score 5 6 7 8 9 10 11 12 13 14 15 16 17 Estimated theta -2.153 -1.938 -1.746 -1.571 -1.409 -1.257 -1.114 -0.977 -0.845 -0.717 -0.592 -0.471 -0.351

Il reste dterminer quelle est lestimation de la variable latente que lon doit utiliser. Dans la section G.7. du Supplment au manuel, plusieurs estimations sont discutes. Il a t montr que lestimation de la probabilit maximale tait sujette de srieux biais. Il est donc conseill dutiliser lestimateur Warm, contrairement ce que Cizek et Bunch suggrent20. Cest particulirement important dans les cas de scores extrmes, quils soient faibles ou forts. Un problme supplmentaire avec la mthode dappariement au descripteur de litem Dans la mthode du marque-page, la valeur de probabilit de rponse est clairement explique aux panlistes. Ce point est essentiel parce que plus la probabilit de rponse est leve plus strict sera le point de csure ; les experts du panel doivent donc tre parfaitement conscients de la signification de la probabilit de rponse. Au contraire, dans la mthode dappariement au descripteur de litem, le concept de probabilit de rponse nentre pas en jeu parce que les panlistes doivent seulement indiquer quel niveau (A1, A2, etc.) correspond le mieux chaque item. A partir du niveau de difficult report dans le tableau 6.9. (troisime colonne) on peut dduire sil sagit des paramtres de difficults ou du niveau de russite pour dautres valeurs de probabilit de rponse que .5. Comme il a t dit prcdemment, ces valeurs numriques ne sont pas utilises pour la tche de jugement par les membres du panel, au-del du fait quils indiquent lordre des items au regard de leur difficult. Toutefois, une fois que la zone seuil a t dtermine, ces valeurs jouent un rle majeur par ce quelles sont utilises pour dterminer le seuil provisoire (pour chaque panliste) et enfin pour calculer le seuil pour lensemble des membres. Nous pouvons entrevoir le problme en imaginant deux groupes de panlistes bien prpars. Dans un groupe, les niveaux de difficults sont fournis pour une probabilit de rponse correspondant celle enregistre via le modle de Rasch, dans lautre groupe, les niveaux de difficults sont fournis par les paramtres de difficult plus ln(2), autrement dit pour une probabilit de rponse de 2/3. La tche fondamentale des panlistes tant dapparier les exigences de litem aux niveaux du CECRL, on peut sattendre ce que les zones seuil des deux groupes ne soient pas systmatiquement diffrentes et quelles ne soient pas influences par les valeurs fournies pour chaque item. Cependant, le calcul du
20

Dans la littrature, il est conseill dutiliser la fonction caractristique du test pour convertir les valeurs latentes en score. Dans le modle de Rasch et dans le modle deux paramtres, cette conversion est la mme que dans lestimation de la probabilit maximale. Lestimation Warm est propose dans le logiciel OPLM, disponible sur simple demande norman.verhelst@cito.nl

89

point de csure effectu partir des valeurs de difficult diffrera approximativement de 0.693(=ln(2)) entre les deux groupes. Plus gnralement, cela indique que les points de csure dfinis sont arbitraires pour une large partie, et quils dpendent des valeurs que lon aura dcid dutiliser pour les niveaux de difficults. 6.9. Variante de la mthode du marque-page selon le Cito

La mthode du marque-page peut tre plus complique si les items ne discriminent pas de faon identique (ce qui est souvent le cas). Un exemple, avec deux items, est propos dans la figure 6.4 pour illustrer ce propos. La courbe en pointill reprsente le meilleur taux de discrimination de litem. Les courbes en trait plein reprsentent la fonction de rponse de litem : elles relient lchelle latente (axe des abscisses) la probabilit dobtenir une rponse correcte (axe des ordonnes).
1.00 prob. of correct answer
prob. of correct answer 1.00

0.75

0.75

0.50

0.50

0.25

0.25

0.00 -3.00

-2.00

-1.00

0.00 latent scale

1.00

2.00

3.00

0.00 -3.00

-2.00

-1.00

0.00 latent scale

1.00

2.00

3.00

Figure 6.4: items de discrimination diffrente Si lon utilise la mthode du marque-page avec une probabilit de rponse fixe .5 (partie gauche du graphique), la courbe en pointill aura un numro de page plus lev (car correspondant un niveau de difficult plus important) dans le livret que lautre item, alors quavec une probabilit de rponse .75 (partie droite du graphique), linverse se produit. En loccurrence, la courbe en pointill fait maintenant apparaitre un item plus facile. Cette remarque illustre le fait que la difficult dun item nest pas un concept trivial. En fait la prsentation de lordre des difficults aux panlistes par une simple valeur numrique pourrait provoquer une certaine confusion. La mthode dveloppe au Cito (Van der Schoot 2001) vise prsenter graphiquement les valeurs de difficult et de discrimination de tous les items dans un seul et mme graphique. Considrons litem moins discriminant de la figure 6.4. :quand la probabilit de rponse est de .5, le niveau exig dhabilet est de 0 (partie gauche du graphique), alors quil est denviron 1.1 pour une probabilit de rponse fixe .75 (partie droite du graphique). On pourrait fixer la probabilit davoir une rponse correcte 50% pour dsigner la matrise limite alors quune probabilit 75% dsignerait la pleine matrise . Pour aller de la matrise limite la pleine matrise lhabilet doit croitre de 0 1.1. Il est possible den faire une reprsentation graphique comme dans la figure 6.5. o est propose une cartographie ditems pour 16 items et qui comprend des informations relatives la difficult et la discrimination de chacun des items. Chaque item est reprsent par un segment de droite horizontal. Lextrmit gauche du segment correspond au paramtre de difficult de litem (probabilit de rponse de 50%) et la longueur du segment indique la valeur discriminative : plus la ligne est longue moins litem est discriminant. Lextrmit droite du segment correspond une probabilit de rponse plus leve, en loccurrence 0.75 ou 0.80. La reprsentation est construite de telle sorte que lextrmit gauche des segments augmente au fur et mesure quon se dplace du bas vers le haut du graphique. On doit rester vigilant lidentification des segments pour que les panelistes puissent associer clairement chaque segment un item du test. Le trait vertical reprsente le point de csure provisoire dun membre du panel. En apposant ce trait, le panliste peut bnficier rapidement dun aperu des consquences de sa dcision. Dans lexemple propos, le point de csure implique une pleine matrise des

90

items 1 8 et de litem 11. Pour les items 9 et 10, la matrise totale est quasiment atteinte. Pour litem 12, la matrise limite a t atteinte, et pour les items 13 16 la matrise limite nest pas du tout atteinte. Pour mettre en uvre cette mthode, on peut demander aux experts du panel de reprsenter un trait vertical, ou de donner une valeur numrique qui correspond lintersection entre le trait vertical et laxe horizontal dans la figure (dans lexemple il sagit de la valeur 0.6). Notons que lon ne peut pas dduire partir de la figure 6.5., la forme de la distribution des habilets latentes dans la population cible. Pour viter des associations, par exemple avec une distribution normale, il est prfrable de changer lchelle des valeurs qui sont reprsentes le long de laxe horizontal dans la figure en une chelle nincluant aucune valeur ngative et dont lunit est facilement comprhensible. Par exemple, en ajoutant 8 tous les nombres reprsents le long de laxe dans la figure, et en multipliant par 10, on obtiendra des nombres de 50 110, vitant ainsi des interprtations en termes de pourcentage, et dont le pas de lchelle permettra dobtenir des nombres entiers pour les points de csure provisoires21. Une fois la dfinition du score de csure effectue, le score rsultant peut tre facilement reconverti dans son chelle originelle, et les points de csure sont alors dtermins de la mme faon que dans la mthode du marque-page (voir section 6.8.3.)

16 14 12 Items 10 8 6 4 2 0 -3 -2 -1 0 Latent scale 1 2 3

Figure 6.5: cartographie ditems, indiquant la difficult et la discrimination

21

Une approche alternative ou supplmentaire serait dinclure les descripteurs pertinents du CECRL pour les tches du test dans le pilotage ou le pr-testing comme des items pour lvaluation denseignant ou lauto-valuation et ainsi de montrer aux panlistes, un moment appropri dans les tours de dtermination du point de csure, o ils apparaissent calibrs sur lchelle du trait latent comme indique dans la figure 6.5. (Voir la section 7.5.4.2.)

91

6.10. Dclinaisons particulires Dans cette conclusion, certains aspects particuliers seront brivement abords. Ces points sont : La dtermination des scores de csure avec des tests htrognes (sur plusieurs capacits) ; La dtermination des scores de csure et ajustement des tests ( travers les administrations) ; La dtermination des scores de csure sur plusieurs langues. 6.10.1. Dfinition des scores de csure sur plusieurs capacits langagires Dans certains cas, il peut tre exig de dfinir un seul point de csure, le rsultat global comme le niveau du CECRL dun candidat, alors que le test lui-mme peut comprendre trois voir plus de trois parties, o chacune permet de tester les performances dans des capacits diffrentes. Il y a alors plusieurs faons de voir les choses. Deux points de vue seront ici discuts, une approche compensatoire et une approche conjonctive. Lorsque ces deux approches sont appliques de faon stricte, elles peuvent conduire des rsultats inacceptables ; une solution raisonnable est donc galement discute. Approche compensatoire : dune part, selon une position extrme, on peut considrer toutes les tches et tous les items comme un mlange des capacits et alors appliquer lune des mthodes abordes prcdemment sur lensemble des items et des tches simultanment. En procdant de la sorte, on doit concevoir que les scores au test sont, par dfinition, compensatoires puisquils sont les sommes des scores aux items et aux tches. Echouer certaines tches peut tre compens par une bonne performance dautres tches. Dans la mesure o le test est homogne du point de vue de la nature des tches, un tel mcanisme compensatoire est lgitime et ne doit concerner prcisment que les items et les tches qui sont chous ou non. Nanmoins, avec un test plus htrogne, ce point de vue compensatoire pourrait tre inadquat. Par exemple, supposons quun examen national pour langlais, compos dune preuve de rception crite, dune preuve de rception orale, dune preuve de production orale et dune preuve de production crite, ait un score maximal de 100 points sur lensemble des quatre parties. En outre, supposons que la mthode du corpus de productions soit applique pour fixer les scores de csure et quon ait pris le soin de collecter des chantillons de production en provenance de diffrentes rgions dans le pays. Si les rgions diffrent significativement dans leurs mthodes et du point du vue de leur expertise pour une ou plusieurs comptences, des profils typiques de comptences devraient rvler les diffrentes structures selon les rgions. Si dans certaines rgions une faible attention est alloue la production orale, mme les meilleurs tudiants de cette rgion pourraient tre qualifis comme faibles dans cette comptence et russir au mme niveau que ltudiant moyen des rgions o une attention plus importante aura t alloue cette comptence. Prendre en compte lensemble des comptences pourrait masquer des diffrences importantes dans les profils. Par consquent, il est important quune tude minutieuse soit entreprise pour examiner dans quelle mesure une approche unidimensionnelle est approprie. En plus de ltude de la structure des diffrentes comptences, des diffrences structurelles possibles entre coles, rgions ou mthodes utilises qui pourraient rvler des items fonctionnement diffrentiel (DIF) devraient tre examines avant que lapproche unidimensionnelle puisse tre justifie. Si des diffrences marques ou des corrlations moyennes entre comptence taient avres on devrait tre confront plusieurs problmes. Deux dentre eux sont discuts ciaprs :

92

1. Une dcision rationnelle doit tre prise sur la pondration qui sera attribue chaque capacit pour le score total. Sil y a une disposition lgale qui stipule que chacune des capacits doit avoir le mme poids, le problme est alors sold. 2. Toutefois, mme avec une pondration impose, nous ne disposons daucune garantie, pour les mthodes centres sur les candidats, comme avec la mthode du corpus de productions par exemple, que les panlistes utiliseront effectivement cette pondration dfinie a priori pour fournir un jugement holistique du niveau de ltudiant. Approche conjonctive : lalternative est une approche qui prend en compte sparment chacune des capacits et qui implique que chaque point de csure soit dfini indpendamment. La rgle de dcision conjonctive stipule que lon a globalement atteint un niveau donn si lon a atteint ce niveau pour chacune des capacits. Lapplication stricte de cette rgle pourrait conduire des rsultats inacceptables. Par exemple, un tudiant pourrait se voir refuser le niveau B1, mme si il a atteint le niveau B2 dans trois des quatre comptences et pas le point de csure A2/B1 dans la quatrime. Dans ce cadre, un compromis entre les rgles de compensation et les rgles conjonctives semble raisonnable. Une rgle conjonctive gnrale pourrait tre fixe laquelle on pourrait adjoindre des exceptions compensatrices, comme pour lexemple ci-dessus o il apparaitrait raisonnable dattribuer le niveau B1 cet tudiant. La nature exacte des exceptions compensatrices doit tre considre avec une grande vigilance. Une bonne faon de les apprhender serait den discuter avec les experts du panel aprs quils ont statu sur les points de csure pour chacune des capacits sparment. 6.10.2. Dfinition des scores de csure et ajustement de tests Etant donn que la procdure pour dterminer les scores de csure est un dispositif onreux, cela vaut la peine de chercher comment viter une somme importante de travail, en particulier pour les examens cycliques o les spcifications des tests se rptent gnralement danne en anne sans modifications majeures. Si une procdure de dfinition des points de csure a t effectue selon les rgles de lart pour un examen annuel, les rsultats de la dtermination du score de csure pourraient tre transfrs tels quels une mme forme dexamen (par exemple de lanne suivante) en appliquant la technique dite de lajustement de tests22. Lajustement de tests dsigne un ensemble de techniques permettant davoir pour chaque score dans un test un score quivalent dans un autre test. Supposons que le point de csure A2/B1 ait t fix pour la premire anne de lexamen 35 points. Si le score quivalent 35 est 37 pour lexamen de la deuxime anne, cela implique ncessairement que le score de csure soit alors de 37 points. La mise en uvre des ajustements de tests prsente deux aspects auxquels il faut accorder une attention toute particulire. Le premier est quasi-exclusivement de nature technique, le second est conceptuel. Pour appliquer les techniques dajustement de tests, il est essentiel que les deux chantillons de candidats ayant pris part aux examens soient comparables. Une telle comparabilit peut tre garantie soit par lutilisation ditems en commun dans les deux examens ou en prenant des dispositions de telle sorte que les deux chantillons soient statistiquement quivalents. Aucune approche ne peut tre mise en uvre aisment dans un contexte dexamen : gnralement il nest pas possible de rpter lexamen de lanne prcdente lors de lanne en cours pour des raisons de confidentialit, et lquivalence des chantillons nest pas simple obtenir tant donn que les tudiants ne peuvent tre assigns un examen de faon alatoire. Une population lgrement plus comptente quune autre (que la prcdente ou que la suivante) donnera le sentiment que lexamen tait plus facile quil ne lest en ralit. Si cela nest pas clairement identifi et si les populations
22

Pour une bonne introduction, on peut consulter louvrage de Kolen & Brennan (2004).

93

sont considres comme identiques au regard de leurs comptences, cela conduirait des points de csure absolus. Lutilisation de techniques des MRI exige que les deux examens soient ancrs dune certaine faon, ce qui signifie que les parties des deux examens ont t administrs un chantillon dtudiants. (Voir la section G au Supplment du Manuel pour plus de dtails ; voir aussi la section 7.2.3.) Laspect conceptuel est li la validit de construit des deux examens. Bien que le recours aux mmes spcifications soit ncessaire pour obtenir des construits quivalents, il pourrait se rvler non suffisant tant donn que personne na une comprhension complte de la composition des construits mesurs par les examens de langue. Les techniques pour examiner la dimensionnalit dun test complexe comme lanalyse factorielle (section F du Supplment au manuel) pourraient permettre de bnficier ici de rponses. Toutefois, la faon la plus prudente de garantir la validit du transfert des points de csure par ajustement est daccomplir une dfinition des points de csure sur le nouvel examen, pour vrifier si les points de csure obtenus par application de lquation dajustement correspondent effectivement aux points de csure fixs par un panel indpendant de juges experts. 6.10.3. Dfinition des scores de csure sur plusieurs langues Laspect probablement le plus stimulant dans le fait de relier les examens au CECRL est de trouver des mthodes qui montrent que les examens dans diffrentes langues sont lis dune manire comparable des standards communs. Bien quil soit thoriquement possible dadministrer deux examens dans des langues diffrentes un mme chantillon de candidats, cela supposerait que chaque candidat de lchantillon a le mme niveau de comptences dans chacune des langues, ce qui est clairement impossible. Par consquent, les mthodes qui doivent tre recherches doivent considrer que chaque candidat na particip qu un seul des deux examens et que les performances de chaque candidat dans les diffrentes langues seront traites comme celles de candidats sans lien particulier. Pour relier ces deux examens aux CECRL, on peut faire appel des panlistes plurilingues, qui pourront offrir des jugements srieux et dignes de confiance la fois sur les items (pour les mthodes centres sur les tests) et sur le travail des candidats dans les deux langues. La mthode du corpus de productions pourrait tre lune des mthodes privilgier pour ce dernier cas. Pour les mthodes centres sur le test, toute mthode qui ne prsuppose pas une dfinition des points de csure selon les modles de rponse litem (MRI) peut tre en principe utilise. Les mthodes reposant sur les MRI ne fonctionneront pas parce quil est impossible de rapporter les deux examens sur la mme chelle, et ce parce que la conception ne sera pas lie par des personnes communes (voir ci-avant) ou des items en communs. Etant donn que les procdures de dtermination des points de csure sur plusieurs langues sont relativement rcentes23, une attention particulire doit tre attribue au risque de non validit de la procdure. En particulier, il conviendra dtre vigilant lgard des points suivants :

23

Un sminaire de dfinition des points de csure sur plusieurs langues a t organise par le CIEP Svres du 23 au 25 Juin 2008. Au cours de cette manifestation, des chantillons dadolescents franais parlant anglais, allemand, franais, italien et espagnol ont t valus sur les niveaux du cadre par des quipes multilingues. Un rapport de ce sminaire est disponible sur le site du conseil de lEurope (www.coe.int/lang)

94

Parce quil est impossible de masquer la langue du test aux experts du panel, excluant ainsi les jugements aveugles , il est important quil ny ait pas trop de diffrences systmatiques dans le construit entre les tests des deux langues. Par consquent, une attention particulire doit tre accorde au fait que les deux examens ou tests ont des spcifications identiques, voire similaires. On doit tre vigilant la composition du panel pour avoir un quilibre dexpertise dans les deux langues. Si les deux tests sont en anglais et en franais, lattention doit tre oriente vers la langue et la formation des panlistes. Par exemple, la moiti dentre eux pourraient tre de langue maternelle anglaise, lautre moiti de langue maternelle franaise, ou bien un quilibre doit tre recherch pour la tche dvaluation principale : la moiti des membres du panel seront des enseignants de franais avec une certaine aisance en anglais et vice versa pour lautre moiti. Cet quilibre doit tre maintenu constant dans les sous-groupes du panel qui seront forms pour les discussions. De faon similaire, le matriel qui va tre valu (soit des chantillons de production, soit des items) devrait tre prsent de manire quilibre du point de vue des squences de prsentation et du point de vue du contenu. Les tapes doivent tre respectes au cours de la phase dentranement de dfinition des scores de csure pour sassurer que tous les membres du panel appliqueront le mme standard chacune des langues. Les usages des panlistes peuvent prsenter des risques, des distorsions pouvant se produire, en lien avec les publications de rfrence et les diffrences terminologiques associes des cultures pdagogiques diffrentes. Il est primordial que les membres experts du panel utilisent et se rfrent aux critres officiels et non aux standards internes. Des enregistrements dtaills de la procdure doivent tre conservs, et autant que faire se peut, les rsultats de la procdure de dtermination des points de csure sur les deux langues (approche bi langue) devraient tre compars aux rsultats obtenus lors de la dtermination des points de csure sur chacune des deux langues (approche mono langue) avec des panlistes indpendants.

6.11. Conclusion Ce chapitre a pass en revue un certain nombre de procdures de dfinition des scores de csure, mais ne prtend pas lavoir fait de faon exhaustive. Une prsentation accessible peut tre consulte dans la section B du Supplment au manuel et des procdures additionnelles exploitant les jugements des enseignants et la TRI pour inclure un critre externe dans ltude de lappariement sont prsentes dans les annexes fournies par Brian North et Neil Jones. Dans ce chapitre, laccent a port sur la faisabilit et ladquation des mthodes slectionnes aux tests langagiers et pour relier les examens au CECRL en soulignant limportance dune bonne comprhension des notions de base. Bien entendu, au cours et aprs la mise en uvre de ces procdures, il sera ncessaire den suivre la qualit en se centrant sur plusieurs questions : Est-ce que la procdure de dtermination des points de csure a eu les effets attendus ? La formation a-t-elle t efficace ? Est-ce que les panlistes se sont sentis libres de suivre leurs propres intuitions ? Des questions similaires sont ici bienvenues. Ce sont les questions lies la validit procdurale. Est-ce que les valuations des experts du panel sont fiables : est-ce que chaque membre du panel a t rgulier au cours des diffrentes tches quil a ralises ? Est-ce que les membres du panel ont t en accord avec les autres dans leurs jugements et dans quelle mesure un consensus a permis de considrer le point de csure comme dfinitif ? Est-ce des erreurs ont t commises dans les scores au test ? Ces questions, et leurs rponses, constituent la validit interne de la procdure de dfinition des scores de csure. La question la plus importante est de savoir si les rsultats de la procdure conduisant aux points de csure qui attribuent un niveau du CECRL aux tudiants sur la base de leur score au test sont dignes de confiance. La rponse cette question vient de la

95

preuve indpendante qui corrobore les rsultats dune procdure particulire de dfinition des scores de csure. Cest la tche de tout un chacun que dappliquer une telle procdure pour fournir une rponse cette question ; cest prcisment ce qui est signifi par le terme validation. Une telle preuve peut provenir de sources diffrentes, comme : - la validation croise : la rptition des procdures de dtermination des scores de csure avec des groupes indpendants de panlistes ; - la dtermination complmentaire des scores de csure : mettre en place des mthodes indpendantes de dtermination des points de csure en utilisant une procdure diffrente et approprie au contexte ; - La validation externe : en conduisant une tude indpendante pour vrifier les rsultats de la procdure de dtermination des scores de csure en les rapprochant dun critre externe. Ce critre externe peut tre un test pour la (les) mme(s) comptence(s), connue(s) pour tre fidlement calibre(s) au CECRL. Cela pourrait tre galement les jugements denseignants ou dapprenants forms aux descripteurs du cadre. Toutes ces questions sont traites dans la section 7.5.

Les utilisateurs du Manuel devraient considrer : La ncessit de lectures supplmentaires sur les procdures de dtermination des scores de csure. Quelle(s) mthode(s) est (sont) la(les) adapte(s) au contexte. Sil faut opter pour une mthode valuant la difficult des items (ex : lappariement au descripteur ou la mthode du panier) ou pour une mthode valuant le score de csure sur lchelle du prtest (ex : mthode du marque-page, mthode du corpus de productions). Si deux mthodes devraient tre utilises pour la validation de leurs rsultats respectifs. Comment les panelistes proposeront leurs valuations sur les points de csure aprs le premier tour ; est-ce que le vote lectronique24 est ralisable ? Si les paramtres de difficult de la TRI seront disponibles pour renseigner le procd permettant la prcision des points de csure ou si les valeurs de probabilit devront tre utilises. Quels types de donnes dimpact sur les effets provisoires du point de csure devraient tre disponibles pour enrichir les derniers tours de discussion. Quel(s) type(s) de moyen(s) devrai(en)t tre ncessaire(s) pour appliquer la(les) mthode(s) retenue(s).

24

Pour information sur la mise en uvre du vote lectronique, voir Lepage and North (2005).

96

97

Chapitre 7 : Validation
7.1. 7.2. Introduction Pr-requis : la qualit de lexamen 7.2.1. 7.2.2. 7.2.3. 7.2.4. 7.2.5. 7.3. Validit de contenu Aspects oprationnels : le test pilote Aspects oprationnels : le pr-test Considrations psychomtriques Le bon moment pour dterminer les scores de csure

Validit procdurale de la formation la standardisation et la dtermination des scores de csure Validit interne de la dtermination des scores de csure 7.4.1. Consistance intra-juge 7.4.2. Consistance inter-juges 7.4.2.1. 7.4.2.2. 7.4.2.3. 7.4.2.4. 7.4.2.5. Accord et consistance Trois mesures daccord Evaluation des indices daccord Reprer les items problmatiques Indices de consistance

7.4.

7.4.3. Exactitude et consistance de la mthode de dtermination des scores de csure 7.4.3.1. 7.4.3.2. 7.4.3.3. 7.5. Validation externe 7.5.1. 7.5.2. 7.5.3. 7.5.4. Validation croise Comparaison des distributions marginales Tables de dcision Quelques scnarii 7.5.4.1. 7.5.4.2. 7.5.4.3. 7.6. Conclusion Tirer parti du calibrage de la TRI Utilisation des Etre capable de Dtermination des scores de csure sur plusieurs langues Erreur standard du score de csure Une situation paradoxale Exactitude et consistance des dcisions

98

7.1.

Introduction

Relier un examen au CECRL est un processus complexe qui implique plusieurs tapes, qui toutes exigent du professionnalisme. La validation a trait au corpus de preuves propos pour convaincre les utilisateurs du test que le processus, dans sa globalit, et ses rsultats sont dignes de confiance. Les utilisateurs du test doivent ici tre compris dans un sens trs large ; ils comprennent les lves (ou leurs reprsentants lgaux, comme les parents) qui passent le test, les autorits ducatives et politiques qui utilisent les rsultats du test pour prendre des dcisions politiques, les diteurs de manuel et les enseignants, les organismes certificateurs, les employeurs et les formations syndicales, la communaut scientifique implique dans les tests de langue, et si les enjeux sont vritablement forts, galement les autorits lgales. Bien que le prsent Manuel se concentre sur le procd pour relier les examens au Cadre, dans un sens plutt strict, en mettant laccent sur lapplication dune ou plusieurs procdures de dtermination des scores de csure, il serait erron de considrer que le processus de validation peut tre totalement restreint aux activits et rsultats dcrits au cours des chapitres 3 6. Dans ce prsent chapitre, la plupart des procdures et techniques discutes se centrent sur ladaptabilit du procd qui permet de relier les examens au Cadre. Nanmoins, une section indpendante (7.2.) est consacre au prrequis gnraux se rapportant la qualit de lexamen, le test pilote, le pr-test, les considrations psychomtriques et au choix du moment appropri pour conduire une procdure de dtermination des scores de csure. La discussion autour de la validation est organise en trois sections ; deux dentre elles traitent de la validit ou de la fiabilit de la procdure elle-mme et de ses rsultats lmentaires. Dans la section 7.3., la validit procdurale est discute et dans la section 7.4. une attention particulire est porte la validit interne, au sens de la consistance interne. Dans la section 7.5., la validit externe est traite, partie la plus importante et la plus dlicate du processus de validation. Dune manire gnrale, la validit externe se rfre lensemble des preuves indpendantes en provenance dautres mthodes conduisant essentiellement aux mmes conclusions que les mthodes et procdures de ltude en cours. La validit nobit pas une loi de type tout ou rien, mais stablit plutt sur un continuum. Pour un rapport sur la validit, il faudra tre attentif aux nombreuses facettes impliques, en mettant en avant de solides arguments et des preuves empiriques pour faire face aux critiques relatives la gnralisabilit. Il est ainsi indispensable, pour une bonne tude de la validation, de disposer dune documentation consquente sur lensemble des activits entreprises. Ce chapitre conclura le Manuel et se terminera par quelques rflexions sur ltat de lart relatif aux procdures de dtermination des scores de csure. Il proposera galement un bref regard orient sur lavenir. 7.2. Pr-requis : la qualit de lexamen

Relier au Cadre un examen qualitativement pauvre est une entreprise voue lchec et qui ne peut tre sauve mme par une dtermination attentive des scores de csure. Dans cette section, un nombre important daspects de lexamen lui mme seront discuts brivement, en gardant un seul objectif en tte, celui de relier correctement lexamen au cadre. Ces aspects se rfrent au contenu de lexamen, ses aspects oprationnels et psychomtriques. 7.2.1. Validit de contenu Dune manire gnrale, le contenu dun examen est dict par des prescriptions curriculaires qui laissent peu de marges de libert. Bien que les descripteurs de comptences en termes de savoir-faire du CECRL soient formuls de faon abstraite, il est possible dentrevoir des zones de conflits entre les exigences curriculaires et la faon dont le CECRL est articul. Il

99

se pourrait que certains items de lexamen soient si complexes quune correspondance univoque lun des niveaux du CECRL soit impossible ; toutefois, ne pas prendre en compte le caractre quivoque pourrait galement introduire des conflits avec les exigences curriculaires. Pour solder ce problme, considrons diffrents points : La position la plus extrme est de sabstenir totalement de lien avec le CECRL. Bien que a ne puisse probablement pas solder le problme court terme, une publication cet gard pourrait savrer utile pour une rvision (ou une extension) du CECRL, ou pour une rvision des exigences curriculaires pour les rendre plus compatibles avec le CECRL. Une approche plus nuance pourrait tre de rechercher un compromis et de relier lexamen au Cadre sur une seule partie de lexamen, en laissant de ct par exemple 25% des tches et des items, parce quils sont trop difficiles apparier avec les catgories ou niveaux du CECRL. Une autre alternative serait de slectionner une mthode de dtermination des scores de csure moins analytique, pour laquelle aucune rfrence spcifique aux descripteurs du CECRL nest ncessaire. Quelques mthodes de dtermination des scores de csure reposent sur des jugements globaux, holistiques, (par exemple la mthode du corpus de productions, voir section 6.6.) alors que dautres impliquent des jugements globaux sur la localisation du point de csure entre les niveaux dun test, renseigns par une somme notable dinformations psychomtriques (par exemple : la mthode du marque-page ou sa variante selon le Cito : voir section 6.8.-6.9.).

Un autre aspect de ce problme est de savoir dans quelle mesure les activits pertinentes et les comptences dcrites dans le CECRL sont couvertes par lexamen. Les spcifications de lexamen (Chapitre 4) dtaillent ce qui est inclus dans lexamen, mais pas ce qui a t laiss de ct. Lomission de parties et daspects importants du construit du CECRL peut conduire un caractre unilatral et engendrer des critiques quant la gnralisation dun adossement injustifi de lexamen au Cadre. Il existe des mthodes pour quantifier la validit de contenu dun examen et Kaftandjieva (2007) en a propos un exemple pratique. Pour viter tout danger dune sur-gnralisation , il est prfrable de mentionner explicitement le contenu couvert par lexamen (reprsentativit du contenu). 7.2.2. Aspects oprationnels : le test pilote En amont de ladministration dun examen en contexte rel, les donnes peuvent tre collectes au cours de plusieurs tapes. Dune faon gnrale, on distingue la phase pilote et la phase de pr-test. Le plus souvent, on entend par test pilote lexprimentation du matriel de test de manire liminer les ambigits, vrifier la clart et la comprhension des questions et de leurs consignes, disposer dune premire estimation de la difficult des tches et des items et pour estimer la dure ncessaire la passation. Un test pilote peut tre conduit sur un petit chantillon (une ou deux classes suffisent gnralement) ; il est cependant utile de ne pas prsenter le matriel exclusivement comme un test, mais dessayer de disposer dun maximum de retour dinformations sur la qualit du matriel de test. Des mthodes qualitatives, comme les interviews et les labos cognitifs25 , peuvent rvler de nombreuses informations intressantes ; les participants au test pilote peuvent tre des lves et des enseignants. Un bon pilotage permet dviter les mauvaises surprises lors de la phase de pr-test et de lexamen rel.
25

Un labo cognitif est une procdure au cours de laquelle les participants sont invits faire le test tout en rflchissant voix haute, en explicitant la faon dont ils comprennent les questions, leurs stratgies de rponses et les diffrentes tapes par lesquelles ils passent.

100

La dpendance entre les items est un aspect qui est facilement maitris dans la construction de tests items. Un test fournit un maximum dinformations sur le construit qui doit tre mesur si chaque item est une nouvelle opportunit pour le candidat de montrer sa comptence et son niveau. Un item i qui peut tre correctement trait seulement si un autre item j a t correctement trait, ou une mauvaise rponse litem i qui entraine une mauvaise rponse litem j sont des exemples caractristiques de dpendance ; on parle alors de dpendance fonctionnelle. Cependant, des formes plus subtiles de dpendance peuvent apparaitre ; par exemple, traiter un item i peut fournir de linformation sur lexactitude de la rponse litem j, mme si linformation nest pas complte. Plus encore, cette information peut tre slective de telle sorte quelle devienne facilitante si la rponse litem i est correcte. Ce type de dpendance est nomm la dpendance statistique. Ignorer la dpendance peut avoir des consquences graves sur les caractristiques psychomtriques dun test (par exemple conduire une surestimation du coefficient de fidlit) ainsi que sur la dtermination des scores de csure. Lors de projets ambitieux pour lesquels une banque ditems calibrs est construite permettant dlaborer les examens par une slection ditems issus de la banque, la dpendance peut avoir des consquences fcheuses. Si des items i et j ont t administrs de faon conjointe pour recueillir les donnes pour le calibrage de la banque et sil y a une dpendance statistique entre eux, alors les paramtres psychomtriques de lun ou de lautre, si lun deux est utilis de faon isole dans lexamen deviennent imprvisibles. Comme la dmonstration de lindpendance statistique nest pas simple, il est prfrable dessayer, pendant la phase pilote, de dtecter les stratgies subtiles auxquelles les candidats ont recours pour relier les items entre eux. Une collecte dinformations de la part des candidats, bien labore, pendant la phase de pilotage est une bonne faon didentifier de tels problmes26. 7.2.3. Aspects oprationnels : le pr-test Un pr-test est gnralement conu pour obtenir de linformation sur les principales caractristiques de lexamen. En plus des paramtres psychomtriques (qui seront discuts par la suite), les caractristiques oprationnelles doivent aussi tre observes. Le temps attribu et le temps ncessaire pour le pr-test est une source majeure dinformation qui doit tre collecte. Mme si le nombre ditems non traits en fin de test par les candidats peut fournir une information utile, au moins deux aspects ne sont habituellement pas dtects : Les candidats qui manquent de temps pourraient tre attirs par les items paraissant faciles. En particulier si lexamen est un mlange de questions choix multiples et de questions rponses construites, les candidats pourraient avoir tendance traiter les QCM pour viser le score le plus haut possible. Dans une telle situation, une absence de rponse est difficile interprter : elle pourrait provenir de la difficult intrinsque de litem ou dune stratgie lie la pression temporelle. Un court questionnaire administr aux candidats (ou un chantillon dentre eux) aprs le pr-test pourrait se rvler utile pour proposer une explication raisonnable en ce qui concerne les absences de rponses. Il est possible que le temps total allou pour le test ait t surestim, ce qui entraine une perte dinformation. Pour mettre jour simplement cette ventualit, il suffit de demander aux enseignants de noter pour chaque candidat le temps exact ncessaire pour faire lexamen dans son ensemble.

En dehors du fait dtre une rptition de lexamen venir, le pr-test permet galement la ralisation dune fonction centrale, en loccurrence celle de relier les examens entre eux. Etant donn que les examens tendent tre uniques du point de vue de leur composition

Pour un traitement statistique et psychomtrique de la dpendance par la TRI, voir Verhelst & Verstralen (2008).

26

101

dune anne sur lautre et que les populations cibles nont pas dlves en commun27, les donnes recueillies sur les deux examens ne peuvent tre compares ; les diffrences au niveau du score moyen pourraient tre dues des diffrences systmatiques entre les deux groupes de candidats ou une diffrence en termes de difficult des contenus des deux examens ou encore par un mixte de ces deux raisons. Il ny a aucune manire de savoir dans quelle mesure lune et/ou lautre de ces deux causes sont avres, sauf si les donnes soient lies dune certaine faon. Parce que prsenter des items aux mmes candidats dans un pr-test que dans un examen a des consquences imprvisibles en regard des effets mnsiques, les bonnes pratiques exigent que le pr-test soit conduit deux ans avant le test (ou sur une priode de deux rotations dexamens). Si les examens des annes 1 et 2 doivent tre lis, le pr-test qui les lie devra alors tre organis deux ans avant lexamen 2, en loccurrence en lanne 0.

Il est recommand de planifier le pr-test selon un dispositif quon nomme bloc incomplet quilibr. Les items des deux examens sont alors spars en un nombre de sousensembles. Chaque candidat participant au pr-test se voit administrer le mme nombre de sous-ensembles, mais aucun dentre eux ne se voit administrer lensemble des items. Un dispositif de bloc incomplet quilibr prsente ainsi les caractristiques suivantes : chaque bloc est prsent un nombre identique de candidats ; chaque paire de bloc est prsente un nombre identique de candidats ; chaque bloc ditems est prsent dans chaque position, de faon srielle.

Pour parvenir cela, des restrictions doivent tre introduites au niveau du nombre de blocs. Les dispositifs incomplets quilibrs sont possibles pour 2, 3, 7 et 13 blocs, mais pas pour dautres nombres infrieurs 13. Pour chacun des nombres ici mentionn, le nombre de formes diffrentes du test qui doivent tre prpares quivaut au nombre de blocs. Le tableau 7.1. montre le dispositif qui doit tre mis en uvre pour trois blocs et le tableau 7.2. celui pour sept blocs. Dans le tableau 7.1., chaque candidat reoit lune des trois formes diffrentes de test. Les nombres en ligne indiquent pour une forme donne du test le contenu de ce dernier mais galement la squence ordonne de chacun des blocs. Il est ais de vrifier que les trois exigences mentionnes ci-dessus en ce qui concerne un dispositif de bloc incomplet quilibr sont respectes ; cest galement le cas pour le dispositif en sept blocs. Tableau 7.1: dispositif de blocs incomplets quilibrs avec trois blocs Test Blocs ditems 1 2 1 2 3 2 3 1 3

27

Mme si un tudiant passe deux formes dun examen (suite un redoublement par exemple), on ne peut pas considrer que sa comptence est la mme lors des deux examens, et dans toutes les analyses psychomtriques un pareil tudiant sera analys comme reprsentant deux individus (statistiques) distincts.

102

Tableau 7.2: dispositif de blocs incomplets quilibrs avec sept blocs 28 Test Blocs ditems 1 2 4 1 2 3 5 2 3 4 6 3 4 5 7 4 5 6 1 5 6 7 2 6 7 1 3 7 On doit prendre garde ne pas administrer la mme forme de test lensemble des tudiants dune classe ou dune cole, parce que des diffrences systmatiques entre les classes et les coles pourraient biaiser les estimations des pobs des items. En principe, toutes les formes de test devraient tre administres en nombre identique dans chaque classe. Pour mettre en uvre ce principe on peut avoir recours au dispositif en spirale. Les diffrentes formes du test sont distribues dans la classe en une squence fixe : si le premier candidat reoit la forme 4, le suivant recevra la forme 5, puis la 6, 7, 1, 2, 3 et enfin la squence sera rpte. Il convient de commencer dans chaque classe par une squence diffrente. La forme du test du dbut de la squence devrait tre choisie de faon alatoire, ou devrait tre dun rang suprieur celle avec laquelle la classe prcdente sest termine. Toutes ces rgles de planification sont un gage pour viter les biais imprvus, difficiles reprer. Recourir un dispositif de blocs incomplets quilibrs prsente des avantages notables pour la construction de lexamen. Quel que soit le sous-ensemble ditems slectionns pour figurer dans lexamen de lanne 1, chaque item aura t observ en conjonction avec tous les autres items. Pour les items de lexamen de la deuxime anne la mme remarque sapplique, aussi bien dailleurs que pour les items non utiliss. Ainsi, chaque item de lexamen 1 est li chaque item de lexamen 2. Pour obtenir des contenus quilibrs dans chaque forme de test utilise, il est primordial de rendre chaque bloc aussi htrogne que possible, en regard du contenu et de la difficult. Examinons ce quil advient en anne 1. Lexamen de lanne 1 est administr, et au cours de cette mme anne un pr-test est ncessaire pour les deux annes venir. En appliquant le mme principe que celui voqu prcdemment, pendant lanne 1, les items des annes deux et trois doivent tre pr-tests pour garantir le liage entre les examens des annes 2 et 3. Ainsi, le matriel de lanne 2 doit de nouveau tre pr-test. Ici est illustr le principe de base : de manire avoir un liage fort entre les examens dune anne sur lautre, les items doivent tre pr-tests deux fois. Ensuite, il est important quun nombre suffisant de candidats fournisse des rponses pour chaque item. La thorie classique des tests est mal approprie pour traiter les donnes recueillies dans le cadre dun dispositif incomplet, de telle sorte quil faudra probablement avoir recours la TRI. Or, pour utiliser de faon efficace la TRI des chantillons consquents sont exigs ; un minimum de 200 rponses29 doit tre pris en compte pour obtenir des estimations relativement stables.

Si lon considre les trois colonnes, on peut remarquer quelles dmarrent une certaine valeur en haut de la colonne, jusqu 7 pour redmarrer 1. Les premires valeurs sont respectivement 1, 2 et 4. Pour 13 blocs, on peut appliquer le mme principe : les premires valeurs seront respectivement 1, 2, 4 et 10. Bien entendu, le cas chant, le tableau prsentera 13 lignes et on disposera de 4 blocs ditems. Pour 5 blocs ditems, il faudra 21 livrets diffrents, mais en pratique cest rarement ralisable. 29 Il est fortement recommand de ne pas considrer ce nombre comme une rgle absolue. Il constitue une indication de lordre de grandeur de la taille de lchantillon. Dans les situations forts enjeux, il faudra se faire conseiller par un psychomtricien expriment pour quil puisse valuer, probablement laide de simulations computationnelles, la taille approprie de lchantillon.

28

103

7.2.4. Considrations psychomtriques Il est primordial que le pr-test fournisse suffisamment de donnes pour que suffisamment daspects psychomtriques de lexamen puissent tre fournis. Le premier aspect concerne les paramtres de litem, comme la difficult (valeur p) et le pouvoir discriminant. Si lon sen tient aux indices de la Thorie Classique des Tests, on doit considrer que ces indices sont dpendants de la population et que leurs valeurs sont simplement une indication des valeurs quils ont au niveau de la population parente, condition que lchantillon du pr-test soit reprsentatif de la population cible. Organiser un pr-test uniquement dans un nombre restreint de centres pour des raisons de commodits (par exemple les centres o les enseignants sont membres de lquipe dlaboration du test) pourrait conduire de srieux biais au niveau des estimations. La fidlit de lexamen est galement un aspect important si lon souhaite le relier correctement au CECRL. En effet, elle a un impact sur la prcision et la consistance de la classification en termes de niveaux du CECRL, comme ce sera dmontr ci-aprs. En estimant la fidlit, deux aspects doivent tre gards lesprit : Le KR20 (ou lalpha de Cronbach) est souvent mentionn comme un indice de fidlit. En fait, il ne lest pas exactement. Il permet faire une estimation par dfaut de la fidlit. Ainsi avec des tests htrognes, il sous-estime substantiellement la fidlit. Le GLB (pour greatest lower bound ) est un bien meilleur indicateur de la fidlit ; on peut en trouver une explication dans la section C du Supplment au Manuel. Si un dispositif de blocs incomplets a t utilis pour le pr-test, le GLB sera uniquement disponible par livret de tests. Pour obtenir une estimation raisonnable de la fidlit sur lensemble de lexamen, cet indice devra tre calcul uniquement pour les items qui seront slectionns pour lexamen. Sur ces estimations, la formule de Spearman-Brown peut tre applique pour estimer la fidlit de lexamen dans son ensemble. Prendre en compte la moyenne de toutes ces estimations offrira une approximation raisonnable de la fidlit si une attention suffisante a t alloue lhtrognit et la reprsentativit des blocs par rapport lexamen final.

7.2.5. Le bon moment pour dterminer les scores de csure Si ladossement au CECRL est li une situation forts enjeux, le temps est gnralement insuffisant pour collecter les donnes de ladministration de lexamen, remettre les rsultats, organiser de faon complte une procdure de dtermination des scores de csure et valuer la validit de cette procdure. Comme lutilisation de donnes relles de candidats est conseille, y compris pour les mthodes de dtermination des scores de csure centres sur les tests (tude dimpact, retour dinformations raliste ; voir chapitre 6), le laps de temps entre le pr-test et ladministration finale de lexamen sera probablement le plus adapt pour dterminer les scores de csure. Une planification sur une priode de deux annes, comme dcrit prcdemment, peut mme offrir la possibilit, de faon croise, de deux procdures de dtermination des scores de csure. Cette ventualit sera envisage en dtail dans la section 7.4. Dans cette section, la discussion sera focalise sur les consquences de ce qui est parfois nomm leffet pr-test . Cette appellation fait rfrence toutes les diffrences systmatiques entre le pr-test et le vritable examen, diffrences qui pourraient moduler les performances des candidats. Linfluence principale provient dune diffrence en termes de motivation et de lensemble des facteurs directement lis la motivation, comme le srieux de la prparation et lanxit. Sil sagit dun examen fort enjeu et dun pr-test faible enjeu, tous ces facteurs pourraient suivre la mme tendance, en loccurrence diminuer la performance dans le pr-test comparativement la situation dexamen. Le cas chant, la mesure dimpact prsente aux panlistes au cours de la procdure de dtermination des scores de csure sera biaise et pourrait avoir un effet systmatique sur les scores de

104

csure proposs ; suite cette information biaise, si les panlistes se considrent euxmmes trop stricts cela pourrait conduire minimiser les scores de csure. Nous suggrons ici quelques pistes qui pourraient permettre dviter -ou du moins contrlerleffet pr-test : Essayer dorganiser le pr-test, autant que faire se peut, dans des conditions semblables aux conditions de lexamen rel. Prsenter un pr-test comme une sorte de rptition gnrale de lexamen, le plus proche possible dans le temps et avec des enjeux forts pourrait permettre daccroitre la motivation et la prparation, de sorte quelles soient semblables au cours des deux sessions. Ajouter un court questionnaire la suite du pr-test peut tre un atout. Par exemple, les candidats qui montrent peu dintrt pour le pr-test ou qui prtendent quils nont pas eu le temps ou lopportunit pour se prparer srieusement devraient tre exclus des donnes analyser. Si lon parvient conduire les pr-tests de la mme manire depuis un longue priode, les donnes des pr-tests et les donnes des examens rels devraient tre compares pour obtenir une estimation de leffet pr-test. Si lon obtient une estimation constante longitudinalement, leffet pr-test pourrait tre expliqu par les panlistes. Ainsi, une sorte de donnes dimpact corrige devrait tre prsente pendant les sessions de discussion. Par exemple, si leffet du pr-test est estim deux points (la moyenne tant deux points au-dessus dans un examen rel que lors du pr-test), on pourrait ajouter cet effet chaque score obtenu lors du pr-test pour calculer la proportion des candidats de chaque niveau en utilisant les scores de csure provisoires. Bien entendu, on se doit dinformer les panlistes de cette correction (et de sa justification) ; il ny aurait rien gagner en omettant linformation, au contraire cela pourrait avoir de graves consquences. Validit procdurale de la formation la standardisation et la dtermination des scores de csure

7.3.

Au cours du chapitre prcdent, nous avons dcrit plusieurs procdures pour familiariser les panlistes au CECRL, pour comprendre les spcifications dun examen, pour dterminer des critres pertinents et pour dfinir les scores de csure. Les sessions de dtermination des scores de csure exigent de dbuter avec de telles explications et instructions ; les panlistes doivent se sentir en confiance pour raliser leurs tches. Lensemble de ces procdures peut tre considr comme une tape, un pas supplmentaire vers les bonnes pratiques ; si on les ignorait, on se dirigerait vers des situations risques. Le respect de telles procdures est une garantie ncessaire pour obtenir de bons rsultats, en un mot : instructions correctes, rsultats corrects. Le problme de la validit est mettre en relation avec le caractre ncessaire des procdures. Par exemple, en ce qui concerne la familiarisation (chapitre 3) et la formation la standardisation (chapitre 5), sil ny a aucune phase prparatoire relative la comprhension du CECRL, on ne peut pas esprer aboutir un rsultat valide. Par ailleurs, mme si la procdure de formation suggre est mise en uvre, rien ne garanti que le rsultat obtenu soit un succs ; la phase dentranement est ncessaire, mais est-elle suffisante ? La validation de cet aspect exige que la formation ait t efficace : si lon forme les gens pour comprendre quelque chose, on doit aussi sassurer quils lont rellement compris lissue de la formation. Plusieurs aspects relatifs cette validit procdurale seront exposs ci-aprs. Il sagit caractre explicite, du caractre pratique, de la mise en uvre, du retour dinformation et la documentation. Le caractre explicite : il sagit du degr selon lequel lobjectif de la procdure dtermination des scores de csure et la procdure elle-mme sont clairement du de de et

105

explicitement articuls. En dautres termes, le processus est dfini dans son intgralit avant quil soit conduit ; les tapes sont clairement dcrites, les conditions de droulement et les rsultats attendus aprs chaque tape sont dcrits comme un scnario immuable. Si lchancier est suffisamment prcis pour quil puisse constituer un guide pour une vritable rplication de lintgralit de la procdure, on dispose dun bon critre pour juger du caractre explicite. Une autre manire de vrifier si le caractre explicite est satisfait consiste demander aux participants sils ont clairement compris lobjectif de la runion permettant de dterminer les scores de csure et si les tches relatives cette dtermination ont t clairement explicites. Le caractre pratique : mme si certaines procdures sont compliques, la prparation doit tre pratique (voir Berk 1986), ainsi : La mthode de dtermination des scores de csure doit pouvoir tre mise en uvre sans grande difficult. Lanalyse des donnes doit pouvoir tre ralise sans calculs laborieux. Cela ne signifie pas pour autant que les calculs ne sont pas compliqus, mais que le travail de prparation (comme par exemple la prparation de feuille de calculs Excel avec les formules appropries) doit tre accompli bien en amont de la session. Les procdures doivent tre crdibles et interprtables par des non-techniciens. Une manire de vrifier que le caractre pratique est satisfait consiste demander aux panlistes si la formation a vritablement facilit la comprhension des tches accomplir. La mise en uvre : cet aspect fait rfrence la manire, du point de vue de la rigueur, dont le panel est slectionn et form, la manire dont les niveaux du CECRL sont intgrs et celle dont les donnes de jugement sont effectivement traites et analyses. Des informations relatives ces points doivent tre fournies. Le retour dinformation : cet aspect se rfre au niveau de confiance des panlistes lgard de la procdure de dtermination des scores de csure et aux rsultats qui y sont lis. Est-ce que les panlistes estiment quils ont trouv les bons rsultats ? Des informations relatives ces points doivent tre collectes et rapportes. Documentation : cet aspect se rfre la manire dont la procdure de dtermination des scores de csure est documente, en particulier lgard des objectifs dvaluation et de communication. 7.4. Validit interne de la dtermination des scores de csure

Les questions relatives la validit interne doivent permettre de se prononcer sur la prcision, au sens de lexactitude, et sur la consistance du rsultat de la procdure de dtermination des scores de csure. Un dfaut de consistance peut provenir dune faiblesse gnrale de la mthodologie mise en uvre ou avoir une origine plus locale en reposant sur un ou deux juges ou quelques items. Le cas chant, on pourrait : i) pour ce qui concerne les panlistes, supprimer certains dentre eux (ou de lanalyse faisant suite la procdure de dtermination) ou ii) pour ce qui concerne les items, ne retenir quun sous-ensemble ditems et de tches dans le test, en excluant ceux qui posent problme. En supprimant des panlistes, on doit prendre garde de ne pas influencer le rsultat relatif aux scores de csure dans une direction souhaite par lorganisateur. Sil lon dispose de preuves quant lincomprhension des instructions suivre par un panliste, ou sil les ignore volontairement, on dispose alors dune raison valide pour le retirer des donnes analyser. Des entretiens lissue de la session et un questionnaire bien conu peuvent fournir les preuves recherches. Une telle suppression doit tre dment documente et le rapport final doit mentionner le nombre de panlistes retirs de lanalyse ainsi quexpliquer les raisons du retrait. Supprimer des items ou des tches est un problme bien plus dlicat. Lorsque le premier souhait est dadosser son examen au CECRL (par exemple en appliquant une rgle qui

106

associe un chec lexamen au fait ne pas avoir atteint le niveau B1/B2), retirer certains items pourrait srieusement biaiser la validit de contenu du test. En outre, cela pourrait introduire sur le plan thique des problmes en ayant des candidats qui font des efforts inutiles pour se prparer un examen. Dun autre ct, si le fait dadosser son examen au CECRL est envisag comme un aspect constituant de lexamen, on pourrait alors retirer les items problmatiques de ltude dadossement tout en conservant ces mmes items pour lanalyse permettant de remettre les rsultats aux candidats. La suite de cette section traitera des points relatifs la consistance et la prcision : La consistance intra-juge consiste rechercher les informations qui montrent quun juge est cohrent dans son jugement. La consistance inter-juges consiste rechercher dans quelle mesure les panlistes saccordent les uns avec les autres dans leurs jugements. La stabilit des rsultats est exprime par lerreur standard des points de csure. La prcision et la consistance de la classification reposent sur la procdure de dtermination des scores de csure.

Parmi les mthodes proposes pour vrifier la consistance, toutes ne sont pas applicables lensemble des mthodes de dtermination des scores de csure discutes dans le chapitre prcdent. Ainsi, nous utiliserons la mthode rvise de Tucker-Angoff pour illustrer le travail et nous ferons mention de commentaires supplmentaires pour ce qui concerne les autres mthodes quand cela savrera ncessaire. 7.4.1. Consistance intra-juge A ce propos, deux questions sensibles peuvent tre poses : est-ce que le juge (le panliste) est consistant avec lui-mme et est ce que sa rponse est consistante avec celle fournie pour les autres informations relatives au test ? Pour rpondre la premire question, il est ncessaire que le panliste donne sa rponse la mme question deux reprises (ou bien deux questions trs similaires). Cela pourrait tre ralis pendant une procdure de dtermination des scores de csure avec un dispositif particulier de mesures rptes, dans lequel le tour final serait une nouvelle prsentation (partielle) des items des premiers tours. Lorsque lon travaille dterminer plusieurs scores de csure (pour plusieurs niveaux) avec la mthode de Tucker-Angoff, on peut interroger chaque juge pour quil donne une seconde fois son estimation de probabilit pour lun des scores de csure. Les probabilits estimes tant des nombres fractionnels, un diagramme de dispersion et un coefficient de corrlation peuvent offrir un clairage sur la consistance interne des jugements. La corrlation peut tre directement interprte comme la fidlit des jugements. Les comparaisons de ces fidlits sur les juges peuvent fournir des informations utiles en ce qui concerne les juges atypiques, et ces indications pourraient conduire exclure des analyses supplmentaires des donnes un ou deux panlistes. En fournissant les probabilits pour une personne se situant la limite des niveaux, les panlistes donnent implicitement une indication de la difficult des items. En estimant que cette personne a une probabilit de 0.6 de donner une rponse correcte litem i et de 0.4 litem j cela signifie que le panliste juge que litem i est plus facile (des valeurs plus leves correspondent des items plus faciles). Ces probabilits estimes pourraient galement tre corrles avec des indices empiriques de difficult, comme les valeurs de p (on sattend l des corrlations positives) ou des paramtres de difficult de la TRI (on sattend l des corrlations ngatives). Ce type dindicateurs peut tre considr comme un coefficient de validit puisquil exprime la relation entre les jugements sur un ensemble ditems laide dun critre externe, les difficults tant empiriquement dtermines partir des rponses des candidats. Utiliser des rgles empiriques pour la corrlation est dlicat et on se doit dtre vigilant avec de telles rgles. Les valeurs des corrlations dpendront fortement de lcart-type de la difficult des items. Des faibles valeurs de variation conduiront de faibles corrlations (effet

107

dtendue). Mais comme pour la fidlit, comparer les corrlations sur les panlistes pourrait fournir des informations pertinentes concernant les valeurs atypiques. Calculer ces indicateurs la suite de lensemble de la procdure savrera utile pour le rapport et la publication des objectifs, mais cela peut galement tre trs utile au cours des sessions. Aprs chaque tour de jugement, ces corrlations, et les graphiques de dispersion qui y sont associs, peuvent tre aisment produits pour pointer les incomprhensions ou les dsaccords quon souhaite rsoudre. Des techniques similaires peuvent tre utilises avec dautres mthodes de dtermination des scores de csure. Nous discuterons maintenant de deux cas, la mthode du corpus de productions et la mthode du panier. Dans la mthode du corpus de productions, les candidats sont assigns un niveau du CECRL sur la base dun jugement holistique qui porte sur un dossier comprenant leur travail. On peut considrer ces niveaux du CECRL comme des modalits dune variable ordinale, A2 tant suprieur A1, B1 suprieur A2, etc. Pour tous les candidats considrs, le score au test est connu et la corrlation entre le test au score et le niveau assign peut tre calcule ; les donnes (le score et le niveau assign) peuvent aussi tre reprsentes graphiquement dans un diagramme de dispersion. Pour le calcul de la corrlation, il est conseill dutiliser un coefficient de corrlation sur les rangs, le taux de Kendall30, qui permet deffectuer une correction. Dans la mthode du panier, la mme approche peut tre utilise pour relier les niveaux assigns aux items et leur difficult empirique.

Nous terminerons cette discussion par deux mises en garde : Dans la mthode du corpus de productions dcrite au cours du chapitre prcdent, les dossiers des candidats sont prsents par ordre croissant de score. Soit linformation de rang est communique aux panlistes, soit elle ne lest pas, auquel cas ils trouveront rapidement quil y a un ordre. En prsentant les dossiers de faon ordonne, la consistance interne, dans une certaine mesure, est induite par la mthode elle-mme : un panliste ralisera trs vite que plus le rang dun dossier quil doit juger est lev plus le niveau qui devrait tre assign sera lev. Cela devrait induire une tendance (le panliste nosant pas affecter un niveau lev un dossier lui arrivant tt ou un niveau faible un dossier arrivant tardivement dans la squence valuer). Cette tendance pourrait moduler, en partie, ce que le panliste pense vritablement (et cela pourrait avoir des consquences surprenantes au niveau des rsultats de la procdure), et en mme temps conduire une augmentation des corrlations mentionnes prcdemment. Certaines mthodes fournissent tellement dinformation aux panlistes quil est virtuellement impossible de montrer un comportement inconsistant. Des exemples typiques sont trouvs travers la mthode du marque-page et sa variation propose par le Cito, o pour chaque point de csure un unique jugement holistique doit tre fourni. Dans la mthode du marque-page, il est mme impossible, de par la manire dont est dfinie la procdure, de gnrer un score de csure A2/B1 infrieur celui pour A1/A2. Pour autant, cela ne signifie pas que la consistance intra-juge nest pas importante dans ces procdures. Dans la variation de la mthode du marque-page propose par le Cito, la tche oprationnelle des panlistes est si simple (dessiner une ligne ou noter un nombre, voir section 6.9.) quun score de csure propos arbitrairement par un panliste dsintress pourrait passer inaperu. Aussi, il est conseill, dans cette procdure, de vrifier la consistance intra-juge par une tche supplmentaire qui pourrait se drouler comme il est indiqu ci-dessous. Une fois que le score de csure est dtermin, on peut driver pour chaque item la valeur norme correspondante pas de matrise , la limite de la matrise ou matrise totale . On aboutit ainsi une classification des
Voir, par exemple, Siegel & Castellan (1988).

30

108

items en trois classes. Dans une tche indpendante, les panlistes pourraient tre interrogs pour classer tous les items dans lune de ces trois catgories sans information psychomtrique disponible (voir figure 6.5.). Ces deux classifications, lune drive des scores de csure provisoires et lune collecte par lassignation en aveugle , peuvent tre reprsentes (par panliste) dans une table de frquence 3 x 3, et un indicateur daccord peut tre calcul. 7.4.2. Consistance inter-juges Pour valuer la consistance inter-juges, on peut essayer de dterminer dans quelle mesure les panlistes saccordent les uns avec les autres, ou dit autrement, dans quelle mesure ils donnent des jugements similaires. Cest ce dernier point qui est gnralement appel la consistance. Il est important de faire une distinction claire entre ces deux concepts. Nous proposons un petit exemple pour expliquer les diffrences. 7.4.2.1. Accord et consistance

Supposons que 30 items doivent tre assigns lun des niveaux du CECRL, comme dans la mthode du panier, et que les jugements de deux panlistes sont rsums dans un tableau de frquences deux dimensions (voir figure 7.3.). On peut y voir que le panliste 1 a assign 7 items au niveau A1 alors que le panliste 2 a tiquet ces 7 mmes items au niveau A2. Ainsi, pour ces 7 items, les deux panlistes sont en complet dsaccord quant au niveau des items. La mme chose se produit pour les autres items, comme on peut le voir aisment dans le tableau, parce que toutes les frquences sur la diagonale principale (cf. les nombres souligns) sont gales zro. Mais en dpit de ce dsaccord total, on ne peut pas dire quil ny a pas de similarits systmatiques entre les dcisions des deux panlistes : le panliste 2 place tous les items un niveau au-dessus du panliste 1, ce qui signifie que le panliste 2 est plus indulgent dans son valuation que le panliste 1. Tableau 7.3: exemple de consistance forte et de dsaccord complet Panliste 2 A1 A2 B1 B2 Total 0 7 0 0 7 A1 0 0 11 0 11 A2 Panliste 1 12 0 0 0 12 B1 0 0 0 0 0 B2 7 11 12 30 Total 0 Parce que les quatre niveaux du CECRL sont clairement ordonns, on peut calculer un coefficient de corrlation sur les rangs entre les valuations des deux panlistes. Le taux de Kendall dans ce cas est gal 1, relatant la consistance totale entre les deux panlistes. En gnral, nous pouvons dire que les mesures de consistance, usuellement exprimes par un coefficient de corrlation, ne sont pas sensibles aux dcalages systmatiques des valuations qui peuvent tre rapports au caractre indulgent ou svre des jugements. Ainsi, il est utile dtre vigilant la fois au degr daccord mais aussi la consistance lorsquon value le travail des panlistes31.

31

Une analyse multi facettes (TRI) des donnes relatives aux jugements laide du programme FACETS est une faon pour y parvenir.

109

7.4.2.2. Trois mesures daccord Pour illustrer ces mesures, nous utilisons un rsultat plus raliste que les donnes artificielles du tableau 7.3. Supposons que 50 items doivent tre assigns quatre niveaux et que pour deux panlistes on dispose des frquences reprsentes dans le tableau 7.4. Tableau 7.4: tableau de frquence pour quatre niveaux et deux panlistes Panliste 2 A1 A2 B1 7 2 1 A1 1 10 2 A2 Panliste 1 1 2 12 B1 0 1 0 B2 Total 9 15 15

B2 Total 1 11 1 14 2 17 7 8 11 50

Lindice daccord exact est la proportion des cas (ou ditems) o les deux panlistes donnent exactement le mme jugement. Les frquences daccord exact sont donnes par les cellules de la diagonale principale (en gris fonc) du tableau. Ainsi, dans cet exemple :

pexact =

7 + 10 + 12 + 7 36 = = 0.72 50 50

Cette valeur nest pas particulirement leve ici. Bien entendu, pour ce qui concerne les items pour lesquels les deux panlistes sont en dsaccord, le dsaccord pourrait varier en degr : un rsultat o un item est dplac de trois niveaux est plus inquitant quune situation o les niveaux donns aux items par les panlistes sont adjacents. Ces dernier cas sont reprsents dans le tableau 7.4., par les cellules en gris clair. Au total, il y a 2+2+2+1+2 = 9 items pour lequel cest le cas. Lindice daccord adjacent est la proportion des items conduisant un accord parfait ou une diffrence dun niveau. Dans lexemple en cours, on trouve :

padj =

36 + 9 45 = = 0.90 . 50 50

Mme si les deux panlistes donnaient leurs jugements au hasard, les indicateurs daccord ne seraient pas gaux zro. Ils prendraient une valeur positive dont lamplitude dpendra des frquences marginales (la ligne du bas et la colonne la plus droite du tableau 7.4.). Le nombre attendu dans chaque cellule, selon lhypothse de rponses alatoires mais avec des marges fixes, est donn par le produit des lignes multipli par les colonnes, le tout divis par le total. Pour la cellule (A1, A1) du tableau 7.4., on a 11 x 9 / 50 = 1.98. Pour les trois autres cellules de la diagonale principale les frquences attendues sont 4.20, 5.10 and 1.76, et la somme des frquences attendues pour lensemble des cellules de la diagonale principale est 13.04. Ainsi, si les panlistes rpondent alatoirement, on sattend un indice daccord exact gal :

E ( pexact ) =

13.04 = 0.26 . 50

Le coefficient kappa de Cohen est un indice daccord bien plus utilis qui prend en compte laccord obtenu par chance. Il est dfini (pour laccord parfait) par :

pexact E ( pexact ) . 1 E ( pexact )

Au numrateur de cette formule, la proportion empirique daccord trouve est compare ce qui devrait tre attendu sous des conditions de rponses alatoires. La fonction du dnominateur est de maintenir la valeur maximale du kappa 1. Notez que le kappa peut

110

tre ngatif dans le cas o laccord trouv est plus faible que ce qui pourrait tre attendu sous des conditions de rponses alatoires. 7.4.2.3. Evaluation des indices daccord

Comme cest le cas pour de nombreux indicateurs psychomtriques, il est difficile dvaluer les rsultats dune tude de faon absolue, cest avant tout peu ralisable et surtout potentiellement risqu. Considrons lindice daccord absolu. Si les items qui doivent tre valus constituent un sous-ensemble pratiquement homogne, pour des exemples relatifs aux niveaux A2+ et B1, un indice daccord moyen de 0.8 pourrait tre exceptionnellement lev. Dun autre ct, pour une situation trs htrogne du point de vue de la collection des items couvrant une large tendue de niveau, la mme valeur dindice pourrait tre insatisfaisante, indiquant mme une attitude peu srieuse dun ou plusieurs panlistes. Il faut accorder une attention particulire au dispositif de ltude permettant la dtermination des scores de csure et garder lesprit que la mthode utilise peut induire des valeurs leves ou faibles en ce qui concerne laccord entre panlistes. La mthode dite du corpus de productions offre un bel exemple. Dans cette mthode, les candidats sont assigns un niveau, mais le matriel slectionn doit tre trs htrogne et ltendue des scores couverts doit tre totale. Cest cette htrognit qui facilitera un haut niveau daccord. Si lon travaille avec un critre absolu (disons 0.8) pour lindice moyen daccord, atteindre cette valeur pourrait crer un sentiment de satisfaction. Nanmoins, il se pourrait que cet indice en apparence lev masque en fait lincomprhension des instructions, pour un ou deux panlistes, qui auraient influenc le score de csure dfinitif dans une direction non souhaite.

Une approche plus intressante consiste adopter un point de vue relatif. Les indices discuts ci-dessus sont dfinis pour des paires de panlistes. Avec 12 panlistes, cela signifie quil y a (12x11)/2=66 paires et un ou plusieurs indices qui peuvent tre calculs pour chaque paire. Bien entendu, ces indices montreront une certaine variabilit entre eux, et la question qui reste solder est de savoir si lon peut tudier cette variabilit pour amliorer les rsultats (dans un tour suivant au cours de discussions centres sur les zones problmes) ou identifier et retirer quelques panlistes dont la performance est mauvaise ou encore des items de manire amliorer la qualit globale de la dtermination des scores de csure. Bien quil y ait certaines mthodes pour gnraliser les indices comme le kappa de Cohen plus de deux panlistes, de tels rsums pourraient masquer des rponses isoles et sont rarement utiles pour se centrer sur les points faibles dune tude comprenant plusieurs valuateurs. Ici nous esquisserons une manire simple pour valuer les forces et les faiblesses de laccord inter-juges. Nous utiliserons le kappa de Cohen comme exemple, mais la mme procdure peut tre applique avec lindice daccord exact ou daccord adjacent. Il convient de disposer les indices dans une matrice. La valeur dans la cellule (i,j) est le coefficient kappa calcul pour les panlistes i et j. Le tableau est symtrique et les valeurs de la diagonale principale sont laisses indfinies. Elles nentrent dans aucun calcul par la suite. On peut maintenant extraire une information pertinente en calculant deux indices pour chaque colonne du tableau : La moyenne de chaque colonne offre un indicateur pour chaque juge exprimant le niveau daccord gnral avec lensemble des autres juges. Un graphique reprsentant ces valeurs moyennes des colonnes indiquera immdiatement les panlistes qui sont le plus en dsaccord avec les autres, puisquils auront les plus faibles valeurs

111

Lcart-type de chaque colonne. Lvaluation conjointe de la moyenne et de lcart-type offre une information supplmentaire. Si la moyenne est faible et que lcart-type est petit, cela signifie que le panliste est en dsaccord avec les autres et quil le fait de faon systmatique. Cela peut se produire dans une situation o le panliste a systmatiquement une ide dviante du CECRL ou de la signification des items. Au contraire, un cart-type lev rvle un comportement erratique. Un graphique de dispersion des moyennes et des carts-type pourrait aider diagnostiquer les problmes dun ou plusieurs panlistes.

La technique explique ci-dessus est utile dans les cas o seulement quelques panlistes montrent un comportement dviant par rapport la majorit des autres panlistes. Pour les situations o par exemple les panlistes sont en deux sous-groupes, que chaque panliste est en fort accord avec lensemble des panlistes du sous-groupe auquel il appartient et en fort dsaccord avec les membres de lautre sous-groupe, cette technique fait dfaut. Dans une telle situation, il est conseill de recourir des techniques qui peuvent rvler une structure complexe dans la matrice des accords. Une analyse par groupe et une approche multidimensionnelle pourraient tre appropries. 7.4.2.4. Reprer les items problmatiques

Dans les procdures de dtermination des scores de csure o les panlistes attribuent un niveau aux items ou des tches (comme dans la mthode du panier ou celle de lappariement au descripteur), il y a deux faons simples de reprer si un dfaut daccord peut tre attribu quelques items. La premire est de construire un tableau ou une reprsentation graphique par item (un histogramme) qui indique les frquences (absolues ou relatives) pour chaque niveau. Un exemple ditem problmatique est propos dans le tableau 7.532. Dans la figure 7.1. la courbe des caractristiques empiriques de litem est reprsente. Les candidats ont t classs par niveau (reprsent sur laxe horizontal) en utilisant les points de csure tels que dfinis par le panel dexperts. Pour chaque groupe, le pourcentage de rponses correctes cet item est reprsent. Tableau 7.5: frquence dattribution des niveaux du CECRL pour un item Niveau A1 A2 B1 B2 C1 C2 0 1 Frquence 0 17 11 5 Deux proprits importantes de litem peuvent tre dduites de la figure : (a) il sagit dun item particulirement difficile, que les candidats de niveau A ne peuvent rsoudre, et (b) la proportion de rponse correcte est infrieure 0.6., pour les candidats de niveau C. De plus, la courbe croit trs rapidement, ce qui indique un fort pouvoir discriminant de litem. En combinant ces informations aux jugements des panlistes, une question apparait : comment peut-on expliquer le fait quune majorit de panlistes attribue le niveau A2 cet item ? De plus, on peut voir quun seul panliste localise cet item au niveau C tandis quune analyse simple de la figure 7.1., semble dmontrer quil ou elle a en fait raison ! Ceci nous enseigne quappliquer une simple rgle de majorit et supprimer les dsaccords par un consensus nest pas toujours une bonne dcision. Il est clair que le tableau 7.5., et la figure 7.1., seraient des informations de valeur prendre en considration pour un futur tour de discussion.

32

Il sagit dun vritable exemple issu dun sminaire rcent sur la dtermination des scores de csure.

112

60 50

% correct

40 30 20 10 0 <=A2 B1 B2 C=>

Figure 7.1: courbe caractristique empirique de litem pour un item problmatique Une seconde mthode pour proposer une vue densemble des items problmatiques est dutiliser linformation des tableaux de frquences comme le montre le tableau 7.4. Dans ce tableau on trouve cinq items pour lesquels les niveaux assigns par les deux panlistes sont diffrents dau moins deux niveaux. Si lon identifie ces items, et quon le reproduit pour chaque paire de panlistes, on peut construire une table de frquence comme celle montre dans le tableau 7.6. Les lignes correspondent aux items et les valeurs des cellules correspondent au nombre de fois o litem a t assign des niveaux diffrents. La valeur 3 lintersection de la premire ligne (premier item) et de la premire colonne indique que 3 paires de panlistes ont positionn cet item deux niveaux dcart. Les items prsentant les frquences les plus leves dans la colonne la plus droite sont probablement les items les plus problmatiques et ceux qui mritent le plus dattention au cours des discussions. Le tableau ci-dessous indique clairement que litem 3 est celui qui mrite lattention la plus soutenue. Tableau 7.6: rsum des dsaccords par item Item ID Deux niveaux dcart Trois niveaux dcart 1 3 1 2 2 0 3 3 7 4 0 0 5 2 0

M
7.4.2.5. Indices de consistance

Trois mthodes diffrentes pour valuer la consistance ou le manque de consistance au niveau des correcteurs seront discutes : la corrlation intra-classe, une mthode qui est une application directe de la Thorie Classique des Tests, et, trs brivement, une mesure de consistance approprie aux jugements sur une chelle ordinale. La corrlation intra-classe : considrons la mthode rvise de Tucker-Angoff. Les rsultats principaux de cette procdure sont appels les taux dAngoff, en loccurrence les dclarations de probabilit dune rponse correcte pour une personne la limite des niveaux. Ces donnes peuvent tre disposes dans une matrice dont les lignes indiquent les items et les colonnes les panlistes. Dans la situation idale, o tous les juges seraient en accord parfait, toutes les colonnes de ce tableau seraient identiques. Cela signifie que toute variation entre les nombres de ce tableau peut tre attribue aux items. Si des variations sont dues aux juges, il sagit dune entorse la situation idale, qui prcisment est nomme inconsistance. Une faon dexprimer le manque de consistance est de considrer la proportion de variance due la

113

variance lie aux items. Cette proportion est appele la corrlation intra-classe et varie entre zro et un, un correspondant la situation idale. Voil comment calculer cette corrlation intra-classe : Calculer la variance de lensemble des nombres du tableau. Cette dernire est appele la variance totale. Calculer pour chaque ligne du tableau la valeur moyenne. Puis calculer la variance de ces valeurs moyennes. Cette variance est celle lie aux items. Le rapport entre ces deux variances correspond la corrlation intra-classe, symbolise par ic La diffrence 1 - ic est la proportion de variance qui nest pas due aux diffrences entre les items. Cette variance serait due aux diffrences systmatiques entre juges ou aux interactions entre items et juges et un bruit de fond. Pour distinguer les sources de variation on peut facilement calculer la variance sur les juges (en colonne), en calculant la moyenne pour chaque colonne, puis en calculant la variance sur ces valeurs moyennes. Tableau 7.7: rsultat dune procdure de Tucker-Angoff Items/juges Moyenne 1 2 3 38 32 24 31.3 1 27 31 38 32.0 2 42 33 50 41.7 3 51 49 47 49.0 4 52 60 62 58.0 5 63 58 71 64.0 6 71 68 75 71.3 7 82 77 92 83.7 8 53.3 51.0 57.4 Moyenne Dans le tableau 7.7., un exemple factice est donn pour huit items et trois juges. Les nombres dans ce tableau reprsentent le nombre sur 100 de personnes limite des niveaux, qui selon les juges rpondraient correctement chacun des items. La colonne la plus droite contient la moyenne des lignes et la ligne infrieure la moyenne des colonnes. Dans le tableau 7.8., la dcomposition de la variance totale en trois composantes est reprsente. La variance rsiduelle (interaction ou erreur) est obtenue en soustrayant les composantes items et juges la variance totale. Tableau 7.8: dcomposition de la variance Source 308.91 Items 6.97 Juges 17.89 Rsiduelle 333.78 Total De ce tableau, nous apprenons que : La corrlation intra-classe est de 308.91/333.78 = 0.926, ce qui signifie que seulement 7.5% de la variance totale est due aux manires diffrentes des juges de traiter les items. La variance imputable aux diffrences systmatiques entre juges est de 6.97, ce qui reprsente 2.1% de la variance totale. La proportion restante (5.4%) est vritablement ce que lont pourrait appeler linconsistance. Dans cet exemple factice, la corrlation intra-classe est trs leve, mais ce nest pas ncessairement attribuable la qualit des juges ou au processus de dtermination des scores de csure de faon absolue. Les items (les moyennes en ligne dans le tableau 7.7.) indiquent une forte source de variation, et ce quindique vritablement le tableau 7.8. est que linconsistance des juges est relativement faible compare celle au niveau des items.

114

La dcomposition de la variance totale peut tre aisment ralise (par exemple dans une feuille de calcul Excel). Elle est utile pour guider les discussions suivantes mais aussi pour le rapport sur la validit interne de la dtermination des scores de csure. Utilisation de la Thorie Classique des Tests : La Thorie Classique des Tests offre un indice de consistance avec lalpha de Cronbach. Pour mettre en uvre cette procdure, nous utilisons les taux dAngoff du tableau 7.7., o les items (en ligne) vont prendre le rle des candidats et les juges le rle des items. Ainsi, pour le tableau 7.7., cela signifierait que lon dispose de 8 tudiants et trois items. La valeur de lalpha dans cet exemple est gale 0.97. Notez que la valeur de lalpha ne varie pas si lunit de mesure est change. Concrtement, le rsultat restera le mme si les donnes du tableau 7.7., expriment des pourcentages ou des proportions33. Plus de dtails sur lalpha de Cronbach sont proposs dans la section C du Supplment au Manuel. Utiliser la Thorie Classique des Test offre galement un avantage supplmentaire. La corrlation item-total, dans ce contexte, fournit une indication de la faon dont chaque juge (qui a pris le rle des items) saccorde avec la moyenne. Ainsi, lon dispose dune belle faon de dtection des panlistes atypiques. Dans lexemple du tableau 7.7., les trois corrlations valent 0.98. Mesures ordinales : les mthodes discutes au cours des sections prcdentes sont applicables ds lors que les observations sont transposables dans un tableau deux entres, principalement du type items/juges pour les mthodes de dtermination des scores de csure centres sur le test ou candidats/juges pour les mthodes centres sur le candidat comme avec la mthode du corpus de productions. On peut toutefois rencontrer un problme quand on doit dcider de ce que lon doit reporter dans le tableau deux entres et sur la faon dont on doit interprter les valeurs du tableau. Prenons pour exemple la mthode de lappariement au descripteur. Lvaluation de base fournie par les panlistes consiste en un niveau du CECRL, pouvant staler de A1 C2. On peut complter ces niveaux dans le tableau (comme tiquettes), le cas chant on ne peut plus alors appliquer les mthodes dcrites prcdemment puisquelles requirent un tableau avec des valeurs numriques. Ce quil est possible de faire dans une telle situation est de remplacer les tiquettes A1 C2 respectivement par les chiffres de 1 6, puis ensuite procder comme il est dcrit ci-dessus. Dans la littrature, des alternatives sont suggres pour une telle procdure et certains auteurs pensent que ce nest pas possible puisque les chiffres utiliss pour complter le tableau (1 6) ne relvent pas dune chelle dintervalle. Il sagit dun argument fort, mais on ne doit pas alors recourir aux techniques de dcomposition de la variance ou celle de la Thorie Classique des Tests. Si toutefois, on les applique, cela pourrait fournir des informations utiles, mme si linterprtation reste acrobatique. On peut alors avoir recours des indices de consistance qui reposent totalement sur les caractristiques ordinales des donnes. Le coefficient de concordance W de Kendall constitue alors un bon indicateur34, 35.

Bien entendu, sous la condition de cohrence sur lensemble du tableau : utiliser des pourcentages pour une moiti des colonnes et des proportions pour lautre moiti conduirait des rsultats tranges et serait totalement inutile. 34 Pour une bonne introduction, voir Siegel and Castellan (1988). 35 Il existe galement des techniques valables pour pratiquer des analyses quantitatives sur des tableaux contenant des donnes nominales, o les modalits A1 C2 sont considres simplement comme des tiquettes. Ces techniques sont connues sous diffrents noms, comme lanalyse dhomognit ou lanalyse des correspondances multiples. Une rfrence pratique peut tre consulte dans OECD (2005), Chapitre 10.

33

115

Exactitude et consistance de la mthode de dtermination des scores de csure Quelle que soit la faon dont on procde au cours de la phase de familiarisation et pendant les tours de discussion, si lon insiste sur le fait que les panlistes peuvent librement donner leurs jugements, en toute indpendance et sans crainte dune quelconque sanction, il est invitable davoir des variations dans les jugements. Il ne sagit pas ncessairement dun mauvais point, parce que les panlistes sont convis avec leurs comptences individuelles mais sont pris de parvenir une dcision de groupe raisonnable. En outre, si le processus de slection des panlistes a t conduit avec une attention soutenue, de telle sorte que les panlistes sont reprsentatifs de leurs pairs, cela signifie quavec un autre chantillon de mme taille on devrait observer des rsultats similaires ceux observs avec lchantillon slectionn. 7.4.3.1. Erreur standard du score de csure

7.4.3.

Que seraient les scores de csure si lon impliquait la population totale des juges considrs comme des experts en la matire, en fait la population parente ? Si lon prenait le jugement moyen (du score de csure) des panlistes de lchantillon, on obtiendrait une estimation de cette population totale, et lerreur standard (SES) de cette estimation est donne par lcarttype (SDS) des scores de csure individuels divis par la racine carre du nombre de panlistes n :
SES = SDS n

Dans la littrature, cette erreur standard est gnralement compare lerreur standard de mesure du test et il est gnralement admis que cette erreur standard ne doit pas tre suprieure lerreur standard de mesure. Certains auteurs sont cependant plus stricts. Cohen et al (1999) exigent que lerreur standard soit au moins infrieure la moiti de lerreur de mesure, alors que Jaeger (1991) considre quelle doit tre dau moins un quart de la valeur de lerreur de mesure. Norcini et al (1981) suggrent que lerreur standard des points de csure ne devrait pas tre de plus de deux items sur cent. Ceci signifie que pour un test de 50 items, lerreur standard du score de csure devrait tre au plus dun. Le standard 2.14 de AERA/APA/NCME (1999) stipule : Que lon devrait reporter les erreurs de mesure autour du voisinage de chaque score de csure, et ce quils soient spcifis pour la slection ou la classification Les applications simples de la Thorie Classique des Tests reportent une valeur unique pour lerreur standard de mesure, ce qui implique que les scores (en tant quindicateurs du score vrai) sont identiquement prcis indpendamment de la valeur du score vrai. Nanmoins, par la mise en uvre de la TRI, nous savons parfaitement que lerreur standard de lestimation de lhabilet dpend de la valeur de la variable elle-mme (voir le concept dinformation du test dans lannexe G du Supplment au Manuel). Dans le cadre de la Thorie Classique des Tests, il y a eu des tentatives pour parvenir diffrentes valeurs de lerreur standard de mesure en fonction du niveau de score (Feldt et al 1985). Une formule adquate pour exprimer lerreur standard diffrents niveaux de score pour des tests constitus ditems binaires est propose par Keats (1957): X (k X ) 1 xx '
SEM ( X ) = k 1 1 KR21

Dans cette formule : X reprsente le score; k reprsente le nombre ditems ; xx ' est la fidlit du test; KR21 est lune des formules de Kuder-Richardson, qui exprime la fidlit dun test homogne, pour des items de difficult (pratiquement) identique. La formule du KR21 est :

116

KR21 =

k k pq 1 2 k 1 SDX

o p est la moyenne des valeurs p et q = 1 p . Notez que la SEM(X) donne un rsultat diffrent, dpendant ou conditionnel du score X. Ainsi, elle est souvent appele lerreur standard de mesure conditionnelle. Ses valeurs sont grandes pour des scores proximit du milieu de ltendue des scores et diminuent au fur et mesure que le score dcroit ou augmente. Ainsi, si lon choisit un critre pour juger lerreur standard du score de csure (par exemple exiger quelle soit infrieure la moiti de lerreur standard de mesure) cela conduira une exigence impliquant que plus lerreur de mesure est petite plus le score de csure sera loign du milieu de ltendue des scores. 7.4.3.2. Une situation paradoxale

Il est admis que dans les applications de la TRI, on obtient les estimations les plus prcises de lhabilet latente des candidats pour ceux ayant environ la moiti des items corrects, cest dire pour un score aux alentours de la moiti entre le score le plus faible possible et le score le plus lev possible, alors que les rsultats prsents sur lerreur standard de mesure conditionnelle indiquent le contraire. Pour comprendre cette apparente contradiction, on doit prendre en compte que ltendue des scores dun test est dlimite de bas en haut, par le score minimal qui est gnralement de zro. Avec 50 items, o chacun vaut un point, le score maximum est de 50. Dans la TRI, le concept de base nest pas le score au test mais une variable latente abstraite non borne, qui peut varier de moins linfini plus linfini. Une faon adquate dexprimer la relation entre la variable latente et le score est de reprsenter la fonction caractristique du test36. Dans la figure 7.2., une courbe caractristique dun test de 50 items est propose. Bien que la courbe prsente une allure gnrale en demi-cloche, elle nest pas trs rgulire ; les irrgularits sont dues aux combinaisons particulires des paramtres de discrimination et de difficult des items37.
50 expected test score 40 30 20 10 0 -3 -2 -1 0 1 latent variable 2 3

Figure 7.2: une courbe caractristique de test Sur laxe horizontal deux intervalles sont reprsents, chacun ayant une largeur de 0.2. Celui de gauche va de -1.6 -1.4 et en correspondance les scores attendus au test vont de 4.82 5.54 (une tendue de 0.72 points). Le deuxime intervalle, qui a la mme tendue sur laxe horizontal (de 0.3 0.5) conduit une correspondance du point de vue du score au test qui stage de 24.26 27 points (une tendue de 2.74 points, soit environ quatre fois ltendue du premier intervalle). Si une mthode pour dterminer les scores de csure a t utilise en localisant le point de csure sur lchelle latente, comme dans la mthode du marque-page ou dans la variation de cette mthode propose par le Cito, lerreur standard est exprime dans lunit de cette chelle. Mais pour la plupart des utilisateurs un point de csure exprim selon les scores (au
36 37

Des dtails supplmentaires au sujet de cette fonction peuvent tre consults dans la section 6.8.3. Il est conseill, lorsquon a recours la TRI, de construire la courbe caractristique du test : elle permet de rendre explicite la relation entre un concept abstrait (la variable latente) et des faits observables (les scores au test). Les paramtres de la courbe de la figure 7.2., ont t choisis pour mettre laccent sur cette irrgularit.

117

test) est ncessaire, par consquent une estimation de lerreur standard sur lchelle du score doit galement tre fournie. Cest pourquoi le recours la courbe caractristique du test peut savrer utile38. 7.4.3.3. Exactitude et consistance des dcisions

Dterminer les scores de csure implique une dcision reposant sur les performances individuelles. Si le score de csure pour A2/B1 est fix 23/24 cela implique la dcision que tout candidat obtenant un score infrieur 24 lexamen ne sera pas plac au niveau B1. De cette manire, on exprime lintention daffecter un certain niveau un candidat sil le mrite vraiment. Mais certaines dcisions pourraient tre errones et il serait alors utile de distinguer les sources derreur. Nous proposons dans ce qui suit un exemple concret pour comprendre. Supposons que le candidat Jean obtient un score de 22 au test. Avec un score de csure 23/24, Jean ne se verra pas attribuer le niveau B1. Mais si lon rpliquait la procdure de dtermination des scores de csure avec un chantillon diffrent de panlistes, nous pourrions parvenir un score de csure lgrement diffrent pour A2/B1 de telle sorte que Jean se verrait assigner le niveau B1 avec un score de 22. Il reste donc une incertitude sur nos dcisions de par la variabilit de la moyenne des scores de csure travers les rpliques de la procdure de dtermination des scores de csure. Cette incertitude est quantifie par lerreur standard des scores de csure, comme cela a t discut prcdemment. Mme si lon prenait une unique procdure de dtermination des scores de csure, lon pourrait se tromper lgard de Jean, notamment si Jean avait t dans un mauvais jour au moment du test (ce qui impliquerait une erreur de mesure ngative) alors quen moyenne il aurait un score suprieur au point de csure A2/B1. La variation entre les scores observs et les scores vrais est exprime par la fidlit du test (ou par le concept derreur standard de mesure). Par consquent, au cours de la validation dune procdure de dtermination des scores de csure, il est indispensable de relier les caractristiques de la dtermination des scores de csure celles du test lui-mme pour obtenir une ide prcise des sources derreur et dinconsistance. Le troisime type derreur, qui peut tre fait au cours de la dtermination des scores de csure, repose sur des erreurs systmatiques. Si des membres du panel sont trop indulgents, cela pourrait conduire des scores de csure excessivement bas et donc une catgorisation des candidats en B1 alors quils ne le mriteraient pas. Les erreurs systmatiques influencent directement la validit externe de la procdure. Ce point sera discut de manire plus dtaille dans la prochaine section.

Dans cette section, nous nous concentrerons essentiellement sur la deuxime source de variabilit : la variation au niveau des dcisions dues la relative fidlit du test. Nous pouvons avoir une bonne ide des effets du manque de variabilit en constituant un chantillon de candidats qui passe deux fois le mme test et en construisant un tableau de frquences pour voir les candidats qui sont classs de la mme faon. Les indices daccord (absolu ou le kappa de Cohen) donneraient une indication de la consistance des dcisions. Malheureusement, administrer deux reprises le mme test aux mmes candidats est rarement ralisable dans un contexte dexamen, cest pourquoi on a recours des modles psychomtriques pour driver les mesures de consistance partir de ladministration du test. Une approche intressante est propose par Livingston and Lewis (1995), nous la discutons brivement ici. En partant du travail de Lord (1965), ils considrent une distribution des scores vrais pouvant tre estime partir de la distribution des scores observs dun
Cependant, notez (voir Section 6.8.3.) que la conversion des scores au test sur la variable latente via la courbe caractristique du test implique lutilisation de lestimation de la probabilit maximale qui peut tre svrement biaise quand les points de csure sont extrmes.
38

118

chantillon reprsentatif de candidats, ou en utilisant un modle deux ou quatre paramtres39. Si la distribution est connue (ou prcisment estime), et si les scores de csure sont donns, alors : La proportion de la population qui sera assigne chaque catgorie dans le cadre de multiples points de csure peut tre dtermine. A partir des hypothses du modle et de la fidlit du test, on peut dterminer quelle proportion de la population sera catgorise dans chaque niveau sur la base du score au test. Dans la partie gauche du tableau 7.9., un exemple de tableau est propos pour trois catgories (niveaux). Les lignes indiquent la catgorie vraie. Avec la colonne Marg (pour marginale), on peut voir que 16.04% de la population appartient au niveau A2, 27.34% B1 et 56.62% B2. La fidlit du test a t estime 0.9. Si un test de mme fidlit (pas ncessairement celui qui fait lobjet de ltude, mais un test prsentant des caractristiques psychomtriques identiques) est administr une mme population, on sattend ce que 21.17% des candidats soient catgoriss en A2 sur la base de leur score (cf. ligne du bas), et que 14.95% soient vraiment catgoriss en A2. A partir de la diagonale du tableau, nous pouvons dterminer un indice daccord absolu qui vaut 0.1495 + 0.2002 + 0.4426 = 0.7922. Tableau 7.9: exactitude de la dcision A2 0.1495 0.0617 0.0005 0.2117 Un Test B1 B2 0.0109 0.0000 0.2002 0.0115 0.1232 0.4426 0.3343 0.4540 Marg 0.1604 0.2734 0.5662 1 Le test faisant lobjet de ltude A2 B1 B2 Marg 0.1511 0.0102 0.0000 0.1614 0.0624 0.1874 0.0119 0.2618 0.0005 0.1154 0.4611 0.5769 0.2140 0.3130 0.4730 1

T(A2) T(B1) T(B2) Marg

La partie gauche du tableau 7.9., a t estime partir de la distribution des scores observs de 1000 candidats, o 214, 313 et 473 ont t respectivement assigns aux niveaux A2, B1 et B2. On peut toutefois voir que la frquence attendue en A2 nest pas 214 mais de 211.7 (= 1000 x 0.2117). Pour adapter ce tableau de telle sorte que les proportions de chaque groupe correspondent exactement celles observes, on doit multiplier chaque proportion du tableau ( lexception des marges) par la proportion observe et diviser par la proportion attendue en colonne. Par exemple, pour la premire ligne et la premire colonne, nous trouvons 0.1495 x 0.2140/0.2117 = 0.1511. Les valeurs des neuf cellules sont reprsentes dans la partie droite du tableau 7.9. Les lignes marginales sont simplement la somme des valeurs de chaque colonne. Lindice daccord absolu pour ce tableau ajust est 0.7996. Outre le fait de disposer dune information valable quant la prcision des dcisions par un indice daccord, les deux tableaux indiquent galement une diffrence marque au niveau des faux positifs et des faux ngatifs : la proportion de faux positifs (ceux qui sont classs au-dessus de ce quils mritent) est environ de 2% tandis que le taux des faux ngatifs est denviron 18%. Pour valuer la consistance des dcisions, c'est--dire dans quelle mesure les dcisions diffrentes ou identiques seraient prises si deux administrations de test taient utilises, deux tableaux similaires ceux du tableau 7.9.peuvent tre conus. Ces tableaux sont reprsents dans le tableau 7.10. La seule diffrence entre ces deux tableaux (7.9. et 7.10.) tient en la signification des lignes. Alors que dans le tableau 7.9., les lignes indiquent la
Dans le modle deux paramtres, il est considr que le score vrai (la proportion ditems corrects) suit une distribution de type beta; dans le cas quatre paramtres, il est galement considr que le score vrai minimum et le score vrai maximum peuvent tre diffrents de zro et un respectivement et quils doivent galement tre estims depuis les donnes observes. Les dtails techniques du modle sont particulirement compliqus.
39

119

classification sur la base du score vrai, dans le tableau 7.10., les lignes indiquent la classification sur la base dune administration indpendante du test. Ainsi, la partie gauche du tableau indique de faon jointe les probabilits de classifications reposant sur deux administrations indpendantes (un test et un autre de mme fidlit) tandis que la partie droite donne accs aux probabilits pour ladministration et celle dun autre test de mme fidlit. Dans ce dernier cas, les erreurs de mesure se produisent au cours des deux administrations, ainsi lindice daccord sera plus faible dans le cas du test de prcision. Pour les deux cas du tableau 7.10., lindice daccord est denviron 0.77. Tableau 7.10: consistance de la dcision40 A2 0.1663 0.0448 0.0007 0.2117 Un test B1 B2 0.0448 0.0007 0.2212 0.0683 0.0683 0.3851 0.3343 0.4540 Marg 0.2117 0.3343 0.4540 1 A2 0.1681 0.0453 0.0007 0.2140 Ce test B1 B2 0.0419 0.0007 0.2071 0.0712 0.0640 0.4012 0.3130 0.4730 Marg 0.2107 0.3236 0.4658 1

A2 B1 B2 Marg

La diffrence la plus remarquable entre les tableaux 7.9. et 7.10. est que, dans le dernier cas, les deux tableaux sont essentiellement symtriques, la proportion dans la cellule (A2, B1) tant (approximativement) la mme que la proportion dans la cellule (B1, A2). Pour la partie gauche, la symtrie est complte, cela est ncessairement le cas puisque cest le rsultat de deux administrations totalement indpendantes de deux tests parallles. Cela signifie que dans ce cas la diffrence entre les faux ngatifs et les faux positifs na pas de signification ; ils peuvent seulement tre considrs dune manire significative partir des tableaux dexactitude. Pour voir linfluence de la variation des scores de csure, les tableaux dexactitude peuvent tre de nouveau calculs avec des scores de csure diffrents, et le rsultat peut tre alors compar, en particulier concernant leurs taux de faux positifs et faux ngatifs. Une mthode moins sophistique pour calculer la consistance de la dcision nous vient de Subkoviak (1988). Une consultation bien documente, avec les tableaux ncessaires pour mettre en uvre la mthode, peut tre effectue dans le chapitre 16 de Cizek and Bunch (2007). La mthode de Livingston et Lewis est plus polyvalente parce quelle est applicable la fois pour des situations avec de multiples scores de csure et des situations o les items crdit partiel et binaires sont utiliss, pondrs identiquement ou non. 7.5. Validation externe Le principal rsultat dune procdure de dtermination des scores de csure est une rgle de dcision pour assigner les candidats un petit nombre de niveau du CECRL sur la base de leurs performances un examen. Gnralement, la performance au test a dj t rsume par un nombre unique, le score au test. Dans ce manuel, laccent a t mis sur le fait que les procdures permettant de parvenir une telle rgle de dcision sont complexes et chronophages, quil y a de nombreux piges possibles, et que le rsultat nest jamais parfait ; notamment en raison de lerreur de mesure dans le test et de la variance rsiduelle dans le jugement des panlistes. Si toutes les procdures ont t suivies trs attentivement, si lexamen dispose dune validit de contenu
40

Les tableaux 7.9 et 7.10 ont t calculs partir du programme BB-CLASS dvelopp par R.L. Brennan, librement accessible par Center of Advanced Studies in Measurement and Assessment (CASMA) of the University of Iowa. Le programme peut tre tlcharg partir du lien suivant www.education.uiowa.edu/casma/ Lorsque le tlchargement est effectu, un manuel est inclus ainsi que les donnes et un fichier permettant daboutir aux tableaux 7.9. et 7.10. Bien quil y ait de nombreuses variations techniques dans lutilisation du programme, les valeurs par dfaut donneront gnralement de bons rsultats.

120

adquate et dun haut degr de fidlit, et si lerreur standard des scores de csure est faible, on pourrait penser que le travail est accompli et rsumer les rsultats par un tableau indiquant lexactitude des dcisions, comme dans la partie gauche du tableau 7.9., tout en tenant compte des limites. Selon ce raisonnement, le point faible est quun tel rsultat dpend totalement des procdures mises en uvre par la mme personne ou le mme groupe de personnes et des donnes collectes en une seule occasion sur un seul groupe de candidats, et sur une seule situation dexamen. Cela pourrait tre considr comme tant trop restreint pour garantir la vracit, c'est--dire la validit, dune affirmation telle que : si un tudiant obtient un score de 39 ou plus mon test, il peut juste titre tre considr du niveau B2 . En gnral, la faiblesse rside dans le contraste entre la particularit des procdures et la gnralit des affirmations. La validation externe vise fournir des preuves en provenance de sources indpendantes et qui corroborent les rsultats et les conclusions de ses propres procdures. Parmi lensemble des preuves fournies, toutes ne sont pas indpendantes de la mme faon vis--vis de linformation que lon doit utiliser dans la dtermination des scores de csure ; de mme parmi lensemble des preuves fournies toutes ne sont pas convaincantes avec le mme poids. Les preuves pourraient provenir de rsultats des mmes candidats sur un autre test ou une autre procdure dvaluation. Les preuves pourraient tre fournies par une autre procdure de dtermination des scores de csure en utilisant le mme panel ou un panel indpendant, conduit par les mmes organisateurs ou par une quipe indpendante.

Voici un rsum du type de preuves qui pourrait tre fournies pour justifier laffirmation relative aux rgles de dcision qui manent de ses propres procdures pour relier son examen au cadre. On pourrait tenter de tout faire mais ce serait irraliste parce que la collection de preuves serait particulirement couteuse ; en outre, toutes les tudes ne corroboreraient les rsultats pas de faon comparable. Dans cette section, quelques exemples de validation externe seront discutes et des arguments, ainsi que leurs limites et leur caractre persuasif (ou labsence de ce caractre), seront prsents. Cependant, en premier lieu, une remarque gnrale doit tre faite. Dans la thorie des tests, le problme de la validit externe est gnralement considr en montrant la correspondance entre les rsultats au test et des critres externes. Parfois, les mesures du critre externe sont, dune certaine manire, considres comme absolues. Mais en ralit, aucun critre nest parfaitement valide. Prenons le succs acadmique comme exemple. Obtenir un master luniversit peut tre considr sans erreur de mesure. Un master est alors certainement utile, mais non absolu, en termes de critres des habilets mentales. En effet, quelques tudiants pourraient chouer luniversit pour des raisons largement indpendantes de leur habilet mentale et quelques tudiants pourraient russir sans que ce soit mrit ; aucun systme dexamen nest infaillible. Ainsi, il est prfrable de considrer toutes les mesures de critres comme faillibles de la mme faon que les tests le sont, c'est--dire quune part de leur variance est indsirable et non pertinente pour montrer la validit de la procdure dun test, comme avec les rsultats de la dtermination des scores de csure.

121

7.5.1. Validation croise Comme cela a dj t abord au cours du chapitre 6, la principale faiblesse des deux mthodes (populaires) centres sur le candidat, la mthode des groupes contrasts et la mthode du groupe limite, est lie au fait que linformation sur les candidats impliqus provient, dune certaine manire, dune source non divulgue, le jugement de leur propre enseignant. Ce jugement peut (et devrait) tre considr comme un rsultat de test, mais, en gnral, il est particulirement difficile dobtenir de linformation sur les qualits psychomtriques de ces jugements. Il ny a pas dopportunit pour discuter ces rsultats, puisquils relvent dopinions prives, celles des enseignants. De plus, en dterminant les scores de csure avec ces mthodes, la construction des tables de dcision est conseille, elle maximise la correspondance entre le score au test et le jugement des enseignants. Ceci implique que les points de csure sont dpendants de lavis dun petit nombre denseignants, gnralement un chantillon de petite taille ou au mieux de taille modre. Statistiquement parlant, cet effet tire parti de la chance et il est important de montrer, par une technique de validation croise, comment cet effet est significatif. Il suffit simplement pour cela dutiliser les rsultats (les scores de csure) provenant de la procdure ayant permis de les dterminer et de les appliquer un chantillon indpendant. La comparaison des indices de qualit sur lchantillon originel et sur lchantillon de validation croise donne une indication du degr de gnralisation des rsultats. Lindice daccord absolu ou le kappa de Cohen peuvent tre utiliss ici en qualit dindice de la qualit, puisque tous les candidats sont assigns un niveau par le jugement de lenseignant et par la rgle de dcision issue de la procdure de dtermination des scores de csure. Il y a plusieurs faons de mettre en uvre une validation croise : Lchantillon originel peut tre scind en deux (de faon alatoire). Une moiti est utilise pour mettre en uvre la procdure de dtermination des scores de csure, lautre moiti est utilise pour la validation croise. On peut galement procder dune faon plus quilibre en utilisant chaque moiti de lchantillon pour la procdure de dtermination des scores de csure et lautre moiti pour la validation croise, tant donn que la dtermination des scores de csure consiste tablir des tableaux et partir de ces tableaux, de prendre des dcisions. Bien quune telle procdure soit certainement valable et conseille, elle devient significative lorsque lchantillon total est suffisamment large pour produire deux sous-chantillons de taille consquente. En outre, son pouvoir persuasif est limit. Le critre dinformation provenant des mmes sources (les enseignants), il ne sera pas possible de dtecter, dans la validation croise, si, par exemple, les enseignants ont tendance tre indulgents. Pour oprer un contrle, on peut subdiviser lchantillon des candidats de manire avoir tous les tudiants de la moiti des enseignants en tant quchantillon permettant la dtermination des scores de csure et lautre moiti pour la validation croise. Si les tailles dchantillon sont suffisantes, on peut mme avoir recours quatre chantillons. Premirement, on subdivise les enseignants en deux moitis, puis on divise lchantillon des candidats de chaque enseignant en deux moitis quivalentes. La procdure prcdente peut tre aisment apprhende comme un cas de vritable validation. Si la taille de lchantillon utilis pour dterminer les scores de csure nest pas suffisamment importante pour oprer une subdivision, on peut utiliser lchantillon total pour dterminer les scores de csure puis collecter les donnes sur un chantillon totalement indpendant, en provenance dautres coles. La validation exige une administration du test (ou de lexamen) sur cet chantillon de validation autant que la demande aux enseignants dvaluer les candidats sur les niveaux du CECRL. Mais en principe, cette procdure ne diffre pas de la prcdente, puisque lchantillon permettant la dtermination des scores de csure et lchantillon de validation peut tre facilement interchang.

122

Parmi les mthodes, discutes dans le chapitre 6, permettant la dtermination des scores de csure, la mthode des groupes contrasts et celle du groupe limite ont un statut spcial puisquun critre de mesure (le jugement des enseignants) est un composant de la mthode de dtermination des scores de csure elle-mme. On pourrait penser que cela est ncessairement vrai pour toutes les mthodes centres sur le candidat, mais ce nest pas le cas. Prenons par exemple le cas de la mthode des corpus de productions. Dans cette mthode linformation relative aux candidats, et disposition des panlistes, est leur performance, ainsi que quelques informations de rang (cf. le classement ordonn des dossiers, mme si cela nest pas strictement ncessaire). Aucune information, pas mme le niveau du CECRL auquel les tudiants sont, nest fournie aux panlistes. La mthode repose totalement sur la performance des candidats lexamen. Il en est quasiment de mme pour toutes les mthodes centres sur le test et discutes dans le chapitre 6 : les points de csure sont totalement dtermins par les jugements des panlistes sur le matriel du test. Mme en leur fournissant une information relative limpact (comme la distribution des candidats sur lensemble des niveaux), ils sont confronts aux consquences de leurs dcisions et a ne reflte pas une catgorisation selon les niveaux du CECRL provenant dune autre source. Cest pourquoi, le concept de validation croise ne prend pas sens pour ces mthodes. La validation externe de ces procdures de dtermination des scores de csure impliquera par consquent la comparaison des rsultats de la procdure de dtermination des scores de csure (la rgle de dcision) avec les rsultats dune autre rgle de dcision. Cette comparaison pourrait prendre essentiellement deux formes : lutilisation des distributions marginales ou des classifications croises. Elles vont tre maintenant discutes. 7.5.2. Comparaison des distributions marginales Supposons que des donnes dun chantillon reprsentatif aient t calibres par un modle de la TRI, et quune rgle de dcision pour assigner aux candidats un des quatre niveaux A1, A2, B1, B2 du CECRL, ait t, disons, drive de la mthode du marque-page. Ainsi, les candidats appartenant lchantillon de calibrage pourraient tre classs dans lun de ces quatre niveaux. Si lon dispose dinformation sur un autre chantillon, galement reprsentatif de la mme population parente, et class partir dune autre mthode, par exemple par le jugement de leurs enseignants, on peut alors construire un tableau 2x4 comme celui le tableau 7.11. Dans ce tableau, lchantillon 1 fait rfrence lchantillon de calibrage alors que lchantillon 2 fait rfrence un chantillon indpendant de validation. Tableau 7.11: distributions marginales sur les niveaux (occurrences) A1 A2 B1 B2 Total 471 Echantillon 1 98 124 165 84 254 Echantillon 2 39 74 78 63 137 198 243 147 725 Total Parce que les chantillons sont de taille diffrente, la comparaison par une simple inspection du tableau est dlicate. Convertir les observations en pourcentage (en ligne) rendra la comparaison plus facile. Les rsultats sont reprsents dans le tableau 7.12., et montrent que dans lchantillon indpendant il y a relativement plus de candidats qui sont placs aux niveaux A2 et B2 et moins aux niveaux A1 et B1 que dans lchantillon de calibrage. On peut tester statistiquement cette diffrence par un chi qui vaut ici 7.94, p = 0.047 (avec trois degrs de libert), ce qui signifie quil y a une diffrence significative dans lassignation des niveaux entre les deux mthodes41.

Le test du chi doit tre mis en uvre sur les occurrences (Tableau 7.9), et non sur les pourcentages du Tableau 7.10.

41

123

Tableau 7.12: distributions marginales sur les niveaux (pourcentages) A1 A2 B1 B2 Total Echantillon 1 20.8 26.3 35.0 17.8 100.0 Echantillon 2 15.4 29.1 30.7 24.8 100.0 Cet exemple, si simple quil puisse paraitre, illustre la dlicatesse du processus de validation. Sur un fondement statistique (le test du chi), il pourrait tre dduit que les diffrences systmatiques dans lattribution des niveaux du CECRL reposent sur les deux mthodes. Mais cela nexplique pas pour autant lorigine de ces diffrences. Prenons comme exemple le niveau B2, l o la diffrence est la plus large. Il se pourrait que la mthode du marquepage ait conduit un point de csure B1/B2 trop svre. Ce nest cependant pas du tableau que lon peut le dduire, puisquil se pourrait aussi que les enseignants aient t trop indulgents en attribuant le B2. Chercher ce qui sest rellement produit ici exigerait un nombre supplmentaire dtudes et de donnes. Interviewer les enseignants sur leur raisonnement et leur raison dattribuer le niveau B2 pourrait rvler quils nont pas bien intgr la description du CECRL pour le B2. Par ailleurs, ils peuvent avoir t ingaux dans leurs jugements, en attribuant une attention restreinte quelques tre capable de du B2 ; peut-tre ceux ayant fait lobjet de discussion au cours de la mthode du marque-page. Inversement, lexamen utilis pour dterminer les points de csure pourrait tre insuffisant et avoir nglig un nombre daspects que les enseignants prennent en compte pour effectuer un jugement holistique sur le niveau de leurs tudiants. Un tableau comme le tableau 7.12., peut tre utilis pour cerner le problme et pour, au mieux, suggrer une explication possible ; il faut toutefois faire preuve dune bonne dose de crativit pour dtecter les causes relles de ces diffrences. 7.5.3. Table de dcision Si les deux jeux des rgles de dcision peuvent tre appliqus au mme chantillon de candidat, plus dinformation peut alors tre obtenue. Les rsultats dune mthode de dtermination des scores de csure (les rgles de dcision) peuvent tre, en gnral, directement appliqus un chantillon de candidats, par exemple un chantillon de calibrage. Si lon disposait dun autre jeu de rgles de dcision, soit en provenance des jugements holistiques des enseignants soit dune autre mthode de dtermination des scores de csure, et que ces rgles soient applicables au mme chantillon de candidats, on pourrait alors concevoir une table de dcision prsentant conjointement les probabilits (ou les occurrences) pour chaque paire de niveau. Ces tableaux sont comparables la partie droite du tableau 7.10., une diffrence essentielle prs : les colonnes font rfrence lattribution des niveaux depuis la mthode qui fait lobjet de ltude (comme dans le cas du tableau 7.10.) mais les lignes reposent sur lassignation des niveaux depuis un ensemble indpendant de rgles de dcision, et non pas depuis des hypothses comme ctait le cas lors du jugement de la consistance de la dcision. Si lensemble indpendant de rgles de dcision conduit vraiment la mme chose que les rgles de dcision issues de la mthode de dtermination des scores de csure, c'est--dire si les deux ont la mme validit de construit et la mme fidlit, alors le tableau de dcision devrait tre essentiellement le mme que celui de la partie droite du tableau 7.10. Par consquent, construire et comparer les deux tables pourraient mettre jour des informations utiles : Les distributions marginales pourraient tre compares de la mme manire que celle discute prcdemment avec les chantillons indpendants. Les indices daccord (absolu, adjacent et le kappa de Cohen) pourraient tre calculs sur les deux tables puis tre compars. La comparaison des cellules en dehors des diagonales des deux tableaux est la plus pertinente pour la validation. Il a t fait mention prcdemment lgard de lvaluation de la consistance de la dcision de laspect symtrique de la table de dcision. Dans le cas de la validation partir dun autre jeu de rgles de dcision la symtrie ou le manque

124

de symtrie est un rsultat purement empirique et pourrait tre utile pour comprendre la validit de la mthode de dtermination des scores de csure. Le concept des faux positifs et des faux ngatifs prend ici toute sa place. On doit toutefois clairement dfinir ce qui est entendu par ces termes dans un contexte de validation. Il pourrait tre clairant de dfinir les faux ngatifs comme les cas o les dcisions selon les points de csure qui font lobjet de ltude conduisent un niveau plus faibles que les rgles selon les critres ; et les faux positifs comme les situations o lassignation dun niveau selon les conclusions de la procdure de dtermination des scores de csure est un niveau plus lev. Si dans ltude de validation, le taux de faux positifs est plus lev que celui de faux ngatifs, cela signifie que la mthode de dtermination des scores de csure qui fait lobjet de ltude est plus indulgente que les rgles selon les critres ; pour la situation inverse, il sagira de plus de svrit42. Exercice travaill. Un exercice travaill peut aider illustrer comment les tableaux de dcision pourraient tre utiliss pour relier les rsultats au test aux autres donnes dvaluation, par exemple le jugement holistique, selon les niveaux du CECRL, par les enseignants. Le principe en utilisant des tableaux deux entres nest pas complexe en luimme. Le principal problme avec le recours au jugement holistique des enseignants comme critre externe nest pas lanalyse. Les enseignants doivent absolument connatre vraiment (a) les niveaux du CECRL et (b) la comptence des individus concerns ; cela pourrait donc ne pas tre pratique avec des enseignants qui voient des classes de 30 lves seulement quelques reprises au cours de la semaine. North (2000b) rapporte lutilisation des jugements des enseignants comme critre externe pour rfrencer les banques ditems pour langlais, lallemand, le franais et lespagnol sur lchelle Eurocentres, qui distingue neuf niveaux. Des points de csure provisoires ont t proposs auparavant avec une variante simplifie de la mthode du marque-page. Au cours de ltude de validation externe, les valuations des enseignants taient utilises pour vrifier, travers la validation externe indpendante, les points de csure proposs pendant le dveloppement de la banque ditems pour lallemand. Les enseignants furent interrogs pour assigner chaque lve de leur classe un niveau pour le domaine test par la banque ditems : connaissance du systme langagier. La figure 7.3., montre la relation entre la performance standard (axe X) et les jugements des enseignants (critre) sur laxe Y. 9 8 7 6 5 4 3 2 1

Jugements des enseignants

4 5 1 1 2 5 6 2 3 4

1 2 8 1

8 2

3 8

4 1

4 5 6 Niveau de performance

Figure 7.3: table de dcision 9 niveaux La relation entre la classification par la performance et par les enseignants apparait rgulire et quilibre, avec une corrlation de .93. Nanmoins, seuls 28 des 68 sujets (soit 41%) ont effectivement t affects au mme niveau, et ce en dpit de la forte corrlation. Il y a huit
42

Des analyses plus sophistiques pourraient tre conduites ; par exemple, en choisissant parmi des mthodes polyvalentes comme les analyses de type log-linaire pour mieux situer les diffrences significatives. Pour plus dinformation, on peut consulter Fienberg (1977) pour une introduction facilement accessible ou Fienberg et al (1975) si lon souhaite une information plus labore.

125

apprenants placs au niveau 7 par les enseignants et au niveau 6 par le programme. Ceci est d un seul enseignant indulgent. Toutefois, mme si ces huit candidats ont t affects la bonne place dans le tableau, seulement 50% des candidats auraient reu exactement la mme affectation de lenseignant et du test. Lindice daccord adjacent est nanmoins de 67/68=0.985 : seul un candidat a t assign deux catgories au-dessus par les enseignants. Lchelle Eurocentres coupe les niveaux du CECRL en deux ( lexception du niveau A1). Si une table de dcision est cre en utilisant seulement les niveaux du CECRL, comme cest le cas dans le tableau 7.13., la proportion de classification correcte augmente considrablement, de 41 73.5%, puisque 50 des 68 apprenants reoivent maintenant le mme niveau du CECRL, que ce soit par les enseignants ou par lapplication des scores de csure.43. Lindice daccord adjacent est gal un.

Niveau de performance
A2 A1 (1) (2 & 3) B1 (4 & 5) B2 (6 & 7) C1 (8 & 9)

Total

Critre (Enseignants)

C1 (8 & 9) B2 (6 & 7) B1 (4 & 5) A2 (2 & 3) A1 (1)

16

18

13

20

14

19

4 4

1 20 20 21 3

6 68

Total

Figure 7.4: table de dcision pour cinq niveaux Si les valuations des enseignants sont utilises, il serait sage de considrer une telle procdure valuative comme une forme de test et de porter attention la validit interne comme pour un test. A cet gard, des remarques sont listes ci-aprs. Si le jugement est uniquement holistique, comment peut-on alors estimer sa fidlit ? Dun point de vue psychomtrique, cela revient utiliser un test un item ; il ny a donc pas despace pour le calcul des indices de la consistance interne. Dans un pareil cas, on
43

Exprimer les niveaux Eurocentres dans les termes du CECRL peut tre justifi par ce quun nombre considrable de descripteur du CECRL ont leurs origines dans lchelle Eurocentres. En effet, les descripteurs dEurocentres survivent mieux au processus de validation qualitative que ceux de la plupart des autres chelles, puisque les formulations dEurocentres tendent tre concrtes et positives. La corrlation sur les rangs pour 73 descripteurs de linteraction et de la production est de .88. La classification partage montre par une table de dcision est de 70% (See North 2000a: 337.)

126

devrait concevoir une procdure de re-test, et on doit considrer le problme sous langle de la faisabilit dun jugement rpt. Mme avec des jugements comprenant des listes de vrification des descripteurs, le correcteur a besoin de bien connatre la comptence du candidat. Les procdures de dtermination des scores de csure centres sur le candidat, discutes dans le chapitre 6, impliquent que le correcteur puisse seulement juger un nombre limit de candidats (ses tudiants). En outre, en sollicitant les enseignants pour corriger leurs propres apprenants, lon pourrait avoir faire face au fait quils pourraient exagrer les diffrences entre leurs apprenants les plus faibles et les plus forts.

On peut probablement viter de rencontrer les problmes qui viennent dtre mentionns avec plusieurs correcteurs qui donnent des jugements sur des chantillons de comportements plus faciles observer comme les productions crites. Lutilisation de juges, indpendants du processus de dtermination des scores de csure et correctement prpars, ainsi que doutils dvaluation appropris (voir section B du Supplment au Manuel) est une option qui a t utilis de faon russie en Finlande. La variance des correcteurs pourrait alors tre tudie avec une tude de type G (voir section E sur Supplment au Manuel) ou par une analyse Rash multiples facettes (Linacre 1989). On peut par exemple y avoir recours avec le programme FACETS (Linacre 2008). Ce modle, qui prend en compte une troisime facette (le correcteur), estime la svrit/indulgence des correcteurs et en tient compte pour lestimation des habilets des candidats. 7.5.4. Quelques scnarii Nous avons indiqu dans les paragraphes prcdents que toutes les procdures de validation visaient comparer diffrents jeux de rgles de dcision, soit en utilisant des chantillons indpendants de candidats soit sur le mme chantillon. Au cours de cette sous-section, quelques scnarii seront dcrits. Cette description pourrait aider laborer une dcision sur la base dune sage et solide comparaison. Une distinction importante entre les mthodes de dtermination des scores relve de la diffrence entre les mthodes centres sur le candidat et celles centres sur le test. Il semble naturel par consquent de diriger la validation de la mthode appartenant lune des classes vers une comparaison avec la mthode appartenant lautre classe. Il faut rester prudent en accomplissant une pareille comparaison. Prenons comme exemple de mthodes contrastes celle du marque-page (ou la variante du Cito) et celle du corpus de productions. Il y a plusieurs arguments plaidant contre un tel scnario. La mthode du marque-page est adapte pour les tests ou examens qui peuvent tre calibrs en ayant recours la TRI, par exemple des tests fortement itmiss. En revanche, la mthode du corpus de productions repose sur des jugements holistiques et est particulirement adapte pour des examens qui ne sont gnralement pas adapts pour les analyses de la TRI, comme les preuves de production orale ou de production crite. Les consquences seront quau moins une des mthodes souffrira dune approche inapproprie, ce qui aura tendance rendre les comparaisons caduques. Considrons un examen avec un degr de complexit tel quil permet davoir recours des mthodes aussi diffrentes pour la dtermination des scores de csure que celle du marque-page ou du corpus de productions. Dun point de vue pratique, les mettre en uvre pourrait tre irraliste puisque les deux mthodes exigent une prparation spcifique, et donc un temps lui tant consacr44. De lennui et/ou de la fatigue chez les panlistes pourraient tre prohibitif pour une telle approche complexe ; ce serait galement le cas avec un dfaut de ressources.

Gnralement, les panlistes invits pour participer la dtermination des scores de csure pour un examen de langue ne connaissent pas trs bien la TRI. Leur donner une introduction ces notions est difficile car trs chronophage. Mme si cela est faisable, cela ne doit pas tre sous-estim.

44

127

Dun autre ct, il est toujours possible (si les ressources sont suffisantes) dappliquer deux mthodes diffrentes en utilisant deux panels dexperts indpendants et de mettre en uvre les deux mthodes des priodes diffrentes. La mise en uvre de deux procdures coteuses pourrait ne pas tre adapte certains contextes de dtermination des scores de csure, mais en mme temps cela pourrait se rvler pertinent dans le cadre de projets aux enjeux internationaux. Un compromis intressant pourrait tre trouv en combinant une mthode centre sur le test avec la mthode des groupes contrasts ou la mthode du groupe limite, si les panlistes peuvent donner des jugements holistiques sur un nombre suffisamment important de candidats ayant particip au test qui fait lobjet de ltude. Nous attirons toutefois votre attention sur lexemple trait prcdemment. 7.5.4.1. Tirer parti du calibrage de la TRI

En utilisant un modle de la TRI pour relier les items ou les tches entre eux, on dispose de nombreuses opportunits pour mettre en regard diffrentes mthodes de dtermination des scores de csure. Le cas chant, on peut tirer un avantage du fait que la relation des items lhabilet sous-jacente (latente) est connue ( un degr suffisant de prcision) par une tude de calibrage. Ici, nous dcrirons un scenario qui utilise cette relation, de faon explicite, dans une tude de validation dune procdure particulire de dtermination des scores de csure. Pour illustrer ce point, nous prendrons la variante du Cito de la mthode du marque-page. La mthode implique que les deux procdures relatives aux scores de csure prsentent des ensembles diffrents ditems pour les panlistes. Les panlistes, dans les deux procdures, pourraient ou non tre les mmes personnes. Dans le cas de personnes diffrentes, on doit prendre garde, pour les deux sessions correspondantes aux deux mthodes, lquivalence des panels dexperts du point de vue de leur composition. Lensemble pour la premire procdure de dtermination des scores de csure pourrait tre constitu de tous les items (ou un sous-ensemble) utiliss dans lexamen A, alors que le second jeu ditems contiendrait des items (ou un sous-ensemble) de lexamen B. Comme cest le cas avec toutes les procdures relatives aux scores de csure qui reposent sur la TRI, les scores de csure sont dfinis dans le domaine de la variable latente. En utilisant les techniques discutes dans la section 6.8.3., ces repres sur la variable latente doivent tre traduits en scores de csure, pour lesquels les caractristiques ditems sont connues. En particulier, on pourrait transcrire ces scores de csure pour un test principalement constitu ditems utiliss au cours de la procdure de dtermination des scores de csure ou un test principalement constitu ditems non utiliss pour la procdure. La situation est rsume dans le tableau 7.13. Les cellules grises sont les conditions pour lesquelles les items utiliss sont en troite relation (soit identiques, soit un large sous-ensemble des items) avec les items de lexamen. Les cellules en clair sont les plus sensibles : les items utiliss pour fixer les scores de csure sont des items autres que ceux vritablement utiliss pour lexamen. Tableau 7.13: dispositif de procdure de dtermination des scores de csure pour une paire Dtermination des scores de csure partir des items appartenant Examen A Examen B Score de csure pour ex.A Score de csure pour ex. B

Parce que (virtuellement) personne ne prend part aux deux examens, les comparaisons empiriques sont seulement judicieuses lintrieur des lignes du tableau 7.13. ; ce qui signifie essentiellement que pour le mme examen deux jeux de scores de csure ont t fixs et que lon doit vrifier dans quelle mesure ils conduisent aux mmes conclusions ou des conclusions diffrentes en laborant un tableau de dcisions comme celles dcrites

128

prcdemment dans cette section et illustres par le tableau 7.12. Cette procdure valuative pourrait tre mise en uvre aux deux lignes du tableau 7.13. et offrirait alors lopportunit de vrifier si une explication des diffrences de rsultats (de par les deux procdures) est consistante avec les diffrences trouves avec les mmes mthodes une autre occasion (par exemple, la ligne complmentaire du tableau 7.13.). 7.5.4.2. Utilisation des Etre capable de

Pour exploiter le CECRL dans la validation externe, une mthode consiste valuer les candidats qui alimenteront les donnes pour le test tudi avec des listes de vrification du type Portfolio Europen des Langues constitu de 30 50 descripteurs pertinents. De cette manire, chaque descripteur peut tre inclus comme un item spar dans lanalyse selon la TRI et ainsi calibr sur la mme chelle dhabilet latente. Les jugements peuvent provenir des enseignants, ou des candidats eux-mmes travers lauto-valuation. En combinaison avec la variante du Cito de la mthode du marque-page, cette information peut tre utilise pour valider la dtermination des scores de csure comme dans lexemple de la figure 7.5. Cette figure est la mme que la figure 6.5. une exception prs, trois tre capable de (calibrs comme des items) ont t ajouts la reprsentation. Supposons que le point de csure pour A2/B1 ait t fix comme lindique la ligne verticale sur la reprsentation selon la mthode dcrite dans la section 6.9. Supposons galement que les trois lignes en pointill sur cette reprsentation formalisent les trois tre capable de pour le niveau B1. Pour les deux situs plus bas, on constate que la performance correspondante au point de csure matrise totale est quasiment atteinte, alors que pour celui du haut on est gure loign de la matrise limite. Cette information (collecte de prfrence avec plus de trois descripteurs de comptence), concatne au contenu de ces descripteurs de comptence, donne une image dtaille de ce que signifie le point de csure selon les termes des descripteurs du CECRL. Cette faon de valider la dtermination des scores de csure peut en ralit tre utilise dau moins deux manires. Une figure, comme la figure 7.5., peut tre construite la fin de la procdure de dtermination des scores de csure pour valuer la validit des rsultats. Le cas chant, la dtermination des scores de csure et la validation sont considres comme un processus linaire. Les jugements en relation avec les descripteurs de comptences sont utiliss comme un critre externe dune tude de validit externe. Mais si les rsultats de la validation sont dcevants (en indiquant par exemple que les panlistes ont t trop indulgents), la procdure de dtermination des scores de csure, dans son ensemble, peut tre perue comme tant un chec et une perte de temps. Une approche plus efficace consiste incorporer ce type dinformation la procdure de dtermination des scores de csure, par exemple entre deux tours de jugements, comme information pertinente relative aux consquences de la dtermination des scores de csure et comme arguments pour adapter/moduler les jugements prcdemment tablis. Il est vrai quavec cette dernire approche, la validation nest pas vritablement indpendante de la procdure de dtermination des scores de csure elle-mme, puisque linformation sur les tre capable de est utilise au cours de la procdure elle-mme. Toutefois, cela pourrait permettre un gain de temps notable. Une bonne documentation des rsultats de lensemble des tours de jugements peut tre un argument convaincant pour une validation totalement indpendante (validation externe au sens classique).

129

16 14 12

items

10 8 6 4 2 0 -3 -2 -1

latent scale

Figure 7.5: cartographie ditems avec des descripteurs de comptence Avec des donnes de type tre capable de , on peut sappuyer soit sur les valuations des enseignements soit sur lauto-valuation. Le choix entre ces deux derniers reste problmatique. La confiance dans les donnes issues de lauto-valuation devrait conduire, peut tre de faon errone, conclure sur un caractre trop strict des scores de csure. Par consquent, il est prfrable de collecter la fois les valuations des enseignants et les donnes de lauto-valuation, ce qui permet dajouter du poids largument de validit. 7.5.4.3. Dtermination des scores de csure sur plusieurs langues

Dans le chapitre 6 (section 6.8.3), une procdure gnrale a t dcrite pour relier diffrents examens ou tests au CECRL (exemple un test de franais et un test danglais). La procdure repose essentiellement sur le plurilinguisme des panlistes. En effet, lassignation dun niveau pour un candidat, de faon identiquement juste dans les deux langues, ne peut tre prise en compte. La fragilit de cette procdure tient au fait quon ne peut considrer pour acquis que tous les panlistes impliqus dans la procdure de dtermination des scores de csure sont suffisamment comptents dans les langues concernes. Pour jauger la signification des rsultats, on doit mettre en uvre une procdure de contrle. Prenons lexemple de langlais et du franais : Au cours de la dtermination des scores de csure impliquant deux langues, un quilibre doit tre trouv au niveau de lexprience des panlistes. Cela devrait signifier que la moiti dentre eux sont des locuteurs natifs de langlais et lautre moiti du franais, alors que lensemble doit avoir lautre langue comme principale spcialit. Une procdure de dtermination des scores de csure pour chaque langue est conseille, puisquun contexte plurilinguistique pourrait crer des rfrences spcifiques (de part le contexte inhabituel par exemple), ce qui rendrait les rsultats impropres la gnralisation.

Ces deux considrations impliquent dj un dispositif particulirement compliqu pour tester la validit de la dtermination des scores de csure adapte la validation croise sur les langues. Idalement, il faudrait : Une procdure de dtermination des scores de csure dans laquelle la moiti des panlistes ont langlais comme langue native et le franais comme langue de premire

130

spcialisation, et lautre moiti ont le franais comme langue native et langlais comme langue de premire spcialisation; une dtermination des scores de csure pour le franais dans laquelle la moiti des panlistes sont des locuteurs natifs de franais et lautre moiti sont des spcialistes du franais; une dtermination des scores de csure pour langlais dans laquelle la moiti des panlistes sont des locuteurs natifs de langlais et lautre moiti sont des spcialistes de langlais.

Idalement, les trois conditions mentionnes ci-dessus font rfrence des panlistes indpendants. Mettre en uvre un tel dispositif offre une possibilit pour comparer les points de csure travers les langues, et, via le partage de lexpertise dans la dtermination des scores de csure sur plusieurs langues, on pourrait faire des suggestions sur la manire dont on peut amliorer la procdure, ou bien suggrer son abandon. Lexprience du sminaire de calibrage sur les langues qui sest tenu Svres en Juin 2008 (Breton et al) a elle t trs bnfique. 7.6. Conclusion

La discussion relative la validation externe dans ce chapitre pourrait apparaitre dcevante lgard de nombreux points. En fait, elle ne propose pas de distinction claire entre ce qui relve du bon et du mauvais. Elle ne prescrit pas non plus de faon claire et univoque ce quil convient de faire pour une situation donne. Voici ci-aprs, en deux points, quelques raisons cela : Premirement, il ny a aucune autorit qui dtient la vrit et la divulgation reste problmatique. Les organismes de test aspirent dcouvrir cette vrit encore non connue en effectuant un choix mthodologique (et/ou des mthodes psychomtriques) appropri. Cest en faisant part de ces travaux la communaut que dans le futur nous pourrons nous approcher de la vrit de si prs que nous pourrons considrer que nous avons rsolu le problme. A loppos, nous croyons que ce qui constitue un B1 est essentiellement une convention pratique, mais la formulation est si claire et si consistante que deux professionnels du monde des langues sy rfrant signifieront essentiellement la mme chose, mme si leur culture, leur formation et leur exprience sont diffrentes et se rfrent des langues cibles diffrentes. Le CECRL constitue un systme de rfrence dont lobjectif est de rendre de telles affirmations possibles. Du point de vue des tudes de validation, cela signifie que toute tude de validation, peut, en principe, offrir une critique constructive pouvant conduire une rfrence plus affine, quilibre et labore ; ce qui est vrai de toute exprimentation dhypothses, de construits et de thories. Deuximement, mme dans le cas dun systme de rfrence largement accept, les lments dterminants des performances un test de langue ou un examen sont si varis (et pas toujours totalement compris) que toute tentative pour classer les tudes pour relier les performances au CECRL (soit en bonnes ou mauvaises) doivent tre considres comme simplistes et catgoriques. En fait, nous tentons de dvelopper un systme qui offre un clairage sur les points forts et les points faibles de toute tentative, il ne serait donc pas raliste de dresser un verdict catgorique et fini. Est-ce une bonne ou mauvaise nouvelle ? Nous pensons quil sagit simplement dun tat de lart. Des conclusions plus fines devraient tre dresses partir dune mta-analyse rigoureuse, qui pourrait rsumer les rsultats dun large nombre dtudes de validation, rigoureusement conduites sur les prochaines annes. Il appartient la gnration prsente de fournir les donnes ncessaires et la documentation pour cette mta-analyse. (Voir Plake 2008 pour une revue des enjeux et des recommandations).

131

Il faut ainsi esprer que les acteurs des procdures de dtermination des scores de csure feront leur maximum pour prendre connaissance de linformation fournie dans ce Manuel, dans le Supplment au Manuel et les autres sources dinformations pertinentes. Il faut galement esprer que ces procdures seront conduites et les rapports tablis de faon transparente. En les analysant et en les comparant, les savoir-faire pour dterminer les scores de csure progresseront. La crdibilit accorde aux dcisions sur les points de csure progressera galement, ainsi que la porte des consquences qui en dcouleront.

Les utilisateurs du manuel devraient considrer : la meilleure manire dobtenir les preuves de validit exiges ; quelles techniques ils seront capables de mettre en uvre et dans quelle mesure ils auront besoin dun support technique ; sils peuvent laborer un argumentaire sur la validit propos de la qualit du test et des procdures qui y sont associes (validit interne) de la qualit des procdures suivies pour relier lexamen au cadre, et en particulier pour la dtermination des scores de csure (validit procdurale), de lexistence de rsultats corrobors par des analyses indpendantes (validit externe) ; comment ils sassurent, le cas chant, que les points de csure sont comparables travers les langues ; sil y a, en particulier, suffisamment de preuves pour soutenir la validit des scores de csure ; comment ils mettront la disposition de leurs collgues les dtails de leurs conclusions.

132

Rfrences
AERA/APA/NCME (1999): American Educational Research Association, American Psychological Association, National Council on Measurement in Education: Standards for Educational and Psychological Testing. Washington, D.C.: American Educational Research Association. (ISBN 0935302-25-5) Alderson, J. C. (2005): Diagnosing Foreign Language Proficiency. London: Continuum. Alderson, J. C., Clapham, C. and Wall, D. (1995): Language Test Construction and Evaluation. Cambridge: Cambridge University Press. Alderson, J. C., Figueras, N., Kuijpers, H., Nold. G., Takala, S. and Tardieu, C. (2006): Analysing Tests of Reading and Listening in relation to the CEFR: the experience of the Dutch CEFR Construct Project. Language Assessment Quarterly 3 (1): 330. American Educational Research Association (1999): Standards for educational and psychological testing. Washington, DC: American Psychological Association. Angoff, W. H. (1971): Scales, Norms and Equivalent Scores. In: Thorndike, R. L. (ed.) Educational Measurement (2nd Edition), pp. 508600. Washington, D.C.: American Council on Education. Beacco, J-C. and Porquier, R. (2008): Niveau A2 pour le franais : Un rferentiel. Paris: Didier. Beacco, J-C., Porquier, R. and Bouquet, S. (2004): Niveau B2 pour le franais : Un rferentiel. Paris: Didier. (2 vols) Beacco, J-C., De Ferrari, M., Lhote, G. and Tagliante, C. (2006): Niveau A1.1 pour le franais / rfrentiel DILF livre. Paris: Didier. Beacco, J-C., Porquier, R. and Bouquet, S. (2007): Niveau A1 pour le franais : Un referential. Paris: Didier. Berk, R.A. (1986): A Consumers Guide to Setting Performance Standards on Criterion Referenced Tests. Review of Educational Research, 56, 137172. Bolton, S., Glaboniat, M., Lorenz, H., Mller, M., Perlmann-Balme, M. and Steiner, S. (2008): Mndlich: Mndliche Produktion und Interaktion Deutsch: Illustration der Niveaustufen des Gemeinsamen europischen Referenzrahmens. Berlin: Langenscheidt. Breton, Jones, Laplannes, Lepage and North, (forthcoming): Sminaire interlangues / Cross language benchmarking seminar, CIEP Svres, 2325 June 2008: Report. Strasbourg: Council of Europe. Cizek, G. J. (ed.) (2001): Setting Performance Standards: concepts, methods and perspectives. Mahwah, NJ: Lawrence Erlbaum. Cizek, G.J. and Bunch, M.B. (2007): Standard Setting: a guide to establishing and evaluating performance standards on tests. Thousand Oaks: Sage. Cohen, A., Kane, M. and Crooks, T. (1999): A Generalized Examinee-Centered Method for Setting Standards on Achievement Tests. Applied Measurement in Education, 12, 343366. Council of Europe (2001a): Common European Framework of Reference for Languages: learning, teaching, assessment. Cambridge: Cambridge University Press. Council of Europe (2001b): Cadre europen commun de rfrence pour les langues: Apprendre, enseigner, valuer. Paris: Didier. Council of Europe (2002): Seminar on Relating Language Examinations to the Common European Framework of Reference for Languages: Learning, Teaching, Assessment (CEF), Helsinki, 30 June 302 July 2002: Report. DG IV / EDU / LANG (2002) 15. Strasbourg: Council of Europe. Council of Europe (2003): Relating Language Examinations to the Common European Framework of Reference for Languages: Learning, teaching, assessment (CEFR DGIV/EDU/LANG (2003) 5. Strasbourg: Council of Europe. Davidson, F. and Lynch, B. (1993): Criterion-referenced language test development: a prolegomenon. In: Huhta, A., Sajavaara, K. & Takala, S. (eds.), Language Testing: New Openings. Jyvaskyla, Finland: University of Jyvaskyla, pp.7389. Davidson, F. and Lynch, B. (2002): Testcraft: A Teachers Guide to Writing and Using Language Test Specifications. Yale University Press. Downing, S. M. and Haladyna, T. M. (eds.) (2006): Handbook of Test Development. Earlbaum. Ebel, R. L. and Frisbee, O. A. (1986): Essentials of Educational Measurement (4th edition). Englewood Cliffs, N.J.: Prentice Hall. Feldt, L. S., Steffen, M. and Gupta, N. C. (1985): A Comparison of Five Methods for Estimating the Standard Error of Measurement at Specific Score Levels. Applied Psychological Measurement, 9, 351361.

133

Ferrara, S., Perie, M. and Johnson, E. (2002): Matching the Judgmental Task with Standard Setting Panelist Expertise: the item-descriptor (ID) matching procedure. Washington DC: American Institutes for Research. Fienberg, S. E. (1977): The Analysis of Cross-classified Categorical Data. Cambridge, Massachusetts: The MIT Press. Fienberg, S.E., Bishop, Y. M. M. and Holland, P. W. (1975): Discrete Multivariate Analysis. Cambridge (Massachusetts): The MIT Press. Glaboniat, M., Mller, M., Schmitz, H., Rusch, P., Wertenschlag, L., (2002/5): Profile Deutsch. Berlin: Langenscheidt, ISBN 3-468-49463-7. Instituto Cervantes (2007): Niveles de Referencia para el espaol, Plan Curricular del Instituto Cervantes. Madrid: Biblioteca Nueva. Jaeger, R. M. (1991): Selection of Judges for Standard-setting. Educational Measurement: Issues and Practice, 10, 36. Kaftandjieva, F. (2007): Quantifying the Quality of Linkage between Language Examinations and the CEF. In Carlsen, C. and Moe, E. (eds.) A Human Touch to Language Testing. Oslo: Novus Press, 3442. Keats, J. A. (1957): Estimation of Error Variances of Test Scores. Psychometrika 22, 2941. Kingston, N. M., Kahl, S. R., Sweeny, K. P. and Bay, L. (2001): Setting Performance Standards using the Body of Work Method. In Cizek G. J. (ed.), Setting Performance Standards: Concepts, methods and perspectives. Mahwah, NJ: Erlbaum, pp. 219248. Kolen, M. L. and Brennan, R-L. (2004): Test Equating, Scaling and Linking. New York: Springer. Lepage, S. and North, B. (2005): Guide for the organisation of a seminar to calibrate examples of spoken performance in line with the scales of the Common European Framework of Reference for Languages. Strasbourg: Council of Europe DGIV/EDU/LANG (2005) 4. Linacre, J. M. (1989): Multi-faceted Measurement. Chicago: MESA Press. Linacre, J. M. (2008): A Users Guide to FACETS. Rasch Model Computer Program. ISBN 0-94193803-4. www.winsteps.com. Livingston, S. A. and Lewis, C. (1995): Estimating the Consistency and Accuracy of Classification based on Test Scores. Journal of Educational Measurement, 32, 179197. Lord, F. (1965): A Strong True-score Theory, with Applications. Psychometrika, 30, 239270. Lynch, B. and Davidson, F. (1994): Criterion-referenced language test development: linking curricula, teachers and tests. TESOL Quarterly 28:4, pp. 727743. Lynch, B. and Davidson, F. (1998): Criterion Referencing. In: Clapham, C. & Dorson, D. (eds.) Language Testing and Assessment, Volume 7, Encyclopedia of Language and Education. Dordrecht: Kluwer Academic Publishers, pp. 263273. Milanovic, M. (2002): Language Examining and Test Development. Strasbourg: Language Policy Division, Council of Europe. Mitzel, H. C., Lewis, D. M., Patz, R. J. & Green, D. R. (2001): The Bookmark Procedure: psychological perspectives. In Cizek G. J. (ed.) Setting Performance Standards: concepts, methods and perspectives (pp. 249-281). Mahwah, NJ: Erlbaum. Norcini, J., Lipner, R., Langdon, L., and Strecker, C. (1987): A Comparison of Three Variations on a Standard-Setting Method. Journal of Educational Measurement, 24, 5664. North, B. (2000a): The Development of a Common Framework Scale of Language Proficiency. New York: Peter Lang. North, B. (2000b): Linking Language Assessments: an example in a low-stakes context. System 28, 555577. North, B. and Schneider, G. (1998): Scaling descriptors for language proficiency scales. Language Testing 15/2: 217262. OECD (2005): Pisa 2003 Technical Report. Paris: OECD. Parizzi, F. and Spinelli, B. (forthcoming): Profilo della Lingua Italiana, Firenze: La Nuova Italia. Plake, B. S. (2008): Standard Setters: Stand Up and Take a Stand! Educational Measurement: Issues and Practice 27/1: 39. Reckase, M. D. (2006a): A Conceptual Framework for a Psychometric Theory for Standard Setting with Examples of Its Use for Evaluating the Functioning of Two Standard Setting Methods. Educational Measurement: Issues and Practice, 2006, 25(2), 418. Reckase, M. D. (2006b): Rejoinder: Evaluating Standard Setting Methods Using Error Models Proposed by Schulz. Educational Measurement: Issues and Practice, 2006, 25 (3), 1417.

134

Schneider, G. and North, B. (2000): Fremdsprachen knnen was heisst das? Skalen zur Beschreibung, Beurteilung und Selbsteinschtzung der fremdsprachlichen Kommunikationsfhigkeit. Chur/Zrich: Ruegger Verlag. Siegel, S. and Castellan, N. J. (1988): Non-parametric statistics for the behavioral sciences. New York: McGraw-Hill. Subkoviak, M. J. (1988): A Practitioners Guide to Computation and Interpretation of Reliability for Mastery Tests. Journal of Educational Measurement, 13, 265276. Thorndike, R.L. (ed.) (1971): Educational Measurement (2nd Edition), pp. 508600. Washington, D.C.: American Council on Education. Van der Schoot, F. (2001): Standaarden voor Kerndoelen Basisonderwijs [Standards for Primary Objectives in Primary Education]. PhD thesis. Arnhem: Cito. van Ek, Jan A. (1976): The Threshold level in a European Unit/credit System for Modern Language Learning by Adults. Strasbourg: Council of Europe. van Ek, J. A. and Trim, J. L. M., (2001a): Waystage. Cambridge: CUP, ISBN 0-521-56707-6 van Ek, J. A. and Trim, J. L. M., (2001b): Threshold 1990. Cambridge: CUP, ISBN 0-521-56707-8 van Ek, J. A. and Trim, J. L. M., (2001c): Vantage. Cambridge: CUP, ISBN 0-521-56705-X Verhelst, N. D. and Verstralen, H. H. F. M. (2008): Some Considerations on the Partial Credit Model. Psicolgica, 29, 229254. Weir, C. (1993): Understanding and Developing Language Tests. Hemel Hempstead UK: Prentice Hall.

135

Annexes
Annexe A. Fiches et chelles pour la description et la spcification. Chapitre 1 et 4 Partie A1 : Caractristiques principales des niveaux du CECRL (chapitre 1) Partie A2 : Fiches pour la description des examens (chapitre 4) Partie A3 : Spcification : activits langagires communicatives (chapitre 4) Partie A4 : Spcification : comptence langagire communicative (chapitre 4) Partie A5 : Rsultat des analyses (chapitre 4) Annexe B. Grilles danalyse de contenu Chapitre 4 Partie B1 : Grille danalyse de contenu pour la rception orale et la rception crite Partie B2 : Grille danalyse de contenu pour la production orale et la production crite

Annexe C. Fiches et chelles pour la standardisation et le calibrage (chapitre 5)

136

P artie A 1 : C a rac t ris tique s p rincipa les des nive au x du C E C R L Ch apitre 1 Ta blea u A 1. Ca ra ct ris t iq ues princ ipa le s : Inter ac tion e t p rodu ctio n (C E C R p artie 3 .6 , s im plifie ) N ive a u
U ti li s a te ur e x p r im e n t C2 O n n e s a u ra it t ro p in s ist e r s u r le f a it q u a u N ive a u C 2 o n n a p a s la m bit io n d g a le r la c om p t e n ce d u lo c u t e u r n a t if o u p re sq u e . L a re ch e rc h e in itia le a u ta n t q u u n p ro je t u tilis a n t le s d e sc rip t e u rs d u C E CR p o u r v a lu e r la c o m p t e n c e e n la n g u e m a te rn e l le (No rt h 2 0 0 2 : C E CR L E t u d e s d e ca s ) o n t m o n t r le xi st e n ce d e lo cu t e u rs b ilin g u e s bie n a u -d e ss u s d u n ive a u le p lu s le v d fin i (C2 ). W ilk in s a id e n t ifi u n s e p t im e n ive a u d e Co m p t e nc e am b ilin g u e d a n s s a p ro p o s iti o n d e 1 9 7 8 p o u r u n e c h e lle e u ro p e n n e d u n it s d e c r d its . Le N iv e a u C2 a p o u r b u t d e c a ra c t ris e r l e d e g r d e p r c i s io n, d a d q ua ti o n e t d a is a n c e de l a la n gu e q u e lo n t ro u v e d a n s le d isc o u rs d e c e u x q u i o n t t d e s a p p re n a n t s d e h a u t n ive a u . L e s d e sc rip te u rs in ve n t o ri s ic i co m p re n n e n t : t ra n s me tt re le s s u b t ilit s d e s e n s a v e c p r c is io n e n u t ilisa n t, a ve c u n e ra is o n n a b le e x a ct itu d e , u n e g a mm e te n d u e d e m o d a lisa t e u rs ; a v o ir u n e b o n n e m a tris e d e s e x p re ss io n s id io m a tiq u e s e t f a m ili re s a cc om p a g n e d e la co n s cie n c e d e s c o n n o ta t io n s ; re v e n ir e n a rri re e t re fo rm u le r u n e d if f icu lt s a n s h e u rt s d e s o rte q u e lin te rlo c u t e u r s e n a p e r o ive p e in e . L e Ni v e a u C 1 s e m b le tre c a ra ct ris p a r le b o n a cc s u ne l a rg e g a m m e d e d is c o u rs qu i p e rm e t u ne c o m m un ic a ti on a is e e t s po n ta n e c o m m e o n le v e rra d a n s le s e x e m p les s u iva n t s : p e u t se x p rime r a v e c a isa n c e e t sp o n t a n it p re s q u e s a n s e f fo rt . A u n e b o n n e m a tris e d u n r p e rt o ire le x ic a l la rg e d o n t le s la c u n e s so n t f a c ile m e n t c o m b l e s p a r d e s p rip h ra s e s . Il y a p e u d e re ch e rc h e n o t a b le d e c e rta in e s e x p re s sio n o u d e st ra t g ie s d v it e m e n t ; s e u l u n s u je t co n c e p tu e lle m e n t d if fic ile p e u t e m p ch e r q u e le d is co u rs n e s e d ro u le n a tu re lle m e n t. L e s c a p a cit s d isc u rsiv e s q u i c a ra ct ris e n t le n iv e a u p r c d e n t se re t rou v e n t a u Niv e a u C 1 a v e c e n co re p lu s d a is a n ce , p a r e xe m p le : p eu t c h o is ir u n e e xp re s sio n a d q u a te d a n s u n r p e rto ire d is p o n ib le d e f o n c tio n s d u d is co u rs p o u r in tro d u ire se s c o mm e n ta ire s a f in d e m o b ilis e r la tt e n t io n d e la u d it o ire o u d e g a g n e r d u t e m p s e n g a rd a n t c e tt e a t te n t io n p e n d a n t q u il/ e lle r f l ch i t ; p ro d u it u n d isc o u rs cla ir, b ie n c o ns t ru it e t sa n s h s ita t io n q u i m o n tre lu t ilis a tio n b ie n m a t ris e d e s s tru c tu re s , d e s co n n e c te u rs e t d e s a rtic u la te u rs . B 2 + c o rre sp o n d u n e p e rfo rm a n ce B 2 c o n firm e . L a c ce n t y e s t m is su r la rg u m e n ta t io n , e t la c o n s cie n c e d e la la n g u e q u i a p p a ra t e n B 2 se p o u rs u it ici . N a n m o in s, o n p e u t a u s si in t e rp r te r la cc e n t m is su r la rg u m e n ta t io n e t le d isc o u rs s o cia l co m me u n e im p o rt a n ce n o u ve l le a c co rd e a u x ca p a cit s d isc u rsiv e s. Ce n o u ve a u d e g r d e c om p t e n ce d isc u rs ive a p p a ra t d a n s la g e s tio n d e la c o n v e rsa t io n (s tra t g ie s d e c o o p ra t io n ) : e st c a p a b le d e d o nn e r u n re t o u r d in fo rm a tio n s e t u n e s u ite a u x d c la ra t io n s e t a u x d d u ct io n s d e s a u tre s lo c ut e u rs e t, c e fa is a n t, d e f a cili te r l vo l u tio n d e la d is cu s s io n ; d e m e tt re e n re la t io n a d ro ite m e n t sa p ro p re co n t rib u t io n e t ce lle d e s a u t re s lo c ut e u rs. Il a p p a ra t g a le m e nt d a n s la re la tio n lo g iq u e / co h s io n : u tilis e u n e v a ri t d e m o t s d e lia is o n e ff ica c e me n t p o u r in d iq u e r l e lie n e n t re le s id e s ; s o u tie n t s ys t m a tiq u e m e n t u n e a rg u m e n t a tio n q u i m e t e n v a le u r le s p o in ts s ig n ific a tif s e t le s p o in ts s e co n d a ire s p e rt in e n ts . E n f in , ce s t c e n iv e a u q u e se c on c e n t re n t le s d e sc rip te u rs p o rta n t s u r la n g o cia t io n . L e Ni v e a u B2 ma rq u e u n e c o u p u re im p o rta n t e a v e c ce u x q u i le s p r c d e n t . P a r e x e m p le , c e d e g r s e c o n c e n tre su r l e ffi c a c i t d e l a r gu m e nta ti on : re n d co m p te d e se s o p in io ns e t le s d f e n d a u c o u rs d u n e d isc u ss io n e n a p p o rt a n t d e s e xp lic a tio n s a p p ro p ri e s ; d e s a rg u m e n t s e t d e s c o mm e n ta ire s ; d v e lo p p e u n p o in t d e vu e e n so u t e n a n t t o u r t o u r le s a v a n ta g e s e t les in c o n v n ie n t s d e s d if f re n t e s o p t io n s ; d v e lo p p e u n e a rg u m e n ta t io n e n d fe n d a n t o u e n c ritiq u a n t u n p o in t d e v u e d o n n ; p re n d u n e p a rt a ct iv e d a n s u n e d is cu s sio n in fo rm e lle d a n s u n c o n te x te fa m ilie r ; fa it d e s c o m m e n ta ire s , e x p rime c la ire me n t so n p o in t d e v u e , v a lu e les ch o ix p o ss ib le s, fa it d es h yp o t h s e s e t y r po n d . E n se c o n d lie u , ce n iv e a u , o n e s t ca p a b le d e b ie n s e d b ro u ille r d a n s le d is c o ur s s o c ia l , p a r e xe m p le : co m p re n d re d a n s le d ta il ce q u e lo n v o u s d it d a n s u n e la n g u e s ta n d a rd c o u ra n te m m e d a n s u n e n viro n n e m e n t b ru y a n t ; p re n d re lin iti a tiv e d e la p a ro le , p re n d re s o n t o u r d e p a ro le a u m o m e n t v o u lu e t clo re la c o n ve rs a tio n lo rsq u il fa u t, m m e si ce la n e st p a s to u jo u rs f a it a v e c l g a n ce ; in te rv e n ir a ve c u n n ive a u d a isa n c e e t d e s p o n ta n it q u i re n d p o ss ib le s le s ch a n g e s a ve c le s lo c u te u rs n a t ifs sa n s im p o s e r d e co n t ra in te lu n e o u la u tre d e s p a rtie s . E n f in , c e n ive a u s e c a ra c t ris e p a r u n e c o ns c i e nc e d e la la n g ue : co rrig e r le s fa u te s q u i o n t d b o u ch s u r d e s m a le n te n d u s ; p re n d re n o t e d e s f a ut e s p r f r e s e t c o n tr l e r c o n sc ie mm e n t le d is c o u rs p o u r le s t ra q u e r. E n r g le g n ra le , c o rrig e r les fa u te s e t le s e rre u rs a u s sit t q u o n e n p re n d co n s cie n c e . B 1 + c o rre sp o n d u n e p e rfo rm a n ce B 1 c o n firm e . O n y re t ro u ve le s d e u x m m e s t ra its ca ra c t ris tiq u e s a u xq u e ls sa jo u t e u n c e rta in n o m b re d e d e sc rip te u rs q u i s e co n c e n tre n t su r la q u a n t it d in f o rm a t io n ch a n g e , p a r e x e m p le : a p p o rt e lin fo rm a tio n c o n c r t e e xig e d a n s u n e n t re t ie n o u u n e c o n su lt a tio n (p a r e x e mp le , d c rit d e s sy mp t m e s u n m d e c in ) m a is a v e c u n e p r c isio n limit e ; e x p liq u e p o u rq u o i q u e lq u e c h o s e p o s e p ro b l m e ; d o n n e s o n o p in io n su r u n e n o u v e lle , u n a rtic le , u n e x p o s , u n e d isc u ss io n , u n e n tre t ie n , u n d o c u m e n ta ire e t r p o n d d e s q u e st io ns d e d ta il co m p l m e n t a ire s le s r su m e ; m n e b ie n u n e n t re t ie n p r p a r e n v rifia n t e t co n f irm a n t lin f o rma t io n m m e s il d o it p a rf o is f a ire r p t e r l in t e rlo c u te u r d a n s le c a s o sa r p o n s e e s t lo n g u e o u ra p id e m e n t n o n c e ; d c rit c o m me n t f a ire q u e lq u e ch o s e e t d o n n e d e s in s tru c tio n s d ta ill e s ; c h a n g e a ve c u n e ce rt a in e a ss u ra n c e u n e g ra n d e q u a n tit d in fo rm a tio n s fa c t u e lles s u r d e s q u e s tio n s h a b it u e lle s o u no n d a n s s o n d o m a in e .

C1

U ti li s a te ur i n d p e nd a nt

B2 +

B2

B1 +

B1

Le Niveau B1 correspond aux spcifications du Niveau seuil. Deux traits le caractrisent particulirement. Le premier est la capacit poursuivre une interaction et obtenir ce que lon veut, par exemple : en rgle gnrale, suit les points principaux dune discussion assez longue son sujet, condition que la diction soit claire et la langue standard ; reste comprhensible mme si la recherche des mots et des formes grammaticales ainsi que la remdiation sont videntes, notamment au cours de longs noncs. Le deuxime trait est la capacit de faire face habilement aux problmes de la vie quotidienne, par exemple : se dbrouiller dans une situation imprvue dans les transports en commun ; faire face lessentiel de ce qui peut arriver chez un voyagiste ou au cours du voyage ; intervenir sans prparation dans des conversations sur des sujets familiers.

Utilisateur lmentaire

A2 +

A2

A1

Ce niveau A2+ correspond une performance A2 confirme avec une participation dans une conversation plus active, encore que limite et ncessitant une aide, par exemple : comprend assez bien pour se dbrouiller dans des changes simples et courants sans effort excessif ; se fait comprendre pour changer des ides et des informations sur des sujets familiers dans des situations quotidiennes prvisibles condition que linterlocuteur aide, le cas chant ; se dbrouille dans les situations quotidiennes dont le contenu est prvisible bien quen devant adapter le message et chercher ses mots ; de manire plus significative, une meilleure capacit poursuivre un monologue, par exemple, exprime ses impressions en termes simples ; fait une longue description des donnes quotidiennes de son environnement comme les gens, les lieux, une exprience professionnelle ou acadmique ; dcrit des activits passes et des expriences personnelles ; dcrit des occupations quotidiennes et des habitudes ; dcrit des projets et leur organisation ; explique ce quil/elle aime ou naime pas. Cest au niveau A2 que lon trouvera la plupart des descripteurs qui indiquent les rapports sociaux tels que : utilise les formes quotidiennes de politesse et dadresse ; accueille quelquun, lui demande de ses nouvelles et ragit la rponse ; invite et rpond une invitation ; discute de ce quil veut faire, o, et fait les arrangements ncessaires ; fait une proposition et en accepte une. Cest ici que lon trouvera galement les descripteurs relatifs aux sorties et aux dplacements: mener bien un change simple dans un magasin, un bureau de poste ou une banque ; se renseigner sur un voyage ; utiliser les transports en commun : bus, trains et taxis, demander des informations de base, demander son chemin et lindiquer, acheter des billets ; fournir les produits et les services ncessaires au quotidien et les demander. Le Niveau A1 est le niveau le plus lmentaire dutilisation de la langue titre personnel celui o lapprenant est capable dinteractions simples ; peut rpondre des questions simples sur lui-mme, lendroit o il vit, les gens quil connat et les choses quil a et en poser ; peut intervenir avec des noncs simples dans les domaines qui le concernent ou qui lui sont familiers et y rpondre galement en ne se contentant pas de rpter des expressions toutes faites et pr-organises.

139

Tableau A2. Caractristiques principales : Rception Les thmes


C1 Les thmes abstraits et complexes de la vie sociale, professionnelle ou du monde de lducation, en rapport ou non avec son domaine ou sa spcialit

Laction
Suit, peut tre avec un peu de difficult

Ce qui est compris

Le support
Les films faisant un usage important de largot et dexpressions idiomatiques Les annonces publiques de mauvaise qualit dont le son est dform

Les limitations
Peut avoir besoin par moments de : confirmer des dtails ( laide dun dictionnaire ou du locuteur) sil ne sagit pas de son domaine Relire des parties difficiles

Comprend

Les points de dtail fins Les opinions implicites et explicites Une gamme tendue dexpressions idiomatiques et de tournures courantes Les changements de registres Les comportements et les relations implicites

Diffrents types de textes longs et complexes De longs discours confrences, discussions, dbats mme quand ils sont mal structurs Les interactions et les dbats complexes avec des intervenants extrieurs Une gamme tendue de textes enregistrs ou radiodiffuss, mme ce ne sont pas des textes standards Tout type de correspondance Une conversation anime entre locuteurs natifs

B2+

Une gamme tendue de thmes familiers ou non de la vie sociale, professionnelle ou du monde de lducation

Suit, peut tre avec un peu de difficult Comprend

La langue parle, les missions en direct Les textes spcialiss (hautement spcialiss dans le domaine)

Une langue standard, non idiomatique Des structures de discours appropries Un faible bruit de fond A parfois besoin de confirmer des dtails ( laide dun dictionnaire ou du locuteur) - sils ne sont pas de son domaine si les conditions nonces cidessus ne sont pas runies

B2

Les thmes assez familiers, concrets et abstraits en rapport avec son centre dintrt ou sa spcialit

Suit, peut tre avec un peu de difficult Parcourt rapidement

La plupart de ce qui est dit

Les discussions sur lui/elle par des locuteurs natifs

Ce qui est pertinent Si une tude plus approfondie vaut la peine Les dtails spcifiques Les ides principales La ou les significations essentielles Les raisonnements complexes Ltat desprit, le ton du locuteur/de lauteur de lcrit

Les textes longs et complexes Les actualits, des articles, des reportages

Une langue standard Des repres et des indications avec des marqueurs explicites Si des locuteurs natifs parlant ensemble modifient leur faon de parler Sil ou si elle peut relire des passages difficiles

Comprend avec une autonomie assez grande

Les longs discours : confrences, conversations, prsentations, comptes rendus, discussions Les textes complexes la fois dun point de vue du genre et dun point de vue linguistique Les discussions techniques ; des instructions longues et complexes ; des dtails sur les conditions et des avertissements La plupart des programmes tlviss sur des vnements actuels La plupart des documentaires tlviss, des interviews, des missions-dbats, des supports trs spcialiss Les annonces et les messages La plupart des documentaires radiophoniques, des matriels enregistrs La correspondance Un texte argumentatif

B1+

Les thmes dusage courant ou en rapport avec le domaine professionnel Les thmes en rapport avec son domaine dintrt personnel

Suit, mais pas toujours le dtail

Le raisonnement pour rsoudre un problme

Parcourt

Linformation recherche

Les textes plus longs Les textes diffrents, diffrentes parties dun texte

Une langue standard (accent familier) et simple Des repres avec des marqueurs explicites et des indications

Comprend

Les informations factuelles et claires Les messages dordre gnral Les conclusions principales Les dtails spcifiques

Les textes argumentatifs Les confrences et les conversations dans son domaine Une grande partie des programmes de tlvision, des interviews, des confrences courtes, des reportages dactualit La plupart des documentaires radiophoniques et des textes enregistrs

B1

Les thmes familiers traits habituellement dans le domaine de lducation, du travail ou des loisirs Les thmes en rapport avec son domaine dintrt personnel

Suit, mais pas toujours le dtail

Les points essentiels

Les discours longs sur lui/elle Beaucoup de films dans lesquels limage et laction aident comprendre Les programmes TV : interviews, courtes confrences, actualits, reportages Les articles de journaux, simples clairs Les textes factuels clairs Les rcits courts Les descriptions dvnements, de sentiments et de souhaits Les indications dtailles Les conversations courtes Les bulletins dinformation la radio ou des documents enregistrs plus simples Les crits quotidiens : lettres, brochures, de courts documents officiels Les renseignements techniques simples : par exemple des modes demploi

Une langue claire standard simple Un dbit assez lent

Comprend de manire satisfaisante

Les points importants Les informations pertinentes

A2+

Les thmes familiers et concrets

Identifie

Les points importants

Les missions tlvises dactualits sur des vnements, des accidents, etc., o limage accompagne le commentaire Les types simples de lettres et de tlcopie standard (demandes dinformation, commandes, confirmations) Les textes courts utilisant une langue plus simple, et dusage trs courant et quotidien et lie au domaine professionnel Les rglements, par exemple sur la scurit Lexpression doit se faire dans une langue simple

Comprend assez pour satisfaire ses besoins

A2

Les faits quotidiens prvisibles Les lieux de premire priorit : trs personnel, famille, achats, voisinage, travail

Identifie

Les informations spcifiques, prvisibles Les thmes de discussion Les changements de thmes Une ide du contenu

Les documents plus simples quotidiens : prospectus, menus, inventaires, horaires, brochures, lettres Les discussions sur lui/elle Les articles de journaux courts dcrivant des vnements Les missions dactualits tlvises factuelles

Une articulation claire et lente

Comprend

Le point important Linformation essentielle

Les textes courts et simples comprenant un lexique utilis trs frquemment dont une partie faisant partie du lexique international Les indications simples indiquant comment aller de A B Les messages, annonces et passages enregistrs simples et clairs Les instructions simples concernant un appareil dusage courant (ex : le tlphone) Les lettres personnelles simples et courtes Les panneaux et des affiches de la vie quotidienne : indications, instructions, risques Les informations simples Les textes dinformation plus simples Les textes trs simples et courts avec un support visuel, une seule phrase la fois : messages sur une carte postale itinraires descriptions Une articulation trs lente, ralise avec beaucoup dattention, avec de longues pauses permettant dassimiler le sens du message Les noms familiers, des mots et des phrases simples La possibilit de relire /de faire rpter

A1

Les situations les plus communes de la vie quotidienne

Identifie Comprend

Les mots, phrases, noms familiers Une ide du contenu (Ide gnrale) -

143

Partie A2 : Fiches pour la description des examens (chapitre 4)

Fiche A1 : Description gnrale de lexamen


DESCRIPTION GENERALE DE LEXAMEN
1. Informations gnrales Intitul de lexamen Langue value Organisme examinateur Versions de lexamen analyses (date) Type dexamen Objectifs Population cible Nombre de candidats par an 2. Quel est lobjectif gnral ? 3. Quels sont les objectifs plus particuliers ? Si possible, dcrivez les besoins des utilisateurs potentiels qui cet examen est destin. 4. Quels sont les principaux domaines traits ? public personnel professionnel ducationnel Intitul de lpreuve .. .. . . . . Dure

international

national

rgional

propre linstitution enseignement suprieur

1er cycle du sec. adultes

2me cycle du sec.

5. Quelles sont les activits communicatives testes ?

1 rception orale 2 rception crite 3 interaction orale 4 interaction crite 5 production orale 6 production crite 7 capacits intgres 9 mdiation orale 10 mdiation crite 11 Utilisation de la langue 12 autres (prciser) :.

. 6. Quel est le poids des diffrentes preuves par rapport au rsultat global ? 7. Faites une courte description de la structure de chaque preuve.

8. Quels sont les types de rponses attendues ?

Epreuve utilise in (Indiquez le numro) choix multiple vrai/faux appariement classement phrases lacunaires phrase complter texte lacunaire ferm / test de closure ferm texte lacunaire ouvert /test de closure ouvert

145

question ouverte rponse courte rponse dveloppe (texte, monologue) interaction avec lexaminateur interaction avec des pairs autre 9. Quels sont les renseignements fournis aux candidats et aux enseignants ? objectif gnral domaine(s) principaux preuves tches exemples dpreuves vido illustrant loral sur le site internet dans des librairies dans les centres dexamens la demande de linstitution autre note globale note par preuve note globale plus profil graphique profil par preuve exemples de feuilles de rponses critres de correction barme de notation chantillons de performances standards du niveau de russite fac-simil de diplme

10. O peut-on les trouver ?

11. Sous quelle forme les rsultats sont-ils dlivrs ?

Fiche A2 : Conception de lexamen


Elaboration de lexamen 1. Quel organisme a dcid de la ncessit de cet examen ? Brve description et/ou rfrences Linstitution Un institut culturel Le ministre de lEducation Le ministre de la Justice Autre (prciser) : dfinit les objectifs gnraux fixe le niveau de comptence en langue fixe le domaine et le contenu de lexamen fixe le format de lexamen et le type de tches autre (prciser) : une analyse de besoins une description interne des objectifs de lexamen une description interne du niveau de langue un rfrentiel ou un programme le profil des candidats origine linguistique (L1) acquis linguistiques antrieurs ge niveau dinstruction milieu socio-conomique facteurs socioculturels origine ethnique sexe

2. Si un organisme extrieur est impliqu, quelle est son influence sur la conception et llaboration ?

3. Sil ny avait pas dimplication dun organisme extrieur, quels sont les autres paramtres qui ont influenc la conception et llaboration de lexamen ?

4. Lors de llaboration des preuves a-t-on tenu compte des diffrents profils des candidats ?

5. Qui rdige les items ou labore les tches du test? 6. Les rdacteurs dpreuves bnficient-ils de conseils pour en garantir la qualit ? formation lignes directrices listes de contrle exemples de tches valides, fiables et appropries descriptions calibres sur les niveaux du cadre descriptions calibres sur dautres niveaux oui non oui non

7. Donne-t-on une formation aux rdacteurs ?


8. Les preuves font-elles lobjet dune discussion avant leur utilisation ?

146

9. Si oui, qui y participe ?

10. Les preuves sont-elles prtestes ? 11. Si oui, comment ? 12. Sinon, pourquoi ? 13. La fiabilit du test est-elle value ?

les collgues, individuellement un groupe interne de discussion une commission externe dexamen des personnes impliques, en interne des personnes impliques, en externe oui non

oui non recueil de donnes et mesures psychomtriques autre (prciser) : validit apparente validit de contenu validit convergente validit prdictive validit de construct

14. Si oui, comment ?

15. Les diffrents aspects de la validit sont-ils valus ?

16. Si oui, dcrivez de quelle faon

Fiche A3 : Correction
Correction : preuve de _________________

Remplir un exemplaire de cette fiche pour chaque preuve.


Brve description et/ou rfrence Tches concernant la rception : lecteur optique examinateur Tches concernant la production ou tches intgres : examinateur form enseignants par un organisme central
localement :

1. Comment les tches sont-elles corriges ?

2. O sont corriges les tches ?

par des quipes locales par des correcteurs individuels 3. Quels sont les critres de slection des correcteurs ? 4. Comment lexactitude de la notation est-elle recherche ? contrles rguliers du coordinateur formation des correcteurs/examinateurs sessions de formation la standardisation des valuations utilisation dexemples standards de tches : calibres par rapport au CECR calibres par rapport une autre description de niveaux non calibres par rapport au CECR ou toute autre description note globale pour chaque tche notes pour diffrents aspects de chaque tche chelle de notation pour la performance globale grille de notation pour diffrents aspects de la performance chelle de notation pour chaque tche grille de notation pour diffrents aspects de chaque preuve chelle de notation par niveau, sans lien avec le CECRL chelle de notation par niveau en liaison avec le CECR L correction simple deux correcteurs simultanment double correction des copies dcrits / des enregistrements

5. Dcrire les spcifications des critres de notation des preuves de production ou des preuves intgres.

6. Les preuves intgres ou de production font-elles ou non lobjet dune double correction ?

147

7. Sil y a double correction, que fait-on en cas de dsaccord entre les correcteurs ?

8. Laccord inter- correcteurs est-il mesur ? 9. Laccord intra-correcteur est-il mesur ?

des productions orales autre (prciser) : appel un troisime correcteur dont la note sera celle qui sera garde appel un troisime correcteur et choix des deux notes les plus proches moyenne des deux notes consensus entre deux correcteurs aprs discussion autre (prciser) : oui non oui non

Fiche A4 : Notation Remplir un exemplaire de cette fiche pour chaque Notation : Epreuve de ___________
1. Y a t-il une note dadmissibilit ou un niveau ? 2. Dcrivez la dmarche suivie pour dfinir les notes dadmissibilit, les niveaux et les points de csure
3. Si lon ne rend compte que de lchec ou de la russite, comment en dfinit-on les points de csure ?

preuve. Brve description et/ou rfrence admissibilit mentions

4. Sil y a des niveaux, comment dfinit-on leur seuil ? 5. Comment assure-t-on la cohrence de ces normes ?

Fiche A5 : Communication des rsultats


Rsultats 1. Sous quelle forme se prsentent les rsultats dlivrs aux candidats ? Brve description et/ou rfrence note globale ou chec/russite note ou chec/russite pour chaque preuve note globale plus profil graphique par preuve profil des performances pour chaque preuve note brute niveaux indtermins (par exemple C ) niveau sur une chelle donne profils diagnostiques lettre ou courriel rapport certificat/diplme

2. Sous quelle forme rend-on compte des rsultats ?

3. Sur quel type de document sont indiqus les rsultats ?

4. Donne-t-on des renseignements aux candidats pour les aider interprter les rsultats ? Donnez des dtails. 5. Les candidats ont-ils le droit de voir leurs copies corriges et notes ? 6. Les candidats ont-ils le droit de demander une nouvelle correction ?

Fiche 6 : Analyse et rvision de lexamen


Analyse de lexamen et rvision aprs passation 1. Recueille-t-on des retours dinformation sur lexamen ? 2. Si oui, par qui ? Brve description et/ou rfrence oui non experts internes (collgues) experts externes organismes locaux dvaluation personnel administrant lexamen

148

3. Tient-on compte du retour d'information pour les versions rvises de lexamen ? 4. Recueille-t-on des donnes pour procder des analyses sur les examens ?

5. Si oui, dites comment on recueille les donnes.

6. Pour quelles caractristiques fait-on une analyse des donnes recueillies ?

enseignants candidats oui non sur tous les examens sur un chantillon de candidats : combien :________ ; combien de fois :________ non pendant les pr-tests pendant la passation de lexamen aprs la passation la difficult la discrimination la fiabilit la validit

7. Dites quelles mthodes analytiques ont t mises en uvre (par exemple, en termes de procdures psychomtriques). 8. Analyse-t-on les performances de candidats appartenant des groupes diffrents ? Si oui, dites comment. 9. Dcrivez les moyens mis en uvre pour garantir la confidentialit des donnes. 10. Les concepts de mesure appropris sont-ils expliqus aux utilisateurs du test ? Si oui, dites comment.

Fiche A7 : Justification des dcisions


Justification des dcisions prises Justifiez les dcisions prises relatives lexamen ou aux tches en question.
Un cycle de rvision de lexamen est-il mis en place ? Par qui ? Quelles procdures pour revoir les dcisions ?

Brve description et/ou rfrence

Fiche A8 : Impression initiale du niveau global


Impression initiale du niveau global de lexamen par rapport au CECRL
A1 A2 B1 B2 C1 C2

Brve justification, rfrence de la documentation

149

Partie A3 : Spcification : activits langagires communicatives (chapitre 4) A3.1 Rception


Rception orale Fiche A9 : Rception orale
Rception orale
1. Dans quels contextes (domaines, situations) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 2. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECRL 4.2 peuvent servir de rfrence. 3. Quels types de tches, dactivits communicatives et quelles stratgies les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3,4.4.2.1,7.1,7.2 et 7.3 peuvent servir de rfrence. 4. Quels types et quelle longueur de textes attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 5. Aprs avoir pris connaissance de lchelle de Comprhension gnrale de loral reproduite ci-dessous, dites et justifiez quel(s) niveau(x) de lchelle lpreuve devrait se situer. Les sous chelles de rception orale du CECRL 4.4.2.1 numres la suite de lchelle peuvent servir de rfrence.

Brve description et/ou rfrence

Niveau : Justification (y compris rfrences documentaires)

COMPRHENSION GNRALE DE L'ORAL C2 C1 Peut comprendre toute forme de langue orale qu'elle soit en direct ou la radio et quel qu'en soit le dbit. Peut suivre une intervention d'une certaine longueur sur des sujets abstraits ou complexes mme hors de son domaine mais peut avoir besoin de faire confirmer quelques dtails, notamment si l'accent n'est pas familier. Peut reconnatre une gamme tendue d'expressions idiomatiques et de tournures courantes en relevant les changements de registre. Peut suivre une intervention d'une certaine longueur mme si elle n'est pas clairement structure et mme si les relations entre les ides sont seulement implicites et non explicitement indiques. Peut comprendre une langue orale standard en direct ou la radio sur des sujets familiers et non familiers se rencontrant normalement dans la vie personnelle, sociale, universitaire ou professionnelle. Seul un trs fort bruit de fond, une structure inadapte du discours ou l'utilisation d'expressions idiomatiques peuvent influencer la capacit comprendre. Peut comprendre les ides principales d'interventions complexes du point de vue du fond et de la forme, sur un sujet concret ou abstrait et dans une langue standard, y compris des discussions techniques dans son domaine de spcialisation. Peut suivre une intervention d'une certaine longueur et une argumentation complexe condition que le sujet soit assez familier et que le plan gnral de l'expos soit indiqu par des marqueurs explicites. B1 Peut comprendre une information factuelle directe sur des sujets de la vie quotidienne ou relatifs au travail en reconnaissant les messages gnraux et les points de dtail, condition que l'articulation soit claire et l'accent courant. Peut comprendre les points principaux d'une intervention sur des sujets familiers rencontrs rgulirement au travail, l'cole, pendant les loisirs, y compris des rcits courts.

B2

150

A2

Peut comprendre assez pour pouvoir rpondre des besoins concrets condition que la diction soit claire et le dbit lent. Peut comprendre des expressions et des mots porteurs de sens relatifs des domaines de priorit immdiate (par exemple, information personnelle et familiale de base, achats, gographie local, emploi).

A1

Peut comprendre une intervention si elle est lente et soigneusement articule et comprend de longues pauses qui permettent d'en assimiler le sens.

Sous chelles correspondant la rception orale Comprendre une interaction entre locuteurs natifs Comprendre en tant quauditeur Comprendre des annonces et des instructions orales Comprendre des missions de radio et des enregistrements Comprendre des missions de tlvision et des films Reconnatre des indices et faire des dductions Prendre des notes

Franais Page 55 Page 56 Page 56 Page 56 Page 59 Page 60 Page 77

Fiche A10 : Rception crite


Rception crite
1. Dans quels contextes (domaines, situations) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 2. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECRL 4.2 peuvent servir de rfrence. 3. Quels types de tches, dactivits communicatives et quelles stratgies les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3, 4.4.2.2, 7.1,7.2 et 7.3 peuvent servir de rfrence. 4. Quels types de textes et quelle longueur de texte attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 5. Aprs avoir pris connaissance de lchelle de Comprhension gnrale de lcrit reproduite ci-dessous, dites et justifiez quel(s) niveau(x) de lchelle lpreuve devrait se situer. Les sous chelles de comprhension de lcrit du CECRL 4.4.2.2 numres la suite de lchelle peuvent servir de rfrence. Brve description et/ou rfrence

Niveau : Justification (y compris rfrences documentaires)

151

COMPRHENSION GNRALE DE L'CRIT C2 Peut comprendre et interprter de faon critique presque toute forme d'crit, y compris des textes (littraires ou non) abstraits et structurellement complexes ou trs riches en expressions familires. Peut comprendre une gamme tendue de textes longs et complexes en apprciant de subtiles distinctions de style et le sens implicite autant qu'explicite. C1 Peut comprendre dans le dtail des textes longs et complexes, qu'ils se rapportent ou non son domaine, condition de pouvoir relire les parties difficiles. Peut lire avec un grand degr d'autonomie en adaptant le mode et la rapidit de lecture diffrents textes et objectifs et en utilisant les rfrences convenables de manire slective. Possde un vocabulaire de lecture large et actif mais pourra avoir des difficults avec des expressions peu frquentes. Peut lire des textes factuels directs sur des sujets relatifs son domaine et ses intrts avec un niveau satisfaisant de comprhension. Peut comprendre de courts textes simples sur des sujets concrets courants avec une frquence leve de langue quotidienne ou relative au travail. Peut comprendre des textes courts et simples contenant un vocabulaire extrmement frquent, y compris un vocabulaire internationalement partag. A1 Peut comprendre des textes trs courts et trs simples, phrase par phrase, en relevant des noms, des mots familiers et des expressions trs lmentaires et en relisant si ncessaire.

B2

B1

A2

Sous chelles correspondant la rception crite Comprendre la correspondance Lire pour sorienter Lire pour sinformer et discuter Lire des instructions Reconnatre des indices et faire des dductions Prendre des notes A3.2 Interaction

Franais Page 58 Page 58 Page 58 Page 59 Page 60 Page 77

Fiche A11 : Interaction orale


Interaction orale Brve description et/ou rfrence 1. Dans quels contextes (domaines, situations) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 2. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECRL 4.2 peuvent servir de rfrence. 3. Quels types de tches, dactivits communicatives et quelles stratgies dinteraction les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3,4.4.2.,7.1,7.2 et 7.3 peuvent servir de rfrence. 4. Quels textes et types de textes attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 5. Aprs avoir pris connaissance de lchelle de lInteraction Niveau : orale gnrale reproduite ci-dessous, dites et justifiez quel(s) niveau(x) de lchelle lpreuve devrait se situer. Justification (y compris rfrences documentaires) Les sous chelles dinteraction orale du CECRL 4.4.3.1 numres la suite de lchelle peuvent servir de rfrence.

152

INTERACTION ORALE GNRALE C2 Possde une bonne matrise d'expressions idiomatiques et de tournures courantes, avec une conscience du sens connotatif. Peut exprimer avec prcision des nuances fines de signification, en utilisant assez correctement une gamme tendue de modalits. Peut revenir sur une difficult et la restructurer de manire si habile que l'interlocuteur s'en rende peine compte. Peut s'exprimer avec aisance et spontanit, presque sans effort. Possde une bonne matrise d'un vaste rpertoire lexical lui permettant de surmonter facilement des lacunes par des priphrases avec apparemment peu de recherche d'expressions ou de stratgies d'vitement. Seul un sujet conceptuellement difficile est susceptible de gner le flot naturel et fluide du discours. Peut utiliser la langue avec aisance, correction et efficacit dans une gamme tendue de sujets d'ordre gnral, ducationnel, professionnel et concernant les loisirs, en indiquant clairement les relations entre les ides. Peut communiquer spontanment avec un bon contrle grammatical sans donner l'impression d'avoir restreindre ce qu'il/elle souhaite dire et avec le degr de formalisme adapt la circonstance. Peut communiquer avec un niveau d'aisance et de spontanit tel qu'une interaction soutenue avec des locuteurs natifs sera tout fait possible sans entraner de tension d'une part ni de l'autre. Peut mettre en valeur la signification personnelle de faits et d'expriences, exposer ses opinions et les dfendre avec pertinence en fournissant explications et arguments. B1 Peut communiquer avec une certaine assurance sur des sujets familiers habituels ou non en relation avec ses intrts et son domaine professionnel. Peut changer, vrifier et confirmer des informations, faire face des situations moins courantes et expliquer pourquoi il y a une difficult. Peut exprimer sa pense sur un sujet abstrait ou culturel comme un film, des livres, de la musique, etc. Peut exploiter avec souplesse une gamme tendue de langue simple pour faire face la plupart des situations susceptibles de se produire au cours d'un voyage. Peut aborder sans prparation une conversation sur un sujet familier, exprimer des opinions personnelles et changer de l'information sur des sujets familiers, d'intrt personnel ou pertinents pour la vie quotidienne (par exemple, la famille, les loisirs, le travail, les voyages et les faits divers). A2 Peut interagir avec une aisance raisonnable dans des situations bien structures et de courtes conversations condition que l'interlocuteur apporte de l'aide le cas chant. Peut faire face des changes courants simples sans effort excessif ; peut poser des questions, rpondre des questions et changer des ides et des renseignements sur des sujets familiers dans des situations familires prvisibles de la vie quotidienne. Peut communiquer dans le cadre d'une tche simple et courante ne demandant qu'un change d'information simple et direct sur des sujets familiers relatifs au travail et aux loisirs. Peut grer des changes de type social trs courts mais est rarement capable de comprendre suffisamment pour alimenter volontairement la conversation. A1 Peut interagir de faon simple, mais la communication dpend totalement de la rptition avec un dbit plus lent, de la reformulation et des corrections. Peut rpondre des questions simples et en poser, ragir des affirmations simples et en mettre dans le domaine des besoins immdiats ou sur des sujets trs familiers.

C1

B2

Sous chelles correspondant linteraction orale Comprendre un locuteur natif Conversation Discussion informelle Discussions et runions formelles Coopration vise fonctionnelle Obtenir des biens et des services Echange dinformations Interviewer et tre interview

franais Page 62 Page 62 Page 63 Page 64 Page 65 Page 66 Page 67 Page 68

153

Fiche A12 : Interaction crite


Interaction crite 1. Dans quels contextes (domaines, situations) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 2. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECRL 4.2 peuvent servir de rfrence. 3. Quels types de tches, dactivits communicatives et quelles stratgies les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3, 4.4.2.1,7.1,7.2 et 7.3 peuvent servir de rfrence. 4. Quels textes et types de textes attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 5. Aprs avoir pris connaissance de lchelle de lInteraction crite gnrale reproduite ci-dessous, dites et justifiez quel(s) niveau(x) de lchelle lpreuve devrait se situer. Les sous chelles dinteraction crite du CECRL 4.4.3.4 numres la suite de lchelle peuvent servir de rfrence. Brve description et/ou rfrence

Niveau : Justification (y compris rfrences documentaires)

INTERACTION CRITE GNRALE

C2 C1 B2 B1

Comme C1 Peut s'exprimer avec clart et prcision, en s'adaptant au destinataire avec souplesse et efficacit. Peut relater des informations et exprimer des points de vue par crit et s'adapter ceux des autres. Peut apporter de l'information sur des sujets abstraits et concrets, contrler l'information, poser des questions sur un problme ou l'exposer assez prcisment. Peut crire des notes et lettres personnelles pour demander ou transmettre des informations d'intrt immdiat et faire comprendre les points qu'il/elle considre importants.

A2 A1

Peut crire de brves notes simples en rapport avec des besoins immdiats. Peut demander ou transmettre par crit des renseignements personnels dtaills.

Sous chelles correspondant interaction crite Correspondance Notes, messages et formulaires

Franais Page 69 Page 69

154

A3.3.Production

Fiche A13 : Production orale


Production orale 1. Dans quels contextes (domaines, situations) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 2. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECRL 4.2 peuvent servir de rfrence. 3. Quels types de tches, dactivits communicatives et quelles stratgies les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3, 4.4.2.1,7.1,7.2 et 7.3 peuvent servir de rfrence. 4. Quels textes et types de textes attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 5. Aprs avoir pris connaissance de lchelle de la production orale gnrale reproduite ci-dessous, dites et justifiez quel(s) niveau(x) de lchelle lpreuve devrait se situer. Les sous chelles dinteraction crite du CECRL 4.4.1.1 numres la suite de lchelle peuvent servir de rfrence. Brve description et/ou rfrence

Niveau :

Justification (y compris rfrences documentaires)

PRODUCTION ORALE GNRALE C2 Peut produire un discours labor, limpide et fluide, avec une structure logique efficace qui aide le destinataire remarquer les points importants et s'en souvenir. Peut faire une prsentation ou une description d'un sujet complexe en intgrant des arguments secondaires et en dveloppant des points particuliers pour parvenir une conclusion approprie. Peut mthodiquement dvelopper une prsentation ou une description soulignant les points importants et les dtails pertinents. Peut faire une description et une prsentation dtailles sur une gamme tendue de sujets relatifs son domaine d'intrt en dveloppant et justifiant les ides par des points secondaires et des exemples pertinents. B1 Peut assez aisment mener bien une description directe et non complique de sujets varis dans son domaine en la prsentant comme une succession linaire de points. Peut dcrire ou prsenter simplement des gens, des conditions de vie, des activits quotidiennes, ce qu'on aime ou pas, par de courtes sries d'expressions ou de phrases non articules. Peut produire des expressions simples isoles sur les gens et les choses.

C1

B2

A2

A1

Sous chelles correspondant la production orale Monologue suivi : dcrire lexprience Monologue suivi : argumenter (par exemple dans un dbat) Annonces publiques Sadresser un auditoire

Franais Page 49 Page 50 Page 50 Page 50

155

Fiche A14 : Production crite


Production crite 1. Dans quels contextes (domaines, situations) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 2. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECRL 4.2 peuvent servir de rfrence. 3. Quels types de tches, dactivits communicatives et quelles stratgies les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3, 4.4.2.1,7.1,7.2 et 7.3 peuvent servir de rfrence. 4. Quels textes et types de textes attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 5. Aprs avoir pris connaissance de lchelle de la production crite gnrale reproduite ci-dessous, dites et justifiez quel(s) niveau(x) de lchelle lpreuve devrait se situer. Les sous chelles dinteraction crite du CECRL 4.4.1.2 numres la suite de lchelle peuvent servir de rfrence. Brve description et/ou rfrence

Niveau :

Justification (y compris rfrences documentaires)

PRODUCTION CRITE GNRALE C2 Peut crire des textes labors, limpides et fluides, dans un style appropri et efficace, avec une structure logique qui aide le destinataire remarquer les points importants. Peut crire des textes bien structurs sur des sujets complexes, en soulignant les points pertinents les plus saillants et en confirmant un point de vue de manire labore par l'intgration d'arguments secondaires, de justifications et d'exemples pertinents pour parvenir une conclusion approprie. Peut crire des textes clairs et dtaills sur une gamme tendue de sujets relatifs son domaine d'intrt en faisant la synthse et l'valuation d'informations et d'arguments emprunts des sources diverses. Peut crire des textes articuls simplement sur une gamme de sujets varis dans son domaine en liant une srie d'lments discrets en une squence linaire. Peut crire une srie d'expressions et de phrases simples relies par des connecteurs simples tels que "et", "mais" et "parce que". Peut crire des expressions et phrases simples isoles.

C1

B2

B1

A2

A1

Sous chelles correspondant la production crite Ecriture crative Essais et rapports

Franais Page 52 Page 52

156

A3.4 Capacits intgres Quelles combinaisons de capacits sont proposes dans les preuves de lexamen ? Prciser ces combinaisons dans la fiche 15, puis, pour chaque combinaison, remplissez la fiche 16.

Fiche A15 : Combinaison de capacits intgres


Combinaisons de capacits intgres Rception orale et prise de notes Rception orale et production orale Rception orale et production crite Rception crite et prise de notes Rception crite et production orale Rception crite et production crite Rception orale et crite et prise de notes Rception orale et crite et production orale Rception orale et crite et production crite Epreuve dans apparaissent laquelle elles

Fiche A16 : Capacits intgres


Capacits intgres 1. Quelles sont les combinaisons qui apparaissent ? Reportez-vous aux rponses donnes dans la Fiche A15. 2. Quelles sont les activits de texte texte ? Le Tableau 6 dans le CECRL 4.6.4 peut servir de rfrence. 3. Dans quels contextes (domaines, situations) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 4. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECRL 4.2 peuvent servir de rfrence. 5. Quels types de tches, dactivits communicatives et quelles stratgies les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3, 4.4.2.1,7.1,7.2 et 7.3 peuvent servir de rfrence. 6. Quels types de textes attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 7. Aprs avoir pris connaissance de lchelle Traiter un texte reproduite ci-dessous ainsi que des chelles rception de loral/crit et de Production crite dj donnes, dites et justifiez quel(s) niveau(x) de lchelle lpreuve devrait se situer. La sous chelle Prendre des notes du CECRL 4.6.3 peut servir de rfrence. Rpondez pour chacune des combinaisons cites ci-dessus Brve description et/ou rfrence

Niveau : Justification (y compris rfrences documentaires)

157

TRAITER UN TEXTE C2 C1 B2 Peut faire le rsum d'informations de sources diverses en recomposant les arguments et les comptes rendus dans une prsentation cohrente du rsultat gnral Peut rsumer de longs textes difficiles Peut rsumer un large ventail de textes factuels et de fiction en commentant et en critiquant les points de vue opposs et les thmes principaux Peut rsumer des extraits de nouvelles (information), d'entretiens ou de documentaires traduisant des opinions, les discuter et les critiquer Peut rsumer l'intrigue et la suite des vnements d'un film ou d'une pice B1 Peut collationner des lments d'information issus de sources diverses et les rsumer pour quelqu'un d'autre Peut paraphraser simplement de courts passages crits en utilisant les mots et le plan du texte Peut prlever et reproduire des mots et des phrases ou de courts noncs dans un texte court qui reste dans le cadre de sa comptence et de son exprience limites A2 A1 Peut copier des textes courts en script ou en criture lisible Peut copier des mots isols et des textes courts imprims normalement

A3.5 Mdiation Fiche A17 : Mdiation orale


Mdiation orale 1. Quelles sont les activits de texte texte ? Le Tableau 6 dans le CECRL 4.6.4 peut servir de rfrence. 2. Quelles sont les activits de mdiation values ? La liste du CECRL 4.4.4.1 peut servir de rfrence 3. Dans quels contextes (domaines, situations) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 4. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECRL 4.2 peuvent servir de textes de rfrence. 5. Quels types de tches, dactivits communicatives et quelles stratgies les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3, 4.4.2.1,7.1,7.2 et 7.3 peuvent servir de rfrence 6. Quels types de textes attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 7. Le CECRL ne prsente pas dchelle pour la Traduction. En gnralisant partir des chelles de Rception orale, Traiter un texte et Production orale, dites et justifiez quel(s) niveau(x) lpreuve devrait se situer. Brve description et/ou rfrence

Niveau : Justification (y compris rfrences documentaires)

158

Fiche A18 : Mdiation crite


Mdiation crite 1. Quelles sont les activits de texte texte ? Le Tableau 6 dans le CECRL 4.6.4 peut servir de rfrence. 2. Quelles sont les activits de mdiation values ? La liste du CECR 4.4.4.2 peut servir de rfrence. 3. Dans quels contextes (domaines, situations.) attend-on des candidats quils prouvent leur comptence ? Le Tableau 5 dans le CECRL 4.1 peut servir de rfrence. 4. Quels sont les thmes de communication que les candidats doivent tre capables de traiter ? Les listes du CECR 4.2 peuvent servir de textes de rfrence. 5. Quels types de tches, dactivits communicatives et quelles stratgies les candidats doivent-ils tre capables de mettre en uvre ? Les listes du CECRL 4.3, 4.4.2.1,7.1,7.2 et 7.3 peuvent servir de rfrence. 6. Quels types de textes attend-on que les candidats soient capables de traiter ? Les listes du CECRL 4.6.2 et 4.6.3 peuvent servir de rfrence. 7. Le CECRL ne prsente pas dchelle pour la Traduction. En gnralisant partir des chelles de Rception crite, Traiter un texte et Production crite, dites et justifiez quel(s) niveau(x) lpreuve devrait se situer. Brve description et/ou rfrence

Niveau : Justification (y compris rfrences documentaires)

159

Partie A4 : Spcification : comptence langagire communicative (chapitre 4)


Fiches portant sur la comptence sont de nouveau proposes dans lordre suivant : 1. Rception 2. Interaction 3. Production 4. Mdiation A4 .1 Rception Ces chelles du CECRL correspondant le mieux aux capacits de rception ont t utilises pour laborer le tableau A3, auquel on peut se rfrer dans cette partie. Les descripteurs des niveaux plus ne sont pas mentionns dans le tableau A3. Les tableaux dorigine qui ont t pris en compte et dont certains dfinissent des niveaux plus, comprennent : Comptence linguistique Etendue linguistique gnrale Etendue du vocabulaire Comptence sociolinguistique Correction sociolinguistique Comptence pragmatique Dveloppement thmatique Cohrence et cohsion Prcision Comptence stratgique Reconnatre des indices et faire des dductions

page 87 page 88

page 95

page 97 page 98 page 101

page 60

Fiche A19 : Aspects de la comptence langagire pour la rception


Comptence linguistique
1 Quelle tendue de la comptence lexicale et grammaticale attend-on que les candidats soient capables de matriser ? Les listes du CECR 5.2.1.1 et 5.2.1.2 peuvent servir de rfrence. 2 Aprs avoir pris connaissance de lchelle de Comptence linguistique du Tableau A.3, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires)

Comptence sociolinguistique
3 Quelles comptences sociolinguistiques attend-on que les candidats soient capables de mettre en uvre : marqueurs linguistiques, rgles de politesse, adquation des registres, dialectes/accent, etc. ? Les listes du CECR 5.2.2 peuvent servir de rfrence. 4 Aprs avoir pris connaissance de lchelle de Comptence sociolinguistique du Tableau A. 3, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires)

160

Comptence pragmatique
5 Quelles comptences pragmatiques attend-on que les candidats soient capables de mettre en uvre : comptences discursives, fonctionnelles ? Les listes du CECR 5.2.3 peuvent servir de rfrence. 6 Aprs avoir pris connaissance de lchelle de Comptence pragmatique du Tableau A.3, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires)

Comptence stratgique
7 Quelles comptences stratgiques attend-on que les candidats soient capables dutiliser ? Les listes du CECR 4.4.2.4 peuvent servir de rfrence. 8 Aprs avoir pris connaissance de lchelle de Comptence stratgique du Tableau A.3, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires)

161

TABLEAU A3 : ELEMENTS QUALITATIFS PERTINENTS POUR LA RECEPTION


LINGUISTIQUES Daprs Etendue linguistique gnrale et Etendue du vocabulaire Peut comprendre avec prcision une gamme trs tendue de discours, apprcier linsistance et la discrimination. Ne montre aucun signe dincomprhension. Possde une bonne matrise dun vaste rpertoire lexical dexpressions idiomatiques et courantes avec la conscience du niveau de connotation smantique Possde une bonne matrise dun vaste rpertoire lexical. Bonne matrise dexpressions idiomatiques et familires. SOCIOLINGUISTIQUES Daprs Correction sociolinguistique Manifeste une bonne matrise des expressions idiomatiques et dialectales avec la conscience des niveaux connotatifs de sens. Apprcie compltement les implications sociolinguistiques et socioculturelles de la langue utilise par les locuteurs natifs et peut ragir en consquence. PRAGMATIQUES Daprs Dveloppement thmatique et Prcision Peut comprendre avec prcision des nuances de sens assez fines en utilisant une gamme tendue de procds de modalisation (par exemple, adverbes exprimant le degr dintensit, propositions restrictives) Peut comprendre linsistance et la diffrenciation sans ambigut. Peut comprendre des descriptions et des rcits compliqus avec des thmes secondaires et certains plus dvelopps. Peut comprendre avec prcision les qualificatifs des opinions et des affirmations relatifs aux degrs, par exemple, de certitude/doute, croyance/doute, similitude, etc. Peut comprendre une description ou un rcit, reconnatre les points saillants, des dtails et des exemples. Peut comprendre une information dtaille de faon fiable. Peut, avec une exactitude relative, comprendre un rcit ou une description linaire. Peut comprendre les points principaux dune ide ou dun problme avec une certaine prcision. STRATEGIQUES Reconnatre des indices et faire des dductions Comme C1

C2

C1

B2

B1

Possde une gamme assez tendue de langue pour comprendre des descriptions, des points de vue et des arguments sur la plupart des sujets pertinents pour sa vie quotidienne tels que la famille, les loisirs et centres dintrt, le travail, les voyages et lactualit. Possde suffisamment de moyens linguistiques pour se dbrouiller et un vocabulaire suffisant pour comprendre la plupart des textes sur des sujets tels que la famille, les loisirs et centres dintrt, le travail, les voyages et lactualit.

Peut reconnatre un large ventail dexpressions idiomatiques et dialectales et apprcier les changements de registre ; peut devoir toutefois confirmer tel ou tel dtail, en particulier si laccent nest pas familier. Peut suivre des films utilisant largement largot et des expressions idiomatiques. Peut comprendre la langue avec efficacit et souplesse dans des relations sociales, y compris pour un usage affectif, allusif ou pour plaisanter. Peut, avec quelque effort, suivre des discussions rapides et familires.

Est habile utiliser les indices contextuels, grammaticaux et lexicaux pour en dduire une attitude, une humeur, des intentions et anticiper la suite.

Peut utiliser diffrentes stratgies de comprhension dont lcoute des points forts et le contrle de la comprhension par les indices textuels.

A2

Peut rpondre un large ventail de fonctions langagires en utilisant leurs expressions les plus courantes de manire neutre. Peut reconnatre les rgles de politesse importantes. Est conscient des diffrences les plus significatives entre les coutumes, les usages, les attitudes, les valeurs et les croyances qui prvalent dans la communaut concerne et celles de sa propre communaut et en recherche les indices. Possde un vocabulaire suffisant pour se Peut se dbrouiller dans des changes sociaux trs courts en dbrouiller dans des situations courantes au utilisant les formes quotidiennes polies daccueil et de contact. contenu prvisible et pour rpondre des besoins Peut faire des invitations, des excuses et y rpondre. simples de type concret.

A1 Possde un choix lmentaire dexpressions


simples pour les informations sur soi et les besoins de type courant.

Peut comprendre les formes de politesse les plus lmentaires daccueil et prise de cong, de prsentation ; dire merci, sil vous plat, excusez-moi, etc.

Peut comprendre une histoire ou une description consistant en une succession de points. Peut comprendre un change dinformation limit, simple et direct sur des sujets familiers et habituels. Pas de descripteur disponible Pas de descripteur disponible

Peut identifier des mots inconnus laide du contexte sur des sujets relatifs son domaine et ses intrts. Peut extrapoler du contexte le sens de mots inconnus et en dduire le sens de la phrase condition que le sujet en question soit familier. Peut utiliser le sens gnral dun texte ou dun nonc court sur des sujets quotidiens concrets pour dduire du contexte le sens probable de mots inconnus.

A 4 .2 Interaction

Ces chelles du CECRL correspondant le mieux linteraction ont t utilises pour laborer le tableau A4, auquel on peut se rfrer dans cette partie. Les descripteurs des niveaux plus ne sont pas mentionns dans le tableau A4. Les tableaux dorigine qui ont t pris en compte et dont certains dfinissent des niveaux plus, comprennent : Comptence linguistique Etendue linguistique gnrale Etendue du vocabulaire Matrise du vocabulaire Correction grammaticale Comptence sociolinguistique Correction sociolinguistique Comptence pragmatique Souplesse Tours de parole Aisance loral Prcision Comptence stratgique Tours de parole Cooprer Faire clarifier Compensation Contrle et correction

page 87 page 88 page 89 page 90

page 95

page 97 page 97 page 100 page 101 page 70 page 71 page 71 page 54 page 54

164

Fiche A20 : Aspects de la comptence langagire en interaction


Comptence linguistique
1. Quelle tendue de la comptence lexicale et grammaticale attend-on que les candidats soient capables de matriser ? Les listes du CECRL 5.2.1.1 et 5.2.1.2 peuvent servir de rfrence. 2. Quelle tendue de la comptence phonologique et orthographique attend-on que les candidats soient capables dutiliser ? Les listes du CECRL 5.2.1.4 et 5.2.1.5 peuvent servir de rfrence. 3. Aprs avoir pris connaissance des chelles Etendue et Correction du Tableau A4, dites et justifiez quel(s) niveau(x) lexamen devrait se situer. Les chelles pour la Matrise du systme phonologique du CECRL 5.2.1.4 et pour la Matrise de lorthographe 5.2.1.5 peuvent aussi servir de rfrence.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires) Brve description et/ou rfrence

Comptence sociolinguistique
4. Quelles comptences sociolinguistiques attend-on que les candidats soient capables de mettre en uvre : marqueurs linguistiques, rgles de politesse, adquation des registres, dialectes/accent, etc. ? Les listes du CECRL 5.2.2 peuvent servir de rfrence. 5. Aprs avoir pris connaissance de lchelle de Comptence sociolinguistique du Tableau A.4, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Niveau Justification (y compris rfrences documentaires)

Comptence pragmatique
6. Quelles comptences pragmatiques attend-on que les candidats soient capables de mettre en uvre : comptences discursives, fonctionnelles ? Les listes du CECRL 5.2.3 peuvent servir de rfrence. 7. Aprs avoir pris connaissance de lchelle pour lAisance du Tableau A4, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires)

Comptence stratgique
8. Quelles comptences stratgiques attend-on que les candidats soient capables dutiliser : Le dbat du CECRL 4.4.3.5 peut servir de rfrence. 9. Aprs avoir pris connaissance de lchelle pour lInteraction du Tableau A.4, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires)

165

A4 .3 Production Ces chelles du CECRL correspondant le mieux aux capacits de production ont t utilises pour laborer le tableau A5, auquel on peut se rfrer dans cette partie. Les descripteurs des niveaux plus ne sont pas mentionns dans le tableau A5. Les tableaux dorigine qui ont t pris en compte et dont certains dfinissent des niveaux plus, comprennent : Comptence linguistique Etendue linguistique gnrale Etendue du vocabulaire Matrise du vocabulaire Correction grammaticale Comptence sociolinguistique Correction sociolinguistique Comptence pragmatique Souplesse Dveloppement thmatique Cohsion et cohrence Aisance loral Prcision Comptence stratgique Planification Compensation Contrle et correction

Franais page 87 Franais page 88 Franais page 89 Franais page 90

Franais page 95

Franais page 97 Franais page 97 Franais page 98 Franais page 100 Franais page 101

Franais page 53 Franais page 54 Franais page 54

Fiche A21 : Aspects de la comptence langagire en production


Comptence linguistique
1. Quelle tendue de la comptence lexicale et grammaticale attend-on que les candidats soient capables de matriser ? Les listes du CECRL 5.2.1.1 et 5.2.1.2 peuvent servir de rfrence. 2. Quelle tendue de la comptence phonologique et orthographique attend-on que les candidats soient capables dutiliser ? Les listes du CECRL 5.2.1.4 et 5.2.1.5 peuvent servir de rfrence. 3. Aprs avoir pris connaissance des chelles de Etendue et Correction du Tableau 5, dites et justifiez quel(s) niveau(x) lexamen devrait se situer. Les chelles pour la Matrise du systme phonologique en CECRL 5.2.1.4 et pour la Matrise de lorthographe en 5.2.1.5 peuvent aussi servir de rfrence.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires) Brve description et/ou rfrence

Comptence sociolinguistique
4. Quelles comptences sociolinguistiques attend-on que les candidats soient capables de mettre en uvre : marqueurs linguistiques, rgles de politesse, adquation des registres, dialectes/accent, etc. ? Les listes du CECRL 5.2.2 peuvent servir de rfrence 5. Aprs avoir pris connaissance de lchelle de Comptence sociolinguistique du Tableau A5 dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Niveau Justification (y compris rfrences documentaires)

166

Comptence pragmatique
6. Quelles comptences pragmatiques attend-on que les candidats soient capables de mettre en uvre : comptences discursives, fonctionnelles ? Les listes du CECRL 5.2.3 peuvent servir de rfrence 7. Aprs avoir pris connaissance de lchelle pour la Comptence pragmatique du Tableau A5, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires) Brve description et/ou rfrence

Comptence stratgique
8. Quelles comptences stratgiques attend-on que les candidats soient capables dutiliser ? Le dbat du CECR 4.4.1.3 peut servir de rfrence 9. Aprs avoir pris connaissance de lchelle de Comptence stratgique du Tableau A5, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Niveau Justification (y compris rfrences documentaires)

167

168

TABLEAU A4 : ELEMENTS QUALITATIFS PERTINENTS POUR LINTERACTION ORALE


ETENDUE LINGUISTIQUE Daprs Etendue linguistique gnrale , Etendue du vocabulaire , Souplesse CORRECTION LINGUISTIQUE Daprs Correction grammaticale et Matrise du vocabulaire Peut maintenir constamment un niveau lev de correction grammaticale mme lorsque lattention se porte ailleurs (par exemple, la planification ou lobservation des ractions de lautre) Peut maintenir un niveau lev de correction grammaticale ; les erreurs sont rares, difficiles reprer et gnralement corriges rtrospectivement A un niveau relativement lev de correction grammaticale. Ne fait pas de fautes conduisant des malentendus et peut corriger la plupart de ses fautes Peut se servir avec une correction suffisante dun rpertoire de tournures et expressions frquemment utilises et associes des situations plutt prvisibles Peut utiliser des structures simples correctement mais commet encore systmatiquement des erreurs lmentaires A un contrle limit de structures syntaxiques et de formes grammaticales appartenant un rpertoire mmoris SOCIOLINGUISTIQUE Daprs Correction sociolinguistique AISANCE Aisance, Souplesse INTERACTION Daprs Tours de parole , Cooprer , Faire clarifier

C2

Montre une grande souplesse dans la reformulation dides en les prsentant sous des formes linguistiques varies pour accentuer limportance, marquer une diffrence et lever lambigut. Possde aussi une bonne matrise dun rpertoire dexpressions idiomatiques et courantes Possde une bonne matrise dun rpertoire lui permettant de choisir la faon de sexprimer clairement de manire approprie sur un large ventail de sujets acadmiques, professionnels ou de loisirs sans restrictions sur ce quil/elle veut dire Possde une gamme assez tendue de langue pour pouvoir faire des descriptions claires, exprimer son point de vue et dvelopper une argumentation sans chercher ses mots de manire vidente et en utilisant des phrases complexes Possde suffisamment de moyens linguistiques pour sen sortir avec quelques hsitations et quelques priphrases sur des sujets tels que la famille, les loisirs et centres dintrt, le travail, les voyages et lactualit

Apprcie compltement les implications sociolinguistiques et socioculturelles de la langue utilise par les locuteurs natifs et peut ragir en consquence. Peut jouer efficacement le rle de mdiateur entre les locuteurs de la langue cible et de celle de sa communaut dorigine en tenant compte des diffrences socioculturelles et sociolinguistiques Peut utiliser la langue avec efficacit et souplesse dans des relations sociales, y compris pour un usage affectif, allusif ou pour plaisanter

Peut sexprimer longuement dans un discours naturel et sans effort en vitant ou en contournant Peut intervenir habilement et avec facilit en les difficults de sorte que linterlocuteur ne sen utilisant des expressions non-verbales ou rend pas compte lintonation apparemment sans effort. Peut relier naturellement sa propre contribution celle dautres interlocuteurs en prenant la parole son tour, faisant des rfrences et des allusions, etc. Peut sexprimer avec aisance et spontanit presque sans effort. Seul un sujet conceptuellement difficile est susceptible de gner le flot naturel et fluide du discours Peut choisir une expression adquate dans un rpertoire courant de fonctions discursives en prambule ses propos pour obtenir la parole ou la garder et relier habilement sa propre contribution celles de ses interlocuteurs Peut commencer un discours, prendre la parole au bon moment et terminer la conversation quand il/elle le souhaite bien que parfois sans lgance. Peut faciliter le dveloppement de la discussion sur un terrain connu en confirmant sa comprhension, en invitant les autres participer, etc. Peut commencer, poursuivre et terminer une simple conversation en tte--tte sur des sujets familiers ou dintrt personnel. Peut reformuler en partie les dires de linterlocuteur pour confirmer une comprhension mutuelle

C1

B2

B1 Peut utiliser des modles de phrases lmentaires et communiquer des informations limites dans des situations courantes de la vie quotidienne laide de phrases mmorises, de groupes de mots et dexpressions toutes faites Possde un rpertoire lmentaire de mots isols et dexpressions simples relatives soi et des situations concrtes particulires

Peut, avec quelque effort, comprendre et participer des changes dans un groupe mme si le discours est rapide et familier. Peut poursuivre une relation suivie avec des locuteurs natifs sans les amuser ou les irriter sans le vouloir ou les mettre en situation de se comporter autrement quavec un locuteur natif Peut sexprimer et rpondre aux fonctions langagires de base telles que lchange dinformation et la demande et exprimer simplement une ide et une opinion. Est conscient des rgles de politesse importantes et se conduit de manire approprie Peut se dbrouiller dans des changes sociaux trs courts en utilisant les formes quotidiennes polies daccueil et de contact. Peut faire des invitations, des excuses et y rpondre Peut tablir un contact social de base en utilisant les formes de politesse les plus lmentaires : accueil et prise de cong ; prsentation et dire merci, sil vous plat, excusez-moi, etc.

Peut sadapter aux changements de sujet, de style et de ton rencontrs normalement dans une conversation. Peut parler relativement longtemps avec un dbit assez rgulier ; bien quil/elle puisse hsiter pour chercher tournures et expressions, on remarque peu de longues pauses Peut exploiter avec souplesse une gamme tendue de langue simple afin dexprimer lessentiel de ce quil/elle veut dire. Peut sexprimer avec une certaine aisance. Malgr quelques problmes de formulation ayant pour consquence pauses et impasse, est effectivement capable de continuer parler sans aide Peut se faire comprendre dans une brve intervention mme si la reformulation, les pauses et les faux dmarrages sont trs vidents. Peut dvelopper des expressions apprises par la simple recombinaison de leurs lments Peut se dbrouiller avec des noncs trs courts, isols, gnralement strotyps, avec de nombreuses pauses pour chercher ses mots pour prononcer les moins familiers et pour remdier la communication

Peut indiquer quil/elle suit ce qui se dit mais est rarement en mesure de comprendre suffisamment pour poursuivre la conversation. Peut attirer lattention Peut intervenir simplement mais la communication repose entirement sur la rptition, la reformulation et la remdiation

A2

A1

TABLEAU A5 : ELEMENTS QUALITATIFS PERTINENTS POUR LA PRODUCTION


ETENDUE LINGUISTIQUE Daprs Etendue linguistique gnrale , Etendue du vocabulaire Possde une grande souplesse pour reformuler les ides de diffrentes manires afin dexprimer avec prcision des nuances fines de sens pour insister, discriminer et lever lambigut. Possde galement une bonne matrise dexpressions idiomatiques et courantes Possde une bonne matrise dune vaste tendue de langue lui permettant de choisir la formulation approprie pour sexprimer clairement de manire approprie sur une gamme importante de sujets gnraux, acadmiques, professionnels ou sur les loisirs sans avoir restreindre ce quil/elle veut dire Possde une gamme assez tendue de langue pour pouvoir faire des descriptions claires, exprimer son point de vue et dvelopper une argumentation sans chercher ses mots de manire vidente et en utilisant des phrases compltes CORRECTION LINGUISTIQUE Daprs Correction grammaticale , Matrise du vocabulaire , Matrise du systme phonologique Peut maintenir constamment un niveau lev de correction grammaticale mme lorsque lattention se porte ailleurs (par exemple, la planification ou lobservation des ractions de lautre) SOCIOLINGUISTIQUE Daprs Correction sociolinguistique Apprcie compltement les implications socioculturelles de la langue utilise par les autres locuteurs et peut ragir en consquence PRAGMATIQUE Aisance loral, Souplesse PRAGMATIQUE Dveloppement thmatique, Prcision, Cohrence et cohsion STRATEGIQUE Compensation, Contrle et correction

C2

Peut sexprimer longuement avec spontanit dans une langue courante, en vitant ou contournant les difficults de telle sorte que linterlocuteur ne sen rend pas compte

Peut crer un texte cohrent et cohsif Peut substituer un mot qui lui chappe en utilisant de manire complte et un terme quivalent de manire si habile approprie les structures que lon sen rende peine compte organisationnelles adquates et une grande varit darticulateurs

C1

Peut maintenir constamment un niveau lev de correction grammaticale ; les erreurs sont rares, difficiles reprer et gnralement corriges aussitt

Peut utiliser la langue avec efficacit et souplesse dans des relations sociales, y compris pour un usage affectif, allusif ou pour plaisanter

Peut sexprimer avec aisance et spontanit presque sans effort ; seul un sujet conceptuellement difficile est susceptible de gner le flot naturel et fluide du discours

B2

Possde un niveau relativement lev de Peut sexprimer de faon approprie la correction grammaticale. Ne fait pas de situation et viter des erreurs grossires fautes conduisant des malentendus et de formulation peut corriger la plupart dentre elles rtrospectivement

Peut parler relativement longtemps avec un dbit assez rgulier ; bien quil/elle puisse hsiter en cherchant tournures et expression, on remarque peu de longues pauses

B1

Possde suffisamment de moyens linguistiques et dun vocabulaire suffisant pour sen sortir avec quelques hsitations et quelques priphrases sur des sujets tels que la famille, les loisirs et centres dintrt, le travail, les voyages et lactualit

Peut se servir avec une correction suffisante dun rpertoire de tournures et expressions frquemment utilises et associes des situations plutt prvisibles

Pas de descripteur disponible

A2

A1

Peut utiliser des modles de phrases lmentaires et communiquer laide de phrases mmorises de groupes de mots et dexpressions toutes faites pour transmettre des informations limites sur de simples situations quotidiennes Possde un rpertoire lmentaire de mots et dexpressions lmentaires relatifs soi et des situations concrtes particulires

Peut utiliser correctement des structures simples mais commet encore systmatiquement des erreurs lmentaires

Pas de descripteur disponible

A un contrle limit de structures syntaxiques et de formes grammaticales simples appartenant un rpertoire mmoris

Pas de descripteur disponible

Peut exploiter avec souplesse une gamme tendue de langue simple afin dexprimer lessentiel de ce quil/elle veut dire. Peut discourir de manire comprhensible mme si les mots pour chercher ses mots et ses phrases et pour faire ses corrections sont vidents, notamment dans les squences plus longues de production libre Peut se faire comprendre dans une brve intervention, mme si la reformulation, les pauses et les faux dmarrages sont trs vidents. Peut dvelopper des expressions apprises par la simple recombinaison de leurs lments Peut se dbrouiller avec des noncs trs courts, isols, gnralement strotyps, avec de nombreuses pauses pour cher ses mots, pour prononcer les moins familiers et pour remdier la communication

Peut produire un texte clair, fluide et bien structur, dmontrant un usage contrl de moyens linguistiques de structuration et darticulation. Peut faire des descriptions et des rcits compliqus avec des thmes secondaires et certains plus dvelopps et arriver une conclusion adquate Peut faire une description ou un rcit clair en dveloppant et argumentant les points importants laide de dtails et dexemples significatifs. Peut utiliser un nombre limit darticulateurs pour relier ses noncs en un discours clair et cohrent bien quil puisse y avoir quelques sauts dans une longue intervention Peut relier une srie dlments courts, simples et distincts afin de raconter ou de dcrire, avec une relative aisance, quelque chose de simple et de linaire

Peut contourner une difficult rencontre et reformuler ce quil/elle veut dire sans interrompre compltement le fil du discours

Peut utiliser des priphrases et des paraphrases pour dissimuler des lacunes lexicales et structurales. Peut relever ses erreurs habituelles et surveiller consciemment son discours afin de les corriger

Peut utiliser un mot simple signifiant quelque chose de semblable au concept recherch et solliciter une correction . Peut recommencer, avec une tactique diffrente, sil y a rupture de communication

Peut relier des groupes de mots avec des connecteurs simples tels que et , mais et parce que

Pas de descripteur disponible

Peut relier des groupes de mots avec des connecteurs trs lmentaires tels que et ou alors

Pas de descripteur disponible

A4.4 Mdiation Cest de la nature de la mdiation que vont dpendre les chelles du CECR qui seront le plus appropries. En situation de langue trangre, on met naturellement laccent sur les capacits dans la langue trangre. Pour des activits de mdiation effectues partir de la langue trangre vers la langue maternelle, les capacits requises seront essentiellement du domaine de la rception tandis que pour la mdiation effectue partir de la langue maternelle vers la langue trangre, ce sont les capacits en production qui seront ncessaires. En ce qui concerne la Mdiation entirement dans la langue trangre, on fera appel la fois la rception et la production. Variables Type de comptences langagires a. dans une langue trangre Pour la Rception et la Production b. dune langue trangre une Pour la Rception et la autre Production c. dune langue trangre vers la Pour la Rception langue maternelle d. de la langue maternelle vers la Pour la Production langue trangre Descripteurs Tableaux A3 et A5 Tableaux A3 et A5 Tableau A3 Tableau A5

Les autres paramtres prendre en considration sont les variables des capacits (de la rception de loral ou de lcrit vers la production orale ou crite) et les variables des tches selon un registre formel ou informel comme cela est indiqu dans le CECR 4.4.4.1 (mdiation orale) et 4.4.4.2 (mdiation crite). Ainsi, bien quil ny ait pas de descripteurs pour la Mdiation en tant que telle dans le CECRL, toutes les chelles de descripteurs du Chapitre 5 du CECRL auxquelles sajoutent les chelles pour les Stratgies de Rception et de Production (incluses respectivement dans les Tableaux A3 et A5) sont pertinentes. Si lexamen comprend de la Mdiation, consulter les Tableaux A3, A4 et/ou A5 pour remplir la Fiche A22

Fiche A22 : Aspects de la comptence langagire en mdiation


Comptence linguistique
1. Quelle tendue de la comptence lexicale et grammaticale attend-on que les candidats soient capables de matriser ? Les listes du CECRL 5.2.1.1 et 5.2.1.2 peuvent servir de rfrence. 2. Quel type de relations smantiques attend-on que les candidats soient capables de traiter ? Les listes du CECRL 5.2.1.3 peuvent servir de rfrence. 3. Quelle tendue de la comptence phonologique et orthographique attend-on que les candidats soient capables de matriser ? Les listes du CECRL 5.2.1.4 et 5.2.1.5 peuvent servir de rfrence. 4. Lchelle pour la Matrise de lorthographe du CECRL 5.2.1.5 peut galement servir de rfrence.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires)

171

Comptence sociolinguistique
5. Quelles comptences sociolinguistiques attend-on que les candidats soient capables de mettre en uvre : marqueurs linguistiques, rgles de politesse, adquation des registres, dialectes/accent, etc. ? Les listes du CECRL 5.2.2 peuvent servir de rfrence 6. Aprs avoir pris connaissance de lchelle de Comptence sociolinguistique du Tableau A3 et A.4, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Brve description et/ou rfrence

Niveau Justification (y compris rfrences documentaires) Brve description et/ou rfrence

Comptence pragmatique
7. Quelles comptences pragmatiques attend-on que les candidats soient capables de mettre en uvre : comptences discursives, fonctionnelles ? Les listes du CECRL 5.2.3 peuvent servir de rfrence 8. Aprs avoir pris connaissance de lchelle pour la Comptence pragmatique du Tableau A5, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Niveau Justification (y compris rfrences documentaires) Brve description et/ou rfrence

Comptence stratgique
9. Quelles stratgiques de rception et de production attendon que les candidats soient capables dutiliser ? Le dbat du CECRL 4.4.2.4 et 4.4.1.3 peut servir de rfrence 10. Aprs avoir pris connaissance de lchelle de Comptence stratgiques des Tableaux A3 et A5, dites et justifiez quel(s) niveau(x) lexamen devrait se situer.

Niveau Justification (y compris rfrences documentaires)

172

Partie A5: Spcification : Rsultat des analyses (chapitre 4)


La fiche A23 propose un profil sous forme de graphique de ce que recouvre un examen en relation avec les catgories et aux niveaux du CECRL. Ce tableau est remplir la fin du processus de Spcification. Fiche A23 : Reprsentation graphique de la relation de lexamen aux niveaux du CECRL (exemple)
C2 C1
B2.2

B2
B1.2

B1
A2.2

A2 A1
Ensemble Rception orale Rception crite Conversation sociale Echange dinformation Notes Socio Messages et linguistique formulaires Pragmatique Linguistique

Fiche A24 : Confirmation de lestimation du niveau global de lexamen Confirmation de lestimation du niveau global de lexamen par rapport au CECRL
A1 A2 B1 B2 C1 C2

Brve justification, rfrence de la documentation. Si les conclusions de cette fiche sont diffrentes de celles de la fiche 8, indiquer les raisons principales de ce changement.

173

174

Annexe B Grilles danalyse de contenu (chapitre 4) Partie B1 : Grille danalyse du contenu du CECRL pour la rception orale et la rception crite
Les concepteurs de tests ou dexamens peuvent relier les preuves de rception crite et orale au CECRL grce la grille 45 danalyse de contenu pour la rception orale et la rception crite du CECRL ,. Les informations concernant chaque tche, texte et item du test ou de lexamen sont indiques dans la grille avec leurs caractristiques (par exemple la source/lorigine du texte, le type de discours, le niveau de difficult estim, etc) choisies parmi les options proposes par le CECRL. Une utilisation efficace de la grille suppose de la part de celui/celle qui assure lanalyse une bonne connaissance du CECRL. Un chapitre portant sur la familiarisation avec le CECRL est propos pour aider la mise en uvre de lensemble. La grille a t conue pour tre utilise en ligne mais une version papier est disponible dans ce manuel. On peut ajouter, si cela simpose, de nouvelles catgories.

Alors que la grille a t avant tout conue pour analyser des preuves de rception crite et orale, elle peut aussi servir doutil pour les concevoir. Un lien avec la version en ligne est aussi disponible sur www.coe.portfolio . Le lien direct est www.lancs.ac.uk/fss/projects/grid. Dans cette partie, la mme fiche a t propose en trois versions : 1. une version vierge ; 2. une version complte la suite de lanalyse du panel dexperts dbouchant sur des points de csure provisoires ; 3. une troisime version dans laquelle les classements provisoires des items ont t revus la suite de la comparaison entre les donnes issues des difficults estimes et les donnes empiriques sur ces mmes difficults. Des ajustements identiques ont t oprs sur les points de csure.

La grille a t labore par un groupe de travail comprenant Charles Alderson (coordinateur du projet), Neus Figueras, Henk Kuijpers, Gnther Nold, Sauli takala et Claire Tardieu. Grce une subvention du ministre de lEducation nerlandais, le groupe a labor une version informatique disponible sur le site www.lancs.ac.uk/fss/projects/grid. Un rapport de ce projet est disponible la demande auprs du coordinateur du projet : c.alderson@lancaster.ac.uk

45

175

Fiche vierge de rception orale Rception orale/crite en (langues) Niveau atteindre dans le programme : Types ditems
Support

Dure (total : 45 minutes) Authenticit Type de discours Domaine Thme Rapport avec le programme (une nouvelle catgorie optionnelle) Nombre de locuteurs Prononciation Contenu Grammaire Vocabulaire Nombre dcoutes Texte propos comprhensible au niveau Items comprhensibles au niveau (indiquer les codes de litem) A1 A1/A2 A2 A2/B1 B1 B1/B2 B2 B2/C1 C1 C1/C2 C2

176

Echantillon de Spcification dun test de rception orale Rception orale en franais Test Niveau atteindre dans le programme: B2.1 Types ditems 30 items choix multiple Support Dure (total : 45 minutes) Authenticit Type de discours Domaine Thme Rapport avec le programme Nombre de locuteurs Prononciation Contenu Grammaire Vocabulaire Nombre dcoutes Texte propos comprhensible au niveau du CECRL Interview 7 Modifi Narratif Personnel Culture pop Note
Note

5 items rponse ouverte Programme de Actualits radio 9 Authentique Descriptif Public Loisirs Note 1 Norme francophone Assez abstrait Plutt complexe Plutt tendu 1 10 Modifi (abrg) Narratif Public Socit Note 1 Norme franaise Assez abstrait Assez complexe Plutt tendu 1

Interview 12 Modifi Argumentatif Personnel Environneme nt

Prsentation 7 Authentique Descriptif Public Affaires/com merce Note 2 Norme franaise Assez abstrait Plutt complexe Plutt tendu 2

2 Norme franaise Concret Simple Uniquement frquent 2

2+1 Norme francophone Concret Assez complexe Surtout frquent 2

Items comprhensibles au niveau (indiquer le classement en utilisant les codes ditems) A1 A1/A2 A2 A2/B1 1, 2, 3, 4, 5 25, 27 B1 6, 7, 8, 10, 12, 17 24, 26 Rponse ouverte : 1, 2 B1/B2 14, 15 9, 11, 13, 16 18, 19, 20 21, 22, 23 Rponse ouverte: 4 B2 28, 29, 30 Rponse ouverte: 3, 5 B2/C1 C1 C1/C2 C2 Points de csure initiaux: < B1: 0; B1: 119; B2: 2030; >B2: 3135

177

Echantillon de grille utiliser aprs la passation du test Rception orale en franais Test Niveau cible dans le programme: B2.1 30 items choix multiple Types ditems Interview Interview Prsentation Support Dure (total : 45 minutes) Authenticit Type de discours Domaine Thme Rapport avec le programme Nombre de locuteurs Prononciation 7 Modifi Narratif Personnel Culture pop Note 2 Norme franaise Concret Simple Uniquement frquent 2 12 Modifi Argumentat if Personnel Environnem ent Note 2+1 7 Authentique Descriptif Public Affaires/com merce Note 2

Programme de radio 9 Authentique Descriptif Public Loisirs Note 1 Norme francophone Assez abstrait Assez complexe Plutt tendu 1

5 complter Actualits 10 Modifi (abrg) Narratif Public Socit Note 1 Norme franaise

Norme Norme francophone franaise Concret Assez complexe Surtout frquent 2 Assez abstrait Plutt complexe Plutt tendu 2

Contenu Grammaire Vocabulaire Nombre dcoutes Texte propos comprhensible au niveau

Assez abstrait Assez complexe Plutt tendu 1

Items comprhensibles au niveau (indiquer les codes ditems aprs dfinition des points de csure) A1 A1/A2 A2 A2/B1 B1 B1/B2 B2 B2/C1 C1 C1/C2 C2 Points de csure finaux: Echantillon de grille vierge pour un test de rception crite

178

Caractristiques Source du texte Authenticit Type de discours Domaine Thme Nature du contenu Longueur du texte Vocabulaire Grammaire Texte susceptible dtre compris par des apprenants de niveau du CECRL :

Texte 1

Texte 2

Texte 3

Texte 4

Texte 5

Items comprhensibles par des apprenants/utilisateurs au niveau CECRL (indiquer le code de litem) A1 A2 B1 B2 C1 C2 Points de csure initiaux : Points de csure finaux :...

179

180

Partie B2 : Grilles danalyse de contenu (du CECRL) pour les tches de production crite et de production orale
Ces grilles ont t conues par un groupe de travail au sein de ALTE dont lobjectif est daider les concepteurs dexamen qui utilisent le CECRL et le manuel. Ce groupe de ALTE actualise les grilles en tenant compte des retours dinformations des utilisateurs. On recommande donc aux utilisateurs de tlcharger les dernires versions des pages du site de la Division des Politiques linguistiques du conseil de lEurope : www.coe.int/lang. Les concepteurs des grilles avaient pour objectif de procurer des outils souples utilisables dans des contextes diffrents et pour une utilisation multiple. Il existe deux types de grilles : Grille danalyse : utilise quand des panels dexperts doivent donner leur opinion sur les tches dun test ou dun examen, loccasion par exemple de sessions de formation, ou de sessions montrant des chantillons reprsentatifs ou des exercices de dfinition de points de csure. Grille de prsentation : utilise pour prsenter une analyse dj faite, voire des modles pour la formation et la standardisation, pour un rapport ou une prsentation dans des sminaires. Ces grilles nont jamais t conues pour tre utilises dune seule manire, et il nest donc pas possible de donner dans ce Manuel des instructions dutilisation exhaustives. Cest pour cette raison que seuls deux exemples de la faon dont elles ont t utilises ont t proposs.
Exemple 1

Grille utilise : Grille de production crite du CECRL : analyse, version 3.0, 2005 Utilisation: calibrage de performances crites dun ensemble dexamens locaux. Procdure : Dans un atelier de calibrage regroupant 11 experts, la grille a t utilise comme une activit introductive. On a demand aux experts de la complter pour une des tches, puis de discuter entre eux du degr de pertinence de chaque catgorie de la grille pour relier la tche un niveau. Le but de cette activit tait damener les experts se concentrer sur la relation entre la tche et la performance et sur les diffrents aspects de la difficult de la tche. Une modification de la grille a galement t propose aux experts, en particulier linsertion de la catgorie type de texte attendu , en complment de la catgorie type de texte propos . Dans une colonne supplmentaire, les experts pouvaient indiquer quelles taient les catgories quils considraient comme tant dterminantes pour relier une tche un niveau. Ils ont eu prendre cette dcision pour chacune des catgories numrotes de 16 38. Les catgories le plus souvent mentionnes taient : type de texte attendu (10 fois), temps permis ou suggr (9 fois), type de texte propos (8) sujet ou thme propos (8), Nombre de mots attendus (8).Certaines catgories ont donn lieu des discussions sur (a) linterprtation des catgories et (b) la possibilit de les appliquer tous les niveaux (par exemple la catgorie type de texte propos que les experts ont considr pertinente uniquement dans les niveaux suprieurs. A noter, les points positifs : Le calibrage se concentre sur les qualits linguistiques du texte, plutt que sur les aspects daccomplissement de la tche. La grille a permis que certains aspects daccomplissement

181

de la tche soient pris en compte dans la discussion sur la qualit du texte, par exemple, la dure de lpreuve de production crite. A noter, les points ngatifs : Diffrentes personnes ont tendance interprter diffremment certaines catgories (par exemple jusqu quel point rdaction moiti directive est directif). Recommandations : Lutilisation de la grille dans un atelier avec des concepteurs de tests ou dexamens serait bien utile, car ce serait l loccasion dune rflexion sur le niveau de langue dune tche, et ainsi sur les caractristiques quune tche devrait avoir pour susciter la performance attendue. Une faon de promouvoir une interprtation identique des termes de la grille serait, de la part des organisateurs, de fournir des chantillons reprsentatifs, accompagns ventuellement dune version finale faisant tat des conclusions auxquelles ils sont arrivs dans cette activit. Exemple 2 Grille utilise : Grille de production orale du CECRL : analyse et prsentation, version 01,09/12/05 Utilisation: calibrage de performances orales dun examen local. Procdure : Pendant la phase de formation, on a montr 12 experts des vidos de performances calibres qui avaient t slectionnes lors dun sminaire de calibrage organis pour la langue concerne en coopration avec le Conseil de lEurope. Chaque juge devait classer les performances filmes sur les niveaux du CECRL. Les experts devaient dabord reporter individuellement leur valuation sur la grille finale puis discuter par groupe de deux puis en grand groupe. La grille tait utilise pour faire prendre conscience aux experts de la difficult de la tche et leur montrer quel genre de catgories pouvait avoir plus dinfluence que dautres sur la difficult. Comme la performance dun candidat est en troite relation avec la rponse que la tche induit, cela a permis davoir une ide de la difficult de la tche avant de commencer valuer les chantillons de performances. Dans un deuxime temps, les grilles ont t utilises de faon identique pour classer les tches de production orale et valuer les performances dchantillons de lexamen local. A noter, les points positifs : Cette mthode a bien fonctionn car les experts ont eu une ide plus prcise des diffrents aspects de la difficult dune tche et du niveau des performances qui y correspondent. Cela a, en particulier, facilit lvaluation des tches proposes dans lexamen local. A noter, les points ngatifs : Une des difficults de cette mthode est le temps pris pour expliquer les 45 catgories de la grille propose. La grille a donc t traduite dans la langue utilise par les experts et une slection a t faite des catgories utilises pendant la runion. La partie 1 dinformation gnrale a t laisse de ct ; dans la partie 2, ont t plus particulirement pris en compte les conseils 15/16 et le thme 23. En revanche la partie 3 a t garde dans sa totalit. Recommandations : Envoyer la grille aux experts avant la runion sur la standardisation afin quils se familiarisent avec ce document.

182

La grille du CECRL pour les tches de production crite

v.3.1 (Prsentation)

Cette grille a t conue par un groupe de travail au sein de ALTE dont lobjectif est daider les concepteurs dexamen qui utilisent le Cadre europen commun de rfrence pour les langues : apprendre, enseigner, valuer et le Manuel pour relier les examens au CECRL disponibles auprs de la Division des Politiques linguistiques du conseil de lEurope. Deux versions sont disponibles : la grille danalyse et la grille de prsentation (version simplifie) La grille danalyse est destine tre utilise dans des ateliers et des sminaires de calibrage. Si le but de latelier est danalyser le contenu et les spcifications dun test, ltape adquate est celle de la Spcification (chapitre 4). Si la grille est utilise pour calibrer des chantillons locaux nouveaux, la partie adquate du Manuel est la partie 5.6.

La grille de prsentation fournit un rapport descriptif de lanalyse des tches dun test, telle quelle a t faite dans un exercice de calibrage pralable. Si les grilles compltes sont utilises pour la description dchantillons reprsentatifs, elles peuvent tre exploites lors dune formation la standardisation (chapitre 5 de ce manuel). Echantillons des tches dun test Rapport sur lanalyse de Langue cible de ce test Niveau cible (CECRL) de ce test Numro/nom de la tche Information gnrale - le test dans son ensemble 1. La dure du test ou de lexamen dans son ensemble 2. Lobjectif 3. Le contexte /larrire plan de lexamen 4. Les candidats 5. La structure du test Information gnrale - lpreuve de production crite 6. Le nombre de tches dans lpreuve de production crite 7. La dure de lensemble de lpreuve 8. Lintgration des capacits 9. Le mode de prsentation 10. Le niveau CECRL de lpreuve 11. Le format de lpreuve de production crite 12. Linformation spcifique exemple de tche

183

13. La distribution des notes 14. Lvaluation de la tche 15. Le niveau rel 16. Un chantillon de tche Echantillon de tche mettre ici

i) Tche propose/dclencheur 17 18 19 20 21 22 23 24 25 26 27 La langue de la tche propose/du dclencheur Le niveau CEFRL de la tche propose / du dclencheur La dure permise ou suggre pour cette tche Les directives /Conseils Le contenu Le genre La fonction rhtorique de la tche propose Le public attendu Support de la tche propose/ du dclencheur Le thme de la tche Lintgration des capacits langagires dans la tche propose minutes

ii) Rponse (description de la rponse crite suscite par le dclencheur/la tche propose 28 29 30 31 32 33 34 35 Le nombre de mots attendus La fonction rhtorique attendue Lobjectif du texte Le registre Le domaine La comptence grammaticale attendue La comptence lexicale attendue La comptence discursive attendue

184

36 37 38 39

Lauthenticit : situationnelle Lauthenticit : interactionnelle Le processus cognitif La connaissance du contenu

iii) Evaluation de la tche 40 41 42 43 Les critres connus La mthode dvaluation de la tche Les critres dvaluation Le nombre et la composition des valuateurs

iv) Retours dinformations aux candidats 44 45 Les retours dinformations quantitatifs Les retours dinformations qualitatifs

46 Exemple de rponse 47 Commentaire 48 Rsultats attribus Notes : les numros ci-dessous correspondent ceux des items de la grille. 2. Lobjectif du test peut tre lvaluation de la comptence gnrale, ou dune comptence sur objectif spcifique. Indiquer lobjectif sil est spcifique (franais pour le droit, allemand pour des objectifs universitaires, etc.). 3. La description de larrire plan peut comprendre les raisons pour lesquelles ce test est conu, une description de lensemble des tests dont fait partie ce test, ou dautres dtails de ce type. 4. Dcrire le nombre et le profil des candidats (nationalits, ge). 5. Dcrire les autres preuves du test ou de lexamen (par exemple lpreuve de production orale, de rception crite). 6. Au cas o le nombre de tches dpend des options choisies, le spcifier dans lintroduction (point 5). 8 Les capacits, en plus de la production crite, qui sont prises en compte dans cette tche (indpendamment du fait quelles soient prises en compte de faon explicite au moment dvaluer). Choisir entre : aucune, rception crite, orale, production orale, une combinaison. Sous quel format sont consignes les rponses du candidat. Choisir entre le format manuscrit, la saisie lectronique ou lun ou lautre ou les deux.

10 CECRL, chapitre 3

185

11 La description peut comprendre des informations sur le nombre de parties dans lpreuve, le type de tche dans chaque partie, la dure alloue chaque partie. 12 Il est possible dinclure une description courte de la tche ce niveau. La description peut comprendre les buts de la tche, ce quon demande aux candidats de faire et ce qui est attendu pour pouvoir juger que la tche est totalement accomplie. 13 Dcrire comment les points sont rpartis dans cette partie de la tche et ce que les candidats devraient faire pour obtenir la totalit des points. 14 Expliquer comment la tche est value (par exemple manuellement, automatiquement), quels outils sont utiliss et quels sont les lments pris en compte dans la dcision du niveau. 15 Dcrire les mesures prises pour sassurer que les tches de production crite sont au niveau appropri. Cette description peut comprendre le processus de conception de lpreuve et le pr-test. 16 Placer ici un chantillon de tche, y compris la consigne et le document dclencheur. 18 Choisir un niveau du CECRL : A1, A2, B1, B2, C1, C2. 19 Si cela nest pas prcis, la dure attendue. 20 Indiquer jusqu quel point la consigne, le document dclencheur ou la tche propose dterminent la nature et le contenu de la rponse. Choisir entre : directif, semi-directif ou rponse ouverte. 21 Le contenu de la rponse est-il prcis dans la consigne ? Choisir entre : prcis ou non prcis. 22 Choisir entre : lettre (domaine professionnel), lettre (domaine personnel), revue, essai, rdaction, rapport, rcit, projet, article, fiche, autre (prciser). 23 Les fonctions attendues dans la rponse. Choisir entre : dcrire (vnements), dcrire (processus), raconter, commenter, prsenter, expliquer, faire une dmonstration, donner des instructions, argumenter, persuader, rapporter des vnements, donner des opinions, faire des rclamations, suggrer, comparer et opposer, donner des exemples, valuer, exprimer des possibilits/probabilits, rsumer, autres (prciser), CECRL, pages 98-101. 24 Le public auquel est cens sadresser la tche. Choisir entre : ami/connaissance, enseignant, employeur, employ(e), comit, commission, entreprise, tudiants, grand public (par exemple des articles de journaux), autres (prciser) 25 Choisir entre oral, crit ou visuel ou une combinaison. 26 Le sujet ou le thme. Choisir entre : identification personnelle, maison et foyer/environnement, vie quotidienne, congs/loisirs, voyages, relations avec les autres, sant et bien-tre, ducation, achats, nourriture et boisson, services, lieux, langue trangre, temps (mto), autre (prciser) CECRL page 45. 27 Les capacits langagires que le candidat doit avoir pour comprendre la consigne et le document dclencheur. Choisir entre : rception crite, orale ou les deux. 29 Les fonctions attendues dans la rponse. Choisir entre : dcrire (vnements), dcrire (processus), raconter, commenter, prsenter, expliquer, faire une dmonstration, donner des instructions, argumenter, persuader, rapporter des vnements, donner des opinions, faire des rclamations, suggrer, comparer et opposer, donner des exemples, valuer, exprimer des possibilits/probabilits, rsumer, autres (prciser), CECRL, pages 98-101. 30 La ou les fonctions attendues de la rponse. Choisir entre : rfrentiel (pour donner des faits objectifs sur le monde), motif (pour dcrire ltat motionnel de lauteur), conatif (pour persuader le ou les lecteur(s), phatique (pour tablir et maintenir un contact social avec le lecteur),

186

mtalinguistique (pour clarifier ou vrifier la comprhension), potique (crire avec des buts esthtiques). 31 Le registre que les candidats sont supposs adopter dans leur rponse. Choisir entre : informel, sans marqueurs linguistiques informel, sans marqueurs, sans marqueurs formel, formel. CECRL pages 93 96. 32 Le domaine auquel la rponse attendue est cense appartenir. Choisir entre : personnel, public, professionnel, ducationnel. CECRL page 41. 33 Choisir le niveau CECRL : A1, A2, B1, B2, C1, C2 CECRL pages 89 93 34 Choisir le niveau CECRL : A1, A2, B1, B2, C1, C2 CECRL pages 87 89 35 Choisir le niveau CECRL : A1, A2, B1, B2, C1, C2 CECRL pages 96 98 36 Jusqu quel point la tche est un reflet dune activit de la vie relle quun candidat pourrait raliser. Choisir entre : faible, moyen, fort. 37 Jusqu quel point les schmas dinteraction sont susceptibles de reflter ceux dune tche de la vie relle. Choisir entre : faible, moyen, fort. 38 La difficult de rsoudre la tche dun point de vue non linguistique. Choisir entre : reproduction dides connues, transformation des connaissances. 39 Le type de connaissance extralinguistique requise pour rsoudre la tche. Choisir entre : domaines de connaissance personnelle/de la vie quotidienne, domaines de connaissance gnrale/non spcialise, domaines de connaissance spcialise (scientifique, en rapport avec les tudes, etc.) une large gamme de domaines de la connaissance. 40 Dcrire les critres dvaluation ports la connaissance des candidats, soit avant soit pendant lexamen. Si les critres ne sont pas donns, indiquer o ils peuvent tre consults. 41 Choisir entre : impressionniste / holistique, chelle descriptive, chelle analytique. 42 Indiquer les critres utiliss pour la notation. Choisir entre : tendue grammaticale, correction grammaticale, tendue lexicale, correction lexicale, cohsion et cohrence, accomplissement de la tche/ contenu, dveloppement des ides, orthographe, autres (prciser). 43 Si la correction est manuelle, il y aura un ou plusieurs correcteurs. Cependant, il se peut que dans certains cas, les rponses donnent lieu une double ou triple correction par dautres correcteurs de mme statut ou de statut suprieur. Quand cest le cas, ajouter la mention + dans des cas particuliers en fonction du nombre de correcteurs. 44 Les retours dinformations quantitatives transmises de faon rgulire (pour lpreuve de production crite). Choisir entre : scores bruts, sous forme de pourcentage, classement des candidats, niveau du CECRL, note spcifique lexamen, chec/russite, autres (prciser). 45 Les retours dinformations qualitatives transmises de faon rgulire (pour lpreuve de production crite). Choisir entre : commentaires sur chaque critre dvaluation, commentaires holistiques, autres (prciser). 46 Proposer un chantillon de rponse. 47 Une explication ou justification du niveau attribu lchantillon. 48 Le niveau (ou note) attribu cet chantillon.

187

La grille du CECRL pour les tches de production crite

v.3.1

(Analyse)

Cette grille a t conue par un groupe de travail au sein de ALTE dont lobjectif est daider les concepteurs dexamen qui utilisent le Cadre europen commun de rfrence pour les langues : apprendre, enseigner, valuer et le Manuel pour relier les examens au CECRL disponibles auprs de la Division des Politiques linguistiques du conseil de lEurope. Deux versions sont disponibles : la grille danalyse et la grille de prsentation (version simplifie) La grille danalyse est destine tre utilise dans des ateliers et des sminaires de calibrage. Si le but de latelier est danalyser le contenu et les spcifications dun test, ltape adquate est celle de la Spcification (chapitre 4). Si la grille est utilise pour calibrer des chantillons locaux nouveaux, la partie adquate du manuel est la partie 5.6.

La grille de prsentation fournit un rapport descriptif de lanalyse des tches dun test, telle quelle a t faite dans un exercice de calibrage pralable. Si les grilles compltes sont utilises pour la description dchantillons reprsentatifs, elles peuvent tre exploites lors dune formation la standardisation (chapitre 5 de ce manuel). Echantillons des tches dun test Rapport sur lanalyse de Langue cible de ce test Niveau cible (CECRL) de ce test Numro/nom de la tche

Information gnrale - le test dans son ensemble 1. La dure du test ou de lexamen dans son ensemble 2. Lobjectif Minutes Objectif spcifique (prciser)

3. Le contexte /larrire plan de lexamen 4. Les candidats 5. La structure du test ou de lexamen

188

Information gnrale - lpreuve de production crite 6. Le nombre de tches dans lpreuve de production crite La dure de lensemble de lpreuve 1 2 3 4 ou plus

7.

Minutes

8. Lintgration des capacits

Aucune Production orale Une combinaison (prciser)

Rception crite Rception orale Lun ou lautre C1 C2

9. 10.

Le mode de prsentation

Manuscrit

Saisie lectronique A2 B1 B2

Le niveau CECRL de cette preuve A1

11. Le format de lpreuve de production crite 12. Linformation spcifique exemple de tche 13. La distribution des notes 14. Lvaluation de la tche 15. Le niveau rel 16. Un chantillon de tche : Echantillon de tche mettre ici

i) Tche propose/dclencheur 17 18 19 20 21 La langue de la tche propose/du dclencheur Le niveau CEFRL de la tche propose / du dclencheur La dure permise ou suggre pour cette tche Les directives /Conseils Le contenu Directif Entirement prcis A1 A2 B1 B2 minutes Semi-directif Rponse ouverte Partiellement Non prcis prcis C1 C2

189

22

Le genre

(lettre domaine professionnel) revue rdaction rcit article autre (prciser)

lettre (domaine personnel) essai rapport projet fiche

23

La ou les fonctions rhtoriques de la tche propose

dcrire (vnements) raconter prsenter faire une dmonstration argumenter rapporter des vnements faire des rclamations comparer et opposer valuer exprimer des probabilits autres (prciser)

dcrire (processus) commenter expliquer donner des instructions persuader donner des opinions suggrer donner des exemples exprimer des possibilits/probabilits rsumer

24

Le public attendu

ami/connaissance employeur enseignant comit autres (prciser)

grand public employ(e) tudiants entreprise

190

25

Support de la tche propose/ du dclencheur

Oral Visuel

crit Une combinaison maison et foyer/environnement congs/loisirs relations avec les autres ducation nourriture et boisson lieux temps (mto)

26

Le thme de la tche

identification personnelle vie quotidienne voyages sant et bien-tre achats services langue trangre autre (prciser)

27

Lintgration des capacits langagires dans la tche propose

Rception crite

Rception orale

Une combinaison des deux

ii) Rponse (description de la rponse crite suscite par le dclencheur/la tche propose) 28 Le nombre de mots attendus 0-50 151-200 301-350 29 La fonction rhtorique attendue 51-100 201-250 351-400 101-150 251-300 Au-del de 400

dcrire (vnements) dcrire (processus) raconter prsenter faire une dmonstration argumenter rapporter des vnements faire des rclamations commenter expliquer donner des instructions persuader donner des opinions suggrer

191

comparer et opposer valuer Exprimer des probabilits autres (prciser) 30 La ou les fonctions du texte Rfrentielle Conative Mtalinguistique 31 Le registre informel

donner des exemples exprimer des possibilits rsumer

Emotive

Phatique potique sans marqueurs linguistiques informel sans marqueurs formel

sans marqueurs formel 32 Le domaine Personnel Professionnel 33 34 35 36 37 38 La comptence grammaticale attendue La comptence lexicale attendue La comptence discursive attendue Lauthenticit : situationnelle Lauthenticit : interactionnelle Le processus cognitif A1 A1 A1 Faible Faible A2 A2 A2 B1 B1 B1

Public Educationnel B2 B2 B2 C1 C1 C1 Forte Forte C2 C2 C2

Moyenne Moyenne

reproduction dides connues transformation des connaissances

39

La connaissance du contenu requise

gnrale/non spcialise connaissance trs spcialise

connaissance spcialise large gamme de connaissances

iii) Evaluation de la tche 40 Les critres connus

192

41

La mthode dvaluation de la tche

impressionniste / holistique chelle analytique Autre (prciser)

chelle descriptive Avec un systme de compensation

42

Les critres dvaluation

tendue grammaticale tendue lexicale cohsion et cohrence dveloppement des ides autres (prciser)

correction grammaticale correction lexicale accomplissement de la tche/ contenu orthographe

43

Le nombre et la composition des valuateurs

1 3 ou plus 2 ou plus selon les cas

2 1 ou plus selon les cas Evaluation lectronique

iv) Retours dinformations aux candidats 44 Les retours dinformations quantitatifs scores bruts classement des candidats note spcifique lexamen autres (prciser) 45 Les retours dinformations qualitatifs commentaires sur chaque critre dvaluation commentaires holistiques autres (prciser) sous forme de pourcentage niveau du CECRL chec/russite

193

46 Exemple de rponse 47 Commentaire 48 Rsultats attribus Notes : On peut trouver toutes les rfrences au CECRL sur le site de la division des Politiques linguistiques du Conseil de lEurope. Les numros ci-dessous correspondent ceux des items de la grille. 2. Lobjectif du test peut tre lvaluation de la comptence gnrale, ou dune comptence sur objectif spcifique. Indiquer lobjectif sil est spcifique (franais pour le droit, allemand pour des objectifs universitaires, etc.). 3. La description de larrire plan peut comprendre les raisons pour lesquelles ce test est conu, une description de lensemble des tests dont fait partie ce test, ou dautres dtails de ce type. 4. Dcrire le nombre et le profil des candidats (nationalits, ge). 5. Dcrire les autres preuves du test ou de lexamen (par exemple lpreuve de production orale, de rception crite). 6. Au cas o le nombre de tches dpend des options choisies, le spcifier dans lintroduction (point 5). 8. Les capacits, en plus de la production crite, qui sont prises en compte dans cette tche (indpendamment du fait quelles soient prises en compte de faon explicite au moment dvaluer). Choisir entre : aucune, rception crite, orale, production orale, une combinaison. 9. Sous quel format sont consignes les rponses du candidat. Choisir entre le format crit, informatique ou les deux. 10. CECRL, chapitre 3 11. La description peut comprendre des informations sur le nombre de parties dans lpreuve, le type de tche dans chaque partie, la dure alloue chaque partie. 12. Il est possible dinclure une description courte de la tche ce niveau. La description peut comprendre les buts de la tche, ce quon demande aux candidats de faire et ce qui est attendu pour pouvoir juger que la tche est totalement accomplie. 13. Dcrire comment les points sont rpartis dans cette partie de la tche et ce que les candidats devraient faire pour obtenir la totalit des points. 14. Expliquer comment la tche est value (par exemple manuellement, automatiquement), quels outils sont utiliss et quels sont les lments pris en compte dans la dcision du niveau. 15. Dcrire les mesures prises pour sassurer que les tches de production crite sont au niveau appropri. Cette description peut comprendre le processus de conception de lpreuve et le pr-test. 16. Placer ici un chantillon de tche, y compris la consigne et le document dclencheur. 18. Choisir un niveau du CECRL : A1, A2, B1, B2, C1, C2. 19. Si cela nest pas prcis, la dure attendue. 20. Indiquer jusqu quel point la consigne, le document dclencheur ou la tche propose dterminent la nature et le contenu de la rponse. Choisir entre : directif, semi-directif ou rponse ouverte. 21. Le contenu de la rponse est-il prcis dans la consigne ? Choisir entre : prcis ou non prcis.

194

22. Choisir entre : lettre (domaine professionnel), lettre (domaine personnel), revue, essai, rdaction, rapport, rcit, projet, article, fiche, autre (prciser). 23. Les fonctions attendues dans la rponse. Choisir entre : dcrire (vnements), dcrire (processus), raconter, commenter, prsenter, expliquer, faire une dmonstration, donner des instructions, argumenter, persuader, rapporter des vnements, donner des opinions, faire des rclamations, suggrer, comparer et opposer, donner des exemples, valuer, exprimer des possibilits/probabilits, rsumer, autres (prciser), CECRL, pages 98-101. 24. Le public auquel est cens sadresser la tche. Choisir entre : ami/connaissance, enseignant, employeur, employ(e), comit, commission, entreprise, tudiants, grand public (par exemple des articles de journaux), autres (prciser) 25. Choisir entre oral, crit ou visuel ou une combinaison. 26. Le sujet ou le thme. Choisir entre : identification personnelle, maison et foyer/environnement, vie quotidienne, congs/loisirs, voyages, relations avec les autres, sant et bien-tre, ducation, achats, nourriture et boisson, services, lieux, langue trangre, temps (mto), autre (prciser) CECRL page 45. 27. Les capacits langagires que le candidat doit avoir pour comprendre la consigne et le document dclencheur. Choisir entre : rception crite, orale ou les deux. 29. Les fonctions attendues dans la rponse. Choisir entre : dcrire (vnements), dcrire (processus), raconter, commenter, prsenter, expliquer, faire une dmonstration, donner des instructions, argumenter, persuader, rapporter des vnements, donner des opinions, faire des rclamations, suggrer, comparer et opposer, donner des exemples, valuer, exprimer des possibilits/probabilits, rsumer, autres (prciser), CECRL, pages 98-101. 30. La ou les fonctions attendues de la rponse. Choisir entre : rfrentiel (pour donner des faits objectifs sur le monde), motif (pour dcrire ltat motionnel de lauteur), conatif (pour persuader le ou les lecteur(s), phatique (pour tablir et maintenir un contact social avec le lecteur), mtalinguistique (pour clarifier ou vrifier la comprhension), potique (crire avec des buts esthtiques). 31. Le registre que les candidats sont supposs adopter dans leur rponse. Choisir entre : informel, sans marqueurs linguistiques informel, sans marqueurs, sans marqueurs formel, formel. CECRL pages 93 96. 32. Le domaine auquel la rponse attendue est cense appartenir. Choisir entre : personnel, public, professionnel, ducationnel. CECRL page 41. 33. Choisir le niveau CECRL : A1, A2, B1, B2, C1, C2 CECRL pages 89 93 34. Choisir le niveau CECRL : A1, A2, B1, B2, C1, C2 CECRL pages 87 89 35. Choisir le niveau CECRL : A1, A2, B1, B2, C1, C2 CECRL pages 96 98 36. Jusqu quel point la tche est un reflet dune activit de la vie relle quun candidat pourrait raliser. Choisir entre : faible, moyen, fort. 37. Jusqu quel point les schmas dinteraction sont susceptibles de reflter ceux dune tche de la vie relle. Choisir entre : faible, moyen, fort. 38. La difficult de rsoudre la tche dun point de vue non linguistique. Choisir entre : reproduction dides connues, transformation des connaissances. 39. Le type de connaissance extra-linguistique requise pour rsoudre la tche. Choisir entre : domaines de connaissance personnel/de la vie quotidienne, domaines de connaissance

195

gnrale/non spcialise, domaines de connaissance spcialise (scientifique, en rapport avec les tudes, etc.) une large gamme de domaines de la connaissance. 40. Dcrire les critres dvaluation ports la connaissance des candidats, soit avant soit pendant lexamen. Si les critres ne sont pas donns, indiquer o ils peuvent tre consults. 41. Choisir entre : impressionniste / holistique, chelle descriptive, chelle analytique. 42. Indiquer les critres utiliss pour la notation. Choisir entre : tendue grammaticale, correction grammaticale, tendue lexicale, correction lexicale, cohsion et cohrence, accomplissement de la tche/ contenu, dveloppement des ides, orthographe, autres (prciser). 43. Si la correction est manuelle, il y aura un ou plusieurs correcteurs. Cependant, il se peut que dans certains cas, les rponses donnent lieu une double ou triple correction par dautres correcteurs de mme statut ou de statut suprieur. Quand cest le cas, ajouter la mention + dans des cas particuliers en fonction du nombre de correcteurs. 44. Les retours dinformations quantitatives transmises de faon rgulire (pour lpreuve de production crite). Choisir entre : scores bruts, sous forme de pourcentage, classement des candidats, niveau du CECRL, note spcifique lexamen, chec/russite, autres (prciser). 45. Les retours dinformations qualitatives transmises de faon rgulire (pour lpreuve de production crite). Choisir entre : commentaires sur chaque critre dvaluation, commentaires holistiques, autres (prciser). 46. Proposer un chantillon de rponse. 47. Une explication ou justification du niveau attribu lchantillon. 48. Le niveau (ou note) attribu cet chantillon.

196

La grille du CECRL pour les tches de production orale

v.3.1 (Prsentation)

Cette grille a t conue par un groupe de travail au sein de ALTE dont lobjectif est daider les concepteurs dexamen qui utilisent le Cadre europen commun de rfrence pour les langues : apprendre, enseigner, valuer et le Manuel pour relier les examens au CECRL disponibles auprs de la Division des Politiques linguistiques du conseil de lEurope. Deux versions sont disponibles : la grille danalyse et la grille de prsentation (version simplifie) La grille danalyse est destine tre utilise dans des ateliers et des sminaires de calibrage. Si le but de latelier est danalyser le contenu et les spcifications dun test, ltape adquate est celle de la Spcification (chapitre 4). Si la grille est utilise pour calibrer des chantillons locaux nouveaux, la partie adquate du manuel est la partie 5.6.

La grille de prsentation fournit un rapport descriptif de lanalyse des tches dun test, telle quelle a t faite dans un exercice de calibrage pralable. Si les grilles compltes sont utilises pour la description dchantillons reprsentatifs, elles peuvent tre exploites lors dune formation la standardisation (chapitre 5 de ce manuel). 1. 2. Rapport sur lanalyse de Langue cible 1. INFORMATION GENERALE (le test de production orale dans son ensemble) 3. Le nombre de tches dans lpreuve de production orale Lintgration des capacits La dure de lensemble de lpreuve Le niveau cible de la performance Le mode de prsentation Lobjectif du test

4. 5. 6. 7. 8.

197

2. TACHE PROPOSEE/DECLENCHEUR pour la tche n / nom 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 La langue de la consigne Le mode de prsentation Le niveau de langue de la consigne La dure de la tche (minutes) Le nombre dexaminateurs prsents Enregistr ? Directives / conseils par tche Directives / conseils par interlocuteur
Spcification du contenu

Type dinteraction Type de discours Public (rel) Public imagin (comme dans un jeu de rle) Type de dclencheur Thme Organisation du temps Dfinition de la situation fictive 3. REPONSE (la rponse orale suscite par le dclencheur/la tche propose

26 27 28 29 30 31 32 33 34

Longueur de la rponse Type de texte Fonction rhtorique Registre Domaine Niveau grammatical Niveau lexical Comptence discursive attendue Authenticit : situationnelle

198

35 36 37 38

Authenticit : interactionnelle Processus cognitif Connaissance du contenu Fonction de la tche 4. EVALUATION DE LA TACHE

39 40 41 42 43

Critres connus Mthode dvaluation de la tche Critres dvaluation Nombre des valuateurs Prsence dun modrateur 5. RETOURS DINFORMATIONS AUX CANDIDATS

44 45

Les retours dinformations quantitatifs Les retours dinformations qualitatifs

199

La grille du CECRL pour les tches de production orale

v.3.1 (Analyse)

Cette grille a pour but de donner de linformation sur une seule tche du test ou de lexamen tudi. Le tableau INFORMATION GENERALE (partie 1) traite du test de production orale dans son ensemble. Les autres parties se rfrent une seule tche de ce test. Pour les dfinitions (et les traductions) de la terminologie, les utilisateurs se rfreront au Glossaire multilingue des termes de lvaluation de ALTE (Cambridge University Press). 1. INFORMATION GENERALE (le test de production orale dans son ensemble) 0 Nom de lorganisme certificateur qui a conu le test 1 Intitul du test ou de lexamen Epreuves
Epreuve de production orale

2 Langue cible 3 Nombre de tches dans lpreuve de production orale 4 Intgration des capacits46 (entourer au moins une case) Commentaire 1 2 3 4 ou plus

Production orale Rception crite (seule)

Production crite

Rception orale

Degr auquel lpreuve de production orale fait appel une autre comptence langagire. Cette intgration est-elle explicite ou implicite ? Noubliez pas que mme un dclencheur crit implique un degr dintgration dune comptence autre que la production orale qui peut ou non tre prise en compte au moment de lvaluation.

46

200

5 Dure totale de lpreuve (y compris le temps de prparation

Environ minutes (dont .. minutes de prparation)

6 Niveau cible A1 de performance. Production orale gnrale pp. 25 et 49 du CECRL et annexe D des tre capable de de ALTE, p. 244 (entourer au moins une case) 7 Type de passation 8 Objectif du test Face face

A2

B1
B2

C1

C2

Tlphone

Ordinateur Audio Vido

Vido confrence

Magntophone

Camscope

Comptence gnrale

Objectif spcifique (langue sur objectif spcifique)

Chaque tableau suivant (partie 2 6) doit tre complt pour chacune des tches du test (autant de tableaux que de tches). 2. TACHE PROPOSEE/DECLENCHEUR Consignes et dclencheurs (verbaux ou iconographiques) ou toute autre forme de tche destine faire produire la rponse attendue dans la langue cible.

Intitul de la tche dans lpreuve de production orale Langue de la consigne Mode de transmission de la consigne : oral ou crit Langue de lorganisme certificateur Oral Ecrit Langue cible du test Enregistr Autre langue ? Illustr

9 10

201

11

Niveau de langue de la consigne

Bien plus facile que le niveau du test

Plus facile que le niveau du test

Mme niveau que celui du test

Plus difficile que le niveau du test

12 13

Dure de la tche (minutes) Nombre dexaminateurs prsents Enregistr ? Directives / conseils par tche (format de la tche47) Directives / conseils par interlocuteur (souplesse de lexaminateur48) Spcification du contenu Type dinteraction

Environ minutes 0 1 2

14 15

Oui audio Trs directif

Oui vido Partiellement directif Partiellement directif (par exemple entretien sur un thme donn)

Non Rponse ouverte

16

Trs directif (par exemple liste de questions poser)

Rponse ouverte (par exemple un entretien ou une discussion non directifs) Non spcifique

17 18

Spcifique Dialogue : 2 candidats Dialogue : plusieurs candidats Jeu de rle

Dialogue : Dialogue : Monologue candidat et simul, avec examinateur dclencheur enregistr Lecture voix haute Raction un dclencheur Autre :

Rptition du dclencheur 19 Type de discours Entretien Discours, expos 20 Public (rel) Examinateur

Narration (raconter une histoire) Discussion / conversation Professeur Aucun (magntophone) Autre :

Autre candidat

Degr auquel le format de la tche guide ou limite la rponse du candidat. Degr auquel le candidat matrise le format de la tche propose par lexaminateur, ayant un impact sur la nature et le contenu de linteraction. La production peut tre en grande partie non dirige, sous forme de conversation spontane. Le contenu de la rponse attendue est-il spcifi par lexaminateur ?
48

47

202

21

Public imagin (comme dans un jeu de rle)

Employeur

Comit Commission

Entreprise, Professeur magasin, etc. Ami ou connaissance

Rpondeur

Grand public

Membre de la famille

Autre (prciser)

22

Type de dclencheur (slectionner au moins une case)

Uniquement oral (donn oralement par lexaminateur) Texte (crit) Phrases, questions, instructions Lettres Notes, messages, memos, publicits Programmes Formulaires Extraits Iconographique Graphique Tableau Schma Diagramme Carte Suite de diagrammes Illustrations (non verbal) photos dessins Suite de dessins Exemple : thtre, football, etc. Exemple : remplir pour limmigration Livres/journaux/ magazines Annots ou non Par exemple un correspondant Exemple post-it

203

Autre (prciser) :

23

Thme CECRL p. 43 (slectionner au moins une case)

Identification personnelle Maison, foyer, environnement Vie quotidienne Loisirs et divertissements Voyages Relations avec les autres Sant et bien-tre Education Sciences et environnement Autres (prciser) :

Affaires courantes Courses, achats Nourriture et boissons Services Lieux Langues Temps (mto) Clbrits Environnement professionnel

24

Gestion du temps

30 secondes

1 minute

2 minutes Commentaire :

Sans objet

25

Dfinition de la situation fictive

Lieu professionnel

Environnement social

Environnement ducationnel

Autre :

3. REPONSE (la rponse orale attendue, suscite par le dclencheur/la tche propose) 26 27 28 Longueur de la rponse Type de texte Fonction rhtorique, CECRL p. 98 30 sec 1 min 2 min 3 min Phrase Donner des instructions Argumenter Persuader Rapporter des vnements Donner son opinion Se plaindre 4 min 5 min Au-del de 5 min

Niveau de vocabulaire Dcrire (vnements) Dcrire (processus) Dcrire (donnes) Dcrire (objets) Dcrire (images) Raconter Commenter Exposer

Niveau du discours Donner des exemples Faire une synthse Analyser Evaluer Exprimer la possibilit / la probabilit Rsumer Demander des

204

Expliquer Dmontrer 29 30 31 Registre, CECRL p.94 Domaine, CECRL p.43 Niveau grammatical, CECRL p. 89 Niveau lexical, CECRL p. 87 Informel Personnel Uniquement structures simples Public

Suggrer Comparer et opposer Neutre

informations autres : (prciser)

Formel Professionnel Gamme rduite de structures complexes Large gamme de vocabulaire diversifi Educationnel Large gamme de structures complexes Large gamme de vocabulaire diversifi et spcialis

Essentiellement structures simples Vocabulai re tendu

32

Uniquement vocabulaire frquent

Essentielle ment vocabulaire frquent Limit

33

Comptence discursive (par exemple cohsion), CECRL p. 98 Authenticit : situationnelle


49

Usage extrmement limit

Usage matris

Excellent usage

34

Faible

Moyenne

Forte

35

Authenticit : interactionnel le Processus cognitif50

Faible

Moyenne

Forte

36

Uniquement reproduction des ides connues

Transformation des connaissances

Degr auquel la tche renvoie une activit de la vie relle que le candidat est susceptible daccomplir. Quelle est la difficult de la tche, dun point de vue non linguistique ? Exemple : la difficult pour un candidat dinterprter des dclencheurs prsents sous forme de graphique, sil ny est pas habitu.
50

49

205

37

Connaissance du contenu

Personnel / vie quotidienne / besoins lis une communication de base

Commun, Large gamme de gnral, non domaines de spcifique connaissances non spcifiques

Trs large gamme de connaissances (sociales, scientifiques, ducationnelle et parfois spcifiques, etc.) Phatique52

38

Fonction de la tche

Rfrentielle (raconter)

Emotive (ragir)

Conative51

4. EVALUATION DE LA TACHE 39 Critres connus Les critres dvaluation sont-ils disponibles sur la feuille dexamen ? Les candidats sont-ils habitus ces critres ? Oui / Non. Si non , o peut-on les consulter ? 40 Mthode dvaluation de la tche Critres dvaluation Impressioniste/holistique Echelle Mthode descriptive analytique (descripteurs par niveaux) Cohsion et cohrence Matrise du vocabulaire Prononciation (intonation et mlodie) 2 3 Conte nus Communi Dveloppem cation ent des ides interactive Autre :

41

Correction grammaticale Prononciation (phonologie)

42

Nombre des valuateurs

Evaluation lectronique

Autre (expliquer) : 43 Prsence dun modrateur


53

Oui

Non

51 52

Conative : renvoie aux tches qui supposent que le candidat argumente, persuade, discute du pour et du contre, etc. Phatique : qui a pour but de garder le contact avec linterlocuteur. 53 Le modrateur vrifie que les critres dvaluation sont respects de faon cohrente et sassure que les notes sont attribues de faon correcte et juste par les examinateurs.

206

5. RETOURS DINFORMATIONS AUX CANDIDATS


44 Les retours dinformation quantitatifs54 (Cocher) 45 Les retours dinformations qualitatifs Gram maire Lexique Cohsion cohrence Contenu Score brut Score en % Classement (exemple : quartile) Niveau du CECRL Note Echec / spcifique russite lexamen unique ment Autre :

Dveloppe ment des ides

Pertinen Autre ce de la : tche

(Cocher )

54

Information sur leurs performances donnes aux candidats.

207

208

Annexe C Fiches et chelles pour la standardisation et le calibrage (chapitre 5)


Fiche de rapport de formation Lieu Coordinateur Nom : Etape Familiarisation Formation Calibrage Echantillons dvaluation de la production orale Echantillons dvaluation de la production crite Tches/items du test Rception orale Rception crite Comptence linguistique Autres : Date : Institution/projet

Domaines

Participants Activits accomplies

Nombre : Familiarisation Travail avec des exemples reprsentatifs Pratique libre/dirige avec des exemples reprsentatifs Calibrage avec des chantillons de performances locales Formation avec des tches reprsentatives Evaluation de la difficult de litem Retour dinformation sur la difficult relle de litem Autre Echantillons dexemples reprsentatifs du CECRL Outils dvaluation du CECRL (tableaux 5.4,5.5,5.8) Echantillons de performances locales Outils dvaluation adapts ( joindre) Exemples du CECRL de tches et ditems de tests Tches et items de tests locaux Autres

Fonctions :

Matriel utilis

Informations sur les tches et les items Commentaires complmentaires Diffusion des procdures prvues Fiche C1 Fiche de rapport de formation

209

NOM DE LAPPRENANT ________________________________________________________ Niveaux : A1, A2, A2+, B1, B1+, B2, B2+, C1, C2 1. Impression initiale

Classement - chelle globale

2. Analyse dtaille / Estimation laide de la grille


ETENDUE CORRECTION AISANCE INTERACTION COHERENCE

3.

Classement final

Fiche C2 : Fiche analytique dvaluation


Eurocentres (North 1991/1992)/Projet suisse (Schneider and North 2000)

Capacit : ________ Echantillon / Tche 1 Echantillon / Tche 2 Echantillon / Tche 3 Echantillon / Tche 4 Echantillon / Tche 5 Echantillon / Tche 6 Echantillon / Tche 7 Echantillon / Tche 8

Niveau estim

Commentaires

Exemple dune fiche dvaluation simple qui demande au participant dvaluer globalement le niveau de chaque chantillon ou tche. On peut lutiliser pour valuer des performances ou des items de tests. Fiche C3 : Fiche dvaluation globale (DIALANG)

210

Astrix

Idfix

Bcassine

Tintin

Henri IV

Hercule Poirot

Autre nom de code

Autre nom de code

Autre nom de code

Item 1 Item 2 Item 3 Item 4

Fiche C4 : Fiche de synthse de lvaluation globale (DIALANG) Capacit : ________ Descripteur oprationnel (faire la liste des souschelles et les niveaux) Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 etc Fiche C5 : Fiche dvaluation des items (DIALANG) Niveau CECRL estim Commentaires

211

TABLEAU C1: ECHELLE GLOBALE DEVALUATION DE LA PRODUCTION ORALE C2 Transmet, avec naturel et prcision des nuances de sens subtiles. Est capable de sexprimer spontanment et avec beaucoup daisance, de communiquer facilement avec habilet et de discriminer avec prcision des nuances de sens subtiles. Peut produire des descriptions claires, rgulires et bien structures.
C1 Sexprime spontanment et avec aisance dans un discours clair et bien structur. Est capable de sexprimer spontanment et avec aisance, presque sans effort, dans un discours rgulier. Peut faire des descriptions claires et dtailles de sujets complexes. Niveau lev de correction ; les erreurs sont rares.

B2+ B2

Exprime ses opinions sans effort notable. Est capable de communiquer sur une gamme tendue de sujets et de produire des noncs sur un rythme assez rgulier. Peut faire des descriptions claires et dtailles sur une vaste tendue de sujets relatifs son centre dintrt. Ne commet pas de fautes qui provoquent des malentendus.

B1+ B1

Rapporte de faon comprhensible ce quil/elle tient dire. Est capable de tenir un discours comprhensible mme si les pauses pour rechercher des mots ou des phrases ainsi que la remdiation sont trs videntes. Peut relier des lments discrets simples en un paragraphe articul pour faire des descriptions simples sur des sujets familiers varis propres son domaine. Utilisation assez juste dun rpertoire essentiel associ aux situations les plus prvisibles.

A2+ A2

Rapporte des informations de base sur, par exemple, le travail, la famille, les loisirs, etc. Est capable de communiquer dans un change simple et direct dinformations sur des sujets courants. Peut se faire comprendre dans de trs courts noncs mme si les pauses, les hsitations et la reformulation sont trs videntes. Peut dcrire en termes simples ses conditions de vie, ses tudes, son dernier mtier ou son mtier actuel. Utilise correctement des structures simples mais peut commettre systmatiquement des erreurs lmentaires. Sexprime de faon simple sur des dtails personnels et des sujets trs familiers. Est capable de se faire comprendre de faon simple, de poser des questions sur des dtails personnels et dy rpondre condition que linterlocuteur parle lentement et clairement et soit prt aider. Peut se dbrouiller avec des noncs trs courts, isols, le plus souvent strotyps. De nombreuses pauses pour chercher ses mots et prononcer les moins familiers. Natteint pas la norme A1

A1

Audessous de A1 Utiliser cette chelle pour les deux ou trois premires minutes dun chantillon de production orale afin de dcider approximativement du niveau auquel on pense que le locuteur se trouve. Puis passer au Tableau C2 (Tableau 3 du CECRL) et valuer plus en dtail la performance par rapport aux descripteurs de ce niveau.

212

TENDUE

TABLEAU C2: GRILLE DES CRITERES DEVALUATION DE LORAL (CECRL Tableau 3) CORRECTION AISANCE INTERACTION COHRENCE
Maintient constamment un haut degr de correction grammaticale dans une langue complexe, mme lorsque l'attention est ailleurs (par exemple, la planification ou l'observation des ractions des autres). Peut s'exprimer longuement, spontanment dans un discours naturel en vitant les difficults ou en les rattrapant avec assez d'habilet pour que l'interlocuteur ne s'en rende presque pas compte. Peut interagir avec aisance et habilet en relevant et utilisant les indices non verbaux et intonatifs sans effort apparent. Peut intervenir dans la construction de l'change de faon tout fait naturelle, que ce soit au plan des tours de parole, des rfrences ou des allusions, etc. Peut choisir une expression adquate dans un rpertoire courant de fonctions discursives, en prambule ses propos, pour obtenir la parole ou pour gagner du temps pour la garder pendant qu'il/elle rflchit. Peut produire un discours soutenu cohrent en utilisant de manire complte et approprie des structures organisationnelles varies ainsi qu'une gamme tendue de mots de liaisons et autres articulateurs.

C2

Montre une grande souplesse dans la reformulation des ides sous des formes linguistiques diffrentes lui permettant de transmettre avec prcision des nuances fines de sens afin d'insister, de discriminer ou de lever l'ambigut. A aussi une bonne matrise des expressions idiomatiques et familires. A une bonne matrise d'une grande gamme de discours parmi lesquels il peut choisir la formulation lui permettant de s'exprimer clairement et dans le registre convenable sur une grande varit de sujets d'ordre gnral, ducationnel, professionnel ou de loisirs, sans devoir restreindre ce qu'il/elle veut dire.

C1

Maintient constamment un haut degr de correction grammaticale ; les erreurs sont rares, difficiles reprer et gnralement auto-corriges quand elles surviennent.

Peut s'exprimer avec aisance et spontanit presque sans effort. Seul un sujet conceptuellement difficile est susceptible de gner le flot naturel et fluide du discours.

Peut produire un texte clair, fluide et bien structur, dmontrant un usage contrl de moyens linguistiques de structuration et d'articulation.

B2+
Possde une gamme assez tendue de langue pour pouvoir faire des descriptions claires, exprimer son point de vue et dvelopper une argumentation sans chercher ses mots de manire vidente. Montre un degr assez lev de contrle grammatical. Ne fait pas de fautes conduisant des malentendus et peut le plus souvent les corriger lui/elle-mme. Peut parler relativement longtemps avec un dbit assez rgulier ; bien qu'il /elle puisse hsiter en cherchant structures ou expressions, l'on remarque peu de longues pauses. Peut prendre l'initiative de la parole et son tour quand il convient et peut clore une conversation quand il le faut, encore qu'ventuellement sans lgance. Peut faciliter la poursuite d'une discussion sur un terrain familier en confirmant sa comprhension, en sollicitant les autres, etc. Peut utiliser un nombre limit d'articulateurs pour lier ses phrases en un discours clair et cohrent bien qu'il puisse y avoir quelques "sauts" dans une longue intervention.

B2

B1+
Possde assez de moyens linguistiques et un vocabulaire suffisant pour s'en sortir avec quelques hsitations et quelques priphrases sur des sujets tels que la famille, les loisirs et centres d'intrt, le travail, les voyages et l'actualit Utilise de faon assez exacte un rpertoire de structures et "schmas" frquents, courants dans des situations prvisibles. Peut discourir de manire comprhensible, mme si les pauses pour chercher ses mots et ses phrases et pour faire ses corrections sont trs videntes, particulirement dans les squences plus longues de production libre. Peut engager, soutenir et clore une conversation simple en tte--tte sur des sujets familiers ou d'intrt personnel. Peut rpter une partie de ce que quelqu'un a dit pour confirmer une comprhension mutuelle. Peut relier une srie d'lments courts, simples et distincts en une suite linaire de points qui s'enchanent.

B1

A2+
Utilise des structures lmentaires constitues d'expressions mmorises, de groupes de quelques mots et d'expressions toutes faites afin de communiquer une information limite dans des situations simples de la vie quotidienne actualit. Utilise des structures simples correctement mais commet encore systmatiquement deserreurs lmentaires. Peut se faire comprendre dans une brve intervention mme si la reformulation, les pauses et les faux dmarrages sont vidents. Peut rpondre des questions et ragir des dclarations simples. Peut indiquer qu'il/elle suit mais est rarement capable de comprendre assez pour soutenir la conversation de son propre chef. Peut relier des groupes de mots avec des connecteurs simples tels que "et", "mais" et "parce que".

A2

213

A1

Possde un rpertoire lmentaire de mots et d'expressions simples relatifs des situations concrtes particulires

A un contrle limit de quelques structures syntaxiques et de formes grammaticales simples appartenant un rpertoire mmoris

Peut se dbrouiller avec des noncs trs courts, isols, gnralement strotyps, avec de nombreuses pauses pour chercher ses mots, pour prononcer les moins familiers et pour remdier la communication.

Peut rpondre des questions simples et en poser sur des dtails personnels. Peut interagir de faon simple, mais la communication dpend totalement de la rptition avec un dbit plus lent, de la reformulation et des corrections.

Peut relier des mots ou groupes de mots avec des connecteurs trs lmentaires tels que "et" ou "alors".

TABLEAU C3 : GRILLE DES CRITERES SUPPLEMENTAIRES : NIVEAUX PLUS


TENDUE C2 C1 B2+ Peut sexprimer clairement et sans donner limpression davoir restreindre ce quil/elle souhaite dire. A un bon contrle grammatical ; des bvues occasionnelles, des erreurs non systmatiques et de petites fautes syntaxiques peuvent encore se produire mais elles sont rares et peuvent souvent tre corriges rtrospectivement. Peut communiquer avec spontanit, montrant souvent une remarquable aisance et une facilit dexpression mme dans des noncs complexes assez longs. Peut recourir des circonlocutions et des paraphrases pour masquer des lacunes lexicales ou grammaticales. Peut intervenir de manire adquate dans une discussion, en utilisant des moyens dexpression appropris et peut relier habilement sa propre contribution celle dautres interlocuteurs. Peut utiliser avec efficacit une grande varit de mots de liaison pour marquer clairement les relations entre les ides. CORRECTION AISANCE INTERACTION COHRENCE

. B2 B1+ Possde une gamme assez tendue de langue pour dcrire des situations imprvisibles, expliquer le point principal dun problme ou dune ide avec assez de prcision et exprimer sa pense sur des sujets abstraits ou culturels tels que la musique ou le cinma. B1 A2 + Possde un rpertoire de langue lmentaire qui lui permet de se dbrouiller dans des situations courantes au contenu prvisible, bien quil lui faille gnralement chercher ses mots et trouver un compromis par rapport ses intentions de communication. Communique avec une correction suffisante dans des contextes familiers ; en rgle gnrale, a un bon contrle grammatical malgr de nettes influences de la langue maternelle. Peut sexprimer avec une certaine aisance. Malgr quelques problmes de formulation ayant pour consquence pauses et impasses, est capable de continuer effectivement parler sans aide. Peut exploiter un rpertoire lmentaire de langue et de stratgies pour faciliter la suite de la conversation ou de la discussion. Peut faire de brefs commentaires sur les points de vue des autres pendant une discussion. Peut intervenir pour vrifier et confirmer le dtail dune information. Pas de descripteur disponible

. Pas de descripteur disponible Peut adapter des phrases simples rptes et mmorises des situations particulires avec suffisamment daisance pour se dbrouiller dans des changes de routine sans effort excessif, malgr des hsitations et des faux dmarrages vidents. Peut commencer, poursuivre et terminer une simple conversation en tte--tte sur des sujets familiers ou dintrt personnel, passetemps, et activits passes. Peut interagir avec suffisamment daisance dans des situations structures, condition dtre aid, mais la participation une discussion libre est assez restreinte. Peut utiliser les articulations les plus frquentes pour relier des noncs afin de raconter une histoire ou dcrire quelque chose sous forme dune simple liste de points.

A2 A1

214

TABLEAU C4 : GRILLE DES CRITERES DEVALUATION DE LA PRODUCTION ECRITE


Vue densemble Est capable dcrire des textes labors, limpides, fluides et parfaitement corrects dans un style personnel appropri et efficace et qui transmette des nuances fines de sens. Peut utiliser une structure logique qui aide le destinataire remarquer les points importants. Etendue Manifeste une grande souplesse pour formuler des ides sous des formes linguistiques diffrentes afin de transmettre avec prcision des nuances fines de sens, pour insister et pour lever lambigut. Possde aussi une bonne matrise dexpressions idiomatiques et familires. A une bonne matrise dune gamme tendue de langue qui lui permet de sexprimer clairement dans un style appropri sur une vaste tendue de sujets gnraux, acadmiques, professionnels ou de loisirs sans devoir limiter ce quil/elle veut dire. La souplesse de style et de ton est un peu limite. Possde une tendue de langue suffisante pour pouvoir faire des descriptions claires, exprimer des opinions sur les sujets les plus gnraux en utilisant des formes grammaticales complexes pour le faire. Nanmoins, le discours manque dexpressivit et lutilisation de formes plus labores reste strotype. Cohrence Est capable de crer des textes cohrents et articuls en faisant un usage complet et adquat dune varit de modles dorganisation et un choix tendu de connecteurs et autres articulateurs. Est capable de produire des textes clairs et fluides, bien structurs, montrant un usage matris de modles dorganisation, de connecteurs et autres articulateurs. Correction Garde une matrise cohrente et extrmement juste des formes de la langue mme les plus complexes. Les fautes sont rares et portent sur des formes rarement utilises. Description Est capable de rdiger des histoires claires, fluides et trs intressantes ainsi que de dcrire des expriences dans un style appropri avec le genre choisi. Argumentation Est capable de produire des comptes rendus, des articles et des essais labors, clairs et fluides pour prsenter un cas ou donner une apprciation critique de propositions ou duvres littraires. Peut fournir une structure logique efficace et approprie qui aide le lecteur trouver les points importants.

C2

C1

Est capable de rdiger des textes bien structurs et corrects dans lensemble sur des sujets complexes. Peut souligner les points pertinents les plus saillants, tendre et confirmer des points de vue de manire labore par lintgration darguments secondaires, de justifications et dexemples pertinents pour parvenir une conclusion approprie Est capable de rdiger des textes dtaills officiels ou pas sur une gamme tendue de sujets relatifs son domaine dintrt en faisant la synthse et lvaluation dinformations et darguments emprunts des sources diverses. Peut faire la diffrence entre un discours formel ou pas avec de temps autre des expressions moins appropries.

Garde constamment un niveau lev de correction grammaticale ; fautes occasionnelles en grammaire, formes familires et idiomatiques.

Est capable de rdiger des descriptions et des textes cratifs clairs, dtaills et bien construits dans un style personnel, naturel et affirm appropri au lecteur vis.

Est capable dexposer clairement par crit de faon bien structure des sujets complexes en relevant les points saillants importants. Peut tendre et confirmer des points de vue de manire labore par lintgration darguments secondaires, de justifications et dexemples pertinents.

B2

B1

Est capable de rdiger des textes articuls simplement sur une gamme de sujets varis dans son domaine dintrt en liant une srie dlments discrets en une squence linaire. Les textes sont comprhensibles bien que quelques expressions obscures et/ou des incohrences puissent provoquer une rupture de la lecture.

A2

A1

Est capable de rdiger une srie dexpressions et de phrases simples relies par des connecteurs simples tels qu et , mais et parce que . Des textes plus longs peuvent contenir des expressions ainsi que des problmes de cohrence qui rendent le texte difficile comprendre. Est capable dcrire des expressions et phrases simples isoles. Des textes plus longs peuvent contenir des expressions ainsi que des problmes de cohrence qui rendent le texte trs difficile, voire impossible comprendre.

Est capable dcrire des descriptions claires et dtailles dvnements rels ou imaginaires en tablissant la relation entre des ides clairement articules et en suivant les conventions en vigueur du genre en question. Peut faire des descriptions claires et dtailles sur un certain nombre de sujets relatifs son centre dintrt. Peut crire le compte rendu dun film, dun livre ou dune pice. Possde une langue suffisante pour Est capable de lier une Utilise de faon raisonnablement Est capable de rendre compte se dbrouiller avec un vocabulaire srie dlments correcte un rpertoire de clichs dexpriences, de dcrire des suffisant pour sexprimer avec discrets courts en un et dexpressions associs aux sentiments et des ractions dans des quelques priphrases sur des sujets texte linaire articul. situations les plus courantes. textes simplement articuls. Peut faire tels que la famille, les loisirs et les Commet occasionnellement des la description dun vnement, dun centres dintrt, le travail, les erreurs que le lecteur peut voyage rcent rel ou imaginaire. voyages et lactualit. habituellement interprter Peut raconter une histoire. Peut faire correctement en sappuyant sur des descriptions sur un certain nombre le contexte. de sujets courants proches de son centre dintrt. Est capable dcrire de brves Utilise des formules de base Est capable de lier des Utilise correctement des mots avec des structures simples mais commet biographies simples et des pomes dexpressions toutes faites mmorises, de groupes de connecteurs simples tels encore systmatiquement des simples sur les gens. Peut crire des quelques mots et expressions afin qu et , mais et fautes lmentaires. Les erreurs descriptions lmentaires trs brves de communiquer une information parce que . peuvent quelquefois provoquer dvnements, dactivits passes et limite dans des situations simples des malentendus. dexpriences personnelles. de la vie quotidienne. Possde un rpertoire lmentaire Est capable de lier des Ne montre quune matrise Est capable dcrire des phrases et des de mots et dexpressions simples mots ou groupes de limite de quelques structures expressions simples sur des gens rels relatives des questions mots avec des grammaticales simples et de ou imaginaires, o ils vivent et ce personnelles et des situations connecteurs trs clichs mmoriss. Les erreurs quils font. concrtes particulires. lmentaires tels que peuvent provoquer des et et alors . malentendus.

Est capable dutiliser un nombre limit darticulateurs pour relier ses phrases en un texte clair et cohrent bien quil puisse y avoir quelques sauts dans un texte un peu long.

Manifeste un degr relativement lev de matrise de la grammaire. Ne commet pas de fautes qui causent des malentendus.

Est capable de rdiger un essai ou un rapport qui dveloppe systmatiquement une argumentation avec un clairage appropri des points importants ainsi que des dtails secondaires pertinents. Peut valuer des ides ou des solutions diffrentes un problme. Peut crire un essai ou un rapport qui dveloppe une argumentation, justifier ou rejeter une opinion particulire et expliquer les avantages et les inconvnients de choix varis. Peut faire la synthse darguments et dinformations emprunts des sources diverses. Est capable dcrire de courts essais simples sur des sujets dintrt gnral. Peut rsumer avec quelque assurance des informations factuelles nombreuses, en rendre compte et donner son opinion sur des sujets courants ou pas, dans son domaine. Peut crire sous une forme classique des comptes rendus trs courts pour transmettre des informations factuelles courantes et justifier des actions.

S-ar putea să vă placă și