seminaire.GIF (889 octets)professeur.GIF (560 octets)

Cours 2:
La notion de validité

 

1. LA NOTION MULTIPLE DE VALIDITÉ

La notion de validité est omniprésente en psychologie et elle prend un sens différent selon le contexte où elle s'applique.  

Validité d'un test statistique Par exemple, on parle souvent de la validité d'un test statistique.  La préoccupation est alors de s'assurer que l'on a bien respecté les postulats d'utilisation d'un test statistique et que les conclusions que nous tirons de ce test sont valides.

Ainsi, personne n'oserait contester que le coefficient de corrélation r de Pearson est un test statistique réputé, couramment utilisé et très valable pour démontrer la relation entre deux variables.  Mais imaginez que vous avez utilisé ce test dans le contexte suivant: l'échantillon était composé de huit participants; de plus, l'un des participants se démarquait nettement du reste de l'échantillon puisqu'il avait un score extrêmement élevé sur l'une des variables mises en corrélation.    Ici, il y a de fortes chances que la conclusion à laquelle vous arriverez après le calcul du r de Pearson soit invalide.  Remarquez bien que ce n'est pas le test statistique lui-même qui est invalide, mais plutôt l'interprétation que nous en faisons.

  

Vous entendrez aussi parler de la validité interne et de la validité externe d'une recherche.  Ici encore on s'intéresse à la validité du jugement du chercheur. 

Imaginez un chercheur qui voudrait démontrer que l'observation de la réussite chez autrui permet d'améliorer la précision dans le lancer-franc au ballon-panier.  Il évalue la performance de base chez 25 participants qui font chacun 5 tentatives de lancers.  La moyenne du groupe à ce pré-test est de 1.2 paniers réussis.  Tous les participants sont alors soumis au traitement expérimental qui consiste à observer un joueur de haut calibre effectuer une dizaine de tirs au panier, parfaitement exécutés et réussis.  L'expérience se termine par un post-test au cours duquel chaque participant exécute à nouveau 5 tirs au panier.   La moyenne du groupe à ce post-test est de 3.4 paniers réussis et un test t confirme que la différence entre les moyennes du pré- et du post-test est statistiquement significative (p <.001).  Le chercheur conclut que le traitement a fonctionné et que le fait d'observer le joueur expert a provoqué une amélioration dans la précision du tir des participants-observateurs.

  

Validité interne L'exemple fictif précédent illustre une recherche dont la validité interne est très faible, sinon complètement inexistante.  La validité interne concerne  la pertinence ou la justesse de l'explication fournie par le chercheur pour expliquer les résultats qu'il a obtenus dans son expérience

Ici, il est bien facile d'imaginer plusieurs facteurs explicatifs de l'amélioration, autres que le traitement expérimental administré...  Notez qu'il y a réellement eu une nette amélioration entre le pré- et le post-test; cette différence est valide! Ce qui l'est moins, c'est l'explication donnée par le chercheur pour rendre compte de cette amélioration!

  

Validité externe La validité externe d'une recherche quant à elle s'intéresse à la pertinence de généraliser notre conclusion à d'autres contextes, d'autres populations ou d'autres types de comportements que ceux utilisés dans l'expérience.  

Autrement dit, après avoir mis en place tout l'arsenal expérimental pour s'assurer de mener une recherche inébranlable au plan de la validité interne, un chercheur doit demeurer particulièrement prudent lorsqu'il veut généraliser ses résultats.  Il est bien possible que le contrôle rigoureux de son étude limite la généralisation de ses conclusions. 

Il est impossible de maximiser dans une même étude la validité interne et la validité externe.  À cause de cette contrainte, il faut généralement privilégier la première.  En effet, la validité interne est nécessaire, bien que non suffisante, pour garantir la validité externe d'une recherche.

 

2. LA VALIDITÉ DES TESTS ET DES INSTRUMENTS DE MESURE

Dans le cas des tests et des instruments de mesure, il est souhaitable d'adopter la même perspective que précédemment et de recentrer la question de la validité sur le jugement qui est porté plutôt que sur le test lui-même.   Il est beaucoup trop simpliste de dire qu'un test est valide d'une façon absolue et définitive!   Un test peut être valide chez les jeunes adultes, mais pas nécessairement chez les gens âgés; ou il peut être valide pour faire une étude exploratoire sur un nouveau phénomène, mais pas valide au point de l'utiliser dans un contexte de sélection de personnel...

La publication "Standards for Educational and Psychological Testing" (APA, 1985) précise que la validité d'un test réfère à "la justesse, la pertinence et la signification des inférences que l'on fait à partir des résultats à ce test (page 9)."  En d'autres termes, un instrument de mesure est valide lorsqu'il nous permet de rencontrer les objectifs pour lequel il a été développé et pour lesquels nous comptons l'utiliser.  Il revient au développeur ou à l'utilisateur d'un test de démontrer qu'il est légitime de s'appuyer sur les résultats au test pour tirer telle ou telle conclusion... dans un contexte d'utilisation bien précis.

Vous avez certainement déjà lu ou entendu la définition suivante: "Un test est valide s'il mesure bien ce qu'il est supposé mesurer." Vous comprendrez que cette définition n'est pas mauvaise, mais qu'elle tend à présenter la validité d'un point de vue très statique: comme si un test était valide à 100 %, une fois pour toutes, ou ne l'était pas du tout!   En fait, la question de la validité d'un test n'est jamais définitive... elle doit être constamment réexaminée en fonction de l'usage que l'on veut faire du test et des conclusions que l'on s'apprête à tirer.

 

3. TROIS TYPES D'ÉVIDENCE PERMETTENT DE JUGER DE LA VALIDITÉ D'UNE MESURE

Quelle sorte de jugement peut-on porter sur la validité d'une mesure?

Une possibilité serait de se fier "au gros bons sens" et de porter un jugement global sur la validité apparente ("face validity") de l'instrument.

Par exemple, une chercheure s'intéresse au concept d'engagement créateur qui, selon elle, serait l'une des dimensions importantes de la notion plus générale de créativité.  Après avoir examiné le contenu des différents tests de créativité disponibles, elle conclut qu'aucun de ces tests ne mesure l'engagement créateur et elle décide donc de développer un nouvel instrument.

Le jugement sur la validité apparente est souvent porté après que le test ait été développé.  Il s'appuie sur un examen plutôt subjectif du contenu du test et est évidemment tributaire du niveau d'expertise du chercheur à l'égard du domaine concerné.  

On s'attend généralement à ce que la validité d'un test soit examinée de façon plus systématique en s'appuyant sur une évidence plus facile à objectiver.  Il y a alors trois perspectives que l'on peut adopter.

 

Validité de contenu Ce premier point de vue s'intéresse spécifiquement au contenu du test et examine jusqu'à quel point le contenu est représentatif du domaine à propos duquel des conclusions seront tirées.  La validité apparente mentionnée précédemment est assez proche de la validité de contenu ("content validity").

On a souvent souligné l'importance de la validité de contenu dans le domaine des tests d'aptitudes et de rendement scolaire.  L'exemple classique serait celui d'un test de mathématiques au primaire qui comporterait des questions d'addition, de soustraction, de multiplication, mais qui aurait complètement omis les questions sur la division.  Ce test ne serait pas valide pour porter un jugement sur le niveau de connaissance des enfants en mathématiques puisque ses items n'échantillonnent pas de façon adéquate l'ensemble du domaine que l'on prétend mesurer.

Depuis quelques années la notion de validité de contenu a pris plus d'importance et est maintenant considérée dans une grande variété de domaines.  En particulier, on peut penser aux tests et entrevues utilisés en sélection de personnel: il est important de démontrer que les comportements examinés en entrevue de sélection sont représentatifs des comportements jugés importants dans le milieu de travail pour lequel on fait la sélection.

  

Validité de critère Cette deuxième perspective examine jusqu'à quel point les résultats au test sont reliés au comportement, à la performance ou au trait que l'on veut mesurer.  Les résultats au test sont donc comparés ou mis en relation avec une variable externe, que l'on nomme le critère ("criterion-related validity").

Il est possible de recueillir simultanément les résultats au test et la mesure du critère externe; on parlera alors de validité concomitante ("concurrent validity").

Par ailleurs, il est aussi très fréquent qu'un test soit administré dans le but de prédire un comportement ou une habileté future (le critère).  Lorsque le test est administré avant l'évaluation du critère, on parle de validité prédictive ("predictive validity").

 

Un exemple de validité concomitante serait de démontrer qu'un mini-test de l'état mental ("Mini-mental Test") permet de classer les participants sur un continuum de détérioration cognitive d'une manière comparable à ce qui serait obtenu au même moment en s'appuyant sur les résultats d'un examen neuropsychologique complet (le critère).

Dans le cas de la validité prédictive, on penserait plutôt à des exemples issus du domaine de la sélection.  Ainsi, on dirait qu'un test d'imagerie mentale manifeste une certaine validité prédictive s'il permet d'identifier dès l'entrée à l'université les étudiants qui auront plus de succès dans leur carrière d'architecte.

La mesure de la validité de critère (concomitante ou prédictive) s'évalue par un coefficient de corrélation entre le test et le critère externe.  On qualifie alors le nom de ce coefficient de corrélation en le désignant de coefficient de validité.

Un point très important concernant la validité de critère est sa nature complètement athéorique. Selon cette perspective, un test est valide dès que l'on réussit à démontrer empiriquement la relation entre le test et le critère.  Par exemple, si je démontre qu'il existe une relation entre le bonheur des individus et la grosseur des lobes d'oreilles, je suis en présence d'un test valide du bonheur, même si cette observation empirique défie totalement ma compréhension! 

Évidemment, les chercheurs préfèrent généralement s'appuyer sur des considérations plus théoriques dans l'élaboration de leurs instruments de mesure.  Si je désire prédire la qualité future des interventions d'un psychologue, j'aurai tendance à chercher du côté des mesures d'empathie plutôt que des mensurations physiques...  La considération d'éléments théoriques nous amène directement vers la troisième perspective de validité.

   

Validité de construit La validité de construit ("construct validity") implique de vérifier jusqu'à quel point certains concepts explicatifs sont capables de rendre compte de la performance au test.  Par exemple, je peux démontrer la validité d'un nouveau test d'intelligence en démontrant que les résultats à ce test sont reliés aux résultats obtenus à d'autres mesures connues de l'intelligence, tout en ne montrant aucune corrélation avec des tests de vitesse d'exécution, d'habileté manuelle et de perception visuelle.

La validité de construit est d'autant plus importante en psychologie qu'elle permet d'aller au delà des limites inhérentes à la validité de contenu et à la validité de critère.  En effet, la psychologie s'intéresse à des réalités pour lesquelles il est particulièrement difficile de définir des critères satisfaisants (validité de critère) et de s'assurer que la totalité du domaine qui nous intéresse a été pris en compte dans notre mesure (validité de contenu).  

Pour les raisons qui viennent d'être évoquées, la validité de construit est au coeur de la démarche scientifique des psychologues et elle est particulièrement appropriée à la mesure de concepts abstraits.  La validation de construit est une démarche qui se fait en trois étapes:

  1. Le chercheur spécifie comment il conçoit le réseau de relations théoriques entre les concepts qu'il étudie; ce qui l'amène à formuler des hypothèses spécifiques.

  2. Il examine ensuite les relations empiriques observées entre les mesures des concepts qui l'intéressent.
      

  3. L'évidence empirique recueillie est alors interprétée pour déterminer si la mesure se comporte comme cela était anticipé dans le cadre de la théorie initiale.

Cronbach et Meehl (1955) qui ont formalisé la notion de validation de construit insistent sur la nature complexe et de longue haleine de cette entreprise.  La validation d'un construit ne s'obtient qu'après avoir mené une série de recherches dans lesquelles des résultats concluants ont été obtenus par différents chercheurs travaillant sur différents aspects théoriques.  Ce n'est définitivement pas l'affaire d'une seule étude!

Voici un exemple de validation de construit tiré de Rust et Golombok (1989), Modern Psychometrics: The science of psychological assessment.

L'Inventaire de personnalité de Eysenck.

Ce test développé par Eysenck est une mesure de névrosisme et  d'introversion-extraversion. Le recours à la validité de critère posait problème: avec quel critère d'extraversion pouvait-on corréler le score d'extraversion de ce test pour le valider?  Il n'existait justement pas de mesure disponible d'extraversion...  Eysenck est cependant capable d'anticiper comment un extraverti devrait se distinguer d'un introverti sur différents aspects.  

  1. Selon sa théorie, l'extraverti possède un système nerveux central moins excitable, ce qui amène à prédire que l'extraverti sera moins facilement conditionnable que l'introverti.

  2. Un individu extraverti devrait aussi être moins tolérant à la privation sensorielle qu'un individu introverti.

  3. L'EEG d'un extraverti devrait montrer moins d'activité électrique que l'EEG d'un introverti.

Chacune de ces prédiction a été vérifiée à travers une série d'expériences variées qui ont confirmé les attentes.  Ce cumul de résultats probants a amené Eysenck à conclure à la validité du construit "introversion-extraversion" et de sa mesure. 

 

Retour au plan du cours 2