Les pièges des données des médias sociaux
Or, de plus en plus, des lacunes sont démontrées dans bon nombre de ces études, d’où la nécessité, pour les chercheurs, d’éviter les pièges redoutables de l’utilisation de vastes corpus de données issues des médias sociaux, selon des informaticiens de l’Université McGill, à Montréal, et de l’Université Carnegie Mellon, à Pittsburgh.
Ces résultats erronés peuvent avoir de lourdes conséquences. En effet, chaque année, des milliers d’articles de recherche reposent maintenant sur les données issues des médias sociaux. « Bon nombre de ces articles sont utilisés par le public, l’industrie et le gouvernement pour motiver et justifier des décisions et des investissements », affirme Derek Ruths, professeur adjoint à l’École d’informatique de l’Université McGill.
Dans un article publié dans le numéro du 28 novembre 2014 de la revue scientifique Science, Derek Ruths et Jürgen Pfeffer, de l’Institut de recherche logicielle de l’Université Carnegie Mellon, font ressortir plusieurs problèmes associés à l’utilisation de données issues des médias sociaux – et proposent des stratégies permettant de les surmonter. Ils mentionnent notamment les problèmes suivants :
- les diverses plateformes de médias sociaux attirent différents types d’utilisateurs. Pinterest, par exemple, intéresse surtout les femmes de 25 à 34 ans, mais les chercheurs corrigent rarement l’image biaisée que ces échantillons peuvent donner;
- les sources de données accessibles publiquement reflètent rarement l’ensemble des données des médias sociaux, et les chercheurs ignorent généralement quand et comment les médias sociaux filtrent leurs flux de données;
- la conception des plateformes de médias sociaux peut dicter la façon dont les utilisateurs se comportent et, par conséquent, le type de comportements qu’il est possible de mesurer. Ainsi, sur Facebook, l’absence d’un bouton « je n’aime pas » rend plus difficile la détection de réactions négatives au contenu que la présence d’un bouton « j’aime » témoignant de réactions positives;
- un grand nombre de polluposteurs (« spammers ») et de bots, qui se font passer pour des utilisateurs normaux sur les médias sociaux, sont intégrés par erreur à de nombreuses mesures et prédictions du comportement humain;
- les chercheurs font souvent état de leurs résultats pour des groupes d’utilisateurs, de sujets et d’événements faciles à classifier, donnant ainsi l’illusion que les nouvelles méthodes sont plus exactes qu’elles ne le sont en réalité. Ainsi, les efforts visant à déterminer l’orientation politique d’utilisateurs de Twitter ne sont exacts qu’ 65 % dans le cas des utilisateurs types, et ce, même si certaines études (basées sur des utilisateurs politiquement actifs) ont fait état d’une exactitude de 90 %.
Selon Derek Ruths et Jürgen Pfeffer, des solutions bien connues à bon nombre de ces problèmes ont déjà été trouvées par des disciplines telles que l’épidémiologie, la statistique et l’apprentissage machine. « Ces problèmes ont ceci en commun que les chercheurs doivent savoir exactement ce qu’ils analysent réellement lorsqu’ils travaillent à l’aide de données issues des médias sociaux », affirme Derek Ruths.
Les spécialistes des sciences sociales ont déjà affiné leurs normes et leurs techniques afin de relever ce type de défi avec succès. « La célèbre manchette de 1948 “Dewey défait Truman” vient du fait que les sondages téléphoniques avaient sous-échantillonné les partisans de Truman dans la population générale », explique le professeur Ruths. « Or, plutôt que de discréditer de façon permanente le recours aux sondages, cette erreur monumentale a mené aux méthodes de sondage plus évoluées et plus exactes, ainsi qu’aux normes plus strictes que nous connaissons aujourd’hui. Nous en sommes maintenant à un tournant technologique semblable. En nous attaquant à ces problèmes, nous pourrons mesurer pleinement les avantages que comporte la recherche fondée sur les données issues des médias sociaux. »
--------------
Social Media for Large Studies of Behavior, Derek Ruths et Jürgen Pfeffer, Science, 28 novembre 2014. http://www.sciencemag.org/content/346/6213/1063.summary