Évènement

Ateliers du LADIREC | Initiation à l’analyse de textes assistée par ordinateur

Vendredi, 4 février, 2022àVendredi, 3 juin, 2022
En ligne
Prix: 
Gratuit

Le Laboratoire d’analyse des discours et des récits collectifs (LADIREC) offrira, à l’hiver et au printemps 2022, sept ateliers d’initiation aux méthodes et outils d’analyse de textes assistée par ordinateur. Ces ateliers libres sont complémentaires à ceux proposés par le Digital Scholarship Hub de la Bibliothèque McLennan et par la Computational and Data Systems Initiative de la Faculté des sciences de McGill. D’une part, ils sont offerts en français; d’autre part, ils sont spécifiquement orientés vers l’acquisition, la structuration, la manipulation, l’annotation, l’analyse et la visualisation des données textuelles.

Les ateliers sont d’abord destinés aux étudiant·e·s et chercheur·se·s en lettres et sciences humaines, mais ils sont ouverts à toutes et à tous. Aucune formation préalable n’est requise pour y participer, à une exception près*. Il est cependant nécessaire de disposer d’un ordinateur personnel.

La série est organisée dans une logique de continuité; les participant·e·s peuvent toutefois s’inscrire à l’un ou plusieurs des ateliers de façon indépendante. Ceux-ci se tiendront à distance (Zoom).

* Pour l’atelier La géolocalisation des données avec R (13 mai), les participant·e·s devraient avoir suivi les deux ateliers d’initiation à R (25 mars et 1er avril) ou posséder une connaissance de base (débutant) de l’environnement RStudio et du langage R.

 

 


Programmation hiver-printemps 2022

La visualisation des données textuelles avec Shinyapps

Date : vendredi 4 février, 13 h à 15 h

Responsable : pascal.brissette [at] mcgill.ca (Pascal Brissette) (McGill)

Description

Comment manipuler les données sans rien connaître de la programmation? C’est ce que les participant·e·s de l’atelier pourront faire dans cette introduction à l’extension Shiny de R. Ils·elles pourront, à travers un prototype d’application en développement, interagir avec une base de données contenant plus de 30 000 notices de romans français et québécois. Ils·elles pourront observer la distribution de romans sur une carte géographique selon le lieu où se situe l’action, ou encore explorer, à travers un diagramme de réseau, la force des liens entre des sujets et des types de personnages dans des sous-ensembles de documents. On regardera également ce qui se passe derrière l’application lorsqu’on interagit avec elle à travers l’interface utilisateur. Ce sera l’occasion de jeter un coup d’œil à la table des données dont proviennent les graphiques et tableaux, et de mieux comprendre les opérations et calculs qui se font sous cette interface.

 

La constitution de corpus de textes par moissonnage

Date : vendredi 25 février, 13 h à 15 h

Responsables : julien.vallieres-gingras [at] mail.mcgill.ca (Julien Vallières-Gingras) et yu.c.shi [at] mail.mcgill.ca (Yu Chen Shi) (McGill)

Description

Avec le développement spectaculaire des médias sociaux et la transition des médias traditionnels vers des formats numériques, des masses de documents se sont ajoutés à ceux que les sciences humaines et sociales peuvent traditionnellement utiliser pour mieux comprendre les sociétés. Mais comment extraire ces textes numériques et les verser dans des structures de données que l’ordinateur pourra traiter? C’est ce que les participant·e·s apprendront dans cet atelier. Ils·elles pourront se familiariser avec une procédure permettant de constituer rapidement un corpus de textes numériques, sans recourir à des méthodes fastidieuses comme la transcription ou encore la reconnaissance optique de caractères. Plus précisément, on verra comment produire, à l’aide de logiciels gratuits ou téléchargeables pour fin d’évaluation, une série de requêtes permettant d’extraire des contenus textuels du site d’un grand média québécois, et d’organiser ces contenus et leurs métadonnées.

 

La préparation de corpus de textes pour l’analyse

Date : vendredi 11 mars, 13 h à 15 h

Responsables : julien.vallieres-gingras [at] mail.mcgill.ca (Julien Vallières-Gingras) et yu.c.shi [at] mail.mcgill.ca (Yu Chen Shi) (McGill)

Description

Les textes qu’on peut extraire de sites Web ou provenant de bases de données ont généralement besoin d’être nettoyés avant d’être utilisés dans le cadre d’analyses assistées par ordinateur. Quels sont les problèmes les plus fréquents que présentent ces données, et quels sont les moyens de les résoudre? Ces deux questions serviront de fil conducteur à cet atelier qui offrira une introduction pratique à OpenRefine, un logiciel libre spécialisé dans la manipulation de données sous forme de tables. On y apprendra à extraire d’un lot de fichiers au format PDF les textes qu’il contient, à les réunir en une même table, à structurer la table ainsi obtenue, puis à nettoyer et à uniformiser les valeurs de ses cellules.

 

L’analyse de données textuelles avec R (débutant – 1)

Date : vendredi 25 mars, 13 h à 15 h

Responsable : pascal.brissette [at] mcgill.ca (Pascal Brissette) (McGill)

Description

R est un langage de programmation né dans les années 1990 à l’Université d’Auckland (N-Z) et largement utilisé en science des données depuis le début des années 2000. C’est également un logiciel ouvert qui bénéficie d’un environnement de développement gratuit, accessible et attrayant : RStudio. Dans cet atelier, on explorera les avantages et les inconvénients de travailler en langage R sous l’angle de l’analyse des données textuelles. On verra quelles formes le texte doit prendre pour pouvoir être manipulé à l’aide du langage R et quelles transformations il peut devoir subir. Les participant·e·s apprendront à importer un jeu de données textuelles, à l’examiner à l’aide de certaines fonctions et à exécuter quelques tâches simples comme le calcul de la fréquence lexicale.

 

L’analyse de données textuelles avec R (débutant – 2)

Date : vendredi 1er avril, 13 h à 15 h

Responsable : pascal.brissette [at] mcgill.ca (Pascal Brissette) (McGill)

Description

Cet atelier initiera les participant·e·s à la manipulation des données textuelles avec R. On verra la manière de filtrer les données, d’extraire des chaînes de caractères et de les assembler pour en créer de nouvelles. Pour ce faire, on se servira aussi bien des fonctions de base de R que des fonctions plus performantes offertes par les extensions dplyr et stringr. On apprendra à forger des expressions régulières simples et à les mettre à profit dans la manipulation des données. Les textes utilisés au cours de l’atelier proviendront du Projet Gutenberg. On apprendra à importer les textes de ce riche dépôt de livres électroniques en libre accès à l’aide de l’extension gutenbergR.

 

L’analyse de contenu assistée sur NVivo

Date : vendredi 22 avril, 13 h à 15 h

Responsable : doyon.elisabeth [at] courrier.uqam.ca (Elisabeth Doyon) (UQAM)

Description

Les données textuelles sont réputées difficiles à traiter par les algorithmes. Aussi, les chercheur·se·s ont développé au fil des décennies des techniques d’annotation qui permettent d’enrichir les contenus textuels par l’ajout d’étiquettes et de catégories. Ce travail peut être fait à la main, mais il peut également tirer profit de puissants logiciels qui aident l’annotation et l’analyse des résultats. L’atelier sera consacré à l’un des logiciels les plus utilisés dans les laboratoires d’analyse qualitative : NVivo. NVivo donne accès à une interface d’indexation, d’annotation et de navigation des données textuelles structurées et ne demande pas de connaissances en programmation. Son usage facilite le travail de l’analyste sans remplacer ses choix et raisonnements. On présentera des exemples concrets d’analyses de textes dans NVivo et proposera un exercice de groupe sur un corpus commun. Celui-ci visera : 1) l’élaboration d’une grille d’analyse en groupe; 2) l’opérationnalisation de cette grille par codage dans NVivo; 3) l’élaboration de stratégies d’exploration des données selon les codes et les cas. Ce sera l’occasion de traduire les intérêts des participant·e·s pour le contenu d’un corpus en stratégies d’exploration des données, et de passer d’une question de recherche à l’opérationnalisation d’une chaîne de traitement.

Formation préalable recommandée, mais non obligatoire : Getting Started with NVivo (en anglais seulement)

 

La géolocalisation des données avec R

Date : vendredi 3 juin, 13 h à 15 h

Responsables : lisa.teichmann [at] mail.mcgill.ca (Lisa Teichmann) et pascal.brissette [at] mcgill.ca (Pascal Brissette) (McGill)

Prérequis : Les participant·e·s devraient avoir suivi les ateliers d’initiation à R (25 mars et 1er avril) ou posséder une connaissance de base (débutant) de l’environnement RStudio et du langage R.

Description

La géolocalisation est un utile moyen de présenter des données et de les explorer en faisant apparaître une dimension qui échappe souvent à leur examen sous la forme de tables ou de graphiques à barres, soit leur distribution dans l’espace géographique. Ce passage de la table simple à la carte n’est pas toujours facile, cependant. Cet atelier partira d’un cas particulier, la représentation spatiale de crimes sur le territoire montréalais. On verra comment importer un jeu de données depuis le site de Données Québec, puis on utilisera les extensions tidygeocoder et leaflet for R pour projeter ces données sur une carte de la Ville de Montréal.


À propos du LADIREC

Le LADIREC est un laboratoire de recherche de la Faculté des arts de l’Université McGill. Il constitue l’un des trois modules du Pôle d’analyse de données sociales piloté par le Centre de recherches interdisciplinaires en études montréalaises et financé par Montréal en commun. Consultez notre page Web pour en savoir plus.

Back to top