103DACOM1

Construction et préparation des données linguistiques

Ce module initie les étudiants aux principes, aux méthodes et aux bonnes pratiques de construction des données dans le domaine du traitement automatique des langues (TAL). Les étudiants apprennent à collecter, à nettoyer, à annoter et à documenter des corpus linguistiques conformément aux standards professionnels ainsi qu’aux exigences éthiques et juridiques en vigueur, notamment en matière de licences, de protection des données personnelles (RGPD) et de consentement à l’utilisation des données. Une initiation au langage de programmation Python permet aux étudiants d’automatiser les principales étapes du cycle de vie des données, telles que la collecte, la normalisation et l’analyse de corpus, à l’aide de bibliothèques accessibles aux débutants. Le module couvre notamment : • le cycle de vie des données linguistiques (collecte, normalisation, segmentation, annotation et documentation) ; • les formats standards de représentation des données (XML, JSON, TMX) ainsi que les outils d’annotation manuelle et semi-automatique ; • les enjeux liés à la qualité des données (équilibrage, représentativité, biais) et les stratégies adaptées aux langues disposant de ressources limitées ; • l’utilisation de Python pour le nettoyage, la transformation et l’analyse exploratoire de corpus ; • la création de jeux de données destinés à l’entraînement et à l’évaluation de modèles de traitement automatique des langues ; • la planification et la gestion des métadonnées afin de garantir la réutilisabilité, la traçabilité et l’interopérabilité des ressources linguistiques. Des ateliers pratiques accompagnent les étudiants dans la constitution d’un corpus multilingue de petite taille ainsi que dans la production d’une documentation répondant aux exigences de la recherche et des milieux professionnels.


Temps présentiel : 30 heures


Charge de travail étudiant : 50 heures


Méthode(s) d'évaluation : Examen final, Examen partiel, Travaux pratiques contrôlés