| 103DACOM1 | Construction et préparation des données linguistiques |
|---|---|
|
Ce module initie les étudiants aux principes, aux méthodes et aux bonnes pratiques de construction des données dans le domaine du traitement automatique des langues (TAL). Les étudiants apprennent à collecter, à nettoyer, à annoter et à documenter des corpus linguistiques conformément aux standards professionnels ainsi qu’aux exigences éthiques et juridiques en vigueur, notamment en matière de licences, de protection des données personnelles (RGPD) et de consentement à l’utilisation des données. Une initiation au langage de programmation Python permet aux étudiants d’automatiser les principales étapes du cycle de vie des données, telles que la collecte, la normalisation et l’analyse de corpus, à l’aide de bibliothèques accessibles aux débutants. Le module couvre notamment : • le cycle de vie des données linguistiques (collecte, normalisation, segmentation, annotation et documentation) ; • les formats standards de représentation des données (XML, JSON, TMX) ainsi que les outils d’annotation manuelle et semi-automatique ; • les enjeux liés à la qualité des données (équilibrage, représentativité, biais) et les stratégies adaptées aux langues disposant de ressources limitées ; • l’utilisation de Python pour le nettoyage, la transformation et l’analyse exploratoire de corpus ; • la création de jeux de données destinés à l’entraînement et à l’évaluation de modèles de traitement automatique des langues ; • la planification et la gestion des métadonnées afin de garantir la réutilisabilité, la traçabilité et l’interopérabilité des ressources linguistiques. Des ateliers pratiques accompagnent les étudiants dans la constitution d’un corpus multilingue de petite taille ainsi que dans la production d’une documentation répondant aux exigences de la recherche et des milieux professionnels. Temps présentiel : 30 heures Charge de travail étudiant : 50 heures Méthode(s) d'évaluation : Examen final, Examen partiel, Travaux pratiques contrôlés |