BAO1
BAO1 "extraction du texte" : parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique)
Par Yihan QU et Jiaqi XU de l'Université Sorbonne Nouvelle.
BAO1 "extraction du texte" : parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique)
BAO2 "étiquetage du texte" : les contenus textuels extraits doivent être étiquetés automatiquement (Treetagger et Talismane ou UDpipe : annotation en morpho-syntaxe et en dépendances)
BAO3 "extraction de patrons" : recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.) ou de relations de dépendances (cf Cours Documents Structurés)
BAO1 "extraction du texte" : parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique)
BAO2 "étiquetage du texte" : les contenus textuels extraits doivent être étiquetés automatiquement (Treetagger et Talismane ou UDpipe : annotation en morpho-syntaxe et en dépendances)
BAO3 "extraction de patrons" : recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.) ou de relations de dépendances (cf Cours Documents Structurés)
Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...).
Yihan Qu, M1 Sorbonne-nouvelle, filière TAL (Traitement Automatique des langues).
Jiaqi XU, M1 Sorbonne-nouvelle, filière TAL (Traitement Automatique des langues).
Yihan Qu, M1 Sorbonne-nouvelle, filière TAL (Traitement Automatique des langues).
Jiaqi XU, M1 Sorbonne-nouvelle, filière TAL (Traitement Automatique des langues).
Yihan Qu, M1 Sorbonne-nouvelle, filière TAL (Traitement Automatique des langues).
Jiaqi XU, M1 Sorbonne-nouvelle, filière TAL (Traitement Automatique des langues).