Boîte à Outils
En avant les bricoleurs !

À Propos

Voici le projet d'un de nos cours du second semestre de Master en Traitement Automatique des Langues.



Objectifs

Automatiser un procédé d'extraction et regarder à travers un large corpus divers patrons lexicaux.

De multiples outils

Ecrire plusieurs scripts Perl qui peuvent être généralisés et modifiés pour travailler dans divers contextes mais dans des buts similaires.

Résultats

Montrer les résultats sous forme de graphes avec nos interprétations.




La manière dont nos outils fonctionnent ensemble :


  • LES DONNEES

    Les données

    Le Monde

    Nos données sont les fils RSS 2014 du journal Le Monde. Les fichiers sont au format XML et rangés dans des dossiers classés par mois.


  • 1

    Outil 1

    Extraction des titres et descriptions

    Notre première Outil lit la structure des fichiers et extrait tout ce qui se trouve entre les balises <title> et <description>. Ces données sont ensuite nettoyées pour remplacer les caractères échappés, supprimer les images et toute autre donnée non traitable.


  • 2

    Outil 2

    Part-of-speech tagging

    Cet outil prend la sortie de l'Outil 1 et utilise ensuite deux POS taggers différents : TreeTagger et Cordial.


  • 3

    Outil 3

    Chercher les syntagmes morphosyntaxiques

    L'Outil 3 est composée de deux scripts différents, un pour la sortie TreeTagger et l'autre pour Cordial. On cherche des patrons morphosyntaxiques spécifiques à travers ces deux sorties (ex : nom-préposition-nom).


  • 4

    Outil 4

    Les résultats sous forme de graphes

    Notre dernière Outil utilise les patrons trouvés pour créer une représentation visuelle de ces syntagmes dans le texte.




  • Analyse

Outil 1

Notre première Outil lit la structure des fichiers et extrait tout ce qui se trouve entre les balises <title> et <description> Ces données sont ensuite nettoyées pour remplacer les caractères échappés, supprimer les images et toute autre donnée non traitable.



Vue d'ensemble

Que fait l'Outil 1 ?

Versions faites en cours

Perl

Autres versions

Perl avec XPATH

Notre version 1

Pure Perl

Notre version 2

Perl Modules

Résultats

Un exemple

Outil 2

Cet Outil prend la sortie de l'Outil 1 et utilise ensuite deux POS taggers différents : TreeTagger et Cordial.



Vue d'ensemble

Que fait l'Outil 2 ?

Version faite en cours

La methode du professeur

Le Trameur

Outil 2 & Outil 3 & Outil 4

Notre version 1

Pure Perl

Notre version 2

Perl modules

Résultats

Un exemple

Outil 3

Chercher les syntagmes morphosyntaxiques dans les sorties de TreeTagger and Cordial



Vue d'ensemble

Que fait l'Outil 3 ?

Versions faites en cours

Perl

Autres versions

XPATH

Nos versions

Modification des scripts

Patrons

Patrons utilisés

Résultats

Phrases extraites

Outil 4

L'Outil 4 utilise les patrons trouvés pour créer une représentation visuelle de ces syntagmes dans le texte.



Vue d'ensemble

Comment créer ces graphes ?

Graphe 1

NOM-ADJ

Graphe 2

NOM-PREP-DET-NOM

Graphe 3

PCTFORTE ":"

Graphe 4

CONJONNCTION

Analyses

Que pouvons-nous conclure ?

Nous



Alexandre Cavalcante

portugais, français

Genevieve Bienvenue

anglais, français

Virginie Poadey

français, japonais

Nous sommes des étudiants en première année de Master en Traitement Automatique des Langues à l'Institut National des Langues et Civilisations Orientales (INALCO) à Paris, en France. Vous pouvez trouver toutes les informations sur notre cursus ici.