Secteur TAL Informatique,
Université Sorbonne nouvelle, Paris 3

19 rue des Bernardins, 75005 Paris
Outils CLA2T/SYLED

Lexico3

Logiciels de lexicométrie. Lexico3 est l'édition 2001 du logiciel Lexico dont la première version remonte à 1990. Les fonctionnalités présentes dès la première version (segmentation, concordances, décomptes portant sur les formes graphiques, spécificités et analyses factorielles portant sur les formes et les segments répétés) ont été conservées et, la plupart du temps notablement améliorées. L'originalité principale de la série Lexico est qu'elle permet à l'utilisateur de garder la maîtrise sur l'ensemble des processus lexicométriques depuis la segmentation initiale jusqu'à l'édition des résultats finaux. Les unités qui seront ensuite automatiquement décomptées sont exclusivement constituées à partir de la liste des délimiteurs fournie par l'utilisateur, sans recours à des ressources dictionnairiques extérieures. Au-delà du repérage des seules formes graphiques, le logiciel permet d'étudier dans les textes la répartition d'unités plus complexes composées de séquences de forme : segments répétés, couples de forme en cooccurrence, etc. au contenu souvent moins ambigu que les formes graphiques dont elles sont composées.

http://www.tal.univ-paris3.fr/lexico

Lexico3 : sorties normalisées au format XML

Plateforme expérimentale pour la gestion des sorties produite par Lexico3. Cette application utilise le processeur XSLT écrit en javascript et fourni par Google. Ce programme nommé AJAXSLT est disponible en ligne à cette adresse :
http://sourceforge.net/projects/goog-ajaxslt/

http://www.tal.univ-paris3.fr/rapL3xml/

Textokub

Ressources textométriques incrémentales. Chantier en cours

http://www.tal.univ-paris3.fr/textokub/

Le Metier Lexicométrique (aka le trameur)

Ressources textométriques incrémentales. Chantier en cours

http://www.tal.univ-paris3.fr/trameur/

mkAlign (offline)

Le programme mkAlign (offline) permet de construire ou de corriger un alignement de 2 textes puis de produire une version XML du bi-texte aligné. Version exécutable pour Windows.

Serge Fleury, Masha Zimina (EA2290 SYLED/CLA2T), "mkAlign, Manuel d'utilisation" : format PDF, format HTML

http://www.tal.univ-paris3.fr/mkAlign/

mkAlign (online)

Le programme mkAlign (online) permet de construire une version XML d'un bi-texte aligné. En développement.

http://www.tal.univ-paris3.fr/mkAlign/mka-online/

Outils - Corpus "Le Monde En Ligne"

Outils de manipulation des ressources textuelles construits dans le cadre d'un projet de constitution d'un corpus de veille à partir de la version électronique du journal Le Monde.

http://www.tal.univ-paris3.fr/sfleury/veille.htm

Fils de Presse

Lecture de Fils RSS de journaux en ligne et génération de Nuages de Mots et de traitements textométriques.

http://www.tal.univ-paris3.fr/filspresse/. {Travaux en cours : Des nuages de mots qui s'attirent (mars-avril 2006)], Des nuages de mots qui s'attirent [19/11/2005-18/06/2006] (2)}

Wiki TAL-Lexicométrie

Wiki du groupe Groupe d'Analyse des Données Textuelles - Format des données réunissant des chercheurs de la communauté des statistiques textuelles

http://tal.univ-paris3.fr/wakka/wakka.php?wiki=PagePrincipale

Générateur de Métadonnées

L'outil makeMETADATA permet de générer un fichier de métadonnées pour une ressource donnée. Cet outil est développé dans le cadre d'un projet innovant ED268. L'objectif de ce projet est de proposer une réflexion et une démarche pour constituer des ressources linguistiques normalisées (données orales, écrites et vidéo) dans un cadre pluridisciplinaire. L'outil est disponible dans une version offline (exécutable sous windows) et dans une version online (formulaire en ligne).

http://pi-ed268.univ-paris3.fr

MkCorpus

Logiciel d'aide à la préparation et à la manipulation de données textuelles. Mkcorpus est un programme de préparation de corpus pour leurs analyses ultérieures via des outils traditionnels du TAL. Il est écrit en Perl/TK. Ce programme permet : de visualiser le corpus, de manipuler via des outils idoines le contenu du corpus et de ses éléments pour les formater suivant les contingences imposées par les outils (suppression de balises, nettoyage...). Cet outil se présente comme un éditeur traditionnel et les menus construits permettent de réaliser des opérations sur les fichiers visualisés dans la zone d'édition ou attachés aux programmes de traitement.

http://www.tal.univ-paris3.fr/sfleury/mkcorpusProject.htm

SEGMENTS

Le programme segments permet de construire les segments répétés dans un fichier texte.

http://www.tal.univ-paris3.fr/segments/

patron2graphe

Le programme patron2graphe permet de construire un graphe de séquence de terme correpondant à un patron donné.

http://www.tal.univ-paris3.fr/patron2graphe/

minigrep multilingue

Filtrage dans des fichiers multilingues..

http://www.tal.univ-paris3.fr/minigrep/