Sobre o projeto

O projeto Caixa de Ferramenta é o trabalho de conclusão de curso de umas das disciplina do segundo semestre do Mestrado de Tratamento Automático de Línguas Naturais.



Objetivos

Automatisar um processo de coleta e análise de padrões lexicais de um corpus texto.

Ferramentas Variadas

Criar vários script em Perl que possam ser modificidos e adaptados para trabalhar com diversos contextos diferentes, mas com objetivos similares.

Resultados

Exibir os resultados em forma de gráficos acompanhados de nossa interpretação.




Como as nossa ferramentas trabalham em conjunto:


  • OS DADOS

    Os dados

    Le Monde

    Os dados são compostos de feeds RSS de 2014 do jornal Le Monde. Os arquivos encontram-se em formato XML e organizados em pastas separadas por mês de publicação.

  • 1

    Ferramenta 1

    Extração de títulos e descrições

    Nosso primeiro script percorre a estrutura de arquivos e extrai todo conteúdo presente nas balisas <title> e <description>. Esses dados são em seguida tratados para que seja feita a substituição des caractères especiais, a exclusão das imagens e de outros dados que não serão tratados.

  • 2

    Ferramenta 2

    Etiquetagem de Partes do discurso

    Esta ferramenta coleta a saída do script 1 e utilisa dos etiquetadores de parte do discurso (POS Tagger) diferentes: TreeTagger e Cordial.

  • 3

    Ferramenta 3

    Procurar padrões morfosintáticos

    A ferramenta 3 é composta de dois scripts diferentes; um para tratar a saída feita por TreeTagger e outro para tratar a saída Cordial. O objetivo é buscar padrões morfosintáticos específicos nesses dois resultados (ex. substantivo-preposição-substantivo)

  • 4

    Ferramenta 4

    O resultados em forma de gráficos

    Nossa última ferramenta utiliza as sequência encontradas para criar um representação visual desses syntagmas dentro do texto.




  • Análise

Ferramenta 1

Nosso primeiro script percorre a estrutura de arquivos e extrai todo conteúdo presente nas balisas <title> e <description>. Esses dados são em seguida tratados para que seja feita a substituição des caractères especiais, a exclusão das imagens e de outros dados que não serão tratados.



Panorama

O que a ferramenta 1 faz?

Versão em feita em sala de aula

Perl

Outras versões

Perl com XPATH

Nossa primeira versão

Perl Puro

Nossa segunda versão

Módulos do Perl

Resultados

Exemplo

Ferramenta 2

Esta ferramenta coleta a saída do script 1 e utilisa dos etiquetadores de parte do discurso (POS Tagger) diferentes: TreeTagger e Cordial.



Panorama

O que a ferramenta 2 faz?

Versão feita em sala de aula

O método do professor

Le Trameur

Ferramenta 2 & Ferramenta 3 & Ferramenta 4

Nossa primeira versão

Pure Perl

Nossa segunda versão

Módulos do Perl

Resultados

Exemplo

Ferramenta 3

Procurar padrões morfosintáticos nas saídas do TreeTagger e Cordial.



Panorama

O que a ferramenta 3 faz?

Versões feitas em sala de aula

Perl

Outras versões

XPATH

Nossas versões

Modificação dos scripts

Padrões

Padrões utilizados

Resultados

Frases extraídas

Ferramenta 4

A ferramenta 4 utiliza as sequência encontradas para criar um representação visual desses syntagmas dentro do texto.



Panorama

Como criar os gráficos

Gráfico 1

substantivo-adjetivo

Gráfico 2

substantivo-preposição-artigo-substantivo

Gráfico 3

PCTFORTE ":"

Gráfico 4

Conjunção

Análises

O que nós podemos concluir?

A equipe



Alexandre Cavalcante

Português, Francês

Genevieve Bienvenue

Inglês, Francês

Virginie Poadey

Francês, Japonês

Nós somos estudantes do primeiro ano de mestrado du curso Tratamento Automático de Línguas Naturais oferecido pelo Institut National des Langues et Civilisations Orientales (INALCO) em Paris, França. Mais informações sobre a nossa formação podem ser encontradas neste link (textos em Francês).