• Exercices sur le « Corpus Prématurés » avec vim
      Dans cette partie, on utilise vim plutôt qu'emacs, car j'ai du réalisé mes exercices sur un serveur distant sans interface graphique.
    • Dans ce fichier, le nombre débutant la ligne concatène le numéro de bébé, celui du jour de l'observation et celui de l'observation dans la journée.
      Dans cette partie, on utilisera le menu de recherche de chaînes de caractères pour réaliser les opérations suivantes :
      1. Rechercher les fiches contenant une interrogation
      2. Rechercher les fiches correspondant au bébé 12
      3. Rechercher les fiches correspondant au bébé 1
      4. Rechercher les fiches pour lesquelles le score médical est de 12
      5. Faire de même pour un score de 10. Pouvez-vous expliquer le résultat ? Les notes 10 sont suivies de tab ? C'est un problème de formatage que j'ai repéré et que j'ai intégré dans ma regex précédente.elle marche donc également pour les scores de 10
      6. Vous détaillerez la démarche mise en œuvre pour réaliser ce travail.
    • Fichier de travail p96.bal
      http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/parcours/corpus/p96.bal
      1. Rechercher les fiches concernant les bébés 10 à 12
      2. Rechercher les fiches concernant les bébés 10 et 12, c'est-à-dire sans 11 et 13
      3. Rechercher le nombre de bébés de 23, ..., 30 semaines
      4. Rechercher les fiches du jour 0 pour lesquels le bébé est né à 28 semaines
      5. Rechercher les fiches des bébés nés entre 23 et 29 semaines
      6. Rechercher les fiches pour lesquels le bébé à la naissance faisait au moins 1000 grammes
      7. Rechercher les fiches pour lesquels le bébé à la naissance faisait moins de 1000 grammes
      8. Vous détaillerez la démarche mise en œuvre pour réaliser ce travail.
  • Exercices sur le « Corpus Prématurés » avec egrep
    • Fichier p96.tab.
      http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/parcours/corpus/p96.tab
      Dans cette partie, on doit obtenir en sortie un fichier pour chaque requête demandée.
      1. Extraire les fiches contenant une interrogation
      2. Extraire les fiches correspondant au bébé 12
      3. Extraire les fiches correspondant au bébé 1
      4. Extraire les fiches pour lesquelles le score médical est de 12
      5. Faire de même pour un score de 10.
      6. Quelles sont les fiches qui vont être extraites si l'on recherche les fiches commençant par 13 ? Expliquer ? Avec une regex en "^13", on recupere aussi le bébé 1 au jour 3. C'est pourquoi la regex que j'utilise a une condition de formatage sur le nombre de digits qui doivent suivrent le 13
      7. Extraire les fiches correspondant aux bébés faisant au moins 1000 grammes.
    • Fichier p96.bal
      http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/parcours/corpus/p96.bal
      Dans cette partie, on doit obtenir en sortie un fichier pour chaque requête demandée.
      1. Extraire les fiches concernant les bébés 10 à 12
      2. Extraire les fiches concernant les bébés 10 et 12, c'est-à-dire sans 11 et 13
      3. Trouver le nombre de bébés de 23, ..., 30 semaines
      4. Extraire les fiches du jour 0 pour lesquels le bébé est né à 28 semaines
      5. Extraire les fiches des bébés nés entre 23 et 29 semaines
      6. Extraire les fiches pour lesquels le bébé à la naissance faisait au moins 1000 grammes
      7. Extraire les fiches pour lesquels le bébé à la naissance faisait moins de 1000 grammes
      8. Extraire les fiches rédigées par les infirmières 12 et 22
      9. Si l'on veut extraire les fiches rédigées par les infirmières 2, 12 et 22, quel est l'inconvénient de la solution suivante ?
        egrep '<INFIRMIERE>(2|12|22)' p96.bal
        On va récupérer les fiches des infirmières 2, 12, 22, mais aussi 20,21,23,...
      10. Extraire les fiches concernant le bébé 10 et ne correspondant pas au jour 0
  • Exercices sur le « Corpus Prématurés » (textutils niveau 0)

    Textes de travail : index des mots du corpus prématurés
    Ressources : http://tal.univ-paris3.fr/corpus/Prem-txt.zip
    On trouvera dans l'archive précédente un fichier regroupant l'ensemble des mots du corpus (un par ligne).
    Chaque ligne est construite de la manière suivante :

    bébé_NMS

    un mot est suivi de sa catégorie : la forme bébé Nom Masculin Singulier

    1. Déterminer les différentes catégories présentes dans le corpus (leur nombre et leur fréquence)
    2. Pour chaque catégorie déterminer tous les mots associés.
  • Exercices sur le « Corpus Prématurés » (niveau 1)

    Outils : commandes TextUtils etc.
    Textes de travail : p96.tab, p96.tag
    http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/parcours/corpus/p96.tag
    http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/parcours/corpus/p96.tab

    • Etape 1 : un index des adjectifs
      • Essayer de construire un index de tous les adjectifs présents dans le corpus. (Outils disponibles : commandes TextUtils)
    • Etape 2 : filtrages
      Après avoir choisi 5 adjectifs de cet index :
      • extraire les zones textuelles contenant les adjectifs choisis et le numéro de l'infirmière associée
      • extraire le premier mot des zones textuelles précédentes, les classer par infirmière, en faire le tri et les compter