• Accueil
  • 04/11/2020
  • 18/11/2020
  • 25/11/2020
  • 02/12/2020
  • ../../....

Ce site donne accès à des enregistrements des commandes tapées dans la console pendant les cours....

On essaiera d'y ajouter progressivement tous les enregistrements faits pendant les séances à venir.

Pour ceux intéressés par la technique utilisée : regardez ici : https://asciinema.org/

On y trouvera aussi un état des tableaux construits progressivement par les différents scripts mis en oeuvre.

Résultats produits à l'issue de la séance précédente

Lien Tableau

Lien Script

Animation du jour n°1 : 04/11/2020

Objectifs :

  1. mettre en place le traitement des aspirations via CURL qui se passent mal (code retour CURL)
  2. Il faut tester l'encodage de l'URL ou de la page aspirée ?

Passez en mode plein écran pour voir toute la console

Résultats produits à l'issue de la séance précédente

Lien Tableau

Lien Script

Animations du jour (1) : extraction du charset dans une page HTML

Objectifs :
Pour certaines pages HTML récupérées par curl, on n'a pas pu détecter l'encodage...
Il faut donc mettre en oeuvre des alternatives.
Ci-dessous, 2 solutions :

  • la première utilise essentiellement egrep et les expressions régulières
  • la seconde utilise un script perl (ici sa version compilée pour windows)
    ce programme, dans ces différents versions, est accessible sur iCampus

Vous pourrez tester ces 2 solutions sur les URLs visées...
Les solutions présentées sont éventuellement à affiner et à intégrer dans le script en tenant compte des contraintes imposées par le script lui-même.

Passez en mode plein écran pour voir toute la console

Animation du jour (2) : Calcul index hiérarchique + bigrammes

Objectifs :
Pour chaque fichier DUMP, on va calculer 2 choses

  • son index hiérarchique : la liste des mots du fichier et leur fréquence
  • la liste des bigrammes de ce fichier : liste des séquences de 2 mots consécutifs

On utilise pour cela la commande egrep puis des commandes classiques : sort, uniq, head, tail, paste...

Ces calculs seront à intégrer dans le script en tenant compte des contraintes imposées par le script lui-même.

Passez en mode plein écran pour voir toute la console

Animation du jour (3) : présentation de la commande cut

Cette animation introduit une courte présentation de la commande cut.

Résultats produits à l'issue de la séance précédente

Lien Tableau

Lien Script

Ce qu'il reste à faire sur les URLs pas détectées en UTF8 par CURL

OBJECTIF : Pour les URLs "non UTF8" : produire le code nécessaire à leurs traitements
Au final la chaîne de traitements envisagés "pourrait ressembler" (par exemple) à ce qui est décrit dans le schéma ci-dessous (mais on pourrait faire différemment et/ou mieux et même plus simple...).
Ce schéma reprend la partie du code après la détection de l'encodage par CURL.
Ce graphique met aussi en avant des "zones de traitements similaires" à différents endroits (suivant les différents cas envisagés) ==> comment factoriser tout cela (notion de procédure, de fonction ?).

clic sur l'image pour détails

TABLEAU FINAL

Le tableau final pourrait ressembler à ceux visibles sur cette page : http://www.tal.univ-paris3.fr/plurital/cours/PPE/SITE-PROJET-WIP/PROJET-MOT-SUR-LE-WEB-V2/TABLEAUX/tableau.html.

...

...