Python

  • Mon programme en Python (clic droit pour télécharger le programme)

  • Article de Le Monde que le programme analyse

  • Page web produit par le programme

  • Schéma Global du Programme:

  • Etapes du Programme

    Cet étape du programme permet d'ouvrir une page de l'internet après avoir importé des modules de Python.

    Le nettoyage des balises était un étape très important dans ce programme et il était en fait très compliqué. La page web que j’ai choisi à analyser avait un format très particulier pour son codage. Bien que tous son code se trouvait entre les balises html, la plupart de ce codage se trouvait sur plusiers lignes et l’expression régulière que j'ai écrit premièrement ne pouvait pas le nettoyer parce que le point qui représente des caractères quelconques ne se rend pas compte des lignes vides. Donc, j’ai du utiliser la fonction DOTALL du module re, pour faire le point représenter même les lignes vides.

    Cette portion du programme sert de couper le texte de la page entre les mots et prépare le chemin pour le prochain étape

    Cet étape sert de créer une liste des mots coupés et de les mettre dans un tableau avec leurs fréquences. Cependant, il y a un problème en ce qui concerne le découpage des mots dans l'article. Le programme ne reconnaît pas les lettres accentées,même après avoir réencodé le texte de la page, et donc prend ces caractères commes des caractères non-alphanumériques (qui sont les frontières de découpage). Alors, dans la page web générée, il y a quelque mots qui n'ont pas été coupé de la bonne façon.