Bao1_Jiaxin_He.pl
Voici le détail :
On nettoie le text et extrait les cotenus des titres et des descriptions. Pour éviter d'extraire les doublons, on a ajouté un dictionnaire dans ce script par rapport qu'on avait fait en cours.
Bao1_Jiaxin_He.py
Voici le détail :
On fait le même traitement que perl pour supprimer prendre les phrases deux fois et on programme une fonction pour parcourir les fichiers à traiter plus tard.
On obtient deux fichiers au format txt et au format xml qui sont nécessaires pour la phase suivant.
Le fichier txt :
Le fichier xml :