Des données textuelles brutes aux textes utilisables (3)
Traiter les textes pour permettre leur exploitation
- on parle de nettoyage, de formatage, de balisage, d ’encodage
Utiliser et travailler sur des textes
- c ’est souvent transformer ou modifier les données brutes pour les rendre utilisables
- Du nettoyage au balisage
- nettoyer : éliminer les scories
- formater : donner aux textes des formats adéquats pour leur appliquer des traitements
- appliquer des opérations élémentaires d ’extraction ou d ’ajout d ’information : index, concordances, étiquetage...