Des données textuelles brutes aux textes utilisables (2)
Les textes : des origines multiples
- les documents électroniques peuvent être obtenus par reconnaissance optique
- ils peuvent provenir d ’une frappe directe (via un logiciel de type « traitement de textes »)
- encodages multiples : texte brut, format RTF (format propriétaire de WORD), format HTML, format POSTSCRIPT (langage de description de page pour l ’impression)…
- le codage des caractères diffère : e accent aigu, \ ’{e} en LATEX, {\cchs256 \ ’8e} en RTF, é en SGML….
- ils sont saisis sur des ordinateurs de type différent (MACINTOSH/PC…) utilisant des systèmes d ’exploitation différents (Windows 3.1, 95, 98, 2000, MS-DOS…)