Encodage de taille fixe sur 4 octets. Il s'agit d'un sous-ensemble de l'UCS-4 pour
les valeurs comprises entre 000000 et 10FFFF (Unicode).
Une séquence initiale correspondant à "zero-width no-break space" U+FEFF doit être
placée en début de chaîne (flot) et être interprétée comme une marque d'ordre d'écriture des octets
"Bit Order Mark" (BOM) : big-endian ou little-endian.
Caractères: | BOM | A | P | I | : | ɛ | SPACE | |
---|---|---|---|---|---|---|---|---|
little-endian: | FFFE0000 | 41000000 | 50000000 | 49000000 | 3A000000 | 5B020000 | 20000000 | |
big-endian: | 0000FEFF | 00000041 | 00000050 | 00000049 | 0000003A | 0000025B | 00000020 | |
G | o | t | h | i | c | : | 𐌰 | |
47000000 | 6F000000 | 74000000 | 68000000 | 69000000 | 63000000 | 3A000000 | 30030100 | |
00000047 | 0000006F | 00000074 | 00000068 | 00000069 | 00000063 | 0000003A | 00010330 |
Encodage de longueur variable sur 16 ou 32-bit (2 ou 4 octets) équivalent au standard Unicode avec l'utilisation des paires de substituts (surrogate). Chaque valeur UCS-2 vaut pour elle même. Les codes en dehors du BMP et compris dans les plans de 1 à 16 du groupe 00 sont représentés sur 4 octets (un couple de 2 mots de 2 octets chacun: le premier mot doit être compris entre D800 et DBFF le second entre DC00 et DFFF ce qui représente 10242 (220)combinaisons possibles en plus des 216 combinaisons du BMB).
UTF-16 | Scalar Value | |
---|---|---|
BMP | xxxxxxxxxxxxxxxx | xxxxxxxxxxxxxxxx |
Plan 1 à 16 | 110110wwwwxxxxxx 110111xxxxxxxxxx | 000uuuuuxxxxxxxxxxxxxxxx |
Exemple | 1101100000000000 1101111100000010 | 000000010000001100000010 |
Une séquence initiale correspondant à "zero-width no-break space" U+FEFF doit être
placée en début de chaîne (flot) et être interprétée comme une marque d'ordre d'écriture des octets
"Bit Order Mark" (BOM) : big-endian ou little-endian.
Caractères | BOM | A | P | I | : | ɛ | SPACE | ||
---|---|---|---|---|---|---|---|---|---|
little-endian | FFFE | 4100 | 5000 | 4900 | 3A00 | 5B02 | 2000 | ||
big-endian | FEFF | 0041 | 0050 | 0049 | 003A | 025B | 0020 | ||
G | o | t | h | i | c | : | 𐌰 | ||
4700 | 6F00 | 7400 | 6800 | 6900 | 6300 | 3A00 | DC00 | DF30 | |
0047 | 006F | 0074 | 0068 | 0069 | 0063 | 003A | 00DC | 30DF |
Encodage de longueur variable sur 1 à 6 octets.
Caractère | rang | Valeur scalaire | UTF-8 | |
---|---|---|---|---|
a | ASCII | 00000000.00000000.00000000.01100001 | a | 01100001 |
é | ISO-8859-1 | 00000000.00000000.00000000.11101001 | é | 11000011.10101001 |
ɛ | API | 00000000.00000000.00000010.01011011 | É› | 11001001 10011011 |
𐌰 | Gothic | 00000000.00000001.00000011.00110000 | ðŒ° | 11110000.10010000.10001100.10110000 |
Encodage de longueur variable sur 1 à 9 octets utilisant uniquement des caractères ASCII (7 bits).
Utilisé principalement pour le courier (SMTP). Les caractères a-z A-Z 0-9 et quelques autres
sont codés tels que, les autres sont codés avec un sous ensemble de ces derniers avec un caractère
'+' au début et un caractère '-' à la fin...
Par exemple: le caractère 'é'
est codé par
la séquence: +AOk-