Encodages définis par l'Unicode

UCS Transformation Format ou Unicode Transformation Format (UTF)

UTF-32

Encodage de taille fixe sur 4 octets. Il s'agit d'un sous-ensemble de l'UCS-4 pour les valeurs comprises entre 000000 et 10FFFF (Unicode).
Une séquence initiale correspondant à "zero-width no-break space" U+FEFF doit être placée en début de chaîne (flot) et être interprétée comme une marque d'ordre d'écriture des octets "Bit Order Mark" (BOM) : big-endian ou little-endian.

Caractères: BOM A P I : ɛ SPACE

little-endian: FFFE0000 41000000 50000000 49000000 3A000000 5B020000 20000000

big-endian: 0000FEFF 00000041 00000050 00000049 0000003A 0000025B 00000020

G o t h i c : 𐌰

47000000 6F000000 74000000 68000000 69000000 63000000 3A000000 30030100

00000047 0000006F 00000074 00000068 00000069 00000063 0000003A 00010330

Résultat: API:ɛ Gothic:𐌰

Caractères:	BOM	A	P	I	:	ɛ	SPACE
little-endian:	FFFE0000	41000000	50000000	49000000	3A000000	5B020000	20000000
big-endian:	0000FEFF	00000041	00000050	00000049	0000003A	0000025B	00000020
	G	o	t	h	i	c	:	𐌰
	47000000	6F000000	74000000	68000000	69000000	63000000	3A000000	30030100
	00000047	0000006F	00000074	00000068	00000069	00000063	0000003A	00010330

UTF-16

Encodage de longueur variable sur 16 ou 32-bit (2 ou 4 octets) équivalent au standard Unicode avec l'utilisation des paires de substituts (surrogate). Chaque valeur UCS-2 vaut pour elle même. Les codes en dehors du BMP et compris dans les plans de 1 à 16 du groupe 00 sont représentés sur 4 octets (un couple de 2 mots de 2 octets chacun: le premier mot doit être compris entre D800 et DBFF le second entre DC00 et DFFF ce qui représente 1024² (2²⁰)combinaisons possibles en plus des 2¹⁶ combinaisons du BMB).

UTF-16 Scalar Value

BMP xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx

Plan 1 à 16 110110wwwwxxxxxx 110111xxxxxxxxxx 000uuuuuxxxxxxxxxxxxxxxx

Exemple 1101100000000000 1101111100000010 000000010000001100000010

wwww = uuuuu - 1.
Codage du caractère U+010302 comme une surrogate pair U+D800 U+DF02 Exemple d'Encodage/Decodage UTF-16

	UTF-16	Scalar Value
BMP	xxxxxxxxxxxxxxxx	xxxxxxxxxxxxxxxx
Plan 1 à 16	110110wwwwxxxxxx 110111xxxxxxxxxx	000uuuuuxxxxxxxxxxxxxxxx
Exemple	1101100000000000 1101111100000010	000000010000001100000010

Une séquence initiale correspondant à "zero-width no-break space" U+FEFF doit être placée en début de chaîne (flot) et être interprétée comme une marque d'ordre d'écriture des octets "Bit Order Mark" (BOM) : big-endian ou little-endian.

Caractères BOM A P I : ɛ SPACE

little-endian FFFE 4100 5000 4900 3A00 5B02 2000

big-endian FEFF 0041 0050 0049 003A 025B 0020

G o t h i c : 𐌰

4700 6F00 7400 6800 6900 6300 3A00 DC00 DF30

0047 006F 0074 0068 0069 0063 003A 00DC 30DF

Résultat: API:ɛ Gothic:𐌰

Caractères	BOM	A	P	I	:	ɛ	SPACE
little-endian	FFFE	4100	5000	4900	3A00	5B02	2000
big-endian	FEFF	0041	0050	0049	003A	025B	0020
	G	o	t	h	i	c	:	𐌰
	4700	6F00	7400	6800	6900	6300	3A00	DC00	DF30
	0047	006F	0074	0068	0069	0063	003A	00DC	30DF

UTF-8

Encodage de longueur variable sur 1 à 6 octets.

Les caractères UCS inférieurs à 7F sont encodés par un octet (comme dans l'US-ASCII: 00000000 à 011111111).
Les caractères UCS supérieurs à 7F sont encodés en séquences de 2 à 6 octets pris dans l'intervalle 80-FD

Le premier octet d'une séquence multi-octet est toujours dans l'intervalle C0-FD (11000000-11111101).
Le nombre de 1 à gauche indique le nombre d'octet de la séquence.
Les autres octets de la séquence sont toujours dans l'intervalle 80-BF. (10000000 10111111)

Caractère rang Valeur scalaire UTF-8

a ASCII 00000000.00000000.00000000.01100001 a 01100001

é ISO-8859-1 00000000.00000000.00000000.11101001 Ã© 11000011.10101001

ɛ API 00000000.00000000.00000010.01011011 É› 11001001 10011011

𐌰 Gothic 00000000.00000001.00000011.00110000 ðŒ° 11110000.10010000.10001100.10110000

Exemple d'Encodage/Decodage UTF-8

Caractère	rang	Valeur scalaire	UTF-8
a	ASCII	00000000.00000000.00000000.01100001	a	01100001
é	ISO-8859-1	00000000.00000000.00000000.11101001	Ã©	11000011.10101001
ɛ	API	00000000.00000000.00000010.01011011	É›	11001001 10011011
𐌰	Gothic	00000000.00000001.00000011.00110000	ðŒ°	11110000.10010000.10001100.10110000

UTF-7 (Historique)

Encodage de longueur variable sur 1 à 9 octets utilisant uniquement des caractères ASCII (7 bits). Utilisé principalement pour le courier (SMTP). Les caractères a-z A-Z 0-9 et quelques autres sont codés tels que, les autres sont codés avec un sous ensemble de ces derniers avec un caractère '+' au début et un caractère '-' à la fin...
Par exemple: le caractère 'é' est codé par la séquence: +AOk-