Unicode

Données clés
U+0000-0FFF	U+8000-8FFF
U+1000-1FFF	U+9000-9FFF
U+2000-2FFF	U+A000-AFFF
U+3000-3FFF	U+B000-BFFF
U+4000-4FFF	U+C000-CFFF
U+5000-5FFF	U+D000-DFFF
U+6000-6FFF	U+E000-EFFF
U+7000-7FFF	U+F000-FFFF
U+0000-FFFF	plan 0 (PMB/BMP)
U+10000-1FFFF	plan 1 (PMC/SMP)
U+20000-2FFFF	plan 2 (PSC/SIP)
U+30000-3FFFF	plan 3 (PST/TIP)
U+40000-DFFFF	plans 4 à 13 (réservés)
U+E0000-EFFFF	plan 14 (PCS/SSP)
U+F0000-FFFFF	plan 15 (privé A)
U+100000-10FFFF	plan 16 (privé B)

Unicode est un standard informatique qui permet des échanges de textes dans différentes langues, à un niveau mondial. Il est développé par le Consortium Unicode, qui vise au codage de texte écrit en donnant à tout caractère de n'importe quel système d'écriture un nom et un identifiant numérique, et ce de manière unifiée, quelle que soit la plateforme informatique ou le logiciel utilisé.

Ce standard est lié à la norme ISO/CEI 10646 qui décrit une table de caractères équivalente. La dernière version, Unicode 16.0, a été publiée en septembre 2024^[2].

Totalement compatible avec le jeu universel de caractères (JUC) de l'ISO/CEI 10646, le standard Unicode l'étend en lui ajoutant un modèle complet de représentation et de traitement de textes, en conférant à chaque caractère un jeu de propriétés (qui peuvent être soit pour certaines, standardisées et stabilisées dans toutes les versions d'Unicode où le caractère a été encodé, soit informatives avec seulement une recommandation sur leur usage, qui peut évoluer en fonction des nouveaux besoins trouvés). Ces propriétés décrivent avec précision les relations sémantiques qui peuvent exister entre plusieurs caractères successifs d'un texte, et permettent de standardiser ou recommander des algorithmes de traitement qui préservent au maximum la sémantique des textes transformés. Unicode a pour objet de rendre un même texte utilisable à l'identique sur des systèmes informatiques totalement différents.

Le standard Unicode est constitué d'un répertoire de 154 998 caractères, couvrant plus de 150 écritures, d'un ensemble de tableaux de codes pour référence visuelle, d'une méthode de codage et de plusieurs codages de caractères standard, d'une énumération des propriétés de caractère (lettres majuscules, minuscules, symboles, ponctuation, etc.) d'un ensemble de fichiers de référence des données informatiques, et d'un certain nombre d'éléments liés, tels que des règles de normalisation, de décomposition, de tri, de rendu et d'ordre d'affichage bidirectionnel (pour l'affichage correct de texte contenant à la fois des caractères d'écritures de droite à gauche, comme l'arabe et l'hébreu, et de gauche à droite).

En pratique, Unicode reprend intégralement la norme ISO/CEI 10646, puisque cette dernière ne standardise que les caractères individuels en leur assignant un nom et un numéro normatif (appelé point de code) et une description informative très limitée, mais aucun traitement ni aucune spécification ou recommandation pour leur emploi dans l'écriture de langues réelles, ce que seul le standard Unicode définit précisément. L'ISO/CEI 10646 fait normativement référence à certaines parties du standard Unicode (notamment l'algorithme bidirectionnel et les propriétés des caractères (en)) ; Unicode est également une norme de facto pour le traitement du texte et sert de base à de nombreuses autres normes.

↑ (en) UNICODE, INC, « Announcing The Unicode® Standard, Version 15.1 », 12 septembre 2023 (consulté le 24 janvier 2024)
↑ Inc Unicode, « Announcing The Unicode® Standard, Version 15.0 » (consulté le 16 septembre 2022)

[1] (en) UNICODE, INC, « Announcing The Unicode® Standard, Version 15.1 », 12 septembre 2023 (consulté le 24 janvier 2024)

[archives-2] Inc Unicode, « Announcing The Unicode® Standard, Version 15.0 » (consulté le 16 septembre 2022)

[1]

[2]

U+0000-FFFF	plan 0 (PMB/BMP)
U+10000-1FFFF	plan 1 (PMC/SMP)
U+20000-2FFFF	plan 2 (PSC/SIP)
U+30000-3FFFF	plan 3 (PST/TIP)
U+40000-DFFFF	plans 4 à 13 (réservés)
U+E0000-EFFFF	plan 14 (PCS/SSP)
U+F0000-FFFFF	plan 15 (privé A)
U+100000-10FFFF	plan 16 (privé B)