UTF-8

UTF-8 (zkratka pro UCS/Unicode Transformation Format) je jedním ze způsobů kódování znaků, tedy přiřazení číselných kódů znakové sadě (písmenům abecedy a dalším znakům) pro potřeby počítačového zpracování textů. Představuje rozšířený mezinárodní standard dle norem Unicode/ISO/IEC 10646 a dominantní způsob kódování na internetovém webu, který umožňuje ukládat a zobrazovat texty s použitím široké palety světových písem.

Používá proměnnou délku znaku od 1 do 4 bajtů, zatímco standardy UTF-16 a UTF-32 mají pevnou délku 2 a 4 bajty (16 a 32 bitů). Byl navržen pro zpětnou kompatibilitu s ASCII, které obsahuje jen základní sadu anglické abecedy a se kterým má totožný způsob kódování 1bajtových (7bitových) znaků. UTF-8 je definováno v ISO 10646-1:2000 Annex D, v RFC 3629^[1] a v Unicode 4.0^[2].

↑ RFC 3629: UTF-8, a transformation format of ISO 10646 [online]. The Internet Society, listopad 2003. Dostupné online.
↑ The Unicode Consortium. Unicode 4.0.0 [online]. Addison-Wesley, 2003 [cit. 2017-04-17]. Dostupné online.

[1] RFC 3629: UTF-8, a transformation format of ISO 10646 [online]. The Internet Society, listopad 2003. Dostupné online.

[2] The Unicode Consortium. Unicode 4.0.0 [online]. Addison-Wesley, 2003 [cit. 2017-04-17]. Dostupné online.

[1]

[2]