Unicode

Unicode on tietokonejärjestelmiä varten kehitetty merkistöstandardi ja käytännössä sama kuin yleismaailmallisen merkistön (engl. Universal Character Set, UCS) määrittävä kansainvälinen standardi ISO/IEC 10646. Unicode määrittää yksilöivän koodiarvon yli 100 000 kirjoitusmerkille.

Maailmassa puhutaan tuhansia kieliä, jotka käyttävät kymmeniä erilaisia kirjoitusjärjestelmiä, ja kunkin kielen kirjoittamiseen tarvitaan sille ominainen merkkivalikoima. Useimmissa vanhemmissa tietokonemerkistöissä, kuten 7-bittisessä ASCIIssa ja 8-bittisessä ISO Latin 1:ssä, on tilaa enintään 128:lle tai 256:lle erilaiselle merkille, joten yhteen merkistöön eivät mahdu edes kaikkien Euroopan unionin virallisten kielten kirjoitusmerkit, puhumattakaan esimerkiksi kiinalaisista ja japanilaisista merkeistä. Unicode sen sijaan käyttää useampia tavuja (enemmän bittejä), mikä mahdollistaa huomattavasti enemmän merkkipaikkoja. Siten Unicodessa on enemmän tilaa kaikille maailman kielten käyttämille merkeille sekä erinäisille teknisille kontrolli- ja erityiskoodeille. Lisäksi tuettuna on joukko erilaisia emoji-merkkejä.

Unicode-merkkeihin voidaan viitata yksitarkoitteisilla merkkikoodeilla eli tunnuksilla. Tunnus kirjoitetaan tyypillisesti muodossa U+xxxx, jossa etuliite U+ viittaa Unicode-standardiin ja xxxx on numeroista 0–9 sekä kirjaimin esitettävistä numeroista A–F koostuva heksadesimaaliluku. Esimerkiksi suuraakkosen Y tunnus on U+0059, ja suuraakkosen Z tunnus on U+005A. Tunnuksen koodiarvo voidaan esittää myös tavallisena desimaalilukuna (esimerkiksi heksadesimaaliluku 59 vastaa desimaalilukua 89, ja 5A puolestaan vastaa desimaalilukua 90), mutta yleensä suositaan heksadesimaalista muotoilua. Heksadesimaalinen Unicode-tunnus esitetään vähintään nelinumeroisena, mutta tarvittaessa se voi koostua viidestä tai jopa kuudesta numerosta.


Developed by StudentB