Els vocabularis controlats proporcionen una manera d'organitzar el coneixement per a la seva posterior recuperació. Els esquemes de vocabulari controlat exigeixen l'ús de termes predefinits, preseleccionats i autoritzats pels dissenyadors dels sistemes (criteris preestablerts de normalització), en contrast amb vocabularis en llenguatge natural, que no tenen aquesta limitació. Per tant ofereixen un model d'accés i de recuperació d'informació.
Els llenguatges d'indexació són considerats llenguatges artificials d'estructures precoordinades, la finalitat principal ha d'estar centrada a servir com a instrument mediador entre les preguntes que efectuen els usuaris de la informació i la documentació o els continguts que s'administren a les bases de dades bibliogràfiques o documentals, a través d'una interrelació semàntica-conceptual, permetent obtenir alts nivells d'encert i efectivitat sobre els resultats obtinguts. Aquest benefici només és aconseguit a partir de l'establiment de regles semàntiques que permetin la reducció, normalització o eliminació de l'ambigüitat lingüística, element característic del llenguatge humà.
Com que el llenguatge natural incorpora problemes de precisió i exactitud a l'hora d'expressar aspectes, sobretot, tècnics, és necessari crear un vocabulari controlat, codificant-lo. Aquest llenguatge, a part de ser més precís a l'hora d'expressar termes de manera inequívoca, crea un llenguatge que permet considerar la informació a escala global. Hi ha tres tipus de llenguatges controlats: d'interfase, de referència i de sortida. El vocabulari d'interfase és el primer contacte amb el vocabulari natural. Permet concretar i formalitzar les dades clíniques que rep el sistema, però sovint passa que no utilitzen codificacions estàndards. Com diferents dialectes de l’àrab, per exemple, no poden comparar l'àrab del Marroc amb el d'Aràbia Saudita, perquè les codificacions seran diferents. A causa d’aquesta necessitat de compartir les codificacions es va crear el vocabulari de referència, que representa els termes de la fase anterior amb un nivell més alt de detall, relacionant els conceptes que componen aquest vocabulari amb els d'interfase. El vocabulari de sortida és el que permet fer una anàlisi de la informació des de diferents punts de vista. Sobretot s'utilitza en la investigació i la gestió amb finalitats estadístiques.[1]
Entre els llenguatges d'indexació més comunament emprats podem citar els tesaurus, els índexs, els vocabularis controlats, les llistes d'encapçalaments de matèries i les ontologies.[2]
Els vocabularis controlats faciliten la precisió a l'hora de fer una recerca, com per exemple el MeSH,[3] que és el vocabulari controlat que utilitza la Biblioteca Nacional de Medicina dels Estats Units a les seves bases de dades com PubMed i d'altres bases biomèdiques per processar informació prèviament introduïda. MeSH és un conjunt de termes, anomenats descriptors, estructurats jeràrquicament, de manera que permet buscar a diferents nivells d'especificat. Els conceptes són revisats i actualitzats per especialistes, i recullen nous termes que han aparegut a la literatura mèdica o d'altres àrees de recerca.[4]
La coordinació d'humanitats de la Universitat Nacional Autònoma de Mèxic parlen del vocabulari controlat de l'IRESIE [5] (Índice de revistas de educación superior e investigación educativa). Tracta d'una llista normalitzada de temes i identificadors. Recull al voltant de 1.500 termes de diferents aspectes de l'àrea educativa que s'han recollit durant 27 anys a l'IRESIE. Un document per la classificació i indexació d'articles i documents ingressats a les bases de dades del IRESIE, del IDOCED (Índex de Documents d'Educació) que es generen al IISUE (Institut d'Investigacions Sobre la Universitat i l'Educació).