UTF-7

UTF-7 (7-bit Unicode Transformation Format) es una codificación de caracteres de longitud variable que fue propuesta para representar texto codificado con Unicode usando un flujo de caracteres ASCII, para ser usado, por ejemplo en mensajes de correo electrónico de Internet. A pesar del nombre, UTF-7 no es un formato de transformación y no forma parte del estándar Unicode.

El protocolo básico de transporte de mensajes de correo electrónico en Internet, SMTP especifica que el formato de transmisión es ASCII y no permite valores de bytes fuera de ese rango. MIME provee una forma de especificar un conjunto de caracteres, permitiendo el uso de diferentes conjuntos de caracteres incluyendo UTF-8 y UTF-16. Sin embargo, la infraestructura de transmisión que subyace aún no garantiza soporte para 8-bit y por tanto es necesario codificar el contenido para poder transmitirlo. Por desgracia, base64 tiene el problema de hacer ilegibles incluso los caracteres ASCII y la combinación de UTF-8 con Quoted-Printable produce un formato muy ineficiente puesto que requieren entre 6 a 9 bytes por cada carácter no ASCII dentro de BMP y 12 bytes para caracteres fuera de BMP.

Siguiendo las reglas de codificación de UTF-7 es posible enviar texto en un correo electrónico sin necesidad de utilizar un transfer encoding de MIME diferente, pero aun así debe ser explícitamente identificado con el conjunto de caracteres del texto. Si es utilizado en encabezados de correo electrónico como "Subject:" UTF-7 debe ser contenido dentro de un encoded word identificando el conjunto de caracteres. Dado que encoded word obliga al uso de quoted-printable o base64, UTF-7 está diseñado para no usar el símbolo "=" como un carácter de escape para evitar conflictos cuando se combine con quoted-printable.

UTF-7 generalmente no se utiliza como una representación nativa dentro de aplicaciones dado que es un proceso bastante difícil de manejar. También se ha introducido 8BITMIME con propósitos similares, este reduce la necesidad de codificar mensajes con formato 7-bit. A pesar de las ventajas de tamaño que presenta sobre la combinación de UTF-8 ya sea con quuoted-printable o base64, el IMC no recomienda su uso.

En el protocolo de recuperación de mensajes IMAP actualmente se utiliza una forma modificada de UTF-7. Véase la sección 5.1.3 de RFC 3501 para más detalles.


Developed by StudentB