¿Cuál es el código de caracteres estándar?

Iniciado por cixert, 20 Octubre 2017, 20:58 PM

0 Miembros y 1 Visitante están viendo este tema.

cixert

En los 80 usaba ACII, por lo que leo en la Wikipedia era extendido para conseguir mostrar el caracter Ñ.
Ahora mismo no se cual es el código de caracteres estándar.
Leo que se utilizan Unicode e ISO.
Pero luego existen muchos números ISO y en Unicode el UTF-8, el UTF-16, etc
No acabo de entender que es Unicode UTF-8 y UTF-16.
Por ejemplo, si escribo un programa con caracteres UTF-8 ¿lo entiende Unicode estandar o UTF-16 si no tienen implementados UTF-8?
En cualquier caso ¿cuál hay que utilizar en un procesador de texto cualquiera?

engel lex

el formato universal por excelencia es UTF-8
El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

Eleкtro

#2
Cita de: cixert en 20 Octubre 2017, 20:58 PMNo acabo de entender que es Unicode UTF-8 y UTF-16.

No te preocupes, las codificaciones de texto Unicode es un tema igual de denso y lleno de tantos matices como la referencia completa de la A a la Z de un lenguaje de programación como Java o C#, es más complejo de lo que parece en un principio (entre el BOM, las normalizaciones, los glifos en caracteres y cuanto tamaño ocupan al desglosar), vaya, e intentar dominar a la perfección y en conjunto todos los aspectos que abarcan... llevaría bastantes años de estudio y práctica (yo desde luego no lo sé todo ni mucho menos).

Cita de: cixert en 20 Octubre 2017, 20:58 PMexisten muchos números ISO y en Unicode el UTF-8, el UTF-16, etc

El número a la derecha de las siglas UTF (-7 / -8 / -16 / -32) hace referencia al tamaño en bits por cada caracter, es decir, UTF8 son 8 bits (o 1 byte) por caracter, UTF16 son 16 bits (o 2 bytes) por caracter, etcétera.

Cita de: cixert en 20 Octubre 2017, 20:58 PMEn cualquier caso ¿cuál hay que utilizar en un procesador de texto cualquiera?

Eso depende de tus necesidades, no has explicado el propósito, solo la intención de usar un procesador de texto. De todas formas para un uso personal no le tienes que dar importancia, el procesador de texto se encargará de asignarle una codificación por defecto al documento (y ésta probablemente será ANSI, o UTF-8), pero bueno, si quieres elegir por ti mismo entonces en mi opinión te convendría usar el código de página ANSI "Windows-1252" (el set de caracteres latino) al ser la codificación más adecuada que te correspondería (y además la codificación de 1 byte por caracter más usada en el mundo).

Para un uso profesional (programación y etc.) quizás prefieras (o te veas limitado/obligado a) utilizar UTF-8. Como ya digo depende de tus necesidades.

Saludos.








cixert

#3
Gracias por las respuestas.
Ahora mismo estoy realizando con un procesador de texto una lista IPTV. Los canales los agrupo por el tipo cultura, música, país, etc.
El reproductor IP-TV Player reconocen los grupos de canales de unas listas y de otras no. Pese a que el código de ambas está realizado correctamente.

Por otra parte, si todo está tan estandarizado me gustaría saber por qué existen tantos problemas con los acentos y las eñes.

Por ejemplo un reproductor conocido por todos, el VLC. Cargo la lista que acabo de programar, luego le doy a la opción de guardar lista en el propio VLC. Cargo la lista guardada y vualá desaparecen los acentos y las eñes siendo sustituidos por símbolos extraños.
Esto me sucede cotidianamente en muchas ocasiones, por poner otro ejemplo con los contactos del móvil que se guardan en servidores y luego cuando se vuelven a descargar al teléfono se transforman en símbolos extraños los acentos y las eñes.
¿hacen algo mal o no tiene solución?