Articles of encoding

¿Por qué Java BufferedReader () no lee correctamente los caracteres en árabe y chino?

Intento leer un archivo que contiene caracteres en inglés y árabe en cada línea y otro archivo que contiene caracteres en inglés y chino en cada línea. Sin embargo, los caracteres de árabe y chino no se muestran correctamente, solo aparecen como signos de interrogación. ¿Alguna idea de cómo puedo resolver este problema? Aquí está […]

Problema de encoding de Java 8 UTF-8 (¿error de Java?)

Hay una incoherencia al crear una cadena con encoding UTF-8. Ejecute este código: public static void encodingIssue() throws IOException { byte[] array = new byte[3]; array[0] = (byte) -19; array[1] = (byte) -69; array[2] = (byte) -100; String str = new String(array, “UTF-8”); for (char c : str.toCharArray()) { System.out.println((int) c); } } En Java […]

¿Cómo poner un atributo de encoding en xml otro que utf-16 con XmlWriter?

Tengo una función que crea algo de XmlDocument: public string CreateOutputXmlString(ICollection fields) { XmlWriterSettings settings = new XmlWriterSettings(); settings.Indent = true; settings.Encoding = Encoding.GetEncoding(“windows-1250”); StringBuilder builder = new StringBuilder(); XmlWriter writer = XmlWriter.Create(builder, settings); writer.WriteStartDocument(); writer.WriteStartElement(“data”); foreach (Field field in fields) { writer.WriteStartElement(“item”); writer.WriteAttributeString(“name”, field.Id); writer.WriteAttributeString(“value”, field.Value); writer.WriteEndElement(); } writer.WriteEndElement(); writer.Flush(); writer.Close(); return builder.ToString(); } […]

La encoding JSON escapó erróneamente (Rails 3, Ruby 1.9.2)

En mi controlador, los siguientes trabajos (imprime “oké”) puts obj.inspect Pero esto no (muestra “ok \ u00e9”) render :json => obj Aparentemente, el método to_json escapa de los caracteres Unicode. ¿Hay una opción para evitar esto?

¿Por qué ByteArray tiene una longitud de 22 en lugar de 20?

Intentamos convertir de cadena a Byte[] utilizando el siguiente código de Java: String source = “0123456789”; byte[] byteArray = source.getBytes(“UTF-16”); Obtenemos una matriz de bytes de 22 bytes de longitud, no estamos seguros de dónde proviene este relleno. ¿Cómo obtengo una matriz de 20?

¿Cuántos caracteres puede codificar UTF-8?

Si UTF-8 tiene 8 bits, ¿no significa que solo puede haber un máximo de 256 caracteres diferentes? Los primeros 128 puntos de código son los mismos que en ASCII. ¿Pero dice que UTF-8 puede admitir hasta un millón de caracteres? ¿Como funciona esto?

Cómo eliminar caracteres no UTF-8 del archivo de texto

Tengo un montón de archivos en árabe, inglés y ruso que están codificados en utf-8. Tratando de procesar estos archivos usando una secuencia de comandos Perl, obtengo este error: Malformed UTF-8 character (fatal) Comprobando manualmente el contenido de estos archivos, encontré algunos caracteres extraños en ellos. Ahora estoy buscando una manera de eliminar automáticamente estos […]

Cómo corregir los caracteres UTF8 con doble encoding (en una tabla utf-8)

Un LOAD DATA INFILE se ejecutó bajo la suposición de que el archivo CSV está codificado en latin1. Durante esta importación, los caracteres multibyte se interpretaron como dos caracteres individuales y luego se codificaron utilizando utf-8 (nuevamente). Esta doble encoding creó anomalías como ñ lugar de ñ . ¿Cómo corregir estas cadenas?

Progtwigción en C: ¿Cómo progtwigr para Unicode?

¿Qué requisitos previos se necesitan para hacer una progtwigción Unicode estricta? ¿Esto implica que mi código no debe usar tipos de caracteres en ninguna parte y que se deben usar funciones que puedan manejar wint_t y wchar_t ? ¿Y cuál es el papel que juegan las secuencias de caracteres multibyte en este escenario?

Codificación de caracteres predeterminada para la salida de consola java

¿Cómo determina Java la encoding utilizada para System.out ? Dada la siguiente clase: import java.io.File; import java.io.PrintWriter; public class Foo { public static void main(String[] args) throws Exception { String s = “xxäñxx”; System.out.println(s); PrintWriter out = new PrintWriter(new File(“test.txt”), “UTF-8”); out.println(s); out.close(); } } Se guarda como UTF-8 y se comstack con javac -encoding […]