Articles of encoding

¿Cuántos caracteres puede codificar UTF-8?

Si UTF-8 tiene 8 bits, ¿no significa que solo puede haber un máximo de 256 caracteres diferentes? Los primeros 128 puntos de código son los mismos que en ASCII. ¿Pero dice que UTF-8 puede admitir hasta un millón de caracteres? ¿Como funciona esto?

Cómo eliminar caracteres no UTF-8 del archivo de texto

Tengo un montón de archivos en árabe, inglés y ruso que están codificados en utf-8. Tratando de procesar estos archivos usando una secuencia de comandos Perl, obtengo este error: Malformed UTF-8 character (fatal) Comprobando manualmente el contenido de estos archivos, encontré algunos caracteres extraños en ellos. Ahora estoy buscando una manera de eliminar automáticamente estos […]

Cómo corregir los caracteres UTF8 con doble encoding (en una tabla utf-8)

Un LOAD DATA INFILE se ejecutó bajo la suposición de que el archivo CSV está codificado en latin1. Durante esta importación, los caracteres multibyte se interpretaron como dos caracteres individuales y luego se codificaron utilizando utf-8 (nuevamente). Esta doble encoding creó anomalías como ñ lugar de ñ . ¿Cómo corregir estas cadenas?

Progtwigción en C: ¿Cómo progtwigr para Unicode?

¿Qué requisitos previos se necesitan para hacer una progtwigción Unicode estricta? ¿Esto implica que mi código no debe usar tipos de caracteres en ninguna parte y que se deben usar funciones que puedan manejar wint_t y wchar_t ? ¿Y cuál es el papel que juegan las secuencias de caracteres multibyte en este escenario?

Codificación de caracteres predeterminada para la salida de consola java

¿Cómo determina Java la encoding utilizada para System.out ? Dada la siguiente clase: import java.io.File; import java.io.PrintWriter; public class Foo { public static void main(String[] args) throws Exception { String s = “xxäñxx”; System.out.println(s); PrintWriter out = new PrintWriter(new File(“test.txt”), “UTF-8”); out.println(s); out.close(); } } Se guarda como UTF-8 y se comstack con javac -encoding […]

cirílico en Windows Console (java) System.out.println ();

Cuando escribo texto cirílico, System.out.println (“Русский язык”) – entonces sobrepasa este ╨єёёъшщ ч√ъ, usando la consola de Windows, ¿cómo puede ser esto fijo ?, la encoding del archivo es utf-8, pero no importa, cuando era ansii o windows-1251, estaba produciendo lo mismo.

Establecer encoding global predeterminada para ruby ​​1.9

Quiero decirle a ruby ​​que todo es utf8, excepto cuando se indique lo contrario, así que no tengo que colocar estos comentarios de # encoding: utf-8 todas partes.

Problemas de encoding con HttpWebResponse

Aquí hay un fragmento del código: HttpWebRequest webRequest = (HttpWebRequest)WebRequest.Create(request.RawUrl); WebRequest.DefaultWebProxy = null;//Ensure that we will not loop by going again in the proxy HttpWebResponse response = (HttpWebResponse)webRequest.GetResponse(); string charSet = response.CharacterSet; Encoding encoding; if (String.IsNullOrEmpty(charSet)) encoding = Encoding.Default; else encoding = Encoding.GetEncoding(charSet); StreamReader resStream = new StreamReader(response.GetResponseStream(), encoding); return resStream.ReadToEnd(); El problema es si […]

Conversión de bytes y char en Java

Si convierto un carácter en byte y luego vuelvo a char , ese personaje desaparece misteriosamente y se convierte en algo más. ¿Cómo es esto posible? Este es el código: char a = ‘È’; // line 1 byte b = (byte)a; // line 2 char c = (char)b; // line 3 System.out.println((char)c + ” ” […]

Cargando texto codificado en utf-8 en la tabla MySQL

Tengo un gran archivo CSV que voy a cargar en una tabla MySQL. Sin embargo, estos datos están codificados en formato utf-8, ya que incluyen algunos caracteres no ingleses. Ya he configurado el conjunto de caracteres de la columna correspondiente en la tabla para utf-8. Pero cuando cargo mi archivo. los caracteres no ingleses se […]