Articles of caracteres

¿Cuántos caracteres puede codificar UTF-8?

Si UTF-8 tiene 8 bits, ¿no significa que solo puede haber un máximo de 256 caracteres diferentes? Los primeros 128 puntos de código son los mismos que en ASCII. ¿Pero dice que UTF-8 puede admitir hasta un millón de caracteres? ¿Como funciona esto?

Cómo eliminar caracteres no UTF-8 del archivo de texto

Tengo un montón de archivos en árabe, inglés y ruso que están codificados en utf-8. Tratando de procesar estos archivos usando una secuencia de comandos Perl, obtengo este error: Malformed UTF-8 character (fatal) Comprobando manualmente el contenido de estos archivos, encontré algunos caracteres extraños en ellos. Ahora estoy buscando una manera de eliminar automáticamente estos […]

Cómo corregir los caracteres UTF8 con doble encoding (en una tabla utf-8)

Un LOAD DATA INFILE se ejecutó bajo la suposición de que el archivo CSV está codificado en latin1. Durante esta importación, los caracteres multibyte se interpretaron como dos caracteres individuales y luego se codificaron utilizando utf-8 (nuevamente). Esta doble encoding creó anomalías como ñ lugar de ñ . ¿Cómo corregir estas cadenas?

Progtwigción en C: ¿Cómo progtwigr para Unicode?

¿Qué requisitos previos se necesitan para hacer una progtwigción Unicode estricta? ¿Esto implica que mi código no debe usar tipos de caracteres en ninguna parte y que se deben usar funciones que puedan manejar wint_t y wchar_t ? ¿Y cuál es el papel que juegan las secuencias de caracteres multibyte en este escenario?

Codificación de caracteres predeterminada para la salida de consola java

¿Cómo determina Java la encoding utilizada para System.out ? Dada la siguiente clase: import java.io.File; import java.io.PrintWriter; public class Foo { public static void main(String[] args) throws Exception { String s = “xxäñxx”; System.out.println(s); PrintWriter out = new PrintWriter(new File(“test.txt”), “UTF-8”); out.println(s); out.close(); } } Se guarda como UTF-8 y se comstack con javac -encoding […]

Cómo concatenar personajes en java?

¿Cómo concatenas personajes en java? Las cuerdas de concatenación solo requerirían un + entre las cuerdas, pero concatenar caracteres usando + cambiará el valor del carácter en ascii y por lo tanto dará un resultado numérico. Quiero hacer System.out.println(char1+char2+char3… y crear una palabra String como esta. Yo podría hacer System.out.print(char1); System.out.print(char2); System.out.print(char3); Pero, esto solo […]

utf 8 charset no funciona con el correo javax

He utilizado Javax Mail API para enviar correos electrónicos. Estoy usando un formulario de contacto para enviar la entrada, que debe enviarse a un correo electrónico específico. El correo electrónico se envía sin problemas, aunque soy un tipo danés, y por lo tanto necesito tres caracteres daneses que sean ‘æ’, ‘ø’ y ‘å’, en el […]

La obtención de texto UTF-8 de MySQL en R devuelve “????”

Estoy atrapado tratando de buscar texto UTF-8 en una base de datos MySQL desde R. Estoy ejecutando R en OS X (intenté ambos a través de la GUI y la línea de comandos), donde la configuración regional predeterminada es en_US.UTF-8, y no importa lo que bash, el resultado de la consulta muestra “?” para todos […]

Salida UTF-8 de PowerShell

Estoy tratando de usar Process.Start con E / S redirigida para llamar a PowerShell.exe con una cadena, y para recuperar la salida, todo en UTF-8 . Pero parece que no puedo hacer que esto funcione. Lo que he intentado: Pasar el comando para ejecutar a través del parámetro -Command Escribir el script de PowerShell como […]

Java: ¿Cómo detectar (y cambiar?) La encoding de System.console?

Tengo un progtwig que se ejecuta en una consola y sus Umlauts y otros caracteres especiales se envían como ‘? En Macs. Aquí hay un progtwig de prueba simple: public static void main( String[] args ) { System.out.println(“höhößüä”); System.console().printf( “höhößüä” ); } En una consola Mac predeterminada (con encoding UTF-8 predeterminada), imprime: h?h???? h?h???? Pero […]