Articles of unicode

Ruby 1.9: ¿cómo puedo usar cadenas de multibyte en mayúsculas y minúsculas?

Así que matz tomó la decisión de mantener upcase y downcase limitado a /[AZ]/i en ruby ​​1.9.1. ActiveSupport::Multibyte tiempo, ActiveSupport::Multibyte ha tenido un gran caso de i18n en jigger en ruby ​​1.8.x a través de String#mb_chars . Sin embargo, cuando se prueba bajo ruby ​​1.9.1, parece que no funciona. Aquí hay un script de prueba […]

¿Cuáles son los caracteres Unicode no BMP más comunes en uso real?

En su experiencia, ¿qué caracteres Unicode, puntos de código, rangos fuera del BMP (Basic Multilingual Plane) son los más comunes hasta ahora? Estos son los que requieren 4 bytes en UTF-8 o sustitutos en UTF-16. Hubiera esperado que la respuesta fuera caracteres chinos y japoneses utilizados en nombres pero no incluidos en los juegos de […]

Eliminar caracteres que no sean ASCII de los archivos de datos

Tengo un montón de archivos csv que estoy leyendo en R e incluido en una carpeta de paquete / datos en formato .rdata . Lamentablemente, los caracteres que no son ASCII en los datos no pasan el control. El paquete de tools tiene dos funciones para buscar caracteres que no sean ASCII ( showNonASCII y […]

Muy bueno, mal ejemplo de prueba UTF-8 de datos

Así que tenemos la hoja de trucos XSS para probar nuestro filtrado XSS, pero aparte de una página benigna de ejemplo, no puedo encontrar ningún dato de prueba malvado o malformado para asegurarme de que mi código UTF-8 pueda manejar los datos erróneos. ¿Dónde puedo encontrar algunos buenos … malos datos para probar? ¿O qué […]

Convierta entre cadena, u16string y u32string

He estado buscando una forma de convertir entre los tipos de cadena Unicode y encontré este método . No solo no entiendo completamente el método (no hay comentarios) sino que también el artículo implica que en el futuro habrá mejores métodos. Si este es el mejor método, ¿podría indicar qué lo hace funcionar? Si no, […]

¿Cómo comparar caracteres Unicode que “se parecen”?

Caigo en un problema sorprendente. Cargué un archivo de texto en mi aplicación y tengo una lógica que compara el valor que tiene μ. Y me di cuenta de que incluso si los textos son iguales, el valor de comparación es falso. Console.WriteLine(“μ”.Equals(“µ”)); // returns false Console.WriteLine(“µ”.Equals(“µ”)); // return true En la línea posterior, el […]

¿Cómo debo preparar mis progtwigs Delphi de 32 bits para un eventual comstackdor de 64 bits?

Posible duplicado: Cómo prepararse para 64 bits al migrar a Delphi 2010 y Unicode Dado que creo que el comstackdor Delphi de 64 bits aparecerá pronto, tengo curiosidad si alguien sabe qué tipo de progtwigs que ahora son de 32 bits comstackrán y trabajarán sin ningún cambio cuando usen el comstackdor de 64 bits . […]

¿Por qué se está ejecutando código Java en comentarios con ciertos caracteres Unicode permitidos?

El siguiente código produce la salida “Hello World!” (en realidad no, pruébalo). public static void main(String… args) { // The comment below is not a typo. // \u000d System.out.println(“Hello World!”); } La razón de esto es que el comstackdor de Java analiza el carácter Unicode \u000d como una nueva línea y se transforma en: public […]

Salida de cadena Unicode C #

Tengo una función para convertir una cadena en una cadena Unicode: private string UnicodeString(string text) { return Encoding.UTF8.GetString(Encoding.ASCII.GetBytes(text)); } Pero cuando estoy llamando a esta función, el resultado de salida es incorrecto. Parece que mi función no funciona. Console.WriteLine(UnicodeString(“добры дзень”)) imprimiendo en la consola solo preguntas como esa: ????? ???? ????? ???? ¿Hay alguna manera […]

¿Cómo convertir una cadena UTF-8 en Unicode?

Tengo un string que muestra caracteres codificados en UTF-8, y quiero convertirlo a Unicode. Por ahora, mi implementación es la siguiente: public static string DecodeFromUtf8(this string utf8String) { // read the string as UTF-8 bytes. byte[] encodedBytes = Encoding.UTF8.GetBytes(utf8String); // convert them into unicode bytes. byte[] unicodeBytes = Encoding.Convert(Encoding.UTF8, Encoding.Unicode, encodedBytes); // builds the converted […]