Articles of unicode

Conversión de TMemoryStream a ‘Cadena’ en Delphi 2009

Teníamos el siguiente código antes de Delphi 2009: function MemoryStreamToString(M: TMemoryStream): String; var NewCapacity: Longint; begin if (M.Size = 0) or (M.Memory = nil) then Result:= ” else begin if TMemoryStreamProtected(M).Capacity = M.Size then begin NewCapacity:= M.Size+1; TMemoryStreamProtected(M).Realloc(NewCapacity); end; NullString(M.Memory^)[M.Size]:= #0; Result:= StrPas(M.Memory); end; end; ¿Cómo podríamos convertir este código para soportar Unicode ahora con […]

¿Cómo convertir un valor unichar a un NSString en Objective-C?

Tengo un personaje internacional almacenado en una variable unichar. Este personaje no proviene de un archivo o url. La variable en sí misma solo almacena un corto sin firmar (0xce91) que está en formato UTF-8 y se traduce a la letra griega mayúscula ‘A’. Intento poner ese personaje en una variable NSString pero fallaré miserablemente. […]

Diferencia entre Char.IsDigit () y Char.IsNumber () en C #

¿Cuál es la diferencia entre Char.IsDigit() y Char.IsNumber() en C #?

Diferencia entre MBCS y UTF-8 en Windows

Estoy leyendo sobre el conjunto de charater y las codificaciones en Windows. Noté que hay dos indicadores de comstackción en el comstackdor de Visual Studio (para C ++) llamados MBCS y UNICODE. Cuál es la diferencia entre ellos ? Lo que no entiendo es cómo UTF-8 es conceptualmente diferente de una encoding MBCS. Además, encontré […]

¿Cuál es la diferencia entre un personaje, un punto de código, un glifo y un grafema?

Tratar de entender las sutilezas del Unicode moderno me está haciendo doler la cabeza. En particular, la distinción entre puntos de código, caracteres, glifos y grafemas, conceptos que en el caso más simple , cuando se trata de texto en inglés usando caracteres ASCII, todos tienen una relación de uno a uno, me está causando […]

Cómo dar salida a cadenas Unicode en la consola de Windows

ya hay algunas preguntas relacionadas con este problema. Creo que mi pregunta es un poco diferente porque no tengo un problema real, solo estoy pidiendo por interés académico. Sé que la implementación de Windows de UTF-16 a veces es contradictoria con el estándar Unicode (por ejemplo, intercalación) o más cercano al viejo UCS-2 que a […]

Uso de PDFBox para escribir cadenas codificadas en UTF-8 en un PDF

Tengo problemas para escribir caracteres Unicode en un PDF usando PDFBox. Aquí hay un código de muestra que genera caracteres basura en lugar de generar “š”. ¿Qué puedo agregar para obtener soporte para cadenas UTF-8? PDDocument document = new PDDocument(); PDPage page = new PDPage(); document.addPage(page); PDPageContentStream contentStream = new PDPageContentStream(document, page); PDType1Font font = […]

Cómo evitar tropezar con la BOM UTF-8 al leer archivos

Estoy consumiendo un feed de datos que recientemente agregó un encabezado de lista de materiales Unicode (U + FEFF), y mi tarea de rake ahora está arruinada. Puedo omitir los primeros 3 bytes con file.gets[3..-1] pero ¿hay una forma más elegante de leer archivos en Ruby que pueda manejar esto correctamente, ya sea que haya […]

Mostrar caracteres Unicode al convertir Html a Pdf

Estoy usando itextsharp dll para convertir HTML a PDF. El HTML tiene algunos caracteres Unicode como α, β … cuando trato de convertir HTML a PDF, los caracteres Unicode no se muestran en PDF. Mi función: Document doc = new Document(PageSize.LETTER); using (FileStream fs = new FileStream(Path.Combine(“Test.pdf”), FileMode.Create, FileAccess.Write, FileShare.Read)) { PdfWriter.GetInstance(doc, fs); doc.Open(); doc.NewPage(); […]

Cómo hacer que python 3 imprima () utf8

¿Cómo puedo hacer que python 3 (3.1) print(“Some text”) en stdout en UTF-8, o cómo dar salida a bytes sin formato? Test.py TestText = “Test – āĀēĒčČ..šŠūŪžŽ” # this is UTF-8 TestText2 = b”Test2 – \xc4\x81\xc4\x80\xc4\x93\xc4\x92\xc4\x8d\xc4\x8c..\xc5\xa1\xc5\xa0\xc5\xab\xc5\xaa\xc5\xbe\xc5\xbd” # just bytes print(sys.getdefaultencoding()) print(sys.stdout.encoding) print(TestText) print(TestText.encode(“utf8”)) print(TestText.encode(“cp1252″,”replace”)) print(TestText2) Salida (en CP1257 y yo reemplazamos caracteres a valores de […]