Articles of byte order mark

Encoding.UTF8.GetString no tiene en cuenta el Preámbulo / BOM

En .NET, estoy tratando de usar el método Encoding.UTF8.GetString , que toma una matriz de bytes y la convierte en una string . Parece que este método ignora la BOM (Marca de orden de bytes) , que podría ser parte de una representación binaria legítima de una cadena UTF8, y la toma como un carácter. […]

¿Cómo GetBytes () en C # con la encoding UTF8 con BOM?

Tengo un problema con la encoding UTF8 en mi aplicación asp.net mvc 2 en C #. Estoy intentando que el usuario descargue un archivo de texto simple de una cadena. Estoy tratando de obtener una matriz de bytes con la siguiente línea: var x = Encoding.UTF8.GetBytes(csvString); pero cuando lo devuelvo para su descarga usando: return […]

¿Cómo puedo adivinar mejor la encoding cuando falta la lista de ordenes de bytes (BOM)?

Mi progtwig tiene que leer archivos que usan varias codificaciones. Pueden ser ANSI, UTF-8 o UTF-16 (endian grande o pequeño). Cuando la BOM (Marca de orden de bytes) está allí, no tengo ningún problema. Sé si el archivo es UTF-8 o UTF-16 BE o LE. Quería suponer que cuando no había una lista de materiales, […]

Cómo evitar tropezar con la BOM UTF-8 al leer archivos

Estoy consumiendo un feed de datos que recientemente agregó un encabezado de lista de materiales Unicode (U + FEFF), y mi tarea de rake ahora está arruinada. Puedo omitir los primeros 3 bytes con file.gets[3..-1] pero ¿hay una forma más elegante de leer archivos en Ruby que pueda manejar esto correctamente, ya sea que haya […]

¿Escribir archivos de texto sin marca de orden de bytes (BOM)?

Intento crear un archivo de texto usando VB.Net con encoding UTF8, sin BOM. ¿Alguien puede ayudarme, cómo hacer esto? Puedo escribir un archivo con encoding UTF8 pero, ¿cómo eliminar la marca de orden de bytes? edit1: He intentado código como este; Dim utf8 As New UTF8Encoding() Dim utf8EmitBOM As New UTF8Encoding(True) Dim strW As New […]

¿Cómo detectar la encoding de caracteres de un archivo de texto?

Intento detectar qué encoding de caracteres se usa en mi archivo. Intento con este código para obtener la encoding estándar public static Encoding GetFileEncoding(string srcFile) { // *** Use Default of Encoding.Default (Ansi CodePage) Encoding enc = Encoding.Default; // *** Detect byte order mark if any – otherwise assume default byte[] buffer = new byte[5]; […]

Usar awk para eliminar la marca de orden de bytes

¿Cómo sería una secuencia de comandos awk (presumiblemente una línea) para eliminar una lista de materiales ? Especificación: imprime cada línea después de la primera ( NR > 1 ) para la primera línea: si comienza con #FE #FF o #FF #FE , elimínelos e imprima el rest

UTF-8 sin lista de materiales

Tengo archivos javascript que necesito que se guarden en UTF-8 (sin BOM), cada vez que los convierto en el formato correcto en Notepad ++ , se vuelven a convertir a UTF-8 con BOM cuando los abro en Visual Studio. ¿Cómo puedo evitar que VS2010 haga eso? Otra pregunta, ¿es UTF-8 sin firma en Visual Studio […]

Usar PowerShell para escribir un archivo en UTF-8 sin la lista de materiales

Out-File parece forzar la lista de materiales cuando se usa UTF-8: $MyFile = Get-Content $MyPath $MyFile | Out-File -Encoding “UTF8” $MyPath ¿Cómo puedo escribir un archivo en UTF-8 sin BOM usando PowerShell?

Marca de orden de bytes daña lectura de archivo en Java

Estoy tratando de leer archivos CSV usando Java. Algunos de los archivos pueden tener una marca de orden de bytes al principio, pero no todos. Cuando está presente, el orden de bytes se lee junto con el rest de la primera línea, lo que causa problemas con la comparación de cadenas. ¿Hay alguna manera fácil […]