¿Cómo elimino todos los caracteres que no son ASCII con regex y Notepad ++?

Busqué mucho, pero en ninguna parte está escrito cómo eliminar caracteres no ASCII de Notepad ++.

Necesito saber qué comando escribir para buscar y reemplazar (con la imagen sería genial).

  • Si quiero hacer una lista blanca y marcar todas las palabras / líneas ASCII para que las líneas que no sean ASCII no estén marcadas

  • Si el archivo es bastante grande y no puede seleccionar todas las líneas ASCII y solo desea seleccionar las líneas que contienen caracteres que no son ASCII …

Esta expresión buscará valores que no sean ASCII:

[^\x00-\x7F]+ 

Marca ‘Modo de búsqueda = expresión regular’ y haz clic en Buscar siguiente .

Fuente: Regex cualquier personaje ASCII

En Notepad ++, si va al menú BuscarBuscar caracteres en el rangoCaracteres no ASCII (128-255) , puede pasar por el documento para cada carácter que no sea ASCII.

Para eliminar todos los caracteres que no sean ASCII, puede usar la siguiente sustitución: [^\x00-\x7F]+

Eliminando no ASCII

Para resaltar caracteres, recomiendo usar la función Marcar en la ventana de búsqueda: resalta los caracteres que no son ASCII y coloca un marcador en las líneas que contienen uno de ellos

Highligh no ASCII

Si desea resaltar y poner un marcador en los caracteres ASCII, puede usar la expresión regular [\x00-\x7F] para hacerlo.

Aclamaciones

Además de la respuesta de ProGM, en caso de que vea caracteres en recuadros como NUL o ACK y quiera deshacerse de ellos, esos son caracteres de control ASCII (0 a 31), puede encontrarlos con la siguiente expresión y eliminarlos:

 [\x00-\x1F]+ 

Para eliminar todos los caracteres de control que no sean ASCII Y ASCII, debe eliminar todos los caracteres que coincidan con esta expresión regular:

 [^\x1F-\x7F]+ 

Para mantener nuevas líneas:

  1. Primero selecciona un personaje para la nueva línea … Usé #.
  2. Seleccione la opción reemplazar, extendida.
  3. entrada \ n reemplazar con #
  4. Hit Reemplazar todo

Siguiente:

  1. Seleccione Reemplazar opción Expresión regular.
  2. Ingrese esto: [^ \ x20- \ x7E] +
  3. Mantener Reemplazar con Empty
  4. Hit Reemplazar todo

Ahora, seleccione Reemplazar opción extendida y reemplazar # con \ n

🙂 ahora, tienes un archivo ASCII limpio;)

Otro buen truco es ingresar al modo UTF8 en su editor para que pueda ver estos divertidos personajes y eliminarlos usted mismo.

De otra manera…

  1. Instala el complemento Text FX si no lo tienes ya
  2. Vaya a la opción del menú TextFX -> desactive todos los caracteres no imprimibles en #. Reemplazará todos los caracteres inválidos con 3 símbolos #
  3. Ve a Buscar / Reemplazar y busca ###. Reemplázalo con un espacio.

Esto es bueno si no puedes recordar la expresión regular o si no te importa buscarla. Pero la expresión regular mencionada por otros también es una buena solución.