No se puede copiar el contenido hindi exacto del pdf

No puedo copiar contenido hindi del archivo pdf. Cuando bash copiar / pegar ese contenido, cambia a diferentes caracteres hindi.

Ejemplo-

Original- निर्वाचक

Después de pegar- ननरररचक

se muestra así

Cualquiera me puede ayudar a obtener los caracteres hindi exactos.

Este problema es similar al discutido en esta respuesta , y la apariencia del documento de muestra allí también recuerda el documento aquí :

En una palabra

Su documento en sí proporciona la información de que, por ejemplo, los glifos “निर्वाचक” en la línea principal representan el texto “ननरररचक”. Debe solicitar al origen de su documento una versión de documento en la que la información de fuente no sea engañosa. Si eso no es posible, debe optar por OCR.

En detalle

La línea superior de la primera página se genera mediante las siguientes operaciones en la secuencia de contenido de la página:

/9 239 Tf ( !"#$%&) Tj 

La primera línea selecciona la fuente llamada 9 con un tamaño de 239 (una operación al principio de la página lo escala todo). La segunda línea causa que se impriman glifos. Estos glifos se referencian entre los corchetes utilizando la encoding personalizada de esa fuente.

La fuente 9 en la primera página de su PDF contiene un mapa ToUnicode . Este mapa especialmente mapas

 <20> <20> <0928> <21> <21> <0928> <22> <22> <0930> <23> <23> <0930> <24> <24> <0930> 

es decir, los códigos 0x20 (”) y 0x21 (‘!’) se asignan al punto de código Unicode 0x0928 (‘न’) y los códigos 0x22 (‘”‘), 0x23 (‘#’) y 0x24 (‘$ ‘) todo al punto de código Unicode 0x0930 (‘ र ‘).

Por lo tanto, los contenidos de ( !"#$%&) , Que se muestran como” निर्वाचक “, completamente correctamente (según la información del documento) se extraen / copian y pegan como” ननरररचक “.

    Intereting Posts