Cómo leer archivos PDF usando Java?

Quiero leer algunos datos de texto de un archivo PDF usando Java. Por favor, ayúdame a hacer esto.

Cualquier ayuda es apreciada.

PDFBox es la mejor biblioteca que he encontrado para este propósito, es completa y realmente bastante fácil de usar si solo está haciendo extracción de texto básico. Los ejemplos se pueden encontrar aquí .

Lo explica en la página, pero una cosa a tener en cuenta es que los índices de inicio y final al usar setStartPage () y setEndPage () son ambos inclusive. Me salté esa explicación la primera vez y luego me tomó un tiempo darme cuenta de por qué recibía más de una página con cada llamada.

Itext es otra alternativa que también funciona con C #, aunque personalmente nunca la he usado. Tiene un nivel más bajo que PDFBox, por lo que es menos adecuado para el trabajo si todo lo que necesita es extracción básica de texto.

PDFBox contiene herramientas para la extracción de texto .

iText tiene más soporte de bajo nivel para la manipulación de texto, pero tendría que escribir una cantidad considerable de código para obtener la extracción de texto.

iText in Action contiene una buena visión general de las limitaciones de extracción de texto desde PDF, independientemente de la biblioteca utilizada (Sección 18.2: Extracción y edición de texto), y una explicación convincente de por qué la biblioteca no tiene soporte de extracción de texto. En resumen, es relativamente fácil escribir un código que maneje casos simples, pero es básicamente imposible extraer texto del PDF en general.

con Apache PDFBox dice así:

PDDocument document = PDDocument.load(new File("test.pdf")); if (!document.isEncrypted()) { PDFTextStripper stripper = new PDFTextStripper(); String text = stripper.getText(document); System.out.println("Text:" + text); } document.close(); 

Use una biblioteca PDF como iText .