v26.2

Propiedades de Extracción Mejoradas para el Extractor de PDF

Class Extractor: puede extraer nuevos metadatos de documentos PDF.
Class PdfProperties: se añadieron propiedades: FileName, Created, Modified, Application, PdfProducer.

Ejemplo de Uso:

El ejemplo muestra cómo extraer propiedades (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) de un archivo PDF.

// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Ejemplo de Uso:

El ejemplo muestra cómo extraer propiedades (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) de un flujo PDF.

// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Funcionalidad Mejorada de Extracción de Texto para el Extractor de PDF

Trabajar con la extracción de texto y los parámetros de extracción ahora es más fácil: puedes especificar los datos de entrada y obtener el resultado más fácilmente que antes.
Class ExtractTextOptions: implementa IHaveInput. Usa solo 1 dato de entrada. Tipo de datos permitidos: File y Stream.
Method Extract(ExtractTextOptions options): devuelve una cadena con los resultados.
Object ResultContainer: eliminado de ExtractTextOptions.

Ejemplo de Uso:

El ejemplo muestra cómo extraer el contenido de texto de un archivo PDF.

// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Ejemplo de Uso:

El ejemplo muestra cómo extraer el contenido de texto de un flujo PDF.

// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Ejemplo de Uso:

El ejemplo muestra cómo extraer el contenido de texto de un documento PDF con TextFormattingMode.

// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Ejemplo de Uso:

El ejemplo muestra cómo extraer texto de un archivo PDF de la manera más concisa posible.

// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Errores Corregidos

La conversión de archivo Jpeg2000 a PDF falla
Problema de concatenación de PDF
El redimensionamiento de página PDF produce salida en blanco
PDF a HTML: El color resaltado es visible pero falta el texto
PDF a HTML: Se genera una salida HTML incorrecta
PDF a HTML: Falta el texto vertical del lado izquierdo
PDF a HTML: El texto en el encabezado desaparece
PDF a HTML: El texto anotado transparente no es visible
PDF a PNG: Algunos caracteres chinos no se renderizan correctamente