v26.2

Recurso Melhorado de Extração de Propriedades para o PDF Extractor

  • Class Extractor: pode extrair novos metadados de documentos PDF.
  • Class PdfProperties: propriedades adicionadas: FileName, Created, Modified, Application, PdfProducer.

Exemplo de Uso:

O exemplo demonstra como extrair propriedades (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) de um arquivo PDF.

// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Exemplo de Uso:

O exemplo demonstra como extrair propriedades (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) de um fluxo PDF.

// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Recurso Melhorado de Extração de Texto para o PDF Extractor

  • Trabalhar com extração de texto e parâmetros de extração agora está mais fácil: você pode especificar os dados de entrada e obter o resultado de forma mais simples.
  • Class ExtractTextOptions: implementa IHaveInput. Use apenas 1 dado de entrada. Tipos de dados permitidos: File e Stream.
  • Method Extract(ExtractTextOptions options): devolve uma string com os resultados.
  • Object ResultContainer: removido de ExtractTextOptions.

Exemplo de Uso:

O exemplo demonstra como extrair o conteúdo de texto de um arquivo PDF.

// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Exemplo de Uso:

O exemplo demonstra como extrair o conteúdo de texto de um fluxo PDF.

// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Exemplo de Uso:

O exemplo demonstra como extrair o conteúdo de texto de um documento PDF usando TextFormattingMode.

// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Exemplo de Uso:

O exemplo demonstra como extrair texto de um arquivo PDF da forma mais concisa possível.

// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Bugs Corrigidos

  • Falha na conversão de arquivo Jpeg2000 para PDF
  • Problema de concatenação de PDFs
  • Redimensionamento de página PDF gera saída em branco
  • PDF para HTML: cor de destaque visível, mas o texto está ausente
  • PDF para HTML: HTML gerado incorreto
  • PDF para HTML: texto vertical do lado esquerdo está ausente
  • PDF para HTML: texto no cabeçalho desaparece
  • PDF para HTML: texto anotado transparente não é exibido
  • PDF para PNG: alguns caracteres chineses não são renderizados
 Português