v26.2
Recurso Melhorado de Extração de Propriedades para o PDF Extractor
- Class Extractor: pode extrair novos metadados de documentos PDF.
- Class PdfProperties: propriedades adicionadas: FileName, Created, Modified, Application, PdfProducer.
Exemplo de Uso:
O exemplo demonstra como extrair propriedades (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) de um arquivo PDF.
// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;Exemplo de Uso:
O exemplo demonstra como extrair propriedades (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) de um fluxo PDF.
// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;Recurso Melhorado de Extração de Texto para o PDF Extractor
- Trabalhar com extração de texto e parâmetros de extração agora está mais fácil: você pode especificar os dados de entrada e obter o resultado de forma mais simples.
- Class ExtractTextOptions: implementa IHaveInput. Use apenas 1 dado de entrada. Tipos de dados permitidos: File e Stream.
- Method Extract(ExtractTextOptions options): devolve uma string com os resultados.
- Object ResultContainer: removido de ExtractTextOptions.
Exemplo de Uso:
O exemplo demonstra como extrair o conteúdo de texto de um arquivo PDF.
// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);Exemplo de Uso:
O exemplo demonstra como extrair o conteúdo de texto de um fluxo PDF.
// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);Exemplo de Uso:
O exemplo demonstra como extrair o conteúdo de texto de um documento PDF usando TextFormattingMode.
// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);Exemplo de Uso:
O exemplo demonstra como extrair texto de um arquivo PDF da forma mais concisa possível.
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Bugs Corrigidos
- Falha na conversão de arquivo Jpeg2000 para PDF
- Problema de concatenação de PDFs
- Redimensionamento de página PDF gera saída em branco
- PDF para HTML: cor de destaque visível, mas o texto está ausente
- PDF para HTML: HTML gerado incorreto
- PDF para HTML: texto vertical do lado esquerdo está ausente
- PDF para HTML: texto no cabeçalho desaparece
- PDF para HTML: texto anotado transparente não é exibido
- PDF para PNG: alguns caracteres chineses não são renderizados