v26.2

Улучшенные свойства извлечения данных для PDF Extractor

Class Extractor: может извлекать новые метаданные из PDF‑документов.
Class PdfProperties: добавлены свойства: FileName, Created, Modified, Application, PdfProducer.

Пример использования:

Пример демонстрирует, как извлекать свойства (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) из PDF‑файла.

// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Пример использования:

Пример демонстрирует, как извлекать свойства (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) из PDF‑потока.

// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Улучшенная функция извлечения текста для PDF Extractor

Работа с извлечением текста и параметрами извлечения теперь проще: вы можете указать входные данные и получить результат легче, чем раньше.
Class ExtractTextOptions: реализует IHaveInput. Используется только один набор входных данных. Допустимые типы данных: File и Stream.
Method Extract(ExtractTextOptions options): возвращает строку с результатами.
Object ResultContainer: удалён из ExtractTextOptions.

Пример использования:

Пример демонстрирует, как извлекать текстовое содержимое из PDF‑файла.

// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Пример использования:

Пример демонстрирует, как извлекать текстовое содержимое из PDF‑потока.

// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Пример использования:

Пример демонстрирует, как извлекать текстовое содержимое PDF‑документа с TextFormattingMode.

// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Пример использования:

Пример демонстрирует, как извлекать текст из PDF‑файла в максимально кратком виде.

// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Исправленные ошибки

Преобразование файла Jpeg2000 в PDF завершалось с ошибкой
Проблема объединения PDF
При изменении размера страниц PDF получался пустой результат
PDF в HTML: выделенный цвет виден, но текст отсутствует
PDF в HTML: сгенерирован некорректный HTML‑output
PDF в HTML: отсутствует вертикальный текст слева
PDF в HTML: текст в заголовке исчезает
PDF в HTML: прозрачный аннотированный текст не виден
PDF в PNG: некоторые китайские символы не отрисовываются