v26.2

Улучшенные свойства извлечения данных для PDF Extractor

  • Class Extractor: может извлекать новые метаданные из PDF‑документов.
  • Class PdfProperties: добавлены свойства: FileName, Created, Modified, Application, PdfProducer.

Пример использования:

Пример демонстрирует, как извлекать свойства (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) из PDF‑файла.

// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Пример использования:

Пример демонстрирует, как извлекать свойства (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) из PDF‑потока.

// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Улучшенная функция извлечения текста для PDF Extractor

  • Работа с извлечением текста и параметрами извлечения теперь проще: вы можете указать входные данные и получить результат легче, чем раньше.
  • Class ExtractTextOptions: реализует IHaveInput. Используется только один набор входных данных. Допустимые типы данных: File и Stream.
  • Method Extract(ExtractTextOptions options): возвращает строку с результатами.
  • Object ResultContainer: удалён из ExtractTextOptions.

Пример использования:

Пример демонстрирует, как извлекать текстовое содержимое из PDF‑файла.

// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Пример использования:

Пример демонстрирует, как извлекать текстовое содержимое из PDF‑потока.

// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Пример использования:

Пример демонстрирует, как извлекать текстовое содержимое PDF‑документа с TextFormattingMode.

// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

Пример использования:

Пример демонстрирует, как извлекать текст из PDF‑файла в максимально кратком виде.

// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Исправленные ошибки

  • Преобразование файла Jpeg2000 в PDF завершалось с ошибкой
  • Проблема объединения PDF
  • При изменении размера страниц PDF получался пустой результат
  • PDF в HTML: выделенный цвет виден, но текст отсутствует
  • PDF в HTML: сгенерирован некорректный HTML‑output
  • PDF в HTML: отсутствует вертикальный текст слева
  • PDF в HTML: текст в заголовке исчезает
  • PDF в HTML: прозрачный аннотированный текст не виден
  • PDF в PNG: некоторые китайские символы не отрисовываются
 Русский