v26.2
Улучшенные свойства извлечения данных для PDF Extractor
- Class Extractor: может извлекать новые метаданные из PDF‑документов.
- Class PdfProperties: добавлены свойства: FileName, Created, Modified, Application, PdfProducer.
Пример использования:
Пример демонстрирует, как извлекать свойства (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) из PDF‑файла.
// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;Пример использования:
Пример демонстрирует, как извлекать свойства (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) из PDF‑потока.
// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;Улучшенная функция извлечения текста для PDF Extractor
- Работа с извлечением текста и параметрами извлечения теперь проще: вы можете указать входные данные и получить результат легче, чем раньше.
- Class ExtractTextOptions: реализует IHaveInput. Используется только один набор входных данных. Допустимые типы данных: File и Stream.
- Method Extract(ExtractTextOptions options): возвращает строку с результатами.
- Object ResultContainer: удалён из ExtractTextOptions.
Пример использования:
Пример демонстрирует, как извлекать текстовое содержимое из PDF‑файла.
// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);Пример использования:
Пример демонстрирует, как извлекать текстовое содержимое из PDF‑потока.
// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);Пример использования:
Пример демонстрирует, как извлекать текстовое содержимое PDF‑документа с TextFormattingMode.
// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);Пример использования:
Пример демонстрирует, как извлекать текст из PDF‑файла в максимально кратком виде.
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Исправленные ошибки
- Преобразование файла Jpeg2000 в PDF завершалось с ошибкой
- Проблема объединения PDF
- При изменении размера страниц PDF получался пустой результат
- PDF в HTML: выделенный цвет виден, но текст отсутствует
- PDF в HTML: сгенерирован некорректный HTML‑output
- PDF в HTML: отсутствует вертикальный текст слева
- PDF в HTML: текст в заголовке исчезает
- PDF в HTML: прозрачный аннотированный текст не виден
- PDF в PNG: некоторые китайские символы не отрисовываются