v26.2
تحسين ميزة استخراج الخصائص لمستخرج PDF
- Class Extractor: يمكنه استخراج بيانات تعريفية جديدة من مستندات PDF.
- Class PdfProperties: تم إضافة الخصائص: FileName, Created, Modified, Application, PdfProducer.
مثال على الاستخدام:
يوضح المثال طريقة استخراج الخصائص (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) من ملف PDF.
// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;مثال على الاستخدام:
يوضح المثال طريقة استخراج الخصائص (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) من تدفق PDF.
// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;تحسين ميزة استخراج النص لمستخرج PDF
- أصبح التعامل مع استخراج النص ومعلمات الاستخراج أسهل الآن: يمكنك تحديد بيانات الإدخال والحصول على النتيجة بسهولة أكبر.
- Class ExtractTextOptions: ينفذ IHaveInput. استخدم إدخالًا واحدًا فقط. أنواع البيانات المسموح بها: File و Stream.
- Method Extract(ExtractTextOptions options): تُعيد سلسلة نصية تحتوي على النتائج.
- Object ResultContainer: تمت إزالته من ExtractTextOptions.
مثال على الاستخدام:
يوضح المثال طريقة استخراج محتوى النص من ملف PDF.
// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);مثال على الاستخدام:
يوضح المثال طريقة استخراج محتوى النص من تدفق PDF.
// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);مثال على الاستخدام:
يوضح المثال طريقة استخراج محتوى النص من مستند PDF مع TextFormattingMode.
// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);مثال على الاستخدام:
يوضح المثال طريقة استخراج النص من ملف PDF بأقصر أسلوب ممكن.
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));الأخطاء التي تم إصلاحها
- فشل تحويل ملف Jpeg2000 إلى PDF
- مشكلة دمج ملفات PDF
- إعادة تحجيم صفحات PDF ينتج عنها إخراج فارغ
- PDF إلى HTML: اللون المظلّل مرئي لكن النص مفقود
- PDF إلى HTML: تم توليد مخرجات HTML غير صحيحة
- PDF إلى HTML: النص الرأسي على الجانب الأيسر مفقود
- PDF إلى HTML: النص في الترويسة يختفي
- PDF إلى HTML: النص المشروح الشفاف غير مرئي
- PDF إلى PNG: فشل عرض بعض الحروف الصينية