v26.2

تحسين ميزة استخراج الخصائص لمستخرج PDF

  • Class Extractor: يمكنه استخراج بيانات تعريفية جديدة من مستندات PDF.
  • Class PdfProperties: تم إضافة الخصائص: FileName, Created, Modified, Application, PdfProducer.

مثال على الاستخدام:

يوضح المثال طريقة استخراج الخصائص (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) من ملف PDF.

// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

مثال على الاستخدام:

يوضح المثال طريقة استخراج الخصائص (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) من تدفق PDF.

// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

تحسين ميزة استخراج النص لمستخرج PDF

  • أصبح التعامل مع استخراج النص ومعلمات الاستخراج أسهل الآن: يمكنك تحديد بيانات الإدخال والحصول على النتيجة بسهولة أكبر.
  • Class ExtractTextOptions: ينفذ IHaveInput. استخدم إدخالًا واحدًا فقط. أنواع البيانات المسموح بها: File و Stream.
  • Method Extract(ExtractTextOptions options): تُعيد سلسلة نصية تحتوي على النتائج.
  • Object ResultContainer: تمت إزالته من ExtractTextOptions.

مثال على الاستخدام:

يوضح المثال طريقة استخراج محتوى النص من ملف PDF.

// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

مثال على الاستخدام:

يوضح المثال طريقة استخراج محتوى النص من تدفق PDF.

// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

مثال على الاستخدام:

يوضح المثال طريقة استخراج محتوى النص من مستند PDF مع TextFormattingMode.

// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

مثال على الاستخدام:

يوضح المثال طريقة استخراج النص من ملف PDF بأقصر أسلوب ممكن.

// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

الأخطاء التي تم إصلاحها

  • فشل تحويل ملف Jpeg2000 إلى PDF
  • مشكلة دمج ملفات PDF
  • إعادة تحجيم صفحات PDF ينتج عنها إخراج فارغ
  • PDF إلى HTML: اللون المظلّل مرئي لكن النص مفقود
  • PDF إلى HTML: تم توليد مخرجات HTML غير صحيحة
  • PDF إلى HTML: النص الرأسي على الجانب الأيسر مفقود
  • PDF إلى HTML: النص في الترويسة يختفي
  • PDF إلى HTML: النص المشروح الشفاف غير مرئي
  • PDF إلى PNG: فشل عرض بعض الحروف الصينية
 عربي