v25.12

Plugin PDF Form mới

  • Class PdfForm: chứa tất cả các hàm của plugin: FormFlattener, FormExporter. Cũng cho phép bạn xóa và lấy các trường.
  • Class FormFlattener: sẽ sớm bị xóa, hãy sử dụng PdfForm.
  • Class FormFlattenerOptions: đã đổi tên thành Class FlattenFieldsOptions.
  • Class GetFieldNamesOptions: cho phép thiết lập tùy chọn khi lấy tên các trường.
  • Class RemoveFieldsOptions: cho phép thiết lập tùy chọn khi xóa các trường.
  • Xem The New Plugin Architecture.

Ví dụ sử dụng:

Ví dụ minh họa cách Flatten (làm phẳng) các trường trong tệp PDF.

// Create FlattenFieldsOptions object to set instructions
var options = new FlattenFieldsOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileDataSource("path_to_result_pdf_file.pdf"));
// Perform the process
PdfForm.Flatten(options);

Ví dụ sử dụng:

Ví dụ minh họa cách lấy tên các trường từ tệp PDF.

var fieldNames = PdfForm.GetNames(new GetFieldNamesOptions("path_to_your_pdf_file.pdf"));

Ví dụ sử dụng:

Ví dụ minh họa cách xuất giá trị Form ra tệp CSV.

// Create ExtractFormDataToDsvOptions object to set instructions
var options = new ExtractFormDataToDsvOptions(',', true);
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Perform the process
PdfForm.Extract(options);

Ví dụ sử dụng:

Ví dụ minh họa cách xóa các trường khỏi tệp PDF.

// Create RemoveFieldsOptions object to set instructions
var options = new RemoveFieldsOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileDataSource("path_to_result_pdf_file.pdf"));
// Perform the process
PdfForm.Remove(options);

Thay đổi trong PDF Extractor

  • Method ExtractText: đã đổi tên thành Method Extract.
  • Method ExtractImages: đã đổi tên thành Method Extract.
  • Method ExtractFormData: đã đổi tên thành Method Extract.

Ví dụ sử dụng:

Ví dụ minh họa cách trích xuất nội dung văn bản của tài liệu PDF.

// Create ExtractTextOptions object to set instructions
var options = new ExtractTextOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get the extracted text from the ResultContainer object
var textExtracted = results.ResultCollection[0].ToString();

Ví dụ sử dụng:

Ví dụ minh họa cách trích xuất hình ảnh từ tài liệu PDF.

// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output Directory path
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get path to image result
var imageExtracted = results.ResultCollection[0].ToFile();

Ví dụ sử dụng:

Ví dụ minh họa cách xuất giá trị Form ra tệp CSV.

// Create ExtractFormDataToDsvOptions object to set instructions
var options = new ExtractFormDataToDsvOptions(',', true);
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Perform the process
PdfExtractor.Extract(options);

Cải tiến

  • Class PdfConverterOptions, PdfToXlsOptions - sử dụng Class PluginBaseOptions
  • Chuyển đổi PDF/A-1b
  • Chuyển đổi PDF/A-2b

Sửa lỗi

  • Đã khắc phục các vấn đề định dạng khi chuyển đổi HTML sang PDF
  • Khi chuyển đổi PDF sang HTML một số liên kết đã bị mất
 Tiếng Việt