v25.7

改进了文本提取器的可用性

Class TextExtractor: 是静态的，不需要使用构造函数。
Class TextExtractor: 在评估模式下运行时改善了行为。处理4页以上的文档时没有异常。
Class TextExtractor: 修复了方法 Process 中的问题。
Class PdfExtractorOptions: 已移除。
Class TextExtractorOptions: 已重构。
Enum TextFormattingMode: 已重命名并改进。

使用示例:

// 该示例演示如何提取PDF文档的文本内容。
// 创建 TextExtractorOptions 对象以设置指令
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 执行处理
var results = TextExtractor.Process(options);
// 从 ResultContainer 对象中获取提取的文本
var textExtracted = results.ResultCollection[0].ToString();

改进了Html转换器的可用性

Class HtmlConverter: 是静态的，不需要使用构造函数。
Class HtmlConverter: 修复了方法 Process 中的问题。
Class HtmlConverter: 移除了IDisposable逻辑。
Class PdfConverterOptions: 已移除。

使用示例:

// 该示例演示如何将PDF转换为HTML文档。
// 创建 PdfToHtmlOptions 对象以设置输出数据类型为带嵌入资源的文件
var options = new PdfToHtmlOptions(PdfToHtmlOptions.SaveDataType.FileWithEmbeddedResources);
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_input.pdf"));
// 设置输出文件路径
options.AddOutput(new FileDataSource("path_to_output.html"));
// 执行处理
HtmlConverter.Process(options);

// 该示例演示如何将HTML转换为PDF文档。
// 创建 HtmlToPdfOptions
var options = new HtmlToPdfOptions();
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_input.html"));
// 设置输出文件路径
options.AddOutput(new FileDataSource("path_to_output.pdf"));
// 执行处理
HtmlConverter.Process(options);

改进了图像提取器的可用性

Class ImageExtractor: 是静态的，不需要使用构造函数。

使用示例:

// 该示例演示如何从PDF文档中提取图像。
// 创建 ImageExtractorOptions 以设置指令
var options = new ImageExtractorOptions();
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 设置输出目录路径
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// 执行处理
var results = ImageExtractor.Process(options);
// 获取图像结果的路径
var imageExtracted = results.ResultCollection[0].ToFile();

小修复

内部修复。
修复了Tiff转换器的示例和提示。
减少了页面优化的持续时间。
修复了：PDF到PNG转换中，输出图像不正确。
修复了：PDF到PNG转换中，中文字符显示不正确。
改进了：PDF到HTML转换期间的性能。