v25.7
改进了文本提取器的可用性
- Class TextExtractor: 是静态的,不需要使用构造函数。
- Class TextExtractor: 在评估模式下运行时改善了行为。处理4页以上的文档时没有异常。
- Class TextExtractor: 修复了方法 Process 中的问题。
- Class PdfExtractorOptions: 已移除。
- Class TextExtractorOptions: 已重构。
- Enum TextFormattingMode: 已重命名并改进。
使用示例:
// 该示例演示如何提取PDF文档的文本内容。
// 创建 TextExtractorOptions 对象以设置指令
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 执行处理
var results = TextExtractor.Process(options);
// 从 ResultContainer 对象中获取提取的文本
var textExtracted = results.ResultCollection[0].ToString();
改进了Html转换器的可用性
- Class HtmlConverter: 是静态的,不需要使用构造函数。
- Class HtmlConverter: 修复了方法 Process 中的问题。
- Class HtmlConverter: 移除了IDisposable逻辑。
- Class PdfConverterOptions: 已移除。
使用示例:
// 该示例演示如何将PDF转换为HTML文档。
// 创建 PdfToHtmlOptions 对象以设置输出数据类型为带嵌入资源的文件
var options = new PdfToHtmlOptions(PdfToHtmlOptions.SaveDataType.FileWithEmbeddedResources);
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_input.pdf"));
// 设置输出文件路径
options.AddOutput(new FileDataSource("path_to_output.html"));
// 执行处理
HtmlConverter.Process(options);
// 该示例演示如何将HTML转换为PDF文档。
// 创建 HtmlToPdfOptions
var options = new HtmlToPdfOptions();
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_input.html"));
// 设置输出文件路径
options.AddOutput(new FileDataSource("path_to_output.pdf"));
// 执行处理
HtmlConverter.Process(options);
改进了图像提取器的可用性
- Class ImageExtractor: 是静态的,不需要使用构造函数。
使用示例:
// 该示例演示如何从PDF文档中提取图像。
// 创建 ImageExtractorOptions 以设置指令
var options = new ImageExtractorOptions();
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 设置输出目录路径
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// 执行处理
var results = ImageExtractor.Process(options);
// 获取图像结果的路径
var imageExtracted = results.ResultCollection[0].ToFile();
小修复
- 内部修复。
- 修复了Tiff转换器的示例和提示。
- 减少了页面优化的持续时间。
- 修复了:PDF到PNG转换中,输出图像不正确。
- 修复了:PDF到PNG转换中,中文字符显示不正确。
- 改进了:PDF到HTML转换期间的性能。