POI在Word文档不同颜色文本分离中的应用

发布时间:2014-10-05 来源:江西农业大学计算机与信

Apache POI 提供了一组Java API 实现对Microsoft Office 格式档案进行读和写。在描述了如何将POI 应用于Word 文档处理的基础上,实现对Word 文档不同颜色文本进行分离,并将它和Word 宏实现不同颜色文本分离的方法进行对比。

用户在整理文本材料时通常会将内容相关的文本存放在同一个Word 文档中,每种类别的文档用不同颜色标识,随着文档内容的增多,文档的管理和操作难度也随之增加,因此需要对文档文本进行分离。事实上,可以依据颜色的不同进行分离,同一种颜色的文本存储在同一个文件中。采用传统的复制粘贴可以实现,但该方法的弊端是耗时多,且易产生误操作。由此本文提出了两种简单的处理Word 文档不同颜色文本分离的方法,即Word 宏和POI 技术实现Word 文档不同颜色文本的分离。本文首先介绍了POI 技术,接着阐述Word 宏的创建及运行,然后详细介绍POI 技术在文本分离中的应用,最后对两种方法进行了比较。

1、POI 技术

Jakarta POI 是Apache 的子项目,目标是处理OLE2 对象。它提供了一组操纵Windows 文档的JavaAPI,POI 技术包含的主要接口及介绍如表1 所示。

HWPF 接口主要用于操作Word 文档,支持MS-Word97-2003(.doc) ,基于BIFF8 格式的JAVA 接口。POI是Apache 的一个开源项目,可以从Apahce 官方网站免费下载相应的jar 包和源文件( 以下载poi-bin-3.7-20101029.zip 为例) ,并对其进行解压,然后在项目中导入poi-3.7-20101029.jar 和poi-scratchpad-3.7-20101029.jar 即可。

本应用基于J2EE 的开发平台终端用户在使用时,首先通过浏览器向服务器提出请求,服务器接收到请求以后做出相应的处理,并把处理结果返回给终端用户。POI 提供了一系列的Java API,其HWPF 接口能够无缝地与Java 程序进行整合。

系统架构图

图1 为系统架构图

当终端用户通过浏览器向服务器发出请求后,服务器( Tomcat) 会根据请求找到相应的Jsp 文件来执行,Jsp 既可以直接使用HWPF 接口对Word 进行处理,也可以通过框架技术使用HWPF 接口。

表1 POI 技术主要接口

 POI 技术主要接口

2、Word 文档不同颜色文本分离的实现

2.1、Word 宏实现文档不同颜色文本的分离

Microsoft Office 组件中宏的应用具有很强的自动化功能,可以完成一些程序原本不支持的特殊应用,所有想同时完成的操作都可以用宏来实现。宏是由一系列命令和指令组成的,其可以作为单个命令执行来自动完成某项任务。在Word 中,需要不断重复执行的任务就可以用宏来完成。Word 宏主要应用于简化日常编辑和格式设置,组合多个命令自动执行一系列的复杂任务,使对话框中的选项更易于访问,自动执行一系列复杂的任务。

在对Word 文档文本按颜色进行分离的实现中,首先要建立宏,使用Visual Basic 编辑器,在代码窗口中添加如下指令。

2.2、POI 实现不同颜色文本分离

POI 下载解压后,首先将POI 中操纵Word 有关的包导入项目中,然后创建一Java 类,在类中导入java.io 包中的File、FileInputStream 类,poi 包中的Now、HWPFDocument、CharacterRun 和Range 等类。实现Word 文本分离主要代码如下

2.3、实验结果分析

经过数次实验测试,以上两种方法的主要差别有以下几点: 一是执行效率的差异。在相同的硬件环境中,使用Word 宏所花的时间是使用POI 的600 多倍。对于总页数为300 多的Word 文档,使用Word 宏实现文本分离需要十几个小时不等; 而利用POI 技术实现文本分离只需要90 多秒的时间,随着所需处理的文档总页数的增大,处理时间呈常量级增长。二是程序的并发数的差异,Word 宏实现文本分离的操作使用100% 的CPU 资源; 使用POI 实现,程序的运行对执行其他程序影响甚微。

3、结束语

POI 技术中的HWPF 接口的主要功能是读写Word,完成提取Word 正文文本、批注、Word 总页数、总字符数等一系列操作,功能强大且易用。本文主要介绍两种实现Word 文本分离的方法的具体实现,并对两种方法进行多次试验和比较。比较结果可以看出,无论是操作的完成时间还是操作执行时允许的程序并发数,使用POI 都要优于使用Word 宏。

友情提示:以上内容仅为本资源的内容摘要,如需全部内容请自行下载附件资源。

文件下载:进入下载地址

更多相关阅读

    上一篇:PDF转可编辑的Word文档的方法
    下一篇:Word 2010环境下识字卡的制作

    推荐

    热门教程

    推荐

    推荐教程

    推荐

    自学教程

    推荐

    访问电脑版 || 访问移动版 || 联系我们

    Copyright © 2010-2022 Office办公助手. 版权所有