将 Word 文档转换为 HTML 的Java工具类

fmms 12年前

第一:下载必备工具OpenOffice.org 3.2 (zh-CN) Installation Files  使用工具 主要是 使用 内部服务。

  如果想要  工具形式 转换, 此8100服务必须 开啦,要不 不能转换的啦。


第二:下载 jodconverter-2.2.2.zip 包, 包中的 lib 的 jar 包 都是 为 转换准备的。


第三:下载了 不用不对i地,默认 安装 OpenOffice.org 3.2 程序, 有的个别 杀毒软件  回报一些 警告阻止 提示 , 直接 给 添加 信任服务即可。


第四:安装完毕之后呢, 当然 是要 开启 服务了, 安装 OpenOffice.org 3.2 的 目的 就是 为了 使用 其中的 8100 服务地,

           打开 运行文本框中 输入 cmd 进入 命令窗口, 进入到 的 默认安装路径  

          【提示一下,一般都会C:\Program Files\OpenOffice.org 3\program这个路径下,

              但是 64系统会在 C:\Program Files(x86)\OpenOffice.org 3\program 这个路径下 

             其区别 就是 多了一个 (x86),自己用的 是 64Win7系统,后来发现安装好多软件

              都不兼容,郁闷不得了现在公司配了 32Win7系统。


            依次使用如下命令即可:

命令1:cd C:\Program Files\OpenOffice.org 3\program

命令2:soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

执行玩 这两条命令之后 , 8100 服务就会 被打开了 , 你也可以 使用  netstat -an 这个 命令 查看  8100 端口 是否 真的 被打开了。


打开  MyEclipse6.5  , 开发到现在 几乎 MyEclipse这些 版本 差不多 都用过了, 但是后期 还是 觉得 这个 6.5 比较好用,

8.5之后 机器 卡的不行, 配置 好的机器还可以,配置 稍微 的 , 跑起来 就是多么杯具了。

呃~~~~~好似  脱离正题我们继续哈....  其中建立一个公共类:名为WordToHtml.java  代码共享如下

package com.stars.windpowersystem.util;    import java.io.BufferedReader;  import java.io.File;  import java.io.FileInputStream;  import java.io.FileNotFoundException;  import java.io.IOException;  import java.io.InputStreamReader;  import java.net.ConnectException;  import java.util.Date;  import java.util.regex.Matcher;  import java.util.regex.Pattern;    import com.artofsolving.jodconverter.DocumentConverter;  import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection;  import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection;  import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter;    /**   * 描述: TODO 将Word文档转换成html字符串的工具类   *    * @类名称: WordToHtml   * @作者: 宋延军   * @邮箱: songyanjun_stars@126.com   * @日期: Feb 9, 2012 10:07:21 AM   */  public class WordToHtml {     /**    * 描述: TODO 调用测试    * @标题: main    * @设定: @param args    * @返回类型: void    */   public static void main(String[] args) {        Long time1 = System.currentTimeMillis();    Long time2 = System.currentTimeMillis();        System.out.println(      toHtmlString(new File("C:/Users/Administrator/Desktop/风电可靠性信息管理系统/01_需求分析文档/风电可靠性管理信息系统需求分析文档V5.0(最新).doc"), "C:/Users/Administrator/Desktop/风电可靠性信息管理系统/01_需求分析文档/tempDir"));        System.out.println("执行效率为:"+(time2-time1));   }     /**    * 将word文档转换成html文档    *     * @param docFile   需要转换的word文档    * @param filepath  转换之后html的存放路径    * @return 转换之后的html文件    */   public static File convert(File docFile, String filepath) {    // 创建保存html的文件    File htmlFile = new File(filepath + "/" + new Date().getTime()+ ".html");    // 创建Openoffice连接    OpenOfficeConnection con = new SocketOpenOfficeConnection(8100);    try {     // 连接     con.connect();    } catch (ConnectException e) {     System.out.println("获取OpenOffice连接失败...");     e.printStackTrace();    }    // 创建转换器    DocumentConverter converter = new OpenOfficeDocumentConverter(con);    // 转换文档问html    converter.convert(docFile, htmlFile);    // 关闭openoffice连接    con.disconnect();    return htmlFile;   }     /**    * 将word转换成html文件,并且获取html文件代码。    *     * @param docFile  需要转换的文档    * @param filepath 文档中图片的保存位置    * @return 转换成功的html代码    */   public static String toHtmlString(File docFile, String filepath) {    // 转换word文档    File htmlFile = convert(docFile, filepath);    // 获取html文件流    StringBuffer htmlSb = new StringBuffer();    try {     BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(htmlFile)));     while (br.ready()) {      htmlSb.append(br.readLine());     }     br.close();     // 删除临时文件     htmlFile.delete();    } catch (FileNotFoundException e) {     e.printStackTrace();    } catch (IOException e) {     e.printStackTrace();    }    // HTML文件字符串    String htmlStr = htmlSb.toString();    // 返回经过清洁的html文本    return clearFormat(htmlStr, filepath);   }     /**    * 清除一些不需要的html标记    *     * @param htmlStr 带有复杂html标记的html语句    * @return  去除了不需要html标记的语句    */   protected static String clearFormat(String htmlStr, String docImgPath) {    // 获取body内容的正则    String bodyReg = "<BODY .*</BODY>";    Pattern bodyPattern = Pattern.compile(bodyReg);    Matcher bodyMatcher = bodyPattern.matcher(htmlStr);    if (bodyMatcher.find()) {     // 获取BODY内容,并转化BODY标签为DIV     htmlStr = bodyMatcher.group().replaceFirst("<BODY", "<DIV").replaceAll("</BODY>", "</DIV>");    }    // 调整图片地址    htmlStr = htmlStr.replaceAll("<IMG SRC=\"", "<IMG SRC=\"" + docImgPath + "/");    // 把<P></P>转换成</div></div>保留样式    // content = content.replaceAll("(<P)([^>]*>.*?)(<\\/P>)",    // "<div$2</div>");    // 把<P></P>转换成</div></div>并删除样式    htmlStr = htmlStr.replaceAll("(<P)([^>]*)(>.*?)(<\\/P>)", "<p$3</p>");    // 删除不需要的标签    htmlStr = htmlStr      .replaceAll("<[/]?(font|FONT|span|SPAN|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>", "");    // 删除不需要的属性    htmlStr = htmlStr      .replaceAll("<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>", "<$1$2>");    return htmlStr;   }  }
来自:http://blog.csdn.net/songyanjun2011/article/details/7244767