JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法

wjl82 贡献于2013-10-08

作者 FtpDown  创建于2010-11-04 05:27:00   修改者FtpDown  修改于2010-11-04 05:30:00字数6269

文档摘要:以下是Java对几种文本文件内容读取代码。其中,OFFICE文档(WORD,EXCEL)使用了POI控件,PDF使用了PDFBOX控件。
关键词:

JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法 时间:2010-03-18 23:24来源:虫虫技术在线收集整理 作者:虫虫编辑 点击: 205次 以下是Java对几种文本文件内容读取代码。其中,OFFICE文档(WORD,EXCEL)使用了POI控件,PDF使用了PDFBOX控件。 WORD Java代码 package textReader; import java.io.*; import org.apache.poi.hwpf.extractor.WordExtr 以下是Java对几种文本文件内容读取代码。其中,OFFICE文档(WORD,EXCEL)使用了POI控件,PDF使用了PDFBOX控件。 WORD Java代码 package textReader; import java.io.*; import org.apache.poi.hwpf.extractor.WordExtractor; public class WordReader { public WordReader(){ } /** * @param filePath 文件路径 * @return 读出的Word的内容 */ public String getTextFromWord(String filePath){ String result = null; File file = new File(filePath); try{ FileInputStream fis = new FileInputStream(file); WordExtractor wordExtractor = new WordExtractor(fis); result = wordExtractor.getText(); }catch(FileNotFoundException e){ e.printStackTrace(); }catch(IOException e){ e.printStackTrace(); }; return result; } } EXCEL Java代码 package textReader; import org.apache.poi.hssf.usermodel.HSSFWorkbook; import org.apache.poi.hssf.usermodel.HSSFSheet; import org.apache.poi.hssf.usermodel.HSSFRow; import org.apache.poi.hssf.usermodel.HSSFCell; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; public class ExcelReader { @SuppressWarnings("deprecation") /** * @param filePath 文件路径 * @return 读出的Excel的内容 */ public String getTextFromExcel(String filePath) { StringBuffer buff = new StringBuffer(); try { //创建对Excel工作簿文件的引用 HSSFWorkbook wb = new HSSFWorkbook(new FileInputStream(filePath)); //创建对工作表的引用。          for (int numSheets = 0; numSheets < wb.getNumberOfSheets(); numSheets++) { if (null != wb.getSheetAt(numSheets)) { HSSFSheet aSheet = wb.getSheetAt(numSheets);//获得一个sheet for (int rowNumOfSheet = 0; rowNumOfSheet <= aSheet.getLastRowNum(); rowNumOfSheet++) { if (null != aSheet.getRow(rowNumOfSheet)) { HSSFRow aRow = aSheet.getRow(rowNumOfSheet); //获得一个行 for (int cellNumOfRow = 0; cellNumOfRow <= aRow.getLastCellNum(); cellNumOfRow++) { if (null != aRow.getCell(cellNumOfRow)) { HSSFCell aCell = aRow.getCell(cellNumOfRow);//获得列值 switch(aCell.getCellType()){ case HSSFCell.CELL_TYPE_FORMULA: break;   case HSSFCell.CELL_TYPE_NUMERIC: buff.append(aCell.getNumericCellValue()).append('\t');break; case HSSFCell.CELL_TYPE_STRING: buff.append(aCell.getStringCellValue()).append('\t');break;                                                               }                             }                                                                                  } buff.append('\n'); } }                                        }             } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return buff.toString(); }              } PDF Java代码 package textReader; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import org.pdfbox.pdfparser.PDFParser; import org.pdfbox.pdmodel.PDDocument; import org.pdfbox.util.PDFTextStripper; public class PdfReader { public PdfReader(){ } /** * @param filePath 文件路径 * @return 读出的pdf的内容 */ public String getTextFromPdf(String filePath) { String result = null; FileInputStream is = null; PDDocument document = null; try { is = new FileInputStream(filePath); PDFParser parser = new PDFParser(is); parser.parse(); document = parser.getPDDocument(); PDFTextStripper stripper = new PDFTextStripper(); result = stripper.getText(document); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { if (is != null) { try {is.close();}catch(IOException e){e.printStackTrace();} } if (document != null) { try{document.close();}catch (IOException e){e.printStackTrace();} } } return result; } } package textReader; import java.io.*; public class TxtReader { public TxtReader() {        } /** * @param filePath 文件路径 * @return 读出的txt的内容 */ public String getTextFromTxt(String filePath) throws Exception { FileReader fr = new FileReader(filePath); BufferedReader br = new BufferedReader(fr); StringBuffer buff = new StringBuffer(); String temp = null; while((temp = br.readLine()) != null){ buff.append(temp + "\r\n"); } br.close();        return buff.toString();        } } package textReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import javax.swing.text.BadLocationException; import javax.swing.text.DefaultStyledDocument; import javax.swing.text.rtf.RTFEditorKit; public class RtfReader { public RtfReader(){ } /** * @param filePath 文件路径 * @return 读出的rtf的内容 */ public String getTextFromRtf(String filePath) { String result = null; File file = new File(filePath); try {        DefaultStyledDocument styledDoc = new DefaultStyledDocument(); InputStream is = new FileInputStream(file); new RTFEditorKit().read(is, styledDoc, 0); result = new String(styledDoc.getText(0,styledDoc.getLength()).getBytes("ISO8859_1")); //提取文本,读取中文需要使用ISO8859_1编码,否则会出现乱码 } catch (IOException e) { e.printStackTrace(); } catch (BadLocationException e) { e.printStackTrace(); } return result; } } package textReader; import java.io.*; public class HtmlReader { public HtmlReader() { } /** * @param filePath 文件路径 * @return 获得html的全部内容 */ public String readHtml(String filePath) { BufferedReader br=null; StringBuffer sb = new StringBuffer(); try { br=new BufferedReader(new InputStreamReader(new FileInputStream(filePath), "GB2312"));            String temp=null;        while((temp=br.readLine())!=null){ sb.append(temp); }            } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return sb.toString(); } /** * @param filePath 文件路径 * @return 获得的html文本内容 */ public String getTextFromHtml(String filePath) { //得到body标签中的内容 String str= readHtml(filePath); StringBuffer buff = new StringBuffer(); int maxindex = str.length() - 1; int begin = 0; int end;            //截取>和<之间的内容 while((begin = str.indexOf('>',begin)) < maxindex){            end = str.indexOf('<',begin); if(end - begin > 1){ buff.append(str.substring(++begin, end));                }            begin = end+1; };        return buff.toString(); } } JAVA读取word文档 知识积累 2007-05-28 16:10:54 阅读1156 评论3   字号:大中小 订阅     项目上遇到一个问题,归档的word文档因为工作流中正文有时候工作人员不用——也就是这里的正文是空白的,造成在紫光文档管理系统中,显示空白页。其实这也不算是bug,但是客户说不满意,看来要加个判断了,但是生成的空白word文档的大小不固定,这只能读取word文档的内容了。     经过调试,成功调试成功word为空的判断代码。     1、读取word里的文本内容的话,可以用poi读取word文件,这个需要到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/下载tm-extractors-0.4.jar包     2、这个下载的jar包不是jar文件是一堆类文件,根据具体的形式放到相应的工程下。下面是读取word的源码: package com.admiral.test; import java.io.FileInputStream; import org.textmining.text.extraction.*; public class ReadWord {  /**   * @param args   * @author wangchao   * @version   */  public static void main(String[] args) {   // TODO Auto-generated method stub    try{        FileInputStream in = new FileInputStream ("E:/jsjx/cilent/测验.doc");        WordExtractor extractor = new WordExtractor();        System.out.println(in.available());        String str = extractor.extractText(in); //读取word文档的内容,放入string里        int leng = str.length();    //word文档的内容长度        int leng1 = str.trim().length();  //因为word文档存储的时候回存在回车等情况,所以需要取出空格        System.out.println(str);        if(!(leng1==0)){        //判断word文档是否为空        System.out.println(leng);        System.out.println(str);//word文档的内容打印        }        System.out.println(leng1);            }catch(Exception e){            e.printStackTrace();        }        }   }

下载文档到电脑,查找使用更方便

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 3 金币 [ 分享文档获得金币 ] 1 人已下载

下载文档