java操作PDF(PDFBOX和Itext框架)

jopen 11年前

java有很多可以操作pdf的框架,pdfbox和itext就是其中的两种

pdfbox有如下作用

提取文本,包括Unicode字符。
和Jakarta Lucene等文本搜索引擎的整合过程十分简单。
加密/解密PDF文档。

从PDF和XFDF格式中导入或导出表单数据。
向已有PDF文档中追加内容。
将一个PDF文档切分为多个文档。
覆盖PDF文档

下面是一个使用pdfbox的测试程序

public class PdfBoxTest {        public void getText(String file) throws Exception{          //是否排序          boolean sort = false;          //pdf文件名          String pdfFile = file;          //输入文本文件名称          String textFile = null;          //编码方式          String encoding = "UTF-8";          //开始提取页数          int startPage = 1;          //结束提取页数          int endPage = Integer.MAX_VALUE;          //文件输入流,输入文本文件          Writer output = null;          //内存中存储的PDF Document          PDDocument document = null;            try{              try{                  //首先当作一个URL来加载文件,如果得到异常再从本地系统装载文件                  URL url = new URL(pdfFile);                  document = PDDocument.load(url);                  String fileName = url.getFile();                    if(fileName.length() > 4){                      //以原来pdf名称来命名新产生的txt文件                      File outputFile = new File(fileName.substring(0, fileName.length()-4) + ".txt");                      textFile = outputFile.getName();                  }              }catch(Exception e){                  //如果作为URL装载得到异常则从文件系统装载                  document = PDDocument.load(pdfFile);                  if(pdfFile.length() > 4){                      textFile = pdfFile.substring(0, pdfFile.length() - 4) + ".txt";                  }              }              //文件输出流,写入文件到textFile              output = new OutputStreamWriter(new FileOutputStream(textFile),encoding);              //PDFTextStripper来提取文本              PDFTextStripper stripper = new PDFTextStripper();              //设置是否排序              stripper.setSortByPosition(sort);              //设置起始页              stripper.setStartPage(startPage);              //设置结束页              stripper.setEndPage(endPage);              //调用PDFTextStripper的writeText提取并输出文本              stripper.writeText(document, output);          }finally{              if(output != null){                  output.close();              }              if(document != null){                  document.close();              }          }      }      /** *//**       * @param args       */      public static void main(String[] args) {          // TODO Auto-generated method stub          PdfBoxTest test = new PdfBoxTest();          try{              test.getText("E://test.pdf");          }catch(Exception e){              e.printStackTrace();          }      }  }
iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。 

下面是一个使用itext生成pdf的例子

public class ITextTest {      public static void main(String args[]){          writePdf();      }        public static void writePdf(){          Document document = new Document();          try {              PdfWriter.getInstance(document, new FileOutputStream("Helloworld.pdf"));          } catch (DocumentException e) {              e.printStackTrace();  //To change body of catch statement use File | Settings | File Templates.          } catch (FileNotFoundException e) {              e.printStackTrace();  //To change body of catch statement use File | Settings | File Templates.          }          document.open();          try {              document.add(new Paragraph("Hello World"));          } catch (DocumentException e) {              e.printStackTrace();  //To change body of catch statement use File | Settings | File Templates.          }          document.close();      }    }

默认的iText字体设置不支持中文字体,需要下载远东字体包iTextAsian.jar,否则不能往PDF文档中输出中文字体。通过下面的代码就可以在文档中使用中文了: 


BaseFont bfChinese = BaseFont.createFont("STSong-Light", "UniGB-UCS2-H", BaseFont.NOT_EMBEDDED); 
com.lowagie.text.Font FontChinese = new com.lowagie.text.Font(bfChinese, 12, com.lowagie.text.Font.NORMAL);
Paragraph pragraph=new Paragraph("你好", FontChinese);   

参考文档:http://yuleihome.iteye.com/blog/181348

http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html

http://gohands.iteye.com/blog/160534

总结一下,本文采用pdfbox和itext分别演示了如何读取pdf和生成pdf的简单方法。