实现MHT文件格式的解析和内容抽取

由于我们的业务系统中有大量的MHT格式的资料&＃xff0c;需要对其建立索引&＃xff0c;搜索很久了一直没有找到相关解析的类库&＃xff0c;只好自己动手丰衣足食了。已实现内容的提取以及和lucene的整合&＃xff0c;稍后会完善编码检测及其他内容的提取&＃xff0c;做一个完整的parser出来。

文本内容提取&＃xff1a; 首先提取html部分的内容&＃xff0c;解码之后使用nekoHtml提取文本内容&＃xff1b;

  public class MhtDocHandler extends HtmDocHandler {   
    
     private DOMFragmentParser parser &＃61; new DOMFragmentParser();   
    
     public Document getDocument(InputStream is) throws DocumentHandlerException {   
    
         DocumentFragment node &＃61; new HTMLDocumentImpl().createDocumentFragment();   
         try {   
    
             String mhts &＃61; IOUtils.toString(is);   
             int a1 &＃61; mhts.indexOf(");   
             int a2 &＃61; mhts.indexOf("");   
    
             String html &＃61; mhts.substring(a1, a2 &＃43; 8);   
    
             //在mht中文本按照QuotedPrintable格式编码   
         html &＃61; decodeQuotedPrintable(html, "UTF-8");   
    
             StringReader r &＃61; new StringReader(html);   
    
             parser.parse(new InputSource(r), node);   
         }   
         catch (Exception e) {   
             throw new DocumentHandlerException("Cannot parse MHT document: ", e);   
         }   
    
         Document doc &＃61; new Document();   
    
         StringBuffer sb &＃61; new StringBuffer();   
         getText(sb, node, "title");   
         String title &＃61; sb.toString().trim();   
    
         sb.setLength(0);   
         getText(sb, node, "body");   
         String text &＃61; sb.toString().trim();   
    
         if (!title.equals("")) {   
             doc.add(new Field(WikiDOC.DOC_TITLE, title,    
                                   Field.Store.YES, Field.Index.TOKENIZED,    
                                        Field.TermVector.WITH_POSITIONS_OFFSETS));   
         }   
         if (!text.equals("")) {   
             doc.add(new Field(WikiDOC.DOC_CONTENT, text,    
                                        Field.Store.COMPRESS, Field.Index.TOKENIZED,    
                                            Field.TermVector.WITH_POSITIONS_OFFSETS));   
         }   
    
         return doc;   
     }   
    
     public static String decodeQuotedPrintable(String str, String encoding) {   
         if (str &＃61;&＃61; null) {   
             return null;   
         }   
         try {   
             //str &＃61; str.replaceAll("&＃61;\n", "");//??   
             byte[] bytes &＃61; str.getBytes("US-ASCII");   
    
             ByteArrayOutputStream buffer &＃61; new ByteArrayOutputStream();   
             for (int i &＃61; 0; i < bytes.length; i&＃43;&＃43;) {   
                 int b &＃61; bytes[i];   
                 if (b &＃61;&＃61; &＃39;&＃61;&＃39;) {   
                     int u &＃61; Character.digit((char) bytes[&＃43;&＃43;i], 16);   
                     int l &＃61; Character.digit((char) bytes[&＃43;&＃43;i], 16);   
                     if (u &＃61;&＃61; -1 || l &＃61;&＃61; -1) {//??   
                         continue;   
                     }   
                     buffer.write((char) ((u << 4) &＃43; l));   
                 } else {   
                     buffer.write(b);   
                 }   
             }   
             return buffer.toString(encoding);   
         }   
         catch (Exception e) {   
             e.printStackTrace();   
             return str;   
         }   
     }   
    
}