Solr 3.5 + Tomcat7 + mmseg4j + 搜狗词库 -配置并运行

jopen 9年前

机器上已安装 : Tomcat 7 jdk1.7 mysql 5.0

访问 http://www.apache.org/dyn/closer.cgi/lucene/solr , 在这个网址里选择一个路径 , 下载 solr 3.5 的版本
solr3.5 在本机解压缩以后 , 把 apache-solr-3.5.0\example\webapps 目录下的 solr.war 文件拷贝到 Tomcat 7 的webapps 目录下
启动Tomcat7,自动解压solr.war包。然后在 Tomcat 7\webapps\solr 目录里新建一个文件夹 conf
把 solr3.5 本机解压缩文件夹 apache-solr-3.5.0\example 下的 multicore 文件夹拷贝到 Tomcat 7\webapps\solr\conf 目录下
在 Tomcat 7\conf\Catalina\localhost 目录下新建一个 solr.xml 文件 , 里面的内容如下

<?xml version="1.0" encoding="UTF-8"?>  <Context docBase="${catalina.home}/webapps/solr.war" debug="0" crossContext="true" >       <!-- 这里配置的是 Solr 运行的 Home 目录 -->       <Environment name="solr/home" type="java.lang.String" value="${catalina.home}/webapps/solr/conf/multicore" override="true" />   </Context>

访问你的 solr 项目 localhost:1187/solr 会显示出两个 core , solr 正常运行
配置分词 , 使用的是 mmseg4j 和 搜狗词库
下载地址 : http://code.google.com/p/mmseg4j/ , http://code.google.com/p/mmseg4j/downloads/detail?name=data.zip&can=2&q
把本地下载的 mmseg4j 解压缩 , 把里面的mmseg4j-all-1.8.5.jar 文件拷贝到 Tomcat 7\webapps\solr\WEB-INF\lib 目录下
在 Tomcat 7\webapps\solr 目录下新建一个 dic 文件夹 , 把新下载的词库拷贝到 dic 目录下
在 \Tomcat 7\webapps\solr\conf\multicore\core0\conf\schema.xml 文件的 types 节点里添加如下节点 :

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">          <analyzer>              <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="D:/Tomcat 7/webapps/solr/dic">              </tokenizer>          </analyzer>      </fieldtype>      <fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">          <analyzer>              <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="maxword" dicPath="D:/Tomcat 7/webapps/solr/dic">              </tokenizer>          </analyzer>      </fieldtype>      <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">          <analyzer>              <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="D:/Tomcat 7/webapps/solr/dic">              </tokenizer>          </analyzer>      </fieldtype>

在 \Tomcat 7\webapps\solr\conf\multicore\core0\conf\schema.xml 文件的 fields 节点里添加如下节点 :

 <field name="simple" type="textSimple" indexed="true" stored="true" multiValued="true" />  <field name="complex" type="textComplex" indexed="true" stored="true" multiValued="true" />  <field name="text" type="textMaxWord" indexed="true" stored="true" multiValued="true" />

因为 solr3.5 里有两个 core , 所以针对 core1 重复 10, 11 两步
对分词进行测试 , 访问 http://localhost:1187/solr/core0/admin/analysis.jsp?highlight=on
1. Field[Name] 输入 : complex
2. Field Value(index) 输入 : 中国银行第一分行 , Field Value(index) 下面的 verbose outpu 点选
3. 点击 Analyze 按钮 , 查看分词结果 : 中国银行 | 第一 | 分行
</li>
此时 Solr3.5 已经可以进行分词 , 接下来配置 solr 3.5 连接 mysql 数据库 , 生成索引 , 进行分词
1. 下载 java 的 mysql 驱动 , 本机解压 mysql-connector-java-5.1.18-bin.jar, 然后拷贝到 Tomcat 7\webapps\solr\WEB-INF\lib 目录下
2. 在 \Tomcat 7\webapps\solr 目录下新建 db 文件夹
3. 在 \Tomcat 7\webapps\solr\db 文件夹下面新建一个 db-data-config.xml 文件 , 内容如下 :

Solr 3.5 + Tomcat7 + mmseg4j + 搜狗词库 -配置并运行

相关经验

目录