全文索引大体分为两个过程:

  1. 索引创建(indexer):将现实世界中所有的结构化数据和非结构化数据提取信息,创建索引的过程
  2. 搜索索引(search):就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程

环境准备: 源代码编译的LAMP环境
CentOS release 6.7 Linux版本
Mysql/5.5.29 MySQL版本
nginx/1.10. web服务版本
php/5.3.3 PHP版本

编译安装 sphinx + mmsg

安装编译依赖工具包

yum install make gcc gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel -y

下载稳定版源码包并解压

cd /usr/local/src && wget -O coreseek-3.2.14.tar.gz http://blog.webfsd.com/Uploads/Attachment/software/2016-06-09/coreseek-3.2.14.tar.gz

tar xf coreseek-3.2.14.tar.gz && cd coreseek-3.2.14

解压下载下来的压缩包中可以看到
csft-4.1 是修改适应了中文环境后的sphinx
mmseg 是中文分词插件
testpack 是测试用的软件包

安装 mmseg

cd mmseg-3.2.14
./bootstrap
./configure --prefix=/opt/application/mmseg-3.2.14
make && make install
ln -s /opt/application/mmseg-3.2.14 /usr/local/mmseg

安装coreseek

cd ../csft-3.2.14/
./buildconf.sh
./configure --prefix=/opt/application/coreseek-3.2.14  --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg/lib/ --with-mysql

make && make install
ln -s /opt/application/coreseek-3.2.14 /usr/local/coreseek

至此,中文分词所需要的软件就已安装完毕,如果需要通过php等语言进行操作,我们还需要对软件进行配置,参考这里


最后编辑: 于 3年前

评论列表(0)

    暂无评论