用xunsearch做了个小搜索引擎,今天录入一个一句话,有个词没分出来,可能是默认词库里没有,于是想自己自定义词库,去官网看看,有教程,这里就记录一下过程吧,迅搜在自定义词库上搞的还是挺方便的,我只有几千条数据,反正就是玩玩嘛!

我的迅搜安装目录:/usr/local/xunsearch

下面记录步骤:

1.进入词库目录,使用vi打开自定义词库文件

cd /usr/local/xunsearch/etc/
vi dict_user.txt
2.文件中有说明,直接输入你要添加的词就行

TF和IDF值可以使用下面工具计算:http://www.xunsearch.com/scws/demo/get_tfidf.php

词性(ATTR)可参考如下表:http://unun.in/sql/145.html


3.保存退出,重启一下xs-searchd

/usr/local/xunsearch/bin/xs-ctl.sh -b inet -s search restart
然后你再录入的就会被使用这个词分,原来已经录入的,那就只能重做索引啦!

一、SCWS简介

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。
SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模块, 可在 PHP 中快速而方便地使用分词功能。
分词算法上并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名, 数字年代等规则识别来达到基本分词,经小范围测试准确率在 90% ~ 95% 之间, 基本上能满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。
SCWS 由 hightman 开发, 并以 BSD 许可协议开源发布,源码托管在 github。

二、scws安装

# wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2
# tar jxvf scws-1.2.3.tar.bz2
# cd scws-1.2.3
# ./configure –prefix=/usr/local/scws
# make && make install
三、scws的PHP扩展安装
复制代码 代码如下:

# cd ./phpext
# phpize
# ./configure –with-php-config=/usr/local/php/bin/php-config
# make && make install
# echo “[scws]” >> /etc/php.ini
# echo “extension = scws.so” >> /etc/php.ini
# echo “scws.default.charset = utf-8” >> /etc/php.ini
# echo “scws.default.fpath = /usr/local/scws/etc/” >> /etc/php.ini
四、词库安装
复制代码 代码如下:

# wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
# chown www:www /usr/local/scws/etc/dict.utf8.xdb

Read More →

ON 子句与 WHERE 子句的不同一种更好地理解带有 WHERE … IS NULL 子句的复杂匹配条件的简单方法
Matching-Conditions 与 Where-conditions 的不同
关于 “A LEFT JOIN B ON 条件表达式” 的一点提醒

ON 条件(“A LEFT JOIN B ON 条件表达式”中的ON)用来决定如何从 B 表中检索数据行。

如果 B 表中没有任何一行数据匹配 ON 的条件,将会额外生成一行所有列为 NULL 的数据

在匹配阶段 WHERE 子句的条件都不会被使用。仅在匹配阶段完成以后,WHERE 子句条件才会被使用。它将从匹配阶段产生的数据中检索过滤。

Read More →

为了安全起见,我们一般会对上传目录禁止运行php脚本
在apache下面我们可以通过:
<Directory /website/upload>
php_flag engine off
</Directory>
的方式来来禁用目录下文件php执行权限。那么在nginx里面同样可以实现这种方法
这里简单就举个例子
location ^~ /upload/
{
access_log off;
}
这样 attachments这个目录 就不会再去跳转给fastcgi去执行php了.这里利用了nginx下location指令的处理顺序优先级特点.
但上面的方法只能算一种技巧,一般不这样设置,正确的方法为:
location /upload/ {
location ~ .*.(php)?$
{
deny all;
}
}
而对于多个目录的话,可以一起进行限定:
location ~* ^/(upload|images)/.*.(php|php5)$
{
deny all;
}

php用正则表达式获取所有的图片,一下上代码

<?php
$url=”http://sports.qq.com/photo/?pgv_ref=aio”;
//file_get_contents() 函数把整个文件读入一个字符串中
$string=file_get_contents($url);

//preg_match_all函数进行全局正则表达式匹配。
$param1 = “/<img([^>]*)\s*src=(‘|\”)([^’\”]+)(‘|\”)/”; //带引号
$param2 = “/<img([^>]*)\ssrc=([^\s>]+)/”; //不带引号
$param3 = ‘/<[img|IMG].*?src=[\’|\”](.*?(?:[\.gif|\.jpg]))[\’|\”].*?[\/]?>/’;
//这个获取图片的全部标签

preg_match_all($param1,$string,$matches);//不带引号

$new_arr=array_unique($matches[0]);//去除数组中重复的值

foreach($new_arr as $key){
echo $key.”</br>”;
}

 

下面的文件给伸手党:img.tar