一、SCWS简介

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。
SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模块, 可在 PHP 中快速而方便地使用分词功能。
分词算法上并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名, 数字年代等规则识别来达到基本分词,经小范围测试准确率在 90% ~ 95% 之间, 基本上能满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。
SCWS 由 hightman 开发, 并以 BSD 许可协议开源发布,源码托管在 github。

二、scws安装

# wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2
# tar jxvf scws-1.2.3.tar.bz2
# cd scws-1.2.3
# ./configure –prefix=/usr/local/scws
# make && make install
三、scws的PHP扩展安装
复制代码 代码如下:

# cd ./phpext
# phpize
# ./configure –with-php-config=/usr/local/php/bin/php-config
# make && make install
# echo “[scws]” >> /etc/php.ini
# echo “extension = scws.so” >> /etc/php.ini
# echo “scws.default.charset = utf-8” >> /etc/php.ini
# echo “scws.default.fpath = /usr/local/scws/etc/” >> /etc/php.ini
四、词库安装
复制代码 代码如下:

# wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
# chown www:www /usr/local/scws/etc/dict.utf8.xdb

Read More →

为了安全起见,我们一般会对上传目录禁止运行php脚本
在apache下面我们可以通过:
<Directory /website/upload>
php_flag engine off
</Directory>
的方式来来禁用目录下文件php执行权限。那么在nginx里面同样可以实现这种方法
这里简单就举个例子
location ^~ /upload/
{
access_log off;
}
这样 attachments这个目录 就不会再去跳转给fastcgi去执行php了.这里利用了nginx下location指令的处理顺序优先级特点.
但上面的方法只能算一种技巧,一般不这样设置,正确的方法为:
location /upload/ {
location ~ .*.(php)?$
{
deny all;
}
}
而对于多个目录的话,可以一起进行限定:
location ~* ^/(upload|images)/.*.(php|php5)$
{
deny all;
}

命令:curl
在Linux中curl是一个利用URL规则在命令行下工作的文件传输工具,可以说是一款很强大的http命令行工具。它支持文件的上传和下载,是综合传输工具,但按传统,习惯称url为下载工具。
语法:# curl [option] [url]
常见参数:
-A/–user-agent <string> 设置用户代理发送给服务器
-b/–cookie <name=string/file> cookie字符串或文件读取位置
-c/–cookie-jar <file> 操作结束后把cookie写入到这个文件中
-C/–continue-at <offset> 断点续转
-D/–dump-header <file> 把header信息写入到该文件中
-e/–referer 来源网址
-f/–fail 连接失败时不显示http错误
-o/–output 把输出写到该文件中
-O/–remote-name 把输出写到该文件中,保留远程文件的文件名
-r/–range <range> 检索来自HTTP/1.1或FTP服务器字节范围
-s/–silent 静音模式。不输出任何东西
-T/–upload-file <file> 上传文件
-u/–user <user[:password]> 设置服务器的用户和密码
-w/–write-out [format] 什么输出完成后
-x/–proxy <host[:port]> 在给定的端口上使用HTTP代理
-#/–progress-bar 进度条显示当前的传送状态

Read More →

在运行PHP程序,通常会遇到“Fatal Error: Allowed memory size of xxxxxx bytes exhausted”的错误, 这个意味着PHP脚本使用了过多的内存,并超出了系统对其设置的允许最大内存。解决这个问题,首先需要查看你的程序是否分配了过多的内存,在程序没有问题的情况下,你可以通过一下方法来增加PHP的内存限制(memory_limit)。

检查php的内存限制值

为了查看这个值,你需要建立一个空的php文件,比如view-php-info.php。然后将一下代码贴到里面。

<?php phpinfo(); ?>
将这个脚本放到你的PHP主机上,然后在浏览器中调用它。这时你可以看到你的PHP环境配置的信息,其中有一部分是关于”memory_limit”的, 如下图:

view-php-memory-limit

注:你可以用这种方法来查看php的其他参数设置,不仅仅是memory_limit

memory_limit应该设为多少?

这个完全依赖于你的应用的要求。比如Wordpress,运行起核心代码需要32MB。Drupal 6则要求这个值最小为16MB,并推荐设置为32MB。如果你又安装不少的插件(plugins),尤其是那些要进行图像处理的模块,那么你可能需要128MB或更高的内存。

如何设置memory_limit

方法1: php.ini

最简单或常用的方法是修改php.ini

首先找到对你的网站生效的php.ini文件
由于有多个地方都可以设置php的参数,找到正确的配置文件,并进行更改是首先要做的一步。如果你上面的方法建立了php文件来查看其配置参数,则你可以找到”Loaded Configuration File”这一项,以下是个例子:

php-ini-location

对于Linux用户,你可以通过执行”php -i | grep Loaded Configuration File”来找到对应的配置文件。而Windows用户,你可以尝试修改你的php安装目录下的php.ini。

编辑php.ini
在php.ini中,找到”memory_limit”这一项,如果没有,你可以在文件的尾部自己增加这个参数。以下是一些设置范例

memory_limit = 128M ; 可以将128M改为任何你想设置的值
保存文件

重启web 服务器
如果是web服务器使用Apache, 则执行:

httpd restart
有些情况下,你可能不被允许私修改php.ini。比如如果你购买了虚拟主机服务,但是你的服务商确禁止你修改这个文件。那么,你可以需要考虑用其他方法来增加memory_limit的值。

方法2: .htaccess

说明: 这种方法只有在php以Apache模块来执行时才生效.

在你的网站的根目录下找到”.htaccess”文件,如果没有,可以自己创建一个。然后把以下配置放入其中

php_value memory_limit 128M ; 可以将128M改为任何你想设置的值
方法3: 运行时修改php的内存设置

在你的php代码中增加以下命令行即可。

ini_set(‘memory_limit’, ‘128M’);
memory_limit修改失败

如果你使用虚拟主机,有可能会出现memory_limit的值修改失败。这个需要联系你的服务商看怎么处理,通常他们限制了可以设置的最大值或者根本就不允许你修改。如果他们的环境真的无法满足你的要求,那么你可能要考虑换一个主机服务商。

创建软链接即用 ln -s 原始文件或文件夹 目标文件或文件夹

说明:因为空间有限,不改变原来程序文件,再继续读取/data/ftp目录内容,只需要在/data2/上面建立软连接.

#建立软链接
mv /data/ftp /data2/
ln -s /data2/ftp /data/ftp
#删除软连接
#当删除链接文件时,如果不小心会把原始文件删掉
rm /data/ftp
#只是少了一个“ / ” 删除的 就是链接文件, 也就是在文件的最后不要加上”/”
结论:
在删除文件时要小心
在删除软链接文件时,小心使用 Tab 建,一定不要在目录后面加斜扛”/”

Read More →