2013年1月10日 星期四

Mysql全文搜索(Fulltext Search)match against的使用方式 

0

Mysql全文搜索(Fulltext Search)match against的使用方式 

全文檢索在MySQL 中就是一個FULLTEXT 類型索引。 FULLTEXT 索引用於MyISAM 表,可以在CREATE TABLE 時或之後使用ALTER TABLE 或CREATE INDEX 在CHAR、 VARCHAR 或TEXT 列上創建 對於大的數據庫,將數據裝載到一個沒有FULLTEXT 索引的表中,然後再使用ALTER TABLE (或CREATE INDEX) 創建索引,這將是非常快的。將數據裝載到一個已經有FULLTEXT 索引的表中,將是非常慢的。

 1.使用Mysql全文檢索fulltext的先決條件 表的類型必須是MyISAM 建立全文檢索的字段類型必須是char,varchar,text

2.建立全文檢索先期配置 由於Mysql的默認配置是索引的詞的長度是4,所以要支持中文單字的話,首先更改這個.

*Unix用戶要修改my.cnf,一般此文件在/etc/my.cnf,如果沒有找到,先查找一下find / -name 'my.cnf' 在 [mysqld] 位置內加入:
ft_min_word_len = 2 其它屬性還有
ft_wordlist_charset = gbk
ft_wordlist_file = /home/soft/mysql/share/mysql/wordlist-gbk.txt
ft_stopword_file = /home/soft/mysql/share/mysql/stopwords-gbk.txt

稍微解釋一下:
ft_wordlist_charset 表示詞典的字符集, 目前支持良好的有(UTF-8, gbk, gb2312, big5)
ft_wordlist_file 是詞表文件, 每行包括一個詞及其詞頻(用若干製表符或空格分開,消岐專用) ft_stopword_file 表示過濾掉不索引的詞表, 一行一個.
ft_min_word_len 加入索引的詞的最小長度, 缺省是4, 為了支持中文單字故改為2

3.建立全文檢索 在建表中用FullText關鍵字標識字段,已存在的表用ALTER TABLE (或CREATE INDEX) 創建索引 CREATE fulltext INDEX index_name ON table_name(colum_name);

4.使用全文檢索 在SELECT的WHERE字句中用MATCH函數,索引的關鍵詞用AGAINST標識,IN BOOLEAN MODE是只有含有關鍵字就行,不用在乎位置,是不是起啟位置.

#
SELECT * FROM articles WHERE MATCH (tags) AGAINST ('旅遊' IN BOOLEAN MODE);

NATURAL LANGUAGE MODE (IN NATURAL LANGUAGE MODE) 忽略停詞(stopword),英語中頻繁出現的and/or/to等詞被認為是沒有實際搜索的意義,搜索這些不會獲得任何結果。 如果某個詞在數據集中頻繁出現的機率超過了50%,也會被認為是停詞,所以如果數據庫中只有一行數據,不管你怎麼全文搜索都不能獲得結果。 搜索結果都具有一個相關度的數據,返回結果自動按相關度由高到低排列。 只針對獨立的單詞進行檢索,而不考慮單詞的局部匹配,如搜索box時,就不會將boxing作為檢索目標。
#
SELECT id,title FROM post WHERE MATCH(content) AGAINST ('search keyword' IN NATURAL LANGUAGE MODE)

BOOLEAN MODE (IN BOOLEAN MODE) 布爾查找。這種查找方式的特點是沒有自然查找模式中的50%規則,即便有詞語在數據集中頻繁出現的機率超過50%,也會被作為搜索目標進行檢索並返回結果,而且檢索時單詞的局部匹配也會被作為目標進行檢索。

#
SELECT id,title FROM post WHERE MATCH(content) AGAINST ('search keyword' IN BOOLEAN MODE)

5.詳細的說明請參數Mysql官方網站
 http://dev.mysql.com/doc/refman/5.1/zh/functions.html#fulltext-search

目前,fulltext是一種只適用於MyISAM表的一個索引類型,而且對定義索引列的數據類型也有限制,只能是以下三種的組合char、 varchar、text。 fulltext可以在創建表的同時就一起定義好,或者在表創建完成之後,通過語句alter table或create index來追加索引,總之先後的效果是一樣的,但是兩者的效率卻是存在很大差異的,大量的實驗證明,對於大數量的表來說,先加載數據再來定義全文索引的速度要遠遠優於在一個已經定義好全文索引的表裡面插入大量數據的速度。一定會問:這是問什麼呢?其實,道理很簡單,前者只需要一次性對你的索引列表進行操作,排序比較都是在內存中完成,然後寫入硬盤;後者則要一條一條去硬盤中讀取索引表然後再進行比較最後寫入,自然這樣速度就會很慢。 MySQL是通過match()和against()這兩個函數來實現它的全文索引查詢的功能。 match()中的字段名稱要和fulltext中定義的字段一致,如果採用boolean模式搜索,也允許只包括fulltext中的某個字段,不需要全部列出。 against()中定義的是所要搜索的字符串以及要求數據庫通過哪種模式去執行全文索引的搜索查詢。下面通過一個例子分別介紹一下fulltext所支持的3中搜索模式。

家用一下搜索引擎就會發現,分詞的情況只是出現在當整詞命中為0的情況下。 而具體怎樣分詞,大家可以參考一下baidu搜索試驗結果:

·如果搜“徐祖寧寧”,結果為“徐祖”+“寧寧”。
(搜人名的情況下,它可能有一個百家姓詞典,自動將姓後第一個字歸前) ·

搜“徐寧願”,結果為“徐寧願”。
(說明“寧願”歸“徐”所有。同上。因為徐是姓。)

·搜“徐祖寧願”,結果為“徐祖”+“寧願”。
(因為“寧願”​​是詞,故“徐”只帶“祖”。)

·搜“徐祖寧高”,結果為“徐祖寧”。
(因為“寧高”不是關鍵字,所以“寧”歸前詞所有。而“高”可能因為是單字,為提高前詞搜索效率故被省略。)

#

SELECT * FROM table-name WHERE MATCH(col-name) AGAINST ('keyword')
SELECT * FROM table-name WHERE MATCH(col-name) AGAINST ('+keyword' IN BOOLEAN MODE)
SELECT MATCH('table-name') AGAINST ('+keyword') as Relevance FROM table-name WHERE MATCH ('table-name') AGAINST('+keyword1 +keyword2') HAVING Relevance > 0.2 ORDER BY Relevance DESC

範例

create database keyword;
use keyword;
create table kw (id char(255) primary key,FULLTEXT(id)) engine=myisam; 

# 若使用 InnoDB 
會出現下述錯誤.
# fulltext don't support innodb
# ERROR 1214 (HY000): The used table type doesn't support FULLTEXT indexes

執行語法

SELECT * FROM kw WHERE MATCH(id) AGAINST ('ABC' IN BOOLEAN MODE)
SELECT * FROM kw WHERE MATCH(id) AGAINST ('+ABC' IN BOOLEAN MODE)
SELECT * FROM kw WHERE MATCH(id) AGAINST ('*ABC*' IN BOOLEAN MODE)
SELECT MATCH('id') AGAINST ('+ABC' ) as Relevance FROM kw WHERE MATCH ('id') AGAINST('+keyword1 +keyword2') HAVING Relevance > 0.2 ORDER BY Relevance DESC


*MySQL Fulltext Search 使用方式 與 注意事項 MySQL Fulltext 不支援 InnoDB, 需要使用 MyISAM. 建立 Table 時, 需要設定 FULLTEXT(Col-name).
搜尋語法
MySQL全文索引與中文分詞總結及一般的關鍵詞搜索流程
http://www.tzlink.com/info/show.php?aid=4532 mysql
全文檢索 中文分詞
 http://hi.baidu.com/agg230/blog/item/33d3d50eada260e337d1225b.html
支持中文的MySQL 5.1+ 全文檢索分詞插件
 http://hi.baidu.com/start_and_end/blog/item/6d6ab918b7d3800334fa412e.html

http://dao.daimaku.com/post/201105/151.html
http://blog.longwin.com.tw/2012/07/mysql-fulltext-search-howto-2012/ http://dev.mysql.com/doc/refman/5.1/zh/functions.html#fulltext-search
http://www.jb51.net/article/28679.htm http://www.emirplicanic.com/php/php-mysql-search-script











0 意見:

張貼留言