應(yīng)用于文本搜索引擎的聚類(lèi)算法研究
發(fā)布時(shí)間:2018-06-27 01:53
本文選題:搜索引擎 + 中文聚類(lèi)。 參考:《上海交通大學(xué)》2012年碩士論文
【摘要】:當(dāng)今搜索引擎應(yīng)用中亟待解決的一個(gè)問(wèn)題是:如何針對(duì)用戶(hù)的非確切性查詢(xún)返回一個(gè)較為友好的查詢(xún)結(jié)果,最大限度地提高用戶(hù)的查詢(xún)效率。傳統(tǒng)搜索引擎應(yīng)用如Google、百度、Bing等,由于僅僅采用經(jīng)典的相關(guān)度排序算法顯示所有查詢(xún)結(jié)果,使得用戶(hù)經(jīng)常把時(shí)間浪費(fèi)在過(guò)濾大量無(wú)關(guān)信息的工作上,查詢(xún)效率較低,用戶(hù)友好程度不高。因此,如何有效地對(duì)查詢(xún)結(jié)果的標(biāo)題和摘要信息聚類(lèi)化,使之能返回一個(gè)友好的聚類(lèi)查詢(xún)結(jié)果,是當(dāng)前的研究熱點(diǎn)之一。 文本聚類(lèi)的首要問(wèn)題是如何將文本數(shù)據(jù)用數(shù)學(xué)形式表示。目前多數(shù)文本聚類(lèi)算法采用向量空間模型(Vector Space Model,VSM)為基礎(chǔ),雖然簡(jiǎn)單,卻容易引起“高維稀疏”問(wèn)題,而且,對(duì)于同義詞、多義詞的處理也沒(méi)有得到很好的解決,造成聚類(lèi)的效率和準(zhǔn)確程度降低,聚類(lèi)效果不佳。本文針對(duì)中文的文本聚類(lèi)技術(shù),對(duì)文本搜索引擎中的聚類(lèi)算法進(jìn)行了研究,,使用一種基于后綴樹(shù)與《知網(wǎng)》語(yǔ)義相似度計(jì)算的中文文本聚類(lèi)算法,結(jié)合相應(yīng)開(kāi)發(fā)工具,實(shí)現(xiàn)了一個(gè)中文聚類(lèi)搜索引擎(Chinese Clustering SearchEngine,CCSE)。該方法首先通過(guò)后綴樹(shù)算法將搜索結(jié)果的逐條文本建立到一顆后綴樹(shù)上,同時(shí)選擇出那些包含名詞(或動(dòng)詞、形容詞等),并且最后是名詞(或動(dòng)詞)結(jié)尾的短語(yǔ);然后結(jié)合TF-IDF(Term Frequency Inverse Document Frequency,一種用于詞頻統(tǒng)計(jì)的權(quán)值計(jì)算方法)評(píng)分確定出所有后綴短語(yǔ)中描述性較強(qiáng)的短語(yǔ)作為候選聚類(lèi)標(biāo)簽;再按照后綴樹(shù)聚類(lèi)算法(Suffix Tree Clustering,STC)根據(jù)已選定的候選聚類(lèi)標(biāo)簽進(jìn)行聚類(lèi)合并;接著利用語(yǔ)義相似度計(jì)算方式對(duì)剩下的標(biāo)簽短語(yǔ)進(jìn)行逐一計(jì)算比較,找出其中語(yǔ)義相似度較高的短語(yǔ)進(jìn)行合并,只保留它們中得分最高的那個(gè);最后,再使用聚類(lèi)內(nèi)部相似度(Intra-ClusterSimilarity,ICS)來(lái)保證聚類(lèi)內(nèi)部各摘要之間的高度相似性,淘汰掉一些與聚類(lèi)中心向量的平均相似度較低的聚類(lèi),產(chǎn)生最終呈現(xiàn)給用戶(hù)的聚類(lèi)結(jié)果。其中,在語(yǔ)義相似度計(jì)算方面,本文利用《知網(wǎng)》工具選用了一種面向語(yǔ)義、可擴(kuò)展的相似度計(jì)算方法?梢酝ㄟ^(guò)對(duì)未登錄詞進(jìn)行適當(dāng)?shù)母拍钋蟹帧⒆詣?dòng)生成語(yǔ)義,較好的解決了未登錄詞不能有效參與語(yǔ)義相似度計(jì)算的問(wèn)題,增強(qiáng)了聚類(lèi)效果;同時(shí),由于整個(gè)算法是由確定理想聚類(lèi)標(biāo)簽開(kāi)始的,使得在聚類(lèi)呈現(xiàn)階段,該方法還可以保證聚類(lèi)標(biāo)簽?zāi)軌蜉^好的反映出聚類(lèi)內(nèi)容,從而優(yōu)化了查詢(xún)的呈現(xiàn)效果。 論文首先對(duì)聚類(lèi)算法在搜索引擎中的應(yīng)用可行性進(jìn)行了分析,對(duì)搜索引擎的結(jié)構(gòu)、聚類(lèi)模型、以及《知網(wǎng)》工具進(jìn)行了介紹;然后對(duì)文本搜索引擎的總體框架、流程及體系結(jié)構(gòu)進(jìn)行了設(shè)計(jì)描述;接著對(duì)系統(tǒng)涉及的未登錄詞處理、短語(yǔ)相似度計(jì)算、聚類(lèi)算法實(shí)現(xiàn)等關(guān)鍵技術(shù)做了詳細(xì)的討論,描述了CCSE系統(tǒng)所采用的聚類(lèi)算法的設(shè)計(jì)思想和算法模型;最后論文對(duì)CCSE系統(tǒng)進(jìn)行了測(cè)試,并對(duì)測(cè)試結(jié)果進(jìn)行了分析,從而驗(yàn)證了系統(tǒng)設(shè)計(jì)的可行性和實(shí)用性。
[Abstract]:One of the most urgent problems in search engine application is how to query the user ' s non - deterministic query returns a more friendly query result to maximize user ' s query efficiency . Traditional search engine applications such as Google , Baidu , Bing , etc . make users often waste their time on the work of filtering a lot of irrelevant information , the query efficiency is low , and the user - friendliness is not high . Therefore , how to effectively clustering the header and summary information of the query result can be returned to a friendly clustering query result , which is one of the current research hotspots .
The first problem of text clustering is how to express text data in mathematical form . At present , most text clustering algorithms are based on Vector Space Model , which is easy to cause " high - dimensional sparse " problem . the method comprises the following steps : firstly , establishing a line - by - line text of a search result to a suffix tree through a suffix tree algorithm , and simultaneously selecting those phrases which contain a noun ( or a verb , adjective , etc . ) , and finally , the end of the noun ( or verb ) ;
鐒跺悗緇撳悎TF-IDF(Term Frequency Inverse Document Frequency,涓
本文編號(hào):2072222
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2072222.html
最近更新
教材專(zhuān)著