基于維基歧義頁(yè)的搜索結(jié)果聚類(lèi)方法研究
本文關(guān)鍵詞:基于維基歧義頁(yè)的搜索結(jié)果聚類(lèi)方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:近些年來(lái),隨著互聯(lián)網(wǎng)的快速發(fā)展,“信息過(guò)載”問(wèn)題日益凸顯,如何從海量信息中快速準(zhǔn)確地檢索到用戶(hù)需要的信息成為信息檢索領(lǐng)域新的挑戰(zhàn)。搜索引擎可以幫助用戶(hù)以關(guān)鍵字查詢(xún)的形式檢索整個(gè)網(wǎng)絡(luò),然而,由于查詢(xún)?cè)~通常是單個(gè)字或簡(jiǎn)單的短語(yǔ),缺少上下文可能導(dǎo)致關(guān)鍵字本身是歧義的,即包含多個(gè)方面的主題。對(duì)搜索結(jié)果進(jìn)行按主題聚類(lèi)可以進(jìn)一步消除查詢(xún)的歧義性,從而幫助用戶(hù)快速找到歧義查詢(xún)的特定主題所對(duì)應(yīng)的結(jié)果。本文研究搜索結(jié)果聚類(lèi)及相關(guān)技術(shù)的發(fā)展現(xiàn)狀,并針對(duì)Web歧義查詢(xún)問(wèn)題提出一種基于維基歧義頁(yè)的搜索結(jié)果聚類(lèi)方法。給定一個(gè)歧義查詢(xún),該方法主要通過(guò)兩個(gè)步驟對(duì)搜索結(jié)果進(jìn)行聚類(lèi):1)從維基歧義頁(yè)構(gòu)造出關(guān)于查詢(xún)的分類(lèi)結(jié)構(gòu),即查詢(xún)的主題目錄以及各個(gè)主題包含的概念詞。為了提高概念詞對(duì)對(duì)應(yīng)主題的語(yǔ)義描述能力,文章提出一種概念詞過(guò)濾算法,利用概念詞與主題和查詢(xún)之間的相似度來(lái)過(guò)濾語(yǔ)義不相關(guān)的概念詞;2)將搜索結(jié)果匹配到對(duì)應(yīng)的主題中。文章提出TKFR(Top K Full Relations)算法將搜索結(jié)果分配到與其最相似的主題中,該算法可以在搜索結(jié)果信息和主題信息都稀少的前提下,計(jì)算搜索結(jié)果和主題之間的相似度并取得較好效果。實(shí)驗(yàn)結(jié)果表明,本文提出的方法提高了基于公開(kāi)分類(lèi)體系(如維基歧義頁(yè))的搜索結(jié)果聚類(lèi)方法的效果,并且對(duì)于不同長(zhǎng)度的歧義查詢(xún)均有很好的適用性。此外,由于利用公開(kāi)分類(lèi)體系能夠獲得穩(wěn)定、統(tǒng)一且具有強(qiáng)可讀性的主題目錄,因此該方法可以提高用戶(hù)歧義查詢(xún)的檢索效率。
【關(guān)鍵詞】:歧義查詢(xún) 搜索結(jié)果聚類(lèi) 維基歧義頁(yè) 概念過(guò)濾
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-18
- 1.1 本文的研究背景9-10
- 1.2 本文的研究意義10-12
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀概述12-14
- 1.4 主要難點(diǎn)及面臨的挑戰(zhàn)14-15
- 1.5 本文的主要工作15-16
- 1.6 本文結(jié)構(gòu)16-18
- 第2章 相關(guān)研究綜述18-30
- 2.1 文檔相似度計(jì)算的研究進(jìn)展18-20
- 2.1.1 基于相同單詞統(tǒng)計(jì)的相似度計(jì)算18
- 2.1.2 基于文檔表示模型的相似度計(jì)算18-20
- 2.1.3 基于單詞向量模型的相似度計(jì)算20
- 2.2 文檔聚類(lèi)方法的研究進(jìn)展20-24
- 2.2.1 基于凝聚算法的聚類(lèi)方法20-22
- 2.2.2 基于K-means的遞歸聚類(lèi)方法22
- 2.2.3 基于文檔和項(xiàng)的關(guān)聯(lián)度的聚類(lèi)方法22-24
- 2.2.4 基于詞義歸納的聚類(lèi)方法24
- 2.2.5 基于詞義消歧的方法24
- 2.3 主題詞提取方法的研究進(jìn)展24-26
- 2.3.1 基于概念詞權(quán)重的主題詞提取方法25
- 2.3.2 基于詞義歸納的主題詞提取方法25-26
- 2.4 本文使用的相似度計(jì)算方法26-28
- 2.5 本文使用的主題詞獲取和文檔聚類(lèi)方法28-29
- 2.6 本章小結(jié)29-30
- 第3章 基于維基歧義頁(yè)的搜索結(jié)果聚類(lèi)算法30-37
- 3.1 問(wèn)題公式化30-31
- 3.2 構(gòu)建主題概念詞31-35
- 3.2.1 清洗主題描述信息31-32
- 3.2.2 對(duì)概念詞的語(yǔ)義過(guò)濾32-35
- 3.3 查詢(xún)結(jié)果匹配35-36
- 3.4 本章小結(jié)36-37
- 第4章 算法實(shí)現(xiàn)難點(diǎn)及解決方案37-47
- 4.1 使用單詞向量模型的問(wèn)題37-41
- 4.1.1 向量模型太大引發(fā)的問(wèn)題37-38
- 4.1.2 對(duì)無(wú)對(duì)應(yīng)向量的概念詞的處理38-41
- 4.2 聚類(lèi)算法最優(yōu)參數(shù)的獲取41-46
- 4.2.1 參數(shù)調(diào)整數(shù)據(jù)集41
- 4.2.2 參數(shù)優(yōu)化目標(biāo)41-42
- 4.2.3 參數(shù)優(yōu)化算法42-44
- 4.2.4 參數(shù)優(yōu)化結(jié)果及分析44-46
- 4.3 本章小結(jié)46-47
- 第5章 實(shí)驗(yàn)與結(jié)果47-59
- 5.1 CWD算法在AMBIENT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果47-52
- 5.1.1 AMBIENT數(shù)據(jù)集描述47-49
- 5.1.2 實(shí)驗(yàn)結(jié)果及分析49-52
- 5.2 CWD算法在MORESQUE上的實(shí)驗(yàn)結(jié)果52-56
- 5.2.1 MORESQUE數(shù)據(jù)集描述52-53
- 5.2.2 實(shí)驗(yàn)結(jié)果及分析53-56
- 5.3 CWD算法在不同數(shù)據(jù)集上結(jié)果對(duì)比56
- 5.4 CWD在同其他聚類(lèi)算法的比較56-58
- 5.5 本章小結(jié)58-59
- 第6章 總結(jié)與展望59-61
- 6.1 研究工作總結(jié)59-60
- 6.2 工作展望60-61
- 參考文獻(xiàn)61-64
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單64-65
- 致謝65
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 孫玉霞;曲維光;狄穎;周俊生;;詞義歸納綜述[J];計(jì)算機(jī)科學(xué);2014年02期
2 宋國(guó)平;韓嘯;王井豐;;一種基于上下文規(guī)則的詞義消歧算法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2014年02期
3 韓普;王東波;路高飛;蘇新寧;;語(yǔ)言網(wǎng)絡(luò)研究進(jìn)展[J];中文信息學(xué)報(bào);2014年01期
4 車(chē)超;鄭曉軍;;基于語(yǔ)義關(guān)聯(lián)圖的詞義消歧方法[J];科研信息化技術(shù)與應(yīng)用;2014年04期
5 張健立;;一種基于語(yǔ)義關(guān)系圖的詞義消歧算法[J];科技通報(bào);2015年03期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 孫玉霞;中文詞義歸納研究[D];南京師范大學(xué);2013年
2 高寧寧;基于混合特征和規(guī)則的詞義消歧研究[D];吉林大學(xué);2014年
3 張勇;新聞?lì)愋畔⒌慕M織和話(huà)題監(jiān)控[D];北京郵電大學(xué);2014年
4 蔡智源;基于維基鏈接共現(xiàn)的短語(yǔ)消歧[D];上海交通大學(xué);2014年
本文關(guān)鍵詞:基于維基歧義頁(yè)的搜索結(jié)果聚類(lèi)方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):331962
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/331962.html