一種基于主題和分眾分類的信息檢索優(yōu)化方法
發(fā)布時(shí)間:2019-08-05 07:37
【摘要】:本文針對(duì)目前搜索引擎存在的檢索結(jié)果缺乏組織導(dǎo)致檢準(zhǔn)率不高的問(wèn)題,提出一種基于主題和分眾分類的信息檢索優(yōu)化方法。首先對(duì)用戶檢索主題進(jìn)行獲取和表達(dá),然后以社會(huì)標(biāo)簽為聚類項(xiàng),采用向量空間模型實(shí)現(xiàn)基于分眾分類的文檔主題聚類,并將檢索結(jié)果按相似度和標(biāo)簽"受歡迎度"復(fù)合排序,達(dá)到提高檢索準(zhǔn)確率和優(yōu)化檢索的效果。
【圖文】:
通過(guò)對(duì)分眾分類形成的標(biāo)簽(Tags)進(jìn)行社群聚類,給網(wǎng)絡(luò)文檔加上主題標(biāo)記并自動(dòng)聚類。檢索優(yōu)化方案如錯(cuò)誤,未找到引用源,如圖1所示。具體的實(shí)現(xiàn)技術(shù)及方法在后兩節(jié)中詳述。圖1 基于主題和分眾分類的檢索優(yōu)化示意圖2 用戶檢索主題獲取與表達(dá)為了彌補(bǔ)關(guān)鍵詞檢索的不足,必須在檢索中引入檢索主題因素,過(guò)濾不相關(guān)主題內(nèi)容。為了與通常意義上的主題相區(qū)別,本文對(duì)用戶檢索主題定義如下:定義1 用戶檢索主題:用戶檢索主題T是一個(gè)表達(dá)用戶信息需求傾向的語(yǔ)義標(biāo)簽序列,設(shè)V1為用戶使用的關(guān)鍵詞記錄集合,V2為網(wǎng)絡(luò)文檔語(yǔ)義標(biāo)簽集,則:T={t|t∈V1∩V2, P(ti)>P(tj)}(0<i<j<n)(1)P(t)為主題詞t在檢索中被用戶使用的頻率
獲取社會(huì)書簽集之后,經(jīng)過(guò)興趣修正步驟,去除重復(fù)標(biāo)簽和無(wú)意義語(yǔ)詞(如時(shí)間標(biāo)簽等),加入至V1后再求取T序列。整個(gè)主題獲取與表達(dá)的處理流程如圖2所示。3 基于分眾分類的文檔主題聚類文檔聚類最常用的就是向量空間模型(SVM)。SVM采用詞頻統(tǒng)計(jì)等方法提取每篇文檔的關(guān)鍵詞,將文檔表示為由這些關(guān)鍵詞組成的詞條T (T1, T2,…, Tn) (n為關(guān)鍵詞數(shù)量)。通過(guò)TF/IDF加權(quán)算出各個(gè)關(guān)鍵詞的權(quán)重,—109— ·情報(bào)理論與實(shí)踐·
【作者單位】: 解放軍南京政治學(xué)院上海分院軍事信息管理系;
【分類號(hào)】:G354
【圖文】:
通過(guò)對(duì)分眾分類形成的標(biāo)簽(Tags)進(jìn)行社群聚類,給網(wǎng)絡(luò)文檔加上主題標(biāo)記并自動(dòng)聚類。檢索優(yōu)化方案如錯(cuò)誤,未找到引用源,如圖1所示。具體的實(shí)現(xiàn)技術(shù)及方法在后兩節(jié)中詳述。圖1 基于主題和分眾分類的檢索優(yōu)化示意圖2 用戶檢索主題獲取與表達(dá)為了彌補(bǔ)關(guān)鍵詞檢索的不足,必須在檢索中引入檢索主題因素,過(guò)濾不相關(guān)主題內(nèi)容。為了與通常意義上的主題相區(qū)別,本文對(duì)用戶檢索主題定義如下:定義1 用戶檢索主題:用戶檢索主題T是一個(gè)表達(dá)用戶信息需求傾向的語(yǔ)義標(biāo)簽序列,設(shè)V1為用戶使用的關(guān)鍵詞記錄集合,V2為網(wǎng)絡(luò)文檔語(yǔ)義標(biāo)簽集,則:T={t|t∈V1∩V2, P(ti)>P(tj)}(0<i<j<n)(1)P(t)為主題詞t在檢索中被用戶使用的頻率
獲取社會(huì)書簽集之后,經(jīng)過(guò)興趣修正步驟,去除重復(fù)標(biāo)簽和無(wú)意義語(yǔ)詞(如時(shí)間標(biāo)簽等),加入至V1后再求取T序列。整個(gè)主題獲取與表達(dá)的處理流程如圖2所示。3 基于分眾分類的文檔主題聚類文檔聚類最常用的就是向量空間模型(SVM)。SVM采用詞頻統(tǒng)計(jì)等方法提取每篇文檔的關(guān)鍵詞,將文檔表示為由這些關(guān)鍵詞組成的詞條T (T1, T2,…, Tn) (n為關(guān)鍵詞數(shù)量)。通過(guò)TF/IDF加權(quán)算出各個(gè)關(guān)鍵詞的權(quán)重,—109— ·情報(bào)理論與實(shí)踐·
【作者單位】: 解放軍南京政治學(xué)院上海分院軍事信息管理系;
【分類號(hào)】:G354
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 李超;王蘭成;;應(yīng)用領(lǐng)域本體的Web信息知識(shí)集成研究[J];情報(bào)科學(xué);2007年03期
2 張娜;張玉花;李寶敏;;基于本體實(shí)現(xiàn)有效語(yǔ)義智能檢索系統(tǒng)研究[J];情報(bào)雜志;2008年03期
3 朱婷;;情報(bào)學(xué)中的序性結(jié)構(gòu)初探——以Web2.0下的分眾分類為例[J];圖書情報(bào)知識(shí);2008年03期
4 周榮庭;鄭彬;;分眾分類:網(wǎng)絡(luò)時(shí)代的新型信息分類法[J];現(xiàn)代圖書情報(bào)技術(shù);2006年03期
相關(guān)碩士學(xué)位論文 前2條
1 滕巖;基于領(lǐng)域知識(shí)的智能信息檢索研究[D];山東大學(xué);2006年
2 賈保先;基于Ontology的智能信息檢索關(guān)鍵技術(shù)研究[D];中國(guó)海洋大學(xué);2007年
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李順龍;;國(guó)內(nèi)圖書館界個(gè)性化服務(wù)研究現(xiàn)狀與趨勢(shì)[J];重慶圖情研究;2007年04期
2 涂瑞;吳s,
本文編號(hào):2523003
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2523003.html
最近更新
教材專著