一種自動(dòng)分類(lèi)的網(wǎng)頁(yè)搜索排序算法
發(fā)布時(shí)間:2021-04-22 11:59
針對(duì)傳統(tǒng)網(wǎng)頁(yè)排序算法Okapi BM25通常會(huì)出現(xiàn)網(wǎng)頁(yè)與查詢(xún)關(guān)鍵詞領(lǐng)域無(wú)關(guān)的領(lǐng)域漂移現(xiàn)象,以及改進(jìn)算法需要人工建立領(lǐng)域向量的問(wèn)題,提出了一種基于BM25和softmax回歸分類(lèi)模型的網(wǎng)頁(yè)搜索排序算法。方法對(duì)網(wǎng)頁(yè)文本進(jìn)行數(shù)據(jù)預(yù)處理并利用詞袋模型進(jìn)行網(wǎng)頁(yè)文本的向量表示,之后通過(guò)少量的網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練Softmax回歸分類(lèi)模型,來(lái)預(yù)測(cè)測(cè)試網(wǎng)頁(yè)數(shù)據(jù)的類(lèi)別分?jǐn)?shù),并與BM25信息檢索的分?jǐn)?shù)結(jié)合在一起,得到最終的網(wǎng)頁(yè)排序結(jié)果。實(shí)驗(yàn)結(jié)果顯示該檢索算法無(wú)須人工建立領(lǐng)域向量,即可達(dá)到很好的網(wǎng)頁(yè)排序結(jié)果。
【文章來(lái)源】:計(jì)算機(jī)應(yīng)用研究. 2019,36(01)北大核心CSCD
【文章頁(yè)數(shù)】:4 頁(yè)
【文章目錄】:
0 引言
1 本文方法
1.1 數(shù)據(jù)預(yù)處理
1.2 Okapi BM25算法
1.3 網(wǎng)頁(yè)文本分類(lèi)
1.4 算法整體描述
2 實(shí)驗(yàn)結(jié)果及分析
2.1 實(shí)驗(yàn)設(shè)置
2.2 實(shí)驗(yàn)檢索關(guān)鍵詞及語(yǔ)料
2.3 評(píng)價(jià)標(biāo)準(zhǔn)
2.4 參數(shù)調(diào)優(yōu)
2.5 對(duì)比實(shí)驗(yàn)結(jié)果
3 結(jié)束語(yǔ)
【參考文獻(xiàn)】:
期刊論文
[1]基于領(lǐng)域模型的網(wǎng)頁(yè)搜索排序算法[J]. 潘澄,吳共慶,李磊,胡學(xué)鋼. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(11)
本文編號(hào):3153736
【文章來(lái)源】:計(jì)算機(jī)應(yīng)用研究. 2019,36(01)北大核心CSCD
【文章頁(yè)數(shù)】:4 頁(yè)
【文章目錄】:
0 引言
1 本文方法
1.1 數(shù)據(jù)預(yù)處理
1.2 Okapi BM25算法
1.3 網(wǎng)頁(yè)文本分類(lèi)
1.4 算法整體描述
2 實(shí)驗(yàn)結(jié)果及分析
2.1 實(shí)驗(yàn)設(shè)置
2.2 實(shí)驗(yàn)檢索關(guān)鍵詞及語(yǔ)料
2.3 評(píng)價(jià)標(biāo)準(zhǔn)
2.4 參數(shù)調(diào)優(yōu)
2.5 對(duì)比實(shí)驗(yàn)結(jié)果
3 結(jié)束語(yǔ)
【參考文獻(xiàn)】:
期刊論文
[1]基于領(lǐng)域模型的網(wǎng)頁(yè)搜索排序算法[J]. 潘澄,吳共慶,李磊,胡學(xué)鋼. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(11)
本文編號(hào):3153736
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3153736.html
最近更新
教材專(zhuān)著