無(wú)鏈接文檔排序算法研究
本文關(guān)鍵詞:無(wú)鏈接文檔排序算法研究
更多相關(guān)文章: 信息檢索 PageRank算法 DocumentRank算法 鏈接結(jié)構(gòu)
【摘要】:大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)格式呈現(xiàn)多樣化,對(duì)Web數(shù)據(jù)的處理不僅僅局限在網(wǎng)頁(yè)鏈接上,還需要處理無(wú)鏈接結(jié)構(gòu)的文檔。如何從海量的文檔中獲取所需的信息是搜索引擎亟待解決的問(wèn)題,目前傳統(tǒng)的根據(jù)索引分析并不能滿(mǎn)足這一需求。為了從數(shù)百萬(wàn)個(gè)結(jié)果中選取價(jià)值最高的文檔子集,提出了新的DocumentRank算法,通過(guò)構(gòu)建衡量文檔重要性矩陣來(lái)計(jì)算查詢(xún)相關(guān)度得分對(duì)文檔進(jìn)行排序。最后通過(guò)對(duì)互聯(lián)網(wǎng)文檔數(shù)據(jù)集搜索的實(shí)驗(yàn)說(shuō)明,DocumentRank算法相比Lucene索引技術(shù)提高了文檔檢索的精確度和綜合相關(guān)度。
【作者單位】: 杭州電子科技大學(xué)通信工程學(xué)院;麗水學(xué)院工程與設(shè)計(jì)學(xué)院;
【關(guān)鍵詞】: 信息檢索 PageRank算法 DocumentRank算法 鏈接結(jié)構(gòu)
【分類(lèi)號(hào)】:TP391.3
【正文快照】: 2.麗水學(xué)院工程與設(shè)計(jì)學(xué)院,浙江麗水32300)0引言互聯(lián)網(wǎng)信息具有分散、無(wú)序、海量等特點(diǎn),如何從浩瀚的信息資源中快速、有效、準(zhǔn)確地找到所需信息是一個(gè)具有挑戰(zhàn)性的研究課題[1]。因此,學(xué)術(shù)界和工業(yè)界對(duì)信息檢索掀起了新的研究高潮[2-3],相繼形成了諸多排序算法模型。文獻(xiàn)[4]提
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 馬應(yīng)龍;李鵬鵬;張敬旭;;一種基于多分類(lèi)語(yǔ)義分析和個(gè)性化的語(yǔ)義檢索方法[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期
2 蔡飛;陳洪輝;舒振;;基于用戶(hù)相關(guān)反饋的排序?qū)W習(xí)算法研究[J];國(guó)防科技大學(xué)學(xué)報(bào);2013年02期
3 花貴春;張敏;劉奕群;馬少平;茹立云;;面向排序的基于查詢(xún)需求的查詢(xún)聚類(lèi)模型[J];計(jì)算機(jī)研究與發(fā)展;2012年11期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 陳浩;Web搜索的用戶(hù)興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王蘭成;劉曉亮;黃永勤;;論互聯(lián)網(wǎng)新媒體檔案信息資源的建設(shè)與服務(wù)[J];檔案與建設(shè);2014年01期
2 胡新海;;微博垃圾評(píng)論檢測(cè)與預(yù)處理技術(shù)[J];湖南工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年03期
3 羅彩君;;一種改進(jìn)的Web社區(qū)結(jié)構(gòu)挖掘系統(tǒng)[J];電子設(shè)計(jì)工程;2014年12期
4 龐紅美;劉宏志;;基于PageRank算法的信息工程安全監(jiān)理風(fēng)險(xiǎn)評(píng)估研究[J];計(jì)算機(jī)安全;2014年08期
5 陳凱;曹曉光;楊冀紅;史良樹(shù);戰(zhàn)鷹;;基于C4.5決策樹(shù)算法的全國(guó)積雪模型生成[J];電子設(shè)計(jì)工程;2014年17期
6 張文惠;李輝;;數(shù)據(jù)挖掘助力唯品會(huì)突圍[J];電子商務(wù);2014年11期
7 潘莉;張桁;;網(wǎng)絡(luò)購(gòu)物推薦系統(tǒng)現(xiàn)狀分析[J];電子制作;2014年21期
8 成毅;葛文;鄭仲;陳科;;分布式倒排索引的地理信息服務(wù)搜索方法研究[J];測(cè)繪科學(xué)技術(shù)學(xué)報(bào);2014年01期
9 穆翠霞;劉振華;武濤;;面向電子商務(wù)的網(wǎng)頁(yè)檢索聚類(lèi)方法[J];計(jì)算機(jī)與現(xiàn)代化;2014年05期
10 焦毅;梁靜;包健;;基站電源全生命周期管理[J];內(nèi)蒙古科技與經(jīng)濟(jì);2014年10期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 文俊峰;;山西移動(dòng)綜合監(jiān)控戰(zhàn)略規(guī)劃[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(下)[C];2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 黃航輝;互聯(lián)網(wǎng)訪(fǎng)問(wèn)數(shù)據(jù)預(yù)處理研究與應(yīng)用[D];東華大學(xué);2014年
2 張亞;面向領(lǐng)域的微博權(quán)威人物分析技術(shù)與研究[D];華東理工大學(xué);2014年
3 景姍;基于微博客的網(wǎng)絡(luò)社群構(gòu)建及意見(jiàn)領(lǐng)袖挖掘技術(shù)的研究與實(shí)現(xiàn)[D];東北大學(xué);2012年
4 顏超;基于網(wǎng)絡(luò)評(píng)論情感和區(qū)域的觀點(diǎn)社群發(fā)現(xiàn)技術(shù)的研究[D];東北大學(xué);2011年
5 王琳;中文微博數(shù)據(jù)凈化與情感傾向分析技術(shù)的研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
6 張?jiān)浪?基于QoS規(guī)則挖掘的組合服務(wù)階段性?xún)?yōu)化系統(tǒng)的研究與實(shí)現(xiàn)[D];東北大學(xué);2011年
7 陳海潮;信貸業(yè)務(wù)數(shù)據(jù)查詢(xún)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];廈門(mén)大學(xué);2014年
8 李旋;聚類(lèi)成員生成以及帶約束的聚類(lèi)融合選擇研究[D];廈門(mén)大學(xué);2013年
9 張陽(yáng);基于產(chǎn)品評(píng)論的觀點(diǎn)挖掘研究[D];西北大學(xué);2014年
10 蔣雙喜;集團(tuán)公司預(yù)算管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2013年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 郭石軍;羅挺;卿太平;;一種新的最短路徑啟發(fā)式搜索算法[J];中國(guó)儲(chǔ)運(yùn);2011年09期
2 謝海濤;孟祥武;;適應(yīng)用戶(hù)需求進(jìn)化的個(gè)性化信息服務(wù)模型[J];電子學(xué)報(bào);2011年03期
3 王立才;孟祥武;張玉潔;;移動(dòng)網(wǎng)絡(luò)服務(wù)中基于認(rèn)知心理學(xué)的用戶(hù)偏好提取方法[J];電子學(xué)報(bào);2011年11期
4 單蓉;;一種基于用戶(hù)瀏覽行為更新的興趣模型[J];電子設(shè)計(jì)工程;2010年04期
5 曾長(zhǎng)清;王玉v,
本文編號(hào):893254
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/893254.html