基于相似度的快速網(wǎng)頁排序算法
本文關(guān)鍵詞:基于相似度的快速網(wǎng)頁排序算法
更多相關(guān)文章: PageRank算法 漢明距離 相似度算法 同義詞 查準(zhǔn)率 查全率
【摘要】:將經(jīng)典的PageRank算法和漢明距離相似度算法結(jié)合,提出一種新的網(wǎng)頁排序方法。通過結(jié)合漢明距離(Hamming distance)相似度算法,計(jì)算檢索詞和網(wǎng)頁文本相似度,提高搜索查準(zhǔn)率;在增加檢索詞的同義詞的搜索過程中,通過改進(jìn)漢明距離相似度算法,提高搜索查全率。實(shí)驗(yàn)結(jié)果表明,該方法與PageRank算法相比,擁有了更好的效果。
【作者單位】: 南京信息工程大學(xué)遙感學(xué)院;南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院;
【關(guān)鍵詞】: PageRank算法 漢明距離 相似度算法 同義詞 查準(zhǔn)率 查全率
【基金】:國家自然科學(xué)基金資助項(xiàng)目(41071253、41271410)資助
【分類號(hào)】:TP393.092;TP391.1
【正文快照】: 萬維網(wǎng)迅速發(fā)展,使其成為世界上規(guī)模最大的公共數(shù)據(jù)源。從龐大的網(wǎng)絡(luò)庫中挖掘有用信息和知識(shí)變得尤其重要。在眾多搜索引擎中,Google搜索采用的是將復(fù)雜文本匹配算法和PageRank算法相結(jié)合的技術(shù),得到了廣泛認(rèn)可。PageRank算法在Google中的成功應(yīng)用,足以證明該算法在搜索引擎中
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
2 張煥炯;李玉鑒;鐘義信;;文本相似度計(jì)算的一種新方法[J];計(jì)算機(jī)科學(xué);2002年07期
3 李稚楹;楊武;謝治軍;;PageRank算法研究綜述[J];計(jì)算機(jī)科學(xué);2011年S1期
4 王鐘斐;王彪;;基于錨文本相似度的PageRank改進(jìn)算法[J];計(jì)算機(jī)工程;2010年24期
5 李衛(wèi)東;陸玲;;融合VSM技術(shù)的PageRank算法研究與應(yīng)用[J];計(jì)算機(jī)與現(xiàn)代化;2011年07期
6 黃德才;戚華春;錢能;;基于主題相似度模型的TS-PageRank算法[J];小型微型計(jì)算機(jī)系統(tǒng);2007年03期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 林華兵,傅清祥;基于文本相似度的關(guān)鍵詞分類算法[J];福建電腦;2005年08期
2 張芳;;基于用戶行為的PageRank算法[J];福建電腦;2009年06期
3 張黎爍;李鑫;徐猛;;基于PageRank的網(wǎng)頁主題相關(guān)性算法研究[J];光盤技術(shù);2008年12期
4 邱均平,張洋;網(wǎng)絡(luò)信息計(jì)量學(xué)綜述[J];高校圖書館工作;2005年01期
5 王曉艷;于光華;劉春雙;;經(jīng)典搜索引擎排序算法的比較與分析[J];產(chǎn)業(yè)與科技論壇;2012年24期
6 李瑞;郭小溪;;PageRank算法權(quán)威值均分的改進(jìn)[J];大連交通大學(xué)學(xué)報(bào);2013年02期
7 陶林;諶超;強(qiáng)保華;王勇;;基于Hadoop的Nutch網(wǎng)頁排序算法研究與實(shí)現(xiàn)[J];桂林電子科技大學(xué)學(xué)報(bào);2013年02期
8 馬海波;楊楠;于新興;;用戶差別化和主題敏感的PageRank算法[J];大連交通大學(xué)學(xué)報(bào);2013年04期
9 劉喜文;鄭昌興;王文龍;湯剛強(qiáng);;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報(bào);2013年05期
10 李更生;盧罡;;基于時(shí)間反饋和分類技術(shù)的PageRank改進(jìn)算法[J];北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年S1期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 毋非;封化民;申曉曄;;一種基于容錯(cuò)粗糙集聚類方法的話題檢測與跟蹤框架[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年
2 臧鋮;個(gè)性化搜索中隱私保護(hù)的關(guān)鍵問題研究[D];浙江大學(xué);2008年
3 陳紅濤;基于搜索日志的用戶行為研究及應(yīng)用[D];北京郵電大學(xué);2008年
4 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年
5 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
6 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
7 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
8 曾雪;在線社交網(wǎng)絡(luò)用戶的分類及采樣研究[D];電子科技大學(xué);2013年
9 張金松;基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D];大連海事大學(xué);2013年
10 龔家瑜;基于數(shù)據(jù)挖掘的藥物靶標(biāo)發(fā)現(xiàn)方法研究[D];華東理工大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
2 詹圣君;基于用戶行為日志分析的搜索引擎排序算法研究[D];湖北工業(yè)大學(xué);2011年
3 陳凱;搜索引擎有關(guān)排序算法研究[D];武漢理工大學(xué);2011年
4 郭艷芬;林業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2011年
5 馬燕;基于快速相似度的Web結(jié)構(gòu)挖掘的研究[D];南京信息工程大學(xué);2011年
6 衛(wèi)偉;基于Web輿情的意見挖掘關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2011年
7 李宜兵;基于搜索引擎網(wǎng)頁排序算法研究[D];沈陽理工大學(xué);2011年
8 叢帥;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2010年
9 馬偉瑜;基于改進(jìn)的PageRank的網(wǎng)頁信息可信度評(píng)估方法研究[D];河北大學(xué);2011年
10 張偉;網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn)[D];天津大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王建勇,單松巍,雷鳴,謝正茂,李曉明;海量Web搜索引擎系統(tǒng)中用戶行為的分布特征及其啟示[J];中國科學(xué)E輯:技術(shù)科學(xué);2001年04期
2 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
3 李凱,赫楓齡,左萬利;PageRank-Pro——一種改進(jìn)的網(wǎng)頁排序算法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2003年02期
4 黃德才;戚華春;;PageRank算法研究[J];計(jì)算機(jī)工程;2006年04期
5 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進(jìn)[J];計(jì)算機(jī)工程;2010年22期
6 陳再良;凌力;周強(qiáng);;dPageRank——一種改進(jìn)的分布式PageRank算法[J];計(jì)算機(jī)應(yīng)用;2006年01期
7 郭晨娟;李戰(zhàn)懷;;基于概念的網(wǎng)頁相似度處理算法研究[J];計(jì)算機(jī)應(yīng)用;2006年12期
8 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計(jì)算機(jī)應(yīng)用;2009年S1期
9 白似雪;劉華斌;;基于頁面分塊模型的PageRank算法研究[J];南昌大學(xué)學(xué)報(bào)(工科版);2008年02期
10 王曉宇,周傲英;萬維網(wǎng)的鏈接結(jié)構(gòu)分析及其應(yīng)用綜述[J];軟件學(xué)報(bào);2003年10期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 藥成剛;基于鏈接結(jié)構(gòu)的中文網(wǎng)頁排序算法研究[D];哈爾濱工業(yè)大學(xué);2006年
2 縣小平;搜索引擎PageRank算法研究[D];西北大學(xué);2010年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 范偉,宣國榮;VR系統(tǒng)三維建模中細(xì)節(jié)水平分割的分析[J];計(jì)算機(jī)工程;1998年01期
2 田捷,何余良,陳宏,楊鑫;一種基于相似度聚類方法的指紋識(shí)別算法[J];中國科學(xué)E輯;2005年02期
3 范自柱;;一種基于曲面求交的圖像識(shí)別方法[J];計(jì)算機(jī)與信息技術(shù);2005年03期
4 張樹江;邢慧;顏景龍;;一種基于相似度的子彈識(shí)別方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
5 閆英杰;林鴻飛;王劍峰;;基于混合策略的中文文摘自動(dòng)評(píng)測方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
6 孟海濤;陳笑蓉;;基于模糊相似度的科技文獻(xiàn)軟聚類算法[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
7 謝桂芳;李仁發(fā);;具有概念聯(lián)想功能的語義關(guān)系庫的自動(dòng)構(gòu)建[J];計(jì)算機(jī)工程與應(yīng)用;2007年07期
8 李鋒;魏瑩;;分布式環(huán)境下基于語義相似的案例檢索[J];計(jì)算機(jī)工程;2007年09期
9 胡立輝;;基于偏好一致性的群體聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年22期
10 魏玲玲;邱桃榮;陳霞;;基于相似度對(duì)Rough關(guān)系數(shù)據(jù)庫檢索[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年17期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 金保華;高湘飛;柳雪環(huán);張磊;;基于XML框架與CBR智能預(yù)案管理的研究[A];2009年中國智能自動(dòng)化會(huì)議論文集(第二分冊)[C];2009年
2 王超;許方;;一種基于奇異值分解的印刷體數(shù)字識(shí)別算法[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年
3 劉海波;鄭德權(quán);趙鐵軍;;基于相似度線性加權(quán)方法的檢索結(jié)果聚類研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 袁里馳;鐘義信;;一種新穎的詞聚類算法[A];中國自動(dòng)化學(xué)會(huì)、中國儀器儀表學(xué)會(huì)2004年西南三省一市自動(dòng)化與儀器儀表學(xué)術(shù)年會(huì)論文集[C];2004年
5 潘景昌;程馬勇;閻崢;黃W,
本文編號(hào):729239
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/729239.html