基于領(lǐng)域模型的網(wǎng)頁(yè)搜索排序算法
本文關(guān)鍵詞:基于領(lǐng)域模型的網(wǎng)頁(yè)搜索排序算法
更多相關(guān)文章: 領(lǐng)域模型 網(wǎng)頁(yè)信息模型 網(wǎng)頁(yè)重排序
【摘要】:通用搜索引擎在檢索過(guò)程中會(huì)出現(xiàn)查詢結(jié)果與關(guān)鍵詞所屬領(lǐng)域無(wú)關(guān)的主題漂移現(xiàn)象.本文提出了面向特定領(lǐng)域的網(wǎng)頁(yè)重排序算法—TSRR(Topic Sensitive Re-Ranking)算法,從一個(gè)新的視角對(duì)主題漂移問(wèn)題加以解決.TSRR算法設(shè)計(jì)一種獨(dú)立于網(wǎng)頁(yè)排序的模型,用來(lái)表示領(lǐng)域,然后建立網(wǎng)頁(yè)信息模型,在用戶檢索過(guò)程中結(jié)合領(lǐng)域向量模型和網(wǎng)頁(yè)信息模型對(duì)網(wǎng)頁(yè)搜索結(jié)果進(jìn)行重排序.在爬取的特定領(lǐng)域的數(shù)據(jù)集上,以用戶滿意度和準(zhǔn)確率為標(biāo)準(zhǔn)進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,本文中提出的TSRR算法性能優(yōu)異,比經(jīng)典的基于Lucene的排序算法在用戶滿意度上平均提高17.3%,在準(zhǔn)確率上平均提高41.9%.
【作者單位】: 合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院;
【基金】:國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863)(2012AA011005)
【分類號(hào)】:TP391.1;TP393.092
【正文快照】: 1引言 為80.3%,用戶規(guī)模較2013年12月增長(zhǎng)1783萬(wàn)人,增隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)成為人們獲取 長(zhǎng)率為3.6%.搜索引擎如何快速、高效、正確地給用信息的重要渠道,搜索引擎成為人們獲取信息時(shí)使用 戶返回所查詢結(jié)果,成為目前搜索引擎所面臨的最大最多的互聯(lián)網(wǎng)工具之一.從最早
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 劉菁菁;林鴻飛;趙晶;;基于PageRank和錨文本的網(wǎng)頁(yè)排序研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年10期
2 劉凱鵬;方濱興;;一種基于社會(huì)性標(biāo)注的網(wǎng)頁(yè)排序算法[J];計(jì)算機(jī)學(xué)報(bào);2010年06期
3 王沖;曹姍姍;;基于用戶反饋與主題關(guān)聯(lián)度的網(wǎng)頁(yè)排序算法改進(jìn)[J];計(jì)算機(jī)應(yīng)用;2014年12期
4 王曉宇,周傲英;萬(wàn)維網(wǎng)的鏈接結(jié)構(gòu)分析及其應(yīng)用綜述[J];軟件學(xué)報(bào);2003年10期
5 張賢;周婭;;基于Lucene網(wǎng)頁(yè)排序算法的改進(jìn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年02期
6 黃德才;戚華春;錢(qián)能;;基于主題相似度模型的TS-PageRank算法[J];小型微型計(jì)算機(jī)系統(tǒng);2007年03期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 蔣宗禮;李憲雷;徐學(xué)可;;基于主題Hub值的元搜索[J];北京工業(yè)大學(xué)學(xué)報(bào);2009年03期
2 葉琳莉;林嵩凱;;基于Web結(jié)構(gòu)挖掘算法的網(wǎng)站構(gòu)建[J];電腦知識(shí)與技術(shù);2008年34期
3 王梅;;搜索引擎中的web鏈接算法研究與改進(jìn)[J];電腦知識(shí)與技術(shù);2009年24期
4 譚濤;;高效的動(dòng)態(tài)腳本網(wǎng)頁(yè)關(guān)聯(lián)性挖掘算法研究[J];電腦知識(shí)與技術(shù);2012年13期
5 李江;殷之明;;鏈接分析研究綜述[J];大學(xué)圖書(shū)館學(xué)報(bào);2008年02期
6 王艷輝,吳斌,王柏;電信社群網(wǎng)絡(luò)靜態(tài)幾何性質(zhì)分析研究[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2005年02期
7 段曉東;王存睿;劉向東;張慶靈;;基于網(wǎng)絡(luò)權(quán)重的多社團(tuán)網(wǎng)絡(luò)結(jié)構(gòu)劃分算法[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2009年03期
8 譚麗華;董毅明;李林紅;;互聯(lián)網(wǎng)群體智能的涌現(xiàn)[J];管理學(xué)報(bào);2010年12期
9 張黎爍;李鑫;徐猛;;基于PageRank的網(wǎng)頁(yè)主題相關(guān)性算法研究[J];光盤(pán)技術(shù);2008年12期
10 邱均平,張洋;網(wǎng)絡(luò)信息計(jì)量學(xué)綜述[J];高校圖書(shū)館工作;2005年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條
1 張冉;卡米力毛依丁;;基于論文參考文獻(xiàn)引用分析的專業(yè)文獻(xiàn)查詢庫(kù)[A];第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
2 楊宇航;趙鐵軍;鄭德權(quán);于浩;;基于鏈接分析的重要Blog信息源發(fā)現(xiàn)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲(chóng)初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 張志強(qiáng);梁婷婷;謝曉芹;;一種基于用戶標(biāo)記的搜索結(jié)果排序算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
5 陳志剛;孟祥增;;多媒體教學(xué)資源主題搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國(guó)計(jì)算機(jī)輔助教育學(xué)會(huì)“計(jì)算機(jī)輔助教育軟件開(kāi)發(fā)與應(yīng)用”研討會(huì)論文集[C];2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 黃莉;基于語(yǔ)義關(guān)聯(lián)的重復(fù)數(shù)據(jù)清理技術(shù)研究[D];華中科技大學(xué);2011年
2 楊抒;基于WEB的林產(chǎn)品信息資源整合方法研究[D];北京林業(yè)大學(xué);2011年
3 熊回香;面向Web3.0的大眾分類研究[D];華中師范大學(xué);2011年
4 鄧小龍;基于復(fù)雜網(wǎng)絡(luò)分析的新一代電信CRM關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年
5 余偉;基于用戶個(gè)性挖掘的Web社區(qū)營(yíng)銷研究[D];武漢大學(xué);2011年
6 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
7 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
8 樂(lè)小虬;非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2006年
9 鄧波;分布式序敏感查詢處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2006年
10 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
2 王芳;基于EVS相似度的郵件社區(qū)劃分方法研究[D];鄭州大學(xué);2010年
3 劉文輝;基于鏈接結(jié)構(gòu)的網(wǎng)頁(yè)排序算法研究[D];哈爾濱工程大學(xué);2010年
4 張士軍;基于隨機(jī)游走的網(wǎng)頁(yè)協(xié)同排序算法研究[D];大連理工大學(xué);2010年
5 楊陽(yáng);復(fù)雜網(wǎng)絡(luò)社團(tuán)劃分算法的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
6 張韋;基于語(yǔ)義的Web主題提取的研究[D];湖北工業(yè)大學(xué);2011年
7 戴支榮;基于Lucene的面向主題信息搜索系統(tǒng)的關(guān)鍵技術(shù)分析及應(yīng)用[D];武漢理工大學(xué);2011年
8 吉飛;基于用戶瀏覽行為的網(wǎng)絡(luò)資源排序研究[D];大連海事大學(xué);2011年
9 李瑩;基于最大流與頁(yè)面相似度值的Web結(jié)構(gòu)挖掘研究[D];陜西師范大學(xué);2011年
10 馬麗;融入語(yǔ)義相似度的HITS算法研究及實(shí)現(xiàn)[D];南京理工大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王建勇,單松巍,雷鳴,謝正茂,李曉明;海量Web搜索引擎系統(tǒng)中用戶行為的分布特征及其啟示[J];中國(guó)科學(xué)E輯:技術(shù)科學(xué);2001年04期
2 周晉;路海明;李衍達(dá);;搜索引擎輸入方式的研究[J];計(jì)算機(jī)科學(xué);2002年08期
3 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進(jìn)[J];計(jì)算機(jī)工程;2010年22期
4 方樹(shù)峰;;基于用戶反饋的PageRank改進(jìn)算法[J];計(jì)算技術(shù)與自動(dòng)化;2012年01期
5 劉雁,書(shū)方平;利用鏈接關(guān)系評(píng)價(jià)網(wǎng)絡(luò)信息的可行性研究[J];情報(bào)學(xué)報(bào);2002年04期
6 曹軍;Google的PageRank技術(shù)剖析[J];情報(bào)雜志;2002年10期
7 王曉宇,周傲英;萬(wàn)維網(wǎng)的鏈接結(jié)構(gòu)分析及其應(yīng)用綜述[J];軟件學(xué)報(bào);2003年10期
8 宋聚平,王永成,尹中航,滕偉;對(duì)網(wǎng)頁(yè)P(yáng)ageRank算法的改進(jìn)[J];上海交通大學(xué)學(xué)報(bào);2003年03期
9 段淮川;胡平;;基于主題特征和時(shí)間因子的改進(jìn)PageRank算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年04期
10 戚華春,黃德才,鄭月鋒;具有時(shí)間反饋的PageRank改進(jìn)算法[J];浙江工業(yè)大學(xué)學(xué)報(bào);2005年03期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 朱建莉,劉宏強(qiáng);常用排序算法綜述[J];勝利油田師范?茖W(xué)校學(xué)報(bào);2002年04期
2 周海巖,郝保樹(shù);一種新的桶分配鏈接排序算法[J];太原師范?茖W(xué)校學(xué)報(bào);2002年01期
3 趙忠孝;基于概率分布的排序算法(1)[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期
4 趙忠孝;基于概率分布的排序算法(2)[J];計(jì)算機(jī)工程與應(yīng)用;2002年12期
5 何文明;針對(duì)任意分布數(shù)據(jù)的高效分檔混合排序算法[J];計(jì)算機(jī)工程與應(yīng)用;2003年22期
6 尤志強(qiáng),張大方;數(shù)據(jù)等概率分檔排序算法有效性的定量研究[J];計(jì)算機(jī)學(xué)報(bào);2003年01期
7 穆炯,蒲海波;對(duì)按位分段排序算法的研究[J];四川農(nóng)業(yè)大學(xué)學(xué)報(bào);2004年01期
8 李井潤(rùn);一種基于統(tǒng)計(jì)的分段排序算法[J];微計(jì)算機(jī)應(yīng)用;2004年03期
9 曹清錄,王念平,張斌;合并排序算法的平均情形復(fù)雜性分析及其應(yīng)用[J];計(jì)算機(jī)工程;2004年21期
10 余炳惠,王克剛;排序算法的選擇及一些改進(jìn)[J];安康師專學(xué)報(bào);2004年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 周曉方;金志權(quán);;尋找最佳分布式排序算法[A];第九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(上)[C];1990年
2 張艷秋;李建中;;一種基于蛇型磁帶的排序算法[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
3 劉春陽(yáng);葉君峰;母海龍;陸秋霞;陳滄;高鶯;;一種商品標(biāo)題主題詞的重要性排序算法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 王少帥;湯慶新;姚路;;并行獨(dú)立集排序算法的改進(jìn)與實(shí)現(xiàn)[A];第十六屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2011年
5 于芳;王大玲;于戈;陳冬玲;鮑玉斌;;面向用戶的排序算法研究[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
6 閆潑;馬軍;陳竹敏;;面向主題的網(wǎng)頁(yè)排序算法研究[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
7 張健沛;李連江;楊靜;;個(gè)性化搜索引擎排序算法的研究與改進(jìn)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
8 吳志彬;陳義華;;ANP中超矩陣排序算法研究[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年
9 陳叢叢;石冰;陳健;;面向主題的查詢相關(guān)網(wǎng)頁(yè)排序算法[A];第三屆中國(guó)智能計(jì)算大會(huì)論文集[C];2009年
10 齊曼;張珩;;實(shí)時(shí)視覺(jué)仿真中幀連貫性應(yīng)用[A];'2000系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2000年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 廣東 黃陀;基本算法簡(jiǎn)介(三)[N];電腦報(bào);2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 趙立軍;基于歸并的高效排序算法的研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);1998年
2 崔筠;無(wú)向基因組的移位排序算法[D];山東大學(xué);2006年
3 郝凡昌;有向基因組復(fù)合操作重組排序算法研究[D];山東大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王靖;數(shù)據(jù)庫(kù)管理系統(tǒng)中高能效排序算法[D];浙江工業(yè)大學(xué);2012年
2 尹曉;基因組移位排序算法的改進(jìn)和評(píng)測(cè)[D];山東大學(xué);2006年
3 黃興;比特位拆分索引排序算法研究[D];清華大學(xué);2007年
4 Mushtaq AbdulMutalib Hasson;一種論文時(shí)間與引用兼顧的科研論文排序算法[D];華中科技大學(xué);2012年
5 劉聲田;基于第一降序小隊(duì)翻轉(zhuǎn)排序算法的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2006年
6 曹臻;基于粗糙集的粒度排序算法[D];上海海事大學(xué);2007年
7 侯紅梅;圖像搜索重排序算法研究[D];山東大學(xué);2014年
8 徐艷霞;面向數(shù)學(xué)搜索的排序算法研究[D];蘭州大學(xué);2012年
9 張建英;稀疏正則化最小二乘排序算法[D];湖北大學(xué);2011年
10 廉潔;改進(jìn)的內(nèi)容分析排序算法在搜索引擎中的研究與應(yīng)用[D];大連交通大學(xué);2013年
,本文編號(hào):1263582
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1263582.html