面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法研究
本文關(guān)鍵詞:面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法研究
更多相關(guān)文章: 網(wǎng)頁重排序 網(wǎng)頁分類 領(lǐng)域向量模型 網(wǎng)頁信息模型 搜索引擎
【摘要】:隨著互聯(lián)網(wǎng)中網(wǎng)頁數(shù)量的增加、信息的爆炸,如何從海量數(shù)據(jù)中找到對用戶最有價值的信息,成為了互聯(lián)網(wǎng)中一個熱門問題。在這樣的背景下,搜索引擎技術(shù)應(yīng)運而生,成為用戶在互聯(lián)網(wǎng)中搜索信息的重要渠道之一。然而,現(xiàn)有的通用搜索引擎存在主題漂移問題,即與用戶查詢關(guān)鍵詞所屬領(lǐng)域不相符的網(wǎng)頁會排在結(jié)果列表的前列,這顯然會減低用戶的體驗。為了解決通用搜索引擎的主題漂移問題,本文在觀察和分析了大量網(wǎng)頁新聞實例之后發(fā)現(xiàn),屬于相同領(lǐng)域的新聞網(wǎng)頁往往包含類似的關(guān)鍵詞;谶@個發(fā)現(xiàn),本文探索了面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法,并展開了以下研究。(1)本文介紹了搜索引擎的相關(guān)背景和技術(shù),重點包括:網(wǎng)絡(luò)爬蟲、網(wǎng)頁分類和網(wǎng)頁排序等;(2)本文研究了特定領(lǐng)域向量模型的構(gòu)建方法,并且針對特定領(lǐng)域的新聞網(wǎng)頁構(gòu)建了一個分類器,用來對網(wǎng)頁進行分類,通過實驗表明,該分類器具有較高的分類精度;(3)本文提出了一種面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法-TSRR算法。TSRR算法設(shè)計了一種獨立于網(wǎng)頁排序的模型,用來表示領(lǐng)域,然后建立網(wǎng)頁信息模型,針對新聞網(wǎng)頁,在用戶檢索過程中結(jié)合領(lǐng)域向量模型和網(wǎng)頁信息模型對網(wǎng)頁搜索結(jié)果進行重排序。在爬取的特定領(lǐng)域的數(shù)據(jù)集上,以用戶滿意度和準確率為標準進行評估,實驗結(jié)果表明,本文中提出的TSRR算法性能優(yōu)異,比經(jīng)典的基于Lucene的排序算法在用戶滿意度上平均提高17.3%,在準確率上平均提高41.9%;(4)本文設(shè)計實現(xiàn)了一個面向特定領(lǐng)域的新聞網(wǎng)頁垂直搜索原型系統(tǒng),并將本文設(shè)計的分類器和網(wǎng)頁重排序算法集成到其中,介紹了系統(tǒng)的框架,實現(xiàn)以及用戶界面。
【關(guān)鍵詞】:網(wǎng)頁重排序 網(wǎng)頁分類 領(lǐng)域向量模型 網(wǎng)頁信息模型 搜索引擎
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 致謝7-8
- 摘要8-9
- ABSTRACT9-14
- 第一章 緒論14-19
- 1.1 研究背景14-15
- 1.2 國內(nèi)外研究現(xiàn)狀15-17
- 1.3 本文主要工作17-18
- 1.4 論文組織結(jié)構(gòu)18
- 1.5 本章小結(jié)18-19
- 第二章 相關(guān)技術(shù)體系概述19-45
- 2.1 網(wǎng)絡(luò)爬蟲技術(shù)19-25
- 2.2 索引技術(shù)25-29
- 2.2.1 倒排索引25-26
- 2.2.2 索引建立方法26-28
- 2.2.3 索引的更新策略28-29
- 2.3 網(wǎng)頁分類技術(shù)29-36
- 2.3.1 網(wǎng)頁分類定義29-31
- 2.3.2 網(wǎng)頁分類中的相關(guān)特征31-35
- 2.3.3 網(wǎng)頁特征的選擇35-36
- 2.4 網(wǎng)頁排序技術(shù)36-41
- 2.4.1 基于內(nèi)容的網(wǎng)頁排序算法37
- 2.4.2 基于鏈接分析的網(wǎng)頁排序算法37-41
- 2.5 搜索引擎技術(shù)41-42
- 2.5.1 通用搜索引擎41
- 2.5.2 垂直搜索引擎41-42
- 2.5.3 元搜索引擎42
- 2.6 Lucene項目簡介42-44
- 2.7 本章小結(jié)44-45
- 第三章 面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法研究45-63
- 3.1 領(lǐng)域向量模型的構(gòu)建算法45-46
- 3.1.1 領(lǐng)域概述45
- 3.1.2 領(lǐng)域的表示方式45
- 3.1.3 領(lǐng)域向量模型的構(gòu)建算法45-46
- 3.2 面向特定領(lǐng)域的新聞網(wǎng)頁分類器46-53
- 3.2.1 網(wǎng)頁信息模型的建立47
- 3.2.2 相似度度量方法47-48
- 3.2.3 網(wǎng)頁分類特征提取48-50
- 3.2.4 分類實驗及結(jié)果50-53
- 3.3 面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法53-62
- 3.3.1 面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法53-54
- 3.3.2 重排序?qū)嶒灱敖Y(jié)果54-62
- 3.4 本章小結(jié)62-63
- 第四章 面向特定領(lǐng)域的新聞網(wǎng)頁垂直搜索原型系統(tǒng)63-68
- 4.1 系統(tǒng)框架63-64
- 4.2 主要功能實現(xiàn)和系統(tǒng)展示64-67
- 4.3 本章小結(jié)67-68
- 第五章 總結(jié)與展望68-70
- 5.1 本文總結(jié)68-69
- 5.2 本文展望69-70
- 參考文獻70-73
- 攻讀碩士學(xué)位期間的學(xué)術(shù)活動及成果情況73-74
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王鵬;張永奎;張彥;劉睿;;基于新聞網(wǎng)頁主題要素的網(wǎng)頁去重方法研究[J];計算機工程與應(yīng)用;2007年28期
2 吳定明;趙東巖;;一種互聯(lián)網(wǎng)新聞網(wǎng)頁的采集分析方法[J];計算機工程與應(yīng)用;2007年36期
3 唐俊;;復(fù)雜網(wǎng)絡(luò)在新聞網(wǎng)頁關(guān)鍵詞提取中的應(yīng)用[J];云南民族大學(xué)學(xué)報(自然科學(xué)版);2012年04期
4 鄒永強;鐘志農(nóng);;一種高效的新聞網(wǎng)頁噪聲過濾方法[J];微型機與應(yīng)用;2011年16期
5 陳爽;李先國;陳福;李素;;一種抽取新聞網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)的方法[J];燕山大學(xué)學(xué)報;2007年06期
6 李振華;;新聞網(wǎng)頁中的視覺識別系統(tǒng)設(shè)計[J];新聞愛好者;2010年19期
7 李潤彤;;新聞網(wǎng)頁的視覺識別系統(tǒng)設(shè)計[J];科技傳播;2012年08期
8 葛曉玢;劉杰;崔健;;基于版權(quán)信息的新聞網(wǎng)頁去重策略研究[J];電腦知識與技術(shù);2012年26期
9 胡國平;張巍;王仁華;;基于雙層決策的新聞網(wǎng)頁正文精確抽取[J];中文信息學(xué)報;2006年06期
10 胡學(xué)鋼;朱珠;吳共慶;;新聞網(wǎng)頁自動識別的相關(guān)特征研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2008年03期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 王鵬;張永奎;;基于新聞網(wǎng)頁主題要素的網(wǎng)頁去重方法研究[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 呂婷婷;統(tǒng)計和規(guī)則相結(jié)合的新聞網(wǎng)頁分類系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2011年
2 王星;新聞網(wǎng)頁抽取技術(shù)的研究與實現(xiàn)[D];河北工業(yè)大學(xué);2011年
3 鄒永強;新聞網(wǎng)頁中人物實體關(guān)系提取技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
4 潘澄;面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法研究[D];合肥工業(yè)大學(xué);2015年
5 李星華;中英文新聞網(wǎng)頁關(guān)鍵詞抽取技術(shù)研究[D];合肥工業(yè)大學(xué);2009年
6 毛新武;基于組合特征的中文新聞網(wǎng)頁關(guān)鍵詞提取研究[D];北京林業(yè)大學(xué);2013年
7 尹倩;基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年
8 侯小可;微博新聞話題的情感分析研究[D];華北電力大學(xué);2013年
9 加羊吉;藏文新聞網(wǎng)頁新詞語調(diào)查研究[D];西北民族大學(xué);2011年
,本文編號:692414
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/692414.html