天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法研究

發(fā)布時間:2017-08-18 03:15

  本文關(guān)鍵詞:面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法研究


  更多相關(guān)文章: 網(wǎng)頁重排序 網(wǎng)頁分類 領(lǐng)域向量模型 網(wǎng)頁信息模型 搜索引擎


【摘要】:隨著互聯(lián)網(wǎng)中網(wǎng)頁數(shù)量的增加、信息的爆炸,如何從海量數(shù)據(jù)中找到對用戶最有價值的信息,成為了互聯(lián)網(wǎng)中一個熱門問題。在這樣的背景下,搜索引擎技術(shù)應(yīng)運而生,成為用戶在互聯(lián)網(wǎng)中搜索信息的重要渠道之一。然而,現(xiàn)有的通用搜索引擎存在主題漂移問題,即與用戶查詢關(guān)鍵詞所屬領(lǐng)域不相符的網(wǎng)頁會排在結(jié)果列表的前列,這顯然會減低用戶的體驗。為了解決通用搜索引擎的主題漂移問題,本文在觀察和分析了大量網(wǎng)頁新聞實例之后發(fā)現(xiàn),屬于相同領(lǐng)域的新聞網(wǎng)頁往往包含類似的關(guān)鍵詞;谶@個發(fā)現(xiàn),本文探索了面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法,并展開了以下研究。(1)本文介紹了搜索引擎的相關(guān)背景和技術(shù),重點包括:網(wǎng)絡(luò)爬蟲、網(wǎng)頁分類和網(wǎng)頁排序等;(2)本文研究了特定領(lǐng)域向量模型的構(gòu)建方法,并且針對特定領(lǐng)域的新聞網(wǎng)頁構(gòu)建了一個分類器,用來對網(wǎng)頁進行分類,通過實驗表明,該分類器具有較高的分類精度;(3)本文提出了一種面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法-TSRR算法。TSRR算法設(shè)計了一種獨立于網(wǎng)頁排序的模型,用來表示領(lǐng)域,然后建立網(wǎng)頁信息模型,針對新聞網(wǎng)頁,在用戶檢索過程中結(jié)合領(lǐng)域向量模型和網(wǎng)頁信息模型對網(wǎng)頁搜索結(jié)果進行重排序。在爬取的特定領(lǐng)域的數(shù)據(jù)集上,以用戶滿意度和準確率為標準進行評估,實驗結(jié)果表明,本文中提出的TSRR算法性能優(yōu)異,比經(jīng)典的基于Lucene的排序算法在用戶滿意度上平均提高17.3%,在準確率上平均提高41.9%;(4)本文設(shè)計實現(xiàn)了一個面向特定領(lǐng)域的新聞網(wǎng)頁垂直搜索原型系統(tǒng),并將本文設(shè)計的分類器和網(wǎng)頁重排序算法集成到其中,介紹了系統(tǒng)的框架,實現(xiàn)以及用戶界面。
【關(guān)鍵詞】:網(wǎng)頁重排序 網(wǎng)頁分類 領(lǐng)域向量模型 網(wǎng)頁信息模型 搜索引擎
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 致謝7-8
  • 摘要8-9
  • ABSTRACT9-14
  • 第一章 緒論14-19
  • 1.1 研究背景14-15
  • 1.2 國內(nèi)外研究現(xiàn)狀15-17
  • 1.3 本文主要工作17-18
  • 1.4 論文組織結(jié)構(gòu)18
  • 1.5 本章小結(jié)18-19
  • 第二章 相關(guān)技術(shù)體系概述19-45
  • 2.1 網(wǎng)絡(luò)爬蟲技術(shù)19-25
  • 2.2 索引技術(shù)25-29
  • 2.2.1 倒排索引25-26
  • 2.2.2 索引建立方法26-28
  • 2.2.3 索引的更新策略28-29
  • 2.3 網(wǎng)頁分類技術(shù)29-36
  • 2.3.1 網(wǎng)頁分類定義29-31
  • 2.3.2 網(wǎng)頁分類中的相關(guān)特征31-35
  • 2.3.3 網(wǎng)頁特征的選擇35-36
  • 2.4 網(wǎng)頁排序技術(shù)36-41
  • 2.4.1 基于內(nèi)容的網(wǎng)頁排序算法37
  • 2.4.2 基于鏈接分析的網(wǎng)頁排序算法37-41
  • 2.5 搜索引擎技術(shù)41-42
  • 2.5.1 通用搜索引擎41
  • 2.5.2 垂直搜索引擎41-42
  • 2.5.3 元搜索引擎42
  • 2.6 Lucene項目簡介42-44
  • 2.7 本章小結(jié)44-45
  • 第三章 面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法研究45-63
  • 3.1 領(lǐng)域向量模型的構(gòu)建算法45-46
  • 3.1.1 領(lǐng)域概述45
  • 3.1.2 領(lǐng)域的表示方式45
  • 3.1.3 領(lǐng)域向量模型的構(gòu)建算法45-46
  • 3.2 面向特定領(lǐng)域的新聞網(wǎng)頁分類器46-53
  • 3.2.1 網(wǎng)頁信息模型的建立47
  • 3.2.2 相似度度量方法47-48
  • 3.2.3 網(wǎng)頁分類特征提取48-50
  • 3.2.4 分類實驗及結(jié)果50-53
  • 3.3 面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法53-62
  • 3.3.1 面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法53-54
  • 3.3.2 重排序?qū)嶒灱敖Y(jié)果54-62
  • 3.4 本章小結(jié)62-63
  • 第四章 面向特定領(lǐng)域的新聞網(wǎng)頁垂直搜索原型系統(tǒng)63-68
  • 4.1 系統(tǒng)框架63-64
  • 4.2 主要功能實現(xiàn)和系統(tǒng)展示64-67
  • 4.3 本章小結(jié)67-68
  • 第五章 總結(jié)與展望68-70
  • 5.1 本文總結(jié)68-69
  • 5.2 本文展望69-70
  • 參考文獻70-73
  • 攻讀碩士學(xué)位期間的學(xué)術(shù)活動及成果情況73-74

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 王鵬;張永奎;張彥;劉睿;;基于新聞網(wǎng)頁主題要素的網(wǎng)頁去重方法研究[J];計算機工程與應(yīng)用;2007年28期

2 吳定明;趙東巖;;一種互聯(lián)網(wǎng)新聞網(wǎng)頁的采集分析方法[J];計算機工程與應(yīng)用;2007年36期

3 唐俊;;復(fù)雜網(wǎng)絡(luò)在新聞網(wǎng)頁關(guān)鍵詞提取中的應(yīng)用[J];云南民族大學(xué)學(xué)報(自然科學(xué)版);2012年04期

4 鄒永強;鐘志農(nóng);;一種高效的新聞網(wǎng)頁噪聲過濾方法[J];微型機與應(yīng)用;2011年16期

5 陳爽;李先國;陳福;李素;;一種抽取新聞網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)的方法[J];燕山大學(xué)學(xué)報;2007年06期

6 李振華;;新聞網(wǎng)頁中的視覺識別系統(tǒng)設(shè)計[J];新聞愛好者;2010年19期

7 李潤彤;;新聞網(wǎng)頁的視覺識別系統(tǒng)設(shè)計[J];科技傳播;2012年08期

8 葛曉玢;劉杰;崔健;;基于版權(quán)信息的新聞網(wǎng)頁去重策略研究[J];電腦知識與技術(shù);2012年26期

9 胡國平;張巍;王仁華;;基于雙層決策的新聞網(wǎng)頁正文精確抽取[J];中文信息學(xué)報;2006年06期

10 胡學(xué)鋼;朱珠;吳共慶;;新聞網(wǎng)頁自動識別的相關(guān)特征研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2008年03期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 王鵬;張永奎;;基于新聞網(wǎng)頁主題要素的網(wǎng)頁去重方法研究[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條

1 呂婷婷;統(tǒng)計和規(guī)則相結(jié)合的新聞網(wǎng)頁分類系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2011年

2 王星;新聞網(wǎng)頁抽取技術(shù)的研究與實現(xiàn)[D];河北工業(yè)大學(xué);2011年

3 鄒永強;新聞網(wǎng)頁中人物實體關(guān)系提取技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

4 潘澄;面向特定領(lǐng)域的新聞網(wǎng)頁重排序算法研究[D];合肥工業(yè)大學(xué);2015年

5 李星華;中英文新聞網(wǎng)頁關(guān)鍵詞抽取技術(shù)研究[D];合肥工業(yè)大學(xué);2009年

6 毛新武;基于組合特征的中文新聞網(wǎng)頁關(guān)鍵詞提取研究[D];北京林業(yè)大學(xué);2013年

7 尹倩;基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年

8 侯小可;微博新聞話題的情感分析研究[D];華北電力大學(xué);2013年

9 加羊吉;藏文新聞網(wǎng)頁新詞語調(diào)查研究[D];西北民族大學(xué);2011年

,

本文編號:692414

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/692414.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5d613***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
人妻内射精品一区二区| 午夜视频成人在线免费| 一区二区三区精品人妻| 国产欧美日韩在线一区二区| 亚洲欧美日本成人在线| 国产欧美日韩精品一区二区| 欧美精品在线观看国产| 美女黄片大全在线观看| 国内外激情免费在线视频| 午夜福利视频六七十路熟女| 久草精品视频精品视频精品 | 91久久精品在这里色伊人| 久久精品偷拍视频观看| 午夜精品福利视频观看| 九九热这里只有精品视频| 国产av一区二区三区久久不卡| 亚洲黑人精品一区二区欧美| 国产肥女老熟女激情视频一区 | 日韩欧美一区二区不卡看片| 久久久精品日韩欧美丰满| 香港国产三级久久精品三级| 一区二区不卡免费观看免费| 99秋霞在线观看视频| 十八禁日本一区二区三区| 成人午夜在线视频观看| 日韩成人高清免费在线| 美女露小粉嫩91精品久久久| 免费大片黄在线观看日本| 亚洲国产日韩欧美三级| 欧美日韩综合综合久久久| 少妇视频一区二区三区| 日本高清二区视频久二区| 欧美日韩综合在线精品| 好吊妞视频只有这里有精品| 国产精品视频一区麻豆专区| 亚洲欧美日本国产不卡| 五月的丁香婷婷综合网| 久热人妻中文字幕一区二区| 色婷婷在线精品国自产拍| 欧美日韩亚洲巨色人妻| 国产熟女一区二区三区四区|