天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于網(wǎng)頁聚類的搜索引擎結(jié)果排序

發(fā)布時間:2016-11-29 08:34

  本文關(guān)鍵詞:基于網(wǎng)頁聚類的搜索引擎結(jié)果排序,由筆耕文化傳播整理發(fā)布。


《中國石油大學(xué)》 2010年

基于網(wǎng)頁聚類的搜索引擎結(jié)果排序

孫珊珊  

【摘要】: 隨著Web資源的不斷豐富,更多的用戶試圖通過搜索引擎查詢信息。然而,用戶在體驗信息檢索系統(tǒng)帶來的方便之時,也體會到了信息獲取的困難。一方面,目前的搜索引擎主要基于與查詢內(nèi)容的字形匹配返回大量檢索結(jié)果,由于查詢內(nèi)容具有廣泛的語義,因此在返回的結(jié)果列表中存在主題混雜現(xiàn)象,用戶在檢索過程中必須不斷對結(jié)果進(jìn)行篩選,耗費了大量時間。另一方面,用戶得到的檢索結(jié)果不具個性化。針對上述問題,本文提出了基于網(wǎng)頁聚類的搜索引擎結(jié)果排序。 首先,為了解決搜索引擎返回結(jié)果中的主題混雜現(xiàn)象,幫助用戶快速準(zhǔn)確地定位到有價值的信息,本文將文本聚類應(yīng)用到搜索結(jié)果處理中,提出基于主題短語的搜索引擎結(jié)果聚類方法。在對返回結(jié)果的特征提取中,提出一種新的特征提取方式,特征向量由查詢關(guān)鍵詞構(gòu)成的主題短語和高頻獨立詞組成。同時引入同義詞詞林對特征項進(jìn)行語義擴(kuò)充,最后采用改進(jìn)的k-means聚類算法對搜索結(jié)果進(jìn)行聚類,并為各個類別提取類別標(biāo)簽。 其次,針對用戶檢索的個性化問題,本文提出了基于用戶興趣和網(wǎng)頁聚類的搜索結(jié)果排序。通過挖掘用戶興趣,建立興趣模型,根據(jù)用戶的興趣對聚類結(jié)果進(jìn)行類別排序,同時基于用戶興趣模型對類別標(biāo)簽進(jìn)行擴(kuò)展,對用戶感興趣的類別內(nèi)網(wǎng)頁綜合多個指標(biāo)進(jìn)行順序微調(diào)。 最后,根據(jù)算法思想進(jìn)行了實驗測試,并對實驗數(shù)據(jù)進(jìn)行了分析。實驗結(jié)果表明,基于主題短語的搜索引擎結(jié)果聚類算法能有效提高聚類結(jié)果的查準(zhǔn)率,聚類類別實現(xiàn)了對查詢主題的細(xì)化;谟脩襞d趣的排序提高了用戶準(zhǔn)確獲取信息的效率。同時該系統(tǒng)也存在著很多不足之處,有待于進(jìn)一步的改進(jìn)。

【關(guān)鍵詞】:
【學(xué)位授予單位】:中國石油大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2010
【分類號】:TP391.3
【目錄】:

  • 摘要4-5
  • Abstract5-9
  • 第一章 緒論9-14
  • 1.1 研究背景9-10
  • 1.2 研究意義10
  • 1.3 國內(nèi)外研究動態(tài)10-12
  • 1.3.1 搜索引擎結(jié)果聚類的研究現(xiàn)狀10-12
  • 1.3.2 搜索引擎?zhèn)性化排序算法研究現(xiàn)狀12
  • 1.4 研究內(nèi)容12-13
  • 1.5 論文結(jié)構(gòu)13-14
  • 第二章 搜索引擎及文本聚類方法概述14-26
  • 2.1 搜索引擎的組成和工作原理14-17
  • 2.1.1 搜索引擎的組成和工作原理14-15
  • 2.1.2 搜索引擎結(jié)果的表示方法15-17
  • 2.1.3 搜索引擎的性能評價17
  • 2.2 搜索引擎結(jié)果排序17-21
  • 2.2.1 PageRank 算法及其改進(jìn)18-19
  • 2.2.2 HITS 算法及改進(jìn)19-20
  • 2.2.3 詞頻位置加權(quán)排序算法20
  • 2.2.4 Direct Hit 排序算法20-21
  • 2.2.5 基于網(wǎng)頁分塊的排序算法21
  • 2.3 文本聚類及評價方法21-25
  • 2.3.1 文本聚類相關(guān)技術(shù)21-23
  • 2.3.2 傳統(tǒng)文本聚類算法23-24
  • 2.3.3 聚類算法評價標(biāo)準(zhǔn)24-25
  • 2.4 本章小結(jié)25-26
  • 第三章 基于網(wǎng)頁聚類的搜索引擎結(jié)果排序26-35
  • 3.1 用戶興趣建模26-28
  • 3.1.1 用戶興趣的獲取方法26-27
  • 3.1.2 用戶興趣模型的表示27-28
  • 3.2 搜索引擎結(jié)果聚類28-33
  • 3.2.1 基于后綴樹的搜索引擎結(jié)果聚類29-30
  • 3.2.2 基于關(guān)聯(lián)規(guī)則的搜索引擎結(jié)果聚類30-31
  • 3.2.3 基于鏈接結(jié)構(gòu)的搜索引擎結(jié)果聚類31-32
  • 3.2.4 基于短語評分的搜索引擎結(jié)果聚類32-33
  • 3.3 基于用戶興趣模型與聚類的搜索結(jié)果排序33
  • 3.4 本章小結(jié)33-35
  • 第四章 基于網(wǎng)頁聚類的搜索引擎結(jié)果排序設(shè)計與實現(xiàn)35-50
  • 4.1 主要問題與研究思路35-36
  • 4.2 基于主題短語的搜索引擎結(jié)果聚類36-44
  • 4.2.1 搜索結(jié)果的預(yù)處理37
  • 4.2.2 主題短語提取與混合特征向量建模37-41
  • 4.2.3 改進(jìn)的k-means 聚類算法41-44
  • 4.2.4 類別標(biāo)簽的提取44
  • 4.3 基于用戶興趣模型的個性化排序44-49
  • 4.3.1 用戶興趣模型的提取45-46
  • 4.3.2 基于興趣模型的聚類類別排序和標(biāo)簽擴(kuò)展46-47
  • 4.3.3 聚類類別內(nèi)的網(wǎng)頁排序47-49
  • 4.4 本章小結(jié)49-50
  • 第五章 系統(tǒng)實現(xiàn)與實驗分析50-55
  • 5.1 模塊設(shè)計與功能介紹50-51
  • 5.2 實驗及結(jié)果評價51-55
  • 總結(jié)與展望55-57
  • 工作總結(jié)55
  • 論文創(chuàng)新點55-56
  • 下一步研究方向56-57
  • 參考文獻(xiàn)57-61
  • 攻讀碩士學(xué)位期間的研究成果61-62
  • 致謝62
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 相春雷;;2009年中國搜索引擎市場趨勢分析[J];軟件世界;2010年02期

    2 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計算機(jī)與網(wǎng)絡(luò);2010年Z1期

    3 張敏;;信息抽取技術(shù)在網(wǎng)頁中的應(yīng)用[J];中國城市經(jīng)濟(jì);2011年20期

    4 馬玥;;王小川:絕境之外[J];中國經(jīng)濟(jì)和信息化;2011年12期

    5 魏蕾如;;基于搜索引擎的網(wǎng)絡(luò)中文信息檢索工具評價[J];數(shù)字技術(shù)與應(yīng)用;2011年06期

    6 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期

    7 胡風(fēng)華;王磊;;基于知識庫系統(tǒng)的智能搜索引擎研究[J];中國新技術(shù)新產(chǎn)品;2011年18期

    8 方亞會;;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期

    9 ;成長中的谷歌[J];IT時代周刊;2011年18期

    10 林麗華;;用好SOSO的微博搜索功能[J];電腦迷;2011年16期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

    2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

    3 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

    4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

    5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機(jī)學(xué)會2008年年會論文集[C];2008年

    6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年

    7 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年

    8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年

    9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年

    10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 主持人 陳建棟;[N];光明日報;2005年

    2 本報記者 陳建棟;[N];光明日報;2005年

    3 曾正樂;[N];經(jīng)濟(jì)日報;2005年

    4 本報記者 秦海波;[N];經(jīng)濟(jì)日報;2005年

    5 FN記者 柳立;[N];金融時報;2005年

    6 閆輝;[N];計算機(jī)世界;2005年

    7 本報記者 李劍;[N];通信信息報;2005年

    8 華夏;[N];江蘇科技報;2008年

    9 記者 毛濤濤;[N];北京商報;2008年

    10 笑愉;[N];中國稅務(wù)報;2008年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年

    2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

    3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

    4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

    5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年

    6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

    7 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年

    8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

    9 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

    10 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學(xué);2010年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年

    2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

    3 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

    4 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年

    5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年

    6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年

    7 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

    8 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學(xué)院;2003年

    9 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實踐[D];新疆大學(xué);2004年

    10 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年


      本文關(guān)鍵詞:基于網(wǎng)頁聚類的搜索引擎結(jié)果排序,由筆耕文化傳播整理發(fā)布。

    ,

    本文編號:197475

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/197475.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶fd397***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com