天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

校園對象搜索系統(tǒng)及實體分析和短文本聚類的研究和實現(xiàn)

發(fā)布時間:2017-04-18 18:19

  本文關(guān)鍵詞:校園對象搜索系統(tǒng)及實體分析和短文本聚類的研究和實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著大數(shù)據(jù)時代的來臨,如何讓用戶在日益膨脹的數(shù)據(jù)中快速精準(zhǔn)地獲取想要的信息已經(jīng)成為越來越重要的問題。垂直領(lǐng)域的專業(yè)搜索和信息整合的實體搜索是未來搜索引擎的兩大發(fā)展方向。垂直搜索通過對行業(yè)知識進行深度挖掘,提供領(lǐng)域內(nèi)權(quán)威信息;實體搜索以實體作為研究單元,對實體信息進行整合,直接返回給用戶答案。 本課題就是基于以上兩點,以校園實體作為研究對象,搭建一個對校園信息進行深度整合的平臺級系統(tǒng),一方面可以為在校師生提供全面精準(zhǔn)的垂直搜索服務(wù),另一方面可以基于平臺數(shù)據(jù)對校園信息進行深入挖掘并對研究成果進行可視化展示。本文完成的主要工作如下: 首先,基于課題任務(wù)和目標(biāo),對校園對象搜索系統(tǒng)的研究問題進行了分析,并給出總體設(shè)計方案。根據(jù)數(shù)據(jù)整合的特點,設(shè)計出多個特色功能,包括“老師名片”、“關(guān)系圖譜”、“活動日歷”、“人物公交”和“社交話題”等;研究相應(yīng)功能的技術(shù)實現(xiàn)方案并對架構(gòu)進行整體設(shè)計和對模塊進行合理劃分。 其次,完成系統(tǒng)垂直搜索框架的設(shè)計與部分重要模塊的實現(xiàn)。主要從數(shù)據(jù)采集、數(shù)據(jù)加工和數(shù)據(jù)檢索三方面,對實際場景的應(yīng)用策略問題進行研究,并利用開源工具完成系統(tǒng)離線部分的開發(fā)工作。 然后,針對“老師名片”和“活動日歷”功能所涉及的實體屬性抽取問題,實現(xiàn)一種基于觸發(fā)詞的規(guī)則模板算法,并在系統(tǒng)中有很好的應(yīng)用效果。 另外,針對“關(guān)系圖譜”和“人物公交”功能所涉及的實體關(guān)系挖掘問題,實現(xiàn)一種基于pagerank思想的用戶權(quán)威度計算方法,實驗結(jié)果證明了其有效性, 最后,針對“社交話題”功能所涉及的短文本聚類技術(shù),提出一種主題詞檢測和親近詞挖掘的算法,和實現(xiàn)一種基于LDA的主題模型,實驗結(jié)果證明兩者的有效性并結(jié)合實際應(yīng)用場景進行對比分析。
【關(guān)鍵詞】:垂直搜索 實體信息抽取 用戶權(quán)威度 短文本聚類 LDA
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-9
  • 第一章 緒論9-13
  • 1.1 課題背景9
  • 1.2 研究現(xiàn)狀9-11
  • 1.2.1 實體搜索現(xiàn)狀9-10
  • 1.2.2 垂直搜索現(xiàn)狀10-11
  • 1.3 研究內(nèi)容11
  • 1.4 論文結(jié)構(gòu)11-13
  • 第二章 校園對象搜索系統(tǒng)的任務(wù)分析與架構(gòu)設(shè)計13-18
  • 2.1 校園對象搜索系統(tǒng)的研究任務(wù)和研究目標(biāo)13
  • 2.2 數(shù)據(jù)來源的分析與設(shè)定13-14
  • 2.3 基于整合數(shù)據(jù)的特色功能設(shè)計14-15
  • 2.4 功能實現(xiàn)的技術(shù)方案分析15-16
  • 2.5 系統(tǒng)架構(gòu)設(shè)計與模塊劃分16-18
  • 第三章 垂直搜索技術(shù)在系統(tǒng)中的設(shè)計與實現(xiàn)18-31
  • 3.1 數(shù)據(jù)采集部分18-23
  • 3.1.1 數(shù)據(jù)獲取方式18-20
  • 3.1.2 系統(tǒng)爬蟲抓取策略20-21
  • 3.1.3 系統(tǒng)爬蟲更新策略21-22
  • 3.1.4 系統(tǒng)爬蟲主題過濾策略22-23
  • 3.2 數(shù)據(jù)加工部分23-28
  • 3.2.1 網(wǎng)頁信息結(jié)構(gòu)化模塊24-26
  • 3.2.2 預(yù)處理與在線服務(wù)的分詞模塊26
  • 3.2.3 索引庫的建立與更新策略26-28
  • 3.3 數(shù)據(jù)檢索部分28-31
  • 3.3.1 向量空間模型和概率檢索模型28-29
  • 3.3.2 本系統(tǒng)檢索部分的模塊設(shè)計29-31
  • 第四章 實體分析技術(shù)在系統(tǒng)中的研究與實現(xiàn)31-44
  • 4.1 實體屬性信息的抽取模塊31-38
  • 4.1.1 半結(jié)構(gòu)化網(wǎng)頁的信息抽取技術(shù)32-33
  • 4.1.2 老師名片和活動日歷功能的信息抽取算法研究與應(yīng)用33-38
  • 4.2 實體之間的關(guān)系挖掘模塊38-44
  • 4.2.1 用戶之間相似度算法研究與實現(xiàn)39-40
  • 4.2.2 用戶權(quán)威度的算法研究與實現(xiàn)40-44
  • 第五章 短文本聚類技術(shù)在系統(tǒng)中的研究與實現(xiàn)44-53
  • 5.1 主題詞檢測和親近詞挖掘算法的實現(xiàn)44-48
  • 5.1.1 數(shù)據(jù)預(yù)處理44-45
  • 5.1.2 主題詞檢測45
  • 5.1.3 親近詞挖掘45-46
  • 5.1.4 算法實現(xiàn)與實驗分析46-48
  • 5.2 基于LDA模型的短文本聚類技術(shù)的應(yīng)用48-53
  • 5.2.1 LDA模型的生成過程49-51
  • 5.2.2 數(shù)據(jù)清洗和特征選擇51
  • 5.2.3 模型訓(xùn)練與實驗分析51-53
  • 第六章 校園對象搜索系統(tǒng)的工程實現(xiàn)與成果展示53-59
  • 6.1 系統(tǒng)整體架構(gòu)的實現(xiàn)53-54
  • 6.2 系統(tǒng)開發(fā)采用的開源工具介紹54-55
  • 6.3 系統(tǒng)基礎(chǔ)性部分的成果展示55-56
  • 6.4 系統(tǒng)擴展性部分的成果展示56-59
  • 第七章 總結(jié)與展望59-61
  • 7.1 總結(jié)59
  • 7.2 展望59-61
  • 參考文獻61-63
  • 致謝63

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 范晨熙;黃理燦;李雪利;;基于Lucene的BM25模型的評分機制的研究[J];工業(yè)控制計算機;2013年03期

2 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價值[J];信息技術(shù);2008年04期

3 張丹;;中文分詞算法綜述[J];黑龍江科技信息;2012年08期

4 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計算機科學(xué);2012年01期

5 劉遷;焦慧;賈惠波;;信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J];計算機應(yīng)用研究;2007年07期

6 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報科學(xué);2010年03期

7 唐曉波;王洪艷;;基于潛在語義分析的微博主題挖掘模型研究[J];圖書情報工作;2012年24期

8 王冬;雷景生;;一種基于PageRank的頁面排序改進算法[J];微電子學(xué)與計算機;2009年04期

9 趙文清;侯小可;;基于詞共現(xiàn)圖的中文微博新聞話題識別[J];智能系統(tǒng)學(xué)報;2012年05期

10 文必龍;唐蘇龍;張浩;;主題搜索引擎中特征模型技術(shù)的研究[J];計算機技術(shù)與發(fā)展;2013年04期


  本文關(guān)鍵詞:校園對象搜索系統(tǒng)及實體分析和短文本聚類的研究和實現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:315495

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/315495.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7adf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com