天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于語義的Web信息自動聚合系統(tǒng)的關(guān)鍵技術(shù)研究

發(fā)布時間:2017-11-05 04:40

  本文關(guān)鍵詞:基于語義的Web信息自動聚合系統(tǒng)的關(guān)鍵技術(shù)研究


  更多相關(guān)文章: 信息聚合 LDA 正文抽取 潛在語義


【摘要】:近年來,隨著社會網(wǎng)絡(luò)及個人博客、微博的成功,互聯(lián)網(wǎng)已經(jīng)全面進(jìn)入開放、平等、去中心化為特點的Web2.0時代,網(wǎng)絡(luò)信息資源的海量增長使互聯(lián)網(wǎng)信息重復(fù)與信息過載的問題日趨嚴(yán)重。因此,如何將半結(jié)構(gòu)化、離散分布的互聯(lián)網(wǎng)信息動態(tài)關(guān)聯(lián)并聚合起來,有效提供服務(wù)并促進(jìn)知識共享,成為當(dāng)前國內(nèi)外學(xué)者主要研究方向。 本文在研究文本聚類分析的基礎(chǔ)上,借助中文分詞、文本去重等技術(shù),結(jié)合傳統(tǒng)搜索引擎技術(shù)及RSS信息聚合技術(shù),提出一種自動精煉Web信息、聚合語義相似信息的信息處理方法,以便根據(jù)潛在語義將相同或相似的Web信息自動聚合,及時發(fā)現(xiàn)新主題,追蹤已有主題的演化趨勢。本文主要研究內(nèi)容包括: 1、針對傳統(tǒng)信息聚合技術(shù)缺乏對信息本身處理的問題,本文提出web信息自動聚合系統(tǒng)設(shè)計方案,根據(jù)功能不同將系統(tǒng)分為信息獲取、信息預(yù)處理、按語義聚合三部分,并對每一部分的處理過程進(jìn)行詳細(xì)分析與設(shè)計。2、研究分析現(xiàn)有網(wǎng)頁正文抽取技術(shù),提出一種基于標(biāo)點分布和標(biāo)簽相似度的多正文網(wǎng)頁抽取技術(shù),利用網(wǎng)絡(luò)上爬取的網(wǎng)頁進(jìn)行實驗,實現(xiàn)證明該方法能有效的將網(wǎng)頁中的主要信息分正文抽取。3、深入研究文本主題模型,特別是能根據(jù)文本潛在語義信息對文本進(jìn)行聚類的LDA主題模型;針對Web信息多樣化、主題多變的特點對LDA進(jìn)行一定改進(jìn),使只能處理離線的、無時間信息的LDA模型應(yīng)用于在線的Web信息聚合系統(tǒng)中;實驗分析表明,該算法可以根據(jù)潛在語義將所涉主題相關(guān)的文檔歸類,同時可以根據(jù)不同時間的主題分布和主題熱度對主題進(jìn)行演化分析。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1;TP393.092

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前5條

1 王偉軍;孫晶;;Web2.0的研究與應(yīng)用綜述[J];情報科學(xué);2007年12期

2 熊回香;陳姍;許穎穎;;基于Web 3.0的個性化信息聚合技術(shù)研究[J];情報理論與實踐;2011年08期

3 鄧勝利;;信息聚合服務(wù)的發(fā)展與演變研究[J];情報資料工作;2012年01期

4 黃春賢;毛明志;鐘毅;;RSS技術(shù)及其發(fā)展探討[J];計算機技術(shù)與發(fā)展;2007年05期

5 姜恩波;;基于信息聚合的服務(wù)與技術(shù)[J];現(xiàn)代圖書情報技術(shù);2007年04期

,

本文編號:1142660

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1142660.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9eaf7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com