天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

開放域黨建信息自動獲取及智能標引系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2021-02-16 09:28
  “互聯(lián)網+黨建”概念提出以來,互聯(lián)網上黨建領域信息日趨豐富。面向黨建領域的垂直檢索系統(tǒng)可以為黨建用戶提供專業(yè)準確且低冗余的領域內容。構建黨建垂直領域檢索系統(tǒng)需要以黨建領域文本作為基礎數(shù)據。同時為了提升黨建領域垂直檢索系統(tǒng)的檢索質量,需要將黨建領域文本中包含的關鍵信息標引出來,作為檢索結果展示給用戶,使返回結果更加直觀。如果可以挖掘出用戶檢索內容中潛在的實體關系,并結合從黨建數(shù)據中標記出的實體關系對待檢索內容進行處理,則可以改善黨建領域垂直檢索系統(tǒng)中用戶查詢內容與檢索結果之間的相關性。為解決黨建領域文本數(shù)據的采集問題,本文設計了開放域黨建信息自動獲取系統(tǒng),提出了基于語義關系與鏈接結構、用于預測未訪問鏈接主題相關性的鏈接主題相關度預測算法,并基于此算法實現(xiàn)了黨建領域語義相關度主題爬蟲,用于采集互聯(lián)網開放域中的黨建信息。根據選定的主題詞,利用頁面描述信息,基于維基百科中文語料訓練出的詞向量綜合HowNet計算頁面的語義相關度,結合URL的結構信息預測未訪問URL鏈指的頁面與黨建領域的相關程度。最終將系統(tǒng)采集到的黨建領域數(shù)據作為構建黨建領域垂直搜索引擎的基礎數(shù)據。為解決目前缺少用于提升黨建領域... 

【文章來源】:中國科學院大學(中國科學院沈陽計算技術研究所)遼寧省

【文章頁數(shù)】:73 頁

【學位級別】:碩士

【部分圖文】:

開放域黨建信息自動獲取及智能標引系統(tǒng)的設計與實現(xiàn)


采集系統(tǒng)處理流程示意圖

示意圖,采集系統(tǒng),架構,示意圖


圖 3.2 采集系統(tǒng)架構示意圖Figure 3.2 Schematic diagram of acquisition system architecture種子任務表示采集起始鏈接的采集任務,采集模塊首先將種子任務提交至待采集隊列。對于隊列內未訪問的鏈接,首先計算其指向頁面的概述信息與黨建主題的語義相關度,若不相關則認為頁面屬于黨建主題的概率較低,改用主題詞直接匹配的方式處理;否則,解析該鏈接指向的頁面正文,并對其中各鏈接計算其錨文本與黨建主題的語義相關度、鏈接的結構信息并綜合得到未訪問鏈接主題相關度并進行過濾。為解決采集量級較大時計算鏈接結構信息開銷過大的問題,采用從緩存中抽樣的方式以降低耗時。采集模塊的工作流程如圖 3.3。

工作流程圖,采集模塊,工作流程圖


圖 3.3 采集模塊工作流程圖Figure 3.3 Flow chart of collector module化模塊包括數(shù)據庫存儲、文件存儲兩個部分。采集過程的臨時結果中,采集模塊需要加載的部分數(shù)據保存于文件。為加速語義相關度計算相似度的數(shù)據文件被構建外部索引,利用索引加速查詢數(shù)據文件過計算中間結果添加至內存緩存,以加快黨建信息采集速率。來自采集數(shù)據與過濾模塊的處理結果均持久化到數(shù)據庫。對于持久化模塊,針 流處理任務,中間結果被發(fā)送至為流處理器提供服務的消息隊列之后續(xù)包裝器對保存于消息隊列中的格式化文本數(shù)據,進行關系抽取理后,生成實時 RDF 流,由 RDF 流處理引擎進行處理。模塊主要負責過濾無關數(shù)據,由于部分導航頁含有大量 URL,正文對錨文本比例過低,解析正文時準確性降低,導致站點內通用聲明信

【參考文獻】:
期刊論文
[1]面向圖書主題的爬蟲算法研究[J]. 張莉婧,曾慶濤,李業(yè)麗,孫華艷,字云飛.  計算機科學. 2017(S2)
[2]基于依存分析的開放式中文實體關系抽取方法[J]. 李明耀,楊靜.  計算機工程. 2016(06)
[3]基于知識庫和主題爬蟲的南海輿情實時監(jiān)測研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬.  情報雜志. 2016(05)
[4]基于分類關鍵詞詞頻模型的地緣政治主題爬蟲設計[J]. 魏勇,胡丹露,郝晨光,歐小平.  計算機工程. 2016(02)
[5]一種主動發(fā)現(xiàn)網絡地理信息服務的主題爬蟲[J]. 沈平,桂志鵬,游蘭,胡凱,吳華意.  地球信息科學學報. 2015(02)
[6]基于主題相關概念和網頁分塊的主題爬蟲研究[J]. 黃仁,王良偉.  計算機應用研究. 2013(08)

碩士論文
[1]面向檢驗檢疫領域主題爬蟲的研究及系統(tǒng)實現(xiàn)[D]. 周桓.浙江大學 2017



本文編號:3036576

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3036576.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶3e38b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com