開放域黨建信息自動獲取及智能標引系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2021-02-16 09:28
“互聯(lián)網+黨建”概念提出以來,互聯(lián)網上黨建領域信息日趨豐富。面向黨建領域的垂直檢索系統(tǒng)可以為黨建用戶提供專業(yè)準確且低冗余的領域內容。構建黨建垂直領域檢索系統(tǒng)需要以黨建領域文本作為基礎數(shù)據。同時為了提升黨建領域垂直檢索系統(tǒng)的檢索質量,需要將黨建領域文本中包含的關鍵信息標引出來,作為檢索結果展示給用戶,使返回結果更加直觀。如果可以挖掘出用戶檢索內容中潛在的實體關系,并結合從黨建數(shù)據中標記出的實體關系對待檢索內容進行處理,則可以改善黨建領域垂直檢索系統(tǒng)中用戶查詢內容與檢索結果之間的相關性。為解決黨建領域文本數(shù)據的采集問題,本文設計了開放域黨建信息自動獲取系統(tǒng),提出了基于語義關系與鏈接結構、用于預測未訪問鏈接主題相關性的鏈接主題相關度預測算法,并基于此算法實現(xiàn)了黨建領域語義相關度主題爬蟲,用于采集互聯(lián)網開放域中的黨建信息。根據選定的主題詞,利用頁面描述信息,基于維基百科中文語料訓練出的詞向量綜合HowNet計算頁面的語義相關度,結合URL的結構信息預測未訪問URL鏈指的頁面與黨建領域的相關程度。最終將系統(tǒng)采集到的黨建領域數(shù)據作為構建黨建領域垂直搜索引擎的基礎數(shù)據。為解決目前缺少用于提升黨建領域...
【文章來源】:中國科學院大學(中國科學院沈陽計算技術研究所)遼寧省
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
采集系統(tǒng)處理流程示意圖
圖 3.2 采集系統(tǒng)架構示意圖Figure 3.2 Schematic diagram of acquisition system architecture種子任務表示采集起始鏈接的采集任務,采集模塊首先將種子任務提交至待采集隊列。對于隊列內未訪問的鏈接,首先計算其指向頁面的概述信息與黨建主題的語義相關度,若不相關則認為頁面屬于黨建主題的概率較低,改用主題詞直接匹配的方式處理;否則,解析該鏈接指向的頁面正文,并對其中各鏈接計算其錨文本與黨建主題的語義相關度、鏈接的結構信息并綜合得到未訪問鏈接主題相關度并進行過濾。為解決采集量級較大時計算鏈接結構信息開銷過大的問題,采用從緩存中抽樣的方式以降低耗時。采集模塊的工作流程如圖 3.3。
圖 3.3 采集模塊工作流程圖Figure 3.3 Flow chart of collector module化模塊包括數(shù)據庫存儲、文件存儲兩個部分。采集過程的臨時結果中,采集模塊需要加載的部分數(shù)據保存于文件。為加速語義相關度計算相似度的數(shù)據文件被構建外部索引,利用索引加速查詢數(shù)據文件過計算中間結果添加至內存緩存,以加快黨建信息采集速率。來自采集數(shù)據與過濾模塊的處理結果均持久化到數(shù)據庫。對于持久化模塊,針 流處理任務,中間結果被發(fā)送至為流處理器提供服務的消息隊列之后續(xù)包裝器對保存于消息隊列中的格式化文本數(shù)據,進行關系抽取理后,生成實時 RDF 流,由 RDF 流處理引擎進行處理。模塊主要負責過濾無關數(shù)據,由于部分導航頁含有大量 URL,正文對錨文本比例過低,解析正文時準確性降低,導致站點內通用聲明信
【參考文獻】:
期刊論文
[1]面向圖書主題的爬蟲算法研究[J]. 張莉婧,曾慶濤,李業(yè)麗,孫華艷,字云飛. 計算機科學. 2017(S2)
[2]基于依存分析的開放式中文實體關系抽取方法[J]. 李明耀,楊靜. 計算機工程. 2016(06)
[3]基于知識庫和主題爬蟲的南海輿情實時監(jiān)測研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬. 情報雜志. 2016(05)
[4]基于分類關鍵詞詞頻模型的地緣政治主題爬蟲設計[J]. 魏勇,胡丹露,郝晨光,歐小平. 計算機工程. 2016(02)
[5]一種主動發(fā)現(xiàn)網絡地理信息服務的主題爬蟲[J]. 沈平,桂志鵬,游蘭,胡凱,吳華意. 地球信息科學學報. 2015(02)
[6]基于主題相關概念和網頁分塊的主題爬蟲研究[J]. 黃仁,王良偉. 計算機應用研究. 2013(08)
碩士論文
[1]面向檢驗檢疫領域主題爬蟲的研究及系統(tǒng)實現(xiàn)[D]. 周桓.浙江大學 2017
本文編號:3036576
【文章來源】:中國科學院大學(中國科學院沈陽計算技術研究所)遼寧省
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
采集系統(tǒng)處理流程示意圖
圖 3.2 采集系統(tǒng)架構示意圖Figure 3.2 Schematic diagram of acquisition system architecture種子任務表示采集起始鏈接的采集任務,采集模塊首先將種子任務提交至待采集隊列。對于隊列內未訪問的鏈接,首先計算其指向頁面的概述信息與黨建主題的語義相關度,若不相關則認為頁面屬于黨建主題的概率較低,改用主題詞直接匹配的方式處理;否則,解析該鏈接指向的頁面正文,并對其中各鏈接計算其錨文本與黨建主題的語義相關度、鏈接的結構信息并綜合得到未訪問鏈接主題相關度并進行過濾。為解決采集量級較大時計算鏈接結構信息開銷過大的問題,采用從緩存中抽樣的方式以降低耗時。采集模塊的工作流程如圖 3.3。
圖 3.3 采集模塊工作流程圖Figure 3.3 Flow chart of collector module化模塊包括數(shù)據庫存儲、文件存儲兩個部分。采集過程的臨時結果中,采集模塊需要加載的部分數(shù)據保存于文件。為加速語義相關度計算相似度的數(shù)據文件被構建外部索引,利用索引加速查詢數(shù)據文件過計算中間結果添加至內存緩存,以加快黨建信息采集速率。來自采集數(shù)據與過濾模塊的處理結果均持久化到數(shù)據庫。對于持久化模塊,針 流處理任務,中間結果被發(fā)送至為流處理器提供服務的消息隊列之后續(xù)包裝器對保存于消息隊列中的格式化文本數(shù)據,進行關系抽取理后,生成實時 RDF 流,由 RDF 流處理引擎進行處理。模塊主要負責過濾無關數(shù)據,由于部分導航頁含有大量 URL,正文對錨文本比例過低,解析正文時準確性降低,導致站點內通用聲明信
【參考文獻】:
期刊論文
[1]面向圖書主題的爬蟲算法研究[J]. 張莉婧,曾慶濤,李業(yè)麗,孫華艷,字云飛. 計算機科學. 2017(S2)
[2]基于依存分析的開放式中文實體關系抽取方法[J]. 李明耀,楊靜. 計算機工程. 2016(06)
[3]基于知識庫和主題爬蟲的南海輿情實時監(jiān)測研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬. 情報雜志. 2016(05)
[4]基于分類關鍵詞詞頻模型的地緣政治主題爬蟲設計[J]. 魏勇,胡丹露,郝晨光,歐小平. 計算機工程. 2016(02)
[5]一種主動發(fā)現(xiàn)網絡地理信息服務的主題爬蟲[J]. 沈平,桂志鵬,游蘭,胡凱,吳華意. 地球信息科學學報. 2015(02)
[6]基于主題相關概念和網頁分塊的主題爬蟲研究[J]. 黃仁,王良偉. 計算機應用研究. 2013(08)
碩士論文
[1]面向檢驗檢疫領域主題爬蟲的研究及系統(tǒng)實現(xiàn)[D]. 周桓.浙江大學 2017
本文編號:3036576
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3036576.html
最近更新
教材專著