開(kāi)放域黨建信息自動(dòng)獲取及智能標(biāo)引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2021-02-16 09:28

　　“互聯(lián)網(wǎng)+黨建”概念提出以來(lái),互聯(lián)網(wǎng)上黨建領(lǐng)域信息日趨豐富。面向黨建領(lǐng)域的垂直檢索系統(tǒng)可以為黨建用戶提供專業(yè)準(zhǔn)確且低冗余的領(lǐng)域內(nèi)容。構(gòu)建黨建垂直領(lǐng)域檢索系統(tǒng)需要以黨建領(lǐng)域文本作為基礎(chǔ)數(shù)據(jù)。同時(shí)為了提升黨建領(lǐng)域垂直檢索系統(tǒng)的檢索質(zhì)量,需要將黨建領(lǐng)域文本中包含的關(guān)鍵信息標(biāo)引出來(lái),作為檢索結(jié)果展示給用戶,使返回結(jié)果更加直觀。如果可以挖掘出用戶檢索內(nèi)容中潛在的實(shí)體關(guān)系,并結(jié)合從黨建數(shù)據(jù)中標(biāo)記出的實(shí)體關(guān)系對(duì)待檢索內(nèi)容進(jìn)行處理,則可以改善黨建領(lǐng)域垂直檢索系統(tǒng)中用戶查詢內(nèi)容與檢索結(jié)果之間的相關(guān)性。為解決黨建領(lǐng)域文本數(shù)據(jù)的采集問(wèn)題,本文設(shè)計(jì)了開(kāi)放域黨建信息自動(dòng)獲取系統(tǒng),提出了基于語(yǔ)義關(guān)系與鏈接結(jié)構(gòu)、用于預(yù)測(cè)未訪問(wèn)鏈接主題相關(guān)性的鏈接主題相關(guān)度預(yù)測(cè)算法,并基于此算法實(shí)現(xiàn)了黨建領(lǐng)域語(yǔ)義相關(guān)度主題爬蟲(chóng),用于采集互聯(lián)網(wǎng)開(kāi)放域中的黨建信息。根據(jù)選定的主題詞,利用頁(yè)面描述信息,基于維基百科中文語(yǔ)料訓(xùn)練出的詞向量綜合HowNet計(jì)算頁(yè)面的語(yǔ)義相關(guān)度,結(jié)合URL的結(jié)構(gòu)信息預(yù)測(cè)未訪問(wèn)URL鏈指的頁(yè)面與黨建領(lǐng)域的相關(guān)程度。最終將系統(tǒng)采集到的黨建領(lǐng)域數(shù)據(jù)作為構(gòu)建黨建領(lǐng)域垂直搜索引擎的基礎(chǔ)數(shù)據(jù)。為解決目前缺少用于提升黨建領(lǐng)域...

【文章來(lái)源】：中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所)遼寧省

【文章頁(yè)數(shù)】：73 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

采集系統(tǒng)處理流程示意圖

示意圖,采集系統(tǒng),架構(gòu),示意圖

圖 3.2 采集系統(tǒng)架構(gòu)示意圖Figure 3.2 Schematic diagram of acquisition system architecture種子任務(wù)表示采集起始鏈接的采集任務(wù)，采集模塊首先將種子任務(wù)提交至待采集隊(duì)列。對(duì)于隊(duì)列內(nèi)未訪問(wèn)的鏈接，首先計(jì)算其指向頁(yè)面的概述信息與黨建主題的語(yǔ)義相關(guān)度，若不相關(guān)則認(rèn)為頁(yè)面屬于黨建主題的概率較低，改用主題詞直接匹配的方式處理；否則，解析該鏈接指向的頁(yè)面正文，并對(duì)其中各鏈接計(jì)算其錨文本與黨建主題的語(yǔ)義相關(guān)度、鏈接的結(jié)構(gòu)信息并綜合得到未訪問(wèn)鏈接主題相關(guān)度并進(jìn)行過(guò)濾。為解決采集量級(jí)較大時(shí)計(jì)算鏈接結(jié)構(gòu)信息開(kāi)銷過(guò)大的問(wèn)題，采用從緩存中抽樣的方式以降低耗時(shí)。采集模塊的工作流程如圖 3.3。

工作流程圖,采集模塊,工作流程圖

圖 3.3 采集模塊工作流程圖Figure 3.3 Flow chart of collector module化模塊包括數(shù)據(jù)庫(kù)存儲(chǔ)、文件存儲(chǔ)兩個(gè)部分。采集過(guò)程的臨時(shí)結(jié)果中，采集模塊需要加載的部分?jǐn)?shù)據(jù)保存于文件。為加速語(yǔ)義相關(guān)度計(jì)算相似度的數(shù)據(jù)文件被構(gòu)建外部索引，利用索引加速查詢數(shù)據(jù)文件過(guò)計(jì)算中間結(jié)果添加至內(nèi)存緩存，以加快黨建信息采集速率。來(lái)自采集數(shù)據(jù)與過(guò)濾模塊的處理結(jié)果均持久化到數(shù)據(jù)庫(kù)。對(duì)于持久化模塊，針流處理任務(wù)，中間結(jié)果被發(fā)送至為流處理器提供服務(wù)的消息隊(duì)列之后續(xù)包裝器對(duì)保存于消息隊(duì)列中的格式化文本數(shù)據(jù)，進(jìn)行關(guān)系抽取理后，生成實(shí)時(shí) RDF 流，由 RDF 流處理引擎進(jìn)行處理。模塊主要負(fù)責(zé)過(guò)濾無(wú)關(guān)數(shù)據(jù)，由于部分導(dǎo)航頁(yè)含有大量 URL，正文對(duì)錨文本比例過(guò)低，解析正文時(shí)準(zhǔn)確性降低，導(dǎo)致站點(diǎn)內(nèi)通用聲明信

【參考文獻(xiàn)】：
期刊論文
[1]面向圖書(shū)主題的爬蟲(chóng)算法研究[J]. 張莉婧,曾慶濤,李業(yè)麗,孫華艷,字云飛.  計(jì)算機(jī)科學(xué). 2017(S2)
[2]基于依存分析的開(kāi)放式中文實(shí)體關(guān)系抽取方法[J]. 李明耀,楊靜.  計(jì)算機(jī)工程. 2016(06)
[3]基于知識(shí)庫(kù)和主題爬蟲(chóng)的南海輿情實(shí)時(shí)監(jiān)測(cè)研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬.  情報(bào)雜志. 2016(05)
[4]基于分類關(guān)鍵詞詞頻模型的地緣政治主題爬蟲(chóng)設(shè)計(jì)[J]. 魏勇,胡丹露,郝晨光,歐小平.  計(jì)算機(jī)工程. 2016(02)
[5]一種主動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)地理信息服務(wù)的主題爬蟲(chóng)[J]. 沈平,桂志鵬,游蘭,胡凱,吳華意.  地球信息科學(xué)學(xué)報(bào). 2015(02)
[6]基于主題相關(guān)概念和網(wǎng)頁(yè)分塊的主題爬蟲(chóng)研究[J]. 黃仁,王良偉.  計(jì)算機(jī)應(yīng)用研究. 2013(08)

碩士論文
[1]面向檢驗(yàn)檢疫領(lǐng)域主題爬蟲(chóng)的研究及系統(tǒng)實(shí)現(xiàn)[D]. 周桓.浙江大學(xué) 2017

本文編號(hào)：3036576

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3036576.html

上一篇：基于就地化保護(hù)應(yīng)用的智能管理單元設(shè)計(jì)
下一篇：位置隱私保護(hù)中的近鄰查詢技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

開(kāi)放域黨建信息自動(dòng)獲取及智能標(biāo)引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)