開(kāi)放域黨建信息自動(dòng)獲取及智能標(biāo)引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-02-16 09:28
“互聯(lián)網(wǎng)+黨建”概念提出以來(lái),互聯(lián)網(wǎng)上黨建領(lǐng)域信息日趨豐富。面向黨建領(lǐng)域的垂直檢索系統(tǒng)可以為黨建用戶提供專業(yè)準(zhǔn)確且低冗余的領(lǐng)域內(nèi)容。構(gòu)建黨建垂直領(lǐng)域檢索系統(tǒng)需要以黨建領(lǐng)域文本作為基礎(chǔ)數(shù)據(jù)。同時(shí)為了提升黨建領(lǐng)域垂直檢索系統(tǒng)的檢索質(zhì)量,需要將黨建領(lǐng)域文本中包含的關(guān)鍵信息標(biāo)引出來(lái),作為檢索結(jié)果展示給用戶,使返回結(jié)果更加直觀。如果可以挖掘出用戶檢索內(nèi)容中潛在的實(shí)體關(guān)系,并結(jié)合從黨建數(shù)據(jù)中標(biāo)記出的實(shí)體關(guān)系對(duì)待檢索內(nèi)容進(jìn)行處理,則可以改善黨建領(lǐng)域垂直檢索系統(tǒng)中用戶查詢內(nèi)容與檢索結(jié)果之間的相關(guān)性。為解決黨建領(lǐng)域文本數(shù)據(jù)的采集問(wèn)題,本文設(shè)計(jì)了開(kāi)放域黨建信息自動(dòng)獲取系統(tǒng),提出了基于語(yǔ)義關(guān)系與鏈接結(jié)構(gòu)、用于預(yù)測(cè)未訪問(wèn)鏈接主題相關(guān)性的鏈接主題相關(guān)度預(yù)測(cè)算法,并基于此算法實(shí)現(xiàn)了黨建領(lǐng)域語(yǔ)義相關(guān)度主題爬蟲(chóng),用于采集互聯(lián)網(wǎng)開(kāi)放域中的黨建信息。根據(jù)選定的主題詞,利用頁(yè)面描述信息,基于維基百科中文語(yǔ)料訓(xùn)練出的詞向量綜合HowNet計(jì)算頁(yè)面的語(yǔ)義相關(guān)度,結(jié)合URL的結(jié)構(gòu)信息預(yù)測(cè)未訪問(wèn)URL鏈指的頁(yè)面與黨建領(lǐng)域的相關(guān)程度。最終將系統(tǒng)采集到的黨建領(lǐng)域數(shù)據(jù)作為構(gòu)建黨建領(lǐng)域垂直搜索引擎的基礎(chǔ)數(shù)據(jù)。為解決目前缺少用于提升黨建領(lǐng)域...
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所)遼寧省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
采集系統(tǒng)處理流程示意圖
圖 3.2 采集系統(tǒng)架構(gòu)示意圖Figure 3.2 Schematic diagram of acquisition system architecture種子任務(wù)表示采集起始鏈接的采集任務(wù),采集模塊首先將種子任務(wù)提交至待采集隊(duì)列。對(duì)于隊(duì)列內(nèi)未訪問(wèn)的鏈接,首先計(jì)算其指向頁(yè)面的概述信息與黨建主題的語(yǔ)義相關(guān)度,若不相關(guān)則認(rèn)為頁(yè)面屬于黨建主題的概率較低,改用主題詞直接匹配的方式處理;否則,解析該鏈接指向的頁(yè)面正文,并對(duì)其中各鏈接計(jì)算其錨文本與黨建主題的語(yǔ)義相關(guān)度、鏈接的結(jié)構(gòu)信息并綜合得到未訪問(wèn)鏈接主題相關(guān)度并進(jìn)行過(guò)濾。為解決采集量級(jí)較大時(shí)計(jì)算鏈接結(jié)構(gòu)信息開(kāi)銷過(guò)大的問(wèn)題,采用從緩存中抽樣的方式以降低耗時(shí)。采集模塊的工作流程如圖 3.3。
圖 3.3 采集模塊工作流程圖Figure 3.3 Flow chart of collector module化模塊包括數(shù)據(jù)庫(kù)存儲(chǔ)、文件存儲(chǔ)兩個(gè)部分。采集過(guò)程的臨時(shí)結(jié)果中,采集模塊需要加載的部分?jǐn)?shù)據(jù)保存于文件。為加速語(yǔ)義相關(guān)度計(jì)算相似度的數(shù)據(jù)文件被構(gòu)建外部索引,利用索引加速查詢數(shù)據(jù)文件過(guò)計(jì)算中間結(jié)果添加至內(nèi)存緩存,以加快黨建信息采集速率。來(lái)自采集數(shù)據(jù)與過(guò)濾模塊的處理結(jié)果均持久化到數(shù)據(jù)庫(kù)。對(duì)于持久化模塊,針 流處理任務(wù),中間結(jié)果被發(fā)送至為流處理器提供服務(wù)的消息隊(duì)列之后續(xù)包裝器對(duì)保存于消息隊(duì)列中的格式化文本數(shù)據(jù),進(jìn)行關(guān)系抽取理后,生成實(shí)時(shí) RDF 流,由 RDF 流處理引擎進(jìn)行處理。模塊主要負(fù)責(zé)過(guò)濾無(wú)關(guān)數(shù)據(jù),由于部分導(dǎo)航頁(yè)含有大量 URL,正文對(duì)錨文本比例過(guò)低,解析正文時(shí)準(zhǔn)確性降低,導(dǎo)致站點(diǎn)內(nèi)通用聲明信
【參考文獻(xiàn)】:
期刊論文
[1]面向圖書(shū)主題的爬蟲(chóng)算法研究[J]. 張莉婧,曾慶濤,李業(yè)麗,孫華艷,字云飛. 計(jì)算機(jī)科學(xué). 2017(S2)
[2]基于依存分析的開(kāi)放式中文實(shí)體關(guān)系抽取方法[J]. 李明耀,楊靜. 計(jì)算機(jī)工程. 2016(06)
[3]基于知識(shí)庫(kù)和主題爬蟲(chóng)的南海輿情實(shí)時(shí)監(jiān)測(cè)研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬. 情報(bào)雜志. 2016(05)
[4]基于分類關(guān)鍵詞詞頻模型的地緣政治主題爬蟲(chóng)設(shè)計(jì)[J]. 魏勇,胡丹露,郝晨光,歐小平. 計(jì)算機(jī)工程. 2016(02)
[5]一種主動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)地理信息服務(wù)的主題爬蟲(chóng)[J]. 沈平,桂志鵬,游蘭,胡凱,吳華意. 地球信息科學(xué)學(xué)報(bào). 2015(02)
[6]基于主題相關(guān)概念和網(wǎng)頁(yè)分塊的主題爬蟲(chóng)研究[J]. 黃仁,王良偉. 計(jì)算機(jī)應(yīng)用研究. 2013(08)
碩士論文
[1]面向檢驗(yàn)檢疫領(lǐng)域主題爬蟲(chóng)的研究及系統(tǒng)實(shí)現(xiàn)[D]. 周桓.浙江大學(xué) 2017
本文編號(hào):3036576
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所)遼寧省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
采集系統(tǒng)處理流程示意圖
圖 3.2 采集系統(tǒng)架構(gòu)示意圖Figure 3.2 Schematic diagram of acquisition system architecture種子任務(wù)表示采集起始鏈接的采集任務(wù),采集模塊首先將種子任務(wù)提交至待采集隊(duì)列。對(duì)于隊(duì)列內(nèi)未訪問(wèn)的鏈接,首先計(jì)算其指向頁(yè)面的概述信息與黨建主題的語(yǔ)義相關(guān)度,若不相關(guān)則認(rèn)為頁(yè)面屬于黨建主題的概率較低,改用主題詞直接匹配的方式處理;否則,解析該鏈接指向的頁(yè)面正文,并對(duì)其中各鏈接計(jì)算其錨文本與黨建主題的語(yǔ)義相關(guān)度、鏈接的結(jié)構(gòu)信息并綜合得到未訪問(wèn)鏈接主題相關(guān)度并進(jìn)行過(guò)濾。為解決采集量級(jí)較大時(shí)計(jì)算鏈接結(jié)構(gòu)信息開(kāi)銷過(guò)大的問(wèn)題,采用從緩存中抽樣的方式以降低耗時(shí)。采集模塊的工作流程如圖 3.3。
圖 3.3 采集模塊工作流程圖Figure 3.3 Flow chart of collector module化模塊包括數(shù)據(jù)庫(kù)存儲(chǔ)、文件存儲(chǔ)兩個(gè)部分。采集過(guò)程的臨時(shí)結(jié)果中,采集模塊需要加載的部分?jǐn)?shù)據(jù)保存于文件。為加速語(yǔ)義相關(guān)度計(jì)算相似度的數(shù)據(jù)文件被構(gòu)建外部索引,利用索引加速查詢數(shù)據(jù)文件過(guò)計(jì)算中間結(jié)果添加至內(nèi)存緩存,以加快黨建信息采集速率。來(lái)自采集數(shù)據(jù)與過(guò)濾模塊的處理結(jié)果均持久化到數(shù)據(jù)庫(kù)。對(duì)于持久化模塊,針 流處理任務(wù),中間結(jié)果被發(fā)送至為流處理器提供服務(wù)的消息隊(duì)列之后續(xù)包裝器對(duì)保存于消息隊(duì)列中的格式化文本數(shù)據(jù),進(jìn)行關(guān)系抽取理后,生成實(shí)時(shí) RDF 流,由 RDF 流處理引擎進(jìn)行處理。模塊主要負(fù)責(zé)過(guò)濾無(wú)關(guān)數(shù)據(jù),由于部分導(dǎo)航頁(yè)含有大量 URL,正文對(duì)錨文本比例過(guò)低,解析正文時(shí)準(zhǔn)確性降低,導(dǎo)致站點(diǎn)內(nèi)通用聲明信
【參考文獻(xiàn)】:
期刊論文
[1]面向圖書(shū)主題的爬蟲(chóng)算法研究[J]. 張莉婧,曾慶濤,李業(yè)麗,孫華艷,字云飛. 計(jì)算機(jī)科學(xué). 2017(S2)
[2]基于依存分析的開(kāi)放式中文實(shí)體關(guān)系抽取方法[J]. 李明耀,楊靜. 計(jì)算機(jī)工程. 2016(06)
[3]基于知識(shí)庫(kù)和主題爬蟲(chóng)的南海輿情實(shí)時(shí)監(jiān)測(cè)研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬. 情報(bào)雜志. 2016(05)
[4]基于分類關(guān)鍵詞詞頻模型的地緣政治主題爬蟲(chóng)設(shè)計(jì)[J]. 魏勇,胡丹露,郝晨光,歐小平. 計(jì)算機(jī)工程. 2016(02)
[5]一種主動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)地理信息服務(wù)的主題爬蟲(chóng)[J]. 沈平,桂志鵬,游蘭,胡凱,吳華意. 地球信息科學(xué)學(xué)報(bào). 2015(02)
[6]基于主題相關(guān)概念和網(wǎng)頁(yè)分塊的主題爬蟲(chóng)研究[J]. 黃仁,王良偉. 計(jì)算機(jī)應(yīng)用研究. 2013(08)
碩士論文
[1]面向檢驗(yàn)檢疫領(lǐng)域主題爬蟲(chóng)的研究及系統(tǒng)實(shí)現(xiàn)[D]. 周桓.浙江大學(xué) 2017
本文編號(hào):3036576
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3036576.html
最近更新
教材專著