天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

中英文政策垂直搜索引擎研究與實現(xiàn)

發(fā)布時間:2020-03-27 13:38
【摘要】:隨著人類社會邁入信息時代,網(wǎng)絡已經(jīng)滲透到大眾生活的方方面面,在人們生活中發(fā)揮著越來越重要的作用。然而,要在數(shù)據(jù)量急劇增長的網(wǎng)絡上獲取自己所需要的精確信息,卻變得愈加困難。面對規(guī)模龐大而又飛速增長的網(wǎng)絡空間,人工瀏覽顯然已無法滿足人們對信息和知識的渴求,搜索引擎便成為人們從網(wǎng)絡獲取有用數(shù)據(jù)的重要途徑,在人們?nèi)粘I詈凸ぷ髦邪l(fā)揮著越來越重要的作用。垂直搜索引擎即是針對某一特定行業(yè)領域的專業(yè)搜索工具,可向用戶提供準確、及時、完整的行業(yè)領域信息。通過與外省政策對比研究,定位我省科技創(chuàng)新活動中存在的問題,挖掘并篩選出我省科技創(chuàng)新政策需求信息,即篩選出“人有我無”的政策法規(guī)或者同質(zhì)政策的不同內(nèi)容,為我省科技創(chuàng)新政策法規(guī)制定過程中的問題界定和方案設計擇優(yōu)環(huán)節(jié)提供借鑒參考。本文基于已開發(fā)完成的政策信息垂直搜索引擎,繼而新增了“人有我無”搜索、政策輿情搜索、英文政策檢索三大功能模塊。本文首先介紹了實現(xiàn)中英文搜索引擎的理論基礎和主要技術,然后介紹在“人有我無”搜索模塊中兩個文本分類的相關算法的應用和改進。改進的兩個算法分別是:1)基于詞共現(xiàn)的政策文本關鍵詞抽取算法:本文結(jié)合政策文本成文規(guī)律對基于詞共現(xiàn)關鍵詞抽取算法中計算共現(xiàn)詞關鍵度的兩個重要系數(shù)α、β進行了動態(tài)計算的調(diào)整,使關鍵詞的抽取更加符合文章大意,降低了在政策文本關鍵詞抽取中漏取低頻的關鍵詞概率;2)在文本分類算法研究中改進了基于特征詞加權(quán)的計算關鍵詞相似度閾值的方法:本文結(jié)合政策文本特征詞的權(quán)值分布規(guī)律對相似度閾值進行動態(tài)計算,使文本分類中特政詞的相似度更加符合實際情況。對改進后算法與傳統(tǒng)算法進行了比較實驗,實驗結(jié)果表明改進后的算法性能優(yōu)于傳統(tǒng)算法。最后介紹系統(tǒng)的整體設計和各個模塊的設計與實現(xiàn),并對所有模塊進行了功能測試測試結(jié)果顯示各模塊功能實現(xiàn)良好,能都達到使用要求。
【圖文】:

政策,文本,共現(xiàn),關鍵詞提取


于詞共現(xiàn)的關鍵詞提取算法改進原理介紹取是文本挖掘領域中的核心技術之一,然而在大多數(shù)關鍵政策文本關鍵詞提取的算法。本文對比分析了兩種普遍用,并結(jié)合政策文本自身具有的成文特征提出一種基于詞共。經(jīng)實驗驗證該方法在政策文本關鍵詞提取方面比其他鍵詞基本符合實際需求。方法得到的關鍵詞有一定程度的偏差,很多高頻詞匯對文通過共現(xiàn)詞找出一些低頻卻具有代表性的詞匯。在使用加權(quán)系數(shù) α 和 β 的取值至關重要,,但是目前一般的取值方針對性。本文通過大量觀察政策文本成文規(guī)律得到兩點特共現(xiàn)度計算公式中系數(shù)的值。一篇從待測樣本集中隨機抽取的政策文本的截圖如下:

網(wǎng)頁,正文,帶標簽,插件


取并入庫; URL 訪問到內(nèi)容頁,抓取帶標簽的正文(PolicyBody)并將之入庫正文抽取插件,從 PolicyBody 中抽取純文本正文(PolicyText)并將網(wǎng)頁相關信息(如:政策發(fā)布地區(qū)、政策類型等)并入庫。表截圖如下:
【學位授予單位】:河北經(jīng)貿(mào)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前10條

1 時永賓;余青松;;基于共現(xiàn)詞卡方值的關鍵詞提取算法[J];計算機工程;2016年06期

2 羅燕;趙書良;李曉超;韓玉輝;丁亞飛;;基于詞頻統(tǒng)計的文本關鍵詞提取方法[J];計算機應用;2016年03期

3 唐守忠;齊建東;;一種結(jié)合關鍵詞與共現(xiàn)詞對的向量空間模型[J];計算機工程與科學;2014年05期

4 王錦波;王蓮芝;高萬林;喻健;;一種改進的樸素貝葉斯關鍵詞提取算法研究[J];計算機應用與軟件;2014年02期

5 張建娥;;基于TFIDF和詞語關聯(lián)度的中文關鍵詞提取方法[J];情報科學;2012年10期

6 牛永潔;張成;;多種字符串相似度算法的比較研究[J];計算機與數(shù)字工程;2012年03期

7 王立霞;淮曉永;;基于語義的中文文本關鍵詞提取算法[J];計算機工程;2012年01期

8 刁興春;譚明超;曹建軍;;一種融合多種編輯距離的字符串相似度計算方法[J];計算機應用研究;2010年12期

9 蔣昌金;彭宏;陳建超;馬千里;嚴桂奪;;基于組合詞和同義詞集的關鍵詞提取算法[J];計算機應用研究;2010年08期

10 方俊;郭雷;王曉東;;基于語義的關鍵詞提取算法[J];計算機科學;2008年06期

相關博士學位論文 前6條

1 劉宏哲;文本語義相似度計算方法研究[D];北京交通大學;2012年

2 萬源;基于語義統(tǒng)計分析的網(wǎng)絡輿情挖掘技術研究[D];武漢理工大學;2012年

3 陳偉;基于時序文本挖掘的新聞內(nèi)容理解與推薦技術研究[D];浙江大學;2010年

4 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學;2010年

5 郝秀蘭;文本分類技術與應用研究[D];復旦大學;2008年

6 李榮陸;文本分類及其相關技術研究[D];復旦大學;2005年

相關碩士學位論文 前10條

1 宏樸;基于Lucene的搜索引擎的研究與實現(xiàn)[D];大連理工大學;2016年

2 胡博;基于Lucene的垂直搜索引擎研究與實現(xiàn)[D];北京工業(yè)大學;2016年

3 李欣弘;基于關聯(lián)規(guī)則和情感分析的圖書推薦算法研究[D];吉林大學;2016年

4 張佳;基于Android平臺的在線翻譯軟件設計與實現(xiàn)[D];河北科技大學;2016年

5 何榮杰;基于Lucene的全文搜索引擎的研究與實現(xiàn)[D];江蘇科技大學;2016年

6 朱鵬;英文語料庫垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2015年

7 王振風;基于Lucene的分布式全文檢索技術的研究與應用[D];東華大學;2015年

8 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡輿情分析系統(tǒng)設計與實現(xiàn)[D];電子科技大學;2014年

9 范蕾;基于Lucene的全文檢索系統(tǒng)的設計與實現(xiàn)[D];廈門大學;2014年

10 袁明;基于隱性主題模型和新詞發(fā)現(xiàn)的關鍵詞抽取研究[D];北京郵電大學;2014年



本文編號:2603032

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2603032.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c0081***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com