中英文政策垂直搜索引擎研究與實現(xiàn)
【圖文】:
于詞共現(xiàn)的關鍵詞提取算法改進原理介紹取是文本挖掘領域中的核心技術之一,然而在大多數(shù)關鍵政策文本關鍵詞提取的算法。本文對比分析了兩種普遍用,并結(jié)合政策文本自身具有的成文特征提出一種基于詞共。經(jīng)實驗驗證該方法在政策文本關鍵詞提取方面比其他鍵詞基本符合實際需求。方法得到的關鍵詞有一定程度的偏差,很多高頻詞匯對文通過共現(xiàn)詞找出一些低頻卻具有代表性的詞匯。在使用加權(quán)系數(shù) α 和 β 的取值至關重要,,但是目前一般的取值方針對性。本文通過大量觀察政策文本成文規(guī)律得到兩點特共現(xiàn)度計算公式中系數(shù)的值。一篇從待測樣本集中隨機抽取的政策文本的截圖如下:
取并入庫; URL 訪問到內(nèi)容頁,抓取帶標簽的正文(PolicyBody)并將之入庫正文抽取插件,從 PolicyBody 中抽取純文本正文(PolicyText)并將網(wǎng)頁相關信息(如:政策發(fā)布地區(qū)、政策類型等)并入庫。表截圖如下:
【學位授予單位】:河北經(jīng)貿(mào)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.3
【參考文獻】
相關期刊論文 前10條
1 時永賓;余青松;;基于共現(xiàn)詞卡方值的關鍵詞提取算法[J];計算機工程;2016年06期
2 羅燕;趙書良;李曉超;韓玉輝;丁亞飛;;基于詞頻統(tǒng)計的文本關鍵詞提取方法[J];計算機應用;2016年03期
3 唐守忠;齊建東;;一種結(jié)合關鍵詞與共現(xiàn)詞對的向量空間模型[J];計算機工程與科學;2014年05期
4 王錦波;王蓮芝;高萬林;喻健;;一種改進的樸素貝葉斯關鍵詞提取算法研究[J];計算機應用與軟件;2014年02期
5 張建娥;;基于TFIDF和詞語關聯(lián)度的中文關鍵詞提取方法[J];情報科學;2012年10期
6 牛永潔;張成;;多種字符串相似度算法的比較研究[J];計算機與數(shù)字工程;2012年03期
7 王立霞;淮曉永;;基于語義的中文文本關鍵詞提取算法[J];計算機工程;2012年01期
8 刁興春;譚明超;曹建軍;;一種融合多種編輯距離的字符串相似度計算方法[J];計算機應用研究;2010年12期
9 蔣昌金;彭宏;陳建超;馬千里;嚴桂奪;;基于組合詞和同義詞集的關鍵詞提取算法[J];計算機應用研究;2010年08期
10 方俊;郭雷;王曉東;;基于語義的關鍵詞提取算法[J];計算機科學;2008年06期
相關博士學位論文 前6條
1 劉宏哲;文本語義相似度計算方法研究[D];北京交通大學;2012年
2 萬源;基于語義統(tǒng)計分析的網(wǎng)絡輿情挖掘技術研究[D];武漢理工大學;2012年
3 陳偉;基于時序文本挖掘的新聞內(nèi)容理解與推薦技術研究[D];浙江大學;2010年
4 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學;2010年
5 郝秀蘭;文本分類技術與應用研究[D];復旦大學;2008年
6 李榮陸;文本分類及其相關技術研究[D];復旦大學;2005年
相關碩士學位論文 前10條
1 宏樸;基于Lucene的搜索引擎的研究與實現(xiàn)[D];大連理工大學;2016年
2 胡博;基于Lucene的垂直搜索引擎研究與實現(xiàn)[D];北京工業(yè)大學;2016年
3 李欣弘;基于關聯(lián)規(guī)則和情感分析的圖書推薦算法研究[D];吉林大學;2016年
4 張佳;基于Android平臺的在線翻譯軟件設計與實現(xiàn)[D];河北科技大學;2016年
5 何榮杰;基于Lucene的全文搜索引擎的研究與實現(xiàn)[D];江蘇科技大學;2016年
6 朱鵬;英文語料庫垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2015年
7 王振風;基于Lucene的分布式全文檢索技術的研究與應用[D];東華大學;2015年
8 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡輿情分析系統(tǒng)設計與實現(xiàn)[D];電子科技大學;2014年
9 范蕾;基于Lucene的全文檢索系統(tǒng)的設計與實現(xiàn)[D];廈門大學;2014年
10 袁明;基于隱性主題模型和新詞發(fā)現(xiàn)的關鍵詞抽取研究[D];北京郵電大學;2014年
本文編號:2603032
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2603032.html