基于統(tǒng)計的行業(yè)中文文本關(guān)鍵詞提取方法
本文關(guān)鍵詞:基于統(tǒng)計的行業(yè)中文文本關(guān)鍵詞提取方法
【摘要】:本文針對垂直搜索引擎對中文文本關(guān)鍵詞提取方法的需要,提出一種基于統(tǒng)計的行業(yè)中文文本關(guān)鍵詞提取方法。該方法是將詞語的位置信息、詞跨度信息等指標(biāo)融入到傳統(tǒng)的基于統(tǒng)計特征的關(guān)鍵詞提取方法之中,并采用一些方法對指標(biāo)的權(quán)重進行校準(zhǔn),以達到垂直搜索引擎需要的提取的準(zhǔn)確率和效率。實驗表明,該方法能夠有效提高對行業(yè)文本的關(guān)鍵詞提取的準(zhǔn)確率,具有良好的時間效率和穩(wěn)定性。
【作者單位】: 中國礦業(yè)大學(xué)(北京);
【分類號】:TP391.1
【正文快照】: 【關(guān)鍵詞】關(guān)鍵詞提取;中文文本;垂直搜索引擎0引言隨著計算機技術(shù)的發(fā)展,搜索引擎已經(jīng)成為人們生活、工作中的重要工具。在人們享受搜索引擎帶來的信息搜索便利的同時,其查詢目標(biāo)不準(zhǔn)確、搜索深度不夠等缺點也逐漸暴露出來。為了解決上述問題,2006年后逐漸興起了一類專注于特
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 鄭家恒,盧嬌麗;關(guān)鍵詞抽取方法的研究[J];計算機工程;2005年18期
2 王立霞;淮曉永;;基于語義的中文文本關(guān)鍵詞提取算法[J];計算機工程;2012年01期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 仲兆滿;劉宗田;;基于兩級概念格的信息抽取的研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2008年02期
2 謝紅薇;王棟;;基于Web文本挖掘中的一種中文分詞算法研究[J];電腦開發(fā)與應(yīng)用;2007年07期
3 鐘曉旭;;層次聚類方法在關(guān)鍵詞提取上的研究應(yīng)用[J];電腦知識與技術(shù);2009年06期
4 陳森博;石振國;王春明;;基于本體論的Web知識檢索及其應(yīng)用研究[J];電腦知識與技術(shù);2009年18期
5 吳聰聰;趙建立;;基于本體的主題爬蟲的研究[J];電腦知識與技術(shù);2011年03期
6 高學(xué)東;吳玲玉;;基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法[J];中國管理信息化;2011年09期
7 程濤;施水才;王霞;呂學(xué)強;;基于同義詞詞林的中文文本主題詞提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期
8 尹倩;胡學(xué)鋼;謝飛;吳信東;;基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期
9 羅灝;徐小良;呂躍華;;科技項目申請書關(guān)鍵詞提取方法[J];電子科技;2013年07期
10 任莉莉;方元康;;基于詞匯鏈與互信息的關(guān)鍵詞抽取研究[J];池州學(xué)院學(xué)報;2013年06期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 吳繼媛;孫淳;侯敏;;面向傳媒語言語料庫的關(guān)鍵詞自動抽取研究[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
2 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年
3 高明霞;問答式OWL知識檢索技術(shù)[D];北京工業(yè)大學(xué);2008年
4 陳超;戰(zhàn)爭設(shè)計工程中群體專家智慧集成研究[D];國防科學(xué)技術(shù)大學(xué);2007年
5 王菁華;文本中知識的獲取[D];北京郵電大學(xué);2008年
6 孫明;語義Web使用挖掘若干關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2009年
7 邱桃榮;面向本體學(xué)習(xí)的粒計算方法研究[D];北京交通大學(xué);2009年
8 劉紫玉;多專業(yè)領(lǐng)域本體的構(gòu)建及語義檢索研究[D];北京交通大學(xué);2010年
9 梁浩;Deep Web信息集成架構(gòu)及相關(guān)問題研究[D];吉林大學(xué);2010年
10 于娟;基于文本的領(lǐng)域本體學(xué)習(xí)方法及其應(yīng)用研究[D];大連理工大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 趙蓮;大規(guī)模中英可比較語料庫構(gòu)建[D];大連理工大學(xué);2010年
2 朱利君;基于茶學(xué)領(lǐng)域本體的智能檢索研究[D];安徽農(nóng)業(yè)大學(xué);2010年
3 王有權(quán);基于Web的智能答疑技術(shù)研究與實現(xiàn)[D];南京財經(jīng)大學(xué);2010年
4 吳倩倩;基于語義Web的智能問答系統(tǒng)的研究與實現(xiàn)[D];北京交通大學(xué);2011年
5 李偉;搜索引擎核心詞提取系統(tǒng)設(shè)計與實現(xiàn)[D];北京交通大學(xué);2011年
6 劉冬雪;搜索引擎檢索結(jié)果聚類系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2011年
7 謝鳳宏;基于復(fù)雜網(wǎng)絡(luò)理論的文本聚類和關(guān)鍵詞提取方法研究[D];遼寧師范大學(xué);2011年
8 杜振興;面向爆破行業(yè)的領(lǐng)域本體自動提取技術(shù)研究[D];華南理工大學(xué);2011年
9 侯澤民;基于自組織映射的文本聚類研究[D];西南交通大學(xué);2010年
10 劉婷;本體學(xué)習(xí)及其在語義檢索中應(yīng)用的研究[D];南昌大學(xué);2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 程濤;施水才;王霞;呂學(xué)強;;基于同義詞詞林的中文文本主題詞提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期
2 馬穎華,王永成,蘇貴洋,張宇萌;一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J];計算機研究與發(fā)展;2003年06期
3 鄭家恒,盧嬌麗;關(guān)鍵詞抽取方法的研究[J];計算機工程;2005年18期
4 姜亞莉;關(guān)澤群;;用于Web文檔聚類的基于相似度的軟聚類算法[J];計算機工程;2006年02期
5 張虹;;基于自動文本分類的關(guān)鍵詞抽取算法[J];計算機工程;2009年12期
6 張穎穎;謝強;丁秋林;;基于同義詞鏈的中文關(guān)鍵詞提取算法[J];計算機工程;2010年19期
7 李素建,王厚峰,俞士汶,辛乘勝;關(guān)鍵詞自動標(biāo)引的最大熵模型應(yīng)用研究[J];計算機學(xué)報;2004年09期
8 程嵐嵐,何丕廉,孫越恒;基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法研究[J];計算機應(yīng)用;2005年12期
9 索紅光;劉玉樹;曹淑英;;一種基于詞匯鏈的關(guān)鍵詞抽取方法[J];中文信息學(xué)報;2006年06期
10 何新貴,彭甫陽;中文文本的關(guān)鍵詞自動抽取和模糊分類[J];中文信息學(xué)報;1999年01期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 薛麗敏;李殿偉;肖斌;;中文文本情感傾向性五元模型研究[J];通信技術(shù);2011年07期
2 游榮彥;中文文本簡易壓縮與即時加密研究[J];計算機工程與設(shè)計;1999年06期
3 劉來e,
本文編號:1304328
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1304328.html