基于查詢?nèi)罩痉治龅闹形木W(wǎng)頁關(guān)鍵詞抽取方法
本文關(guān)鍵詞:基于查詢?nèi)罩痉治龅闹形木W(wǎng)頁關(guān)鍵詞抽取方法
更多相關(guān)文章: 抽取 關(guān)鍵短語組配 同義詞識別 多義詞消歧
【摘要】:以全文索引為基礎(chǔ)的網(wǎng)頁搜索引擎檢索相關(guān)度偏低。針對這一問題,本文提出了一種基于查詢?nèi)罩痉治龅闹形木W(wǎng)頁關(guān)鍵詞抽取方法。該方法利用用戶對網(wǎng)頁與查詢詞的相關(guān)性判斷來選擇關(guān)鍵詞。為了量化用戶的相關(guān)性判斷,提出了單位篇幅停留時間、逆向點(diǎn)擊率、排名補(bǔ)償因子3個指標(biāo),并對其進(jìn)行綜合加權(quán)。在查詢串分詞、同義詞識別及多義詞消歧、關(guān)鍵短語組配方面,也做了特殊處理。實(shí)驗(yàn)結(jié)果表明:抽取關(guān)鍵詞的準(zhǔn)確率較高,綜合性能也高于TF.IDF和SVM方法。該方法能得到較滿意的關(guān)鍵詞抽取效果。
【作者單位】: 福建師范大學(xué)協(xié)和學(xué)院;福建師范大學(xué)經(jīng)濟(jì)學(xué)院;
【基金】:國家社會科學(xué)基金資助項(xiàng)目(14CJL001)
【分類號】:TP391.1;TP393.092
【正文快照】: 0引言關(guān)鍵詞是文檔主要內(nèi)容和中心意思的濃縮表示,準(zhǔn)確抽取關(guān)鍵詞將有助于文檔理解及文檔管理。搜索引擎全文檢索的相關(guān)度讓人失望,而手工標(biāo)注關(guān)鍵詞也變得不再可行,在此背景下,利用計(jì)算機(jī)技術(shù)自動抽取關(guān)鍵詞變得更為重要。目前關(guān)鍵詞自動抽取領(lǐng)域非常活躍,國內(nèi)外相繼提出了多
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 陸勇,侯漢清;用于信息檢索的同義詞自動識別及其進(jìn)展[J];南京農(nóng)業(yè)大學(xué)學(xué)報(社會科學(xué)版);2004年03期
2 錢愛兵;江嵐;;基于改進(jìn)TF-IDF的中文網(wǎng)頁關(guān)鍵詞抽取——以新聞網(wǎng)頁為例[J];情報理論與實(shí)踐;2008年06期
3 章成敏,鞠海燕;基于混合策略的中文查詢串相似度計(jì)算[J];情報雜志;2005年11期
4 李綱;戴強(qiáng)斌;;基于詞匯鏈的關(guān)鍵詞自動標(biāo)引方法[J];圖書情報知識;2011年03期
5 章成志;;自動標(biāo)引研究的回顧與展望[J];現(xiàn)代圖書情報技術(shù);2007年11期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 徐朝軍;;基于主題搜索的通用教學(xué)資源共享平臺設(shè)計(jì)[J];中國遠(yuǎn)程教育;2010年03期
2 李斌;宋小華;;本體的中文語義網(wǎng)查詢優(yōu)化[J];電腦編程技巧與維護(hù);2009年S1期
3 劉政;朱杰;吳樹芳;曹振;;信息檢索中的同義詞[J];電腦知識與技術(shù);2009年09期
4 嚴(yán)春風(fēng);;基于決策樹的關(guān)鍵短語抽取的研究[J];電腦知識與技術(shù);2009年20期
5 梁宏勝;徐建民;成岳鵬;;一種改進(jìn)的樸素貝葉斯文本分類方法[J];河北大學(xué)學(xué)報(自然科學(xué)版);2007年03期
6 張永剛;梁穎紅;顏振祥;姚建民;;基于統(tǒng)計(jì)的中文關(guān)鍵短語自動抽取[J];江南大學(xué)學(xué)報(自然科學(xué)版);2010年01期
7 白彥霞;云彩霞;李珊;張秋菊;楊鵬;;多層的貝葉斯網(wǎng)絡(luò)檢索模型[J];計(jì)算機(jī)工程與應(yīng)用;2009年16期
8 徐建民;唐萬生;;基于查詢術(shù)語同義詞的擴(kuò)展信念網(wǎng)絡(luò)檢索模型[J];計(jì)算機(jī)工程;2007年10期
9 徐建民;白彥霞;吳樹芳;;基于術(shù)語相似度的貝葉斯網(wǎng)絡(luò)檢索模型擴(kuò)展[J];計(jì)算機(jī)工程;2007年16期
10 徐建民;白彥霞;吳樹芳;;基于同義詞擴(kuò)展的貝葉斯網(wǎng)絡(luò)檢索模型[J];計(jì)算機(jī)應(yīng)用;2006年11期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 章成志;;基于集成學(xué)習(xí)的自動標(biāo)引方法研究[A];中國索引學(xué)會第三次全國會員代表大會暨學(xué)術(shù)論壇論文集[C];2008年
2 徐建民;陳富節(jié);朱松;;基于量化同義詞擴(kuò)展的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)化檢索模型[A];2007'儀表,自動化及先進(jìn)集成技術(shù)大會論文集(二)[C];2007年
3 宋丹;師慶輝;薛德軍;林鴻飛;;術(shù)語同義詞的自動抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
4 吳法洲;蘇昊;周明;李春平;;利用英文搜索日志建立中文新詞同義詞詞表[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
5 徐朝軍;;基于主題搜索的通用教學(xué)資源共享平臺設(shè)計(jì)[A];全國計(jì)算機(jī)輔助教育學(xué)會“計(jì)算機(jī)輔助教育軟件開發(fā)與應(yīng)用”研討會論文集[C];2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 安璐;基于自組織映射的期刊主題研究[D];武漢大學(xué);2009年
2 熊文新;信息檢索Query語言分析[D];北京語言大學(xué);2006年
3 徐建民;基于術(shù)語關(guān)系的貝葉斯網(wǎng)絡(luò)信息檢索模型擴(kuò)展研究[D];天津大學(xué);2007年
4 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁自動文摘方法研究[D];華南理工大學(xué);2010年
5 彭菲菲;網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國礦業(yè)大學(xué)(北京);2012年
6 蔣玲;面向?qū)W科的知識元標(biāo)引關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2011年
7 黃建年;農(nóng)業(yè)古籍的計(jì)算機(jī)斷句標(biāo)點(diǎn)與分詞標(biāo)引研究[D];南京農(nóng)業(yè)大學(xué);2009年
8 張少英;同義心理活動動詞解析模式研究[D];北京大學(xué);2013年
9 韓春平;敦煌文獻(xiàn)數(shù)字化問題研究[D];蘭州大學(xué);2013年
10 周鵬;面向危機(jī)事件感知的微博信息加工方法研究[D];華中科技大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孫群虎;基于空間分布和信息熵的特征詞提取方法[D];大連理工大學(xué);2010年
2 徐德玉;中文文檔內(nèi)容相似度檢測方法研究[D];長春工業(yè)大學(xué);2010年
3 李長進(jìn);基于中文帶權(quán)關(guān)鍵詞樹的受限領(lǐng)域問答系統(tǒng)研究[D];山東經(jīng)濟(jì)學(xué)院;2011年
4 蔡尚輝;范例推理在智能車輛監(jiān)控數(shù)據(jù)處理系統(tǒng)中的應(yīng)用[D];河北科技大學(xué);2011年
5 梁浩;網(wǎng)絡(luò)新聞相似度檢測系統(tǒng)[D];吉林大學(xué);2011年
6 宋宇軒;基于搜索日志和點(diǎn)擊日志的同義詞挖掘的研究和實(shí)現(xiàn)[D];北京交通大學(xué);2011年
7 戴依若;基于內(nèi)容的中文流行病新聞主題分類[D];北京郵電大學(xué);2011年
8 張宗仁;基于自然語言理解的本體語義信息檢索[D];暨南大學(xué);2011年
9 王\~;基于Lucene的同義詞擴(kuò)展檢索的研究與實(shí)現(xiàn)[D];天津財經(jīng)大學(xué);2011年
10 謝鳳宏;基于復(fù)雜網(wǎng)絡(luò)理論的文本聚類和關(guān)鍵詞提取方法研究[D];遼寧師范大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 馬穎華,王永成,蘇貴洋,張宇萌;一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2003年06期
2 周強(qiáng);;基于語料庫和面向統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)[J];計(jì)算機(jī)科學(xué);1995年04期
3 張華平,劉群;基于角色標(biāo)注的中國人名自動識別研究[J];計(jì)算機(jī)學(xué)報;2004年01期
4 李素建,王厚峰,俞士汶,辛乘勝;關(guān)鍵詞自動標(biāo)引的最大熵模型應(yīng)用研究[J];計(jì)算機(jī)學(xué)報;2004年09期
5 索紅光;劉玉樹;曹淑英;;一種基于詞匯鏈的關(guān)鍵詞抽取方法[J];中文信息學(xué)報;2006年06期
6 胡學(xué)鋼;李星華;謝飛;吳信東;;基于詞匯鏈的中文新聞網(wǎng)頁關(guān)鍵詞抽取方法[J];模式識別與人工智能;2010年01期
7 韓客松,王永成;中文全文標(biāo)引的主題詞標(biāo)引和主題概念標(biāo)引方法[J];情報學(xué)報;2001年02期
8 韓冬梅;后控詞表的設(shè)計(jì)開發(fā)與利用[J];情報學(xué)報;1994年04期
9 宋明亮;漢語詞匯字面相似性原理與后控制詞表動態(tài)維護(hù)研究[J];情報學(xué)報;1996年04期
10 張明寶;謝宗旺;;一種基于知網(wǎng)的中文詞匯鏈構(gòu)建算法研究[J];軟件導(dǎo)刊;2008年10期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 劉華;基于關(guān)鍵短語的文本內(nèi)容標(biāo)引研究[D];北京語言大學(xué);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 朱毅華;智能搜索引擎中的同義詞識別算法研究[D];南京農(nóng)業(yè)大學(xué);2001年
2 章成志;基于文本層次模型的Web概念挖掘研究[D];南京農(nóng)業(yè)大學(xué);2002年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 肖明軍,張巍,鄒翔,蔡慶生;一種多策略聯(lián)合信息抽取方法[J];小型微型計(jì)算機(jī)系統(tǒng);2005年04期
2 郝博一;夏云慶;鄔曉鈞;鄭方;劉軼;;基于泛化和繁殖的自舉式意見目標(biāo)抽取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2009年S1期
3 栗春亮;朱艷輝;徐葉強(qiáng);;中文產(chǎn)品評論中屬性詞抽取方法研究[J];計(jì)算機(jī)工程;2011年12期
4 蔡虹,葉水生;基于KPS的Web信息抽取[J];計(jì)算機(jī)與現(xiàn)代化;2005年06期
5 何彥青;周玉;宗成慶;王霞;;基于“松弛尺度”的短語翻譯對抽取方法[J];中文信息學(xué)報;2007年05期
6 葉春蕾;冷伏海;;基于詞匯鏈的路線圖關(guān)鍵詞抽取方法研究[J];現(xiàn)代圖書情報技術(shù);2013年01期
7 麥熱哈巴·艾力;阿孜古麗·夏力甫;吐爾根·依布拉音;;維吾爾語多詞表達(dá)抽取方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年08期
8 卞真旭;;一種關(guān)鍵詞抽取方法研究[J];安徽電氣工程職業(yè)技術(shù)學(xué)院學(xué)報;2011年S1期
9 王大亮;張德政;涂序彥;鄭雪峰;佟子健;;基于相對條件熵的搭配抽取方法[J];北京郵電大學(xué)學(xué)報;2007年06期
10 吳中彪;劉椿年;;面向中文短信的信息抽取方法[J];計(jì)算機(jī)工程;2011年21期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 宋濤;李素建;;基于流形排序的領(lǐng)域詞抽取方法[A];第五屆全國青年計(jì)算語言學(xué)研討會論文集[C];2010年
2 卞真旭;;一種關(guān)鍵詞抽取方法研究[A];2011年安徽省智能電網(wǎng)技術(shù)論壇論文集[C];2011年
3 羅斐;毛宇光;;基于領(lǐng)域分類的查詢接口模式抽取方法[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年
4 栗春亮;朱艷輝;徐葉強(qiáng);;中文產(chǎn)品評論中屬性詞抽取方法研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
5 劉昊;王健;林鴻飛;;一種模板與圖核融合的蛋白質(zhì)關(guān)系抽取方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
6 翁偉;王厚峰;;基于LDA的關(guān)鍵詞抽取方法[A];第五屆全國青年計(jì)算語言學(xué)研討會論文集[C];2010年
7 何莉;林鴻飛;;一種面向WEB的生物醫(yī)學(xué)領(lǐng)域英漢術(shù)語翻譯對抽取方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 左云存;宗成慶;;基于HMM的短語翻譯對抽取方法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
9 王裴巖;張桂平;白宇;;一種基于核函數(shù)的技術(shù)關(guān)鍵詞連接關(guān)系抽取方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
10 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 呂云云;基于集成學(xué)習(xí)的中文觀點(diǎn)句抽取方法研究[D];山西大學(xué);2013年
2 方瑩;基于句子聚類的信息抽取方法研究[D];山西大學(xué);2005年
3 徐曉明;面向手機(jī)用戶的社團(tuán)抽取方法研究[D];吉林大學(xué);2014年
4 李震;基于聚類的事件蘊(yùn)涵抽取方法研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
5 王立;中文復(fù)述模板及搭配抽取方法研究[D];華中師范大學(xué);2013年
6 張文文;網(wǎng)絡(luò)文本觀點(diǎn)句抽取方法研究[D];國防科學(xué)技術(shù)大學(xué);2012年
7 王強(qiáng);基于結(jié)構(gòu)化預(yù)測模型的企業(yè)信息聯(lián)合抽取方法研究[D];南京師范大學(xué);2014年
8 鄒莎莎;文本信息結(jié)構(gòu)抽取方法的研究[D];大連理工大學(xué);2010年
9 張洪恩;基于語義的Web信息抽取方法的研究與應(yīng)用[D];重慶大學(xué);2011年
10 李瑩;文本病歷信息抽取方法研究[D];浙江大學(xué);2009年
,本文編號:1293604
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1293604.html