基于組合特征的中文新聞網(wǎng)頁關(guān)鍵詞提取研究
本文關(guān)鍵詞: 關(guān)鍵詞提取 組合特征 組合詞 有向圖 新聞網(wǎng)頁 出處:《北京林業(yè)大學》2013年碩士論文 論文類型:學位論文
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)信息正在呈爆炸式增長,新聞網(wǎng)頁已經(jīng)成為人們獲取信息的一個重要途徑。如何快速有效地獲取新聞網(wǎng)頁中的信息并進行處理已經(jīng)成為一個重要的研究工作。在搜索引擎領(lǐng)域,網(wǎng)頁內(nèi)容及關(guān)鍵詞提取是有關(guān)文本自動處理的基礎(chǔ)工作。網(wǎng)頁關(guān)鍵詞反映了網(wǎng)頁的主要內(nèi)容,能夠有效地對網(wǎng)頁進行標識,從而便于進一步處理。 本文首先介紹了關(guān)鍵詞提取相關(guān)的理論知識,包括關(guān)鍵詞提取的概念、自然語言處理、網(wǎng)頁內(nèi)容提取等。接著介紹了組合詞以及組合詞生成的方法。然后提出了基于組合特征的新聞網(wǎng)頁關(guān)鍵詞提取方法。在對網(wǎng)頁文本進行分詞的基礎(chǔ)上,通過計算文本特征的權(quán)重得到候選關(guān)鍵詞,并利用基于有向圖的組合詞生成算法得到組合詞,經(jīng)過去重合并得到最終關(guān)鍵詞。最后對新聞網(wǎng)頁進行實驗,實驗結(jié)果表明本文方法能夠有效地提取出新聞網(wǎng)頁的關(guān)鍵詞。
[Abstract]:With the rapid development of the Internet, the network information is explosive growth. News pages have become an important way for people to obtain information. How to quickly and effectively access information in news pages and deal with them has become an important research work in the field of search engines. Web page content and keyword extraction are the basic work of automatic text processing. Web keywords reflect the main content of the page and can effectively identify the page, thus facilitating further processing. This paper first introduces the relevant theoretical knowledge of keyword extraction, including the concept of keyword extraction, natural language processing. Then introduced the combination words and the combination word generation method. Then proposed the news page keyword extraction method based on the combination characteristic. On the basis of the word segmentation to the web page text. The candidate keywords are obtained by calculating the weight of the text features, and the combinational words are obtained by using the combinatorial word generation algorithm based on directed graph, then the final keywords are obtained by de-coincidence. Finally, the experiment of news pages is carried out. Experimental results show that this method can effectively extract the keywords of news pages.
【學位授予單位】:北京林業(yè)大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 鐘世通;;C++Builder編程訪問網(wǎng)頁信息的方法[J];科技資訊;2007年19期
2 徐明;;輕松破解網(wǎng)頁右鍵屏蔽六招[J];電腦校園;2002年12期
3 杜翠茹;;淺析網(wǎng)頁布局方法在教學中的優(yōu)化[J];大眾科技;2010年05期
4 孟濤,閆宏飛,王繼民;Web網(wǎng)頁信息變化的時間局部性規(guī)律及其驗證[J];情報學報;2005年04期
5 ;和朋友看同一個網(wǎng)頁的幸福生活[J];計算機與網(wǎng)絡(luò);2005年18期
6 張曉彥;張曉明;;一種基于表格屬性的網(wǎng)頁信息隱藏算法[J];北京石油化工學院學報;2009年01期
7 郭利偉;王家兵;;Web信息自動標引方法比較[J];內(nèi)蒙古科技與經(jīng)濟;2009年07期
8 胡少榮;孟嗣儀;劉云;張彥超;丁飛;;網(wǎng)頁信息自動抽取技術(shù)的研究[J];鐵路計算機應(yīng)用;2010年09期
9 汪鵬,劉加,劉潤生;基于離散HMM的非特定人關(guān)鍵詞提取語音識別系統(tǒng)[J];吉林大學學報(理學版);2003年03期
10 陳康,奚偉鵬,蔣凱,武港山;Web智能信息服務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機應(yīng)用研究;2004年06期
相關(guān)會議論文 前10條
1 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2002年
2 王曉峰;劉惟一;;從用戶需求到網(wǎng)頁集團的模糊變換[A];第二十屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2003年
3 張貫虹;烏達巴拉;鞏政;;基于向量空間模型的網(wǎng)頁文本句子對齊方法研究[A];第十一屆全國人機語音通訊學術(shù)會議論文集(一)[C];2011年
4 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁信息提取[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年
5 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年
6 秦鵬;李恒訓;張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
7 章成志;;基于集成學習的自動標引方法研究[A];中國索引學會第三次全國會員代表大會暨學術(shù)論壇論文集[C];2008年
8 羅準辰;劉伍穎;王挺;;關(guān)鍵詞提取中的分離模型和特征設(shè)計[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
9 馬亮;何婷婷;陳勁光;李芳;邵偉;;一種利用關(guān)鍵詞提取的面向查詢多文檔文摘技術(shù)[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
10 沙蕓;周俊武;張國英;;基于主題關(guān)鍵詞的新聞去重算法[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
相關(guān)重要報紙文章 前10條
1 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年
2 東方早報記者 李偉;要名還是要利,這是個問題[N];東方早報;2011年
3 金山軟件副總裁 楊桓;著力“三大系統(tǒng)” 構(gòu)筑網(wǎng)絡(luò)安全屏障[N];中國電子報;2009年
4 郭京霞;楓葉之都狀告百度惡意排名一審敗訴[N];中國知識產(chǎn)權(quán)報;2007年
5 中國人民大學法學院教授 莫紀宏;從憲法文本看公民概念的百年發(fā)展[N];北京日報;2010年
6 陸建松;“診療”博物館展覽工程管理之展覽文本[N];中國文物報;2005年
7 劉福旺;讓文本動起來[N];中國電腦教育報;2002年
8 詹斌;解構(gòu)的歡愉[N];青海日報;2003年
9 宋成劍;文本、對話、實踐的有機統(tǒng)一[N];社會科學報;2001年
10 劉戈;文本的價值與意義[N];文藝報;2001年
相關(guān)博士學位論文 前10條
1 焦斌星;用于搜索的網(wǎng)頁可視化摘要技術(shù)研究[D];中國科學技術(shù)大學;2012年
2 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁自動文摘方法研究[D];華南理工大學;2010年
3 孫越恒;基于統(tǒng)計的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學;2005年
4 王一川;基于內(nèi)容的海量文本探索式查詢導引中若干關(guān)鍵技術(shù)的研究[D];北京郵電大學;2011年
5 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學;2009年
6 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學;2011年
7 姜靜清;最小二乘支持向量機算法及應(yīng)用研究[D];吉林大學;2007年
8 黃河;農(nóng)業(yè)復(fù)雜自適應(yīng)搜索模型研究及實現(xiàn)[D];中國科學技術(shù)大學;2010年
9 余利華;分布式數(shù)據(jù)存儲和處理的若干技術(shù)研究[D];浙江大學;2008年
10 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
相關(guān)碩士學位論文 前10條
1 毛新武;基于組合特征的中文新聞網(wǎng)頁關(guān)鍵詞提取研究[D];北京林業(yè)大學;2013年
2 于洪波;中文網(wǎng)頁自動采集與分類系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學;2010年
3 鐘鴻鵬;基于時態(tài)信息的網(wǎng)頁排序系統(tǒng)的研究與實現(xiàn)[D];華南理工大學;2010年
4 張航;主題爬蟲的實現(xiàn)及其關(guān)鍵技術(shù)研究[D];武漢理工大學;2010年
5 馮明遠;深度網(wǎng)絡(luò)信息爬取關(guān)鍵技術(shù)研究與實現(xiàn)[D];浙江大學;2010年
6 鄧科;智能搜索中的中文網(wǎng)頁分類研究[D];蘭州理工大學;2011年
7 黨春輝;網(wǎng)頁消重和聚類算法在高校搜索引擎中的研究與應(yīng)用[D];東華大學;2010年
8 馬偉瑜;基于改進的PageRank的網(wǎng)頁信息可信度評估方法研究[D];河北大學;2011年
9 任蘭鵬;基于代表樣本的中文網(wǎng)頁分類研究[D];山東大學;2010年
10 任斌;基于本體的主動學習主題爬行的研究與實現(xiàn)[D];吉林大學;2010年
,本文編號:1448324
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1448324.html