基于論文摘要及引用信息的領(lǐng)域研究熱點發(fā)現(xiàn)
本文關(guān)鍵詞:基于論文摘要及引用信息的領(lǐng)域研究熱點發(fā)現(xiàn) 出處:《哈爾濱工業(yè)大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 論文摘要 引用信息 聚類 熱點發(fā)現(xiàn)
【摘要】:在信息呈現(xiàn)爆炸式快速增長的互聯(lián)網(wǎng)信息時代,要想從這些海量的信息中,去除冗余信息,挑選出自己真正需要的,并不是一件非常容易的事情。同樣,對于從事科學(xué)活動的研究者來說,情況也是類似的。研究者經(jīng)常需要了解自己所研究領(lǐng)域的研究熱點的發(fā)展變化趨勢;并且,有時甚至需要研究者能夠快速地了解并進入一個新的研究領(lǐng)域。閱讀相關(guān)領(lǐng)域的海量的論文,并從中獲取該領(lǐng)域的研究熱點顯然是一個相當(dāng)痛苦的過程。如果通過領(lǐng)域內(nèi)的論文集,能自動發(fā)現(xiàn)領(lǐng)域的研究熱點,肯定對需要了解相關(guān)信息的研究者有很大的幫助作用;诖四康,本文研究了基于論文摘要及引用信息的領(lǐng)域研究熱點發(fā)現(xiàn)的相關(guān)問題。本文的主要工作如下: 第一、利用論文間的引用關(guān)系及作者、發(fā)表時間等論文本身的基本信息,本文抽取了被其他ACL論文引用次數(shù)不少于20次的,876篇ACL論文的摘要文本及引用信息文本,構(gòu)建了論文摘要語料庫及論文引用信息語料庫。 第二、本文提出了一種基于論文摘要及引用信息的領(lǐng)域研究熱點發(fā)現(xiàn)策略,對語料庫中的文本執(zhí)行了熱點發(fā)現(xiàn)過程中的一系列關(guān)鍵操作,首先過濾掉其中的對發(fā)現(xiàn)熱點無貢獻的噪聲停用詞,用一種改進的TF方法選取那些能充分代表該文本內(nèi)容的特征詞;將這些特征詞向量化并賦予權(quán)值,以數(shù)學(xué)的語言對該文本進行重新描述;之后對文本執(zhí)行一種融合了AP算法與K均值算法的聚類操作,每個類簇都是對該論文的部分研究內(nèi)容的一個概括。 第三、從聚類的結(jié)果的每一個類簇中,提取最能代表該類簇的句子,將這些句子整合生成對該論文的一個更全面的總結(jié),從該總結(jié)中發(fā)現(xiàn)該論文的研究話題焦點;將發(fā)現(xiàn)的論文集中的論文的研究話題焦點匯總,并利用論文的發(fā)表時間信息,發(fā)現(xiàn)該領(lǐng)域的研究熱點;結(jié)果顯示這種策略發(fā)現(xiàn)的領(lǐng)域研究熱點基本體現(xiàn)了該特定領(lǐng)域的本質(zhì)特點,證明這種策略是有效的。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 趙華;趙鐵軍;張姝;王浩暢;;基于內(nèi)容分析的話題檢測研究[J];哈爾濱工業(yè)大學(xué)學(xué)報;2006年10期
2 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進化模型的事件探測和追蹤算法[J];計算機研究與發(fā)展;2004年07期
3 武佳薇;李雄飛;孫濤;李巍;;鄰域平衡密度聚類算法[J];計算機研究與發(fā)展;2010年06期
4 梁吉業(yè);白亮;曹付元;;基于新的距離度量的K-Modes聚類算法[J];計算機研究與發(fā)展;2010年10期
5 邢永康;馬少平;;信息檢索的概率模型[J];計算機科學(xué);2003年08期
6 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計算機工程;2010年17期
7 張成棟;;EAME(易覓)英文摘要寫作的利器[J];遼寧工學(xué)院學(xué)報(社會科學(xué)版);2007年05期
8 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報;2007年06期
9 張東禮,汪東升,鄭緯民;基于VSM的中文文本分類系統(tǒng)的設(shè)計與實現(xiàn)[J];清華大學(xué)學(xué)報(自然科學(xué)版);2003年09期
10 肖宇;于劍;;基于近鄰傳播算法的半監(jiān)督聚類[J];軟件學(xué)報;2008年11期
,本文編號:1328211
本文鏈接:http://sikaile.net/wenshubaike/qiuzhijiqiao/1328211.html