基于論文摘要及引用信息的領(lǐng)域研究熱點(diǎn)發(fā)現(xiàn)
本文關(guān)鍵詞:基于論文摘要及引用信息的領(lǐng)域研究熱點(diǎn)發(fā)現(xiàn) 出處:《哈爾濱工業(yè)大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 論文摘要 引用信息 聚類 熱點(diǎn)發(fā)現(xiàn)
【摘要】:在信息呈現(xiàn)爆炸式快速增長(zhǎng)的互聯(lián)網(wǎng)信息時(shí)代,要想從這些海量的信息中,去除冗余信息,挑選出自己真正需要的,并不是一件非常容易的事情。同樣,對(duì)于從事科學(xué)活動(dòng)的研究者來(lái)說,情況也是類似的。研究者經(jīng)常需要了解自己所研究領(lǐng)域的研究熱點(diǎn)的發(fā)展變化趨勢(shì);并且,有時(shí)甚至需要研究者能夠快速地了解并進(jìn)入一個(gè)新的研究領(lǐng)域。閱讀相關(guān)領(lǐng)域的海量的論文,并從中獲取該領(lǐng)域的研究熱點(diǎn)顯然是一個(gè)相當(dāng)痛苦的過程。如果通過領(lǐng)域內(nèi)的論文集,能自動(dòng)發(fā)現(xiàn)領(lǐng)域的研究熱點(diǎn),肯定對(duì)需要了解相關(guān)信息的研究者有很大的幫助作用;诖四康,本文研究了基于論文摘要及引用信息的領(lǐng)域研究熱點(diǎn)發(fā)現(xiàn)的相關(guān)問題。本文的主要工作如下: 第一、利用論文間的引用關(guān)系及作者、發(fā)表時(shí)間等論文本身的基本信息,本文抽取了被其他ACL論文引用次數(shù)不少于20次的,876篇ACL論文的摘要文本及引用信息文本,構(gòu)建了論文摘要語(yǔ)料庫(kù)及論文引用信息語(yǔ)料庫(kù)。 第二、本文提出了一種基于論文摘要及引用信息的領(lǐng)域研究熱點(diǎn)發(fā)現(xiàn)策略,對(duì)語(yǔ)料庫(kù)中的文本執(zhí)行了熱點(diǎn)發(fā)現(xiàn)過程中的一系列關(guān)鍵操作,首先過濾掉其中的對(duì)發(fā)現(xiàn)熱點(diǎn)無(wú)貢獻(xiàn)的噪聲停用詞,用一種改進(jìn)的TF方法選取那些能充分代表該文本內(nèi)容的特征詞;將這些特征詞向量化并賦予權(quán)值,以數(shù)學(xué)的語(yǔ)言對(duì)該文本進(jìn)行重新描述;之后對(duì)文本執(zhí)行一種融合了AP算法與K均值算法的聚類操作,每個(gè)類簇都是對(duì)該論文的部分研究?jī)?nèi)容的一個(gè)概括。 第三、從聚類的結(jié)果的每一個(gè)類簇中,提取最能代表該類簇的句子,將這些句子整合生成對(duì)該論文的一個(gè)更全面的總結(jié),從該總結(jié)中發(fā)現(xiàn)該論文的研究話題焦點(diǎn);將發(fā)現(xiàn)的論文集中的論文的研究話題焦點(diǎn)匯總,并利用論文的發(fā)表時(shí)間信息,發(fā)現(xiàn)該領(lǐng)域的研究熱點(diǎn);結(jié)果顯示這種策略發(fā)現(xiàn)的領(lǐng)域研究熱點(diǎn)基本體現(xiàn)了該特定領(lǐng)域的本質(zhì)特點(diǎn),證明這種策略是有效的。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙華;趙鐵軍;張姝;王浩暢;;基于內(nèi)容分析的話題檢測(cè)研究[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2006年10期
2 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J];計(jì)算機(jī)研究與發(fā)展;2004年07期
3 武佳薇;李雄飛;孫濤;李巍;;鄰域平衡密度聚類算法[J];計(jì)算機(jī)研究與發(fā)展;2010年06期
4 梁吉業(yè);白亮;曹付元;;基于新的距離度量的K-Modes聚類算法[J];計(jì)算機(jī)研究與發(fā)展;2010年10期
5 邢永康;馬少平;;信息檢索的概率模型[J];計(jì)算機(jī)科學(xué);2003年08期
6 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計(jì)算機(jī)工程;2010年17期
7 張成棟;;EAME(易覓)英文摘要寫作的利器[J];遼寧工學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版);2007年05期
8 洪宇;張宇;劉挺;李生;;話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J];中文信息學(xué)報(bào);2007年06期
9 張東禮,汪東升,鄭緯民;基于VSM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年09期
10 肖宇;于劍;;基于近鄰傳播算法的半監(jiān)督聚類[J];軟件學(xué)報(bào);2008年11期
,本文編號(hào):1328211
本文鏈接:http://sikaile.net/wenshubaike/qiuzhijiqiao/1328211.html