面向社會(huì)網(wǎng)絡(luò)應(yīng)用的人物關(guān)系抽取方法研究
本文關(guān)鍵詞:面向社會(huì)網(wǎng)絡(luò)應(yīng)用的人物關(guān)系抽取方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:人物關(guān)系抽取是信息抽取領(lǐng)域的熱門(mén)研究方向之一,指的是從非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本中識(shí)別用戶感興趣的人物關(guān)系,并以結(jié)構(gòu)化的形式進(jìn)行存儲(chǔ)的過(guò)程。在這個(gè)信息爆炸的大數(shù)據(jù)時(shí)代,需要信息抽取技術(shù)快速準(zhǔn)確地發(fā)現(xiàn)形式多樣的人物關(guān)系,為社會(huì)網(wǎng)絡(luò)及其他相關(guān)領(lǐng)域的應(yīng)用研究奠定基礎(chǔ)。本文對(duì)基于堆疊降噪自動(dòng)編碼器的人物關(guān)系抽取方法進(jìn)行了深入研究,并在此基礎(chǔ)上對(duì)基于人物關(guān)系抽取技術(shù)的社會(huì)網(wǎng)絡(luò)構(gòu)建方法進(jìn)行了研究,主要研究?jī)?nèi)容歸納如下:首先,提出了基于互動(dòng)百科的人物關(guān)系語(yǔ)料自動(dòng)生成系統(tǒng)的設(shè)計(jì)方案,對(duì)數(shù)據(jù)抓取、網(wǎng)頁(yè)正文抽取、文本分析處理、人物關(guān)系語(yǔ)料生成四個(gè)模塊進(jìn)行了詳細(xì)的論述與設(shè)計(jì);提出了由語(yǔ)言技術(shù)平臺(tái)(LTP)和NLPIR漢語(yǔ)分詞系統(tǒng)相結(jié)合并協(xié)同互動(dòng)百科進(jìn)一步確認(rèn)的人名對(duì)識(shí)別算法以及基于互動(dòng)百科的人物關(guān)系類(lèi)型識(shí)別算法。其次,研究了基于堆疊降噪自動(dòng)編碼器的人物關(guān)系抽取方法,并通過(guò)實(shí)驗(yàn)的方式對(duì)該方法的性能進(jìn)行了評(píng)估。在句子級(jí)別的人物關(guān)系抽取中,針對(duì)特征詞過(guò)少導(dǎo)致特征向量高度稀疏這一問(wèn)題,提出了基于同義詞詞林?jǐn)U展特征詞規(guī)模的緩解方法;考察了詞特征、詞性特征、相鄰位置特征、依存句法特征和語(yǔ)義特征對(duì)人物關(guān)系抽取性能的貢獻(xiàn);探究了不同網(wǎng)絡(luò)深度的堆疊降噪自動(dòng)編碼器的人物關(guān)系識(shí)別效果。最后,研究了基于人物關(guān)系抽取技術(shù)的社會(huì)網(wǎng)絡(luò)構(gòu)建方法,構(gòu)建了適合大規(guī)模社會(huì)網(wǎng)絡(luò)分析應(yīng)用的社會(huì)網(wǎng)絡(luò)矩陣并通過(guò)社群圖的形式對(duì)社會(huì)網(wǎng)絡(luò)的構(gòu)建效果進(jìn)行了展示。本文提出的基于互動(dòng)百科的人物關(guān)系語(yǔ)料自動(dòng)生成系統(tǒng),為后續(xù)的基于堆疊降噪自動(dòng)編碼器的人物關(guān)系抽取模型的參數(shù)訓(xùn)練以及性能測(cè)試所需的語(yǔ)料提供了一個(gè)語(yǔ)料自動(dòng)獲取工具;提出的基于人物關(guān)系抽取技術(shù)進(jìn)行社會(huì)網(wǎng)絡(luò)構(gòu)建的方法適用于利用大規(guī);ヂ(lián)網(wǎng)數(shù)據(jù)進(jìn)行社會(huì)網(wǎng)絡(luò)構(gòu)建,為社會(huì)網(wǎng)絡(luò)的進(jìn)一步分析應(yīng)用奠定了基礎(chǔ)。
【關(guān)鍵詞】:社會(huì)網(wǎng)絡(luò) 人物實(shí)體識(shí)別 人物關(guān)系抽取 降噪自動(dòng)編碼器 深度學(xué)習(xí)
【學(xué)位授予單位】:西藏大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 緒論10-17
- 1.1 研究背景與意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀及面臨的問(wèn)題11-15
- 1.2.1 人物關(guān)系抽取研究現(xiàn)狀11-13
- 1.2.2 社會(huì)網(wǎng)絡(luò)構(gòu)建研究現(xiàn)狀13-14
- 1.2.3 堆疊降噪自動(dòng)編碼器研究現(xiàn)狀14-15
- 1.3 本文的研究?jī)?nèi)容15-16
- 1.4 本文的組織結(jié)構(gòu)16-17
- 第二章相關(guān)知識(shí)概述17-26
- 2.1 堆疊降噪自動(dòng)編碼器17-19
- 2.2 爬蟲(chóng)技術(shù)19-20
- 2.3 網(wǎng)頁(yè)正文抽取技術(shù)20-22
- 2.4 自然語(yǔ)言處理22-25
- 2.4.1 分詞22-23
- 2.4.2 句法分析23
- 2.4.3 語(yǔ)義角色標(biāo)注23-24
- 2.4.4 同義詞詞林24-25
- 2.5 本章小結(jié)25-26
- 第三章基于互動(dòng)百科的人物關(guān)語(yǔ)料自動(dòng)生成系統(tǒng)設(shè)計(jì)26-39
- 3.1 系統(tǒng)工作流程26-27
- 3.2 系統(tǒng)框架設(shè)計(jì)27-28
- 3.3 數(shù)據(jù)抓取模塊的設(shè)計(jì)28-32
- 3.3.1 數(shù)據(jù)源網(wǎng)站的選擇29
- 3.3.2 爬蟲(chóng)系統(tǒng)設(shè)計(jì)29-32
- 3.4 網(wǎng)頁(yè)正文抽取模塊的設(shè)計(jì)32-33
- 3.5 文本分析處理模塊的設(shè)計(jì)33-36
- 3.6 人物關(guān)系語(yǔ)料生成模塊的設(shè)計(jì)36-38
- 3.7 本章小結(jié)38-39
- 第四章基于SDAs的人物關(guān)系抽取方法研究39-63
- 4.1 特征抽取39-48
- 4.1.1 向量空間模型39-40
- 4.1.2 特征向量構(gòu)造40-48
- 4.2 基于SDAs的人物關(guān)系識(shí)別模型48-52
- 4.2.1 SDAs網(wǎng)絡(luò)預(yù)訓(xùn)練48-50
- 4.2.2 SDAs網(wǎng)絡(luò)微調(diào)50-51
- 4.2.3 基于SDAs網(wǎng)絡(luò)進(jìn)行人物關(guān)系抽取51-52
- 4.3 實(shí)驗(yàn)結(jié)果與分析52-58
- 4.3.1 單項(xiàng)特征對(duì)人物關(guān)系抽取的效果53-56
- 4.3.2 多個(gè)特征組合對(duì)人物關(guān)系抽取的效果56-57
- 4.3.3 SDAs網(wǎng)絡(luò)的深度對(duì)人物關(guān)系抽取的效果57-58
- 4.4 基于人物關(guān)系抽取技術(shù)的社會(huì)網(wǎng)絡(luò)構(gòu)建58-61
- 4.4.1 社會(huì)網(wǎng)絡(luò)59-60
- 4.4.2 社會(huì)網(wǎng)絡(luò)構(gòu)建流程60-61
- 4.4.3 社會(huì)網(wǎng)絡(luò)效果展示61
- 4.5 本章小結(jié)61-63
- 第五章總結(jié)與展望63-65
- 5.1 研究工作總結(jié)63
- 5.2 下一步工作展望63-65
- 參考文獻(xiàn)65-71
- 攻讀學(xué)位期間公開(kāi)發(fā)表的論文71-72
- 攻讀學(xué)位期間參與的科研項(xiàng)目72-73
- 致謝73
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 石楨;姚天f ;;一種基于統(tǒng)計(jì)和規(guī)則的核心地名抽取方法[J];微型電腦應(yīng)用;2013年02期
2 張世輝;一種新的基于距離的漢字筆畫(huà)抽取方法[J];計(jì)算機(jī)工程;2003年14期
3 王大亮;涂序彥;鄭雪峰;佟子健;;多策略融合的搭配抽取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
4 楊建明;;關(guān)系抽取方法研究[J];電子技術(shù);2009年04期
5 孫繼鵬;賈民;劉增寶;;一種面向文本的概念抽取方法的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年09期
6 鄭偉;呂建新;張建偉;;文本分類(lèi)中特征預(yù)抽取方法研究[J];情報(bào)科學(xué);2011年01期
7 肖明軍,張巍,鄒翔,蔡慶生;一種多策略聯(lián)合信息抽取方法[J];小型微型計(jì)算機(jī)系統(tǒng);2005年04期
8 郝博一;夏云慶;鄔曉鈞;鄭方;劉軼;;基于泛化和繁殖的自舉式意見(jiàn)目標(biāo)抽取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年S1期
9 栗春亮;朱艷輝;徐葉強(qiáng);;中文產(chǎn)品評(píng)論中屬性詞抽取方法研究[J];計(jì)算機(jī)工程;2011年12期
10 蔡虹,葉水生;基于KPS的Web信息抽取[J];計(jì)算機(jī)與現(xiàn)代化;2005年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 宋濤;李素建;;基于流形排序的領(lǐng)域詞抽取方法[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
2 卞真旭;;一種關(guān)鍵詞抽取方法研究[A];2011年安徽省智能電網(wǎng)技術(shù)論壇論文集[C];2011年
3 羅斐;毛宇光;;基于領(lǐng)域分類(lèi)的查詢接口模式抽取方法[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
4 栗春亮;朱艷輝;徐葉強(qiáng);;中文產(chǎn)品評(píng)論中屬性詞抽取方法研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
5 劉昊;王健;林鴻飛;;一種模板與圖核融合的蛋白質(zhì)關(guān)系抽取方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
6 翁偉;王厚峰;;基于LDA的關(guān)鍵詞抽取方法[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
7 何莉;林鴻飛;;一種面向WEB的生物醫(yī)學(xué)領(lǐng)域英漢術(shù)語(yǔ)翻譯對(duì)抽取方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 左云存;宗成慶;;基于HMM的短語(yǔ)翻譯對(duì)抽取方法[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
9 王裴巖;張桂平;白宇;;一種基于核函數(shù)的技術(shù)關(guān)鍵詞連接關(guān)系抽取方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
10 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁(yè)正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 洪軍建;面向社會(huì)網(wǎng)絡(luò)應(yīng)用的人物關(guān)系抽取方法研究[D];西藏大學(xué);2016年
2 呂云云;基于集成學(xué)習(xí)的中文觀點(diǎn)句抽取方法研究[D];山西大學(xué);2013年
3 楊云;基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法研究[D];東北師范大學(xué);2015年
4 方瑩;基于句子聚類(lèi)的信息抽取方法研究[D];山西大學(xué);2005年
5 徐曉明;面向手機(jī)用戶的社團(tuán)抽取方法研究[D];吉林大學(xué);2014年
6 陳倩;基于特征模型的跨領(lǐng)域信息抽取方法研究[D];上海大學(xué);2015年
7 李震;基于聚類(lèi)的事件蘊(yùn)涵抽取方法研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
8 劉驍;基于產(chǎn)品評(píng)論的意見(jiàn)抽取方法研究[D];黑龍江大學(xué);2015年
9 王立;中文復(fù)述模板及搭配抽取方法研究[D];華中師范大學(xué);2013年
10 張文文;網(wǎng)絡(luò)文本觀點(diǎn)句抽取方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
本文關(guān)鍵詞:面向社會(huì)網(wǎng)絡(luò)應(yīng)用的人物關(guān)系抽取方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):485875
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/485875.html