基于人物角色事件的傳記生成方法研究
發(fā)布時(shí)間:2017-05-13 01:10
本文關(guān)鍵詞:基于人物角色事件的傳記生成方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:日常生活中,人物信息是人們最為關(guān)注的信息類型之一,有著重要的社會(huì)價(jià)值。傳統(tǒng)的人物傳記雖然提供了豐富的人物信息,但受材料和人力的制約已無(wú)法跟上信息時(shí)代大數(shù)據(jù)流的腳步。網(wǎng)絡(luò)正逐步取代傳統(tǒng)媒介,成為人們獲取人物信息的主要渠道。借助搜索引擎可以實(shí)現(xiàn)網(wǎng)絡(luò)中海量信息的篩選與定位,但返回的人物信息大多是分散且不完整的,同時(shí)夾雜著廣告推送和重復(fù)網(wǎng)頁(yè)等干擾信息,人們?nèi)孕韬馁M(fèi)時(shí)間和精力去分析整理。因此,將信息過(guò)濾,將無(wú)結(jié)構(gòu)的網(wǎng)絡(luò)信息結(jié)構(gòu)化,構(gòu)建基于網(wǎng)絡(luò)信息的人物傳記有著十分重要的意義。針對(duì)這一問(wèn)題,本文構(gòu)建了人物信息的離線語(yǔ)料庫(kù),并以此展開(kāi)后續(xù)的研究工作。本文的主要研究工作如下:(1)研究分析了人物傳記自動(dòng)生成方法,借鑒傳統(tǒng)人物傳記的模式中板塊式和雙線復(fù)調(diào)式的思想,給出了一種基于人物角色事件的傳記模型。在眾多的人物事件中,根據(jù)人物角色的不同,可以將人物事件分成不同的類別,每類事件分別作為描述時(shí)的一條主線,可以清晰地展示出人物的特點(diǎn),并使人物事件的條理性更強(qiáng)。(2)分析人物傳記構(gòu)建所需材料,從網(wǎng)絡(luò)中爬取并整理出相關(guān)的初始語(yǔ)料信息。針對(duì)語(yǔ)料信息中新聞報(bào)道精煉、結(jié)構(gòu)簡(jiǎn)單的特點(diǎn),設(shè)計(jì)了一種基于詞語(yǔ)指紋的網(wǎng)頁(yè)去重方法實(shí)現(xiàn)語(yǔ)料信息的凈化。利用滑動(dòng)窗對(duì)文本中的高頻詞匯切割分組,對(duì)得到的各詞語(yǔ)片段進(jìn)行哈希映射,獲得的哈希碼集合作為網(wǎng)頁(yè)文本的詞語(yǔ)指紋,根據(jù)詞語(yǔ)指紋的匹配情況實(shí)現(xiàn)網(wǎng)頁(yè)文本的去重,文中實(shí)驗(yàn)驗(yàn)證了該方法的可行性。(3)提出了一種基于事件描述特征的人物事件提取方法,根據(jù)描述同一類型事件常常使用相同詞語(yǔ)的特點(diǎn),將這部分詞語(yǔ)賦予更高的權(quán)重并構(gòu)造權(quán)重矩陣,獲得事件描述特征,結(jié)合自適應(yīng)鄰域的聚類方法完成不同角色事件的凝練,最后對(duì)不同類型的角色事件進(jìn)行時(shí)序摘要提取。本文實(shí)驗(yàn)中,利用事件描述詞特征的事件凝練效果明顯,查準(zhǔn)率、查全率和F-score可分別達(dá)到93%,89%和89%。(4)借助可視化工具對(duì)獲得的人物角色事件時(shí)序摘要進(jìn)行可視化展示,選擇適合描述事件時(shí)序摘要和事件描述詞關(guān)系的隸屬網(wǎng)絡(luò)模型,構(gòu)造二者間的關(guān)聯(lián)矩陣,實(shí)現(xiàn)不同時(shí)間段、人物分飾不同角色時(shí)事件的可視化,借助中心度評(píng)測(cè)方法分析了其中事件描述詞的參與情況及其對(duì)人物角色特點(diǎn)的意義。
【關(guān)鍵詞】:人物傳記 網(wǎng)頁(yè)去重 事件凝練 時(shí)序摘要 可視化
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-21
- 1.1 研究背景與意義9-10
- 1.2 人物傳記發(fā)展歷程10-19
- 1.2.1 人物傳記典型模式概述10-11
- 1.2.2 人物傳記摘要流程概述11-13
- 1.2.3 人物傳記生成技術(shù)概述13-19
- 1.3 本文主要工作和內(nèi)容組織19-21
- 2 人物傳記語(yǔ)料庫(kù)的構(gòu)建21-29
- 2.1 網(wǎng)絡(luò)爬蟲(chóng)22-23
- 2.1.1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)概述22
- 2.1.2 Scrapy爬取原理22-23
- 2.2 百度百科人物爬取23-24
- 2.3 媒體新聞報(bào)道爬取24-28
- 2.3.1 百度新聞高級(jí)搜索功能介紹24-25
- 2.3.2 文本數(shù)據(jù)的爬取與解析25-28
- 2.4 本章小結(jié)28-29
- 3 人物傳記語(yǔ)料庫(kù)的凈化29-36
- 3.1 網(wǎng)頁(yè)去重相關(guān)概念29-31
- 3.2 基于詞語(yǔ)指紋的網(wǎng)頁(yè)去重算法31-35
- 3.2.1 原始特征串提取31-32
- 3.2.2 詞語(yǔ)指紋的生成32-33
- 3.2.3 網(wǎng)頁(yè)詞語(yǔ)指紋的匹配33
- 3.2.4 實(shí)驗(yàn)結(jié)果與分析33-35
- 3.3 本章小結(jié)35-36
- 4 人物傳記的自動(dòng)生成36-52
- 4.1 人物傳記自動(dòng)生成技術(shù)36
- 4.2 人物屬性信息的提取36-39
- 4.2.1 半結(jié)構(gòu)化信息提取38
- 4.2.2 非結(jié)構(gòu)化信息提取38-39
- 4.3 人物事件的提取39-48
- 4.3.1 人物事件描述特征的提取40-44
- 4.3.2 不同角色事件的自動(dòng)凝練44-48
- 4.3.3 人物事件的時(shí)序摘要生成48
- 4.4 實(shí)驗(yàn)結(jié)果與分析48-51
- 4.4.1 參數(shù)設(shè)定對(duì)聚類效果的影響50
- 4.4.2 與K-means算法的對(duì)比實(shí)驗(yàn)50-51
- 4.5 本章小結(jié)51-52
- 5 人物傳記可視化方法52-62
- 5.1 人物角色事件分析方法52-53
- 5.1.1 社會(huì)網(wǎng)絡(luò)模型52-53
- 5.1.2 隸屬網(wǎng)絡(luò)模型53
- 5.2 人物事件時(shí)序摘要與事件描述詞矩陣53-55
- 5.2.1 事件描述詞元素提取53-54
- 5.2.2 事件時(shí)序摘要元素提取54
- 5.2.3 事件描述詞與時(shí)序摘要矩陣的構(gòu)建54-55
- 5.3 人物角色事件的可視化分析55-61
- 5.4 本章小結(jié)61-62
- 結(jié)論62-64
- 參考文獻(xiàn)64-67
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況67-68
- 致謝68-69
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁(yè)正文主題和摘要的網(wǎng)頁(yè)去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期
本文關(guān)鍵詞:基于人物角色事件的傳記生成方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):361264
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/361264.html
最近更新
教材專著