面向市場(chǎng)情報(bào)的Web實(shí)體蹤跡發(fā)現(xiàn)研究
本文關(guān)鍵詞:面向市場(chǎng)情報(bào)的Web實(shí)體蹤跡發(fā)現(xiàn)研究 出處:《山東大學(xué)》2016年博士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 事件關(guān)系 事件關(guān)系圖 實(shí)體蹤跡 周期性蹤跡 相似性蹤跡
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Web上的網(wǎng)站和網(wǎng)頁(yè)數(shù)量以指數(shù)級(jí)的速度快速增長(zhǎng)。Web上的海量網(wǎng)頁(yè)包含了各種各樣的信息,而這些信息總是描述現(xiàn)實(shí)社會(huì)中客觀存在的事物(即實(shí)體)所發(fā)生的事情(即事件)。Web上記錄著實(shí)體動(dòng)態(tài)變化的事件孤立地、離散地、毫無(wú)規(guī)律地遍及Web的各個(gè)角落,這些實(shí)體事件的發(fā)生發(fā)展隱含了事件之間潛在的關(guān)聯(lián)、實(shí)體發(fā)展變化軌跡(即實(shí)體蹤跡)及實(shí)體發(fā)展變化規(guī)律(即實(shí)體蹤跡模式)。從紛繁復(fù)雜的Web上發(fā)現(xiàn)實(shí)體事件間關(guān)系并將其有機(jī)地組織起來(lái),發(fā)現(xiàn)實(shí)體蹤跡及實(shí)體蹤跡模式,對(duì)于發(fā)現(xiàn)實(shí)體發(fā)展變化規(guī)律、預(yù)測(cè)實(shí)體發(fā)展趨勢(shì)有重要意義,特別在市場(chǎng)情報(bào)領(lǐng)域中,發(fā)現(xiàn)和分析實(shí)體蹤跡及實(shí)體蹤跡模式尤為重要。目前與Web實(shí)體蹤跡相關(guān)的研究主要側(cè)重于將實(shí)體事件依據(jù)時(shí)間線索進(jìn)行鏈接,這種方式僅適用于用戶瀏覽需求,但是很難勝任面向市場(chǎng)情報(bào)為目的的深層次的分析挖掘任務(wù)。本文致力于面向市場(chǎng)情報(bào)的Web實(shí)體蹤跡發(fā)現(xiàn)研究,目的在于發(fā)現(xiàn)事件間潛在的關(guān)系、發(fā)現(xiàn)實(shí)體周期性蹤跡(即某個(gè)實(shí)體周期性發(fā)生的行為蹤跡)及同類實(shí)體相似性蹤跡(即同類實(shí)體發(fā)生的相似性行為蹤跡)用以趨勢(shì)預(yù)測(cè)和決策支持。面向市場(chǎng)情報(bào)的Web實(shí)體蹤跡發(fā)現(xiàn)研究存在以下問(wèn)題有待解決:1)Web實(shí)體蹤跡研究需要發(fā)現(xiàn)事件間潛在的關(guān)系,而這些事件間潛在的關(guān)系往往不能通過(guò)文本標(biāo)記和語(yǔ)義分析獲得,因此需要提取有效特征來(lái)識(shí)別這些事件關(guān)系;2)Web實(shí)體蹤跡研究需要發(fā)現(xiàn)某些實(shí)體的周期性行為蹤跡,而這些周期性行為蹤跡被埋沒(méi)在大量的事件和事件關(guān)系中難以被發(fā)現(xiàn),因此需要有效的模型定義和有效的模式增長(zhǎng)算法;3)Web實(shí)體蹤跡研究需要發(fā)現(xiàn)同類實(shí)體的相似性行為蹤跡,而同類實(shí)體相似性蹤跡發(fā)現(xiàn)存在需處理事件規(guī)模大和大量冗余模式產(chǎn)生的問(wèn)題,因此需要有效的預(yù)處理和有效的模式發(fā)現(xiàn)方法。本文面向市場(chǎng)情報(bào),以如何有效地發(fā)現(xiàn)事件間潛在關(guān)系、發(fā)現(xiàn)實(shí)體周期性蹤跡和同類實(shí)體相似性蹤跡用以趨勢(shì)預(yù)測(cè)和決策支持為目標(biāo),針對(duì)其中存在的關(guān)鍵問(wèn)題展開(kāi)研究,主要貢獻(xiàn)概括如下:(1)提出一種基于事件要素關(guān)聯(lián)特征的事件關(guān)系識(shí)別方法,有效地解決了跨句子、跨段落、跨文檔的無(wú)標(biāo)記因果關(guān)系和跟隨關(guān)系的識(shí)別,對(duì)一因多果和多因一果的因果關(guān)系也可以有效的識(shí)別。該方法具有較高的準(zhǔn)確率和召回率。事件關(guān)系,尤其是無(wú)標(biāo)記事件關(guān)系,由于其事件間無(wú)關(guān)系提示詞,而僅根據(jù)語(yǔ)義的相關(guān)性不能對(duì)其有效的識(shí)別,針對(duì)這一問(wèn)題,本文提出了一種基于事件要素關(guān)聯(lián)特征的事件關(guān)系識(shí)別方法。該方法主要解決以無(wú)標(biāo)記因果關(guān)系為主的無(wú)標(biāo)記事件關(guān)系的識(shí)別。該方法首先識(shí)別事件間的共現(xiàn)關(guān)系,在事件共現(xiàn)關(guān)系中考慮了事件跨文檔共現(xiàn)的情況,為跨文檔事件關(guān)系的識(shí)別提供了基礎(chǔ);接著,基于統(tǒng)計(jì)方法,分析共現(xiàn)事件對(duì)間對(duì)因果關(guān)系有貢獻(xiàn)的事件要素間的關(guān)聯(lián)特征,并構(gòu)造事件對(duì)的特征向量空間;最后,基于訓(xùn)練數(shù)據(jù)集,采用機(jī)器學(xué)習(xí)的分類模型對(duì)事件關(guān)系進(jìn)行二分類(因果關(guān)系和跟隨關(guān)系),該方法可以有效的解決跨句子、跨段落,甚至是跨文檔的無(wú)標(biāo)記因果關(guān)系的識(shí)別,對(duì)一因多果和多因一果的因果關(guān)系都可以有效的識(shí)別。最后,根據(jù)目標(biāo)需求將有價(jià)值事件按照事件關(guān)系進(jìn)行鏈接,生成事件關(guān)系圖,為市場(chǎng)情報(bào)分析提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。另外,事件因果圖是事件關(guān)系圖的一個(gè)子圖,可以很好地對(duì)一因多果和多因一果的因果關(guān)系可視化。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)于事件關(guān)系識(shí)別具有較高的準(zhǔn)確率和召回率,有效克服了現(xiàn)有的事件關(guān)系識(shí)別方法可移植性差、準(zhǔn)確率低和不能夠解決跨文檔事件關(guān)系識(shí)別的問(wèn)題。(2)提出一種基于頻繁子圖挖掘的實(shí)體周期性蹤跡發(fā)現(xiàn)的方法,有效解決了周期性蹤跡發(fā)現(xiàn)過(guò)程中的模式增長(zhǎng)速度過(guò)慢、模式組合爆炸以及大量冗余模式產(chǎn)生的問(wèn)題。該方法具有較高的準(zhǔn)確率和效率。根據(jù)語(yǔ)義特征,周期性蹤跡采用圖模型,從實(shí)體事件關(guān)系圖中發(fā)現(xiàn)周期性蹤跡,存在著子圖發(fā)現(xiàn)的普遍問(wèn)題:模式增長(zhǎng)速度慢、模式組合爆炸以及大量冗余模式的產(chǎn)生等問(wèn)題。針對(duì)這一問(wèn)題,本文提出一種基于頻繁子圖挖掘的實(shí)體周期性蹤跡發(fā)現(xiàn)的方法。該方法首先將所有的事件根據(jù)其行為(activity)要素的語(yǔ)義相似度進(jìn)行聚類,每個(gè)類中的所有的事件賦予一個(gè)相同的標(biāo)簽,并將事件關(guān)系圖中的所有事件以它們的標(biāo)簽替代;然后,從事件標(biāo)簽圖中發(fā)現(xiàn)所有的vertice-edge-vertice模式。接著,在所有vertice-edge-vertice模式的基礎(chǔ)上,發(fā)現(xiàn)所有的Star模式;最后,合并所有的Star模式,直到不能合并為止,合并的結(jié)果就是所有的周期性蹤跡。其中的Star模式其自身的結(jié)構(gòu)特點(diǎn)使合并算法以Star模式規(guī)模增長(zhǎng),使合并算法快速的收斂,并且不產(chǎn)生額外的冗余模式,避免了模式組合爆炸的狀況。實(shí)驗(yàn)結(jié)果表明,該方法具有較高的準(zhǔn)確率,有效克服了頻繁子圖發(fā)現(xiàn)一次只增長(zhǎng)一個(gè)點(diǎn)或一條邊的模式增長(zhǎng)方式而導(dǎo)致的低效率問(wèn)題。(3)提出一種基于重要事件的同類實(shí)體相似性蹤跡發(fā)現(xiàn)的方法,有效解決了相似性蹤跡發(fā)現(xiàn)過(guò)程中需處理的事件規(guī)模大和大量冗余模式產(chǎn)生的問(wèn)題。該方法具有較高的準(zhǔn)確率和效率。根據(jù)實(shí)際情況,相似性蹤跡采用圖序列模型。從同類實(shí)體事件關(guān)系圖集中發(fā)現(xiàn)相似性蹤跡存在需處理的事件規(guī)模大和大量冗余模式產(chǎn)生的問(wèn)題。針對(duì)這一問(wèn)題,本文提出基于重要事件的同類實(shí)體相似性蹤跡發(fā)現(xiàn)的方法。該方法首先對(duì)每個(gè)實(shí)體的所有事件按照時(shí)間順序排列,然后基于時(shí)間窗口分割和實(shí)體事件報(bào)道頻次的變化率來(lái)發(fā)現(xiàn)重要事件及候選話題,這樣每個(gè)實(shí)體就能獲得一個(gè)候選話題序列;然后,對(duì)所有實(shí)體的候選話題序列,再次采用聚類方法,同一類的話題擁有相同的話題標(biāo)簽。接著,采用動(dòng)態(tài)規(guī)劃方法找到所有的候選話題序列的公共最長(zhǎng)候選話題序列;最后,根據(jù)實(shí)體事件關(guān)系圖集及支持度的最小閾值,對(duì)公共最長(zhǎng)候選話題序列中的所有候選話題進(jìn)行擴(kuò)展,其結(jié)果就是相似性蹤跡。該方法通過(guò)篩選出重要事件,使處理的事件規(guī)模極大的減少。通過(guò)采用一個(gè)動(dòng)態(tài)規(guī)劃方法則發(fā)現(xiàn)了相似性蹤跡的雛形,對(duì)沒(méi)有希望的話題不再擴(kuò)展,避免了大量冗余模式產(chǎn)生。實(shí)驗(yàn)結(jié)果表明,該方法具有較高的準(zhǔn)確率,有效克服了沒(méi)有預(yù)見(jiàn)性的頻繁子圖擴(kuò)展而造成大量冗余模式產(chǎn)生而導(dǎo)致的低效率問(wèn)題。
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 顧敏;;企業(yè)的市場(chǎng)情報(bào)系統(tǒng)化[J];情報(bào)科學(xué);1984年03期
2 董允杰;市場(chǎng)情報(bào)研討會(huì)在延安市召開(kāi)[J];情報(bào)雜志;1985年04期
3 景紅衛(wèi);試論市場(chǎng)情報(bào)的分類[J];情報(bào)雜志;1991年01期
4 劉斌,周安;市場(chǎng)情報(bào)的搜集渠道和方法[J];圖書(shū)館論壇;1994年05期
5 滕代弟,康平,楊麗娟;淺談市場(chǎng)情報(bào)[J];現(xiàn)代情報(bào);1995年04期
6 張效赤,,王華;略論市場(chǎng)情報(bào)的真實(shí)性與時(shí)效性[J];現(xiàn)代情報(bào);1995年05期
7 李珂;市場(chǎng)情報(bào)與企業(yè)營(yíng)銷[J];情報(bào)理論與實(shí)踐;1991年04期
8 張效赤;可靠性市場(chǎng)情報(bào)的判斷方法與實(shí)例[J];情報(bào)雜志;1997年05期
9 崔勇;;論輕工市場(chǎng)情報(bào)與研制新產(chǎn)品[J];情報(bào)科學(xué);1984年05期
10 ;光纖技術(shù)的發(fā)展、應(yīng)用與市場(chǎng)情報(bào)討論會(huì)在永川召開(kāi)[J];壓電與聲光;1987年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 胡博;;“知己知彼,方可百戰(zhàn)不殆” 內(nèi)蒙古電信公司市場(chǎng)情報(bào)系統(tǒng)管理之我見(jiàn)[A];內(nèi)蒙古通信學(xué)會(huì)2005年年會(huì)論文集[C];2005年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前6條
1 ;以“自助餐+快餐”的服務(wù)模式出售情報(bào)[N];證券日?qǐng)?bào);2003年
2 郭俊平;市場(chǎng)情報(bào):潛在的生產(chǎn)力[N];發(fā)展導(dǎo)報(bào);2000年
3 朱海滔;市場(chǎng)情報(bào)師:企業(yè)商戰(zhàn)“007”[N];中國(guó)勞動(dòng)保障報(bào);2006年
4 記者 徐黎一 通訊員 白興龍;旅游(上海)推廣中心成立[N];連云港日?qǐng)?bào);2010年
5 慧生;使用在線樣本提高競(jìng)爭(zhēng)力[N];國(guó)際商報(bào);2006年
6 李家武;河南油田精蠟廠“黑色產(chǎn)品”受青睞[N];中國(guó)礦業(yè)報(bào);2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 黃新艷;面向市場(chǎng)情報(bào)的Web實(shí)體蹤跡發(fā)現(xiàn)研究[D];山東大學(xué);2016年
本文編號(hào):1309512
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1309512.html