天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

面向市場情報的Web實體蹤跡發(fā)現(xiàn)研究

發(fā)布時間:2017-12-19 21:25

  本文關(guān)鍵詞:面向市場情報的Web實體蹤跡發(fā)現(xiàn)研究 出處:《山東大學(xué)》2016年博士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 事件關(guān)系 事件關(guān)系圖 實體蹤跡 周期性蹤跡 相似性蹤跡


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Web上的網(wǎng)站和網(wǎng)頁數(shù)量以指數(shù)級的速度快速增長。Web上的海量網(wǎng)頁包含了各種各樣的信息,而這些信息總是描述現(xiàn)實社會中客觀存在的事物(即實體)所發(fā)生的事情(即事件)。Web上記錄著實體動態(tài)變化的事件孤立地、離散地、毫無規(guī)律地遍及Web的各個角落,這些實體事件的發(fā)生發(fā)展隱含了事件之間潛在的關(guān)聯(lián)、實體發(fā)展變化軌跡(即實體蹤跡)及實體發(fā)展變化規(guī)律(即實體蹤跡模式)。從紛繁復(fù)雜的Web上發(fā)現(xiàn)實體事件間關(guān)系并將其有機地組織起來,發(fā)現(xiàn)實體蹤跡及實體蹤跡模式,對于發(fā)現(xiàn)實體發(fā)展變化規(guī)律、預(yù)測實體發(fā)展趨勢有重要意義,特別在市場情報領(lǐng)域中,發(fā)現(xiàn)和分析實體蹤跡及實體蹤跡模式尤為重要。目前與Web實體蹤跡相關(guān)的研究主要側(cè)重于將實體事件依據(jù)時間線索進行鏈接,這種方式僅適用于用戶瀏覽需求,但是很難勝任面向市場情報為目的的深層次的分析挖掘任務(wù)。本文致力于面向市場情報的Web實體蹤跡發(fā)現(xiàn)研究,目的在于發(fā)現(xiàn)事件間潛在的關(guān)系、發(fā)現(xiàn)實體周期性蹤跡(即某個實體周期性發(fā)生的行為蹤跡)及同類實體相似性蹤跡(即同類實體發(fā)生的相似性行為蹤跡)用以趨勢預(yù)測和決策支持。面向市場情報的Web實體蹤跡發(fā)現(xiàn)研究存在以下問題有待解決:1)Web實體蹤跡研究需要發(fā)現(xiàn)事件間潛在的關(guān)系,而這些事件間潛在的關(guān)系往往不能通過文本標(biāo)記和語義分析獲得,因此需要提取有效特征來識別這些事件關(guān)系;2)Web實體蹤跡研究需要發(fā)現(xiàn)某些實體的周期性行為蹤跡,而這些周期性行為蹤跡被埋沒在大量的事件和事件關(guān)系中難以被發(fā)現(xiàn),因此需要有效的模型定義和有效的模式增長算法;3)Web實體蹤跡研究需要發(fā)現(xiàn)同類實體的相似性行為蹤跡,而同類實體相似性蹤跡發(fā)現(xiàn)存在需處理事件規(guī)模大和大量冗余模式產(chǎn)生的問題,因此需要有效的預(yù)處理和有效的模式發(fā)現(xiàn)方法。本文面向市場情報,以如何有效地發(fā)現(xiàn)事件間潛在關(guān)系、發(fā)現(xiàn)實體周期性蹤跡和同類實體相似性蹤跡用以趨勢預(yù)測和決策支持為目標(biāo),針對其中存在的關(guān)鍵問題展開研究,主要貢獻概括如下:(1)提出一種基于事件要素關(guān)聯(lián)特征的事件關(guān)系識別方法,有效地解決了跨句子、跨段落、跨文檔的無標(biāo)記因果關(guān)系和跟隨關(guān)系的識別,對一因多果和多因一果的因果關(guān)系也可以有效的識別。該方法具有較高的準(zhǔn)確率和召回率。事件關(guān)系,尤其是無標(biāo)記事件關(guān)系,由于其事件間無關(guān)系提示詞,而僅根據(jù)語義的相關(guān)性不能對其有效的識別,針對這一問題,本文提出了一種基于事件要素關(guān)聯(lián)特征的事件關(guān)系識別方法。該方法主要解決以無標(biāo)記因果關(guān)系為主的無標(biāo)記事件關(guān)系的識別。該方法首先識別事件間的共現(xiàn)關(guān)系,在事件共現(xiàn)關(guān)系中考慮了事件跨文檔共現(xiàn)的情況,為跨文檔事件關(guān)系的識別提供了基礎(chǔ);接著,基于統(tǒng)計方法,分析共現(xiàn)事件對間對因果關(guān)系有貢獻的事件要素間的關(guān)聯(lián)特征,并構(gòu)造事件對的特征向量空間;最后,基于訓(xùn)練數(shù)據(jù)集,采用機器學(xué)習(xí)的分類模型對事件關(guān)系進行二分類(因果關(guān)系和跟隨關(guān)系),該方法可以有效的解決跨句子、跨段落,甚至是跨文檔的無標(biāo)記因果關(guān)系的識別,對一因多果和多因一果的因果關(guān)系都可以有效的識別。最后,根據(jù)目標(biāo)需求將有價值事件按照事件關(guān)系進行鏈接,生成事件關(guān)系圖,為市場情報分析提供堅實的數(shù)據(jù)基礎(chǔ)。另外,事件因果圖是事件關(guān)系圖的一個子圖,可以很好地對一因多果和多因一果的因果關(guān)系可視化。實驗結(jié)果表明,該方法對于事件關(guān)系識別具有較高的準(zhǔn)確率和召回率,有效克服了現(xiàn)有的事件關(guān)系識別方法可移植性差、準(zhǔn)確率低和不能夠解決跨文檔事件關(guān)系識別的問題。(2)提出一種基于頻繁子圖挖掘的實體周期性蹤跡發(fā)現(xiàn)的方法,有效解決了周期性蹤跡發(fā)現(xiàn)過程中的模式增長速度過慢、模式組合爆炸以及大量冗余模式產(chǎn)生的問題。該方法具有較高的準(zhǔn)確率和效率。根據(jù)語義特征,周期性蹤跡采用圖模型,從實體事件關(guān)系圖中發(fā)現(xiàn)周期性蹤跡,存在著子圖發(fā)現(xiàn)的普遍問題:模式增長速度慢、模式組合爆炸以及大量冗余模式的產(chǎn)生等問題。針對這一問題,本文提出一種基于頻繁子圖挖掘的實體周期性蹤跡發(fā)現(xiàn)的方法。該方法首先將所有的事件根據(jù)其行為(activity)要素的語義相似度進行聚類,每個類中的所有的事件賦予一個相同的標(biāo)簽,并將事件關(guān)系圖中的所有事件以它們的標(biāo)簽替代;然后,從事件標(biāo)簽圖中發(fā)現(xiàn)所有的vertice-edge-vertice模式。接著,在所有vertice-edge-vertice模式的基礎(chǔ)上,發(fā)現(xiàn)所有的Star模式;最后,合并所有的Star模式,直到不能合并為止,合并的結(jié)果就是所有的周期性蹤跡。其中的Star模式其自身的結(jié)構(gòu)特點使合并算法以Star模式規(guī)模增長,使合并算法快速的收斂,并且不產(chǎn)生額外的冗余模式,避免了模式組合爆炸的狀況。實驗結(jié)果表明,該方法具有較高的準(zhǔn)確率,有效克服了頻繁子圖發(fā)現(xiàn)一次只增長一個點或一條邊的模式增長方式而導(dǎo)致的低效率問題。(3)提出一種基于重要事件的同類實體相似性蹤跡發(fā)現(xiàn)的方法,有效解決了相似性蹤跡發(fā)現(xiàn)過程中需處理的事件規(guī)模大和大量冗余模式產(chǎn)生的問題。該方法具有較高的準(zhǔn)確率和效率。根據(jù)實際情況,相似性蹤跡采用圖序列模型。從同類實體事件關(guān)系圖集中發(fā)現(xiàn)相似性蹤跡存在需處理的事件規(guī)模大和大量冗余模式產(chǎn)生的問題。針對這一問題,本文提出基于重要事件的同類實體相似性蹤跡發(fā)現(xiàn)的方法。該方法首先對每個實體的所有事件按照時間順序排列,然后基于時間窗口分割和實體事件報道頻次的變化率來發(fā)現(xiàn)重要事件及候選話題,這樣每個實體就能獲得一個候選話題序列;然后,對所有實體的候選話題序列,再次采用聚類方法,同一類的話題擁有相同的話題標(biāo)簽。接著,采用動態(tài)規(guī)劃方法找到所有的候選話題序列的公共最長候選話題序列;最后,根據(jù)實體事件關(guān)系圖集及支持度的最小閾值,對公共最長候選話題序列中的所有候選話題進行擴展,其結(jié)果就是相似性蹤跡。該方法通過篩選出重要事件,使處理的事件規(guī)模極大的減少。通過采用一個動態(tài)規(guī)劃方法則發(fā)現(xiàn)了相似性蹤跡的雛形,對沒有希望的話題不再擴展,避免了大量冗余模式產(chǎn)生。實驗結(jié)果表明,該方法具有較高的準(zhǔn)確率,有效克服了沒有預(yù)見性的頻繁子圖擴展而造成大量冗余模式產(chǎn)生而導(dǎo)致的低效率問題。
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP391.1

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 顧敏;;企業(yè)的市場情報系統(tǒng)化[J];情報科學(xué);1984年03期

2 董允杰;市場情報研討會在延安市召開[J];情報雜志;1985年04期

3 景紅衛(wèi);試論市場情報的分類[J];情報雜志;1991年01期

4 劉斌,周安;市場情報的搜集渠道和方法[J];圖書館論壇;1994年05期

5 滕代弟,康平,楊麗娟;淺談市場情報[J];現(xiàn)代情報;1995年04期

6 張效赤,,王華;略論市場情報的真實性與時效性[J];現(xiàn)代情報;1995年05期

7 李珂;市場情報與企業(yè)營銷[J];情報理論與實踐;1991年04期

8 張效赤;可靠性市場情報的判斷方法與實例[J];情報雜志;1997年05期

9 崔勇;;論輕工市場情報與研制新產(chǎn)品[J];情報科學(xué);1984年05期

10 ;光纖技術(shù)的發(fā)展、應(yīng)用與市場情報討論會在永川召開[J];壓電與聲光;1987年02期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 胡博;;“知己知彼,方可百戰(zhàn)不殆” 內(nèi)蒙古電信公司市場情報系統(tǒng)管理之我見[A];內(nèi)蒙古通信學(xué)會2005年年會論文集[C];2005年

中國重要報紙全文數(shù)據(jù)庫 前6條

1 ;以“自助餐+快餐”的服務(wù)模式出售情報[N];證券日報;2003年

2 郭俊平;市場情報:潛在的生產(chǎn)力[N];發(fā)展導(dǎo)報;2000年

3 朱海滔;市場情報師:企業(yè)商戰(zhàn)“007”[N];中國勞動保障報;2006年

4 記者 徐黎一 通訊員 白興龍;旅游(上海)推廣中心成立[N];連云港日報;2010年

5 慧生;使用在線樣本提高競爭力[N];國際商報;2006年

6 李家武;河南油田精蠟廠“黑色產(chǎn)品”受青睞[N];中國礦業(yè)報;2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 黃新艷;面向市場情報的Web實體蹤跡發(fā)現(xiàn)研究[D];山東大學(xué);2016年



本文編號:1309512

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1309512.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d0f59***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com