文本型Web內(nèi)容中隱含實體關(guān)聯(lián)的挖掘、推理與應(yīng)用
發(fā)布時間:2020-03-27 12:06
【摘要】:文本型Web內(nèi)容(Textual Web Content,TWC)包含電子郵件、網(wǎng)頁新聞等。以TWC文檔中實體關(guān)聯(lián)為基礎(chǔ),可完成數(shù)據(jù)獲取、關(guān)系強度評估、社交網(wǎng)絡(luò)分析等任務(wù)。隱含實體關(guān)聯(lián)(Latent Entity Association,LEA)表示兩個實體通過不同TWC文檔中的中間實體間接地產(chǎn)生關(guān)聯(lián)。發(fā)現(xiàn)并利用LEA有利于改善基于實體關(guān)聯(lián)的分析方法的結(jié)果,但需要解決這些問題。(1)理論角度:TWC數(shù)據(jù)中實體關(guān)聯(lián)的建模、實體關(guān)聯(lián)的評估及排序。LEA是不確定的,需要對這種不確定性知識進(jìn)行表示和推理。并非所有的LEA都對后續(xù)的任務(wù)有價值,因此需要對LEA按強度進(jìn)行排序。(2)應(yīng)用角度:TWC數(shù)據(jù)的獲取、交互式系統(tǒng)。通過獲取互聯(lián)網(wǎng)中最新的TWC文檔而分析得出的LEA將具有更好的時效性。交互式系統(tǒng)應(yīng)支持由用戶自定義TWC數(shù)據(jù)和目標(biāo)實體,并將分析過程的各步驟可視化結(jié)果展示給用戶。從理論的角度,本文重點研究了 TWC數(shù)據(jù)中實體關(guān)聯(lián)的建模和實體關(guān)聯(lián)的評估及排序,分為三方面:(1)本文給出了LEA的定義并提出了實體關(guān)聯(lián)貝葉斯網(wǎng)(Entity Association Bayesian Network,EABN)以對LEA的不確定性進(jìn)行建模。EABN模型將實體視作變量,使用有向無環(huán)圖表達(dá)實體間的相互依賴,使用條件概率表則量化實體間的相互依賴。(2)本文提出了 SBIC策略以加速EABN的結(jié)構(gòu)學(xué)習(xí)。在EABN的結(jié)構(gòu)選擇過程中,自組織映射可利用TWC中實體的稀疏性將一個TWC數(shù)據(jù)集劃分為若干個子集,我們不斷地選擇某個子集來評估候選結(jié)構(gòu)中的某條邊。(3)本文提出的EABN模型可通過概率推理按強度排序LEA。通過EABN概率推理產(chǎn)生的實體關(guān)聯(lián)列表中大部分是LEA,每個實體關(guān)聯(lián)涉及的兩個實體在隨機子集中的實例數(shù)比值的標(biāo)準(zhǔn)差隨著EABN排名增大而增大;通過EABN概率推理也可以找出沒有出現(xiàn)在新TWC數(shù)據(jù)中,但與新TWC數(shù)據(jù)相關(guān)的實體。從應(yīng)用的角度,本文設(shè)計并實現(xiàn)了 TWC數(shù)據(jù)的獲取系統(tǒng)和交互式系統(tǒng):(1)本文開發(fā)了一個網(wǎng)絡(luò)爬蟲以獲取互聯(lián)網(wǎng)中最新的TWC文檔。該網(wǎng)絡(luò)爬蟲通過搜索引擎的自定義查詢獲取歷史網(wǎng)頁網(wǎng)址列表;使用PhantomJS執(zhí)行復(fù)雜地頁面渲染;爬蟲獲取的數(shù)據(jù)存儲在MongoDB數(shù)據(jù)庫。(2)本文開發(fā)的交互式系統(tǒng)支持自定義以TWC文檔和目標(biāo)實體、分析結(jié)果可視化和持久化,以及跨平臺、跨終端等特性。
【圖文】:
夠產(chǎn)生G的多個變體并分別計算其SBIC評分。然后算法選擇SBIC評分最高的變逡逑體作為新的基準(zhǔn)結(jié)構(gòu)并繼續(xù)產(chǎn)生其變體及SBIC評分,直到無法找到一個SBIC評逡逑分更高的變體為止。算法2.3展示了上述過程。圖2.3展示了算法2.3的執(zhí)行流程。逡逑算法2.3獲得SBIC評分最高的EABN結(jié)構(gòu)逡逑輸入:逡逑Be=邋(Ge,邋Pe),邋Ge=邋(V,邋E)逡逑Gc,邋EABN邋5e初始的空結(jié)構(gòu)逡逑輸出:逡逑Gc,邋SBIC評分最高的的結(jié)構(gòu)逡逑1.
EABN包含個|^1節(jié)點和|£|條有向弧。算法可向一個無有向弧的DAG添加晝*逡逑(ih-1)條有向弧,再考慮不與己有的間條有向弧重復(fù),則存在m*邋(W-1)邋-|句逡逑種添加有向弧的變體。添加或翻轉(zhuǎn)有向弧后還可能導(dǎo)致成環(huán),需要忽略這些成環(huán)逡逑的變體。在每一輪迭代時,我們只能刪除或翻轉(zhuǎn)己有的閻條有向弧,所以刪除一逡逑條有向弧的變體是悶個,翻轉(zhuǎn)一條有向弧的變體也是間個。每一輪迭代,需要處逡逑理增加,刪除,翻轉(zhuǎn)有向弧的變體共(m*邋(ih-1)-間)+間+間=(m-i)邋+間逡逑個,假設(shè)迭代了外輪才找到最大值,則算法2.3的時間復(fù)雜度為?(凡㈨2)。逡逑算法2.3是一種簡單的貪心搜索算法,也稱為爬山算法,該算法每次從當(dāng)前解逡逑的臨近解空間中選擇一個最優(yōu)解作為當(dāng)前解,直到達(dá)到一個局部最優(yōu)解。爬山算逡逑法主要缺點是會陷入局部最優(yōu)解,而不一定能搜索到全局最優(yōu)解。本文采用爬山逡逑法做結(jié)構(gòu)搜索的原因有三點。(1)爬山法計算量較小,,適用于處理TWC中海量的逡逑實體關(guān)聯(lián)。(2)本文在構(gòu)建和應(yīng)用EABN過程中使用的爬山法、BIC評分、極大逡逑
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP393.09
本文編號:2602931
【圖文】:
夠產(chǎn)生G的多個變體并分別計算其SBIC評分。然后算法選擇SBIC評分最高的變逡逑體作為新的基準(zhǔn)結(jié)構(gòu)并繼續(xù)產(chǎn)生其變體及SBIC評分,直到無法找到一個SBIC評逡逑分更高的變體為止。算法2.3展示了上述過程。圖2.3展示了算法2.3的執(zhí)行流程。逡逑算法2.3獲得SBIC評分最高的EABN結(jié)構(gòu)逡逑輸入:逡逑Be=邋(Ge,邋Pe),邋Ge=邋(V,邋E)逡逑Gc,邋EABN邋5e初始的空結(jié)構(gòu)逡逑輸出:逡逑Gc,邋SBIC評分最高的的結(jié)構(gòu)逡逑1.
EABN包含個|^1節(jié)點和|£|條有向弧。算法可向一個無有向弧的DAG添加晝*逡逑(ih-1)條有向弧,再考慮不與己有的間條有向弧重復(fù),則存在m*邋(W-1)邋-|句逡逑種添加有向弧的變體。添加或翻轉(zhuǎn)有向弧后還可能導(dǎo)致成環(huán),需要忽略這些成環(huán)逡逑的變體。在每一輪迭代時,我們只能刪除或翻轉(zhuǎn)己有的閻條有向弧,所以刪除一逡逑條有向弧的變體是悶個,翻轉(zhuǎn)一條有向弧的變體也是間個。每一輪迭代,需要處逡逑理增加,刪除,翻轉(zhuǎn)有向弧的變體共(m*邋(ih-1)-間)+間+間=(m-i)邋+間逡逑個,假設(shè)迭代了外輪才找到最大值,則算法2.3的時間復(fù)雜度為?(凡㈨2)。逡逑算法2.3是一種簡單的貪心搜索算法,也稱為爬山算法,該算法每次從當(dāng)前解逡逑的臨近解空間中選擇一個最優(yōu)解作為當(dāng)前解,直到達(dá)到一個局部最優(yōu)解。爬山算逡逑法主要缺點是會陷入局部最優(yōu)解,而不一定能搜索到全局最優(yōu)解。本文采用爬山逡逑法做結(jié)構(gòu)搜索的原因有三點。(1)爬山法計算量較小,,適用于處理TWC中海量的逡逑實體關(guān)聯(lián)。(2)本文在構(gòu)建和應(yīng)用EABN過程中使用的爬山法、BIC評分、極大逡逑
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP393.09
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李佳欣;潘偉;;PhantomJS在Web自動化測試中的應(yīng)用[J];計算機光盤軟件與應(yīng)用;2013年18期
2 吳永輝;王曉龍;丁宇新;徐軍;郭鴻志;;基于主題的自適應(yīng)、在線網(wǎng)絡(luò)熱點發(fā)現(xiàn)方法及新聞推薦系統(tǒng)[J];電子學(xué)報;2010年11期
3 俞士汶,段慧明,朱學(xué)鋒,孫斌;北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J];中文信息學(xué)報;2002年05期
本文編號:2602931
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2602931.html
最近更新
教材專著