異構(gòu)信息網(wǎng)絡(luò)檢索技術(shù)研究
發(fā)布時(shí)間:2018-05-07 08:29
本文選題:異構(gòu)信息網(wǎng)絡(luò) + 信息檢索 ; 參考:《湖南大學(xué)》2014年博士論文
【摘要】:現(xiàn)實(shí)世界中各種信息對象和它周圍的信息對象都在不同方面、不同層次,以不同方式相互影響、相互作用著,從而組成了復(fù)雜的信息網(wǎng)絡(luò)。信息網(wǎng)絡(luò)不僅能幫助我們更好的表達(dá)和存儲現(xiàn)實(shí)世界中的本質(zhì)信息,而且通過對信息網(wǎng)絡(luò)中的聯(lián)接信息進(jìn)行分析,它可以作為一種挖掘現(xiàn)實(shí)世界中隱藏信息的有用工具。因此,從信息網(wǎng)絡(luò)中挖掘信息獲取知識已成為當(dāng)前的研究熱點(diǎn)之一。本文在分析了信息網(wǎng)絡(luò)尤其是異構(gòu)信息網(wǎng)絡(luò)的研究現(xiàn)狀的基礎(chǔ)上,通過分析信息文檔及其相關(guān)對象的關(guān)系構(gòu)建異構(gòu)信息網(wǎng)絡(luò),研究了半監(jiān)督學(xué)習(xí)、文檔聚類、檢索結(jié)果聚類標(biāo)簽抽取以及查詢推薦等信息檢索中的關(guān)鍵技術(shù)。論文的主要研究工作和創(chuàng)新點(diǎn)如下: (1)提出了針對查詢和文檔的內(nèi)容特征以及點(diǎn)擊關(guān)系構(gòu)造異構(gòu)信息網(wǎng)絡(luò)及半監(jiān)督學(xué)習(xí)的框架。根據(jù)查詢和文檔自身內(nèi)容特征分別構(gòu)造基于特征的相似圖,同時(shí)基于查詢和文檔之間的點(diǎn)擊關(guān)系構(gòu)建查詢-文檔二部圖,并引入標(biāo)記樣本的判別信息強(qiáng)化網(wǎng)絡(luò)結(jié)構(gòu)。提出了查詢-文檔異構(gòu)信息網(wǎng)絡(luò)上半監(jiān)督學(xué)習(xí)的正則化框架和標(biāo)記傳播算法。在給出少量標(biāo)簽的情況下,本文方法能更充分的利用查詢和文檔本身的內(nèi)容信息,并借助于相互之間的關(guān)系互相傳播,實(shí)驗(yàn)表明本文方法優(yōu)于傳統(tǒng)的半監(jiān)督學(xué)習(xí)方法比較。 (2)為包含多種類型和聯(lián)系的高階異構(gòu)信息網(wǎng)絡(luò)建立了圖正則化的半監(jiān)督學(xué)習(xí)框架。在該框架中,使用圖正則化區(qū)分了不同類型聯(lián)系的語義,提出了一種能充分保留標(biāo)記樣本和未標(biāo)記樣本共同揭示的空間結(jié)構(gòu)的光滑性的代價(jià)函數(shù),并得到了該代價(jià)函數(shù)的閉式解。提出了高階異構(gòu)信息網(wǎng)絡(luò)上的標(biāo)記傳播算法,標(biāo)記信息從標(biāo)記節(jié)點(diǎn)不斷向鄰近節(jié)點(diǎn)傳播直至穩(wěn)定狀態(tài),證明了標(biāo)記傳播算法將收斂于代價(jià)函數(shù)的閉式解。在該框架之下,一些經(jīng)典的半監(jiān)督學(xué)習(xí)算法可以作為其特例存在。 (3)針對查詢-文檔富文本異構(gòu)信息網(wǎng)絡(luò)提出了兩種不同的主題傳播模型:TP-TS和TP-Unify。TP-TS把主題建模和隨機(jī)漫步看成是兩個(gè)獨(dú)立的過程,首先通過潛在概率主題分析(PLSA)對文本內(nèi)容構(gòu)建主題模型,然后主題信息在異構(gòu)的查詢-文檔二部圖互相傳播,從而揭示不同節(jié)點(diǎn)的主題并進(jìn)行類別劃分。TP-Unify把異構(gòu)信息網(wǎng)絡(luò)上異構(gòu)節(jié)點(diǎn)之間的一致性約束引入主題分析,在進(jìn)行主題建模的同時(shí)結(jié)合了網(wǎng)絡(luò)結(jié)構(gòu)分析技術(shù)。 (4)提出了一種新的類別標(biāo)簽抽取的方法,其基本思想是把類別標(biāo)簽抽取轉(zhuǎn)化為與類簇相關(guān)的查詢詞的排序問題,從而避免了從網(wǎng)頁文檔簇中抽取主題詞的操作。提出了一種融合查詢-網(wǎng)頁點(diǎn)擊圖、網(wǎng)頁相似圖以及鏈接圖對查詢詞和網(wǎng)頁進(jìn)行聯(lián)合排序的算法,該算法能有效的整合用戶、網(wǎng)頁創(chuàng)建者和網(wǎng)頁寫作者對網(wǎng)頁的評價(jià)。 (5)把基于日志分析和基于語義分析的查詢推薦技術(shù)結(jié)合起來,通過構(gòu)造Term-Query-URL異構(gòu)信息網(wǎng)絡(luò)同時(shí)分析日志信息及語義信息,,采用基于查詢的重啟動(dòng)隨機(jī)游走進(jìn)行查詢推薦。借助于點(diǎn)擊日志進(jìn)行協(xié)同推薦,在高頻查詢上能取得很好的效果,采用基于文檔的方法訓(xùn)練詞匯和查詢詞之間的語義關(guān)系,可以提高稀疏查詢的推薦效果。在大規(guī)模商業(yè)搜索引擎查詢?nèi)罩旧系膶?shí)驗(yàn)表明本文方法優(yōu)于現(xiàn)有的查詢推薦方法。
[Abstract]:This paper analyzes the key technologies of information network , such as semi - supervised learning , document clustering , retrieval result clustering label extraction and query recommendation . The main research and innovation points of this paper are as follows :
( 1 ) A framework for constructing heterogeneous information networks and semi - supervised learning for queries and documents is proposed . Based on the characteristics of query and document ' s content characteristics , a similarity diagram based on features is constructed , and a query - document two - part graph is constructed based on the click relationship between queries and documents .
( 2 ) A semi - supervised learning framework of graph regularization is established for high - order heterogeneous information networks containing many types and connections . In this framework , the semantics of different types of links are distinguished by using graph regularization , and a closed solution of the cost function is obtained .
( 3 ) Two different theme propagation models are proposed for the query - document rich text heterogeneous information network : TP - TS and TP - N _ 2 . The TP - TS combines the subject modeling and the random walk as two independent processes . First , the topic model of different nodes is revealed through the potential probabilistic topic analysis ( PLSA ) .
( 4 ) A new method of class label extraction is proposed . The basic idea is to transform the category label extraction into the sort of query word related to cluster cluster , so as to avoid the operation of extracting the subject word from the webpage document cluster . A fusion query - web page click graph , web page similarity graph and link graph are proposed to sort query words and web pages . The algorithm can effectively integrate users , web creators and web writers on the evaluation of web pages .
( 5 ) combining the log analysis and the query recommendation technology based on the semantic analysis , analyzing the log information and the semantic information simultaneously by constructing the Term - Query - URL heterogeneous information network , carrying out query recommendation by using the query - based re - starting random walk .
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王樂,強(qiáng)曉遠(yuǎn),孫莉;基于本體模型異構(gòu)信息交互的研究[J];微型機(jī)與應(yīng)用;2005年01期
2 董明哲,張同軍;基于信息語義的異構(gòu)信息集成方法[J];計(jì)算機(jī)工程;2005年02期
3 陳強(qiáng);余軍合;孫勇;俞方何;戰(zhàn)洪飛;;基于Web的產(chǎn)業(yè)集群產(chǎn)品信息共享平臺開發(fā)[J];輕工機(jī)械;2011年01期
4 陳海敏;;異構(gòu)信息集成系統(tǒng)研究[J];情報(bào)科學(xué);2008年12期
5 王仁武;陳家訓(xùn);;基于本體的異構(gòu)信息互操作研究[J];情報(bào)雜志;2007年02期
6 徐媛;田愛景;李宗榮;;基于信息語義的醫(yī)療信息系統(tǒng)集成技術(shù)研究[J];醫(yī)學(xué)信息;2006年12期
7 徐壽芳;嵇美華;曾益坤;;基于本體的異構(gòu)電子商務(wù)信息集成探析[J];紹興文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年01期
8 段麗英;溫U
本文編號:1856193
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1856193.html
最近更新
教材專著