異構(gòu)信息網(wǎng)絡(luò)檢索技術(shù)研究

發(fā)布時間：2018-05-07 08:29

本文選題：異構(gòu)信息網(wǎng)絡(luò) + 信息檢索�。� 參考：《湖南大學(xué)》2014年博士論文

【摘要】：現(xiàn)實世界中各種信息對象和它周圍的信息對象都在不同方面、不同層次，以不同方式相互影響、相互作用著，從而組成了復(fù)雜的信息網(wǎng)絡(luò)。信息網(wǎng)絡(luò)不僅能幫助我們更好的表達(dá)和存儲現(xiàn)實世界中的本質(zhì)信息，而且通過對信息網(wǎng)絡(luò)中的聯(lián)接信息進行分析，它可以作為一種挖掘現(xiàn)實世界中隱藏信息的有用工具。因此，從信息網(wǎng)絡(luò)中挖掘信息獲取知識已成為當(dāng)前的研究熱點之一。本文在分析了信息網(wǎng)絡(luò)尤其是異構(gòu)信息網(wǎng)絡(luò)的研究現(xiàn)狀的基礎(chǔ)上，通過分析信息文檔及其相關(guān)對象的關(guān)系構(gòu)建異構(gòu)信息網(wǎng)絡(luò)，研究了半監(jiān)督學(xué)習(xí)、文檔聚類、檢索結(jié)果聚類標(biāo)簽抽取以及查詢推薦等信息檢索中的關(guān)鍵技術(shù)。論文的主要研究工作和創(chuàng)新點如下：（1）提出了針對查詢和文檔的內(nèi)容特征以及點擊關(guān)系構(gòu)造異構(gòu)信息網(wǎng)絡(luò)及半監(jiān)督學(xué)習(xí)的框架。根據(jù)查詢和文檔自身內(nèi)容特征分別構(gòu)造基于特征的相似圖，同時基于查詢和文檔之間的點擊關(guān)系構(gòu)建查詢-文檔二部圖，并引入標(biāo)記樣本的判別信息強化網(wǎng)絡(luò)結(jié)構(gòu)。提出了查詢-文檔異構(gòu)信息網(wǎng)絡(luò)上半監(jiān)督學(xué)習(xí)的正則化框架和標(biāo)記傳播算法。在給出少量標(biāo)簽的情況下，本文方法能更充分的利用查詢和文檔本身的內(nèi)容信息，并借助于相互之間的關(guān)系互相傳播，實驗表明本文方法優(yōu)于傳統(tǒng)的半監(jiān)督學(xué)習(xí)方法比較。（2）為包含多種類型和聯(lián)系的高階異構(gòu)信息網(wǎng)絡(luò)建立了圖正則化的半監(jiān)督學(xué)習(xí)框架。在該框架中，使用圖正則化區(qū)分了不同類型聯(lián)系的語義，提出了一種能充分保留標(biāo)記樣本和未標(biāo)記樣本共同揭示的空間結(jié)構(gòu)的光滑性的代價函數(shù)，并得到了該代價函數(shù)的閉式解。提出了高階異構(gòu)信息網(wǎng)絡(luò)上的標(biāo)記傳播算法，標(biāo)記信息從標(biāo)記節(jié)點不斷向鄰近節(jié)點傳播直至穩(wěn)定狀態(tài)，證明了標(biāo)記傳播算法將收斂于代價函數(shù)的閉式解。在該框架之下，一些經(jīng)典的半監(jiān)督學(xué)習(xí)算法可以作為其特例存在。（3）針對查詢-文檔富文本異構(gòu)信息網(wǎng)絡(luò)提出了兩種不同的主題傳播模型：TP-TS和TP-Unify。TP-TS把主題建模和隨機漫步看成是兩個獨立的過程，首先通過潛在概率主題分析（PLSA）對文本內(nèi)容構(gòu)建主題模型，然后主題信息在異構(gòu)的查詢-文檔二部圖互相傳播，從而揭示不同節(jié)點的主題并進行類別劃分。TP-Unify把異構(gòu)信息網(wǎng)絡(luò)上異構(gòu)節(jié)點之間的一致性約束引入主題分析，在進行主題建模的同時結(jié)合了網(wǎng)絡(luò)結(jié)構(gòu)分析技術(shù)。（4）提出了一種新的類別標(biāo)簽抽取的方法，其基本思想是把類別標(biāo)簽抽取轉(zhuǎn)化為與類簇相關(guān)的查詢詞的排序問題，從而避免了從網(wǎng)頁文檔簇中抽取主題詞的操作。提出了一種融合查詢-網(wǎng)頁點擊圖、網(wǎng)頁相似圖以及鏈接圖對查詢詞和網(wǎng)頁進行聯(lián)合排序的算法，該算法能有效的整合用戶、網(wǎng)頁創(chuàng)建者和網(wǎng)頁寫作者對網(wǎng)頁的評價。（5）把基于日志分析和基于語義分析的查詢推薦技術(shù)結(jié)合起來，通過構(gòu)造Term-Query-URL異構(gòu)信息網(wǎng)絡(luò)同時分析日志信息及語義信息，，采用基于查詢的重啟動隨機游走進行查詢推薦。借助于點擊日志進行協(xié)同推薦，在高頻查詢上能取得很好的效果，采用基于文檔的方法訓(xùn)練詞匯和查詢詞之間的語義關(guān)系，可以提高稀疏查詢的推薦效果。在大規(guī)模商業(yè)搜索引擎查詢?nèi)罩旧系膶嶒灡砻鞅疚姆椒▋?yōu)于現(xiàn)有的查詢推薦方法。
[Abstract]:This paper analyzes the key technologies of information network , such as semi - supervised learning , document clustering , retrieval result clustering label extraction and query recommendation . The main research and innovation points of this paper are as follows :

( 1 ) A framework for constructing heterogeneous information networks and semi - supervised learning for queries and documents is proposed . Based on the characteristics of query and document ' s content characteristics , a similarity diagram based on features is constructed , and a query - document two - part graph is constructed based on the click relationship between queries and documents .

( 2 ) A semi - supervised learning framework of graph regularization is established for high - order heterogeneous information networks containing many types and connections . In this framework , the semantics of different types of links are distinguished by using graph regularization , and a closed solution of the cost function is obtained .

( 3 ) Two different theme propagation models are proposed for the query - document rich text heterogeneous information network : TP - TS and TP - N _ 2 . The TP - TS combines the subject modeling and the random walk as two independent processes . First , the topic model of different nodes is revealed through the potential probabilistic topic analysis ( PLSA ) .

( 4 ) A new method of class label extraction is proposed . The basic idea is to transform the category label extraction into the sort of query word related to cluster cluster , so as to avoid the operation of extracting the subject word from the webpage document cluster . A fusion query - web page click graph , web page similarity graph and link graph are proposed to sort query words and web pages . The algorithm can effectively integrate users , web creators and web writers on the evaluation of web pages .

( 5 ) combining the log analysis and the query recommendation technology based on the semantic analysis , analyzing the log information and the semantic information simultaneously by constructing the Term - Query - URL heterogeneous information network , carrying out query recommendation by using the query - based re - starting random walk .

【學(xué)位授予單位】：湖南大學(xué)
【學(xué)位級別】：博士
【學(xué)位授予年份】：2014
【分類號】：TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 王樂,強曉遠(yuǎn),孫莉;基于本體模型異構(gòu)信息交互的研究[J];微型機與應(yīng)用;2005年01期

2 董明哲,張同軍;基于信息語義的異構(gòu)信息集成方法[J];計算機工程;2005年02期

3 陳強;余軍合;孫勇;俞方何;戰(zhàn)洪飛;;基于Web的產(chǎn)業(yè)集群產(chǎn)品信息共享平臺開發(fā)[J];輕工機械;2011年01期

4 陳海敏;;異構(gòu)信息集成系統(tǒng)研究[J];情報科學(xué);2008年12期

5 王仁武;陳家訓(xùn);;基于本體的異構(gòu)信息互操作研究[J];情報雜志;2007年02期

6 徐媛;田愛景;李宗榮;;基于信息語義的醫(yī)療信息系統(tǒng)集成技術(shù)研究[J];醫(yī)學(xué)信息;2006年12期

7 徐壽芳;嵇美華;曾益坤;;基于本體的異構(gòu)電子商務(wù)信息集成探析[J];紹興文理學(xué)院學(xué)報(自然科學(xué)版);2008年01期

8 段麗英;溫U

本文編號：1856193

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1856193.html

上一篇：基于P2P的即時通信系統(tǒng)的研究
下一篇：基于Lucene的蒙古文全文檢索系統(tǒng)研究與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

異構(gòu)信息網(wǎng)絡(luò)檢索技術(shù)研究