面向?qū)嶓w搜索的語義查詢擴(kuò)展方法研究
發(fā)布時(shí)間:2020-03-19 08:44
【摘要】:大數(shù)據(jù)時(shí)代社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等領(lǐng)域每天都會(huì)產(chǎn)生海量數(shù)據(jù),數(shù)據(jù)的爆炸式增長(zhǎng)導(dǎo)致了信息過載,同時(shí)也改變了用戶的信息需求,從原來的文本信息過渡到現(xiàn)在的實(shí)體信息,相應(yīng)地產(chǎn)生了實(shí)體搜索。不同于文檔搜索,實(shí)體搜索旨在從多源異構(gòu)數(shù)據(jù)中找出特定實(shí)體對(duì)象,對(duì)搜索質(zhì)量的要求更加嚴(yán)格。傳統(tǒng)的查詢擴(kuò)展方法能夠提高文檔搜索質(zhì)量,但存在擴(kuò)展項(xiàng)來源有限、擴(kuò)展效率低和查詢漂移問題,影響了查詢擴(kuò)展性能,不完全適用于實(shí)體搜索。針對(duì)上述問題,提出了一種面向?qū)嶓w搜索的語義查詢擴(kuò)展方法。在索引階段,該方法通過構(gòu)建分層的語義索引來存儲(chǔ)異構(gòu)信息并支持關(guān)聯(lián)項(xiàng)的快速獲取;在查詢擴(kuò)展階段,基于建立的語義索引采用不同的擴(kuò)展項(xiàng)生成方法和選取策略來獲取結(jié)構(gòu)化和非結(jié)構(gòu)化擴(kuò)展項(xiàng),然后利用擴(kuò)展項(xiàng)之間的關(guān)聯(lián)性進(jìn)行擴(kuò)展項(xiàng)優(yōu)化;最后,針對(duì)不同類型的擴(kuò)展查詢結(jié)果使用組合概率模型進(jìn)行合并排序得到最終結(jié)果。該方法結(jié)合擴(kuò)展項(xiàng)的特征并充分利用語義索引的高效性和不同查詢擴(kuò)展方法的優(yōu)點(diǎn),在保證查詢擴(kuò)展效率的同時(shí)提高了查詢擴(kuò)展效果,并且有效避免了查詢漂移問題。為了驗(yàn)證語義查詢擴(kuò)展方法的性能,在ClueWeb09 Category B采樣得到的數(shù)據(jù)集上進(jìn)行了性能測(cè)試。實(shí)驗(yàn)結(jié)果表明提出的語義查詢擴(kuò)展方法在保證查詢效率的前提下能夠有效提高實(shí)體搜索的性能并緩解查詢漂移問題。
【圖文】:
科 技 大 學(xué) 碩 士 學(xué) 位 貪心算法并利用可擴(kuò)展的查詢語言 CQL,實(shí)現(xiàn)索效率;Broccoli[12]融合文檔和結(jié)構(gòu)化知識(shí)庫(kù)中式向用戶提供了一個(gè)異構(gòu)數(shù)據(jù)源中實(shí)體信詢過程中利用基于位置特征的排序模型移除AGA[15]將結(jié)構(gòu)化查詢轉(zhuǎn)化為不同的有向圖,通中的實(shí)體搜索;ECDF[16]基于元特征的遷移學(xué)習(xí)。用戶或應(yīng)用
1.2 國(guó)內(nèi)外研究現(xiàn)狀圍繞不同數(shù)據(jù)源中實(shí)體信息的高效存儲(chǔ)與利用以及如何更好地理解查詢意圖并快速、準(zhǔn)確地從實(shí)體信息中找到用戶感興趣的相關(guān)信息,國(guó)內(nèi)外開展了許多相關(guān)的研究工作。下面從實(shí)體搜索和查詢擴(kuò)展兩個(gè)方面來詳細(xì)介紹面向?qū)嶓w搜索的查詢擴(kuò)展方法研究現(xiàn)狀。1.2.1 實(shí)體搜索的研究現(xiàn)狀針對(duì)實(shí)體信息的特點(diǎn),,目前實(shí)體搜索的研究?jī)?nèi)容主要集中在索引結(jié)構(gòu)和排序方法上,索引結(jié)構(gòu)的相關(guān)工作有 DoCQS 中的上下文索引[11](Contextual Index)、雙倒排索引[2](Dual Inverted Index)和 Broccoli 中的聯(lián)合索引[20](Joint Index),排序方法的相關(guān)工作包括生成模型[21](GenerativeModel)、學(xué)習(xí)排序模型[22](LearntoRank)、基于位置特征的累積模型[23](Cumulative Model)以及基于圖特征的語言模型[24](Language Model)。K1, K2 docId, pos1, pos2... ...上下文中的共現(xiàn)項(xiàng)組合 上下文中的鄰近項(xiàng)映射docId, pos1K2, pos2K3, pos3...K1 K ......
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1
本文編號(hào):2589998
【圖文】:
科 技 大 學(xué) 碩 士 學(xué) 位 貪心算法并利用可擴(kuò)展的查詢語言 CQL,實(shí)現(xiàn)索效率;Broccoli[12]融合文檔和結(jié)構(gòu)化知識(shí)庫(kù)中式向用戶提供了一個(gè)異構(gòu)數(shù)據(jù)源中實(shí)體信詢過程中利用基于位置特征的排序模型移除AGA[15]將結(jié)構(gòu)化查詢轉(zhuǎn)化為不同的有向圖,通中的實(shí)體搜索;ECDF[16]基于元特征的遷移學(xué)習(xí)。用戶或應(yīng)用
1.2 國(guó)內(nèi)外研究現(xiàn)狀圍繞不同數(shù)據(jù)源中實(shí)體信息的高效存儲(chǔ)與利用以及如何更好地理解查詢意圖并快速、準(zhǔn)確地從實(shí)體信息中找到用戶感興趣的相關(guān)信息,國(guó)內(nèi)外開展了許多相關(guān)的研究工作。下面從實(shí)體搜索和查詢擴(kuò)展兩個(gè)方面來詳細(xì)介紹面向?qū)嶓w搜索的查詢擴(kuò)展方法研究現(xiàn)狀。1.2.1 實(shí)體搜索的研究現(xiàn)狀針對(duì)實(shí)體信息的特點(diǎn),,目前實(shí)體搜索的研究?jī)?nèi)容主要集中在索引結(jié)構(gòu)和排序方法上,索引結(jié)構(gòu)的相關(guān)工作有 DoCQS 中的上下文索引[11](Contextual Index)、雙倒排索引[2](Dual Inverted Index)和 Broccoli 中的聯(lián)合索引[20](Joint Index),排序方法的相關(guān)工作包括生成模型[21](GenerativeModel)、學(xué)習(xí)排序模型[22](LearntoRank)、基于位置特征的累積模型[23](Cumulative Model)以及基于圖特征的語言模型[24](Language Model)。K1, K2 docId, pos1, pos2... ...上下文中的共現(xiàn)項(xiàng)組合 上下文中的鄰近項(xiàng)映射docId, pos1K2, pos2K3, pos3...K1 K ......
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 李愛明;;基于本體和用戶查詢意圖的查詢擴(kuò)展方法研究[J];情報(bào)科學(xué);2015年05期
2 劉玉文;;基于十字鏈表的Apriori算法的研究與改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2012年05期
本文編號(hào):2589998
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2589998.html
最近更新
教材專著