天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于條件隨機(jī)場的中文商品查詢語義標(biāo)注問題研究

發(fā)布時(shí)間:2020-02-08 09:00
【摘要】:用戶通常利用購物搜索引擎尋找自己想要的產(chǎn)品,對比搜索結(jié)果列表中的產(chǎn)品信息,例如價(jià)格、銷量、買家評價(jià)等,,點(diǎn)擊列表項(xiàng)就進(jìn)入相應(yīng)的商品詳情頁,可以查看更詳細(xì)的信商品息。理解這些商品查詢的意圖,既能增強(qiáng)用戶的搜索體驗(yàn),又能促進(jìn)頁面廣告帶來的收益。為了更好的實(shí)現(xiàn)這個(gè)目標(biāo),我們研究商品查詢語義標(biāo)注問題,即為商品查詢中的每一項(xiàng)(詞項(xiàng)或字)標(biāo)注上預(yù)先定義的語義類別標(biāo)簽。已有的研究表明,利用序列標(biāo)注模型可以解決商品查詢語義標(biāo)注問題,例如條件隨機(jī)場模型,在此類問題中能取得較好的效果。 商品查詢具有如下三個(gè)特點(diǎn):查詢簡短,特征稀少;不同類目的查詢差異明顯;商品查詢詞可以較好地劃分語義類別,且上下文相關(guān)。區(qū)別于已有的英文商品查詢語義標(biāo)注的研究,本文研究的數(shù)據(jù)對象是以中文為主的商品查詢。為此,本文首先組合多種類型的特征函數(shù)與特征模板豐富特征,能有效提高中文商品查詢語義標(biāo)注效果,同時(shí)使用基于商品標(biāo)題構(gòu)造語義詞典的方法,標(biāo)注效果進(jìn)一步提高,特別是在訓(xùn)練樣本較少時(shí)效果提升顯著;其次,據(jù)文獻(xiàn)調(diào)研,本文首次將平均感知器算法應(yīng)用于語義標(biāo)注模型中的參數(shù)學(xué)習(xí)過程,在保證標(biāo)注效果較優(yōu)的同時(shí)大幅縮短了模型訓(xùn)練時(shí)間,這將有助于研究成果的現(xiàn)實(shí)應(yīng)用。此外,本文就不同模型、分詞與未分詞、不同特征模板、不同參數(shù)估計(jì)算法、語義詞典使用前后等多種情況進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果與分析為中文商品查詢語義標(biāo)注這一研究主題提供了許多有價(jià)值的參考。
【圖文】:

巧克力,零食,歧義,手機(jī)


它就是 “品牌詞”;如果指代一種水果,蘋果的英文“apple”同樣有歧義)。又如「巧克力是 “產(chǎn)品類型詞”,而恰巧 LG 公司出了一款“巧號詞”,還有許多“女裝”類目下的商品描述也可能是個(gè)“不知名的品牌”(這時(shí)它是“品牌詞”),又或色或圖案(這時(shí)它是“屬性詞”)。再如「3g」,在“”,表示產(chǎn)品使用 3G 上網(wǎng)方式,而在“3g 鉆戒”中重量三克的意思,所以語義類別相同,真實(shí)意義也可,查詢串中的詞往往是上下文相關(guān)的,不同的上下文它們的語義類別自然也就可能不同了。圖 1-1 展示了

序列,商品,中文,自然語言處理


本章分“序列標(biāo)注模型”、“查詢分析”和“自然語言處理”三小節(jié)介紹已有的研究工作。本文研究“中文商品查詢語義標(biāo)注”問題,是“查詢標(biāo)注”(Query Tagging)的子問題。圖 2-1 展示了查詢標(biāo)注與其他研究主題之間的聯(lián)系。左側(cè)虛線框表示機(jī)器學(xué)習(xí)相關(guān)主題,例如文本分類(Text Classification)、序列標(biāo)注/切分(SequencLabeling/Segment)。查詢標(biāo)注主要由機(jī)器學(xué)習(xí)中的序列標(biāo)注模型4解決。右側(cè)虛線框表示表示自然語言處理相關(guān)主題,例如中文分詞、文本分塊(Text Chunking)詞性標(biāo)注(Part-of-Speech Tagging, POS Tagging)等。自然語言處理中的相關(guān)技術(shù)與研究為查詢標(biāo)注提供了基礎(chǔ)。由于中文商品查詢語義標(biāo)注研究的數(shù)據(jù)對象是商品查詢,已有的關(guān)于商品查詢的研究也為本文的研究提供了經(jīng)驗(yàn)參考。在語義標(biāo)注前,通常要對商品查詢進(jìn)行分類,這需要查詢分類(Query Classification)的相關(guān)知識。
【學(xué)位授予單位】:中山大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 楊艷萍;譚慶平;;Web服務(wù)自動語義標(biāo)注的本體定位方法研究[J];計(jì)算機(jī)工程與科學(xué);2008年04期

2 曾誠;李兵;何克清;;KMP算法在Web服務(wù)語義標(biāo)注中的應(yīng)用[J];微電子學(xué)與計(jì)算機(jī);2010年08期

3 李毅;保鵬飛;薛萬國;;中文電子病歷的信息抽取研究[J];生物醫(yī)學(xué)工程學(xué)雜志;2010年04期

4 張瑜;李景;孟憲學(xué);蘇曉路;;網(wǎng)絡(luò)標(biāo)注的主要方法概述[J];圖書情報(bào)工作;2008年01期

5 張瑜;;網(wǎng)絡(luò)標(biāo)注的主要方法[J];湖北第二師范學(xué)院學(xué)報(bào);2010年02期

6 鞠彥輝;劉闖;;國外典型語義標(biāo)注平臺的比較研究[J];現(xiàn)代情報(bào);2009年01期

7 崔紅;段宇鋒;酈芳;;基于機(jī)器學(xué)習(xí)的生物多樣性英文文檔語義標(biāo)注研究[J];圖書情報(bào)知識;2011年02期

8 蘇菱;吳克偉;黃帥;;一種基于DTSVM的遙感圖像分割方法[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期

9 李向陽;張亞非;;一種基于遺傳算法的語義標(biāo)注[J];電子科技大學(xué)學(xué)報(bào);2007年01期

10 張大陸;呂韜;;基于概念頻率的Web服務(wù)語義標(biāo)注[J];同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年01期

相關(guān)會議論文 前10條

1 陳波;姬東鴻;孫程;呂晨;;基于特征結(jié)構(gòu)的漢語主謂謂語句語義標(biāo)注研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

2 袁柳;李戰(zhàn)懷;陳世亮;;OntoWord:一種新的Web頁面語義標(biāo)注方法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年

3 曾誠;李兵;何克清;;KMP算法在Web服務(wù)語義標(biāo)注中的應(yīng)用[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集[C];2010年

4 韓先培;齊振宇;田野;王渝麗;趙軍;;基于領(lǐng)域語義信息的百科問答系統(tǒng)[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

5 宋雨;鄭懌;吳燕;;RDFa語義標(biāo)注技術(shù)綜述[A];2009全國計(jì)算機(jī)網(wǎng)絡(luò)與通信學(xué)術(shù)會議論文集[C];2009年

6 韓先培;趙軍;;基于Wikipedia的語義元數(shù)據(jù)生成[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

7 房江太;黃映輝;李冠宇;;基于WSDL-S的Web服務(wù)語義標(biāo)注方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年

8 孫曉玲;林鴻飛;;統(tǒng)一語義視圖下的垂直領(lǐng)域跨語言檢索模型[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

9 周小甲;李昊e

本文編號:2577471


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2577471.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶92541***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com