相似問(wèn)句判別研究
發(fā)布時(shí)間:2021-01-16 01:45
對(duì)于搜索引擎而言,如何能夠正確理解用戶提出的問(wèn)題十分重要。而在識(shí)別問(wèn)句的過(guò)程中,如何能夠?qū)π问讲煌Z(yǔ)義相似的問(wèn)句進(jìn)行相似性識(shí)別后,歸一化處理,則會(huì)對(duì)整個(gè)搜索引擎的效果有一個(gè)明顯的提升。對(duì)此,本文提出了一種基于機(jī)器學(xué)習(xí)的問(wèn)句相似性判別模型,從數(shù)據(jù)集的構(gòu)建到特征的提取,探究了相應(yīng)的解決方案。本文創(chuàng)新性地從5個(gè)方面提取了不同類型的特征,并將其應(yīng)用到整個(gè)分類器的建模過(guò)程中。實(shí)驗(yàn)結(jié)果表明,該方法能夠在現(xiàn)有的語(yǔ)料上取得令人滿意的結(jié)果,F值達(dá)到了83%。
【文章來(lái)源】:智能計(jì)算機(jī)與應(yīng)用. 2019,9(06)
【文章頁(yè)數(shù)】:4 頁(yè)
【部分圖文】:
頁(yè)面抽取塊樣例Fig.2Exampleofweb-page一致性判別方法
恿兄腥〕鲆桓?URL,然后通過(guò)HTTP協(xié)議爬取對(duì)應(yīng)頁(yè)面,保存到網(wǎng)頁(yè)庫(kù)。整個(gè)過(guò)程不斷重復(fù),直到有足夠的網(wǎng)頁(yè)被訪問(wèn)過(guò),或者已達(dá)到其它的既定目標(biāo)。!"#$%"&’#$()*+,-./)*012345*6789:;<5*!"#:=>#$?@ABCD#$EF!"#$%;<./圖1爬蟲(chóng)算法流程圖Fig.1Processofthecrawler由百度知道上爬取了若干網(wǎng)頁(yè)原始數(shù)據(jù)后,需要從中抽取有用的信息,即問(wèn)題對(duì)。由此可知在一個(gè)問(wèn)題的頁(yè)面中,存在有如下兩部分內(nèi)容—類似問(wèn)題和相關(guān)知識(shí),這兩部分內(nèi)容恰好可以構(gòu)成所需要的問(wèn)題對(duì)。如圖2所示。問(wèn)題是:iphone好用么(http://zhidao.baidu.com/question/542432940.html)。人們抽取了其中的“類似問(wèn)題”塊同原始問(wèn)題組成問(wèn)題對(duì),作為正例(可歸一化的問(wèn)題對(duì)),抽取其中“相關(guān)知識(shí)”塊同原始問(wèn)題組成負(fù)例(不可歸一化的問(wèn)題對(duì))。這樣,就獲取了充足的問(wèn)題對(duì)。圖2頁(yè)面抽取塊樣例Fig.2Exampleofweb-page1.2一致性判別方法研究中采用機(jī)器學(xué)習(xí)的方法來(lái)處理兩個(gè)問(wèn)句的一致性問(wèn)題。采用邏輯斯蒂回歸算法進(jìn)行分類。為了能夠更好地對(duì)問(wèn)題進(jìn)行判別,除一些基本特征外,人們還從5個(gè)方面抽取了問(wèn)句的相似度信息。表1中列出了抽取的特征,下邊將分別介紹在計(jì)算相似度上所使用的方法。表1特征向量表Tab.1Featuredescription特征類別說(shuō)明Stringkernel特征用stringkernel方法從結(jié)構(gòu)的角度獲取兩個(gè)句子的相似度Hownet特征用hownet方法從語(yǔ)義的角度獲取兩個(gè)句子的相似度TermWieght特征利用搜索引擎從詞在句子中的重要性角度來(lái)計(jì)算兩個(gè)句子的相似度Tfidf特征利用tfidf信息獲取兩個(gè)句子的相似度Rank
【參考文獻(xiàn)】:
期刊論文
[1]基于樹(shù)核函數(shù)的中英文代詞消解[J]. 孔芳,周國(guó)棟. 軟件學(xué)報(bào). 2012(05)
[2]基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德. 中文信息學(xué)報(bào). 2006(01)
[3]一種基于向量空間模型的多層次文本分類方法[J]. 劉少輝,董明楷,張?,李蓉,史忠植. 中文信息學(xué)報(bào). 2002(03)
本文編號(hào):2979912
【文章來(lái)源】:智能計(jì)算機(jī)與應(yīng)用. 2019,9(06)
【文章頁(yè)數(shù)】:4 頁(yè)
【部分圖文】:
頁(yè)面抽取塊樣例Fig.2Exampleofweb-page一致性判別方法
恿兄腥〕鲆桓?URL,然后通過(guò)HTTP協(xié)議爬取對(duì)應(yīng)頁(yè)面,保存到網(wǎng)頁(yè)庫(kù)。整個(gè)過(guò)程不斷重復(fù),直到有足夠的網(wǎng)頁(yè)被訪問(wèn)過(guò),或者已達(dá)到其它的既定目標(biāo)。!"#$%"&’#$()*+,-./)*012345*6789:;<5*!"#:=>#$?@ABCD#$EF!"#$%;<./圖1爬蟲(chóng)算法流程圖Fig.1Processofthecrawler由百度知道上爬取了若干網(wǎng)頁(yè)原始數(shù)據(jù)后,需要從中抽取有用的信息,即問(wèn)題對(duì)。由此可知在一個(gè)問(wèn)題的頁(yè)面中,存在有如下兩部分內(nèi)容—類似問(wèn)題和相關(guān)知識(shí),這兩部分內(nèi)容恰好可以構(gòu)成所需要的問(wèn)題對(duì)。如圖2所示。問(wèn)題是:iphone好用么(http://zhidao.baidu.com/question/542432940.html)。人們抽取了其中的“類似問(wèn)題”塊同原始問(wèn)題組成問(wèn)題對(duì),作為正例(可歸一化的問(wèn)題對(duì)),抽取其中“相關(guān)知識(shí)”塊同原始問(wèn)題組成負(fù)例(不可歸一化的問(wèn)題對(duì))。這樣,就獲取了充足的問(wèn)題對(duì)。圖2頁(yè)面抽取塊樣例Fig.2Exampleofweb-page1.2一致性判別方法研究中采用機(jī)器學(xué)習(xí)的方法來(lái)處理兩個(gè)問(wèn)句的一致性問(wèn)題。采用邏輯斯蒂回歸算法進(jìn)行分類。為了能夠更好地對(duì)問(wèn)題進(jìn)行判別,除一些基本特征外,人們還從5個(gè)方面抽取了問(wèn)句的相似度信息。表1中列出了抽取的特征,下邊將分別介紹在計(jì)算相似度上所使用的方法。表1特征向量表Tab.1Featuredescription特征類別說(shuō)明Stringkernel特征用stringkernel方法從結(jié)構(gòu)的角度獲取兩個(gè)句子的相似度Hownet特征用hownet方法從語(yǔ)義的角度獲取兩個(gè)句子的相似度TermWieght特征利用搜索引擎從詞在句子中的重要性角度來(lái)計(jì)算兩個(gè)句子的相似度Tfidf特征利用tfidf信息獲取兩個(gè)句子的相似度Rank
【參考文獻(xiàn)】:
期刊論文
[1]基于樹(shù)核函數(shù)的中英文代詞消解[J]. 孔芳,周國(guó)棟. 軟件學(xué)報(bào). 2012(05)
[2]基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德. 中文信息學(xué)報(bào). 2006(01)
[3]一種基于向量空間模型的多層次文本分類方法[J]. 劉少輝,董明楷,張?,李蓉,史忠植. 中文信息學(xué)報(bào). 2002(03)
本文編號(hào):2979912
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2979912.html
最近更新
教材專著