中文短文本聚合模型研究
本文選題:中文短文本 切入點(diǎn):聚合模型 出處:《軟件學(xué)報(bào)》2017年10期 論文類型:期刊論文
【摘要】:中文短文本聚合的目的是將兩個(gè)數(shù)據(jù)集中屬于同一對(duì)象的短文本信息進(jìn)行匹配關(guān)聯(lián),同時(shí)要避免匹配不屬于同一對(duì)象的短文本信息,這項(xiàng)研究對(duì)于多源異構(gòu)的短文本數(shù)據(jù)資源整合具有重要的理論和現(xiàn)實(shí)意義.提出了一種有效的中文短文本聚合模型,通過快速匹配和精細(xì)匹配兩個(gè)關(guān)鍵步驟可以大幅度降低匹配的候選對(duì)數(shù)量,并保證匹配的精度.針對(duì)傳統(tǒng)短文本相似度算法的不足,提出了一種新穎的廣義Jaro-Winkler相似度算法,并從理論上分析了該算法的參數(shù)特性.通過對(duì)不同數(shù)據(jù)集上的商戶信息數(shù)據(jù)進(jìn)行聚合實(shí)驗(yàn),結(jié)果表明,新算法與傳統(tǒng)算法相比,在匹配準(zhǔn)確率和穩(wěn)定性上具有最優(yōu)的性能.
[Abstract]:The purpose of Chinese short text aggregation is to match the text information belonging to the same object in two data sets, and to avoid matching the short text information that does not belong to the same object. This study is of great theoretical and practical significance for the integration of multi-source and heterogeneous short text data resources. An effective Chinese text aggregation model is proposed. Through the two key steps of fast matching and fine matching, the number of candidate pairs can be greatly reduced and the accuracy of matching can be guaranteed. A novel generalized Jaro-Winkler similarity algorithm is proposed to overcome the shortcomings of the traditional text text similarity algorithm. The experimental results show that the new algorithm has the best performance in matching accuracy and stability compared with the traditional algorithm.
【作者單位】: 電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院互聯(lián)網(wǎng)科學(xué)中心;電子科技大學(xué)大數(shù)據(jù)研究中心;中國銀聯(lián)股份有限公司電子支付研究院;
【基金】:國家自然科學(xué)基金(61300018) 中國銀聯(lián)-電子科技大學(xué)-金融大數(shù)據(jù)研究項(xiàng)目~~
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 巴桑頓珠;顧忠順;劉遠(yuǎn)明;;地圖聚合模型研究與實(shí)現(xiàn)[J];西藏科技;2010年04期
2 楊娟;;相交快速匹配空域錯(cuò)誤隱藏算法[J];信息與電腦(理論版);2010年02期
3 王迎慶 ,夏振華;語音模式中基于啟發(fā)式搜取的快速匹配算法[J];南京航空航天大學(xué)學(xué)報(bào);1988年01期
4 熊國清,于起峰;用于實(shí)時(shí)跟蹤的快速匹配算法[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2002年01期
5 馬社祥;劉鐵根;;多分辨逐步消除快速匹配算法[J];計(jì)算機(jī)應(yīng)用;2006年02期
6 陶波,,于志偉;一種基于自學(xué)習(xí)閾值的快速匹配方法[J];計(jì)算機(jī)應(yīng)用;1995年02期
7 安萌;姜志國;;彈上下視景象目標(biāo)快速匹配的技術(shù)實(shí)現(xiàn)[J];系統(tǒng)工程與電子技術(shù);2008年11期
8 裘東;一種快速匹配算法在拼音輸入整句翻譯中的應(yīng)用[J];上海計(jì)量測試;2003年01期
9 丁明躍,王宇軍,彭嘉雄;一類快速匹配算法的模擬與比較[J];數(shù)據(jù)采集與處理;1990年02期
10 李雪;薛一波;王春露;;一種適用于大規(guī)模特征集的快速匹配算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年34期
相關(guān)會(huì)議論文 前1條
1 呂科;耿國華;周明全;;文物復(fù)原中三維輪廓曲線的快速匹配方法[A];第一屆全國幾何設(shè)計(jì)與計(jì)算學(xué)術(shù)會(huì)議論文集[C];2002年
相關(guān)碩士學(xué)位論文 前4條
1 高亮;音樂旋律快速匹配技術(shù)的研究[D];上海交通大學(xué);2007年
2 陳偉;數(shù)字圖像的快速匹配技術(shù)研究[D];山東師范大學(xué);2012年
3 趙晶;基于雙目視差的三維重建中的特征檢測和快速匹配技術(shù)的研究[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2010年
4 王淵民;基于SIFT算法的圖像快速匹配系統(tǒng)設(shè)計(jì)[D];成都理工大學(xué);2014年
本文編號(hào):1601375
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1601375.html