基于Word2Vec的中文問句檢索技術(shù)研究及系統(tǒng)實現(xiàn)
本文選題:交互式智能客服 + 詞向量 ; 參考:《哈爾濱工業(yè)大學(xué)》2016年碩士論文
【摘要】:隨著電子商務(wù)等互聯(lián)網(wǎng)服務(wù)的快速發(fā)展,為了提高線上服務(wù)質(zhì)量,企業(yè)、單位對客服的需求日益增長。而在人口老齡化的趨勢下人工客服成本不斷增加,交互式智能客服技術(shù)的發(fā)展為企業(yè)、單位提供了新的解決思路。智能客服的目標是提供如人工客服般的交互體驗,在與用戶的交互過程中,自動地完成對用戶問句的識別、檢索與回答。本文利用中文詞向量等工具,研究基于企業(yè)實際的客服語料情境下的用戶問句分類、問句檢索等問題。本文研究內(nèi)容主要有如下三方面:(1)為了提供更好的用戶體驗,本文在檢索用戶問句前,對用戶問句的分類方法進行研究。首先本文收集了大量中文語料實現(xiàn)中文詞向量的訓(xùn)練,其次提出了一個面向智能客服場景的兩層分類體系。最后研究了在不同參數(shù)詞向量特征基礎(chǔ)上增量組合詞匯特征與句法特征的分類效果。(2)在問句分類的基礎(chǔ)上,本文將詞向量信息引入到問句檢索中。利用詞向量中隱含的語義信息間接計算兩個句子的相似度,對Lucene檢索出的候選結(jié)果進行重排序,從而實現(xiàn)檢索效果的優(yōu)化。針對一些語義不全的問句,利用基于依存句法分析方法以及Text Rank方法的關(guān)鍵詞抽取方法識別出問句中的關(guān)鍵詞,并利用自定義同義詞詞典、中文詞向量以及局部相關(guān)性反饋信息對其進行查詢擴展。(3)實現(xiàn)了一個基于本文提出的問句分類方法及問句檢索方法的中文問句檢索系統(tǒng),實現(xiàn)對用戶問句的分類與檢索。同時針對一些語料缺失的場景,系統(tǒng)中集成了爬蟲處理模塊,可以結(jié)構(gòu)化地抽取互聯(lián)網(wǎng)中存在的問答對信息。
[Abstract]:With the rapid development of electronic commerce and other Internet services, in order to improve the quality of online service, the demand of enterprises and units for customer service is increasing day by day. Under the trend of aging population, the cost of artificial customer service is increasing. The development of interactive intelligent customer service technology provides a new solution for enterprises and units. The goal of intelligent customer service is to provide interactive experience such as artificial customer service. In the process of interaction with users, the identification, retrieval and answer of user questions are accomplished automatically. In this paper, we use Chinese word vector and other tools to study the classification and retrieval of user questions in the context of customer service corpus. The main contents of this paper are as follows: (1) in order to provide a better user experience, this paper studies the classification method of user question before retrieving user question. Firstly, a large number of Chinese corpus is collected to train Chinese word vectors, and then a two-layer classification system for intelligent customer service scene is proposed. Finally, the classification effect of incremental combination of lexical and syntactic features based on different parameter word vector features is studied. (2) on the basis of question sentence classification, this paper introduces word vector information into question retrieval. The similarity between the two sentences is calculated indirectly by using the semantic information implied in the word vector, and the candidate results retrieved by Lucene are reordered to optimize the retrieval effect. For some questions with incomplete semantics, keyword extraction method based on dependency syntactic analysis and text Rank method is used to identify the keywords in question sentences, and a custom synonym dictionary is used. The Chinese word vector and local relevance feedback information are extended. (3) A Chinese question retrieval system based on the question classification method and question retrieval method proposed in this paper is implemented to achieve the classification and retrieval of user questions. At the same time, the crawler processing module is integrated to extract the information of question and answer pairs in the Internet.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 陽小華;蔣輝;馬家宇;;基于任務(wù)上下文的查詢擴展方法[J];鄭州大學(xué)學(xué)報(理學(xué)版);2010年01期
2 吳煈;張奇;黃萱菁;;基于整數(shù)線性規(guī)劃的查詢擴展[J];計算機研究與發(fā)展;2013年08期
3 何燕;;基于用戶反饋的查詢擴展研究[J];情報理論與實踐;2013年08期
4 黃偉群;;基于用戶視角的交互式查詢擴展研究[J];圖書情報工作;2014年05期
5 黃名選;嚴小衛(wèi);張師超;;查詢擴展技術(shù)進展與展望[J];計算機應(yīng)用與軟件;2007年11期
6 林國俊;葉飛躍;耿冬;鄭國良;;基于語義的概念查詢擴展[J];計算機工程與設(shè)計;2009年06期
7 鞏玉璽;王大玲;;一種改進的基于偽相關(guān)反饋的查詢擴展[J];微計算機信息;2009年15期
8 黃名選;張師超;嚴小衛(wèi);;基于查詢行為和關(guān)聯(lián)規(guī)則的相關(guān)反饋查詢擴展[J];計算機工程;2009年10期
9 張超盟;李戰(zhàn)懷;溫宗臣;;局部上下文分析剪枝概念樹的查詢擴展[J];計算機工程;2009年14期
10 羅小聰;;基于專用雙語詞典的查詢擴展[J];現(xiàn)代計算機(專業(yè)版);2009年10期
相關(guān)會議論文 前10條
1 黃明初;鐘威;何擁軍;蒙斌;;基于查詢擴展的數(shù)字檔案檢索策略[A];廣西計算機學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
2 呂碧波;趙軍;;基于相關(guān)文檔池建模的查詢擴展[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 林建方;李生;鄭德權(quán);;基于詞語搭配關(guān)系的查詢擴展方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
4 丁國棟;白碩;王斌;;一種基于局部共現(xiàn)的查詢擴展方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
5 李東園;白宇;蔡東風(fēng);;基于用戶日志分析的查詢擴展研究[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
6 張志強;孟慶海;謝曉芹;;個性化的社會標簽查詢擴展技術(shù)研究[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯二[C];2010年
7 王秉卿;張奇;吳立德;黃萱菁;;機器學(xué)習(xí)的查詢擴展在博客檢索中的應(yīng)用[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
8 王秉卿;黃萱菁;;基于線性模型的查詢擴展方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
9 晉松;林鴻飛;蘇綏;;基于標簽共現(xiàn)的查詢擴展研究[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
10 郭文;史曉東;陳毅東;;跨語言信息檢索中的查詢擴展[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
相關(guān)重要報紙文章 前1條
1 鐘威 何擁軍;數(shù)字檔案信息擴展查詢功能需求分析及實現(xiàn)方式[N];中國檔案報;2011年
相關(guān)博士學(xué)位論文 前3條
1 郭曉黎;煤礦安全事件本體及其在查詢擴展中的應(yīng)用研究[D];中國礦業(yè)大學(xué)(北京);2016年
2 仲兆滿;事件本體及其在查詢擴展中的應(yīng)用[D];上海大學(xué);2011年
3 王俊義;正負相關(guān)反饋與查詢擴展技術(shù)的研究[D];內(nèi)蒙古大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 吳德鈺;基于標簽篩選的文檔排序方法研究[D];華中師范大學(xué);2015年
2 李維銀;基于有監(jiān)督學(xué)習(xí)的查詢擴展技術(shù)研究[D];北京理工大學(xué);2015年
3 鐘廷偉;生物醫(yī)學(xué)文本的標注與檢索研究[D];電子科技大學(xué);2015年
4 王宇;煤礦安全事件本體構(gòu)建及其查詢擴展的研究與應(yīng)用[D];北京工業(yè)大學(xué);2015年
5 崔倩倩;基于文檔重構(gòu)的查詢擴展[D];北京工業(yè)大學(xué);2015年
6 陳建榮;基于用戶反饋的智能查詢擴展技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2014年
7 燕澤權(quán);基于主題模型的查詢擴展技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2014年
8 鄭永軍;基于DMLS的語音關(guān)鍵詞檢測技術(shù)研究[D];解放軍信息工程大學(xué);2014年
9 李云飛;基于查詢?nèi)罩镜膭討B(tài)查詢擴展研究[D];內(nèi)蒙古大學(xué);2016年
10 楊振瑜;基于概念語義相似度的長句查詢擴展研究[D];山東理工大學(xué);2013年
,本文編號:2066106
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2066106.html