電子商務(wù)中針對(duì)產(chǎn)品的摘要挖掘技術(shù)研究
發(fā)布時(shí)間:2017-03-28 21:06
本文關(guān)鍵詞:電子商務(wù)中針對(duì)產(chǎn)品的摘要挖掘技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)上購(gòu)物由于其便利節(jié)時(shí)越來(lái)越受到人們的歡迎,電子商務(wù)時(shí)代已經(jīng)來(lái)臨。目前購(gòu)物網(wǎng)站中存在海量的商品供人們進(jìn)行選購(gòu),然而由于商品量巨大且賣家對(duì)商品的描述信息量非常大,因此給買家選購(gòu)需要的商品造成了不便。 事實(shí)上很多商品其實(shí)是同一款產(chǎn)品,生產(chǎn)廠家相同只是賣家不同而已,因此在商品基礎(chǔ)上構(gòu)建出虛擬的產(chǎn)品節(jié)點(diǎn),并根據(jù)產(chǎn)品對(duì)應(yīng)的商品描述信息挖掘出產(chǎn)品相關(guān)的信息,比如產(chǎn)品的圖文描述、產(chǎn)品摘要、產(chǎn)品屬性、產(chǎn)品評(píng)論、產(chǎn)品價(jià)格趨勢(shì)等,以一種簡(jiǎn)潔友好的方式全面詳細(xì)的展示產(chǎn)品的信息,是很有必要的。 本文著眼于產(chǎn)品的摘要,提出了一種面向電子商務(wù)領(lǐng)域的產(chǎn)品摘要挖掘方法。產(chǎn)品摘要是用最簡(jiǎn)短的語(yǔ)言,由3-5個(gè)短語(yǔ)組成,主要突出產(chǎn)品的賣點(diǎn)和特色。產(chǎn)品摘要希望能從用戶角度出發(fā),在用戶選購(gòu)產(chǎn)品的時(shí)候提供一個(gè)有特色的描述,讓用戶對(duì)產(chǎn)品有一個(gè)整體的印象,更好的幫助用戶做選擇,減少用戶選購(gòu)產(chǎn)品的時(shí)間。 產(chǎn)品摘要挖掘是一種多文檔自動(dòng)文摘,與傳統(tǒng)自動(dòng)文摘選取句子來(lái)組成摘要不同,產(chǎn)品摘要由短語(yǔ)組成。本文方法涉及到的關(guān)鍵部分,一是對(duì)產(chǎn)品描述的句子進(jìn)行聚類,形成子主題;二是從子主題中抽取重要短語(yǔ),作為摘要短語(yǔ)。對(duì)于句子聚類形成子主題,本文探討了句子的特征表示、相似度計(jì)算方法、聚類方法等,采用層次聚類和劃分聚類(K-中心聚類)相結(jié)合的方法對(duì)句子聚類形成子主題,來(lái)從多個(gè)側(cè)面描述產(chǎn)品。最后根據(jù)子主題中描述句子的多少來(lái)對(duì)子主題的重要性進(jìn)行排序。 對(duì)于產(chǎn)品摘要短語(yǔ)的獲取,本文采用基于分類的方法,處理時(shí)以一個(gè)子主題為處理單元。首先利用指示詞對(duì)子主題中的句子進(jìn)行切分,得到候選短語(yǔ),然后利用最大熵分類器對(duì)短語(yǔ)進(jìn)行分類,得到可以作為摘要的短語(yǔ),最后對(duì)短語(yǔ)進(jìn)行打分,并根據(jù)得分排序,將得分最高的短語(yǔ)作為子主題的摘要短語(yǔ)。最終的產(chǎn)品摘要由多個(gè)子主題摘要短語(yǔ)組成,子主題根據(jù)其重要性來(lái)選擇。 本文提出方法的評(píng)價(jià),采用專家人工評(píng)價(jià)方式,以產(chǎn)出的前M個(gè)短語(yǔ)成功編輯出產(chǎn)品摘要的比例作為指標(biāo)。實(shí)驗(yàn)表明在前10個(gè)結(jié)果短語(yǔ)中編輯產(chǎn)品摘要成功的比例在85%以上,因此本文提出的方法是可行有效的,能夠大大提高編輯人員的工作效率。
【關(guān)鍵詞】:產(chǎn)品摘要 聚類 短語(yǔ)判別 最大熵模型
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-16
- 1.1 課題背景及研究?jī)?nèi)容和意義9-11
- 1.1.1 課題背景9
- 1.1.2 課題研究?jī)?nèi)容9-10
- 1.1.3 課題研究意義10-11
- 1.2 多文檔文摘研究現(xiàn)狀11-14
- 1.2.1 多文檔文摘主要方法11-13
- 1.2.2 多文檔文摘的自動(dòng)評(píng)測(cè)13-14
- 1.2.3 相關(guān)國(guó)際評(píng)測(cè)14
- 1.3 本文組織結(jié)構(gòu)14-16
- 第2章 基于句子聚類的子主題生成研究16-24
- 2.1 引言16-18
- 2.1.1 子主題的定義16-17
- 2.1.2 句子聚類形成子主題總體思路17-18
- 2.2 句子聚類18-22
- 2.2.1 特征表示18-19
- 2.2.2 相似度計(jì)算方法19-20
- 2.2.3 聚類方法20-22
- 2.3 子主題形成及重要性排序22-23
- 2.4 本章小結(jié)23-24
- 第3章 基于分類的摘要短語(yǔ)抽取研究24-35
- 3.1 最大熵模型介紹24-29
- 3.1.1 條件最大熵模型25-26
- 3.1.2 最大熵最優(yōu)解26-27
- 3.1.3 模型訓(xùn)練算法27-29
- 3.2 候選短語(yǔ)獲取29-31
- 3.2.1 指示詞表的構(gòu)建29-30
- 3.2.2 候選短語(yǔ)獲取方法30-31
- 3.3 短語(yǔ)識(shí)別31-33
- 3.4 短語(yǔ)打分與摘要生成33
- 3.5 本章小結(jié)33-35
- 第4章 產(chǎn)品摘要挖掘系統(tǒng)實(shí)現(xiàn)35-42
- 4.1 系統(tǒng)介紹35-37
- 4.2 主要模塊介紹37-41
- 4.2.1 文本預(yù)處理37-39
- 4.2.2 句子聚類形成子主題39-40
- 4.2.3 短語(yǔ)識(shí)別與抽取40-41
- 4.3 本章小結(jié)41-42
- 第5章 實(shí)驗(yàn)結(jié)果及分析42-47
- 5.1 引言42
- 5.2 短語(yǔ)識(shí)別實(shí)驗(yàn)42-44
- 5.2.1 數(shù)據(jù)43
- 5.2.2 評(píng)價(jià)指標(biāo)43-44
- 5.2.3 實(shí)驗(yàn)結(jié)果與分析44
- 5.3 摘要生成實(shí)驗(yàn)44-46
- 5.3.1 數(shù)據(jù)資源44-45
- 5.3.2 評(píng)價(jià)指標(biāo)45
- 5.3.3 實(shí)驗(yàn)結(jié)果與分析45-46
- 5.4 本章小結(jié)46-47
- 結(jié)論47-48
- 參考文獻(xiàn)48-52
- 攻讀碩士學(xué)位期間發(fā)表的論文及其它成果52-54
- 致謝54
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 周雅倩,郭以昆,黃萱菁,吳立德;基于最大熵方法的中英文基本名詞短語(yǔ)識(shí)別[J];計(jì)算機(jī)研究與發(fā)展;2003年03期
2 張sソ
本文編號(hào):273013
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/273013.html
最近更新
教材專著