電子商務中針對產品的摘要挖掘技術研究
發(fā)布時間:2017-03-28 21:06
本文關鍵詞:電子商務中針對產品的摘要挖掘技術研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)上購物由于其便利節(jié)時越來越受到人們的歡迎,電子商務時代已經(jīng)來臨。目前購物網(wǎng)站中存在海量的商品供人們進行選購,然而由于商品量巨大且賣家對商品的描述信息量非常大,因此給買家選購需要的商品造成了不便。 事實上很多商品其實是同一款產品,生產廠家相同只是賣家不同而已,因此在商品基礎上構建出虛擬的產品節(jié)點,并根據(jù)產品對應的商品描述信息挖掘出產品相關的信息,比如產品的圖文描述、產品摘要、產品屬性、產品評論、產品價格趨勢等,以一種簡潔友好的方式全面詳細的展示產品的信息,是很有必要的。 本文著眼于產品的摘要,提出了一種面向電子商務領域的產品摘要挖掘方法。產品摘要是用最簡短的語言,由3-5個短語組成,主要突出產品的賣點和特色。產品摘要希望能從用戶角度出發(fā),在用戶選購產品的時候提供一個有特色的描述,讓用戶對產品有一個整體的印象,更好的幫助用戶做選擇,減少用戶選購產品的時間。 產品摘要挖掘是一種多文檔自動文摘,與傳統(tǒng)自動文摘選取句子來組成摘要不同,產品摘要由短語組成。本文方法涉及到的關鍵部分,一是對產品描述的句子進行聚類,形成子主題;二是從子主題中抽取重要短語,作為摘要短語。對于句子聚類形成子主題,本文探討了句子的特征表示、相似度計算方法、聚類方法等,采用層次聚類和劃分聚類(K-中心聚類)相結合的方法對句子聚類形成子主題,來從多個側面描述產品。最后根據(jù)子主題中描述句子的多少來對子主題的重要性進行排序。 對于產品摘要短語的獲取,本文采用基于分類的方法,處理時以一個子主題為處理單元。首先利用指示詞對子主題中的句子進行切分,得到候選短語,然后利用最大熵分類器對短語進行分類,得到可以作為摘要的短語,最后對短語進行打分,并根據(jù)得分排序,將得分最高的短語作為子主題的摘要短語。最終的產品摘要由多個子主題摘要短語組成,子主題根據(jù)其重要性來選擇。 本文提出方法的評價,采用專家人工評價方式,以產出的前M個短語成功編輯出產品摘要的比例作為指標。實驗表明在前10個結果短語中編輯產品摘要成功的比例在85%以上,因此本文提出的方法是可行有效的,能夠大大提高編輯人員的工作效率。
【關鍵詞】:產品摘要 聚類 短語判別 最大熵模型
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2011
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-16
- 1.1 課題背景及研究內容和意義9-11
- 1.1.1 課題背景9
- 1.1.2 課題研究內容9-10
- 1.1.3 課題研究意義10-11
- 1.2 多文檔文摘研究現(xiàn)狀11-14
- 1.2.1 多文檔文摘主要方法11-13
- 1.2.2 多文檔文摘的自動評測13-14
- 1.2.3 相關國際評測14
- 1.3 本文組織結構14-16
- 第2章 基于句子聚類的子主題生成研究16-24
- 2.1 引言16-18
- 2.1.1 子主題的定義16-17
- 2.1.2 句子聚類形成子主題總體思路17-18
- 2.2 句子聚類18-22
- 2.2.1 特征表示18-19
- 2.2.2 相似度計算方法19-20
- 2.2.3 聚類方法20-22
- 2.3 子主題形成及重要性排序22-23
- 2.4 本章小結23-24
- 第3章 基于分類的摘要短語抽取研究24-35
- 3.1 最大熵模型介紹24-29
- 3.1.1 條件最大熵模型25-26
- 3.1.2 最大熵最優(yōu)解26-27
- 3.1.3 模型訓練算法27-29
- 3.2 候選短語獲取29-31
- 3.2.1 指示詞表的構建29-30
- 3.2.2 候選短語獲取方法30-31
- 3.3 短語識別31-33
- 3.4 短語打分與摘要生成33
- 3.5 本章小結33-35
- 第4章 產品摘要挖掘系統(tǒng)實現(xiàn)35-42
- 4.1 系統(tǒng)介紹35-37
- 4.2 主要模塊介紹37-41
- 4.2.1 文本預處理37-39
- 4.2.2 句子聚類形成子主題39-40
- 4.2.3 短語識別與抽取40-41
- 4.3 本章小結41-42
- 第5章 實驗結果及分析42-47
- 5.1 引言42
- 5.2 短語識別實驗42-44
- 5.2.1 數(shù)據(jù)43
- 5.2.2 評價指標43-44
- 5.2.3 實驗結果與分析44
- 5.3 摘要生成實驗44-46
- 5.3.1 數(shù)據(jù)資源44-45
- 5.3.2 評價指標45
- 5.3.3 實驗結果與分析45-46
- 5.4 本章小結46-47
- 結論47-48
- 參考文獻48-52
- 攻讀碩士學位期間發(fā)表的論文及其它成果52-54
- 致謝54
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 周雅倩,郭以昆,黃萱菁,吳立德;基于最大熵方法的中英文基本名詞短語識別[J];計算機研究與發(fā)展;2003年03期
2 張sソ
本文編號:273013
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/273013.html
最近更新
教材專著