天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

無監(jiān)督的中文商品屬性結(jié)構(gòu)化方法

發(fā)布時間:2018-04-02 13:01

  本文選題:結(jié)構(gòu)化 切入點:相對不選取條件概率場 出處:《軟件學(xué)報》2017年02期


【摘要】:從非結(jié)構(gòu)化商品描述文本中抽取結(jié)構(gòu)化屬性信息,對于電子商務(wù)實現(xiàn)商品的對比與推薦及用戶需求預(yù)測等功能具有重要意義.現(xiàn)有結(jié)構(gòu)化方法大多采用監(jiān)督或半監(jiān)督的分類方法抽取屬性值與屬性名,通過文法分析器分析屬性值與屬性名之間的文法依存關(guān)系,并根據(jù)關(guān)聯(lián)規(guī)則實現(xiàn)屬性值與屬性名的匹配.這些方法存在以下不足:(1)需要人工標(biāo)記部分屬性值、屬性名及它們之間的對應(yīng)關(guān)系;(2)屬性值-屬性名匹配的準(zhǔn)確度受到語言習(xí)慣、句意邏輯、語料庫及屬性名候選集質(zhì)量的嚴(yán)重制約.提出了一種無監(jiān)督的中文商品屬性結(jié)構(gòu)化方法.該方法借助搜索引擎,基于小概率事件原理分析文法關(guān)系來抽取屬性值與屬性名.同時,提出相對不選取條件概率場,并使用Page Rank算法來計算屬性值與屬性名的配對概率.該方法無需人工標(biāo)記的開銷,且無論商品描述中是否顯式地包含相應(yīng)的屬性名,該方法都能自動抽取到屬性值并匹配相應(yīng)的屬性名.使用百度搜索引擎上的真實語料,針對4類商品的中文描述進(jìn)行了實驗.實驗結(jié)果驗證了對于候選屬性名的自動生成,所提出的基于搜索引擎搜索屬性值,并在包含屬性值的搜索結(jié)果中抽取一般名詞的候選屬性名生成方法與只在描述句中抽取一般名詞的候選屬性名生成方法相比,查全率提高了20%以上;對于非量化類屬性,所提出的基于相對不選取條件概率場的屬性值-屬性名匹配方法與基于依存關(guān)聯(lián)的方法相比,Rank-1的準(zhǔn)確率提高了30%以上,平均MRR提高了0.3以上.
[Abstract]:Description of extracting structured attribute information from unstructured text in commodities, is of great significance for the realization of e-commerce goods compared with the recommendation and user demand forecasting and other functions. The existing structured method mostly adopts supervised classification method or semi supervised extraction of attribute values and attribute names, through the analysis of grammar analyzer attribute value and attribute dependency relation between grammar according to the related rules, attribute values and attribute name matching. These methods have the following problems: (1) the need for manual marking part attribute values, correspondence between attribute names and their relationships; (2) attribute value - attribute name matching accuracy by language, sentence meaning and logic, restricted corpus the attribute name candidate quality. This paper proposed an unsupervised Chinese commodity structured methods. This method uses the search engine, the small probability event principle based on grammar analysis To extract attribute values and attribute names. At the same time, the relative conditional probability selection field, and use the Page Rank algorithm to calculate the value of the attribute matching probability and attribute name. This method without artificial markers overhead, and regardless of whether the commodity description explicitly contains the corresponding attribute name, the method can automatically to extract attribute value and attribute name matching. The corresponding authentic materials used on the Baidu search engine, aiming at the 4 types of goods Chinese described in the experiment. The experimental results verify the for automatic generation of candidate attribute names, based on the search engine search attribute value, compared with the only candidate attribute in the description of general sentence extraction the name of the noun generation method and in containing the attribute value in the search results from general noun candidate attribute name generation method, the recall rate increased by more than 20%; for non quantitative attributes, proposed based on the Compared with the method based on dependency relation, the accuracy of Rank-1 is increased by more than 30% and the average MRR is increased by more than 0.3 compared with the method based on dependency relation.

【作者單位】: 西北工業(yè)大學(xué)計算機學(xué)院;
【分類號】:TP311

【相似文獻(xiàn)】

相關(guān)會議論文 前2條

1 王宇;方濱興;吳博;宋林海;郭巖;;結(jié)合屬性分布特征的模式匹配算法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

2 張亮;胡學(xué)鋼;;多層次屬性值下概念格的動態(tài)轉(zhuǎn)化[A];計算機技術(shù)與應(yīng)用進(jìn)展——全國第17屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年

相關(guān)重要報紙文章 前4條

1 重慶 韓濤;中望CAD中塊屬性的制作[N];電腦報;2004年

2 7Star;教你做RM壓縮程序[N];電腦報;2003年

3 北京郵電大學(xué) 張劍;通過DOM操作數(shù)據(jù)(下)[N];計算機世界;2001年

4 ;查找替換的技巧[N];中國電腦教育報;2001年

相關(guān)碩士學(xué)位論文 前10條

1 張麗芬;一種基于混合QOS的服務(wù)選擇方法[D];華中師范大學(xué);2015年

2 于芳芳;基于屬性的權(quán)限訪問控制研究與應(yīng)用[D];河北工業(yè)大學(xué);2015年

3 趙爽;基于敏感屬性值語義的個性化匿名方法研究[D];天津財經(jīng)大學(xué);2015年

4 高乙童;大數(shù)據(jù)時效性關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2016年

5 陳祖軍;基于偽近鄰及區(qū)間距離的不完備數(shù)據(jù)聚類方法[D];大連理工大學(xué);2016年

6 徐海堂;屬性證書及應(yīng)用研究[D];中國人民解放軍信息工程大學(xué);2005年

7 童先群;基于屬性值信息熵的KNN算法改進(jìn)研究[D];漳州師范學(xué)院;2010年

8 張秀麗;符號屬性值的相似度學(xué)習(xí)及屬性重要性研究[D];河北大學(xué);2011年

9 張朝勝;領(lǐng)域本體概念實例、屬性及屬性值提取研究[D];昆明理工大學(xué);2011年

10 雷玉霞;基于本體的軍事知識聯(lián)通[D];中國科學(xué)院研究生院(軟件研究所);2002年

,

本文編號:1700481

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1700481.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶46f94***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com