當(dāng)前位置：主頁(yè) > 碩博論文 > 基礎(chǔ)科學(xué)碩士論文 >

基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開(kāi)放度研究

發(fā)布時(shí)間：2020-12-30 05:25

　　近期,翟天臨學(xué)術(shù)門(mén)事件的發(fā)生,以及部分學(xué)者發(fā)現(xiàn)一些超高產(chǎn)的作者在同一本期刊上發(fā)表了大量的論文,這類(lèi)學(xué)術(shù)事件引發(fā)了社會(huì)的熱議。由此,也提出了一個(gè)問(wèn)題:某一領(lǐng)域的學(xué)術(shù)平臺(tái)開(kāi)放度是怎樣的一個(gè)狀態(tài)呢?其背后存在什么樣的社會(huì)網(wǎng)絡(luò)關(guān)系呢?學(xué)術(shù)雜志是科研成果的一個(gè)重要展現(xiàn)平臺(tái)。本文主要就通過(guò)文本挖掘技術(shù),采集相關(guān)數(shù)據(jù),對(duì)雜志期刊的開(kāi)放度做出探索性研究,對(duì)學(xué)術(shù)雜志潛在的合著網(wǎng)絡(luò)進(jìn)行分析研究。本文以統(tǒng)計(jì)學(xué)領(lǐng)域較權(quán)威的雜志期刊《數(shù)理統(tǒng)計(jì)與管理》及《統(tǒng)計(jì)研究》為研究對(duì)象,通過(guò)Python爬蟲(chóng)技術(shù)收集1999—2018年的數(shù)據(jù)信息,得到機(jī)構(gòu)單位、作者、年份及文章名等信息。通過(guò)復(fù)雜網(wǎng)絡(luò)及簡(jiǎn)單統(tǒng)計(jì)學(xué)方法對(duì)雜志開(kāi)放度做出衡量,主要選取復(fù)雜網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)熵、中心性、網(wǎng)絡(luò)密度等屬性特征對(duì)開(kāi)放度做衡量,并建立新的開(kāi)放度衡量指標(biāo)“新作者”及“新機(jī)構(gòu)單位”,據(jù)此衡量雜志開(kāi)放度,最后通過(guò)UCINET軟件構(gòu)建合著網(wǎng)絡(luò)并做可視化處理。本文主要的研究成果有:(1)統(tǒng)計(jì)學(xué)領(lǐng)域基于作者層面開(kāi)放度整體呈上升趨勢(shì),機(jī)構(gòu)單位層面開(kāi)放度整體呈下降趨勢(shì),《數(shù)理統(tǒng)計(jì)與管理》雜志的作者層面開(kāi)放度整體呈上升趨勢(shì),而《統(tǒng)計(jì)研究》雜志的作者層面開(kāi)放度波動(dòng)較...

【文章來(lái)源】：江西財(cái)經(jīng)大學(xué)江西省

【文章頁(yè)數(shù)】：55 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

爬蟲(chóng)部分代碼在做好準(zhǔn)備工作后，選擇所需要爬取的數(shù)據(jù)信息所在的URL（網(wǎng)頁(yè)地址），

流程圖,流程圖,網(wǎng)頁(yè),切入點(diǎn)

第4章基于復(fù)雜網(wǎng)絡(luò)雜志開(kāi)放度研究---以統(tǒng)計(jì)學(xué)兩本雜志為例21圖4-1爬蟲(chóng)部分代碼在做好準(zhǔn)備工作后，選擇所需要爬取的數(shù)據(jù)信息所在的URL（網(wǎng)頁(yè)地址），把URL列入任務(wù)中，從將要爬取的URL任務(wù)中選擇要所需要提取的URL，并對(duì)DNS（域名系統(tǒng)）做出解釋分析，得到電腦主機(jī)的地址，通過(guò)URL將相應(yīng)的網(wǎng)頁(yè)保存下來(lái)，并把以上URL排列進(jìn)將要獲取數(shù)據(jù)內(nèi)容的URL任務(wù)，由此循環(huán)往復(fù)。對(duì)保存下來(lái)的網(wǎng)頁(yè)做出解釋分析，獲得所需的具體的數(shù)據(jù)信息。具體步驟如下圖4-2所示。圖4-2爬蟲(chóng)流程圖（1）初始化網(wǎng)絡(luò)頁(yè)面，進(jìn)入網(wǎng)頁(yè)，獲取URL。要得到待抓取的中國(guó)知網(wǎng)文章的URL，就需要找到一個(gè)“切入點(diǎn)”URL，這個(gè)“切入點(diǎn)”的URL相對(duì)應(yīng)中國(guó)知網(wǎng)中網(wǎng)站上的高級(jí)檢索界面。入口網(wǎng)址是：https://kns.cnki.net/kns/brief/brief.aspx?curpage=1&RecordsPerPage=50&QueryID=10&ID=&turnpage=1&tpagemode=L&dbPrefix=SCDB&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&，這個(gè)網(wǎng)址所對(duì)應(yīng)的網(wǎng)頁(yè)是中國(guó)知網(wǎng)的一個(gè)高級(jí)檢索的界面，curpage=1是指數(shù)據(jù)信息的第一頁(yè)，curpage=2則

鏈接圖,文章標(biāo)題,源代碼,數(shù)據(jù)部分

基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開(kāi)放度研究22是指第二頁(yè)，依次下去，每頁(yè)文章篇幅達(dá)到50篇，RecordsPerPage=50也就是代表網(wǎng)頁(yè)的一頁(yè)下面共50篇文章。（2）通過(guò)Python包request請(qǐng)求響應(yīng)，查找源網(wǎng)頁(yè)。在數(shù)據(jù)爬取的過(guò)程中為了方便爬取知網(wǎng)數(shù)據(jù)，需要從中國(guó)知網(wǎng)網(wǎng)站的源代碼進(jìn)行分析。圖4-3是中國(guó)知網(wǎng)的檢索《統(tǒng)計(jì)研究》的部分網(wǎng)頁(yè)源代碼，里面給出了論文的鏈接地址及相關(guān)作者。圖4-3是其論文鏈接地址對(duì)應(yīng)的部分源代碼，詳細(xì)地給出了論文的題目、附屬機(jī)構(gòu)等信息。圖4-3知網(wǎng)數(shù)據(jù)部分源代碼根據(jù)圖4-3可知，title后面是所需的文章標(biāo)題，連接的是該文章的網(wǎng)址鏈接，接下來(lái)是所需要提取的文章的作者及附屬機(jī)構(gòu)單位等信息，（3）解析網(wǎng)頁(yè)為了準(zhǔn)確提取網(wǎng)頁(yè)中的信息，能夠通過(guò)Python自帶的urllib2庫(kù)和正則表達(dá)式來(lái)解析網(wǎng)頁(yè)。根據(jù)源網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)簽和屬性，利用正則表達(dá)式中find_all()函數(shù)提取論文的標(biāo)題，作者，附屬機(jī)構(gòu)等信息，想要獲取更多的數(shù)據(jù)信息，需要通過(guò)編寫(xiě)代碼抓取更多信息，根據(jù)對(duì)readAll函數(shù)的使用將頁(yè)面中的文件中的子文件進(jìn)行調(diào)用，并且調(diào)用了parseWeb函數(shù)，用來(lái)對(duì)各個(gè)源代碼的數(shù)據(jù)信息做出解釋，并且使用了spiderUtil類(lèi)中的save方法，保存數(shù)據(jù)。然后利用Xlwt模塊打開(kāi)Excel工作簿，并將提取出的數(shù)據(jù)信息寫(xiě)入Excel表格中，數(shù)據(jù)就會(huì)保存于.xls的文件中。筆者在對(duì)中國(guó)知網(wǎng)中爬取數(shù)據(jù)時(shí)，遇到了一些障礙，當(dāng)通過(guò)re庫(kù)中正則表達(dá)式獲取到的內(nèi)容為參數(shù)錯(cuò)誤或驗(yàn)證碼，就會(huì)結(jié)束爬蟲(chóng)，其中每次獲取網(wǎng)頁(yè)內(nèi)容都會(huì)攜帶cookie（儲(chǔ)存在用戶本地終端上的數(shù)據(jù)），一般是利用cookie來(lái)驗(yàn)證訪問(wèn)網(wǎng)頁(yè)的正確性。然后圖4-4是部分代碼。

本文編號(hào)：2947073

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/shoufeilunwen/benkebiyelunwen/2947073.html

上一篇：上海市能見(jiàn)度時(shí)空特征及預(yù)測(cè)研究
下一篇：Bt腸毒素基因的序列分析及安全性研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開(kāi)放度研究