[基于EXCEL及CNKI题录文件实现对文献主题的计量分析] 题录是几次文献

时间：2019-01-30 来源：东星资源网本文已影响人手机版

　　〔摘要〕给出一种利用EXCEL的VBA编程语言，以CNKI中提供的RefWork格式题录文件作为数据来源，从中全自动抽取相关文献信息，从而快速获取文献基本计量信息的方法。文中对所提出的方法及程序进行了具体的实证检验，针对2005－2010年间CNKI数据库收录的以“微博”为主题的各类学术论文发表情况，实现了对其文献量、文献著者、文献所属学科、主要来源文献的统计分析，从而验证了这种分析方法在文献计量研究中的有效性和实用性。
　　〔关键词〕文献计量；论文题录；CNKI；RefWork；EXCEL；数据透视表；微博
　　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０１２．０２．０２０
　　〔中图分类号〕Ｇ２５０.２５２〔文献标识码〕Ａ〔文章编号〕１００８－０８２１（２０１２）０２－００７３－０８
　　Bibliometric Analysis for Literature Topics
　　Based on EXCEL and CNKI Paper IndexZou Shuyang?１ Zou Yimin?２
　　（１．Central University of Finance and Economics，Culture and Communication Institute，Beijing 102206，China；
　　２．Lanzhou Petrochemical College of Vocational Technology，Lanzhou 7300602，China）
　　
　　〔Ａｂｓｔｒａｃｔ〕A scheme is proposed to obtain basic literature quantitative information of academic paper quickly using EXCEL?s VBA programming language,which extracted related literature information automatically from RefWork-formatted paper index files provided by CNKI.An actual case study for proposed methods and procedures was provided.With regard to published academic papers on topics related to“Microblog”included in CNKI database from 2005 to 2010,the quantitative analysis results refer to amount,authors,subjects,main sources of these literatures were also given.Thus,the effectiveness and practicality of this scheme in bibliometric analysis and research were verified.
　　〔Ｋｅｙｗｏｒｄｓ〕bibliometric analysis;paper index;CNKI;RefWork;EXCEL;Pivot Table;Microblog
　　
　　微博是新近兴起的一种互联网热门服务，是一个基于用户关系的信息分享、传播以及获取平台，用户可以通过WEB、WAP以及各种客户端组建个人社区，以140字左右的文字更新信息，并实现即时分享。微博的出现使网民成为“草根”网络报道评论员。微博对网络舆论生成模式的主要影响是它强大的即时性、移动性和互动性，从而容许作者更好地即时反映发生在身边的新闻和意见，最后在用户之间的链式互动中形成舆论强势，进而影响网络舆情。
　　文献计量学从文献的外部特征出发，通过统计分析可以发现科学文献的生产、流通和应用等的内在规律［１］，但来源数据的获取一直是文献计量的瓶颈。纵观以往以中国期刊网(CNKI)为数据源的文献计量研究，需要统计的文献基本信息多需繁琐的手工录入。笔者发现CNKI提供的RefWork题录文件中含有文献的众多基本信息，于是开发了一款基于EXCEL中VBA宏语言的小型程序，据此可方便地从RefWork题录文件中抽取所需信息，进而实现了初步的文献计量功能。
　　本研究结果是笔者主持的中央财经大学2010年度本科生科研创新项目“基于微博的社会舆情研判与预警”研究内容的一部分。本文首先对CNKI收录的2005年起至今（统计日期截止至2010年7月31日）关于“微博”的各类学术论文进行题录检索，并在此基础上利用所开发的VBA程序进行文献量、文献著者、文献所属学科、主要来源文献、关键词等方面的统计分析，努力梳理其发展脉络，从中发现我国相关领域研究的现状与特点，作为项目研究的参考依据。经验证，该方法不仅可以快速地获取文献基本信息，而且能根据研究者的需要进行各种个性化文献计量研究，从而大大提高了文献的检索效率，具有很强的有效性和实用性。
　　１基本信息的获取
　　１.省略”为扩展名的编码格式为UTF-8的半结构化文件文本，包含被检索论文的作者、篇名、期刊、年份、刊期、关键词、摘要等文献基本信息。
　　EXCEL是一款优秀的电子表格软件，具有强大的数据处理功能，EXCEL内置的数据透视表则是一种从EXCEL等数据集中总结信息的分析工具，它有机的综合了数据排序、筛选、分类汇总等数据分析功能，可灵活地以多种不同方式展示数据的特征，成为最常用、功能最全的EXCEL数据分析工具之一。而EXCEL中内嵌的VBA（Visual Basic For Applications）语言则极大地丰富了EXCEL对数据的自动处理能力，可用于创建自定义的解决方案。
　　综上所述，CNKI的输出文件提供了基本的文献信息，如果配合EXCEL数据透视表等强大的数据分析功能，加上VBA的任务自动化编程，即可从中自动抽取所需的文献信息，打破文献基本信息依赖手工输入的瓶颈，并完成所需的文献计量分析。
　　２０１２年２月第３２卷第２期基于EXCEL及CNKI题录文件实现对文献主题的计量分析Ｆｅｂ.，１.省略”的题录文件；
　　（４）对于其它页面的检索结果，可点按“下一页”以选择后续的论文，类似前述步骤可得到一组以“?.net”为扩展名的输出文件，这些文件即为本研究的数据来源文件。
　　２基于EXCEL VBA的题录文件处理及文献计量统计获得上述全部论文的题录文件之后，即可利用自编的VBA编程软件，借助于EXCEL及数据透视表的强大功能完成对被检索论文的计量分析。
　　笔者通过VBA编程实现以上功能。为方便使用，在名为“论文统计.xls”的EXCEL文件中将新增一个名为“论文统计”的菜单，下含有“导入题录”，“论文汇总”及“论文统计”3个子菜单项，如后图１所示。本功能需使用内部的“Auto-Open”及“Auto-Close”VBA宏程序，以便完成用户菜单的设置与清除，其部分代码如下所示。
　　Sub auto?open()
　　Application.CommandBars(″Worksheet menu bar″).Controls.Add(Type：=msoControlPopup, before：=1).Caption=″论文统计″‘设定主菜单
　　Application.CommandBars(″Worksheet menu bar″).Controls(″论文统计″).Controls.Add(Type：=msoControlButton,before：=1).Caption=″导入题录″‘设定子菜单项
　　Application.CommandBars(″Worksheet menu bar″).Controls(″论文统计″).Controls(″导入题录″).OnAction=″importdata″‘设定子菜单项“导入题录”对应的VBA程序
　　…… ‘设定其它子菜单项“论文汇总”、“论文统计”及对应的VBA程序
　　End Sub
　　Sub auto?close()
　　Set mymenubar=CommandBars.ActiveMenuBar‘恢复原系统默认菜单
　　mymenubar.Reset
　　End Sub
　　２.１将CNKI的RefWork输出文件导入EXCEL
　　本功能使用“导入题录”子菜单项，在随后出现的标准文件选择窗口中选取先前由CNKI生成的一组RefWork题录文件，即可将多个题录信息文件导入EXCEL之中。此时，每一条题录占10～12行，多条记录依次以行序存放在名为“原数据”的EXCEL工作表中。
　　由于RefWork格式的题录文件使用UTF-8编码，若直接读入EXCEL表格将显示乱码。故本程序首先使用ADO的Stream数据流读入题录文件，经格式转换后存放至一个临时文件，最后再读入EXCEL数据表。其相应的主要代码如下：
　　Set objstream=CreateObject(″adodb.stream″) ‘产生一个ADO的Stream数据流，以打开指定题录文件
　　filetoopen=Application.省略),*.net″,,″请选择要导入的题录文件″,,True)‘打开标准的文件选择窗口供用户指定需导入的题录文件
　　If IsArray(filetoopen)Then
　　For Each cc In filetoopen‘逐个打开选择的题录文件
　　With objstream
　　.Type=2‘打开文本文件
　　.Mode=3‘打开后供“读写”
　　.Open
　　.LoadFromFile cc‘指定文件名
　　.省略文件
　　.Position=2‘读取位置
　　allstring=.readtext‘读至allstring变量中
　　.Close
　　End With
　　cc1=cc &″.省略.tmp的临时文件
　　Set fso=CreateObject(″Scripting.FileSystemObject″)
　　Set MyFile=fso.OpenTextFile(cc1,2,True)‘将allstring写入其中
　　MyFile.Write(allstring)‘并将文件格式由UTF-8转换为标准Unicode
　　MyFile.Close
　　j=ActiveSheet.［a65536］.End(xlUp).Row‘计算当前信息存放位置
　　With ActiveSheet.QueryTables.Add(Connection：=″TEXT;″+cc1,Destination：=Range(Cells(j+1,1),Cells(j+1,1)))‘读取指定文件，并在当前位置转存
　　.Name=″data″
　　.TextFilePlatform=936‘指定Unicode代码页为简体中文
　　.TextFileParseType=xlDelimited‘指定数据分割符
　　End With
　　fso.省略.tmp的临时文件
　　Next cc
　　End If
　　２.２论文汇总处理
　　本功能使用“论文汇总”子菜单项，用于从一组指定题录文件中忽略多余信息，仅提取感兴趣的作者姓名、作者单位、论文题名、期刊名称、发表时间（年／卷／期）、关键词、期刊中图分类号、中图分类名及是否核心期刊等信息，此时每条文献题录记录仅占一行，并存放在名为“已处理数据”的EXCEL工作表中。由于论文与其关键词的一对多关系，为方便对关键词的统计处理，另生成一个名为“已处理数据?KW”的EXCEL工作表，以存放关键词信息，每一题录将产生与关键词数量对应的信息行。本程序除完成正常的信息提取之外，还对RefWork文件中部分信息缺失的题录作了容错处理，使程序具有相当的鲁棒性。
　　考虑到核心期刊具有对期刊质量较好的指示作用，而由北京大学出版社编订的“中文核心期刊要目总览”每4年修订1次，每次变化并不大，故将以最新的2008年第五版“中文核心期刊要目总览”作为认定核心期刊的依据，保存在“2008中文核心”工作表中；为进一步了解不同作者的研究领域分布，以刊物的CN刊号中的中图分类号字段作为学科／领域的一个区分指标，分类号与分类码的关系保存在“中图分类码”工作表中，据此可确定论文所属的研究领域。因篇幅所限，此部分代码略去。
　　２.３论文的计量分析及图示
　　本功能使用“论文统计”子菜单项，借助VBA编程软件及数据透视表分析工具，用于从“已处理数据”工作表中提取出论文的相关信息，并完成对文献的文献量、文献著者、文献所属学科、主要来源文献的计量统计及其图示。
　　Sheets(″处理后数据″).Select
　　Range(″A1″).Select‘计算″处理后数据″工作表中全部数据块大小，并为其定义一个名称“DataArea”
　　i=ActiveSheet.［a65536］.End(xlUp).Row
　　j=ActiveSheet.［z1］.End(xlToLeft).Column
　　Set DataArea=Range(Cells(1,1),Cells(i,j))
　　ItemNumber=Application.InputBox(Prompt:=″请输入前n项：″,Title:=″请输入一个数值″,Type:=1,Default:=20)‘等待用户给定统计结果的最大显示项数
　　以下按“作者姓名”对文献进行统计，获得按“是否核心”分页；以“作者姓名”为行；以“年”为列，以“作者姓名”的计数项作为数据的数据透视表及其图表显示，其显示结果如后图２～４所示。
　　ActiveWorkbook.PivotCaches.Add(SourceType:=xlDatabase, SourceData:=?
　　DataArea).CreatePivotTable TableDestination:=″″,TableName?
　　:=″数据透视表1″, DefaultVersion:=xlPivotTableVersion10‘新增数据透视表，按“作者姓名”统计
　　ActiveSheet.PivotTableWizard TableDestination:=ActiveSheet.Cells(3,1)
　　ActiveSheet.Cells(3,1).Select
　　With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″是否核心″)‘指定分页方式
　　.Orientation=xlPageField
　　.Position=1
　　End With
　　With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)‘指定行数据
　　.Orientation=xlRowField
　　.Position=1
　　End With
　　With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″年″)‘指定列数据
　　.Orientation=xlColumnField
　　.Position=1
　　End With
　　With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)‘指定数据项
　　.Orientation=xlDataField
　　.Position=1
　　End With
　　Range(″A5″).Select
　　ActiveSheet.PivotTables(″数据透视表1″).MergeLabels=True
　　With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)
　　.AutoSort xlDescending,″计数项:作者姓名″
　　.AutoShow xlAutomatic,xlTop,ItemNumber,″计数项:作者姓名″
　　End With
　　ActiveWindow.SmallScroll Down:=0
　　ActiveSheet.Name=″按作者统计″‘指定统计数据工作表名为：“按作者统计”
　　ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″计数项:作者姓名″).Caption=″发表论文数″
　　Charts.Add‘增加一个统计图表
　　ActiveChart.SetSourceData Source:=Sheets(″按作者统计″).Range(″A5″)
　　ActiveChart.Location Where:=xlLocationAsNewSheet
　　ActiveSheet.Name=″按作者统计图″‘指定统计数据图表名为：“按作者统计图”
　　……类似的，以下分别实现“按期刊统计”、“按期刊的中图分类统计”、“按作者单位统计”、“按论文关键词统计”及“汇总统计”功能，产生相应的数据透视表及其图表显示，如后文中图５～１０所示。
　　２.３.１文献量分析
　　文献量是指某一学科研究者在某一段时间内所发表论文数量的多少，而核心期刊则是指其中一部分学术水平较高、影响力较大的那些期刊，其收录情况分析可以更好地衡量论文在某一学术领域的科研成就与实力。
　　某一学科领域学术论文发表的时间分布，在一定程度上反映该领域学术研究发展的脉络。由图１可直观看出2006年无相关论文，2007-2010年（本年度末全部统计）相关研究论文数量无论是核心还是非核心均呈较明显的增长趋势，这和近年来我国微博领域的快速发展相吻合，已逐渐成为学术界研究的热点问题。数据同时表明：同期核心期刊所占比重并不高，如何进一步提高论文质量还需要一定的努力。一般而言，当学科处于诞生和发展阶段，科学文献呈指数增加；当学科进入相对成熟阶段，科学文献的增长就不能总保持原有指数速率，增长率变小，但文献寿命变长。从统计结果看，国内对“微博”领域的研究尚属于快速发展阶段。
　　从图１左上角可观察到新增加的菜单及菜单项。
　　２.３.２文献著者分析
　　（１）文献作者分析
　　文献作者的分析有助于确定某学科研究的核心作者。
　　图２与图３左上角“B1”单元格可供用户通过鼠标选择“核心”、“非核心”或“全部期刊”作为统计范围。
　　从图２可见，就全部期刊而言，“本刊编辑部”、“刘兴亮”、“喻国明”、“杨澍”、“闫肖锋”等5位作者名列前茅，发表论文4～9篇；从图３可见，就核心期刊而言，“喻国明”、“段钢”、“陈霞”3位作者名列前茅，发表论文2篇；从图４可见，就非核心期刊而言，“本刊编辑部”、“杨澍”、“闫肖锋”、“刘兴亮”4位教师名列前茅，发表论文4～9篇，而发表3篇论文的共有4人，发表2篇论文的共有23人。可见论文的发表无论在数量还是质量上均存在较大的不均衡。图２论文著者分析（全部期刊）
　　（２）文献作者单位分析
　　文献作者单位的分析有助于确定某学科研究的核心机构，并据此判断该机构在此领域研究的综合实力。
　　从图５可见，就全部期刊而言，“暨南大学新闻与传播学院”、“新周刊”、“中国人民大学新闻学院”、“互联网实验室”、“复旦大学新闻学院”5个单位名列前茅，发表论文4～5篇，发表3篇论文的还有3个单位；从图６可见，就核心期刊而言，“暨南大学新闻与传播学院”、“复旦大学新闻学院”、“中国人民大学新闻学院”、“上海广播电视台广播新闻中心采访部”4个单位名列前茅，发表论文2～5篇；可见各单位研究实力也有一定的差异。
　　注意：图５～６中的“空白”项的产生是因为CNKI题录文件所收录的部分文献末提供相关单位信息所致，主要是博硕士论文等。图５著者单位分析（全部期刊）
　　２.３.３文献来源期刊分析
　　（１）主要来源期刊分析
　　主要来源期刊是指刊载某领域研究论文较多的期刊，分析主要来源期刊有助于确立某研究主题的核心期刊，把握该主题的主要研究成果。在论文投稿时，我们也可优先考虑将研究成果投向这些期刊，这样既可提高命中率，也有利于扩大研究成果的影响。
　　从图７可以看出，就全部期刊而言，“青年记者”、“IT经理世界”、“互联网天地”、“广告大观(综合版)”4种刊物发文量较多，分别为11～25篇；从图８可以看出，就核心期刊而言，“中国记者”、“新闻与写作”、“新闻记者”、“新闻战线”4种刊物发文量较多，分别为4～8篇。
　　（２）来源期刊类别分析
　　来源期刊类别是指刊载某论文的期刊所属的学科领域。笔者利用CN刊号中的中图分类号作为学科领域统计的依据，得出图９。从图９中可见：“信息与知识传播”、“经济”、“自动化技术、计算机技术”、“工业技术”4类学科领域当前研究的重点，分别占45～104篇。图６著者单位分析（核心期刊）
　　２.３.４文献关键词分析
　　通过文献关键词分析可大体把握相关学术研究的重点问题及其变化趋势。从图１０中可见：全部文献中，“博客”、“互联网”、“用户”、“网站”、“传统媒体”、“新浪”构成前6类关键词，其数量分别为“48～148”。
　　３结论
　　通过以上基于EXCEL以VBA技术对CNKI提供的题录图９来源期刊类别统计（全部期刊）
　　图１０文献关键词分析（全部期刊）
　　信息的自动提取及计量分析，可以看出利用CNKI输出的RefWork题录文件快速自动获取文献基本信息的便捷性和可靠性。本文所介绍方法可以大大降低文献计量研究的劳动强度，提高工作效率，降低错误发生率，使研究者可以集中精力于更有价值的文献内容的深度挖掘。
　　通过本文方法，对“微博”这一研究领域进行了相应的实证研究，统计结果还客观上揭示了“微博”这一研究方向近五年学术论文的产出状况。从年份分布来看，近年来相关论文的数量快速上升，说明相关领域的研究方兴末艾，也表明还有众多工作需要完善。通过对本领域前人工作成果的研究，有助于梳理研究发展的脉络，更好的把握研究方面，借鉴前人成功经验，并发现研究中存在的不足，为笔者“基于微博的社会舆情研判与预警”研究项目的发展提供基础支撑。本文所述方法可简单地推广至其它研究方向和领域，所提供的小工具软件也为文献检索与挖掘提供了一种有益的思路及实现方法。
　　
　　参考文献
　　［１］邱均平.文献计量学［Ｍ］.北京：科学技术文献出版社，1988：43-198.
　　［２］林营志,苏明星,刘波.结合EndNote和CNKI题录辅助科技论文文献编排［Ｊ］.农业网络信息,2005,（3）:41-43.
　　［３］周春雷,王伟军,成江东.CNKI输出文件在文献计量中的应用［Ｊ］.图书情报工作，2007，51(7):124-126.
　　［４］宋丽华,伍若梅.基于CNKI文献的我国个人数字图书馆的文献计量分析［Ｊ］.现代情报,2009,29(11):76-80.

标签：计量文献文件分析

[基于EXCEL及CNKI题录文件实现对文献主题的计量分析] 题录是几次文献

文章分类

最新发表