基于主题模型的中外期刊文献挖掘对比研究 - 上海经济研究杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 上海经济研究

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

基于主题模型的中外期刊文献挖掘对比研究

作者:

关键词:

摘要：

学术期刊是科教事业发展过程中的关注焦点之一，对学术期刊文献进行统计分析，有助于直观地分析我国的科学创新和技术创新水平。如何从大量的期刊文本数据中发现有价值的信息，变得尤为重要。本文选取经济类的国内期刊《经济研究》和国外期刊《美国经济评论》为代表，对其进行WEB文本挖掘，然后对内容作描述性分析和词频趋势分析，以及文本挖掘模型的对比化分析。通过中外期刊对比，能够发现国内和国外相应领域目前的研究现状及关注热点的发展趋势，并且可以发现中文与英文分词方法的不同，同时为经济学者和读者的研究提供参考。

1 文本建模相关理论

1.1 文本分词处理和去停止词及词根还原

在进行文本挖掘之前，需要先对文本原始数据进行预处理。而在文本预处理过程中，分词是最重要的一个环节。对于英文文本，通过空格和标点很容易将文章拆分成词；但对于中文文本，文本分词的过程比较复杂，比较常用的中文分词方法包括：词典法[1]，隐马尔科夫过程[2]和CRF模型[3]。通常一篇文本中的冠词、连词和介词等虚词以及在整个文本集中出现频率很高、但对区分类别作用不大的词，被称为停止词[4]。去除停止词是文本预处理中不可缺少的步骤，它们可以使分词结果变得更准确，为后续的特征表示和统计建模提高精度。与中文相比，英文中同一个词有词形的变化，而因为词义本身没有变化，就不应该作为独立的词来存储和参与分类计算。去除这些词形不同但词义相同的词，仅保留一个副本的步骤就称为“词根还原”，经过“词根还原”，英文文本预处理过程结束。

1.2 文本特征提取

文本挖掘的一个基本问题是文本的表示及其特征项的选取。如果直接将分词结果作为特征项来表示文本，那么这个文本向量的维度将会非常大，因而，必须从文本中提取出特征词来表示文本信息，即通过特征选择来降低文本向量的维度。特征项必须具备如下的特性：(1)文本内容需要被特征项所标识；(2)将目标文本与其他文本需要被特征项相区分；(3)特征项的个数不能太多，否则起不到降维的效果；(4)特征项分离比较容易实现。

特征项选取的方式通常有4种：(1)通过映射或变换的方法把原始特征映射为较少的新特征；(2)从原始特征中挑选出一些最具代表性的特征；(3)根据专家的知识挑选最有影响的特征；(4)用数学的方法找出最具分类信息的特征。这里的第4种方法是一种比较精确的方法，人为干扰因素较少，比较适用于文本自动分类挖掘系统。

1.3 基于LDA主题模型和CTM主题模型的文本建模理论

在自然语言处理领域，主题模型越来越受到广泛关注。主题模型是提取文档中隐含主题的一种概率模型，是对文字隐含主题进行建模的一种方法[5]。它打破了传统空间向量文档-词的思维定向，将文档映射到主题空间上，表示为文档-主题-词。用主题描述文档，有效地降低了维度，即主题模型克服了空间向量模型的缺点。

现阶段主要应用的主题模型包括LDA主题模型和CTM主题模型。

LDA(Latent Dirichlet Allocation)模型是Blei等人在2003年提出的[6]，他们在pLSI方法[7]的基础上加入先验分布Dirichlet分布得到LDA模型。LDA主题模型生成文本的过程如下[8]：

(a)对于主题z，根据Dirichlet分布Dir(β)得到该主题上的一个单词多项式分布向量φ；

(b)根据泊松分布P得到文本的单词数目N；

(c)根据Dirichlet分布Dir(α)得到该文本的一个主题分布概率向量θ；

(d)对于该文本N个单词中的每一个单词Wn：

(d1)从θ的多项式分布Multinomial(θ)随机选择一个主题z；

(d2)从主题z的多项式条件概率分布Multinomial(θ)选择一个单词作为Wn。

其中，α和β是Dirichlet分布的参数，一般都是对称并且是固定值，α反映了文档集合中隐含主题间的相对强弱；β刻画了所有隐含主题自身的概率分布。

CTM模型则利用Logistic正态分布中的协方差矩阵来代表主题之间的关系。CTM主题模型生成文本的过程如下[9]：

(a)给定K个主题，各个主题都是全部词语的一个分布；

(b)从多维分布中，随机选取一个主题；

(c)从多维分布中，随机选取一个单词；

(d)重复以上过程，直到所有文档的所有词被抽取。

2 中外期刊文献挖掘对比研究

2.1 数据来源和文本数据预处理

文章来源：《上海经济研究》网址: http://www.shjjyjzz.cn/qikandaodu/2020/1014/502.html