当前位置: 东星资源网 > 高考资料 > 高考资讯 > 正文

_基于关联规则挖掘的新疆科技人才流失的影响因素分析

时间:2019-02-06 来源:东星资源网 本文已影响 手机版

  【摘 要】目前由于自然环境、经济、教育等方面的原因,新疆地区科技人才大量流失,严重制约了新疆地区的经济发展。因此,新疆科技人才流失意愿预测方法的研究具有极其重要的应用价值和理论意义。本文应用数据挖掘中关联规则的办法来对新疆科技人才各个方面进行分析,定义流失意愿为结果项,其他方面为条件项,利用sas软件在给定的支持度,置信度的前提下得出了一些关联规则:科技工作者的年龄与流失意愿有关联;个人发展空间和收入水平与流失意愿有关联;收入水平、婚姻状况和工作设施条件与流失意愿有关联;最高学历、婚姻状况和自我成就感与流失意愿有关联;这么规则都可以为政府的决策提供参考。
  【关键词】人才流失;数据挖掘;关联规则
  
  一、引言
  人才是科学技术进步和经济发展最重要的资源,我国现代化建设的进程在很大程度上取决于国民素质的提高和人才资源的开发,人才对地区经济发展起着十分重要的作用。近年来不同地区都存在着不同程度的人才流失问题,尤其是对于经济相对落后的地区,人才流失已经成为这些地区迫切需要解决的问题。
  对于欠发达地区的新疆而言,由于地处边远,交通不便,自然环境恶劣,经济发展滞后,生活水平相对较低等诸多原因,造成新疆人才不足和人才流失共存的严重局面。人才的匮乏,必将影响社会经济的发展,而社会经济发展水平的相对滞后,又将造成人才的流失,进而使经济发展问题更加突出。如此将形成人才需求与社会经济发展需求的恶性循环,甚至可能影响到整个地区的社会政治稳定。显然,人才流失问题是一个事关新疆发展全局的大问题,必须引起我们的高度重视,对人才流失问题的研究也是一项十分必要且迫在眉睫的工作。
  近年来,国内学者对地区人才流失问题的研究探索较多,尤其是对于如西部这种欠发达地区的人才流失问题显得更为关注。他们通过对人才流失的调查,探讨了影响人才流失的因素,但存在不足之处,仅通过简单的定性分析来分析人才流失的影响因素,这样的分析不够精确。基于上述思考,本研究立足在关联原则基础上对新疆科技工作者的各个方面进行分析,定义流失意愿为结果项,其他方面为条件项,利用sas软件在给定的支持度,置信度的前提下选择出最优的关联规则,以帮助政府进行决策。
  二、关联规则挖掘技术Apriori 算法介绍
  Agrawal等在1993年设计了关联规则挖掘的基本算法Apriori,这是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法适合于最大项目集相对较小的数据集的挖掘。
  该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
  三、实证分析
  下面运用Apriori算法对新疆科技人才的流失数据库进行关联规则挖掘,找出一些不容易观察到的隐藏信息,进而分析新疆科技人才流失的原因,为政府的决策提供依据。
  (一)数据来源及变量的选择与描述性分析
  1.数据来源
  本文的数据来自2010年12月份新疆维吾尔自治区科学技术协会受中国科学技术协会委托而组织的新疆范围的科技工作者的抽样调查问卷数据,该调查对象为全疆科技工作者,调查范围为全疆所有的地州。共发放问卷2800份,回收问卷2536份,其中有效问卷2510份。
  2.变量的选择
  我们主要想分析新疆科技人才的年龄、政治面貌、最高学历、职称、收入水平、查阅资料方便情况、单位的员工进修培训情况、单位的工作设施条件、工作稳定性、发挥专业特长、自我成就感、个人发展空间、单位学术气氛和流失意愿是否存在联系。因此剔除了其他无关的字段,只保留了上面提到字段。
  3.变量的描述性分析
  年龄在30岁以下的占20.2%,年龄在30-40岁的占39.3%,年龄在40岁以上的占40.6%;职称为初级及以下的占33.5%,职称为副高级及以上的占31.3%,职称为中级的占35.1%;收入水平处在上层的占6.2%,处在中层的占73.4%,处在下层的占20.45;对自我成就感不满意的占17.9%,满意的占36.8%,一般的占43.9%;对工作设施条件不满意的占26.6%,满意的占29.8%,一般的占43%;对个人发展空间不满意的占22.3%,满意的占29.5%,一般的占48.2%;最高学历为本科及以上的占69.3%,本科以下的占30.7%,通过上面的分析,可以大概了解新疆科技人才样本的统计分布情况。
  (二)研究方法―关联规则
  根据本次调查数据的特点,我们设定最小支持度为8%,最小置信度为45%。以Apriori 算法为基础,用Sas编制了程序。运行程序后得到了很多条关联规则,从中选取了符合本次分析目的关联规则进行分析。
  (三)结果分析
  挖掘出的部分关联规则如表1所示。
  
  规则1表达了这样的一个信息:对个人发展空间不满意的、收入水平处在中层的科技工作者占此次受调查人数的8.78%,他们之中有55.94%的人有流失意愿。采用非参数统计列联表方法检验变量关系,卡方(Pearson Chi-Square)检验值为31.497,自由度DF=8,检验P值远远小于显著性水平0.05,说明他们之间的关联性是显著的。
  规则2表达了这样的一个信息:最高学历为本科及以上的、自我成就感一般的已婚科技工作者占此次调查人数的13.71%,而他们之中有54.58%的人有流失意愿。采用非参数统计列联表方法检验变量关系,卡方(Pearson Chi-Square)检验值为47.133,自由度DF=21,检验P值为0.001,小于显著性水平0.05,说明他们之间的关联性是显著的。
  规则3表达了这样的一个信息:最高学历为本科及以上的、对单位学术气氛不满意的、职称为副高级及以上的科技工作者占此次调查人数的12.95%,而他们之中有52.92%的人有流失意愿。采用非参数统计列联表方法检验变量关系,卡方(Pearson Chi-Square)检验值为63.655,自由度DF=34,检验P值为0.002,小于显著性水平0.05,说明他们之间的关联性是显著的。
  规则4表达了这样的一个信息:年龄介于30-40之间的受调查者占调查总数的19.99%,而他们之中有51.91%的人有流失意愿。采用非参数统计列联表方法检验两个变量关系,卡方(Pearson Chi-Square)检验值为7.382,自由度DF=2,检验P值远远小于显著性水平0.05,说明他们之间的关联性是显著的。
  四、结论与启示
  1.结论
  本文将数据挖掘技术中的关联规则运用到对新疆科技人才流失影响因素的分析中,通过对新疆科技人才调查数据进行关联规则分析,得到了一些很有启发性的关联规则,规则1、2有较高的置信度,决策者应该着重考虑这些关联规则。学历越高的科技工作者,越容易流失,收入中等的比收入低的或高的更容易流失,对个人发展空间不满意的科技工作者更容易流失,工作自我成就感一般的科技工作者也容易流失。
  2.启示
  对于学历高的科技工作者,决策者应该提高他们的收入水平,为他们提供广阔的发展空间和良好的工作条件,使他们体会到工作的舒适感和成就感。对关联规则分析得出的知识可用来指导政府和有关单位对有流失意愿的科技人才进行挽留。
  
  参考文献:
  [1]吕晓玲,谢邦昌.数据挖掘方法与应用[M].中国人民大学出版社,2009.
  [2]李雄飞,李军.数据挖掘与知识发现[M].高等教育出版社,2003.
  [3]杨玉萍,孙玉瑷,杨华.西部人才流失的现状、原因及对策[J].西北农林科技大学学报,2002.
  [4]钟杰,覃宪儒.当前西南民族地区科技人才流失的原因及对策[J].开发研究,2005.
  [5]洪燕云,吴健,陈慕.欠发达地区人才流失的原因及对策[J].合肥工业大学学报,2002.
  
  作者简介:
  程波华,男,新疆财经大学统计与信息学院硕士研究生,研究方向:经济管理统计。
  王建军,男,新疆财经大学统计与信息学院教授,硕士生导师,研究方向:经济管理统计。

标签:新疆 关联 挖掘 因素