web数据挖掘算法_基于web针对网页优化的数据挖掘技术

时间：2019-02-10 来源：东星资源网本文已影响人手机版

　　摘要：首先分析了Web数据挖掘的基本概念以及发展状况，然后介绍了Web数据的使用模式挖掘，并重点对关联规则挖掘进行研究，研究了关联规则挖掘中的apriori算法，最后利用apriori算法对网站数据进行实验，来进行检测，通过对实验结果的分析关联规则挖掘在页面优化设置中的作用。
　　关键词：数据挖掘 web挖掘关联规则挖掘页面优化设置
　　中图分类号：TP39 文献标识码：A 文章编号：1007-3973（2012）002-071-02
　　1 概述
　　数据挖掘就是从存放的海量的数据当中经过处理之后得到有用的具有价值的知识，随着现代网络技术的不断发展和丰富，存在于互联网的网页数据不断的累积，而且部分在不同的区域，如何利用数据挖掘技术从这些巨量的数据当中寻找具有有价值的信息是目前人们需要解决的课题之一①。
　　在数据挖掘技术当中Web挖掘是热门研究的领域，是在对海量互联网数据进行一定的分析之后，利用数据挖掘的算法进行有用知识的提取完成挖掘过程②。与其他的数据挖掘不同的是，Web挖掘面对的数据具有很大的不一样，例如有些数据是非结构的，半结构的，这些是数据是传统数据无法保存的，Web数据挖掘就是需要解决非结构化的数据的信息处理③。
　　2 Web数据的使用模式挖掘
　　一般来说，用户通过数据挖掘可以实现二个重要的功能就是描述和预测。描述的数据挖掘是对数据库当中的数据的普遍的特性，而预测性的数据挖掘则是在对数据的一般描述的基础上进行推测，对数据的可能性进行预测④。另外，对于Web数据挖掘的使用模式来说也有着多种不同的访问模式的挖掘技术，例如浏览路径分析，关联规则和序列模式发现等⑤。在这里主要关注于关联规则方面的数据挖掘。
　　在关联规则挖掘当中，就是对发生交易数据库中不同商品项之间的内在的规律进行发现，这些内在的规律反映了顾客购买商品这个行为的模式，通过对交易数据的分析可以发现对于用户是非常有用的信息，从而可以在一定程度上帮助用户进行购物行为的分析、商品广告设计、商品货架设计以及对顾客用户的分类等，可以说关联规则在商业行为的分析当中具有广泛的应用。在关联规则当中的主要实现的是web数据挖掘的经典算法Apriori算法，Apriori算法就是对目标数据库进行扫描操作，对每个目标向出现的次数进行计数，收集在这些目标项构成频繁项目序列集L1，但这个频繁项目序列集必须不得低于最少支持度阀值；接着，对这个频繁项目序列集L1链接操作得到候选工作集C1；利用这个候选工作集C1对数据库再次进行扫描操作，从而计算得到C1中每个项目集的支持，如果不低于最小支持度阀值的项目，则记录下来构成频繁项目序列集L2；不断的重复上面的过程，直到不再有新的候选产生为止。在实现上述的Apriori算法中需要强调的是频繁项集的任何非空子集必定也是频繁的，如果项集{a,b,c}是频繁的，那么项集{a,b}也一定是频繁的。这一性质极大的降低了候选项集求解的规模，提高了算法的效率，尤其当K=1,2时。web数据挖掘的经典算法apriori算法具有的频繁项集的任何非空真子集必定也是频繁的，非频繁项集的任何超集必定不是频繁的这样的性质。
　　3 关联规则挖掘的实验与应用
　　3.1 关联规则挖掘实验
　　实验采用的数据是微软网站（www.省略）在1998年二月一个星期内的访问数据，经过随机筛选后的得到的5000位用户的访问数据，共涉及294个页面，为方便实现，将页面进行编号，取最小值支持度minsupport=0.03，应用apriori算法得到频繁项集，如图1所示。
　　
　　图1 频繁项集挖掘结果
　　共得到32个频繁项集，对于k>1的相集取最小置信度minconfidence=0.4对频繁项集产生的强关联规则进行挖掘，得到5条结果，按支持度大小排列，可得表1。
　　表1 强关联规则挖掘结果
　　
　　3.2 实验结果分析
　　根据关联规则的定义可以看出，支持度反映出了一个项集在全部事物中出现的频繁程度，由图1可以看出，页面1008(/msdownload)的支持度是最高的0.335，也就是说明，有33.5%的用户对其进行了访问，其次是1034(/ie)页面，有28.8%的用户对其进行了访问，有26.5%的用户访问了1004(/search)页面，依次类推。网站页面之间的访问模式的支持度反映了网站用户对网站页面访问路径的频繁程度。由图1可分析，从1008(/msdownload)到1034(/ie)访问模式支持度最高16.5%，是最频繁的访问模式，然后是1009(/windows)到1008(/msdownload)的访问模式有7.4%，依次类推。
　　在关联规则中，可以得到用户的对于路径访问的频繁的程度，也可以在一定程度上反映了用户对于原因集所产生的结果集，反映了用户的可能性--规则的置信度。由表1可知，比如第一条规则反映了在访问了页面1008(/msdownload)的访问事务中有49.3%转向访问1034(/ie)页面。而访问了1034(/ie)页面的访问事务，又有57.3%访问了1008(/msdownload)。访问了1009(/windows)页面的访问事务中有55.3%同时访问了1008(/msdownload)页面。而访问了1025(/gallery)页面的访问事务中有60.8%同时又访问了1026(/sitebuilder)页面。经过上述的类推和根据关联规则，就可以得到比较顺利的挖掘到用户的频繁访问的路径，进而可以对用户的可能的行为预测，在商业上就可以对潜在的用户进行商业行为的操作例如在不同的网页不同的未知插入不同的广告，达到商业营销的目的，还可以对用户的行为做进一步的分析，做个性化的营销行为。
　　3.3 挖掘结果在页面优化设置上的应用
　　可见在实验中，支持度反映出了页面被访问的频繁程度，而置信度则反映出了相关页面之间的关系密切程度。从而我们可以根据这些信息来进行网页的优化设计，这些主要是通过链接的调整实现的。
　　因此根据实验结果，我们可以针对微软的网站页面设置进行如下调整：
　　首先，对于1008，1034，1004等支持度较高的页面，以及1008和10034，1009和1008等支持度较高的路径访问模式，表明用户对其进行了频繁的访问，我们可以采取在主页上添加相关链接的方法，使得用户可以从主页上直接对其进行访问，以提高访问的效率。
　　其次，对于1008 1034, 1034 1008, 1041 1026等置信度高的路径访问模式中，则表示访问过上层页面的用户有很大可能性继续访问下层页面，应该在上层页面中添加下层页面的链接，而对于1008 1034, 1034 1008这样的两个方向置信度都很高的情况，则应该在两个页面中添加双向的链接，以方便用户访问。
　　另外，对于强关联规则和实际网站的链接的数据挖掘当中，可以发现如果强关联规则越高，用户在这些页面集在网站链接结构中的连通性差。这是由于用户是通过缓存访问页面的，因此在进行页面设计的时候需要进行着重考虑到这一点，并且在页面的适当的地方加上链接，以方便用户使用网站，提高网页的使用效率。对于如何改进链接有以下几种情况及解决方法：
　　 (1)对于内容相近页面的且用户频繁一起访问的情况，即用户一起访问的置信度大，比如存在如下关联规则， {Z.htm,T.htm} {X.htm ,Y.htm}; {Z.htm,T.htm,X.htm, Y.htm} {K.asp, W.asp}，几个网页之间内容相近，并且这些规则都具有较高的置信度，如果他们之间不连通，则只能通过缓存进行访问，降低效率。
　　 (2)对于同一导航页面上的链接所指向的页面用户频繁一起访问的情况。如存在下列规则：{default.asp，index.asp，a.htm} {V.asp}; {default.asp，U.asp} {b.htm}，index.asp,default.asp等作为引导页，而a.htm,b.htm,V.asp,U.asp则是他们之上的链接指向的页面。则以上的情况可能是用户浏览完页面之后，又返回重新寻找感兴趣的话题。
　　 (3)有些情况下链接主题有误导倾向，导致不相关的页面被用户频繁访问。这种情况一般是用户被链接误导进入一个他本身不感兴趣或无关的页面，一般这种情况是网页设计时的错误造成，这里加上链接并不能解决问题，需要重新对页面链接标题进行设计。
　　 (4)某些情况下存在信息使用时间误差。例如，假如在规则中有一条，{default.asp} {g.htm}他的置信度可能接近100%，在计算置信度中只能用近期的网站链接结构，以避免规则主观重要度高。
　　4 结论
　　在本文中，重点阐述了关联规则的挖掘，讨论了它的基本概念和特点，并研究了web数据挖掘的经典算法apriori算法。最后通过一组微软网站数据进行实验，来进行检测，通过对实验结果的分析，对网页的优化设置提供了一些改进的方案。
　　
　　注释：
　　① Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2004:3-4.
　　② 陈莉,焦李成.Internet/web数据挖掘研究现状及最新进展[J].西安电子科技大学学报(自然科学版),2001,28(l):114-118.
　　③ 严彩梅.web用户模式[J].扬州大学学报,2002,5(3):54-58.
　　④ 江宝林,申展,张川,等.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32.
　　⑤ 沈模卫,崔艳青,陶嵘.超文本阅览中人的因素[J].浙江大学学报,2002,29(3):356.

标签：数据挖掘优化网页技术

web数据挖掘算法_基于web针对网页优化的数据挖掘技术

文章分类

最新发表