中文XML论坛--关于对xml进行数据挖掘

一种基于的数据挖掘模型
沈洁,薛贵荣
(扬州大学计算机科学系,江苏扬州225009)
摘要: 随着HTML格式的出现,Internet得到了迅猛发展,面对着浩瀚如烟的数据,为了从中发现潜在
的、有价值的信息,必须对Web信息进行挖掘,但由于HTML语言特点,使得Web信息的组织结构性很
差,对于进行Web数据挖掘工作有很大的阻碍,XML语言的出现从根本上解决了这个问题,XML语言
具有良好的结构,层次性好,用其对Web页面信息进行组织,有利于进行数据挖掘工作.本文通过对
XML语言的认识提出了一个基于XML的WebMiner模型,以帮助用户快速、有效的挖掘Web上的信
息.
关键词: HTML;XML;数据挖掘;数据仓库;Web数据挖掘
中图分类号: TP391.1        文献标识码: A
XML-BasedWebMiningTechnology
SHENJie,XUEGui-rong
(DepartmentofComputerScience,YangzhouUniversity,Yangzhou225009,China)
Abstract: TheInternetmadeagreatdevelopmentforthediscoveryofHTML.Facingthefloodofthe
informationontheweb,WemustminetheWebinformationinordertogetinner,valuedinformation.
ForthelimitofHTML,thestructureoftheinformationonthewebisverypoor,soitistoodifficultto
minethevaluableinformation.XMLhasgoodstructure,itcansolvethequestions.Inthispaper,we
discusstheXML,thenputforwardModel,whichnamedXMLWebminer,tohelptheuserminethe
valuableinformationontheweb.
Keywords: HTML;XML;datamining;datawarehouse;webdatamining;semi-structure
收稿日期:2001-02-16
资助项目:国家自然科学基金(66074013)
  作者简介:沈洁(1955-)男,江苏,副教授,硕士生导师,主要研究方向为软件工程,数据挖掘;薛贵荣(1974-),男,江
苏,讲师,硕士,主要研究方向为数据仓库,数据挖掘.
1 引言
随着Internet的迅猛发展,我们面临着数据爆炸的挑战,也常常会感到被数据淹没却仍觉得知识饥
饿的困惑,缺乏适当的工具,面对着浩瀚如烟的数据而手足无措,难免会有“入宝山而空手返”的遗憾.于
是,一个新的挑战被提了出来.在这信息爆炸的年代,如何才能不被信息的汪洋大海所淹没,从中发现有用
的知识,提高信息的利用率?Web上的搜索引擎部分地解决了Web的资源发现问题,但是其精确度不高,
其结果远不能使人满意.Web的数据挖掘(DataMining)技术应运而生,并且也取得了一些令人满意的结
果.例如有不少产品可以筛选Internet上的新闻等.但面向Internet的数据挖掘比面向数据库的数据挖掘
要复杂得多.因为传统数据库的数据是结构化的,而Internet上的数据绝大多数是非结构化甚至是无结构
的.为了能够在Internet上挖掘出相干信息,对Web页面信息的组织就显得非常的必要.
传统的HTML语言是一种超文本的标志语言,HTML对整个WWW的发展、知识与信息的流通起了
关键的作用,可以说更直接带动了前所未有的信息革命.不管在网络上发布信息,做文件交流,HTML成了
Internet上通行最广的标准格式.HTML是一种面向数据显示样式的标签语言,主要描述文档的标题、字
体、颜色等外观方面的属性.由于HTML语言的特点,在进行Web页面信息的开发时,站点的数据都是由开发人员自行设计放置的,而且HTML实际上只提供了如何在浏览器中显示信息的方式,而没有反映数据本
身所包含的语义,并且其数据本身具有自描述性和动态可变性等一系列复杂的特性,其结构也是不可琢磨.
在这种情况下,进行数据挖掘其复杂性是非常高的,所以要真正做到精确,高效地查询数据,十分困难.
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知
道的但又是潜在有用的信息和知识的过程.面向Internet的数据挖掘可以说是一个比较前瞻性的问题,有
人称之为InternetMining或者是WebMining,也取得了一些令人感兴趣的结果,例如最近有不少产品用
来筛选Internet上的新闻,保护用户不受无聊电子邮件的干扰和商业推销,受到极大的欢迎.但面向In-
ternet的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多.因为传统数据库中的数据是结构化的,而
Internet上的数据其最大特点是半结构化的,这就决定了面向Internet的数据挖掘将是一个颇具挑战性
的课题.所谓半结构化是相对于结构化和非结构化而言的.例如传统数据库中的数据结构性很强,我们称
之为完全结构化的数据,而同时还存在一些诸如一本书、一张图片等完全无结构的数据.但是Internet上
存在的数据既不是完全结构化的,也不是完全非结构化的,因为它的页面也具有一定的描述层次的,存在
一定的结构,所以我们将它称为半结构化的数据.对于这种结构类型,必须采用相应的语言来处理.
在本文中,阐述了基于数据语义的XML语言的规范,并且在此基础上对基于XML语言的Web数据
挖掘技术进行了探讨,设计了一个Web信息挖掘的系统模型(XMLWebMiner).
2 面向数据语义XML语言规范
XML(ExtensibleMarkupLanguage)即“可扩展的标置语言”,XML与HTML都是从SGML(标准
通用标置语言)衍生而来,XML区别于HTML的最大特点就是XML是可扩展的,即它允许用户根据行
业规范定义标置(TAG).XML既不是HTML的改进,也不是HTML的替代品,它是一种完全面向数据
语义的标置语言,是数据的容器,它不关心数据的显示样式与布局效果,取消了类似HTML语言的显示
样式与布局描述能力,突出了数据的语义与元素结构描述能力.
2.1 XML文档的基本结构
下面是一个简单的图书信息的XML文档形式:
〈book〉
〈books〉
  〈name〉Linux〈name〉
  〈author〉Tomas〈author〉
  〈price〉200〈price〉
〈book〉
〈book〉
  〈name〉Windows〈name〉
  〈author〉Gates〈author〉
  〈price〉100〈price〉
〈book〉
〈books〉
在这个文档中:
〈books〉〈books〉表示图书元素的开始与结束的标志(TAG);
〈book>〉〈book〉表示某个图书介绍的开始与结束标志(TAG);
〈name〉与<name>、〈author〉〈author〉、〈price〉〈price〉表示书名元素、作者、单价的开始与结束标
志(TAG);
XML通过层次关系表现了元素之间的所属关系,其层次关系图如图1所示.
在XML文档中,其结构良好(Well-formed)是很关键的.这点与HTML语言又有很大的不同,HTML语
言的结构要求不太严谨,如〈br〉可以表示一个回车符,但在XML文档中,为了很好地表现其层次结构,所以其
75第9期一种基于XML的Web数据挖掘模型图1 XML文档的层次结构
结构要求很严格,标志(TAG)必须前后匹配;如上面的回车符必须用〈br〉〈br〉或〈br〉才可以.
2.2 XML文档的存储
XML文档首先是一种文本信息,一般以文本形式进行存储.但这种存储形式只能适用于少量的信
息.如果对于包含大量数据(如企业数据形式)用一般的文本方式就力不从心了.对象关系数据库
(ODBMS)提供了对于XML信息的存储,XML本质是元素与对象的一个分层结构,而ODBMS又特别适
合存储层次型数据.并且ODBMS能够在元素这一层次上管理与操纵数据,并在这一层次上提供了完善的
加锁模式.除此之外,将信息存储在关系型数据库上,将查询结果转换为XML也是一种方法.
2.3 XML文档的输出
XML描述的是数据的内容或语义,而不像HTML那样描述显示样式和布局.那么,如何将XML描
述的内容“展现”给用户呢?
图2 XML文档的Web输出
XML文档除了可以用文本编辑器浏览外,由于它具有天
然的层次结构,许多工具如InternetExplorer还可以将XML
文档显示为一个可扩展的树形结构.更为复杂的输出样式需要
用到过滤器.例如,对于一部XML格式的小说,如果要将它以
传统的纸张方式、Web页面格式和适合掌上设备阅读的格式
发布,就需要分别为这三种不同媒体提供输出样式说明,但描
述内容的XML文档无需任何改动,这就实现了内容与显示样
式的分离.
可扩展样式语言(ExtensibleStyleLanguage,XSL)是用
得最多XML过滤器.XSL建立在已有的标准,包括文档样式语义与规范语言(DocumentStyleSemantic
andSpecificationLanguage,DSSSL)和级联式样式表(CascadingStyleSheets,CSS)之上.XSL比CSS更
为全面,但许多地方仍保持一致,如使用相同的名字命名样式属性.XSL页式一种说明性语言,因此,即使
非专业程序员的用户也有可能应用它的格式化规则来定义元素的显示样式.除了格式化功能,XSL规则
也提供在最终输出中转换、排序和隐藏元素的能力.
3 Web数据挖掘
从数据库研究的角度出发,Web上的信息也可以看作一个数据库,Web上的每一个站点就是一个数
据源,每一个数据源都是异构的,因为每一个站点的信息及其组织形式上都不一样,这就构成了一个巨大
的、异构的数据环境.由于Web上信息的多样性决定了Web挖掘任务的多样性,按照处理对象的不同,我
们将Web挖掘分为两大类:内容挖掘和结构挖掘,前者指的是从Web文档的内容信息中抽取知识,而后
者指的是从Web文档的结构信息中推导知识.Web结构挖掘又分为对文本文档(包括Text,Html等格
式)和多媒体文档(包括Image,Audio,Video等媒体类型)的挖掘.Web结构挖掘不仅仅局限于文档之间
的超链结构,还包括文档内部的结构、文档URL中的目录路径结构等.
基于XML语言的Web数据挖掘:由于XML实现了数据与形式的分离,XML文档的标志(TAG)是
76系统工程理论与实践2002年9月图3 面向结构化数据的数据挖掘模型
具有语义的,其标志是按照行业规范来进行设置的,能够反映一
定的数据的含义,并且其结构是一种层次型的数据模型.其可操
作的基础要比HTML语言好,我们也可以将其与关系数据库中
的属性一一对应起来,这样就可以支持精确的查询.
4 基于XML语言的Web数据挖掘模型
我们在上面对XML及数据挖掘的分析的基础上,设计了一
个Web信息挖掘系统的模型,采用信息收集与数据挖掘分离的
形式.如图4所示.
信息采集:采用采集Agent从XML文档中查询收集信息,
并将信息存放到Web信息的数据仓库中.在数据仓库中包含两
部分信息:文本数据仓库与结构数据仓库.其中在前者放置Web
图4 基于XML的Web数据挖掘模型
页面的文本数据,在后者放置Web页面的结构数据.
数据挖掘:利用成熟的数据库挖掘技术从Web信息数据仓库中对数据信息进行在线联机处理与数据
挖掘.
系统说明:采集Agent从WebServer中取得XML文档,对其文本与结构进行分析,取得数据,将其
存放到本地相应的数据仓库中,这时,用户可以对数据仓库中的数据进行显示,联机在线处理以及数据挖
掘.在此过程中,所有的工作都可以通过相干的代理来完成,不需要用户的干预.
5 结束语
在Internet迅速发展,电子商务流行的趋势下,对Web信息的挖掘具有极大的潜力.虽然目前,XML
数据组织形式的网站还比较少,XML中文档才刚刚起步,将HTML数据组织形式的网站改为XML数据
组织形式的网站,还存在着很大的困难.但XML语言提供了对Web页面信息的很好的规范,而且XML
语言的数据挖掘可操作性强,对于网络尤其是电子商务网站的发展更有着极大的推进作用;所以,可以预
见的是:网站的XML化的趋势是肯定的和势不可挡的.
参考文献:
[1] BayT,PaoliJ,Sperberg-McQueenCM.ExtensibleMarkupLanguage(XML)1.0SpecificationWorldWideWeb
ConsortiumRecommendation[EBOL].http:www.w3.orgTRREC-xml,1999.
[2] AnanelSS.Designingakenelfordatamining[J].IEEEExpertonIntelligentSystem,1997,27(3):947-963.
[3] LawrenceS,etal.Searchingtheworldwideweb[J].Science,1998,280(5360):98-100.
[4] AnneLear.XMLSeenasIntegraltoapplicationintegration[J].ITPro,1999,(910):1012-1031.
77第9期一种基于XML的Web数据挖掘模型


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	78.125ms