以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 WORD to XML, HTML to XML 』  (http://bbs.xml.org.cn/list.asp?boardid=13)
----  关于本版块以及基于XML的Web挖掘的问题  (http://bbs.xml.org.cn/dispbbs.asp?boardid=13&rootid=&id=41568)


--  作者:fangel2000
--  发布时间:12/24/2006 9:19:00 PM

--  关于本版块以及基于XML的Web挖掘的问题
这个版块的人气实在是不怎么旺盛,来了这么长时间了。很少看到有人发帖子,也很少看到有人回帖子,不知道是不是研究这方面的人实现是太少了还是其它的什么原因
我的论文是做基于XML的Web挖掘的
我的设计思想是将HTML转换成XML后,再解析XML,提取感兴趣的内容
但是关于HTML如何转换成XML的问题,我在网上找了不少资料
还没有找到一个完整的转换过程的,主要是因为有的网页不规范导致的,很多都只是在理论上实现了这样的一个构思.不知道大家可有谁实现了这样的一个过程
到现在了我还一点头绪也没有,因为我以前是研究语义Web的
如果有的话,告诉我,我不胜感激
我的邮箱:fangel2000@163.com
QQ:24163272
--  作者:edward007
--  发布时间:1/19/2007 11:12:00 AM

--  
我也有此问题啊,我想做基于DOM的解析,不知道楼主有这方面的资料吗,互相交流一下啊。
--  作者:yestoday11
--  发布时间:2/2/2007 11:58:00 AM

--  
如果需要的内容不多,还是用字符串检索解析的方式吧!
原因如下:
1.html中有很多隐式的字符无法解决
2.用dom解析一个文件资源耗费比较大
--  作者:goodhero
--  发布时间:2/4/2007 9:45:00 AM

--  
可以找一找开源的项目
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
62.500ms