以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 WORD to XML, HTML to XML 』 (http://bbs.xml.org.cn/list.asp?boardid=13) ---- 关于本版块以及基于XML的Web挖掘的问题 (http://bbs.xml.org.cn/dispbbs.asp?boardid=13&rootid=&id=41568) |
-- 作者:fangel2000 -- 发布时间:12/24/2006 9:19:00 PM -- 关于本版块以及基于XML的Web挖掘的问题 这个版块的人气实在是不怎么旺盛,来了这么长时间了。很少看到有人发帖子,也很少看到有人回帖子,不知道是不是研究这方面的人实现是太少了还是其它的什么原因 我的论文是做基于XML的Web挖掘的 我的设计思想是将HTML转换成XML后,再解析XML,提取感兴趣的内容 但是关于HTML如何转换成XML的问题,我在网上找了不少资料 还没有找到一个完整的转换过程的,主要是因为有的网页不规范导致的,很多都只是在理论上实现了这样的一个构思.不知道大家可有谁实现了这样的一个过程 到现在了我还一点头绪也没有,因为我以前是研究语义Web的 如果有的话,告诉我,我不胜感激 我的邮箱:fangel2000@163.com QQ:24163272 |
-- 作者:edward007 -- 发布时间:1/19/2007 11:12:00 AM -- 我也有此问题啊,我想做基于DOM的解析,不知道楼主有这方面的资料吗,互相交流一下啊。 |
-- 作者:yestoday11 -- 发布时间:2/2/2007 11:58:00 AM -- 如果需要的内容不多,还是用字符串检索解析的方式吧! 原因如下: 1.html中有很多隐式的字符无法解决 2.用dom解析一个文件资源耗费比较大 |
-- 作者:goodhero -- 发布时间:2/4/2007 9:45:00 AM -- 可以找一找开源的项目 |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
62.500ms |