中文XML论坛 - 专业的XML技术讨论区--显示贴子

以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  有用weka处理过百万级样本的数据吗？  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=50057)

--  作者：cheewu
--  发布时间：7/16/2007 11:07:00 PM

--  有用weka处理过百万级样本的数据吗？
我现有几百万个document，然后关心这些样本中包含的一万多个词条之间的关系。
想利用weka发掘关系规则。
weak能处理这么大的样本吗？
能否有incremental 方式？

--  作者：DMman
--  发布时间：7/17/2007 8:43:00 AM

--
偶没有实践过.不过Weka提供了分布式处理,您的weka安装目录下有个remoteExperimentServer.jar 就是干这个的（解压后是源码）.
在Weka中使用分布式处理要在 Experimenter 界面工作。楼主可察看该界面的功能。

--  作者：cheewu
--  发布时间：7/17/2007 9:57:00 AM

--
分布式确实可以考虑，但我现在更关心的是否能用增量方式？
一般的关系挖掘算法支持增量方式吗？

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

3,375.000ms