以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术 』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  Weka如何连接数据库[原创]  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=47488)


--  作者:DMman
--  发布时间:5/24/2007 5:24:00 PM

--  Weka如何连接数据库[原创]
以下介绍以SQL Server2000为例,其他的数据库操作方法一样,具体细节各异。

1 安装驱动程序,SQL Server2000将三个.jar加到环境变量。
2 修改 weka\experiment下的DatabaseUtils.props文件。
我们可以看到有DatabaseUtils.props.odbc DatabaseUtils.props.oracle等
我们先将DatabaseUtils.props随便改成一个其他的名字,然后将DatabaseUtils.props.mssqlserver改成DatabaseUtils.props,
打开现在的DatabaseUtils.props可以看到以下部分:(#表示注释)

2.1驱动加载
# JDBC driver (comma-separated list)
jdbcDriver=com.microsoft.jdbc.sqlserver.SQLServerDriver
2.2数据库连接,如果在本机上可以将server_name改为127.0.0.1或者localhost
# database URL
jdbcURL=jdbc:sqlserver://127.0.0.1:1433
2.3数据类型的转换。由于weka仅支持名词型(nominal)、数值型(numeric)、字符串、日期(date)。所以我们要将现在数据库中的数据类型对应到这四种类型上来。

将以下数据类型对应的句子前面的注释符合去掉。由于SQL Server2000有其他的数据类型Weka尚不能识别,所以我们在下面再添加上
smallint=3
datetime=8等等

string,getString()= 0;         -->nominal
boolean,getBoolean() = 1;  -->nominal
double,getDouble() = 2;    -->numeric
byte,getByte() = 3;        -->numeric
short,getByte()= 4;        -->numeric
int,getInteger() = 5;            -->numeric
long,getLong() = 6;                -->numeric
gloat,getFloat() = 7;            -->numeric
date,getDate() = 8;                -->date
varchar=0
float=2
tinyint=3
int=5
3其他说明,我们暂时用不到,不用去管了
# other options
CREATE_DOUBLE=DOUBLE PRECISION
CREATE_STRING=VARCHAR(8000)
CREATE_INT=INT
checkUpperCaseNames=false
checkLowerCaseNames=false
checkForTable=true

4 OK,下面可以操作了!运行weka的Explore界面后,通过Open DB..打开SQL Viewer工作界面(3.5.5版本比3.4.10在这里精细了许多)。
通过user我们设置好用户名和密码后即可connect;连接成功后,可以通过书写sql语句查询出想要的结果后,OK即可在Explore界面的
preprocoss面板中看到了输入的数据。
在连接读取数据库的数据时,SQL Viewer面板也提供了Info,相当与我们单纯用jdbc连接数据库时的调试信息。

下面是我在网上下的一个工具(java源码,下载于souceforge网站),可以把数据库中的数据转换为Weka使用的.arff文件。当然,前提是安装了该数据库的驱程。有兴趣者可以一看。



[此贴子已经被作者于2007-5-24 18:29:09编辑过]

--  作者:chenqian857
--  发布时间:5/27/2008 2:12:00 PM

--  
呵呵,还不错。斑竹对weka特别感兴趣
--  作者:susan81
--  发布时间:5/28/2008 9:15:00 PM

--  
感谢!
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
6,203.125ms