以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 Web挖掘技术 』 (http://bbs.xml.org.cn/list.asp?boardid=69) ---- 数据挖掘新手常见疑问解答(至2007-6-20) (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=49580) |
-- 作者:DMman -- 发布时间:7/9/2007 10:31:00 AM -- 数据挖掘新手常见疑问解答(至2007-6-20) 说明:这些问题以及他们的解答来自数据挖掘者的博客http://blogger.org.cn/blog/blog.asp?name=idmer,由DMman整理,日期截止到2007-6-20。挑选了其中比较有实际应用意义的若干。涉及到数据挖掘的前景、学习数据挖掘需要学什么、如何学习;数据挖掘的算法、应用等技术问题....希望大家能有所得。 请教:高水平论文与英文的重要性 数据挖掘青年发表留言于2007-6-20 14:46:11 1 现在博硕士论文大都肤浅而处于总结性质,有东拼西凑之嫌。请先生推荐点高水平的数据挖掘方面的论文的来源。英文的也可以(估计好的都是英文的)。 2 关于数据挖掘工作中英语的重要性。现在英语方面,阅读能力还可以,写也勉强,听说就过不去了。请先生谈谈数据挖掘工作过程中要求英语的使用场所。当然英语肯定是水平越高越好了,但至少需要达到什么程度才可以呢?
以下为blog主人的回复: 1.我以前经常用以下的论文检索站点(前两个,特别是第二个): http://citeseer.ist.psu.edu/cs http://scholar.google.com/schhp?hl=zh-CN
2.其实大家学英语的情况都一样,读写强而听说能力差。我觉得要达到这样的程度会有利于自己的发展:可以顺利地和国外的同行交流,不一定要非常流利,但可以听懂,并且能将自己的意思表达出来。 用数据挖掘做社会研究 xiaomissy(游客)发表留言于2007-6-19 20:02:24 你好,偶然之间浏览到这个博客,非常高兴,因为我现在正好需要了解数据挖掘。我打算做网络的传播学研究,希望能从新的研究方法进行突破。但由于是文科出身,对数据挖掘比较陌生。请问什么样的软件可以帮我:1)快速、自动地下载所需要的网络上的信息; 2)处理和统计这些信息? 没有统计软件,我自己不能进行什么复杂的计算的。也许我的问题比较幼稚,不过请对我这个新手加外行进行指导。谢谢了。 以下为blog主人的回复: 呵呵,有这样的软件吗?如果有人知道,麻烦也介绍给我。不好意思,开个玩笑。;) 不过坦率地说,可能你的希望要落空了,要达到你的期望,我觉得去学习相应的软件工具,甚至去学会编程,应该是不可避免的。也许你可以找个计算机专业的同学或朋友一起来做这方面的研究。 我是铁通的,因为在市场部,很想问一下有没有对固话用户一个数据分析的指标体系,即那哪些指标对市场经营分析是有用的, 以下为blog主人的回复: 不知道你想了解的是对于整个企业的KPI呢?还是在市场经营分析中常见分析主题(比如长话流失、交叉销售等)中用到的主要变量? 就电信行业来说,很多BI厂商都有行业解决方案,其中就包含了以上两方面的内容。当然在具体的项目实施中,还会进一步根据企业的实际情况进行调整和定制。 电信行业已经是经营分析系统应用得很广泛的行业了。国外有很多的参考案例,国内象中国移动、中国联通、中国电信也都上马了经营分析系统、数据仓库、营销再造等项目。对于铁通而言,这些项目都是很好的参考。当然,从关注固话的角度看,电信的营销再造(MR,即Marketing Rebuild)应该是和你们需求最接近的。 请教挖掘软件的使用 数据挖掘青年发表留言于2007-6-3 21:58:32 请教: 1 为甲方做的针对行业的数据挖掘中,如果通过SAS等通用的软件,如何体现行业不同、部门不同的特色要求?为他建立预测模型的过程中会对SAS的功能进行插件式的扩展吗,还是SAS本身已经足够建立特定的模型? 以下为blog主人的回复: 1.SAS的Enterprise Miner是通用型的数据挖掘软件,所以要满足客户的特定分析需求,常常会采取两种方法实现:一是做项目,通过项目团队的开发和实施,来建立客户所需的应用;另一种是采用SAS的行业解决方案(是SAS通过多年来对行业需求及解决方案的总结,形成的完整的solution),然后进行客户化定制。 2.如果单纯从建立挖掘模型的角度来说,挖掘人员的确不必是程序员,只要应用合适的挖掘算法,基于分析数据进行建模,并对模型进行调优就可以了。但实际上,挖掘人员并不只做这些,更多的时候是做数据准备和数据探索,其中就可能需要进行编程,当然这些程序通常用于数据处理、模型结果的发布等等。 candy(游客)发表留言于2007-5-28 8:37:10 您好: 以下为blog主人的回复: 呵呵,“创新”是个很尖锐的问题。以前我帮导师审论文时,给论文评分包括几个要素,分别是理论基础是否坚实、研究问题的重要性、研究成果的创新性等。 所谓创新,就是你解决问题的方法是否和其他人的解决方法有所不同,而这种不同又是否更有利于解决问题。因此,要发现创新点,实际上需要充分的准备和深入的研究。 ①充分的准备:既然创新是找出解决问题的更好方法,那么首先你就要发现问题,而且要发现有价值的问题。当找到这种问题时,再去查找有没有人提出了解决这个问题的方法,他们的方法是怎样的,还存在什么不足之处。 ②深入的研究:当你发现了值得研究的问题,并且知道在这个问题上还没有很好的解决方法时,你就有了创新的机会。找出现有解决方法的不足之处,提出自己的解决思路,并予以验证,通过试验或者推理证明你的方法是有效的,创新点也就产生了。说起来容易做起来难,就象酝酿一个新发明一样,常常会需要大量的试验和周密的思考,而且也有可能忙了很久而一无所获。 希望说到这里没有让你心生惧怕,但我见过的一些认真做研究的人的确投入了很多的时间和精力才有所成就。当然对于国内的研究生来说,我倒是觉得在硕士阶段去追求显著的创新是不切实际的(个人的一管之见),其实把第一步做好已经不错了。如果没有做好第一步,打好基础,就急于找些创新点,那么这些所谓的创新点常常是毫无意义的,写出来的论文最终避免不了被扔到垃圾桶的命运(我以前写的一些论文也是如此)。大家常常说国内的研究论文质量很差,很大程度上也是源于我们现在的教育制度,要求研究生毕业前必须在SCI、EI或核心期刊上发表若干篇论文,重量而不重质,造就了现在的核心期刊完全变成了完成毕业任务的自留地。 话题扯远了,回到你关心的问题-如何找创新点。必要的文献阅读是不可缺的,了解研究现状和背景,才可能发现创新点。如果你想这个阶段快一些的话,也有些捷径,比如你可以到一些研究单位或学者的站点上,察看他们目前的研究动态,一般来说他们正在研究的内容常常是目前还未解决的,这样你可以尽快找到创新点的主攻方向。 很遗憾我无法给你指出具体的方向,因为毕业已经好几年了,工作内容也与研究没什么关系。如果读到我这篇回复的朋友中,和candy有类似的研究方向,欢迎给candy提些建议。 anthea(游客)发表留言于2007-5-23 21:12:58 你好,想请教一下,我想了解数据挖掘的一些基本知识,看什么教材比较好(中外文均可),谢谢! 以下为blog主人的回复: 先看《数据挖掘:概念与技术》吧。 wistaria(游客)发表留言于2007-5-22 11:50:43 我要自己写一个分类算法,可是我没有搞清楚那个buildClassifier和ClassifyInstance是如何调用的。另外问一下哪个分类算法是基于关联规则的?多谢了。 以下为blog主人的回复: 关于buildClassifier等的调用,建议你可以到Weka中文论坛(http://bbs.wekacn.org/)问一下。 基于关联规则的分类算法,如CMAR等,你可以通过Google搜索诸如“Classification Based on Multiple Class-Association Rules”即可。 紫菱(游客)发表留言于2007-4-5 10:28:20 老师对这方面也不是很了解,就是给我这个方向的,然后让我自己查文献,自己确定做什么,以前没有接触过这些,我觉得挺难的,自己也根本不知道做什么 以下为blog主人的回复: 这种情况很常见,而且我觉得这时更是一个锻炼和培养自己能力的好机会。就我个人的经历来说,读书的不同阶段都是培养自己不同能力的过程: 读本科时是打基础,掌握相关学科专业的最基本知识,这时是老师告诉自己要做什么以及教会自己怎么做,然后自己把它做出来; 读硕士时则强化了解决问题的能力,导师告诉我要做什么,而我则需要找出方法来把它做出来; 读博士时最主要的是培养自己发现问题的能力,发现研究领域内值得研究的而且尚未解决的问题,然后再设法去解决它。这时你会发现,其实你想到的问题,常常已经有人想到了;你想到的一些解决方法,也有国内外的同行已经做过尝试。这个阶段常常是让人有些气馁,因为感觉不知该做什么,而发现问题就是这个阶段最重要的能力培养。 当然,不同的人会在不同的阶段培养这些能力,有的朋友聪明而且勤奋,可能会很快跨越这三个阶段,而有的人则可能需要很长的时间。 就你的问题,其实是导师已经基于他对这个研究领域的理解,给你指了一个方向。这个方向或许有意义,或许价值不大,其实对你来说不是最重要的问题。我觉得可能你要做的是先去收集这方面的文献资料,了解该方向目前的研究进展,掌握目前的解决方法,然后在适当地深入研究部分的问题并解决。 您好!我是一名在校研究生,我现在已经开题,因为题目是老师给选的,所以在开题之前对数据挖掘的东西一点也不了解,现在只是知道一些皮毛。现在有许多问题自己都弄不明白。特来请教。 我做的是油田开发数据挖掘,用VC++编程,老师让用ArcGIS平台,可我现在也搞不懂它们之间有什么联系,能否指点指点。 谢谢! 以下为blog主人的回复: 我对ArcGIS也是只闻其名,只知道它是类似MapInfo的地理信息系统平台。莫非你们老师是希望将油田的相关数据标注在不同的图层之上,然后使用数据挖掘算法来对这些数据进行处理,最后再通过ArcGIS予以展示(例如对油田产油潜力用不同颜色来标注)? 数据挖掘青年 (游客)发表留言于2007-3-28 18:05:28 您好,谢谢提供开源学习网址! 我是一名非名牌大学的研一学生,专业方向号称数据库,但只是服从导师安排做些小或中的项目(甚至根本用不到数据库,更不用说数据挖掘),没有实质的理论性学习。 1数据挖掘人员从事的工作内容 2读博深造的必要性 3自学时的大方向 以下为blog主人的回复: 1.数据挖掘人员从事的工作和你所说的差不多,我认识的一些朋友大多在IT公司,为甲方实施DM、DW和BI等项目;还有一些是在甲方做分析人员,利用所掌握的数据挖掘知识来解决一些业务问题。 2.就以上的工作内容来说,我觉得硕士已经足以胜任,当然最重要的不是学位,而是运用你学到的知识来解决问题的能力。如果希望在理论研究上进一步发展,读博也不错,但发展方向会有所不同。 3.在硕士阶段,我觉得还是全面了解会更好一些。当然,因为数据挖掘涉及的内容较多,还是应该在一些方面有所侧重,比如那些得到广泛应用的算法及其应用上,包括决策树、聚类、回归、神经网络等等。这样即便你以后不去读博,对找工作也会有所帮助。数据挖掘青年 (游客)发表留言于2007-3-26 10:46:03 请问:现在数据挖掘开发主流平台和编程语言。那些更有优势呢?现在大都用什么呢 谢谢 以下为blog主人的回复: 现在一般应该是用Java开发的比较多,据我所知的,SAS Enterprise Miner客户端是用Java开发,开源的数据挖掘工具Weka也是用Java开发的。当然其后台服务器端的软件有部分可能会是C开发的,主要是出于性能的考虑。 如果你对数据挖掘平台开发有兴趣的话,建议你去开源代码网站SourceForge(http://sourceforge.net/)看看,可以找到相应的源代码,也可以参加到他们的开发团队中,共同开发。
|
-- 作者:DMman -- 发布时间:7/9/2007 10:32:00 AM -- 身不由己(游客)发表留言于2007-2-1 10:51:55 我想开始学数据挖掘 1.请问下,什么挖掘工具适合我这样的初学者,最好是很容易操作,还要是中文的,我英文有点差...希望您能推荐下. 2.能不能发给我这个您推荐给我的数据挖掘的工具.因为我下的数据挖掘工具都不能用. 谢谢您了 我用数据挖掘来做毕业设计的,以前没学过,指导老师也不懂,凡事都靠自己找,我只能4处求教了,希望您能帮我下,3Q 首先,我建议你别着急选工具,先看看数据挖掘的综述资料,选择一个合适的课题,再往下深入了解和研究。 对于毕业设计来说,也许你去找些公开的数据挖掘源程序,并使用这些源码进行改进或者应用到你要研究的课题上,可能比选择商用的数据挖掘软件更合适一些。因为这样你会了解算法的内幕,而不是简单地应用。 如果你需要下载一些数据挖掘软件,我建议你到Kdnuggets网站或数据挖掘研究院网站上找找看。这些网址在我的Blog上有链接。 关于数据挖掘软件的推荐,商用的我推荐SAS Enterprise Miner、SPSS Clementine、KXEN;研究方面的我推荐Weka。 我现在在做一些文本校对相关的一些事情,但是手头缺乏一些语料库的资料(主要是语料库本身以及相关调用代码),所以我想向您咨询一下您手头没有关于语料库的资料或者是相关网址等,麻烦您了,谢谢 以下为blog主人的回复: 可以到北京大学计算语言研究所的网站上看看: 有个问题想请教一下,你既然是研究数据挖掘的,肯定对其有关会议比较了解,想问ICMLC这个国际会议怎么样?它可是被EI检索的。 以下为blog主人的回复: 请参考:Computer Science Conference Rankings(http://www.w3china.org/blog/more.asp?name=idmer&id=6910)
debby(游客)发表留言于2006-4-26 11:49:42 我的毕业设计题目:文本挖掘。首先要在现成的语料库中提取特征,想用词频统计的算法,但是以前没有接触过这方面的内容,不知道怎么下手,希望能给与帮助。谢谢! 以下为blog主人的回复: 请参考北京大学自然语言学研究所主页(http://www.icl.pku.edu.cn/default_cn.asp)。 微软亚洲研究院-自然语言计算组(http://research.microsoft.com/asia/group/nlc/) 计算语言学和自然语言信息处理研究和应用综述(http://ling.cass.cn/yingyong/courses/nlpbase.htm) dmdou(游客)发表留言于2006-4-14 23:20:46 请教一下,我最近开始学习数据挖掘技术,您能介绍一下这方面的前景吗?庸俗一点就是找工作是否很有需求?嘿嘿 多谢 以下为blog主人的回复: 现在和以后对数据挖掘人才的需求还是有一些的,不过由于数据挖掘是对数据的深层分析,所以一般除了要求深入了解数据挖掘技术之外,还要求对数据库(数据仓库)、行业业务、分析等方面的能力和经验。因此建议你熟悉数据库技术,同时有机会的话多参与一些实际项目,这样可以扩大你的择业范围。 jeff(游客)发表留言于2006-4-4 10:18:15 您好,我是的毕业设计题目定了,基于分区的算法的孤立点分析,但是感觉到没有头绪,另外也没有找到合适的数据源.现在我应该应该看那些书呢?从哪个地方下手呢? 以下为blog主人的回复: 关于孤立点分析,我了解得很少。唯一做过的相关工作就是将其应用到数据质量检查中,根据历史趋势发现新的数据中是否存在异常。除此之外,孤立点分析应该在网络流量异常检测中应用得比较多。至于需要看哪些书,象《数据挖掘:概念与技术》等书中只有简单介绍,深入的内容建议你尝试一下Google的学术搜索http://scholar.google.com/schhp?hl=zh-CNwww.researchindex.org等等。 欢迎对这方面熟悉的同行给出宝贵意见,谢谢。 我的方向是遗传算法进行关联规则挖掘,但是看的不多,还有50天就NDBC2006就截稿了,您能否给我一些建议,比如看什么书,如何准备, 谢谢 以下为blog主人的回复: 遗传算法我了解得很少,所以无法告诉你去看些什么书,只能给些投稿方面的建议。NDBC(全国数据库年会)接收的稿件主要分为两大类:研究报告类和技术报告类,前者侧重于科学研究(新的模型、新的思路、算法改进等),后者侧重于技术实现(结合具体的应用,一般需要有系统原型、应用效果等)。一般来说,前者比后者的学术价值更高些,稿件的质量也要求较高,所以需要比较长时间的研究和积累才可能做出来。 因此,如果你希望在没有前期准备的情况下,用50多天来完成论文,可行的方法是向技术报告类的方向靠拢。我建议你首先找到有价值的应用问题(比如商业或企业等方面对关联分析的应用),然后应用遗传算法和其它关联分析方法(比如Apriori算法)来进行分析,对不同算法的性能效果进行评估比较,总结各种算法的特点及适用范围。当然,如果能对算法做些有益的改进更好,可以让论文的学术性更强。最后,描述出应用了关联分析的结果能带来什么效益(比如对货架位置的调整、对客户的交叉销售等到)。 以上是论文的大致思路,但需注意的是,一定要有创新。如果仅仅是对算法的简单应用,则被录用的可能性很小。因为你的文章中的内容,在其他人的文章中都可以找到,那么你的文章就失去了存在的意义,也就不会被评委所接受 cathy(游客)发表留言于2006-3-2 17:12:42 你好,我是一名在校硕士生,方向是数据挖掘,我就要开始写论文拉,我想请问大侠数据挖掘能否应用在股票市场上?肯请给我些建议!谢拉 以下为blog主人的回复: 我没有研究过相关内容,你可以在Google中检索“数据挖掘股票”,或者在Google学术搜索(http://scholar.google.com/schhp?hl=zh-CN) 中检索亦可。应该有些方向可以研究,不过我对用预测算法来预测股价并不看好,因为一方面无法获得庄家的内幕消息(而他们对股价变动常常有很大的影响),另一方面一些重要信息难以量化,比如政策面的因素。 青椒(游客)发表留言于2005-10-31 15:18:51 Sunstone:如果你希望了解数据挖掘在行业应用上的成功案例,可以查看SAS、SPSS等公司网站上的Success stories,例如http://www.sas.com/success/index.html。
|
-- 作者:DMman -- 发布时间:7/10/2007 10:30:00 AM -- 回复:数据挖掘模型的评估问题 在07-5-11,Changjiang写道: Hi, Changjiang,
|
-- 作者:figofly -- 发布时间:2/20/2008 2:29:00 PM -- 请问哪里有IBM intelligent miner for data 软件的下载? |
-- 作者:langzi112 -- 发布时间:3/4/2008 11:47:00 AM -- 你好 请问在网上怎么找那些适合WEKA软件的数据 进行训练 我是新手 对这个不是很清楚 ,请指教 谢谢 |
-- 作者:lchsi324 -- 发布时间:3/20/2008 12:17:00 PM -- 顶 |
-- 作者:chyong168 -- 发布时间:1/16/2009 8:24:00 PM -- 真是太好了,太感谢了! |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
4,376.953ms |