以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术 』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  看书时的一点小疑惑  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=57768)


--  作者:changleqy
--  发布时间:1/6/2008 9:02:00 PM

--  看书时的一点小疑惑
看的是〈机器学习〉,曾华军翻译,机械工业出版社,2003。
在P41讲到:
信息论中熵的解释是:熵确定了要编码集合S中任意成员(即以均匀的概率随机抽出的一个成员)的分类所需要的最少二进制位数。
举例来说,如果P+是1,接收者知道抽出的样例必为正,所以不必发任何消息,此时的熵为0。
如果P+是0.5,必须用一个二进制位来说明抽出的样例是正还是负。
如果P+是0.8,那么对所需的消息编码方法是赋予正例集合较短的编码,可能性较小的反例集合较长的集合,平均每条消息的编码少于1个二进制位。

——————————
对于以上所说的第3种情况,P+=0 .8时,不知道怎么理解。
既然存在+,-两种情况,就需要一个二进制编码,怎么又给正例较短而反例较长?又怎么平均每条消息的编码少于1个二进位呢?
谢谢!


--  作者:changleqy
--  发布时间:1/9/2008 10:19:00 AM

--  
自己想通了,思路类似于数据结构中的哈夫曼编码
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
31.250ms