中文XML论坛 - 专业的XML技术讨论区--显示贴子

以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  看书时的一点小疑惑  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=57768)

--  作者：changleqy
--  发布时间：1/6/2008 9:02:00 PM

--  看书时的一点小疑惑
看的是〈机器学习〉，曾华军翻译，机械工业出版社，2003。
在P41讲到：
信息论中熵的解释是：熵确定了要编码集合S中任意成员（即以均匀的概率随机抽出的一个成员）的分类所需要的最少二进制位数。
举例来说，如果P+是1，接收者知道抽出的样例必为正，所以不必发任何消息，此时的熵为0。
如果P+是0.5，必须用一个二进制位来说明抽出的样例是正还是负。
如果P+是0.8，那么对所需的消息编码方法是赋予正例集合较短的编码，可能性较小的反例集合较长的集合，平均每条消息的编码少于1个二进制位。

——————————
对于以上所说的第3种情况，P+=0 .8时，不知道怎么理解。
既然存在+，-两种情况，就需要一个二进制编码，怎么又给正例较短而反例较长？又怎么平均每条消息的编码少于1个二进位呢？
谢谢！

--  作者：changleqy
--  发布时间：1/9/2008 10:19:00 AM

--
自己想通了，思路类似于数据结构中的哈夫曼编码

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

31.250ms