博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
信息增益(information gain)
阅读量:5332 次
发布时间:2019-06-14

本文共 619 字,大约阅读时间需要 2 分钟。

信息增益是随机森林算法里面的一个很重要的算法,因为我们在选择节点的特征项的时候,就要通过信息增益或者是信息增益率来选择。这里先理解信息增益。

什么是信息增益呢?信息增益(Kullback–Leibler divergence)又称information divergence,information gain,relative entropy 或者KLIC,其实在有些书中叫做相对熵,但是理解起相对熵的公式比较复杂,让人不能很好的理解。下面我以分类来理解这个算法。

假如我们拥有M个类别标签

C={C1,C2,C3....Cn}

  

并且拥有N个特征:

T={T1,T2,T3....Tn}

  

那么对于某一个特征来说,加入特征项Ti是离散的,

 

那么有可以定义为如下的公式:

 

其中H(C)代表的是类别C的信息熵;

 

代表在给定的情况下,求类别属于类别C的条件熵;

以上的公式都比较容易理解,难以理解的就是当特征项的取值不是离散的,而是连续的,这个时候怎么办?如果特征项的连续的,那么我们可以枚举每一种二分类,找到增益最大的哪一种分类。也就是

标注:wi输入法 for 安卓和ios 很不错的输入法,欢迎使用。

posted on
2013-01-14 20:23 阅读(
...) 评论(
...)

转载于:https://www.cnblogs.com/charleVV/archive/2013/01/14/2860282.html

你可能感兴趣的文章
centos系统python2.7更新到3.5
查看>>
C#类与结构体究竟谁快——各种函数调用模式速度评测
查看>>
我到底要选择一种什么样的生活方式,度过这一辈子呢:人生自由与职业发展方向(下)...
查看>>
poj 题目分类
查看>>
windows 安装yaml支持和pytest支持等
查看>>
读书笔记:季羡林关于如何做研究学问的心得
查看>>
面向对象的优点
查看>>
套接口和I/O通信
查看>>
阿里巴巴面试之利用两个int值实现读写锁
查看>>
浅谈性能测试
查看>>
Winform 菜单和工具栏控件
查看>>
CDH版本大数据集群下搭建的Hue详细启动步骤(图文详解)
查看>>
巧用Win+R
查看>>
浅析原生js模仿addclass和removeclass
查看>>
Python中的greenlet包实现并发编程的入门教程
查看>>
java中遍历属性字段及值(常见方法)
查看>>
深入理解jQuery框架-框架结构
查看>>
YUI3自动加载树实现
查看>>
python知识思维导图
查看>>
当心JavaScript奇葩的逗号表达式
查看>>