建立决策树,现在有50多个变量,到底选择哪些变量

如题所述

第1个回答  2016-11-06
五十个特征不算多。
如果要进行特征选择,决策树自带特征选择的功能,使用的是信息增益,也可以是信息增益率,gini系数。把决策树建立的原理搞明白就懂了,如果需要进行选择,则使用前n个特征或者百分比或者信息增益阈值或者限定树的高度等,目的就是为了防止过拟合与提高效率,其实防止过拟合可以使用随机森林(Random Forest)。

顺便说一下,其它的特征选择方法:
1. 卡方检验Chi-square
2. 信息增益(IG,Information Gain)
3. 信息增益率(IGR)
4. 基尼系数
5. 相关系数
等等。。。
具体原理,google吧本回答被网友采纳

R语言 建立决策树前 如何从候选的几十个变量中筛选建模需要的变量?
自变量量的筛选是根据其卡方显著性程度不断自动生成父节点和子节点,卡方显著性越高,越先成为预测根结点的变量(建模需要的变量),程序自动归并预测变量的不同类

决策树(Decision Tree)
显然从所有可能的决策树中选取最优决策树是NP完全问题,所以在实际中通常采用启发式的方法,近似求解这一最优化问题: 通过递归的选择最优特征,根据该特征对训练数据进行划分直到使得各个子数据集有一个最好的分类,最终生成特征树 。当然,这样得到的决策树实际上是次最优(sub-optimal)的。进一步的,由于决策树的算法特...

什么是决策变量
决策变量可以是具体的数值、类别选择或者其他的量化指标,它们反映了决策者对问题解决方案的选择和偏好。在复杂的决策问题中,决策变量通常是决策模型的核心组成部分,它们反映了决策问题的本质和关键要素。通过对这些变量的分析和优化,决策者可以更好地理解问题,并找到最佳的解决方案。因此,明确和理解决策变...

决策树算法主要适用于找到最可能的分类对吗?
决策树(Decision Tree)常用于研究类别归属和预测关系的模型,比如是否抽烟、是否喝酒、年龄、体重等4项个人特征可能会影响到‘是否患癌症’,上述4项个人特征称作‘特征’,也即自变量(影响因素X),‘是否患癌症’称为‘标签’,也即因变量(被影响项Y)。决策树模型时,其可首先对年龄进行划分,比如...

决策树的优缺点
1.易于理解和解释,不需要使用者了解很多的背景知识,决策树可以可视化使读者在使用过程中逐步理解决策树。2.能够快速适应数据集,可以处理数值和分类数据,在大型数据集上表现良好,速度极快。3.相较大多数方法而言可以同时处理数值变量和分类变量。可以处理多值输出变量问题。4.效率高,决策树只需要一次...

用SPSS 生成决策树时只有一个节点,什么原因
数据太纯了,spss会进行剪枝,每个叶子节点不会是百分之百。你的样本量多半太少了,做决策树至少要1000个样品,上万都是正常的事情 并不是所有的数据都适合决策树分析的,数据没有问题,而是你对方法的选择有问题

如何用决策树进行分类
对数据进行清理和过滤,以去除无效、缺失或异常的数据。将数据转换为适当的格式,以供决策树算法使用。这可能包括将数据标准化、处理缺失值、转换分类变量等。3、构建决策树 选择一个决策树算法,例如ID3、C4.5或CART。每个算法都有不同的规则和启发式方法来构建决策树。使用训练数据集和所选算法来构建...

决策树模型CHAID法可以连续变量吗
决策树模型CHAID法可以连续变量。决策树模型是一种简单易用的非参数分类器它不需要对数据有任何的先验假设,计算速度较快结果容易解释而且稳健性强。简介 复杂的决策情况中往往需要多层次或多阶段的决策当一个阶段决策完成后可能有m种新的不同自然状态发生每种自然状态下都有个新的策略可选择,选择后产生...

决策树模型选择有价值变量通过什么过程实现
C4.5的好像没看到人实现过,不过ID3是很好用的,用treefit函数,excel函数只要主体部分,属性矩阵和分类向量要分开存放,不要第一行和第一列的注释内容(如果没有就不用删),用xlsread函数获取Excel数据得到输入矩阵。目标向量可以另外在建立一个excel一样的使用。可以继续交流 ...

决策树总结理解和概括
决策树是一种判别式模型,用于学习条件概率P(Y|X),其中X为特征变量,Y为类别变量。决策树的学习过程采用启发式思维,分为特征选择、决策树生成和剪枝三个部分。依据特征选择方案,可生成ID3、C4.5和CART树等算法。特征选择是决策树学习的关键,旨在优先选择具有强分类能力的特征。常见的特征选择方法包括...

相似回答