一、从"二十个问题"游戏说起
你可能玩过这个游戏:一个人想一个东西,其他人通过问"是/否"问题来猜。比如:
"二十个问题"的决策树
🤔 "是动物吗?" → 是
🤔 "会飞吗?" → 是
🤔 "是鸟类吗?" → 是
🤔 "比鸽子大吗?" → 否
✅ 猜到了:麻雀!
决策树的工作原理完全一样——通过一系列判断节点(问问题),把数据一步步分类到最终的"叶子节点"(答案)。
二、为什么决策树特别适合教学?
🌳 决策树的四大优势
- 直观可解释:可以画出完整的决策流程图,每一步判断都清晰可见。不像神经网络是"黑盒"
- 无需特征缩放:不需要像深度学习那样做复杂的预处理
- 混合数据友好:同时处理数值型(年龄、收入)和类别型(性别、城市)数据
- 工业界广泛使用:银行审批、医疗诊断、风控系统都在用
三、决策树 vs 深度学习
很多同学会问:既然有神经网络了,为什么还要学决策树?
适用场景对比
- 决策树擅长:表格数据、业务规则提取、需要解释结果的场景(比如银行要告诉客户为什么拒贷)
- 深度学习擅长:图像、语音、文本等非结构化数据的处理
- 互补关系:实际工作中两者配合使用——先用决策树探索数据规律,再决定是否上深度学习
四、核心术语速览
根节点
整棵树的起点,包含所有数据。第一个"问题"在这里提出。
叶子节点
决策的终点,给出最终分类结果(如"通过/拒绝贷款")。
分支
每个判断产生的分叉路。二叉树每次一个Yes/No问题。
💡 小贴士
决策树是监督学习——意味着你需要有"带答案的数据"来训练。每条数据除了特征(如收入、年龄)外,还必须有标签(如"是否违约")。