美文网首页数据分析的那些事
数据分析03 - 决策树

数据分析03 - 决策树

作者: 数据社 | 来源:发表于2019-10-14 16:56 被阅读0次

标签(空格分隔): 数据分析


CART 创建决策树做分类

# encoding=utf-8
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
import graphviz
from sklearn import tree
import os
os.environ["PATH"] += os.pathsep + 'C:\\Users\\qincf\\AppData\\Local\\Continuum\\anaconda3\Library\\bin\\graphviz'

# 准备数据集
iris=load_iris()
# 获取特征集和分类标识
features = iris.data
labels = iris.target
# 随机抽取 33% 的数据作为测试集,其余为训练集
train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.33, random_state=0)
# 创建 CART 分类树
clf = DecisionTreeClassifier(criterion='gini')
# 拟合构造 CART 分类树
clf = clf.fit(train_features, train_labels)
# 用 CART 分类树做预测
test_predict = clf.predict(test_features)
print(test_predict)
# 预测结果与测试集结果作比对
score = accuracy_score(test_labels, test_predict)
print("CART 分类树准确率 %.4lf" % score)

##打印CART
dot_data = tree.export_graphviz(clf,out_file=None)
graph = graphviz.Source(dot_data)
graph
print(graph.view())

分类树如下:

image.png

CART 回归树做预测

# encoding=utf-8
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error,mean_absolute_error

from sklearn.tree import DecisionTreeRegressor
from sklearn.datasets import load_boston
import graphviz
from sklearn import tree
import os
os.environ["PATH"] += os.pathsep + 'C:\\Users\\qincf\\AppData\\Local\\Continuum\\anaconda3\Library\\bin\\graphviz'


# 准备数据集
boston=load_boston()
# 探索数据
print(boston.feature_names)
# 获取特征集和房价
features = boston.data
prices = boston.target
# 随机抽取 33% 的数据作为测试集,其余为训练集
train_features, test_features, train_price, test_price = train_test_split(features, prices, test_size=0.33)
# 创建 CART 回归树
dtr=DecisionTreeRegressor()
# 拟合构造 CART 回归树
dtr.fit(train_features, train_price)
# 预测测试集中的房价
predict_price = dtr.predict(test_features)
print(test_features)
# 测试集的结果评价
print('回归树二乘偏差均值:', mean_squared_error(test_price, predict_price))
print('回归树绝对值偏差均值:', mean_absolute_error(test_price, predict_price))

相关文章

  • 决策树

    数据信息 划分数据集 决策树创建 可视化决策树 分析重要信息 决策树的裁剪 可视化结果 其它一些接口

  • 数据分析03 - 决策树

    标签(空格分隔): 数据分析 CART 创建决策树做分类 分类树如下: CART 回归树做预测

  • 【数据科学家学习小组】之机器学习第一期第七周作业

    决策树分析是一种什么算法? 决策树算法利用了信息熵和决策树思维: 信息熵越小的数据集,样本的确定性越高,当数据集的...

  • 统计模型实际应用场景

    参考常用统计模型: 决策树&回归&K均值聚类&因子分析分别对应数据分析的思路:分类,回归,聚类,降维。 1 决策树...

  • 决策树

    整理自《极客时间——数据分析》课程 一.决策树的工作原理 在做决策树时,需要经历两个阶段:构造和剪枝。 构造 构造...

  • 第八章 数据决策分析算法——基于ID3算法的决策分析

    在机器学习中决策树是一个预测模型,代表对象属性与对象值之间的一种映射关系。决策树经常用于数据挖掘中的数据分析和预测...

  • 基于决策树的泰坦尼克号幸存者分析

    基于决策树的泰坦尼克号幸存者进行分析 缺失值的处理将字符型数据转成数值型特征属性数据和标签属性的分离决策树的建模网...

  • 数据结构与算法分析:大纲]

    00数据结构与算法分析:大纲01数据结构:数组02数据结构:链表03数据结构:栈03数据结构:队列 本系列课程主要...

  • 数据结构:数组

    00数据结构与算法分析:大纲01数据结构:数组02数据结构:链表03数据结构:栈03数据结构:队列 数组 数组是一...

  • 不平衡数据对决策树类算法的影响

    不平衡数据对决策树类算法的影响 ##不平衡数据 ##决策树 ##影响

网友评论

    本文标题:数据分析03 - 决策树

    本文链接:https://www.haomeiwen.com/subject/vunrmctx.html