鸢尾花数据集可视化

作者: 罗泽坤 | 来源:发表于2019-01-25 14:08 被阅读0次

Iris鸢尾花数据集可视化、线性回归、决策树分析、KMeans聚
机器学习函数库——Scikit-learn
代码
鸢尾花数据集可视化
2020机器学习PCA 降维实践
决策树实现鸢尾花三分类
day02-xgboost和lightgbm简单实现
基于Python的数据可视化：从一维到多维
导入鸢尾花数据集OSError: Initializing fr
K近邻算法-机器学习-实现鸢尾花种类预测

众所周知数据挖掘的主要任务有如下两点：

预测任务：即根据已知属性来预测未知属性，根据已知数据来推断
未知事物
描叙任务：目标是概括数据中潜在的联系模式(相关、趋势、聚类和异常)

本文主题：通过对鸢尾花数据集的可是化来初步认识数据挖掘的预测任务，即根据鸢尾花的特征来预测花的种类

从哲学上来说世界上的任何事物原本都没有名字，我们人类一生下来本来也是没有名字，之所以我们要给每一座山，每一条河都取一个温暖的名字是为了使我们更好的去描叙去认识这个奇妙的世界，无论是人也好物也罢，名字都是我们人为的加上去的。但是人如果仅仅依靠名字来确定一个人是不科学的，因为这个世界上重名的人也有很多，每一个人之所以能够在这个世界上独一无二就是因为我们尽管都是人但是我们都有自己独特的纹理，在生物层面上比如基因、指纹、相貌，在社会层面上比如身份、地位、学历等等，这都可以是我们与他人的不同之处。同样我们人要想科学的区分描叙一类事物，我们除了要去给它取名字还得根据他们之间的某些差别在进一步的给它们分类，但是它们不像人类是社会动物有身份、学历、地位，我们要想给它们分类就只能依靠他们所变现出来的特征即‘长相’。比如我们给鸢尾花分类，我们可以依靠他们花瓣的长度和宽度或者花萼的长度和宽度以及颜色等等给它们更好的分类，以便更好的去描叙他们，这就是本文的主旨。

考虑如下任务：根据花的特征预测花的种类，考虑是否属于Setosa、Versicolour、Virginica这三类之一对鸢尾花(Iris)进行分类为进行这一任务我们需要一个数据集合，包含这三类花的特性。有一个具有这类信息的数据集合是著名的鸢尾花数据集，可以从加州大学欧文分校的机器学习库中得到(http://www.ics.uci.edu/~mlearn)。在python中有一个seaborn库中提供了一个sns模块可以下载鸢尾花数据集使得数据集的获取更加方便

import matplotlib as mpl
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
from matplotlib.font_manager import FontProperties

# 先查看鸢尾花数据结构
data = sns.load_dataset("iris")
data

Iris数据结构.PNG

#在查看数据对象可以使用的各种组件
print(dir(data))

['T', '_AXIS_ALIASES', '_AXIS_IALIASES', '_AXIS_LEN', '_AXIS_NAMES', '_AXIS_NUMBERS', '_AXIS_ORDERS', '_AXIS_REVERSED', '_AXIS_SLICEMAP', 'abs', 'add', 'and', 'array', 'array_wrap', 'bool', 'bytes', 'class', 'contains', 'delattr', 'delitem', 'dict', 'dir', 'div', 'doc', 'eq', 'finalize', 'floordiv', 'format', 'ge', 'getattr', 'getattribute', 'getitem', 'getstate', 'gt', 'hash', 'iadd', 'imul', 'init', 'invert', 'ipow', 'isub', 'iter', 'itruediv', 'le', 'len', 'lt', 'mod', 'module', 'mul', 'ne', 'neg', 'new', 'nonzero', 'or', 'pow', 'radd', 'rand', 'rdiv', 'reduce', 'reduce_ex', 'repr', 'rfloordiv', 'rmod', 'rmul', 'ror', 'round', 'rpow', 'rsub', 'rtruediv', 'rxor', 'setattr', 'setitem', 'setstate', 'sizeof', 'str', 'sub', 'subclasshook', 'truediv', 'unicode', 'weakref', 'xor', '_accessors', '_add_numeric_operations', '_add_series_only_operations', '_add_series_or_dataframe_operations', '_agg_by_level', '_align_frame', '_align_series', '_apply_broadcast', '_apply_empty_result', '_apply_raw', '_apply_standard', '_at', '_box_col_values', '_box_item_values', '_check_inplace_setting', '_check_is_chained_assignment_possible', '_check_percentile', '_check_setitem_copy', '_clear_item_cache', '_combine_const', '_combine_frame', '_combine_match_columns', '_combine_match_index', '_combine_series', '_combine_series_infer', '_compare_frame', '_compare_frame_evaluate', '_consolidate_inplace', '_construct_axes_dict', '_construct_axes_dict_for_slice', '_construct_axes_dict_from', '_construct_axes_from_arguments', '_constructor', '_constructor_expanddim', '_constructor_sliced', '_convert', '_count_level', '_create_indexer', '_dir_additions', '_dir_deletions', '_ensure_valid_index', '_expand_axes', '_flex_compare_frame', '_from_arrays', '_from_axes', '_get_agg_axis', '_get_axis', '_get_axis_name', '_get_axis_number', '_get_axis_resolvers', '_get_block_manager_axis', '_get_bool_data', '_get_cacher', '_get_index_resolvers', '_get_item_cache', '_get_numeric_data', '_get_values', '_getitem_array', '_getitem_column', '_getitem_frame', '_getitem_multilevel', '_getitem_slice', '_iat', '_iget_item_cache', '_iloc', '_indexed_same', '_info_axis', '_info_axis_name', '_info_axis_number', '_info_repr', '_init_dict', '_init_mgr', '_init_ndarray', '_internal_names', '_internal_names_set', '_is_cached', '_is_datelike_mixed_type', '_is_mixed_type', '_is_numeric_mixed_type', '_is_view', '_ix', '_ixs', '_join_compat', '_loc', '_maybe_cache_changed', '_maybe_update_cacher', '_metadata', '_needs_reindex_multi', '_nsorted', '_protect_consolidate', '_reduce', '_reindex_axes', '_reindex_axis', '_reindex_columns', '_reindex_index', '_reindex_multi', '_reindex_with_indexers', 'repr_fits_horizontal', 'repr_fits_vertical', 'repr_html', 'repr_latex', '_reset_cache', '_reset_cacher', '_sanitize_column', '_series', '_set_as_cached', '_set_axis', '_set_axis_name', '_set_is_copy', '_set_item', '_setitem_array', '_setitem_frame', '_setitem_slice', '_setup_axes', '_slice', '_stat_axis', '_stat_axis_name', '_stat_axis_number', '_typ', '_unpickle_frame_compat', '_unpickle_matrix_compat', '_update_inplace', '_validate_dtype', '_values', '_xs', 'abs', 'add', 'add_prefix', 'add_suffix', 'align', 'all', 'any', 'append', 'apply', 'applymap', 'as_blocks', 'as_matrix', 'asfreq', 'assign', 'astype', 'at', 'at_time', 'axes', 'between_time', 'bfill', 'blocks', 'bool', 'boxplot', 'clip', 'clip_lower', 'clip_upper', 'columns', 'combine', 'combineAdd', 'combineMult', 'combine_first', 'compound', 'consolidate', 'convert_objects', 'copy', 'corr', 'corrwith', 'count', 'cov', 'cummax', 'cummin', 'cumprod', 'cumsum', 'describe', 'diff', 'div', 'divide', 'dot', 'drop', 'drop_duplicates', 'dropna', 'dtypes', 'duplicated', 'empty', 'eq', 'equals', 'eval', 'ewm', 'expanding', 'ffill', 'fillna', 'filter', 'first', 'first_valid_index', 'floordiv', 'from_csv', 'from_dict', 'from_items', 'from_records', 'ftypes', 'ge', 'get', 'get_dtype_counts', 'get_ftype_counts', 'get_value', 'get_values', 'groupby', 'gt', 'head', 'hist', 'iat', 'icol', 'idxmax', 'idxmin', 'iget_value', 'iloc', 'index', 'info', 'insert', 'interpolate', 'irow', 'is_copy', 'isin', 'isnull', 'items', 'iteritems', 'iterkv', 'iterrows', 'itertuples', 'ix', 'join', 'keys', 'kurt', 'kurtosis', 'last', 'last_valid_index', 'le', 'loc', 'lookup', 'lt', 'mad', 'mask', 'max', 'mean', 'median', 'memory_usage', 'merge', 'min', 'mod', 'mode', 'mul', 'multiply', 'ndim', 'ne', 'nlargest', 'notnull', 'nsmallest', 'pct_change', 'petal_length', 'petal_width', 'pipe', 'pivot', 'pivot_table', 'plot', 'pop', 'pow', 'prod', 'product', 'quantile', 'query', 'radd', 'rank', 'rdiv', 'reindex', 'reindex_axis', 'reindex_like', 'rename', 'rename_axis', 'reorder_levels', 'replace', 'resample', 'reset_index', 'rfloordiv', 'rmod', 'rmul', 'rolling', 'round', 'rpow', 'rsub', 'rtruediv', 'sample', 'select', 'select_dtypes', 'sem', 'sepal_length', 'sepal_width', 'set_axis', 'set_index', 'set_value', 'shape', 'shift', 'size', 'skew', 'slice_shift', 'sort', 'sort_index', 'sort_values', 'sortlevel', 'species', 'squeeze', 'stack', 'std', 'style', 'sub', 'subtract', 'sum', 'swapaxes', 'swaplevel', 'tail', 'take', 'to_clipboard', 'to_csv', 'to_dense', 'to_dict', 'to_excel', 'to_gbq', 'to_hdf', 'to_html', 'to_json', 'to_latex', 'to_msgpack', 'to_panel', 'to_period', 'to_pickle', 'to_records', 'to_sparse', 'to_sql', 'to_stata', 'to_string', 'to_timestamp', 'to_wide', 'to_xarray', 'transpose', 'truediv', 'truncate', 'tshift', 'tz_convert', 'tz_localize', 'unstack', 'update', 'values', 'var', 'where', 'xs']

#显然数据是以字典的形式存放的
#查看字典键
for x in data:
    print(x)

sepal_length   #花萼长
sepal_width    #花萼宽
petal_length   #花瓣长
petal_width    #花瓣宽
species          #种类

#查看字典值
for x in data.values:
    print(x)

[5.1 3.5 1.4 0.2 'setosa']
[4.9 3.0 1.4 0.2 'setosa']
[4.7 3.2 1.3 0.2 'setosa']
[4.6 3.1 1.5 0.2 'setosa']
[5.0 3.6 1.4 0.2 'setosa']
[5.4 3.9 1.7 0.4 'setosa']
[4.6 3.4 1.4 0.3 'setosa']
[5.0 3.4 1.5 0.2 'setosa']
[4.4 2.9 1.4 0.2 'setosa']
[4.9 3.1 1.5 0.1 'setosa']
[5.4 3.7 1.5 0.2 'setosa']
[4.8 3.4 1.6 0.2 'setosa']
[4.8 3.0 1.4 0.1 'setosa']
[4.3 3.0 1.1 0.1 'setosa']
[5.8 4.0 1.2 0.2 'setosa']
[5.7 4.4 1.5 0.4 'setosa']
[5.4 3.9 1.3 0.4 'setosa']
[5.1 3.5 1.4 0.3 'setosa']
[5.7 3.8 1.7 0.3 'setosa']
[5.1 3.8 1.5 0.3 'setosa']
[5.4 3.4 1.7 0.2 'setosa']
[5.1 3.7 1.5 0.4 'setosa']
[4.6 3.6 1.0 0.2 'setosa']
[5.1 3.3 1.7 0.5 'setosa']
[4.8 3.4 1.9 0.2 'setosa']
[5.0 3.0 1.6 0.2 'setosa']
[5.0 3.4 1.6 0.4 'setosa']
[5.2 3.5 1.5 0.2 'setosa']
[5.2 3.4 1.4 0.2 'setosa']
[4.7 3.2 1.6 0.2 'setosa']
[4.8 3.1 1.6 0.2 'setosa']
[5.4 3.4 1.5 0.4 'setosa']
[5.2 4.1 1.5 0.1 'setosa']
[5.5 4.2 1.4 0.2 'setosa']
[4.9 3.1 1.5 0.2 'setosa']
[5.0 3.2 1.2 0.2 'setosa']
[5.5 3.5 1.3 0.2 'setosa']
[4.9 3.6 1.4 0.1 'setosa']
[4.4 3.0 1.3 0.2 'setosa']
[5.1 3.4 1.5 0.2 'setosa']
[5.0 3.5 1.3 0.3 'setosa']
[4.5 2.3 1.3 0.3 'setosa']
[4.4 3.2 1.3 0.2 'setosa']
[5.0 3.5 1.6 0.6 'setosa']
[5.1 3.8 1.9 0.4 'setosa']
[4.8 3.0 1.4 0.3 'setosa']
[5.1 3.8 1.6 0.2 'setosa']
[4.6 3.2 1.4 0.2 'setosa']
[5.3 3.7 1.5 0.2 'setosa']
[5.0 3.3 1.4 0.2 'setosa']
[7.0 3.2 4.7 1.4 'versicolor']
[6.4 3.2 4.5 1.5 'versicolor']
[6.9 3.1 4.9 1.5 'versicolor']
[5.5 2.3 4.0 1.3 'versicolor']
[6.5 2.8 4.6 1.5 'versicolor']
[5.7 2.8 4.5 1.3 'versicolor']
[6.3 3.3 4.7 1.6 'versicolor']
[4.9 2.4 3.3 1.0 'versicolor']
[6.6 2.9 4.6 1.3 'versicolor']
[5.2 2.7 3.9 1.4 'versicolor']
[5.0 2.0 3.5 1.0 'versicolor']
[5.9 3.0 4.2 1.5 'versicolor']
[6.0 2.2 4.0 1.0 'versicolor']
[6.1 2.9 4.7 1.4 'versicolor']
[5.6 2.9 3.6 1.3 'versicolor']
[6.7 3.1 4.4 1.4 'versicolor']
[5.6 3.0 4.5 1.5 'versicolor']
[5.8 2.7 4.1 1.0 'versicolor']
[6.2 2.2 4.5 1.5 'versicolor']
[5.6 2.5 3.9 1.1 'versicolor']
[5.9 3.2 4.8 1.8 'versicolor']
[6.1 2.8 4.0 1.3 'versicolor']
[6.3 2.5 4.9 1.5 'versicolor']
[6.1 2.8 4.7 1.2 'versicolor']
[6.4 2.9 4.3 1.3 'versicolor']
[6.6 3.0 4.4 1.4 'versicolor']
[6.8 2.8 4.8 1.4 'versicolor']
[6.7 3.0 5.0 1.7 'versicolor']
[6.0 2.9 4.5 1.5 'versicolor']
[5.7 2.6 3.5 1.0 'versicolor']
[5.5 2.4 3.8 1.1 'versicolor']
[5.5 2.4 3.7 1.0 'versicolor']
[5.8 2.7 3.9 1.2 'versicolor']
[6.0 2.7 5.1 1.6 'versicolor']
[5.4 3.0 4.5 1.5 'versicolor']
[6.0 3.4 4.5 1.6 'versicolor']
[6.7 3.1 4.7 1.5 'versicolor']
[6.3 2.3 4.4 1.3 'versicolor']
[5.6 3.0 4.1 1.3 'versicolor']
[5.5 2.5 4.0 1.3 'versicolor']
[5.5 2.6 4.4 1.2 'versicolor']
[6.1 3.0 4.6 1.4 'versicolor']
[5.8 2.6 4.0 1.2 'versicolor']
[5.0 2.3 3.3 1.0 'versicolor']
[5.6 2.7 4.2 1.3 'versicolor']
[5.7 3.0 4.2 1.2 'versicolor']
[5.7 2.9 4.2 1.3 'versicolor']
[6.2 2.9 4.3 1.3 'versicolor']
[5.1 2.5 3.0 1.1 'versicolor']
[5.7 2.8 4.1 1.3 'versicolor']
[6.3 3.3 6.0 2.5 'virginica']
[5.8 2.7 5.1 1.9 'virginica']
[7.1 3.0 5.9 2.1 'virginica']
[6.3 2.9 5.6 1.8 'virginica']
[6.5 3.0 5.8 2.2 'virginica']
[7.6 3.0 6.6 2.1 'virginica']
[4.9 2.5 4.5 1.7 'virginica']
[7.3 2.9 6.3 1.8 'virginica']
[6.7 2.5 5.8 1.8 'virginica']
[7.2 3.6 6.1 2.5 'virginica']
[6.5 3.2 5.1 2.0 'virginica']
[6.4 2.7 5.3 1.9 'virginica']
[6.8 3.0 5.5 2.1 'virginica']
[5.7 2.5 5.0 2.0 'virginica']
[5.8 2.8 5.1 2.4 'virginica']
[6.4 3.2 5.3 2.3 'virginica']
[6.5 3.0 5.5 1.8 'virginica']
[7.7 3.8 6.7 2.2 'virginica']
[7.7 2.6 6.9 2.3 'virginica']
[6.0 2.2 5.0 1.5 'virginica']
[6.9 3.2 5.7 2.3 'virginica']
[5.6 2.8 4.9 2.0 'virginica']
[7.7 2.8 6.7 2.0 'virginica']
[6.3 2.7 4.9 1.8 'virginica']
[6.7 3.3 5.7 2.1 'virginica']
[7.2 3.2 6.0 1.8 'virginica']
[6.2 2.8 4.8 1.8 'virginica']
[6.1 3.0 4.9 1.8 'virginica']
[6.4 2.8 5.6 2.1 'virginica']
[7.2 3.0 5.8 1.6 'virginica']
[7.4 2.8 6.1 1.9 'virginica']
[7.9 3.8 6.4 2.0 'virginica']
[6.4 2.8 5.6 2.2 'virginica']
[6.3 2.8 5.1 1.5 'virginica']
[6.1 2.6 5.6 1.4 'virginica']
[7.7 3.0 6.1 2.3 'virginica']
[6.3 3.4 5.6 2.4 'virginica']
[6.4 3.1 5.5 1.8 'virginica']
[6.0 3.0 4.8 1.8 'virginica']
[6.9 3.1 5.4 2.1 'virginica']
[6.7 3.1 5.6 2.4 'virginica']
[6.9 3.1 5.1 2.3 'virginica']
[5.8 2.7 5.1 1.9 'virginica']
[6.8 3.2 5.9 2.3 'virginica']
[6.7 3.3 5.7 2.5 'virginica']
[6.7 3.0 5.2 2.3 'virginica']
[6.3 2.5 5.0 1.9 'virginica']
[6.5 3.0 5.2 2.0 'virginica']
[6.2 3.4 5.4 2.3 'virginica']
[5.9 3.0 5.1 1.8 'virginica']

#数据可视化
plt.xlim(0,7)
plt.ylim(0,3)
for x in data.values:
    if x[4] == 'setosa':
        plt.scatter(x[2],x[3],c='r')
    elif x[4] == 'virginica':
        plt.scatter(x[2],x[3],c='b')
    else:
        plt.scatter(x[2],x[3],c='y')
font = FontProperties(fname=r"C:\\Windows\\Fonts\\simsun.ttc",size=14)         
plt.xlabel('花瓣长',fontproperties=font,color='r')
plt.ylabel('花瓣宽',fontproperties=font,color='r')
plt.axhline(y=0.75,c='g',ls='--',lw='2') #垂直Y轴
plt.axvline(x=2.5,color='g',ls='--',lw='2')#垂直X轴
plt.axhline(y=1.75,c='g',ls='--',lw='2') #垂直Y轴
plt.axvline(x=5.0,color='g',ls='--',lw='2')#垂直X轴
plt.axhline(y=2.5,c='g',ls='--',lw='2') #垂直Y轴
plt.axvline(x=7,color='g',ls='--',lw='2')#垂直X轴
plt.title('鸢尾花数据集可视化',fontproperties=font,color='b')
plt.legend(handles=[L1,L2,L3],labels=['setosa','virginica','versicolour'],loc='upper left')
plt.show()

可视化效果图如下：

鸢尾花数据可视化.png

仅对鸢尾花的花瓣长度数据的可视化我们就可以大致确定三种鸢尾花的种类，尽管这种预测不能对所有的鸢尾花都成立但是对绝大多数的鸢尾花都能够进行很好的分类。根据这150多鸢尾花的数据来看Setosa种类的花完全可以和versicolour和virginica分开来，但是后两种花在一定程度上有重叠。这就需要寻找更好的度量分类的标准，这也是数据挖掘的任务之一。
代码下载地址：https://github.com/luozekun1230/MyPyhonAIprogram.git

Iris鸢尾花数据集可视化、线性回归、决策树分析、KMeans聚
数据集可视化采用Python的Sklearn机器学习库中自带的数据集——鸢尾花数据集。简单分析数据集之间特征的关...
机器学习函数库——Scikit-learn
Scikit-learn的数据集基本的自带数据集：以鸢尾花数据集为例，鸢尾花数据集采集的是鸢尾花的测量数据及其...
代码
# 利用鸢尾花数据集，实现前向传播、反向传播，可视化loss曲线 # 导入所需模块 import tensorfl...
鸢尾花数据集可视化
众所周知数据挖掘的主要任务有如下两点：预测任务：即根据已知属性来预测未知属性，根据已知数据来推断未知事物描叙任...
2020机器学习PCA 降维实践
实例1 我们从一个简单数据集（鸢尾花数据集）开始，这里我就不过多介绍这个数据集了，通过鸢尾花的以下 4 特征 Se...
决策树实现鸢尾花三分类
一、数据集 Iris（鸢尾花）数据集是多重变量分析的数据集。数据集包含150行数据，分为3类，每类50行数据。每...
day02-xgboost和lightgbm简单实现
xgboost 导入鸢尾花数据数据展示 pandas格式结果： pandas格式结果：划分训练集和测试集 ...
基于Python的数据可视化：从一维到多维
目录一、iris数据集介绍二、一维数据可视化三、二维数据可视化四、多维数据可视化五、参考资料一、iris数据集...
导入鸢尾花数据集OSError: Initializing fr
之前是这样导入鸢尾花数据集：data = pd.read_csv('D:\MNIST数据集\iris.data'）...
K近邻算法-机器学习-实现鸢尾花种类预测
一、案例：鸢尾花种类预测： 1、数据集介绍：Iris数据集是常用的分类实验数据集，由Fisher,1936收集整理...