python数据挖掘入门(数据可视化与模型初探)

发布时间:2020-11-19
技术:python的numpy,pandas,sk-learn等基础库

概述

对数据进行基础的可视化来理解数据,后面简单几行代码运行各类热门模型

详细


本教材适合初学者,注重从可视化的角度切入,方便初学者以直观角度理解数据。


!数据和代码全部都放在一起了,安装相关的包后,直接运行即可


一.数据初探及可视化

首先,我们来查看一下数据的大概样貌

image.png


之后pandas库里面的describe方法可直接查看数据的基本信息,如标准差,平均值,分位数和极值等

image.png

之后对每一个特征进行其分布的可视化,画出每个特征的数据分布图

image.png

之后画出数据的箱型图,箱型图可以体现分位数以及极值和数据分布等信息

image.png

画出每个特征相关系数的热力图,颜色越深代表相关性越明显

image.png

二.特征筛选

使用sk-learn库里面的chi2和SelectKBest方法来做特征筛选,部分代码如下

image.png

对于筛选后的特征,分别单独画出其数据分布的箱型图

image.png

三.模型构建(数据分类模型KNN,SVM,LR等)

这里姑且调用sk-learn的库函数来实现,并记录其准确率,其底层实现我会后续更进。

image.png

画出混淆矩阵。

注:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示

image.png

四.项目源码目录

image.png


本实例支付的费用只是购买源码的费用,如有疑问欢迎在文末留言交流,如需作者在线代码指导、定制等,在作者开启付费服务后,可以点击“购买服务”进行实时联系,请知悉,谢谢
手机上随时阅读、收藏该文章 ?请扫下方二维码