python数据挖掘入门(数据可视化与模型初探)
技术:python的numpy,pandas,sk-learn等基础库
概述
对数据进行基础的可视化来理解数据,后面简单几行代码运行各类热门模型
详细
本教材适合初学者,注重从可视化的角度切入,方便初学者以直观角度理解数据。
!数据和代码全部都放在一起了,安装相关的包后,直接运行即可
一.数据初探及可视化
首先,我们来查看一下数据的大概样貌
之后pandas库里面的describe方法可直接查看数据的基本信息,如标准差,平均值,分位数和极值等
之后对每一个特征进行其分布的可视化,画出每个特征的数据分布图
之后画出数据的箱型图,箱型图可以体现分位数以及极值和数据分布等信息
画出每个特征相关系数的热力图,颜色越深代表相关性越明显
二.特征筛选
使用sk-learn库里面的chi2和SelectKBest方法来做特征筛选,部分代码如下
对于筛选后的特征,分别单独画出其数据分布的箱型图
三.模型构建(数据分类模型KNN,SVM,LR等)
这里姑且调用sk-learn的库函数来实现,并记录其准确率,其底层实现我会后续更进。
画出混淆矩阵。
注:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。
四.项目源码目录
本实例支付的费用只是购买源码的费用,如有疑问欢迎在文末留言交流,如需作者在线代码指导、定制等,在作者开启付费服务后,可以点击“购买服务”进行实时联系,请知悉,谢谢
手机上随时阅读、收藏该文章 ?请扫下方二维码