python数据挖掘入门（数据可视化与模型初探）

立即下载用AI写一个

发布时间：2020-11-19

12人 | 浏览：1506次 | 收藏 |

技术：python的numpy，pandas，sk-learn等基础库

概述

对数据进行基础的可视化来理解数据，后面简单几行代码运行各类热门模型

本教材适合初学者，注重从可视化的角度切入，方便初学者以直观角度理解数据。

！数据和代码全部都放在一起了，安装相关的包后，直接运行即可

一.数据初探及可视化

首先，我们来查看一下数据的大概样貌

之后pandas库里面的describe方法可直接查看数据的基本信息，如标准差，平均值，分位数和极值等

之后对每一个特征进行其分布的可视化，画出每个特征的数据分布图

之后画出数据的箱型图，箱型图可以体现分位数以及极值和数据分布等信息

画出每个特征相关系数的热力图，颜色越深代表相关性越明显

二.特征筛选

使用sk-learn库里面的chi2和SelectKBest方法来做特征筛选，部分代码如下

对于筛选后的特征，分别单独画出其数据分布的箱型图

三.模型构建（数据分类模型KNN，SVM，LR等）

这里姑且调用sk-learn的库函数来实现，并记录其准确率，其底层实现我会后续更进。

画出混淆矩阵。

注：混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。

四.项目源码目录

本实例支付的费用只是购买源码的费用，如有疑问欢迎在文末留言交流，如需作者在线代码指导、定制等，在作者开启付费服务后，可以点击“购买服务”进行实时联系，请知悉，谢谢

手机上随时阅读、收藏该文章？请扫下方二维码