数据可视化:Seaborn库常用图形
Contents
seaborn库其实是在matplotlib库的基础上进行了更高级的API封装,从而使绘图更容易、更美观。
本文主要通过泰坦尼克号数据集,来演示seaborn库常用可视化图形。
分析目的:
- 了解泰坦里克号乘客的基本信息分布情况
 - 乘客的信息与生还数据是否有关联
 
数据集导入
1  | import matplotlib.pyplot as plt  | 
1  | # 拿到小费数据集  | 

1  | # 常规的数据信息查看  | 
1  | <class 'pandas.core.frame.DataFrame'>  | 
1  | # 查看缺失值  | 
1  | PassengerId 0  | 
二元分布图
如果要体现多变量的分布情况,就需要成对的二元分布图。在seaborn中,可以使用pairplot函数来完成二元分布图,该函数会创建一个轴矩阵,以此显示DataFrame中每两列的关系,在对角上为单变量的分布情况。
看图的方式是查看横轴、纵轴的方式查看每两个变量的对比情况。
1  | sns.pairplot(train_data)  | 

直方图(使用直方图查看年龄分布)
1  | # 使用平均值进行填充  | 

琴形图(变形的箱线图,来查看分类的分布)
1  | # 利用正确的登船地点S进行缺失值的填充  | 

分类散点图
用于观察不同分类下,值的数量和高低分布
1  | # 在是否生还情况下,Fare 金额的的分布情况  | 

使用hue参数可以加入分类的变量
1  | # 是否生还男女人数占比,“1”表示生还  | 

多个图形场景
1  | # Sex、SibSp、Embarked、Pclass对是否生存的影响  | 

seaborn 的网格使用
1  | # seaborn 的网格使用。分别对别 Sex 的生存情况  | 
