在之前的学习中我们已经了解了如何利用Python的matplotlib进行数据可视化,那么你对Seaborn进行数据可视化了解吗?下面是小编总结的有关利用Python的Seaborn进行数据可视化的详细介绍;请参照:

一个精心设计的可视化程序有一些特别之处。颜色突出,层次很好地融合在一起,整个轮廓流动,整个程序不仅有一个很好的美学质量,它也为我们提供了有意义的技术洞察力。

这在数据科学中*重要,因为我们经常处理大量杂乱的数据。对于数据科学家来说,具有可视化的能力是至关重要的。我们的利益相关者或客户将更多地依赖于视觉提示,而不是复杂的机器学习模型。

有大量*的Python可视化库可用,包括内置的matplotlib。但Seaborn对我来说很重要。它将美学魅力与技术洞察力无缝地结合在一起,我们很快就会看到这一点。

Seaborn其实是在matplotlib的基础上进行了更*的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。

Python

一、什么是Seaborn?

你曾经在R中使用过ggplot2库吗?它是任何工具或语言中*的可视化包之一。Seaborn给了我同样的感觉。

Seaborn是一个构建在matplotlib之上的一个*完美的Python可视化库。

它使我们能够创建放大的数据视觉效果。这有助于我们理解数据,通过在可视上下文中显示数据来发现变量或趋势之间的任何隐藏相关性,而这些相关性*初可能并不明显。与Matplotlib的低级接口相比,Seaborn具有*接口。

二、为什么应该使用Seaborn而不是matplotlib?

我一直在谈论Seaborn是多么的棒,所以你可能想知道我为什么这么大惊小怪。

当我们使用seaborn生成图时,我将以实际的方式全面地回答这个问题。现在,让我们快速讨论一下seaborn为什么在matplotlib之上。

Seaborn使我们的图表和绘图看起来很吸引人,并支持一些常见的数据可视化需求(比如将颜色映射到变量或使用分面(faceting))。从根本上说,它使数据可视化和探索变得很容易。相信我,这在数据科学中不是一件容易的事。

在matplotlib中有几个(很大的)限制是Seaborn已经修复的:

Seaborn提供了大量的*接口和自定义主题,而matplotlib没有这些接口,因为很难确定哪些设置使图表更吸引人

Matplotlib函数不能很好地处理数据流,而seaborn可以

这第二点在数据科学中很突出,因为我们经常使用数据模型。

三、搭建环境

seaborn库具有四个必需的必需依赖项:

1、NumPy (>= 1.9.3)

2、SciPy (>= 0.14.0)

3、matplotlib (>= 1.4.3)

4、Pandas (>= 0.15.2)

要安装Seaborn并有效地使用它,首先需要安装前面提到的依赖项。一旦这一步完成,我们都准备安装Seaborn和享受其迷人的绘图。要安装Seaborn,可以使用以下代码

要安装*版本的seaborn,你可以使用pip:

pip install seaborn

或者其他版本,这里不再作详细介绍。

四、用于数据可视化的数据集

我们将主要处理两个数据集:

人力资源分析

(https://datahack.analyticsvidhya.com/contest/wns-analytics-hackathon-2018-1/)

预测投票数

(https://datahack.analyticsvidhya.com/contest/enigma-codefest-machine-learning-1/)

之所以选择这两个,是因为它们包含多个变量,因此我们有很多选择可以使用。这两个数据集还可以模拟现实情况,因此你将了解数据可视化和了解业内的数据可视化方式。

你可以在DataHack平台上查看这个和其他高质量的数据集。因此,请在继续之前下载上述两个数据集。我们将一起使用它们。