Python是当今世界*热门的编程语言,而它*的应用领域就是使用 Pandas 数据分析,使用 Pandas 我们可以 Excel/CSV/TXT/MySQL 等数据读取,然后进行各种清洗、过滤、透视、聚合分析,也可以直接绘制折线图、饼图等数据分析图表,在功能上它能够实现自动化的对大文件处理,能够实现Excel的几乎所有功能并且更加强大。

对数学专业的人来说,Pandas可以作为一个*的数据分析切入点。下面融跃小编为大家介绍12种用于数据分析的Pandas技巧。

1. Boolean Indexing

在表格中,如果你想根据另一列的条件筛选当前列的值,你会怎么做?举个例子,假设我们想要一份所有未毕业但已经办理了贷款的女性清单,具体的操作是什么?在这种情况下,Boolean Indexing,也就是布尔索引能提供相应的功能。

2. Apply Function

Apply函数是使用数据和创建新变量的常用函数之一。在对DataFrame的特定行/列应用一些函数后,它会返回相应的值。这些函数既可以是默认的,也可以是用户自定义的。

3. 替换缺失值

对于替换缺失值,fillna可以一步到位,它会用目标列的平均值/众数/中位数更新缺失值。

4. Pivot Table

Pandas可以用来创建MS Excel样式数据透视表(Pivot Table)。

5. Multi-Indexing

如果你仔细观察了“替换缺失值”那一节的输出,你可能会发现一个奇怪的现象,就是每个索引都由3个值组合而成。这被称为多重索引(Multi-Indexing),它有助于操作的快速执行。

注:

多索引需要元组来定义loc语句中的索引组。这是一个在函数中要用到的元组。

values [0]的后缀是必需的,因为默认情况下返回的值与DataFrame的值不匹配。在这种情况下,直接分配会出现错误。

Python

6. Crosstab

这个函数可以被用来塑造对数据的初始“感觉(概览)”,通俗地讲,就是我们可以验证一些基本假设。如在贷款案例中,“Credit_History”是否会影响个人贷款成功?这可以用交叉表(Crosstab)测试,

7. 合并DataFrame

当我们需要将来自不同来源的信息进行整合时,合并DataFrame(或者你们爱说数据框)就变得很重要了。

8. DataFrame排序

Pandas可以轻松基于多列进行排序。

9. 绘图(Boxplot和直方图)

很多人可能不知道自己能直接在Pandas里绘制盒形图和直方图,无需单独调用matplotlib,一行命令就能搞定。

10. Cut function for binning

有时候聚类后的数据会更有意义。以今天*近车祸频发的自动驾驶汽车为例,如果我们要用它捕获的数据重现某条路上的交通情况,比起一整天的流畅数据,或是把一天均匀分割为24个小时,“早上”“下午”“晚上”“夜晚”“深夜”这几个关键时段的数据包含的信息量更多,也更有效。

11. 为nominal数据编码

有时候我们需要对称名数据(nominal数据)重新分类,这可能是由于各种原因造成的:一些算法(如Logistic回归)要求所有输入都是数字,所以我们要把称名变量重新编码为0,1 ...(n-1)。

有时一个类别可能包含多种表达,如“温度”可以被记录为“High”“Medium”“Low”“H”“low”,其中“High”和“H”是一码事,“Low”和“low”也是一码事,但Python会认为它们是不同的。有些类别的频数*低,所以我们应该把它们合并起来。

为了解决这个问题,这里我们定义了一个简单的函数,它把输入作为“字典”,然后调用Pandas的replace函数重新编码。

Python

12. 迭代dataframe的行

这不是一个常用的技巧,但如果遇到这种问题,相信没人想到时候再绞尽脑汁想办法,或者直接自暴自弃用for循环遍历所有行。这里我们举两个要用到这种方法的场景:当带有数字的nominal variable被当成数字。当某一行带有字符(因为数据错误)的Numeric variable被当成分类。这时我们就要手动定义列的类别。虽然很麻烦,但这之后如果我们再检查数据类别。

数据分析是一个很热门*有价值的职场技能,学会了 Pandas 会*大的助力你的职业生涯。