用Python做数据分析：Pandas常用数据查询语法

benjinxing 9年前
   <p>在使用Pandas之前，大多数数据分析师已经掌握了Excel和SQL，并且在刚上手Pandas时会经常习惯性想到“老办法”。"如果谁能把常用的数据查询语法做个对比就好了 "，我也曾不止一次地想享受前人的成果，无奈发现网上的文章侧重不同且深浅不一，还涉及到一些Pandas新老版本的问题，于是决定自己动手。</p>    <h2>一、举例的数据</h2>    <p>假设我有个六列的dataframe：一列是销售员，一列是所属团队，其它四列分别是四个季度的销售额。</p>    <p><img src="https://simg.open-open.com/show/777b5e60f80d1e368c6a79bdbf668447.png"></p>    <p>1 <strong>新增列-基于原有列的全年销售额</strong></p>    <p>首先df['Total ']确保了你在该df内新增了一个column，然后累加便可。</p>    <p>df['Total']  = df['Q1']+df['Q2']+df['Q3']+df['Q4']</p>    <p><img src="https://simg.open-open.com/show/f323eaecfb8324e635b6ceab3b59cde3.png"></p>    <p>你可能想使用诸如sum()的函数进行这步，很可惜，sum()方法只能对列进行求和，幸好它可以帮我们求出某季度的总销售额。df['Q1'].sum()，你就能得到一个Q1的总销售额，除此之外，其他的聚合函数，max,min,mean都是可行的。</p>    <p>2 <strong>分组统计 - 团队竞赛</strong></p>    <p>那么按团队进行统计呢？在mysql里是group by，Pandas里也不例外，你只需要df.groupby('Team').sum()就能看到期望的答案了。</p>    <p><img src="https://simg.open-open.com/show/fdc9c306700a5bc1ce444a04447c8106.png"></p>    <p>4 <strong>排序 - 谁是销售冠军</strong></p>    <p>如果你关心谁的全年销售额最多，那么就要求助于sort_values方法了，在excel内是右键筛选，SQL内是一个orderby。默认是顺序排列的，所以要人为设定为False，如果你只想看第一名，只需要在该语句末尾添加.head(1) 。</p>    <p><img src="https://simg.open-open.com/show/88c67ac4b418ad6034dc98b274948c33.png"></p>    <p><img src="https://simg.open-open.com/show/20486129c9cbac442cd962e8468e62f4.png"></p>    <p>5 <strong>切片-只给我看我关心的行</strong></p>    <p>接下来就是涉及一些条件值的问题，例如我只关心Team为A的数据，在Excel里是筛选框操作，在SQL里写个where就能搞定，在Pandas里需要做切片。</p>    <p>查看Pandas文档时，你可能已经见过各种切片的函数了，有loc,iloc,ix,iy，这里不会像教科书一样所有都讲一通让读者搞混。 <strong>这种根据列值选取行数据的查询操作，推荐使用loc方法。</strong></p>    <p>df.loc[df['Team']== 'A',['Salesman', 'Team','Year']]，这里用SQL语法理解更方便，loc内部逗号前面可以理解为where，逗号后可以理解为select的字段。</p>    <p><img src="https://simg.open-open.com/show/a94f3206668b9b04d455cf9c0eb50dee.png"></p>    <p>如果想全选出，那么只需将逗号连带后面的东西删除作为缺省，即可达到select *的效果。</p>    <p><img src="https://simg.open-open.com/show/a94f3206668b9b04d455cf9c0eb50dee.png"></p>    <p>6 <strong>切片 - 多条件筛选</strong></p>    <p>在Pandas中多条件切片的写法会有些繁琐，df.loc[ (df['Team']== 'A' ) & (df['Total'] > 15000 ) ]，添加括号与条件符。</p>    <p><img src="https://simg.open-open.com/show/efef89d3d8f5c5c1ddd75ca7600b2e88.png"></p>    <p>这里有一个有意思的小应用，如果你想给符合某些条件的员工打上优秀的标签，你就可以结合上述新增列和切片两点，进行条件赋值操作。</p>    <p>df.loc[ (df['Team']== 'A' ) & (df['Total'] > 15000 ) , 'Tag']  = 'Good'</p>    <p><img src="https://simg.open-open.com/show/dce33bf9e83e51ea71696d2146b15259.png"></p>    <p>7 <strong>删除列 - 和查询无关，但是很有用</strong></p>    <p>当然这里只是个举例，这时候我想删除Tag列，可以del df['Tag']，又回到了之前。</p>    <h2>二、连接</h2>    <p>接下来要讲join了，现在有每小时销售员的职位对应表pos，分为Junior和Senior，要将他们按对应关系查到df中。</p>    <p><img src="https://simg.open-open.com/show/0b9f3dfe2a626c949b70c49f3b3aafa6.png"></p>    <p>这里需要认识一下新朋友，merge方法，将两张表作为前两个输入，再定义连接方式和对应键。对应到Excel中是Vlookup，SQL中就是join。在pandas里的连接十分简单。</p>    <p>df =  pd.merge(df, pos, how='inner', on='Salesman')</p>    <p>注意，这个时候其实我们是得到了新的df， 如果不想覆盖掉原有的df，你可以在等号左边对结果重新命名。</p>    <p>这时候有了两组标签列（对应数值列），就可以进行多重groupby了。</p>    <p><img src="https://simg.open-open.com/show/4b3991ec755a40b40ac8b25f090d61b2.png"></p>    <p>当然这样的结果并不能公平地反应出哪一组更好，因为每组的组员人数不同，可能有平均数的参与会显得更合理，并且我们只想依据全年综合来评价。</p>    <p><img src="https://simg.open-open.com/show/71c84fbfacfbec652fa5f286942b94c9.png"></p>    <p>这里的数据是捏造的，不过也一目了然了。</p>    <h2>三、合并操作</h2>    <p>最后以最简单的一个合并操作收尾。</p>    <p>如果我又有一批数据df2，需要将两部分数据合并。只需要使用concat方法，然后传一个列表作为参数即可。不过前提是必须要保证他们具有相同类型的列，即使他们结构可能不同（df2的Team列在末尾，也不会影响concat结果，因为pandas具有自动对齐的功能）。</p>    <p>pd.concat([df,df2])</p>    <p><img src="https://simg.open-open.com/show/2ca9a8f87caaa6ecac18436547c6f458.png"></p>    <p><img src="https://simg.open-open.com/show/43d0a58eba423890db2e0a7d5731b641.png"></p>    <h2>尾声</h2>    <p>以上就是一些基础的Pandas数据查询操作了。作为Pandas初学者，如果能善用类比迁移的方法进行学习并进行总结是大有裨益的。如果看完本文还没有能了解到你关心的查询方法，可以留言联系，或许还可以有续集。</p>    <p><strong>作者</strong></p>    <p>大毛 岂安科技业务风险分析师，多年订单业务反欺诈经验，负责岂安科技多款产品运营工作。</p>    <p> </p>    <p> </p>    <p>来自：mp.weixin.qq.com/s?__biz=MzIxNDE4MzA4OQ==&mid=2651025866&idx=1&sn=1e967ab4c5abf38f836189e99cc3707f&chksm=8c5cac14bb2b2502b0e2718b2aafed02a1c5f1997b2c359406aa3887bb7da56dcb5a7d39dc47&scene=0#rd</p>    <p> </p>
用Python做数据分析：Pandas常用数据查询语法

相关经验

目录