pandas 对列的相关操作_pandas 列操作-程序员宅基地

技术标签: pandas  python  数据分析  Python学习笔记  

pandas 对列的相关操作

先生成测试数据,存放学生的成绩信息:

import copy
import pandas as pd
data = pd.DataFrame({
    'name':['Lindsay','Chris','Ambe','Delia','Ula'],
                 'score':['55分','66分','77分','88分','99分'],
                 'course_id':[1,1,1,1,1]})
data
name score course_id
0 Lindsay 55分 1
1 Chris 66分 1
2 Ambe 77分 1
3 Delia 88分 1
4 Ula 99分 1

1.修改列名

1.直接暴力修改

直接暴力修改,就是直接把所有列名进行重置,赋予新的列名

这种方式必须把所有的列名都写上(不修改名称的也要写),而且顺序和数量都必须和原来的数据表保持一致。

如:把 ‘course_id’ 改为 ‘课程id’。

data_1 = copy.deepcopy(data)   # 将data深复制到data_1,防止data的值被修改
data_1.columns = ['name', 'score', '课程id']
data_1
name score 课程id
0 Lindsay 55分 1
1 Chris 66分 1
2 Ambe 77分 1
3 Delia 88分 1
4 Ula 99分 1

显然,当数据表中有很多列时,这种方式并不是明智之举。

2.指定修改列名rename()

rename()函数可以直接指定需要更改的原列名和新列名,当有多列需要更改时,用字典的方式提供列名更改信息

参数格式:

DataFrame.rename( columns = { ‘原列名1’:‘新列名1’,…, ‘原列名n’:‘新列名n’ }, inplace = False )

inplace=False:表示不直接在原始数据上修改列的名称,而是生成一个副本,可以赋值给新的对象,inplace默认为False。

inplace=True:直接在原始数据上修改列的名称

data_2=data.rename(columns={
    'name':'姓名', 'score':'成绩'})
data_2
姓名 成绩 course_id
0 Lindsay 55分 1
1 Chris 66分 1
2 Ambe 77分 1
3 Delia 88分 1
4 Ula 99分 1

2.修改列的顺序

在工作中,我们有时候需要对数据表的列进行重排序。

我们可以根据我们的需要,按照指定的顺序读取列,然后赋值给新的变量

如:将 ‘course_id’ 列显示到最前面。

data_3 = data[['course_id','name','score']]    # 根据需要,改变列的顺序
data_3
course_id name score
0 1 Lindsay 55分
1 1 Chris 66分
2 1 Ambe 77分
3 1 Delia 88分
4 1 Ula 99分

3.删除列

当我们读取到的原始数据中,有些列是我们不需要的时。

我们可以从以下两个方面来处理。

  • 1.读取数据的时候只读取需要的列,不需要的列就不读取,然后赋值给新的变量;
  • 2.使用 del 方法删除列(只能删除单列);
  • 3.使用 drop() 函数删除列(可以删除多列)。

如:删除 ‘course_id’ 列。

方法1:只读取需要的列

data_4 = data[['name','score']] 
data_4
name score
0 Lindsay 55分
1 Chris 66分
2 Ambe 77分
3 Delia 88分
4 Ula 99分

备注:这种方式看上去是删除了 ‘course_id’ 列,其实只是让新的变量中不存放’course_id’ 列的值,原始数据并没有发生改变。

方法2:del方法删除列

data_5 = copy.deepcopy(data)
del data_5['course_id']
data_5
name score
0 Lindsay 55分
1 Chris 66分
2 Ambe 77分
3 Delia 88分
4 Ula 99分

备注:del 方法一次只能删除一列,不能删除多列,而且是直接对原始数据进行删除

方法3:使用 drop() 函数删除列

drop()方法可以通过直接指定索引或列名,删除行或列。

参数格式:

DataFrame.drop(labels=None,axis=0,index=None,columns=None,inplace=False)

  • labels:接收字符串或列表。代表删除的行或列的标签,无默认值。
  • axis:接收0或1。代表操作的轴向,0代表删除行,1代表删除列,默认为0。
  • index:接收字符串或列表。代表删除的行的索引index,无默认值。
  • columns:接收字符串或列表。代表删除的列的名称,无默认值。
  • inplace:接收boolean。代表操作是否对原始数据生效,默认为False。
data.drop(columns='course_id', axis=1, inplace=True)
data
name score
0 Lindsay 55分
1 Chris 66分
2 Ambe 77分
3 Delia 88分
4 Ula 99分

备注:指定删除的列名为 ‘course_id’,axis=1代表删除列,inplace=True 代表直接在原始数据上进行删除

drop() 函数可以同时删除多列。

如:同时删除 ‘name’ 和 ‘score’ 列的写法:

data.drop(columns=['name','score'], axis=1)
0
1
2
3
4

3.新建列

1.直接赋值

在 DateFrame 类型的数据后面,直接跟上新的列名,然后赋值

这种方式会直接修改 DateFrame 的值,在该 DateFrame 类型的数据后面,新增一列。

格式为:

DateFrame[‘新列名’] = ‘新列值’

如:现在学生的成绩是 “ str ” 类型,而且带有汉字“分”,不方便计算。

我们需要新建一列,提取出成绩中的数值部分。

data['score1'] = data['score'].str.replace('分','').astype('int32')    
# 将'分'替换为''(空字符串),即删除'分'字,并转换为int类型
data
name score score1
0 Lindsay 55分 55
1 Chris 66分 66
2 Ambe 77分 77
3 Delia 88分 88
4 Ula 99分 99

注:该方法不可以选择插入新列的位置,默认为最后一列

如果新增的一列值相同,直接为其赋值一个常量即可;

如果插入值不同,为列表格式,需与已有列的行数长度一致,如上面例子中原来列为5行,新增列也必须有5个值。

2.insert()函数

前面直接赋值的方法只能在原始数据的最后位置插入一列数据

如果想要在任意位置插入一列,就需要用到insert()函数。

语法格式如下:

DataFrame.insert(loc, column, value,allow_duplicates = False)

参数:

  • loc:必要字段,int类型数据,表示插入新列的列位置,原来在该位置的列将向右移。

  • column:必要字段,插入新列的列名。

  • value:必要字段,新列插入的值。如果仅提供一个值,将为所有行设置相同的值。可以是int,string,float等,甚至可以是series /值列表。

  • allow_duplicates:可选字段。布尔值,用于检查是否存在具有相同名称的列。默认为False,不允许与已有的列名重复。

如:我们在第 0 列的位置插入新的一列,列名为 test,值为3。

data.insert(loc=0, column='test', value=3)
data
test name score score1
0 3 Lindsay 55分 55
1 3 Chris 66分 66
2 3 Ambe 77分 77
3 3 Delia 88分 88
4 3 Ula 99分 99

为了不影响后面的使用,我们把 ‘test’ 列删除。

data.drop('test',axis=1,inplace=True)
data
name score score1
0 Lindsay 55分 55
1 Chris 66分 66
2 Ambe 77分 77
3 Delia 88分 88
4 Ula 99分 99

3.df.apply()方法

df.apply()方法可以为我们添加条件列提供支持

apply()函数主要用于对 DataFrame 中的 某一行或列 中的元素执行 相同的函数操作

参数格式:

DataFrame.apply(函数名, axis=0/1)

axis=0:将函数操作应用到行上; axis=1:将函数操作应用到列上。

如:我们定义一个函数,来对成绩进行分级。

score<60 — 不及格

60<=score<70 — 及格

70<=score<80 — 中等

80<=score<90 — 良好

score>=90 — 优秀

# 自定义成绩分级函数
def score_classify(df):
    if df['score1']<60:
        return '不及格'
    elif df['score1']<70:
        return '及格'
    elif df['score1']<80:
        return '中等'
    elif df['score1']<90:
        return '良好'
    else:
        return '优秀'

注意:定义函数时,将 Dataframe 类型的数据作为参数传入,然后在函数体内部对 df[‘score1’] 进行判断。

# 使用apply()方法使 “score1”列的所有元素,执行score_classify()函数
data['成绩分级']=data.apply(score_classify, axis=1)    # axis=1,将函数操作应用到列上
data
name score score1 成绩分级
0 Lindsay 55分 55 不及格
1 Chris 66分 66 及格
2 Ambe 77分 77 中等
3 Delia 88分 88 良好
4 Ula 99分 99 优秀

4.df.assign()方法

assign()方法可以同时新增多列,并以副本的方式返回 DataFrame ,不会直接修改原始数据。

尽管 df[“column”] 的方式新增一列数据已经很方便,但是在不需要实际生成该列,又可以调用某列数据时,df.assign()方法更具优势。

assign()只能使用在 DataFrame 对象上,语法为:

DataFrame.assign(列名1=列值1, …,列名n=列值n)

如:为 data 新增两列,值分别为1、2。

test_data=data.assign(column1=1, column2=2)
test_data
name score score1 成绩分级 column1 column2
0 Lindsay 55分 55 不及格 1 2
1 Chris 66分 66 及格 1 2
2 Ambe 77分 77 中等 1 2
3 Delia 88分 88 良好 1 2
4 Ula 99分 99 优秀 1 2

df.assign()方法是生成副本,可以赋值给新的变量,但不会改变原来 DataFrame 的值

如,我们来看 data 的值,还是原来的4列。

data
name score score1 成绩分级
0 Lindsay 55分 55 不及格
1 Chris 66分 66 及格
2 Ambe 77分 77 中等
3 Delia 88分 88 良好
4 Ula 99分 99 优秀

5.使用loc[]方法按按条件赋值

按条件先选择数据,然后对这部分数据赋值给新列。

格式为:

DataFrame.loc[ 条件判断, ‘新列名’] = ‘新列的值’

data.loc[ data['score1']<60  , '成绩分级1'] = '不及格'
data.loc[ data['score1']>=60 , '成绩分级1'] = '及格'
data.loc[ data['score1']>=70 , '成绩分级1'] = '中等'
data.loc[ data['score1']>=80 , '成绩分级1'] = '良好'
data.loc[ data['score1']>=90 , '成绩分级1'] = '优秀'

data
name score score1 成绩分级 成绩分级1
0 Lindsay 55分 55 不及格 不及格
1 Chris 66分 66 及格 及格
2 Ambe 77分 77 中等 中等
3 Delia 88分 88 良好 良好
4 Ula 99分 99 优秀 优秀

注意:使用 df[条件判断]df.loc[条件判断] 都可以对 DataFrame 类型的数据进行筛选。

但是 df[条件判断] 的方式不能直接新建条件列,但 df.loc[条件判断] 的方式可以

如:

data[data['score1']>60]
name score score1 成绩分级 成绩分级1
1 Chris 66分 66 及格 及格
2 Ambe 77分 77 中等 中等
3 Delia 88分 88 良好 良好
4 Ula 99分 99 优秀 优秀
data.loc[data['score1']>60]
name score score1 成绩分级 成绩分级1
1 Chris 66分 66 及格 及格
2 Ambe 77分 77 中等 中等
3 Delia 88分 88 良好 良好
4 Ula 99分 99 优秀 优秀
data.[data['score1']>60 , '新建列1'] = '及格'    # 报错
data
  File "<ipython-input-19-a34fe8ac325b>", line 1
    data.[data['score1']>60 , '新建列1'] = '及格'    # 报错
         ^
SyntaxError: invalid syntax
data.loc[data['score1']>60 , '新建列2'] = '及格'    # 成功新建条件列
data
name score score1 成绩分级 成绩分级1 新建列2
0 Lindsay 55分 55 不及格 不及格 NaN
1 Chris 66分 66 及格 及格 及格
2 Ambe 77分 77 中等 中等 及格
3 Delia 88分 88 良好 良好 及格
4 Ula 99分 99 优秀 优秀 及格
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lengxuan001/article/details/126380155

智能推荐

内核开发基础——'make menuconfig' requires the ncurses libraries-程序员宅基地

文章浏览阅读92次。root@zhangbin-desktop-ubuntu:/usr/src/linux-headers-2.6.32-27# make menuconfig HOSTCC scripts/basic/fixdep HOSTCC scripts/basic/docproc HOSTCC scripts/basic/hash HOSTCC scripts/kconfig..._make menuconfig' requires the ncurses libraries.

Emacs之ditaa与PlantUML与dot绘图环境配置-程序员宅基地

文章浏览阅读688次。本文介绍如何使用ditaa与PlantUML与dot进行绘制流程图。ditaa与PlantUML都依赖java环境,所以事先需要有Java环境(不管我们使用的是何种OS)。Java环境的设置很简单,如果本地没有Java环境,请到Oracle官网下载之,这里就省略了。而dot绘图语言需要安装graphviz软件。本文作者使用的Windows环境..._ditaa图 plantuml

Ajax框架,DWR介绍,应用,样例-程序员宅基地

文章浏览阅读93次。使用Ajax框架1. 简化JavaScript的开发难度2. 解决浏览器的兼容性问题3. 简化开发流程经常使用Ajax框架Prototype一个纯粹的JavaScript函数库,对Ajax提供良好支持jQuery1.很优秀的JavaScript库,对Ajax提供了良好的支持2.与Prototype设计思想不同的是在使用jQuery之后,开..._dwr ajax简单介绍

如何在vue中拖动改变侧边栏div的宽度-程序员宅基地

文章浏览阅读4k次。先贴html代码<template> <div class="box-wrap"> <div class="box" id="box"></div> <div class="drag-btn" id="dragBtn" @mousedown.stop.prevent="mouseDownLeft"></div>..._vue 侧边栏拉伸宽度

win32消息映射12-对话框_api32 消息映射-程序员宅基地

文章浏览阅读218次。11 对话框对话框是一种特殊的窗口,它起源于所见即所得(WYSIWYG)的设计思想。当使用api创建窗口的时候,界面的布局存在于程序员的脑海中,只有等代码完成了,能运行了,才能看到效果。有没有一种方式方式,能在设计的时候就能看到效果,不用等到运行的时候呢?在win32 SDK编程里,只有对话框能做到这一点。对初学者而言,对话框好像减少了入门的难度,但实际上,难度并没有减少,一个问题的解决又引入..._api32 消息映射

计算机专业的理想作文100字,我的理想作文100字六篇-程序员宅基地

文章浏览阅读412次。我的理想作文100字六篇每个人心中都有一盏灯,它的名字叫理想;每个人都要走这一段路,它的名字叫人生。下面是小编给大家带来我的理想作文100字六篇,欢迎阅读,希望对你有所帮助!我的理想作文100字(一)我的理想是长大后当一名航天科学家。前一段时间钱学森老爷爷去世了,全国人民都在悼念他,因为他是我国的航天之父。神五、神六飞上太空,我佩服飞上太空的宇航员,更佩服那些航天科学家。我从现在开始要好好学习,遇..._计算机。我的人生理想

随便推点

python实现通讯录功能_Python 实现简单的电话本功能-程序员宅基地

文章浏览阅读1k次。#!/usr/bin/python# -*- coding: utf-8 -*-import reclass PhoneBook(object):'''这是一个电话簿脚本。该脚本能够实现AddContact:添加联系人信息ShowContact:查找姓名显示联系人SaveContacts:存储联系人到 TXT 文档(存储格式——姓名:号码/号码)LoadContacts:从 txt 文档中载入联系..._python输入电话号码按列显示

mysql添加列和索引_添加列且甚索引-程序员宅基地

文章浏览阅读3.8k次。mysql添加列 alter table to_o2o_point_record add COLUMN channel VARCHAR(64) NULL DEFAULT NULL COMMENT ‘积分渠道’; alter table to_o2o_point_record add COLUMN channel VARCHAR(64) NULL DEFAULT NULL COMMENT ‘积分渠_添加列且甚索引

初识函数-----函数的定义及用法_程序设计函数的定义是-程序员宅基地

文章浏览阅读1.9k次,点赞4次,收藏9次。初识函数-----函数的定义及用法_程序设计函数的定义是

python在医学领域应用 课程_《Python程序设计与应用》在线课程使用说明-程序员宅基地

文章浏览阅读492次。《Python程序设计与应用》在线课程使用说明网页版链接 20200223 更新一、简介本课程内容包括Python基础语法与Python应用(数据处理、可视化等)。具体章节:Python基础、内置基本数据类型、程序结构、函数、异常处理、集合与字典类型、文件操作、Python应用(科学计算numpy、pandas、matplotlib、seaborn、网络信息安全基础)。主要资源:超星MOOC平台:..._python语言程序设计与医学实践

c/c++ assert的头文件_c++ assert头文件-程序员宅基地

文章浏览阅读2.5k次。#include <iostream>#include <assert.h>using namespace std;int writestr(const char *p){ assert(0!=p);//如果p等于0,则报错误 cout<<p<<endl;}int _tmain(int argc, _TCHAR* argv[]){ char *str="hello"; writestr(str); ..._c++ assert头文件

c语言代码自动生成工具,MCU代码自动生成工具介绍-程序员宅基地

文章浏览阅读1.6k次。MCU代码自动生成工具介绍文档编辑原标题:GoKit3二次开发-代码自动生成工具介绍前文需知1.什么是“代码自动生成工具”为了降低开发者的开发门槛,缩短开发周期,降低开发资源投入,机智云推出了代码自动生成服务。云端会根据产品定义的数据点生成对应产品的设备端代码。自动生成的代码实现了机智云通信协议的解析与封包、传感器数据与通信数据的转换逻辑,并封装成了简单的API,且提供了多种平台的实例代码。当设备..._ai 生成 mcu 代码