Pandas使用

pip install pandas

pip install pandas

数据读取

1. 读取表格

# -*- coding: utf-8 -*-
df = pd.read_csv(encoding='utf-8', filepath_or_buffer='xxx')


df = pd.read_excel('example.xlsx', usecols=['A', 'B'])

# -*- coding: utf-8 -*-
df = pd.read_csv(encoding='utf-8', filepath_or_buffer='xxx')


df = pd.read_excel('example.xlsx', usecols=['A', 'B'])

2.获取表头

df.columns

df.columns

3.获取某一列去重后的值

df['column_name'].unique()

df['column_name'].unique()

数据操作

1.填充空数据

df['pageUrl'].fillna('')

df['pageUrl'].fillna('')

2.修改某列的所有数据

df['pageUrl'] = df['pageUrl'].map(lambda x: 'xxxx' + str(x))

df['pageUrl'] = df['pageUrl'].map(lambda x: 'xxxx' + str(x))

3.新建表格

data = {
  'name': ['Alice', 'Bob', 'Charlie', 'David'],
  'age': [23, 30, 45, 25],
  'salary': [70000, 80000, 120000, 95000]
}

# 创建 DataFrame
df = pd.DataFrame(data)

data = {
  'name': ['Alice', 'Bob', 'Charlie', 'David'],
  'age': [23, 30, 45, 25],
  'salary': [70000, 80000, 120000, 95000]
}

# 创建 DataFrame
df = pd.DataFrame(data)

数据筛选

1.筛选缺失的值

df['年龄'].isna()

df['年龄'].isna()

2.筛选出不包含特定值的行

df[~df['姓名'].isin(['张三'])]

df[~df['姓名'].isin(['张三'])]

3.筛选日期

import datetime

# 将 'timestamp' 列转换为日期时间格式
df['timestamp'] = df['timestamp'].apply(lambda x: datetime.datetime.strptime(x, '%Y-%m-%d %H:%M:%S'))

# 提取 '年月日' 并去重
unique_days = df['timestamp'].dt.date.unique()

import datetime

# 将 'timestamp' 列转换为日期时间格式
df['timestamp'] = df['timestamp'].apply(lambda x: datetime.datetime.strptime(x, '%Y-%m-%d %H:%M:%S'))

# 提取 '年月日' 并去重
unique_days = df['timestamp'].dt.date.unique()

数据计算

1.根据某种条件，对某一列求和

df[df['关联需求类型'] == '业务需求']['实际工时'].sum()

df[df['关联需求类型'] == '业务需求']['实际工时'].sum()

Pandas使用 ​

数据读取 ​

1. 读取表格 ​

2.获取表头 ​

3.获取某一列去重后的值 ​

数据操作 ​

1.填充空数据 ​

2.修改某列的所有数据 ​

3.新建表格 ​

数据筛选 ​

1.筛选缺失的值 ​

2.筛选出不包含特定值的行 ​

3.筛选日期 ​

数据计算 ​

1.根据某种条件，对某一列求和 ​

Pandas使用

数据读取

1. 读取表格

2.获取表头

3.获取某一列去重后的值

数据操作

1.填充空数据

2.修改某列的所有数据

3.新建表格

数据筛选

1.筛选缺失的值

2.筛选出不包含特定值的行

3.筛选日期

数据计算

1.根据某种条件，对某一列求和