如何使用 Pandas 进行数据调试?
使用 Pandas 进行数据调试的步骤:
- **创建数据框:**使用 pandas.DataFrame() 创建数据框。
- **查看数据框:**使用 print() 或 DataFrame.info() 打印数据框。
- **添加或删除行和列:**使用 pandas.DataFrame.loc[] 或 pandas.DataFrame.drop() 添加或删除行和列。
- **修改数据:**使用 pandas.DataFrame.iloc[] 或 pandas.DataFrame.set_value() 修改数据。
- **筛选数据:**使用 pandas.DataFrame.query() 或 pandas.DataFrame.filter()筛选数据。
- **分组和聚合:**使用 pandas.DataFrame.groupby() 和 pandas.DataFrame.agg() 进行分组和聚合。
- **使用 matplotlib 或 seaborn 等工具可视化数据。
示例:
import pandas as pd
# 创建数据框
data = {'name': ['John', 'Mary', 'Bob', 'Alice'],
'age': [25, 30, 35, 40]}
df = pd.DataFrame(data)
# 打印数据框
print(df)
# 添加一行
df.loc['John', 'age'] = 32
# 删除列
df.drop('age', axis=1, inplace=True)
# 修改数据
df.iloc[1, 0] = 28
# 筛选数据
filtered_df = df[df['age'] > 35]
# 分组和聚合
grouped_df = df.groupby('name')['age'].sum()
# 可视化数据
df.plot(x='name', y='age')
其他提示:
- 使用 pandas.info() 打印数据框的详细信息。
- 使用 pandas.describe() 获取数据框的统计信息。
- 使用 pandas.hist() 或 pandas.boxplot() 可视化数据分布。
- 使用 pandas.corr() 计算数据之间的相关系数。