这里分享DataFrame的列标准化以及对DataFrame分组之后列标准化。
- DataFrame的列标准化
import pandas as pd
import numpy as np
df = pd.DataFrame(data={
'A':[1,1,2,2,2],
'B':[2,3,4,6,5],
'C':[3,8,5,12,6]
})
df
df.apply(lambda x : (x-np.min(x))/(np.max(x)-np.min(x)))
3. DataFrame分组之后列标准化
eg:将df按照A列分组,然后对每组进行标准化
df.groupby('A').apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)))
可以看到分组标准化之后第一列都是NaN,这时如果想要加上第一列,可以用concat函数:
pd.concat([df['A'],(df.groupby('A').apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x))))[['B','C']]],axis=1)
欢迎添加个人微信号:liu2536036458。
想进入交流群的,备注:
数据分析交流群