参考文档: http://blog.csdn.net/tao_627/article/details/51019972
需求:从一篇文章中筛选出正常的数字
def numberChange (): f = open ( 'C:\Users\Administrator\Desktop\mytest.txt' , 'r' ) s = f.read() # 或多或少的好好读书电锯惊魂20202 和水电费后是否会时候1212没收到风10.12海大富的是粉红色的和办法的1244525.000会发生的粉红色的合法化好0.01给对方会感受到发给还是干活0001还打飞机大嫁风尚蝴蝶结个房间小电风扇豆腐干很多事123,450,000.000好盛大黑色的十一万八千四百三十二的还好丁世德11万2200海大富会闪烁二十万零三 for i in [ "utf8" , "gb2312" ]: try : data = s.decode(i) break except : pass # 匹配中的 ‘u’不可少 number = re.compile( ur'([一二三四五六七八九零十百千万亿]+|[0-9]+[,]*[0-9]+.[0-9]+)' ) pattern = re.compile(number) all = pattern.findall(data) for i in all: print i # 打印的内容 # 20202 # 1212 # 10.12 # 1244525.000 # 0001 # 123, 450, 000 # 十一万八千四百三十二 # 11 # 万2200 # 二十万零三 f.close()