html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:
import re
a = ["
",
'
',
'
',
'
',
'
',
'
',
'
'
]
b = "

