在做data mining,很重要的一部是对数据进行清洗,由于数据量巨大,我是分段从数据库中取出数据存成文本格式,最后再将所有的文本合并成一个大的文件,
在文件合并的过程中,我用了一个小工具,
Txtunit.exe,短小精悍,
合并完之后会有一些空白行的出现,我们需要将这些空白行清除掉,做法参见
emeditor删除空行 - HOHO网页设计 - 51CTO技术博客
主要是使用了一个匹配的正则 ^[ \t]*\n
在做data mining,很重要的一部是对数据进行清洗,由于数据量巨大,我是分段从数据库中取出数据存成文本格式,最后再将所有的文本合并成一个大的文件,
在文件合并的过程中,我用了一个小工具,
Txtunit.exe,短小精悍,
合并完之后会有一些空白行的出现,我们需要将这些空白行清除掉,做法参见
emeditor删除空行 - HOHO网页设计 - 51CTO技术博客
主要是使用了一个匹配的正则 ^[ \t]*\n