一个700M的数据集文件包含了1,175,646条数据,其中1,175,645条数据的长度要么是0,要么是32, 而居然在中间夹杂了一条,它的长度是30 !
长度为0或32是通过观察得到的结论,30是完全未曾预料的,naturally,我的代码core掉了……为了定位这一条数据,我采用二分法一点点切文件,然后对切割所得的文件进行检查,step by step,
最后定位到出错的位置:312121212221-x-122-small-tc-asp33.log文件包含了不规整数据。
从上图可以看出,查找出错点花了我整整1小时!可恶啊!变态啊!
世界因为不规整而美丽,程序因为不规整而崩溃……而我,因为不规整而挨饿……
----split line----
茶叶邮寄到了~~~~~~Oh Yeah!