bug

bug的表象和背后的原因往往是一种很让人意外的联系,有时候发现背后的原因可能会很搞笑。

我要做的事情就是把10000组数据录入对应的10000个RRD数据库中,每组数据时一个数组,存放着time:value,按照time递增有序。
RRD有个特点就是,同一个time不能录入两次,后面录入数据的time值必须大于前面录入数据的time值。

第一个bug:
我使用多线程的方式进行数据录入。
在子线程里面访问主线程中开辟的内存空间,总会出segment fault,调试了半天不知道为什么。偶然间做了一次小数据量的测试,发现子线程突然不运行了。然后灵光一现,意识到,主线程跑得太快,直接退出了,子线程就根本不会起来。看了一下别人的代码,发现了问题所在。C里面,开启子线程之后,主线程要调用join函数才会等待子线程执行完毕,否则,主线程启动子线程,然后继续执行完自己的代码就会退出,然后整个进程就会退出。而之前的segment fault就是因为主线程正在退出释放资源,而子线程去访问已经释放的内存空间,就出现了segment fault。

第二个bug:
录入10000组数据需要很长时间,所以我在测试时会使用较小的数据量,比如1000组。小数据量时,程序运行很正常,但是一旦我把数据量加大,就会出现数据库更新失败的错误。百思不得其解,在一次错误日志中发现,有一条错误的现象是在往A数据库中存time1的数据时发现time1已经有值了,也就是说之前已经更新过一次了。可是,明明我的数据库只会由一个线程来写,怎么会在它写之前已经有数据了呢?而且这个问题只会在数据量加大的时候出现。经过我的测试,测试数据在2000组以下时不会出错,一旦到了3000组就会出错。我就觉得是不是多线程的时候,各个进程之间跑串掉了。因为更新数据库的操作是调用RRD的库函数,我开始怀疑RRD的update函数是否是线程安全的。
后来在别人的提示下,先把程序用单线程跑,看有没有问题,再试试多线程,因为毕竟单线程要好找bug。我一开始还自信满满的说单线程肯定没问题,结果运行后发现单线程也会出错,问题很快定位到测试数据。我生成的测试数据里面有重复的。也就是对于一些数据库,在同一个time值下生成了两个value,两次向同一个数据库中插入同一个time下的值时就会出错。可是我一行行的看了一下我生成测试数据的代码,就是没找到错误。最后干脆把这段代码重写了一遍,问题依旧。然后就意识到,我生存测试数据时,使用的输入文件中,数据库的名称有重复的。也就是我可能对某一个数据库生成了两组数据。而输入文件的前2000个数据库名称中没有重复的,在2000~3000之间有一个重复的,这也就能解释为什么程序在录入2000组数据时不会出错,一旦到3000组或者更多的数据时就会出错。


Last modified on 2009-08-22