【译】Python 脚本导致数以百计的论文无效

原文链接:https://i-programmer.info/news/231-methodology/13188-python-script-invalidates-hundreds-of-papers.html

该新闻之所以有趣,不仅是因为它给我们所有人上了一课,还因为它被报道为“ Bug In Python Script …”,并暗示 Python 是问题的起因。实际上,真相更加有趣。

该脚本大约是有 1000 行 Python 代码,它不是一个小程序。这个由 Patrick Willoughby,Matthew Jansma 和 Thomas Hoye 创建的脚本,自 2014 年以来一直在使用,用来获取原始数据并计算 NMR 位移。在《自然协议》杂志中,它被称为“Willoughby-Hoye”脚本。

原本一切都正常,直到夏威夷大学的研究人员注意到当在不同的操作系统上运行相同的数据和脚本时,他们得到了不同的结果。 Windows 和一个版本的 MacOS 给出了正确的答案,但另一个版本的 MacOS 和 Ubuntu 给出了错误的结果。这不是您对错误的预期行为:错误通常不仅在某些环境中有,而是在任何环境中都存在。

nmrerror

那么,是什么问题呢?

问题一直被追溯到数据检索的方式。每次运行的数据都存储在两个文件中。这些文件是按文件名成对检索并成对处理的。问题在于,文件的检索顺序根据操作系统而不同。只要文件对匹配,您就可以获得正确的结果。如果没有配对,将会处理两次不同运行中产生的数据。

许多新闻报道的罪魁祸首是 Python 标准库模块 glob,它将返回与文件/路径规范匹配的文件列表,包括通配符。它可以工作,但是没有按指定顺序返回结果。这是错误吗?并不是的。 glob 的文档的第一句话就是:

“尽管结果以任意顺序返回,但 glob 模块根据 Unix shell 使用的规则查找与指定模式匹配的所有路径名。”

因此,这几乎不是错误。之后怎么样了?正式的用户(任务不是编程的编程人员)经常对什么是合理的做出假设,而不考虑不编写健壮代码的后果。通过以粗体显示“以任意顺序返回”,文档是否对所有人都有用?执行特定命令而不是将其保留为未定义的行为会更合理吗?某些操作系统似乎返回排序列表而使问题更加复杂,因此应当确认用户的假设。操作系统是否应该付出更多努力以使列表以任意顺序返回?

从未定义的行为的角度上来说,这个问题也许并不是任何人的错。

在这种情况下,不返回排序列表的原因是效率:如果很多用户不需要对列表进行排序,为什么还要对列表进行排序?

您可以说,更好的编程技能会有所帮助。例如,包括一些测试可能会发现问题所在,但是会吗?如果您要编写测试,则需要了解您的假设,如果程序员知道此关键假设,他们会注意到文档中的第一句话并避免使用它。为您知道必须是真实的事情编写测试需要大量的标准和准则。

我们如何减少再次发生这种情况的可能性呢?