LibreOffice 怒批微软:Excel曾篡改基因数据,文件格式被指“假开放”

近日,LibreOffice 背后的文档基金会(TDF)再次对微软提出严厉批评,直指对方在 Office 文档格式上长期采取封闭、不透明的策略,将商业利益置于用户需求、行业标准乃至科研安全之上。

这场争论的核心,并非简单的开源软件与商业软件之争,而是长期困扰全球用户的文档兼容性问题

尽管 LibreOffice 作为免费开源的办公套件,功能已经足够覆盖绝大多数日常使用场景,但用户始终难以真正从 Microsoft Office 迁移出去。最关键的障碍,就是文件格式在不同软件之间的错乱、错位与兼容异常。

LibreOffice 怒批微软:Excel曾篡改基因数据,文件格式被指“假开放”插图

在文档基金会看来,这些问题并非技术能力不足造成,而是微软的 OOXML 格式本身刻意保持复杂与封闭,从而形成生态锁定,让用户难以离开 Office 体系。

“标准”之争:OOXML 真是开放标准吗?

文档基金会创始成员 Italo Vignoli 在一篇措辞严厉的博客中驳斥了“OOXML 是标准格式,我们必须接受”的说法,称其“令人愤慨”。

LibreOffice 怒批微软:Excel曾篡改基因数据,文件格式被指“假开放”插图1

他指出了OOXML的几个关键问题:

  1. 规范臃肿复杂:OOXML 格式规范长达 7000 多页,如此庞大的体量使得任何第三方(如 LibreOffice)想要完整、正确地实现兼容都异常困难,客观上形成了技术壁垒。
  2. 微软自身也未完全遵守:微软 Office 实际默认使用的是包含大量历史遗留依赖的“过渡性”(Transitional)OOXML,而非更严格的“严格模式”(Strict)。这意味着,所谓的“标准”内部也充满了不一致。
  3. 格式中嵌入了“历史包袱”:OOXML 规范中甚至包含诸如 autoSpaceLikeWord95shapeLayoutLikeWW8 这样的指令,要求其他软件模仿二十多年前的 Word 95、Word 8 的专有行为。这更像是为兼容微软旧版软件而设的“后门”,而非一个面向未来的开放标准。

一个具体而严重的案例:Excel 如何“改写”了基因名称

Vignoli 举了一个颇具说服力且后果严重的例子,来说明微软如何为了维护自身软件的传统行为而忽视实际需求。

问题:Excel 有一个默认的自动格式转换功能,会将某些文本识别为日期。例如,输入“MARCH1”会自动转为“1-Mar”。

灾难性影响:在遗传学研究中,大量基因使用类似“MARCH1”、“SEPT1”、“DEC1”这样的字母数字组合作为简称。当科研人员在 Excel 中输入这些基因名称进行分析或制作图表时,数据会在毫无提示的情况下被静默篡改。

数据揭示的严重性

  • 2016 年《基因组生物学》(Genome Biology)的一项研究分析了 3597 篇 附有 Excel 补充数据文件的科学论文,发现其中约五分之一的论文包含了由 Excel 自动格式化导致的基因名称错误。
  • 这直接影响了科研数据的准确性和可重复性,甚至可能对遗传病研究产生误导。
LibreOffice 怒批微软:Excel曾篡改基因数据,文件格式被指“假开放”插图2

微软迟缓的应对

  • 面对科学界多年的投诉,微软长期将此视为“边缘问题”。
  • 迫于压力,人类基因命名委员会(HGNC)不得不在 2020 年 将约 27 个 基因(如 MARCH1 改为 MARCHF1)改名,以“躲避”Excel 的误识别。
  • 直到 2023 年,微软才最终提供一个选项,允许用户关闭这一自动转换功能。但此时,大量历史科研数据早已受到污染。

核心矛盾:便利性“陷阱”与生态锁定

文档基金会认为,这一案例深刻揭示了微软的逻辑:优先维护其软件自有的行为习惯和用户“便利性”(即使这会导致严重副作用),而非遵循开放、准确、可互操作的标准。

这种设计在无形中创造了一种“生态锁定”:用户一旦习惯了微软 Office 特有的行为(哪怕是存在问题的行为),在转向其他办公软件时就会遇到障碍和额外的学习成本,从而被“绑定”在微软的生态系统中。

LibreOffice 此次批评的矛头,不仅指向一个技术格式问题,更是指向一种商业哲学——即一家公司能否在追求自身产品一致性的同时,真正承担起作为行业事实标准制定者所应负的开放与协作责任。对于广大用户,尤其是科研和教育领域的工作者而言,这关乎数据主权、研究 integrity(完整性)以及长期的选择自由。

评论