日前,大模型创业公司面壁智能CEO李大海与联合创始人刘知远先后发文,对自家开源模型MiniCPM-Llama3-V 2.5疑似被一支来自斯坦福大学的AI团队抄袭一事进行了回应。
据悉,该斯坦福大学AI团队于今年5月29日发布了大模型Llama3-V,并声称Llama3-V比GPT-4V、Gemini Ultra、Claude Opus性能更强,以及500美元就能训练出一个SOTA模态模型。随后有相关人士指出,Llama3-V的模型结构和配置文件与发布于今年5月21日的MiniCPM-Llama3-V 2.5完全相同,只是进行了一些重新格式化并将部分变量重新命名,而且具有与MiniCPM-Llama3-V 2.5相同的分词器,包括MiniCPM-Llama3-V 2.5新定义的特殊符号。
此外据HuggingFace的页面显示,最初Llama3-V团队在上传代码时直接导入了MiniCPM-Llama3-V 2.5的代码,然后将其名称更改为Llama3-V,但Llama3-V团队成员之一的Mustafa Aljadery并不认为该行为属于抄袭。他发文称,Llama3-V推理存在bug、并不是抄袭,“我已经指出了架构是相似的,但MiniCPM的架构来自Idéfics,我们遵循Idéfics论文中的那些内容。架构是基于综合研究的,你怎么能说它是MiniCPM呢?MiniCPM代码的视觉部分看起来也是从Idéfics那里使用的”。
据悉,目前上述斯坦福AI团队已对HuggingFace上的Llama3-V模型进行隐藏处理,并表示,“我们是为了修复模型的推理问题而将其隐藏,因为模型必须有特定的配置运行”。
在相关声明中,李大海指出,除相关人士列出的证据外,“我们还发现 Llama3V展现出和MiniCPM-Llama3-V 2.5一样的清华简(清华大学于2008年7月收藏的一批战国竹简)识别能力,连做错的样例都一模一样,而这一训练数据尚未对外公开”。
此外他还强调,这项工作是团队同学耗时数个月,从卷帙浩繁的清华简中一个字一个字扫描下来,并逐一进行数据标注,融合进模型中的。更加微妙的是,两个模型在高斯扰动验证(一种用于验证模型相似性的方法)后,在正确和错误表现方面都高度相似。
李大海表示,“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境”,“我们希望团队的好工作被更多人关注与认可,但不是以这种方式”。
对此刘知远也表示,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。面壁开源的MiniCPM-Llama3-V 2.5就用了最新的Llama3作为语言模型基座,而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。
【本文图片来自网络】