昆仑万维发布“天工大模型4.0”o1版,并启动邀测

日前,昆仑万维方面发布了具有复杂思考推理能力的系列模型“天工大模型4.0”o1版(Skywork o1),并宣布启动邀测。据了解,这也是国内市场首款具有中文逻辑推理能力的o1模型。

昆仑万维发布“天工大模型4.0”o1版,并启动邀测

据官方介绍,不同于现有复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,同时在标准评测集上对比普通模型的推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的提升。此外,“天工”团队还通过复现OpenAI o1的技术路线,使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。


具体而言,Skywork o1主要包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本。其中,Skywork o1 Open是一款基于Llama 3.1 8B的开源模型,在同生态位开源模型中评测指标大幅提升达到SOTA水平,并在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。


值得一提的是,据称Skywork o1 Open还解锁了很多较大量级模型(如OpenAI o1)无法完成的数学推理任务,为推理模型在轻量级设备上部署提供了可能性。


而Skywork o1 Lite具备完整的思考能力,以及更好的中文支持和更快的推理和思考速度,在数学、中文逻辑和推理类问题上表现突出。Skywork o1 Preview则是本次完整版的推理模型,搭配自研的线上推理算法,对比Skywork o1 Lite有着更多样和“深度”的思考过程,可进行更完善和更高质量的推理。

昆仑万维发布“天工大模型4.0”o1版,并启动邀测

相比于此前的长文本任务大模型,无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等,Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。而这一人类思考能力的解锁也将进一步在垂类领域增强大模型的应用,例如中英文常见逻辑推理和复杂任务、高质量内容生成和深度搜索等。


据昆仑万维方面透露,Skywork o1之所以在逻辑推理任务上实现性能的大幅提升,得益于其自研的多智能体体系、分步推理强化算法,以及Q*线上推理算法。


据悉,这也是全球首次将Q*算法实现和公开,大大提升了模型线上推理能力。此外“天工”团队还研发了最新适配分步推理强化的Skywork o1 Process Reward Model(PRM),可有效捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看