日前在KDD国际数据挖掘与知识发现大会上,智谱AI方面发布了包含新一代语言基座大模型GLM-4-Plus在内的一系列产品,并宣布在MaaS平台免费开放GLM-4-Flash API。
据智谱AI方面透露,GLM-4-Plus在语言理解、指令遵循、长文本处理等方面的性能得到了全面提升,并保持国际领先水平。据悉,该模型使用了大量模型辅助构造高质量合成数据以提升性能,还利用PPO(近端策略优化)算法有效提升了模型推理(数学、代码算法题等)表现。其中在语言文本能力方面,GLM-4-Plus可与GPT-4o、Llama3.1 405B相当,并通过更精准的长短文本数据混合策略,取得了更强的长文本推理效果。
同时,智谱AI还一并推出了图像/视频理解模型GLM-4V-Plus和文生图模型CogView-3-Plus。据称,GLM-4V-Plus具备基于时间感知的视频理解能力,还可以理解网页内容、并将其转化为html代码。CogView-3-Plus的文生图效果则接近目前的MJ-V6、FLUX等模型,并支持图片编辑功能。
值得一提的是,GLM-4-Plus现已在智谱大模型开放平台bigmodel部署,开发人员可通过调用API的方式体验。而GLM-4V-Plus也即将在开放平台上线,提供国内首个通用视频理解模型API。此外,智谱AI方面在发布并开源视频生成模型CogVideoX 2B版本后,还开源了性能进一步增强的5B版本。
除了推出新模型外,智谱AI方面在此次活动中还宣布清言App迎来重要更新,新增“视频通话”功能。据称,这也是国内首个面向C端开放的AI视频通话功能,其能够跨越文本模态、音频模态和视频模态,并具备实时推理的能力。
具体而言,用户拨打清言的视频通话窗口、即可与它进行流畅通话,即便频繁打断它也能迅速反应。在通话过程中,其还可以理解用户下达的指令并准确执行。
据了解,清言App“视频通话”功能已于8月30日上线,首批面向清言部分用户开放,并开放外部申请,未来还将持续迭代并逐步开放规模。对此智谱AI方面表示,“随着视频通话功能的加入,清言app成为了首个可以通过文本、音频、视频和图像来进行多模态互动的AI助手”。
【本文图片来自网络】