微软开源轻量级模型Phi-3-mini,可手机端侧运行

继此前相继发布Phi-1、Phi-1.5、Phi-2等Phi系列模型后,当地时间4月23日微软方面发布、并开源新一代Phi系列模型Phi-3,并表示,“Phi-3模型系列是现有功能最强大、最具性价比的小语言模型(SLM),在各种语言、推理、编码和数学基准测试中,其性能优于相同大小和规模大一级的模型”。


据了解,Phi-3分为三个版本,其中Phi-3-mini参数规模最小、为38亿,目前已正式发布。而另外两个版本Phi-3-small(70亿参数)和Phi-3-medium(140亿参数),则将于未来几周内发布。


以Phi-3-mini为例,其采用的是transformer架构,支持4K和128K上下文窗口,也是同类小模型中首个支持128K的开源产品。在训练过程中,据悉Phi-3-mini使用了3.3T tokens数据集,其中包括经过严格质量筛选的网络公开文档、精选的高质量教育数据和编程代码等,以及由AI生成的“合成数据”等。

微软开源轻量级模型Phi-3-mini,可在手机端运行

性能方面,据微软方面公布的实验测试结果显示,Phi-3-mini的整体性能可与Mixtral 8x7B、GPT-3.5等模型相媲美,例如Phi-3-mini在大规模多任务语言理解(MMLU)测试中获得了69%的评分,在Multi-turn(MT)基准测试中获得了8.38的评分。


此外值得一提的是,由于Phi-3-mini对内存的占用极少,经压缩后总体积可以大幅缩减至1.8GB,可在搭载的A16仿生芯片的iPhone 14 Pro上实现每秒12 token的生成速度。因此这意味着该模型无需联网,就可以直接在手机上运行。


但同时微软方面也承认,尽管具有与LLM相媲美的能力,但Phi-3 mini“在执行某些任务时,从根本上受到容量的限制”,以及“该模型不具备存储太多事实知识的能力”。同时该公司也指出,“这种弱点可以通过搜索引擎的增强来解决”。


据微软方面透露,在性能可观的同时,Phi-3系列大模型在成本方面也十分有优势。对此,微软负责生成式AI研究的副总裁Sassabastien Bubeck强调,“Phi-3不只是稍微便宜一点,而是便宜得多。与具有类似功能的其他模型相比,他们的成本相差10倍”。


据了解,目前微软方面已经开始探索如何在资源有限的情况下应用Phi-3系列。据该公司介绍,总部位于印度的商业集团ITC正在与其合作将Phi-3系列应用于农业领域,包括共同开发面向农民的应用程序Krishi Mitra。据悉,当地的农民可以用本地语言向Krishi Mitra提问,Krishi Mitra则能够以同样的语言提供详细的个性化响应,帮助他们解决农作物管理、病虫害控制、土壤健康、水资源保护、天气预报、市场联系和政府计划等相关问题。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看