阿里巴巴发布两种开源人工智能模型,可与Meta Llama 2竞争
阿里巴巴8月3日宣布了旗下大模型产品通义千问7B参数模型已经开源,该模型为完全开源、免费、可商用。
这个模型包括两个子模型,一个是通用型的 Qwen-7B 模型,另一个是对话模型 Qweb-7B-Chat,两个模型均为开源、免费、可商用,每个模型都有70亿个参数。阿里巴巴表示,这两款机型是该公司4月份发布的Tongyi Qiawen的小型版本。
开源地址Hugging Face:https://huggingface.co/Qwen/Qwen-7B
开源地址Github:
https://github.com/QwenLM/Qwen-7B
新模型旨在帮助将人工智能引入中小型企业的运营中
阿里巴巴公司表示,Qwen-7B和Qwen-7B-Chat具有各种对企业有吸引力的功能,例如能够“全球学者、研究人员和商业机构可以自由访问代码、模型权重和文档”。
阿里巴巴最新的LLM也是中国科技公司发布的首款开源LM,不过,阿里巴巴表示,每月活跃用户超过1亿的企业将需要许可证。
8月1日,阿里巴巴还宣布以矢量引擎的形式对其AnalyticDB数据仓库服务进行更新,允许其企业客户快速创建自定义生成人工智能应用程序。
阿里云对 Qwen-7B 模型自述
通义千问 – 7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的 70 亿参数规模的模型。Qwen-7B 是基于 Transformer 的大语言模型,在超大规模的预训练数据上进行训练得到。
预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在 Qwen-7B 的基础上,我们使用对齐机制打造了基于大语言模型的 AI 助手 Qwen-7B-Chat。Qwen-7B 系列模型的特点包括:
大规模高质量预训练数据:我们使用了超过 2.2 万亿 token 的自建大规模预训练数据集进行语言模型的预训练。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域。
优秀的模型性能:相比同规模的开源模型,Qwen-7B 在多个评测数据集上具有显著优势,甚至超出 12-13B 等更大规模的模型。评测评估的能力范围包括自然语言理解与生成、数学运算解题、代码生成等。
更好地支持多语言:基于更大词表的分词器在分词上更高效,同时它对其他语言表现更加友好。用户可以在 Qwen-7B 的基础上更方便地训练特定语言的 7B 语言模型。
8K 的上下文长度:Qwen-7B 及 Qwen-7B-Chat 均能支持 8K 的上下文长度,允许用户输入更长的 prompt。
支持插件调用:Qwen-7B-Chat 针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为 Agent。
开源晚于7月16日Meta与微软发布的LLM(Llama 2)
基于公开时间,阿里巴巴显然在LLM之后,不过这也是“中国整个Llama2系列的第一个培训和部署解决方案”。
根据资料,Meta的Llama 2的训练使用40%以上的公共数据,可以处理其前身的两倍的上下文,并且Llama 2也是开源的,最大的Llama 2版本具有700亿个参数。
与阿里巴巴的最新型号类似,它需要月度用户超过7亿的公司的许可证。
想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群