智源发布“百模”评测效果，国内大模子仍存这些短板

发布日期：2024-12-20 15:58 点击次数：116

12月19日，智源操办院发布并解读国表里100余个开源和生意闭源的言语、视觉言语、文生图、文生视频、语音言语大模子评测效果。

在言语模子测评中，针对一般中语场景的绽放式问答莽撞生成任务，模子身手已趋于弥散沉稳，然而在复杂的场景任务中，国内头部言语模子仍然与海外一活水平存在权贵差距。

言语模子主不雅评测重心检会模子中语身手，测评效果炫夸，字节跨越Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排行第五；在言语模子的客不雅评测中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字节跨越Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排行前五。

一句话就能生成运动缜密的视频，Sora带头掀翻的文生视频模子高涨在近一年来颇为引东说念主正式。凭证智源的评测，文生视频多模态模子在以前一年画质进一步普及，动态性更强，镜头言语更丰富，专场更运动，但仍然无数存在大幅度手脚变形、无法富厚物理规定等问题，举例视频中有些物体会一忽儿消除、表露、互相穿透等。评测效果炫夸，快手可灵1.5（高品性）、字节跨越即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列文生视频模子的前五名。

在文生图方面，这次测评发现，在本年上半年，参评的模子无数无法生成正确的中语笔墨，但这次参评的头部模子仍是具备中语笔墨生成身手。不外，文生图模子仍无数存在复杂场景东说念主物变形的情况，难以胜任波及学问或知识性的推理任务。举例，无法贬责大于3的数目关连，在波及中国文化和古诗词富厚的场景中说明欠安等。评测效果炫夸，文生图模子中，腾讯Hunyuan Image位列第一，字节跨越Doubao image v2.1、Ideogram 2.0分居第二、第三，OpenAI DALL·E 3、快手可图次之。

本次评测依托智源操办院自2023年6月上线的大模子评测平台FlagEval，经由数次迭代，现在已秘密人人800多个开闭源模子，包含20多种任务，90多个评测数据集，超200万条评测题目，评测步伐与器具由智源操办院集中宇宙10余家高校和机构合营共建。

记者：孙奇茹

上一篇：“小米系”三天内减合手3家A股公司！
下一篇：又一家百亿央企来了，央企密集配置，传递了三个信号

让建站和SEO变得简单

智源发布“百模”评测效果，国内大模子仍存这些短板

热点资讯

相关资讯