让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

智源发布“百模”评测效果,国内大模子仍存这些短板

发布日期:2024-12-20 15:58    点击次数:114

12月19日,智源操办院发布并解读国表里100余个开源和生意闭源的言语、视觉言语、文生图、文生视频、语音言语大模子评测效果。

在言语模子测评中,针对一般中语场景的绽放式问答莽撞生成任务,模子身手已趋于弥散沉稳,然而在复杂的场景任务中,国内头部言语模子仍然与海外一活水平存在权贵差距。

言语模子主不雅评测重心检会模子中语身手,测评效果炫夸,字节跨越Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排行第五;在言语模子的客不雅评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跨越Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排行前五。

一句话就能生成运动缜密的视频,Sora带头掀翻的文生视频模子高涨在近一年来颇为引东说念主正式。凭证智源的评测,文生视频多模态模子在以前一年画质进一步普及,动态性更强,镜头言语更丰富,专场更运动,但仍然无数存在大幅度手脚变形、无法富厚物理规定等问题,举例视频中有些物体会一忽儿消除、表露、互相穿透等。评测效果炫夸,快手可灵1.5(高品性)、字节跨越即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列文生视频模子的前五名。

在文生图方面,这次测评发现,在本年上半年,参评的模子无数无法生成正确的中语笔墨,但这次参评的头部模子仍是具备中语笔墨生成身手。不外,文生图模子仍无数存在复杂场景东说念主物变形的情况,难以胜任波及学问或知识性的推理任务。举例,无法贬责大于3的数目关连,在波及中国文化和古诗词富厚的场景中说明欠安等。评测效果炫夸,文生图模子中,腾讯Hunyuan Image位列第一,字节跨越Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

本次评测依托智源操办院自2023年6月上线的大模子评测平台FlagEval,经由数次迭代,现在已秘密人人800多个开闭源模子,包含20多种任务,90多个评测数据集,超200万条评测题目,评测步伐与器具由智源操办院集中宇宙10余家高校和机构合营共建。

记者:孙奇茹





Powered by 全景网 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024