2024年12月19日,智源智源研究院发布并解读了语言、研究院视觉语言、布年文生图、下半型文生视频、年模语音语言大模型综合和国内外100多个开源和商业闭源的力综专项评价结果。
与今年5月的合评模型能力综合评价相比,本次智源评价:
扩展、智源丰富和细化任务解决能力的研究院内涵,增加数据处理、布年高级编程和工具调用的下半型相关能力和任务;
首次增加了实际金融量化交易场景的应用能力评估,测量了大模型的年模收益优化和性能优化能力;
对模型逻辑推理、观点理解、力综语言表达等核心能力进行深入分析,合评首次探索基于模型辩论的智源对比评价方法。
智能源评估发现,2024年下半年,大型模型的发展更注重综合能力的提高和实际应用。随着多模式模型的快速发展,出现了许多新的制造商和新的模型,语言模型的发展相对放缓。在模型开源生态中,除了国内外机构不断加强开源外,还出现了新的开源贡献者。
综合模态评价列表:涵盖文本、语音、图片、视频理解和生成
语言模型,对于一般中文场景的开放式问答或生成任务,模型能力趋于饱和稳定,但国内领先的语言模型在复杂场景任务的表现上与世界一流水平仍存在显著差距。
语言模型主观评价重点关注模型的中文能力,结果显示字节跳动Doubaoo-pro-32k-preview、百度ERNIE 4.0 Turbo排名第一,第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-阿里巴巴Qwen在20241022年排名第三和第四-Max-0919排名第五。
在语言模型的客观评价中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 阿里巴巴Qwen排名第一和第二-max-0919、Doubaoo字节跳动-pro-32k-preview排名第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

虽然开源模型架构趋同(语言塔),但视觉语言多模态模型 视觉塔),但性能不同,其中更好的开源模型正在缩小图形理解任务中与头部闭源模型的能力差距,长尾视觉知识、文本识别和复杂的图形数据分析能力仍有改进的空间。
评价结果显示,OpenAI GPT-Doubao-2024-11-20字节跳动-Pro-Vision-32k-241028领先Anthropic Claude-3-5-sonnet-阿里巴巴Qwen220241022-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

文生图多模式模型,今年上半年参与模型一般不能生成正确的中文,但头部模型具有中文生成能力,但总体复杂场景变形,对于常识或知识推理任务,小于3的数量关系任务性能,大于3的数量关系仍不能处理,涉及中国文化和古代诗歌理解场景对模型来说是一个巨大的挑战。
根据评估结果,腾讯Hunyuann Image排名第一,字节跳动Doubaoo image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。
文生视频多模式模型,画质进一步提高,动态性更强,镜头语言更丰富,专场更流畅,但动作变形大,无法理解物理规律,物体消失、闪烁、穿模。
评价结果显示,快手可灵1.5(高质量)、字节跳动就是梦 P2.0 pro、PixVerserser爱诗科技 V3、MiniMax海螺AI、Pika 1.5位列前五。

由于大型文本模型的进步,语音语言模型具有巨大的能力提高和更完整的覆盖面,但在具体任务上与专家模型仍存在一定的差距。总的来说,性能好、通用能力强的开源语音语言模型较少。
根据专项评估结果,阿里巴巴Qwen2-Audio排名第一,香港中文大学&微软WavLM、清华大学&Salmon在字节跳动中排名第二和第三。Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五名。

四个专项评价列表:多维度探索模型能力边界和应用潜能
在本次评估中,智源研究所再次与海淀区教师培训学校联合编制了K12全学科和多学科试卷,进一步调查了大模型与人类学生能力的差异。其中,海淀区教师仍亲自评分答案中唯一的主观问题。
由于多模态能力的推动发展,K12学科测试的综合得分比半年前提高了12.86%,但与海淀学生的平均水平仍存在差距;在英语和历史文科试题的表现上,现有模型超过了人类考生的平均分;模型很常见「文强理弱」偏科情况。

FlagEval大模型角斗场是智源研究院今年9月为用户推出的模型对战评估服务,以反映用户对模型的偏好。
目前,Flageval涵盖国内外约50个大型模型,支持语言问答、多模态图形理解、文生图片和文生视频的自定义在线或离线盲测。
本次评估共有29个语言模型、16个图形问答多模态模型、7个文生图形模型和14个文生视频模型。
评估发现,用户对模型的响应时间要求更高,模型输出的内容往往更结构化、标准化。

今年10月,智源研究院推出模型辩论平台FlagEval作为模型对战评估服务FlagEval大模型角斗场的延伸 Debate,深入评估模型的逻辑推理、观点理解和语言表达核心能力,以识别语言模型的能力差异。
本次评估发现,大模型普遍缺乏辩论框架意识,没有全面阐述辩论的整体逻辑;大模型仍然存在于辩论中「幻觉问题」,论点经不起推敲;大模型更善于反驳,各模型表现突出的辩论维度趋同,在不同的辩论中,模型表现差距明显。
FlagEval Debate评估结果表明,Anthropic Claude-3-5-sonnet-20241022、一万物Yi-Lighting、OpenAI o1-preview-2024-09-12为前三名。

在本次评估中,智能源研究所探索了基于实际应用场景的新方法,探索了模型在金融定量交易领域的潜在应用能力和商业价值。
评估发现,大型模型具有生成退出收入的战略代码的能力,可以在典型的定量交易场景中开发代码;在知识问答方面,模型整体差异小,整体分数高,但在实际代码生成任务中,模型差异大,整体能力弱;头部模型能力接近初级定量交易员的水平。
金融量化交易评估结果显示,深度索赔 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest排名前三。

FlagEval智能源评估系统重复迭代,覆盖全球8000 开闭源模型
本次评估依托智源研究院自2023年6月推出的大型模型评估平台FlagEval。经过多次迭代,已覆盖全球800多个开闭源模型,包括20多个任务、90多个评估数据集和200多万个评估问题。
在评价方法和工具方面,智源研究院与全国10多所大学和机构合作,探索基于人工智能的辅助评价模型FlagJudge和灵活全面的多模态评价框架FlagEvalmm,构建面向大模型新能力的具有挑战性的评价集,包括与北京大学共同构建的Halludial幻觉评价集、与北京师范大学共同构建的CMMU多模态评价集、多语言跨模态评价集MG18、复杂代码评估集TACO和长视频理解评估MLVU,其中与北京大学共同建立的HalluDial是世界上最大的对话场景下的幻觉评估集,有1.8万多轮对话和14万多个答案。
为了避免数据集泄露的风险和数据集的饱和度,本次评估吸收了最近发布的数据集,并不断动态更新评估数据,取代了98%的问题,提高了问题的难度。

智源研究院副院长兼总工程师林永华在评估会议上表示,Flageval评估系统始终坚持科学、权威、公平、开放的标准,通过技术方法平台不断创新,创造测量模型能力的尺度,为大型模型技术的生态发展提供洞察力。
2025年,FlagEval评估系统的发展将进一步探索动态评估和多任务能力评估系统,以评估为标尺,感知大模型的发展趋势。
本文来源:新智元