Generated with sparks and insights from 9 sources

img6

img7

img8

img9

img10

img11

Introduction

  • 国内大模型排名:根据多项评测,腾讯混元、文心一言、通义千问等大模型位居前列。

  • 国际排名:GPT-4oGPT-4-Turbo、Gemini 1.5 Pro等国际大模型在全球排名中领先。

  • 评测机构:LMSYS Chatbot Arena、SuperCLUE等机构提供了权威的评测数据。

  • 综合能力:腾讯混元在通用基础能力和专业应用能力上均表现出色。

  • 开源模型:阿里通义千问的Qwen2-72B是全球最强的开源模型。

国内大模型排名 [1]

  • 腾讯混元:在多个评测中位居国内大模型前列,综合能力强。

  • 文心一言:在语言能力和综合能力上表现出色。

  • 通义千问:在开源模型中表现突出,综合能力强。

  • 智谱GLM-4:在多个评测中表现不凡。

  • 百川智能:在单项类别中表现优异。

  • 月之暗面:在多个评测中表现出色。

  • 爱诗科技:在单项类别中表现优异。

  • 上海人工智能实验室:在多个评测中表现不凡。

国际大模型排名 [1]

  • GPT-4o:在多个国际评测中排名第一。

  • GPT-4-Turbo:在多个国际评测中排名前列。

  • Gemini 1.5 Pro:在多个国际评测中表现出色。

  • Claude 3 Opus:在多个国际评测中表现不凡。

  • Llama-3-70B:在多个国际评测中表现优异。

  • Bard (Gemini Pro):在多个国际评测中表现出色。

  • Claude 3 Sonnet:在多个国际评测中表现不凡。

  • Yi-Large:在国际评测中排名第七,是中国大模型中排名最高的。

评测机构 [1]

  • LMSYS Chatbot Arena:提供全球大模型的盲测评测,采用Elo评分系统。

  • SuperCLUE:国内权威的大模型综合性测评基准,前身为CLUE。

  • 弗若斯特沙利文:发布了《2024年中国大模型能力评测》,对国内主流大模型进行评测。

  • 通信世界网:发布了《中文大模型基准测评2024年度4月报告》,对国内外大模型进行综合评测。

  • GeekPark:发布了SuperCLUE 2024上半年报告,披露国内外大模型的综合测评结果。

腾讯混元 [2]

  • 综合能力:在通用基础能力和专业应用能力上均表现出色。

  • 语言能力:在语言能力评测中排名前三。

  • 技术积累:采用混合专家模型结构,参数量超过万亿。

  • 应用场景:支持腾讯内部超过400个业务和场景接入。

  • 评测成绩:在SuperCLUE和弗若斯特沙利文的评测中均表现优异。

img6

img7

阿里通义千问 [3]

  • 开源模型:Qwen2-72B是全球最强的开源模型。

  • 综合能力:在SuperCLUE的评测中表现优异,综合能力不俗。

  • 理科能力:在理科任务中表现出色。

  • 文科能力:在文科任务中表现不凡。

  • 精确指令遵循:在精确指令遵循能力上表现优异。

  • 下载量:Qwen系列开源模型下载量已经突破2000万次。

img6

img7

img8

其他知名大模型 [1]

  • 智谱GLM-4:在多个评测中表现不凡。

  • 百川智能:在单项类别中表现优异。

  • 月之暗面:在多个评测中表现出色。

  • 爱诗科技:在单项类别中表现优异。

  • 上海人工智能实验室:在多个评测中表现不凡。

  • 讯飞星火:在多个评测中表现出色。

  • 商汤SenseChat:在多个评测中表现不凡。

  • Minimax:在多个评测中表现优异。

img6

<br><br>