Files
agent-skills/research/llm-model-comparison/references/model-benchmarks-2026-05.md
Hermes Agent ccc63d1e70 first commit
2026-05-10 13:52:46 +08:00

2.5 KiB
Raw Blame History

Model Benchmark Data — May 2026

Chinese LLM Benchmark (non-linear ReLE)

Source: github.com/jeinlee1991/chinese-llm-benchmark

通用能力 (General Capability)

排名 模型 准确率 耗时 花费/千次(元)
28 MiniMax-M2.7 65.1% 110s 42.7
35 MiMo-V2.5-Pro ~71.4%* 56s 64.3

*MiMo-V2.5-Pro 数据来自单独评测文章排名从第35位跃升至第7位。

中文指令遵从

排名 模型 准确率 耗时
30 MiniMax-M2.7 42.9% 51s

BFCL-V3 (Function Calling)

排名 模型 准确率
2 MiniMax-M2.7 76.5%
12 MiniMax-M2.5 70.5%

MiMo-V2.5-Pro Key Metrics

Source: 小米官方 + Artificial Analysis

  • GDPVal-AA (Elo): 1581 — 全球开源模型第一
  • ClawEval: 63.8
  • τ³-Bench: 72.9
  • SWE-bench Pro: 接近 Claude Opus 4.6 / GPT-5.4 水平
  • Token 效率: 较 Kimi 提升 42%
  • 参数: 1T (Pro), 310B (标准版)
  • 上下文: 1M tokens
  • 协议: MIT (完全开源)
  • Coding 能力: 较上代提升 8.8% (53.1% → 61.9%)

MiniMax M2.7 Key Metrics

Source: MiniMax 官方

  • SWE-bench Pro: 56.22%
  • 自我进化: 通过 Agent Harness 参与自身训练30-50% 研发工作量可由模型承担
  • 核心定位: Agent 旗舰模型
  • 状态: 闭源商用 API
  • 港股表现: 股价 886 港元/股 (2026年2月)

Arcee Trinity Large Key Metrics

Source: Arcee AI 官方 + 技术报告

  • 参数: 400B 总参数13B 激活/token (MoE)
  • 架构: AFMoE (Attention-First Mixture-of-Experts)
  • 专家数: 128 experts, 8 active per token
  • 上下文: 131K tokens
  • 生成速度: 200+ tokens/s
  • 响应延迟: sub-3s
  • 协议: Apache 2.0 (完全开源,可商用)
  • 性能: 与 Llama 4 Maverick 400B、GLM-4.5 相当
  • 训练方: Arcee AI + Prime Intellect + DatologyAI
  • 定位: 美国企业发布的最大开源模型之一

Quick Reference: Model Tier List (May 2026)

Tier 1 — 顶级闭源

  • GPT-5.4 / GPT-5.5 (OpenAI)
  • Claude Opus 4.6 (Anthropic)
  • Gemini 3.1 Pro (Google)

Tier 1.5 — 准顶级 / 开源最强

  • MiMo-V2.5-Pro (小米) — 开源第一梯队
  • Kimi-K2-Thinking (月之暗面)
  • GLM-5.1 (智谱AI)

Tier 2 — 强劲商用

  • MiniMax M2.7 — 中文顶级Agent 强
  • Qwen3.5-Plus (阿里)
  • DeepSeek V4-Pro

Tier 2.5 — 优秀开源

  • Trinity Large (Arcee) — 400B MoE英文优化
  • Qwen3.5-27B / Qwen3.6-35B
  • GLM-4.7 (智谱AI)

Tier 3 — 高效/轻量

  • Trinity Mini (26B, 3B active)
  • Gemini 3.1 Flash Lite
  • Qwen3.5-Flash