# Model Benchmark Data — May 2026 ## Chinese LLM Benchmark (non-linear ReLE) Source: github.com/jeinlee1991/chinese-llm-benchmark ### 通用能力 (General Capability) | 排名 | 模型 | 准确率 | 耗时 | 花费/千次(元) | |------|------|--------|------|---------------| | 28 | MiniMax-M2.7 | 65.1% | 110s | 42.7 | | 35 | MiMo-V2.5-Pro | ~71.4%* | 56s | 64.3 | *MiMo-V2.5-Pro 数据来自单独评测文章,排名从第35位跃升至第7位。 ### 中文指令遵从 | 排名 | 模型 | 准确率 | 耗时 | |------|------|--------|------| | 30 | MiniMax-M2.7 | 42.9% | 51s | ### BFCL-V3 (Function Calling) | 排名 | 模型 | 准确率 | |------|------|--------| | 2 | MiniMax-M2.7 | 76.5% | | 12 | MiniMax-M2.5 | 70.5% | ## MiMo-V2.5-Pro Key Metrics Source: 小米官方 + Artificial Analysis - GDPVal-AA (Elo): 1581 — 全球开源模型第一 - ClawEval: 63.8 - τ³-Bench: 72.9 - SWE-bench Pro: 接近 Claude Opus 4.6 / GPT-5.4 水平 - Token 效率: 较 Kimi 提升 42% - 参数: 1T (Pro), 310B (标准版) - 上下文: 1M tokens - 协议: MIT (完全开源) - Coding 能力: 较上代提升 8.8% (53.1% → 61.9%) ## MiniMax M2.7 Key Metrics Source: MiniMax 官方 - SWE-bench Pro: 56.22% - 自我进化: 通过 Agent Harness 参与自身训练,30-50% 研发工作量可由模型承担 - 核心定位: Agent 旗舰模型 - 状态: 闭源商用 API - 港股表现: 股价 886 港元/股 (2026年2月) ## Arcee Trinity Large Key Metrics Source: Arcee AI 官方 + 技术报告 - 参数: 400B 总参数,13B 激活/token (MoE) - 架构: AFMoE (Attention-First Mixture-of-Experts) - 专家数: 128 experts, 8 active per token - 上下文: 131K tokens - 生成速度: 200+ tokens/s - 响应延迟: sub-3s - 协议: Apache 2.0 (完全开源,可商用) - 性能: 与 Llama 4 Maverick 400B、GLM-4.5 相当 - 训练方: Arcee AI + Prime Intellect + DatologyAI - 定位: 美国企业发布的最大开源模型之一 ## Quick Reference: Model Tier List (May 2026) ### Tier 1 — 顶级闭源 - GPT-5.4 / GPT-5.5 (OpenAI) - Claude Opus 4.6 (Anthropic) - Gemini 3.1 Pro (Google) ### Tier 1.5 — 准顶级 / 开源最强 - MiMo-V2.5-Pro (小米) — 开源第一梯队 - Kimi-K2-Thinking (月之暗面) - GLM-5.1 (智谱AI) ### Tier 2 — 强劲商用 - MiniMax M2.7 — 中文顶级,Agent 强 - Qwen3.5-Plus (阿里) - DeepSeek V4-Pro ### Tier 2.5 — 优秀开源 - Trinity Large (Arcee) — 400B MoE,英文优化 - Qwen3.5-27B / Qwen3.6-35B - GLM-4.7 (智谱AI) ### Tier 3 — 高效/轻量 - Trinity Mini (26B, 3B active) - Gemini 3.1 Flash Lite - Qwen3.5-Flash