评测MiniMax新推出的MiniMax-M2模型

从以上对MiniMax-M2的测试来看，我对它的定位是“小而专，惠且快“，适合对模型编程能力、工具调用能力要求高，喜欢sonnet 4.5的能力，却不喜欢sonnet 4.5价格的群体，比如个人开发者、初创小公司等，就非常适合用MiniMax-M2来作为基础模型。我测试了MiniMax-M2的代码能力，实现效果绝对是第一梯队的，后面会有五六个例子来演示，但它的价格只有Sonnet 4.5 的8%，

朱卫军Python

1562人浏览 · 2025-10-31 16:27:41

朱卫军Python · 2025-10-31 16:27:41 发布

MiniMax-M2，大模型里的“瑞士军刀”

在Artificial Analysis榜单看到空降一个新成员，MiniMax公司的M2模型一下子跻身前五，仅次于sonnet 4.5。

今年不愧是开源大模型的元年，作为用户来说其实挺幸福的，每天可以翻牌子挑着用。

我知道MiniMax是因为它的语音speech模型，因为很多AI客服声音用的就是他们家的模型，真的很难听出来是人还是AI。

前不久我还在和同事闲聊怎么AI突然间就变得铺天盖地都是，随便打开哪个同事电脑，各种AI对话框已经和office一样霸占屏幕。

这绝不是一时的新鲜热闹，总结下来有两个根本原因，AI正变得更“靠谱“和”接地气“了，而这次新发布的MiniMax-M2模型就具备这两个典型特征。

靠谱是聪明且准确的做事，MiniMax-M2把聪明都放在了写代码和Agent上，不做样样精通的百晓生，这就一下子变得靠谱起来。

你可以用M2开发出能真正解决问题的程序，还可以准确调用各种工具（如Shell、浏览器、Python、MCP服务等）支持你的工作流，把活干得更高效、漂亮。

接地气是把性能提上去，价格打下来，让“让每个人都拥有充裕的智能（Intelligence with Everyone）“，就像如今的辅助驾驶一样，十年前谁能想到如今十几万的车都能有智驾。

我测试了MiniMax-M2的代码能力，实现效果绝对是第一梯队的，后面会有五六个例子来演示，但它的价格只有Sonnet 4.5 的8%，速度却快了一倍。

为什么这次MiniMax-M2能把性能和性价比做到完美平衡，我认为有3个原因。

1、足够专注。MiniMax-M2因为主攻代码和Agent任务，它采用MoE模型总参数仅230B ，激活参数10B，所以模型在编程能力和Agent调用能力上更强，且训练成本更低。

2、技术创新。MiniMax的Junheng老师提到的Interleaved Thinking技术，能让模型可以在执行任务的任何阶段进行动态思考，这就大大提升了复杂任务的泛化能力和可靠程度。

3、快而轻。MiniMax-M2把有限资源用在了核心任务上，相比其他大而全的模型更加轻量化，比如采用了如CISPO正则化策略进行优化，就避免让模型分散注意力，让参数利用更高效。

这里解释下CISPO是MiniMa对于模型训练提出的创新算法，通过裁剪重要性采样权重而非策略更新本身，保证模型更加聪明，简单来说就是允许模型大胆尝试探索，等模型跑偏了会出来及时纠错。

作为个人开发者或者小公司来说，M2就显得物美价廉，打破了大模型里的性能、速度、成本都能平衡的不可能三角。

如何使用MiniMax-M2来进行编程开发？

现在大模型产品形态都是通用模版，和Claude、Deepseek等同类产品一样，MiniMax提供了三种方式来使用M2，如果只是用AI办公，写写脚本，可以在网页端或者APP里使用。

如果是产品开发，建议在Python中使用OpenAI SDK或者Anthropic SDK来调用，接口代码也很简单。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimaxi.com/v1",
    api_key=your_api_key
)
response = client.chat.completions.create(
    model="MiniMax-M2",
    messages=[
        {
            "role": "user",
            "content": "请用告诉我成为Python开发高手的3个秘诀"
        }
    ]
)

print(response.choices[0].message.content)

如果你是想在AI Coding场景中调用M2写代码，那就直接在VsCode Cline或Cursor等Agent中配置API，这是适合大多数开发者的方式，而且也是最好玩的模式。

以Cline为例，你需要先申请MiniMax API key，然后配置到Cline中，按照下图操作就能搞定。

配置好后，在Cline对话界面显示出M2模型就代表成功了，如果不放心，最好是问候它一句，有回应就可以正式使用M2。

四大编程场景“奥数题“实测，看看榜单排名有没有水分

现在各种测试大模型的榜单非常多，很多模型一发布就标榜自己在某个榜单里名列Top几，水分多少很难讲。

要验证MiniMax-M2是否真如Artificial Analysis榜单全球前五那样强，只需要多布置几个真实场景”奥数题“，让它做做就知道了。

我准备了4个场景，分别考察基础编程能力、端到端真实应用开发能力、MCP工具链调用能力、长文本分析能力测试，是李逵还是李鬼一测便知。

基础编程能力测试：绘制复杂matplotlib图表、编写乒乓球对战游戏

python可视化绘图是最常见的编程场景，咱们让M2用matplotlib绘制真实商业数据图表，要求是准确、清晰。

首先提供一张车型销量的Excel表导入Cline，大概有近500行，5个字段。

prompt如下：

附件是2025年9月电动汽车销量排行榜，里面包含排名、车型、销量、厂商、售价等5个字段，你的任务如下：
1.理解这份数据，若有不清楚的可以和我确认
2.根据这份数据使用python matplotlib进行可视化展示，在一个画布上绘制4个子图。
  2.1 子图1展示销量前10名的车型
  2.2 子图2展示销量前10名的厂商
  2.3子图3展示价格区间1-10万，10-20万，20-30万，30-40万，40万以上销量的分布
  2.4子图4展示各个厂商的车型数，选前10名显示既可
你需要注意以下几点：
1、不同可视化需求选择合适的图表形式
2、保证图表的美观、简洁、易读
3、你要保证代码是可执行的

M2会先读取Excel数据，然后给出todo清单，并编写代码。

结果展示如下，M2准确理解了我的需求，并处理数据绘制出带有4张子图的可视化图表，数据完全准确，展示形式也很清晰、直观。

第二个场景是让M2开发一个简单的打乒乓球网页游戏，重点需要物理模拟乒乓球运动，prompt如下：

你是一名资深前端游戏开发者，需创建一个基于HTML5 Canvas的双人乒乓球网页游戏。游戏必须遵循物理规律，代码应模块化且注释清晰。
核心要求
1.物理模拟：实现弹性碰撞（球与球拍/边界）、球的旋转效应（马格努斯力影响轨迹）及速度衰减。
2.游戏功能：支持双人键盘控制（W/S和上下键）、11分制计分、球重置发球机制。
3.输出形式：提供单HTML文件，包含完整CSS样式与JavaScript代码。
关键指令
1.使用Canvas渲染球、球拍、比分板。
2.在Ball类中封装位置、速度、旋转状态。
3.注释重点物理公式（如碰撞反射角计算）

最终展示界面如下，乒乓球在遇到球拍时会遵循物理运动反弹，效果还可以，但就是游戏细节还比较粗糙，可能是我的提示语比较简单，还有待优化。

动图封面

端到端真实应用开发能力测试：编写一个商品价格和热度监测的web应用

简单的编程场景无法代表真实生产的需求，所以咱们让M2去编写一个在工作中常用到的web应用，来监测商品价格和热度数据，支持用户交互。

数据集还是选择之前用的汽车销量数据，prompt如下：

你是一名资深前端游戏开发者，需创建一个基于HTML5 Canvas的双人乒乓球网页游戏。游戏必须遵循物理规律，代码应模块化且注释清晰。
核心要求
1.物理模拟：实现弹性碰撞（球与球拍/边界）、球的旋转效应（马格努斯力影响轨迹）及速度衰减。
2.游戏功能：支持双人键盘控制（W/S和上下键）、11分制计分、球重置发球机制。
3.输出形式：提供单HTML文件，包含完整CSS样式与JavaScript代码。
关键指令
1.使用Canvas渲染球、球拍、比分板。
2.在Ball类中封装位置、速度、旋转状态。
3.注释重点物理公式（如碰撞反射角计算）

M2照例先出todo清单，列出开发web应用的流程和事项。

最后呈现的效果如下，我觉得非常满意，一方面数据完全准确，另一方面web布局很清晰，UI大方简洁，且交互也很丝滑。

MCP工具链调用能力测试：提出数据采集任务，让M2调用工具来处理

MCP是大模型的强力外援，提供了工具和数据，M2对于MCP的调用能力可以反映它的Agentic表现，能否处理长而复杂的任务。

比如我让他采集数据，并形成分析报告，prompt如下：

调用brightdata mcp查询iphone17在各电商平台最新价格

它会先分析需求，适时调用数据采集类MCP来执行网页查询任务。

最终M2将采集到的数据整理成一份报告，信息准确详细，非常nice。

长文本分析能力测试：给一个大型github开源项目，让其分析项目代码，测试其是否有幻觉
对于大模型而言，长文本分析是个艰巨任务，因为分析的token过长可能会导致模型产生幻觉，并给出错误结论。

这次我会让M2分析Pandas库的代码，这是一个非常庞大的仓库，结构很复杂，prompt如下：

请分析这个仓库的文件代码 https://github.com/pandas-dev/pandas

最终M2同样输出了一份关于Pandas项目的分析报告，初步看下来结论是可靠的。

总结下来，M2在基础编程场景、端到端真是用开发能力以及工具链调用上表现是不错的，能排得上我心目中AI Coding第一梯队，但是它对产品开发的细节优化可能还需要提升。

个人、企业如何选择MiniMax-M2和其他模型

从以上对MiniMax-M2的测试来看，我对它的定位是“小而专，惠且快“，适合对模型编程能力、工具调用能力要求高，喜欢sonnet 4.5的能力，却不喜欢sonnet 4.5价格的群体，比如个人开发者、初创小公司等，就非常适合用MiniMax-M2来作为基础模型。

写到这里，我觉得开源模型的未来越来越明朗，可能会不断压缩商业模型的生存空间，因为不管从技术开放性、性价比、灵活度、社区生态等来看，开源模型都是碾压商业模型的。

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

OPC开发者新风向｜AI+一人公司如何高效拿补贴

CSDN-OPC开发者社区

中国 OPC 开发者政策新风向-2026年Q1

CSDN-OPC开发者社区

OPC开发者一人公司技术栈指南

CSDN-OPC开发者社区

所有评论(0)

查看更多评论

朱卫军Python

@Pydatas

已为社区贡献38条内容