评测MiniMax新推出的MiniMax-M2模型
从以上对MiniMax-M2的测试来看,我对它的定位是“小而专,惠且快“,适合对模型编程能力、工具调用能力要求高,喜欢sonnet 4.5的能力,却不喜欢sonnet 4.5价格的群体,比如个人开发者、初创小公司等,就非常适合用MiniMax-M2来作为基础模型。我测试了MiniMax-M2的代码能力,实现效果绝对是第一梯队的,后面会有五六个例子来演示,但它的价格只有Sonnet 4.5 的8%,
MiniMax-M2,大模型里的“瑞士军刀”
在Artificial Analysis榜单看到空降一个新成员,MiniMax公司的M2模型一下子跻身前五,仅次于sonnet 4.5。
今年不愧是开源大模型的元年,作为用户来说其实挺幸福的,每天可以翻牌子挑着用。
我知道MiniMax是因为它的语音speech模型,因为很多AI客服声音用的就是他们家的模型,真的很难听出来是人还是AI。

前不久我还在和同事闲聊怎么AI突然间就变得铺天盖地都是,随便打开哪个同事电脑,各种AI对话框已经和office一样霸占屏幕。
这绝不是一时的新鲜热闹,总结下来有两个根本原因,AI正变得更“靠谱“和”接地气“了,而这次新发布的MiniMax-M2模型就具备这两个典型特征。
靠谱是聪明且准确的做事,MiniMax-M2把聪明都放在了写代码和Agent上,不做样样精通的百晓生,这就一下子变得靠谱起来。
你可以用M2开发出能真正解决问题的程序,还可以准确调用各种工具(如Shell、浏览器、Python、MCP服务等)支持你的工作流,把活干得更高效、漂亮。
接地气是把性能提上去,价格打下来,让“让每个人都拥有充裕的智能(Intelligence with Everyone)“,就像如今的辅助驾驶一样,十年前谁能想到如今十几万的车都能有智驾。

我测试了MiniMax-M2的代码能力,实现效果绝对是第一梯队的,后面会有五六个例子来演示,但它的价格只有Sonnet 4.5 的8%,速度却快了一倍。
为什么这次MiniMax-M2能把性能和性价比做到完美平衡,我认为有3个原因。
1、足够专注。MiniMax-M2因为主攻代码和Agent任务,它采用MoE模型总参数仅230B ,激活参数10B,所以模型在编程能力和Agent调用能力上更强,且训练成本更低。
2、技术创新。MiniMax的Junheng老师提到的Interleaved Thinking技术,能让模型可以在执行任务的任何阶段进行动态思考,这就大大提升了复杂任务的泛化能力和可靠程度。

3、快而轻。MiniMax-M2把有限资源用在了核心任务上,相比其他大而全的模型更加轻量化,比如采用了如CISPO正则化策略进行优化,就避免让模型分散注意力,让参数利用更高效。
这里解释下CISPO是MiniMa对于模型训练提出的创新算法,通过裁剪重要性采样权重而非策略更新本身,保证模型更加聪明,简单来说就是允许模型大胆尝试探索,等模型跑偏了会出来及时纠错。
作为个人开发者或者小公司来说,M2就显得物美价廉,打破了大模型里的性能、速度、成本都能平衡的不可能三角。
如何使用MiniMax-M2来进行编程开发?
现在大模型产品形态都是通用模版,和Claude、Deepseek等同类产品一样,MiniMax提供了三种方式来使用M2,如果只是用AI办公,写写脚本,可以在网页端或者APP里使用。

如果是产品开发,建议在Python中使用OpenAI SDK或者Anthropic SDK来调用,接口代码也很简单。
from openai import OpenAI
client = OpenAI(
base_url="https://api.minimaxi.com/v1",
api_key=your_api_key
)
response = client.chat.completions.create(
model="MiniMax-M2",
messages=[
{
"role": "user",
"content": "请用告诉我成为Python开发高手的3个秘诀"
}
]
)
print(response.choices[0].message.content)

如果你是想在AI Coding场景中调用M2写代码,那就直接在VsCode Cline或Cursor等Agent中配置API,这是适合大多数开发者的方式,而且也是最好玩的模式。
以Cline为例,你需要先申请MiniMax API key,然后配置到Cline中,按照下图操作就能搞定。

配置好后,在Cline对话界面显示出M2模型就代表成功了,如果不放心,最好是问候它一句,有回应就可以正式使用M2。

四大编程场景“奥数题“实测,看看榜单排名有没有水分
现在各种测试大模型的榜单非常多,很多模型一发布就标榜自己在某个榜单里名列Top几,水分多少很难讲。
要验证MiniMax-M2是否真如Artificial Analysis榜单全球前五那样强,只需要多布置几个真实场景”奥数题“,让它做做就知道了。
我准备了4个场景,分别考察基础编程能力、端到端真实应用开发能力、MCP工具链调用能力、长文本分析能力测试,是李逵还是李鬼一测便知。
基础编程能力测试:绘制复杂matplotlib图表、编写乒乓球对战游戏
python可视化绘图是最常见的编程场景,咱们让M2用matplotlib绘制真实商业数据图表,要求是准确、清晰。
首先提供一张车型销量的Excel表导入Cline,大概有近500行,5个字段。

prompt如下:
附件是2025年9月电动汽车销量排行榜,里面包含排名、车型、销量、厂商、售价等5个字段,你的任务如下:
1.理解这份数据,若有不清楚的可以和我确认
2.根据这份数据使用python matplotlib进行可视化展示,在一个画布上绘制4个子图。
2.1 子图1展示销量前10名的车型
2.2 子图2展示销量前10名的厂商
2.3子图3展示价格区间1-10万,10-20万,20-30万,30-40万,40万以上销量的分布
2.4子图4展示各个厂商的车型数,选前10名显示既可
你需要注意以下几点:
1、不同可视化需求选择合适的图表形式
2、保证图表的美观、简洁、易读
3、你要保证代码是可执行的
M2会先读取Excel数据,然后给出todo清单,并编写代码。


结果展示如下,M2准确理解了我的需求,并处理数据绘制出带有4张子图的可视化图表,数据完全准确,展示形式也很清晰、直观。

第二个场景是让M2开发一个简单的打乒乓球网页游戏,重点需要物理模拟乒乓球运动,prompt如下:
你是一名资深前端游戏开发者,需创建一个基于HTML5 Canvas的双人乒乓球网页游戏。游戏必须遵循物理规律,代码应模块化且注释清晰。
核心要求
1.物理模拟:实现弹性碰撞(球与球拍/边界)、球的旋转效应(马格努斯力影响轨迹)及速度衰减。
2.游戏功能:支持双人键盘控制(W/S和上下键)、11分制计分、球重置发球机制。
3.输出形式:提供单HTML文件,包含完整CSS样式与JavaScript代码。
关键指令
1.使用Canvas渲染球、球拍、比分板。
2.在Ball类中封装位置、速度、旋转状态。
3.注释重点物理公式(如碰撞反射角计算)

最终展示界面如下,乒乓球在遇到球拍时会遵循物理运动反弹,效果还可以,但就是游戏细节还比较粗糙,可能是我的提示语比较简单,还有待优化。

端到端真实应用开发能力测试:编写一个商品价格和热度监测的web应用
简单的编程场景无法代表真实生产的需求,所以咱们让M2去编写一个在工作中常用到的web应用,来监测商品价格和热度数据,支持用户交互。
数据集还是选择之前用的汽车销量数据,prompt如下:
你是一名资深前端游戏开发者,需创建一个基于HTML5 Canvas的双人乒乓球网页游戏。游戏必须遵循物理规律,代码应模块化且注释清晰。
核心要求
1.物理模拟:实现弹性碰撞(球与球拍/边界)、球的旋转效应(马格努斯力影响轨迹)及速度衰减。
2.游戏功能:支持双人键盘控制(W/S和上下键)、11分制计分、球重置发球机制。
3.输出形式:提供单HTML文件,包含完整CSS样式与JavaScript代码。
关键指令
1.使用Canvas渲染球、球拍、比分板。
2.在Ball类中封装位置、速度、旋转状态。
3.注释重点物理公式(如碰撞反射角计算)
M2照例先出todo清单,列出开发web应用的流程和事项。


最后呈现的效果如下,我觉得非常满意,一方面数据完全准确,另一方面web布局很清晰,UI大方简洁,且交互也很丝滑。



MCP工具链调用能力测试:提出数据采集任务,让M2调用工具来处理
MCP是大模型的强力外援,提供了工具和数据,M2对于MCP的调用能力可以反映它的Agentic表现,能否处理长而复杂的任务。
比如我让他采集数据,并形成分析报告,prompt如下:
调用brightdata mcp查询iphone17在各电商平台最新价格
它会先分析需求,适时调用数据采集类MCP来执行网页查询任务。

最终M2将采集到的数据整理成一份报告,信息准确详细,非常nice。


长文本分析能力测试:给一个大型github开源项目,让其分析项目代码,测试其是否有幻觉
对于大模型而言,长文本分析是个艰巨任务, 因为分析的token过长可能会导致模型产生幻觉,并给出错误结论。
这次我会让M2分析Pandas库的代码,这是一个非常庞大的仓库,结构很复杂,prompt如下:
请分析这个仓库的文件代码 https://github.com/pandas-dev/pandas

最终M2同样输出了一份关于Pandas项目的分析报告,初步看下来结论是可靠的。



总结下来,M2在基础编程场景、端到端真是用开发能力以及工具链调用上表现是不错的,能排得上我心目中AI Coding第一梯队,但是它对产品开发的细节优化可能还需要提升。
个人、企业如何选择MiniMax-M2和其他模型
从以上对MiniMax-M2的测试来看,我对它的定位是“小而专,惠且快“,适合对模型编程能力、工具调用能力要求高,喜欢sonnet 4.5的能力,却不喜欢sonnet 4.5价格的群体,比如个人开发者、初创小公司等,就非常适合用MiniMax-M2来作为基础模型。
写到这里,我觉得开源模型的未来越来越明朗,可能会不断压缩商业模型的生存空间,因为不管从技术开放性、性价比、灵活度、社区生态等来看,开源模型都是碾压商业模型的。
更多推荐



所有评论(0)