AI Agent的评估与测试：如何量化智能体性能

开发小能手-roy

17人浏览 · 2026-07-01 10:05:23

开发小能手-roy · 2026-07-01 10:05:23 发布

AI Agentçè¯ä¼°ä¸æµè¯ï¼å¦ä½éåæºè½ä½æ§è½

ä¸ãä¸ºä»ä¹Agentè¯ä¼°å¦æ¤å¤æ

å¤è½®äº¤äºæ§ï¼Agentéè¦å¨å¤è½®å¯¹è¯ä¸ä¿æç¶æä¸è´æ§
å·¥å·è°ç¨è½åï¼æ¶åå¤é¨APIãæ°æ®åºãä»£ç æ§è¡ç heterogeneous å·¥å·
èªä¸»è§åï¼æ§è¡è·¯å¾éç¡®å®æ§ï¼åä¸ä»»å¡å¯è½æå¤ç§æ£ç¡®è§£æ³
é¿ç¨ä¾èµï¼ä»»å¡æ¥éª¤é´åå¨å æé¾ï¼æ©æéè¯¯å¯è½çº§èæ¾å¤§
ç¯å¢äº¤äºï¼éè¦ä¸çå®ææ¨¡æç¯å¢å¨æäº¤äº

äºãæ ¸å¿è¯ä¼°ç»´åº¦

2.1 ä»»å¡å®æçï¼Task Success Rateï¼

from dataclasses import dataclass
from typing import List, Optional, Any

@dataclass
class TaskResult:
    """ä»»å¡æ§è¡ç»æ"""
    task_id: str
    success: bool           # æ¯å¦æåå®æ
    completion_rate: float  # å®æåº¦ï¼0.0-1.0ï¼
    steps_taken: int        # æ§è¡æ¥æ°
    max_steps: int          # æå¤§åè®¸æ¥æ°
    time_elapsed: float     # èæ¶ï¼ç§ï¼
    final_answer: str       # æç»è¾åº
    gold_answer: str        # æ åçæ¡

class TaskSuccessEvaluator:
    """ä»»å¡å®æçè¯ä¼°å¨"""
    
    def __init__(self, tolerance: float = 0.05):
        self.tolerance = tolerance  # æ°å¼æ¯è¾å®¹å·®
    
    def exact_match(self, predicted: str, expected: str) -> bool:
        """ç²¾ç¡®å¹é"""
        return predicted.strip() == expected.strip()
    
    def contains_match(self, predicted: str, expected: str) -> bool:
        """åå«å¹éï¼é¢æµåå«æ£ç¡®çæ¡å³å¯"""
        return expected.strip().lower() in predicted.strip().lower()
    
    def numeric_match(self, predicted: str, expected: str) -> bool:
        """æ°å¼å¹éï¼æ¯æå®¹å·®æ¯è¾"""
        try:
            p_val = float(predicted.replace(",", ""))
            e_val = float(expected.replace(",", ""))
            return abs(p_val - e_val) / max(abs(e_val), 1e-10) < self.tolerance
        except ValueError:
            return False
    
    def evaluate(self, results: List[TaskResult]) -> dict:
        """è¯ä¼°ä¸æ¹ä»»å¡ç»æ"""
        total = len(results)
        success_count = sum(1 for r in results if r.success)
        avg_completion = sum(r.completion_rate for r in results) / total
        avg_steps = sum(r.steps_taken for r in results) / total
        
        # æçææ ï¼æ¯å¦å¨åçæ¥æ°åå®æ
        efficient_count = sum(
            1 for r in results 
            if r.success and r.steps_taken <= r.max_steps * 0.8
        )
        
        return {
            "success_rate": success_count / total,
            "avg_completion_rate": avg_completion,
            "avg_steps": avg_steps,
            "efficiency_rate": efficient_count / total,
            "total_tasks": total
        }

# ä½¿ç¨ç¤ºä¾
results = [

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

AI Agent开发，第一次试图社招的悲伤思考

CSDN-OPC开发者社区

2026世界人工智能大会，容联云将举办Agent分论坛

作为全球人工智能领域的重要行业交流平台，本届大会将继续聚焦大模型、AI应用与产业落地等关键议题。据了解，该论坛将围绕企业级AI Agent的技术演进与产业落地展开讨论，重点关注Agent在真实业务场景中的应用路径与规模化能力建设。作为持续参与WAIC的重要企业之一，容联云近年来围绕AI在企业通信与客户交互场景中的应用持续探索，并在多个业务场景推进智能化升级。我们希望在WAIC这样一个全球AI对话平