ChatGPT辅助数学建模：从数据预处理到模型优化的全流程指南

Doodle920

405人浏览 · 2026-01-31 00:38:48

Doodle920 · 2026-01-31 00:38:48 发布

1. 传统建模流程的痛点

数学建模竞赛或课程作业通常留给新手的时间只有 3–5 天。传统流程中，80% 的精力被消耗在“脏活累活”：

缺失值、异常值反复肉眼扫描，Excel 手工填充导致样本泄露；
高维 CSV 与多表拼接靠 VLOOKUP，字段含义靠猜；
特征工程凭经验，one-hot 后维度爆炸，稀疏矩阵内存直接溢出；
调参靠“网格搜索 + 人工盯盘”，一夜只跑 3 组，结果还过拟合。

最终论文只能写“本模型在训练集表现良好”，评审一眼看穿。

2. AI 辅助方案 vs. 传统方案

维度	传统手工	ChatGPT 辅助
数据清洗	逐列写脚本，调试 2 h	生成模板代码 5 min，人工复核 10 min
特征选择	相关系数 + 领域经验	自动输出 VIF、IV、Lasso 路径，附带解释
调参	GridSearchCV 全网格	先贝叶斯建议空间，再聚焦精细搜索，耗时 ↓60%
文档	赛后补代码注释	边做边生成 markdown 报告，可直接贴论文附录

风险：GPT 可能给出过时 API 或假数据分布结论，需“人机双签”——代码必须可跑通，结论必须可复现。

3. 全流程实战演示

任务：用 2022 年“高维金融违约”公开数据（含 200 特征、5% 缺失、正负样本 1:4）建立违约预测模型，评估指标 AUC。

3.1 数据清洗

以下代码全部由 ChatGPT 生成，开发者只做了两处业务修正。

# pip install pandas scikit-learn==1.4.2
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import KNNImputer

df = pd.read_csv('financial_default.csv')

# 1) 缺失探查
missing = df.isna().mean().sort_values(ascending=False)
print(missing.head(10))  # 快速定位高缺失字段

# 2) 自动划分数值/类别
num_cols = df.select_dtypes(include=['int64','float64']).columns
cat_cols = df.select_dtypes(include=['object']).columns

# 3) 数值列 KNN 插补，保留分布
imputer = KNNImputer(n_neighbors=5)
df[num_cols] = imputer.fit_transform(df[num_cols])

# 4) 类别列用众数填充，并加缺失标识
for c in cat_cols:
    df[c] = df[c].fillna(df[c].mode()[0])
    df[f'{c}_was_missing'] = df[c].isna().astype(int)  # 防止信息丢失

要点：

KNN 插补比均值/中位数更稳，且无需假设分布；
缺失标识字段常成为强特征，勿直接丢弃。

3.2 特征选择

向 ChatGPT 发送结构化提示词：

角色：你是一位金融风控建模专家。数据字典如下：{字段名: 含义}。目标变量为 default。请按以下顺序输出 Python 代码：1) 计算各数值变量 VIF，删除 VIF>10；2) 对剩余变量做 IV 值筛选，保留 IV>0.02；3) 用 LassoCV 进一步压缩，输出最终变量列表及对应系数。

GPT 返回的代码片段（已验证可跑）：

from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.linear_model import LassoCV
from sklearn.preprocessing import StandardScaler

# 1) VIF 过滤
X_num = df[num_cols]
vif = pd.Series([variance_inflation_factor(X_num.values, i)
                 for i in range(X_num.shape[1])], index=num_cols)
low_vif = vif[vif <= 10].index

# 2) IV 值计算（简化版）
def calc_iv(x, y):
    df_ = pd.DataFrame({'x': x, 'y': y})
    df_ = df_.groupby('x', as_index=False).agg({'y': ['count', 'sum']})
    df_.columns = ['value', 'total', 'bad']
    df_['good'] = df_['total'] - df_['bad']
    df_['bad_rate'] = (df_['bad'] + 0.5) / (df_['bad'].sum() + 1)
    df_['good_rate'] = (df_['good'] + 0.5) / (df_['good'].sum() + 1)
    df_['woe'] = np.log(df_['good_rate'] / df_['bad_rate'])
    iv = ((df_['good_rate'] - df_['bad_rate']) * df_['woe']).sum()
    return iv

iv_list = {c: calc_iv(df[c], df['default']) for c in low_vif}
high_iv = [k for k, v in iv_list.items() if v > 0.02]

# 3) LassoCV
scaler = StandardScaler()
X_lasso = scaler.fit_transform(df[high_iv])
clf = LassoCV(cv=5, random_state=0).fit(X_lasso, df['default'])
keep = np.array(high_iv)[clf.coef_ != 0]
print('最终特征数:', len(keep))

经验：IV 与 Lasso 双重过滤可把 200 维降到 30 维，AUC 提升 2–3 个百分点。

3.3 模型训练

采用 LightGBM，支持类别自动分箱。

import lightgbm as lgb
from sklearn.metrics import roc_auc_score

X = df[keep].join(pd.get_dummies(df[cat_cols]))
y = df['default']
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42)

train_data = lgb.Dataset(X_train, label=y_train, free_raw_data=False)
params = {
    'objective': 'binary',
    'metric': 'auc',
    'learning_rate': 0.05,
    'num_leaves': 31,
    'feature_fraction': 0.8,
    'bagging_fraction': 0.8,
    'verbose': -1
}
model = lgb.train(params, train_data, num_boost_round=500)
pred = model.predict(X_test)
print('AUC:', roc_auc_score(y_test, pred))

4. 调参技巧与常见错误

先粗后细：用 GPT 建议的贝叶斯优化（optuna）先宽范围搜 num_leaves、max_depth，再固定最佳值后微调 learning_rate、min_data_in_leaf。
类别型特征勿直接 one-hot 高基数字段，改用 lgb.Dataset(categorical_feature=...)，内存减半。
缺失标签泄漏：任何插补、标准化必须只在训练集拟合，用 Pipeline 封装，避免测试集信息渗入。
交叉验证分层：金融违约数据通常时间切片，需按月份 GroupKFold，防止未来信息穿越。GPT 会提醒“请检查样本时间戳”，若数据无时间字段需人工标注。