冗余特征削弱回归模型稳定性骤降引发生产脆弱

背景与动机

在实际业务中，数据科学家常以“特征越多越好”为直觉，认为丰富的输入能提升模型预测精度。然而，过度特征会引入额外的上游依赖，使模型在生产环境中变得脆弱。本文通过一套完整的合成房价实验，量化了冗余与噪声特征对回归模型稳健性的负面影响。

数据集：800 条房价样本，核心信号特征包括 sqft（建筑面积）、bedrooms（卧室数）和 neighborhood（区域），以及若干高度相关的派生特征和 90 列纯噪声特征。
模型对比：
- 精简模型：仅使用 3 个核心特征。
- 噪声模型：使用全部 100+ 特征。
评估维度：系数波动（标准差）、权重稀释、信噪比（|Pearson r|）以及特征漂移导致的预测偏移。

实验显示，sqft 与 floor_area_m2、lot_sqft、bedrooms 与 total_rooms 等特征对几乎呈 1.0 的相关系数。回归优化器在分配权重时会在这些高度相关的特征之间随意拆分，导致系数值在不同训练轮次中剧烈波动，解释性和可重复性大幅下降。

关键发现：在噪声模型中，核心特征的系数标准差比精简模型高出 2.2‑2.6 倍，权重不稳定性明显放大。

通过 30 次随机抽样重训练，记录每轮的系数变化。结果表明，噪声模型的系数曲线呈现明显的抖动，而精简模型保持平滑。权重不稳定直接转化为生产环境中的预测波动，尤其在数据分布出现轻微变化时更为敏感。

对全部特征与目标变量 price 的相关系数进行排序后发现：除核心特征外，绝大多数特征的 |r| 接近 0，属于纯噪声。加入这些无关特征后，整体信噪比被稀释，模型在学习真正信号时的效率下降。

将低信号特征 bus_stop_age_yrs 人为引入漂移（0‑20 年），测量预测 RMSE 变化。精简模型因未使用该特征保持不变；噪声模型的预测误差随漂移幅度线性上升，凸显每增加一个特征就多一个潜在失效点。

结论：过度追求特征数量的做法往往适得其反，冗余与低信号特征是回归模型在生产环境中不稳定性的根源。通过严格的特征工程和持续的监控，可显著提升模型的可靠性与业务价值。