重要性人们对从高维数据(包括神经成像和基因组学数据)中确定预测神经精神疾病状态和治疗结果的方法非常感兴趣。这篇综述的目的是强调在旨在建立预测的研究中可能出现的几个潜在问题。
观察许多神经影像学研究声称在只建立相关性的情况下建立预测,这是对预测的统计意义的不恰当使用。统计关联并不一定意味着有能力以广义的方式进行预测;因此,要建立预测的证据,就需要在不同于用于估计模型参数的数据上对模型进行测试。本文讨论了预测性能的各种测量方法和一些常用测量方法的局限性,重点是在评估性能时使用多种测量方法的重要性。在分类上,受试者工作特征曲线下的面积是一个合适的度量;回归分析时,应避免相关性,首选中位数绝对误差。
结论与相关性为确保预测有效性的准确估计,推荐的预测建模最佳实践包括以下内容:(1)样本内模型拟合指数不应作为预测准确性的证据报告,(2)交叉验证程序应包括应用于数据的所有操作,(3)预测分析不应使用小于几百个观测值的样本进行,(4)预测精度的多个度量应检查并报告,(5)决定系数应使用平方和公式计算,而不是相关系数,(6)应采用k倍交叉验证,而不是省略一次交叉验证。