关键点:调整集的选择取决于假设的因果模型,而这些模型是可辩论的。因果模型中的错误或假设的薄弱环节,可能导致偏倚的估计。例如,社会地位达成模型假设父亲教育与儿子职业的关联应通过父亲职业传递,因此控制父亲职业可能会引入“过度控制偏倚”(Grätz, 2019)。在此情况下,识别父亲教育对儿子职业的效应,必须调整未观察变量 U1,这要求对这些变量进行观测或使用控制未观察异质性的统计技术。
要求1:因果研究中,暴露X和协变量Z之间的因果模型必须得到合理化。研究者应明确每个协变量是否为暴露的前因或后果。后果变量(如“后处理”变量)不应控制,必须从调整集候选中移除。
图3b展示了父亲教育对儿子职业因果效应的估计。在此设计下,因果路径已经通过父亲职业被阻断,因此无需控制父亲教育。然而,如果父亲教育对儿子职业有直接影响,则应将父亲教育纳入调整集。
调整集的选择不仅依赖于暴露X与协变量Z之间的因果假设,还涉及调整集候选变量与其他协变量及结果 YYY 之间的因果假设。因此,提出了以下进一步要求:
要求2:调整集候选变量与其他协变量之间的因果模型必须合理化。
要求3:调整集候选变量与结果 YYY 之间的因果模型必须合理化。
4.1.2.有意义的关联
在“参数定义”一节中,我们指出,ESR期刊在调查的年份内并未发布旨在识别有意义关联的研究。尽管如此,进行此类研究的学者仍需为调整集选择提供合理依据。正如前文所述,关联的有意义性源自于背后有理论支持的数据生成过程。因此,进行这类研究的唯一要求是:
要求4:必须合理化生成关联的因果模型。
4.2.操作化
我们编码了作者是否为以下几点提供合理说明:
· 暴露变量 X 与调整变量集 A 中所有变量之间假定的因果关系,特别是调整变量与暴露变量之间的因果顺序;
· A 中所有变量对 Y 的影响;
· X 对 Y 的影响。
为了简化,我们对推理的标准设定较低,重点关注是否提供了推理,而非评估其理论合理性。最终将调整集选择的推理分为三类:“足够推理”、“推理不完整”和“无推理”。具体分类标准见原文中表2。
需要指出的是,对于那些理论上未定义的论文,无法对其调整集提出批评。但我们仍然对这些论文是否提供了上述推理进行编码,按照前文定义的隐性参数进行判断。
4.3.结果
结果显示,只有 25% 的论文为调整集提供了充分的理由。对于概念未定义的论文,情况更糟,只有 14% 提供了足够的推理,62% 没有对调整集中的任何变量提供合理解释。相比之下,明确界定研究参数的论文中,43% 提供了完整的调整集解释,但考虑到这些论文的因果研究目标,这一比例仍然偏低。因果研究中调整集选择的逻辑已经在文献中广泛讨论,且被视为使用观察数据进行因果分析时的核心问题。因此,大多数因果研究未能充分解释协变量的选择,这被认为是一个严重的研究方法问题。
总的来说,结果表明,缺乏足够理由的协变量选择并不是个别现象,而是普遍存在的问题。考虑到 ESR 期刊的高标准,这一问题尤其突出,在其他方法学要求较低的期刊中,问题可能更加严重。