大数据模型,顾名思义,是需要大数据的。如果说数据量不够的话,这些模型会直接“记住”已有的数据,得到的结论是无法generalize的。而大家都知道,社会科学很多时候能够搞到的数据就是几百份调查问卷。即使想做的更多,精力财力也都跟不上。这些数据量真心是不够神经网络塞牙缝的。所以,请社会科学的同学们不要过度地迷信大数据模型。++

也不要粗暴地直接把线性方法扔进废纸篓。虽然线性方法的拟合效果比较差,但是在有限的数据量下他们的结论是足够可靠的,而且可解释性也远远好于神经网络

传统线性模型不应该被抛弃的原因:可解释性。社会科学的一个重要目的,是要去理解,去说明,我们所关心社会现象背后的机理。只有理解了一个社会问题的成因才有可能去对症下药解决它。

而神经网络这类的复杂模型,虽然说在一些场景下有很好的预测作用,却由于其黑箱性很难给研究者带来什么新的见解。什么叫黑箱呢,就是说一个东西你完全不知道他的机理是什么。神经网络简直是为这个词量身定做的例子。

对于社会现象的形成,对于社科学者而言,会觉得很复杂,但对神经网络而言,材料根本不够塞牙缝,所谓的大模型根本跑不起来,这时候,还是需要线性分析来起作用了。可以通过系数看出哪几个因素是和社会问题的产生相关性最强,或者你使用pca之类更复杂一些的线性模型可以看出一些更有意思的现象:比如说一些因素无法单独对结果产生影响,需要合在一起才行。

(一只小咪@知乎)