当前位置: 首页> 高考

计算机伪科学: 文科已经走了, 理科还会远吗?

我这学期选了两节统计课,一门是数学系的统计课(IntrotoStatistics),另外一门是计算机系的统计课(IntrotoStatisticalAnalysis)。

这两门课尽管内容相似,但风格大相径庭。

数学系的统计课是一个博后教,每天课上定义、定理、证明,一步一步严谨的很。

计算机系的统计课是一个俄裔教授教,之前在Amazon工作。

对他来说,方法不论对错,只论是否cool。

“我们这里算一个特征值,因为算特征值很cool,算对称矩阵的特征值更cool。”

“这两种estimator都很cool。plug-in很cool,但这个unbiasedestimator也很cool,很难说哪个更cool。”

而且他这一句句cool不是随便讲的。

他有一次讲了这么一道题,说袋子里有N个小球(N未知),从1到N标号,你从袋子里拿n个(n远小于N),如何估计袋子里一共有多少球?

他给出的解法是,看拿出的n个小球的标号,取其中最大值,作为N的估计。

他说这个解法很cool,英军就是这样用德军坦克的序列号来估计坦克量的。

我一听觉得没有道理啊,直接取最大值,只会比N小,不会比N大。这个estimator有bias啊。

我给我的同学解这道题,他说,理论上,区间内取n个值中最大值,区间长度的期望,应该是最大值乘上(n+1)/n,这样才是unbiasedestimator。

我觉得他想得比教授好。

结果第二天,我同学给我发消息,说他仔细算了算,教授的coolestimator的平方误差(estimator的黄金标准)更小。(勘误:算错了其实unbiased更好)

理论乍看很蠢的估算方法,在实际上可能很优。

姜还是老的cool。

这个俄裔教授除了cool还喜欢用一个词,叫fearless。

“你们如果用plug-inestimator,最cool的方式就是fearlessly一plug到底。不要犹豫,每当你看到truedistribution的时候,都pluginempiricaldistribution。BeFearless!Thatiswhatcoolpeopledo。”

他不喜欢数学系统计学家的一步一证明,战战兢兢,觉得他们就那么几个定理还要证来证去的,不够fearless。

他欣赏机器学习,因为它是fearlessmethod。

目前来看,后者人定胜天的fearless精神占了上风。

Allmodelsarewrong.Someareuseful.

机器学习对传统统计学的冲击引出一个问题——科学是否已经过时?

知识分子是否已经不再象征最高生产力,取而代之的是掌握算力的工程师?

工程师自信到什么程度?

那个俄裔教授读梯度下降(gradientdescent)读的不是“古雷第恩特”,是“古拉第恩特”。

因为梯度下降什么都能解,怎么读都管用。

颇有一种人有多大胆,地有多大产的感觉。

“统计学家看到有十几个参数要优化都要吓尿了,我们勤劳勇敢(fearless)的计算机学家,用grAHdientdescent,优化上亿个参数都是小菜一碟。”

而且他honestly不发“昂尼丝力”,发“夯尼丝力”。

感到那种扑面而来的粗犷的美了吗?

好像他的数据都是从西伯利亚的猛犸象身上剥下来的,通过石油管道输进苏联的坦克里都能跑起来。

现在有了AI4Science,解决科学问题都不需要懂多少科学了,只需要有数据和算法。

AlphaFold就只需要读一个字符串就能预测蛋白质结构,疾病检测就只需要读一张图。

学什么具体的学科,好像都不如转去计算机解决问题来得快。

颇有一种砸铁锅大炼钢铁的感觉。

在我年少无知的时候,我还选过MIT的神经科学课。结果每次上课都睡着,两周就把课退了。

唯一记住的是教授第一节课用熊的神经系统举例子的时候说的,”Ihaveapersonalinterestinbears”。

这是因为教授的名字叫MarkBear。

我退课时,ProfessorBear对我说,“年轻人,神经科学的路还长,后面有意思的东西多的是。但就好像学一门语言一样,你想要聊天前得先背单词,学语法——你现在学的不过是神经科学这门语言的最枯燥的部分。”

学语言?没时间,不如机器翻译。

我把这节课换成了个计算机课。

拒绝熊市套牢。

ProfessorBear的思维方式反应了神经科学作为一门学科的整体思维方式:bottom-up。

先小后大,先研究清楚neurotransmitter,然后神经元,neuralpathway,之后才是脑区……因为它要科学准确,每一个结论都可以用实验掰开了揉碎了证明清楚。

但神经科学的科学严谨性也是一种作茧自缚。

因为底层的好多东西都还没有研究清楚,所以对于大家真正关心的问题,像“人怎么学习更有效(听什么歌?什么时间学?)”,“如何把人分类(星座,MBTI)”这样的问题,科学家不敢妄下定论。

所以就出现了理论未至,暴论先行的局面。

大多数人没有时间建立起对神经科学的系统了解,大家都愿意听一些简单的、能够指导我们思考的理论,例如“左脑感性,右脑理性”,“IQ上140就是全人类前1%聪明的人”,比如“人脑分为爬行动物脑、哺乳动物脑、理性脑三个部分”。

这些理论因为有无数不准确性被学界唾弃:IQ试图用一个数字来衡量一个人的智力,MBTI测试结果的很大程度上取决于测试人当时的心情,人脑作为一个整体分不出来三大部分。

尽管有大学教授的抨击,但不可否认的是,最终流行起来的是这种欠缺科学性,但简单易用的理论。IQ成为了许多学校录取、公司招人的敲门砖;MBTI成为了当代年轻人社交密码,人脑的三部分理论被畅销书作家用来解释人的欲望和动机。

传统理科的科学家们,由于他们对科学严谨的addiction式的追求,不敢提出如此大胆通用的理论。这违反他们作为科学家的“操守”。

而那些“伪科学家”们,敢于脱离现有的理论体系,在严谨性和实用性之间找到平衡,多快好省,大胆立论。

他们走出了象牙塔的固有思维模式,把火带到了人间。这个火是不可控的野火,使用不当会造成一氧化碳中毒,但也给象牙塔外的人带来了温暖和思考的乐趣。

有的人可能会鄙夷地说,这些伪科学家们就没有进过象牙塔。

确实啊,光脚的不怕穿鞋的。

世界是属于fearlesspeople的。

AndIthinktheworldisbetterwiththosepseudosciencetheoriesthanwithout.

如果科学的目的是增进人类对世界的理解,那经实验验证、可以治药救人的科学,和容易理解、直接应用的“伪科学”,前者一定比后者更接近科学本来的目的吗?

“无法证伪的学科就是伪科学。”但不能证伪,不够准确严谨,难道就没有社会贡献吗?

在世界的一端,矗立着学术的象牙塔,里面是数学家、神经科学家、统计学家们。他们用严谨的推导和科学方法得出准确的理论。他们的理论可以把火箭送上天,可以制药救人,可以在羊皮纸上建立出人类智慧的丰碑。

在另一端,是一个繁忙的小镇,里面的市民忙于生产活动,没有时间去思考象牙塔里羊皮纸上的符号和理论,但他们想生活得更好。

在这两端之间,有一个个赤脚行走在知识的荒原上的人。他们怀揣着从象牙塔里偷拿的花瓶,扯下来的书页,想着如何在镇里变现。

他们在象牙塔中不受欢迎。象牙塔里面的人管这群赤脚的人叫做伪科学家。

但他们是象牙塔和镇子之间的桥梁。

做桥梁没有什么可耻的。不管是象牙塔,镇子,还是这些赤脚的人,都在以自己的方式为这个世界做出贡献。

我想做桥梁。

我因为不懂物化生这样的理科,我做不了AI4Science。但是我懂一些心理学,所以可以做AI4PseudoScience。

要做AI4PseudoScience,自然要识别伪科学中的重要问题。我认为,MBTI就是这样的重要问题。

它是一对母女在读完荣格的理论之后一拍脑袋想出来的。测试方式非常原始:自己填问卷。非常不科学。(btw:我是INTP)

我想要在保证它简单易用,能流行开来的情况下,借助机器学习的力量做出能更准确分类人的测试方法。具体来说,用表征学习让机器总结出来四个维度,然后做十六个聚类。

而且神经网络就不止能读问卷了,可以读视频、音频、文字,甚至鼠标点击速度。你点进网站的那一刻,测试就开始了。

机器学习和心理学,两大伪科学强强联手。非常cool,非常fearless。

我的梦想是,之后见面大家都不问MBTI,问ANDI。

科学是科学家的墓志铭,伪科是伪科人的通行证。

本文来自网络,不代表 立场,转载请注明出处。