《纽约客》杂志日前撰文,通过具体事例阐述了人工智能可能在医学领域发挥的作用,甚至有望在一定程度上代替皮肤科医生和放射科医生。
以下为AI世代()编译整理的原文内容:
去年11月的一天晚上,一位54岁的女士感觉头痛难忍,于是从布朗克斯来到哥伦比亚大学医学中心的急诊室就诊。她对医生说,她的视力有些模糊,左臂感到麻木无力。医生给她做了检查,还让她做了一个头部CT扫描,
几个月后,也就是今年1月的一天早晨,一支由4位正在接受培训的放射科医生组医院三楼的一台电脑前面。那个房间没有窗户,光线很暗,只有电脑屏幕闪着微光,就像被海水过滤了一样。住院医生们挤在一个隔间里,哥伦比亚大学神经放射学主任安吉拉·里格尼利-狄普尔(AngelaLignelli-Dipple)站在后面拿着纸笔。她正在训练他们阅读CT片子。
“一旦大脑死亡变灰,就很容易诊断中风。”她说,“真正困难的在于,如何在过多的神经细胞开始死亡之前进行诊断。”中风通常是由堵塞或出血引起的,放射学家大约有45分钟的时间作出诊断,只有这样,医生才有可能介入治疗——例如,清除正在长大的凝块。“把你自己想象成急诊室医生,”里格尼利-狄普尔接着严肃地说道,“每过一分钟,大脑就有一部分死亡。时间流逝越多,大脑死亡得就越多。”
她看了一眼墙上滴答作响的钟表。“看出哪有问题了吗?”她问道。
中风通常都是非对称性。血液供给到大脑后分成左右两路,然后在两侧延伸出许多支流。凝块或出血往往只会影响其中的一路,导致大脑一侧受到影响。随着神经细胞失去血液供给,并逐渐死亡,解剖结构会变得模糊。最终,组织会收缩,留下一片干瘪的阴影。但在中风之后,那片阴影通常只能在扫描结果上停留几小时或几天,之后便会错过介入时机。“在那之前,”里格尼利-狄普尔对我说,“扫描片上只有一点线索”——这正是中风的前兆。
那位布朗克斯女士的扫描片从头骨底部一直纵切到顶部,就像从下往上切开一个西瓜。住院医生们争相查看一层层的扫描图片,就像快速翻阅书籍一样,嘴里不断冒出各种解剖结构名词:小脑、海马体、岛叶皮质、纹状体、胼胝体、心室。后来,一位不到30岁的男住院医生在一张片子前停了下来,把铅笔尖移到大脑右侧的边缘。“这里有点不协调。”他说,“边缘看起来很模糊。”在我看来,整张片子都不协调,也很模糊——完全是像素一样的效果——但他显然看出了不同寻常的地方。
“模糊?”里格尼利-狄普尔戳了戳那里,“你能再详细描述一下吗?”
那位住院医生吞吞吐吐地说出几个字,然后停了一下,好像在脑海里仔细查找解剖结构,衡量各种可能性。“就是不太一样。”他耸了耸肩,“我也不知道为什么,就是觉得看起来不对劲。”
里格尼利-狄普尔又拿出20小时后拍的第二张CT扫描片。那位住院医生说的没错,就在那个位置出现了一片直径跟葡萄差不多大肿胀区域。之后几天拍摄的一系列扫描片揭开了故事的剩余内容。那位女士的大脑出现了明显的楔形灰色区域。
就在那为女士来到急诊科后不久,神经科医生就试图用药物疏通她堵塞的血管,但她来得太晚了。第一次扫描结束后几小时,她就失去了意识,被送进ICU(重症监护室)。两个月后,那位女士仍然住在楼上的病房里,从胳膊到腿,她的整个左侧肢体都瘫痪了。
我跟着里格尼利-狄普尔走到她的办公室。我是来这里了解学习过程的,包括医生如何学习给人看病?机器学习能否给人看病?
诊疗的奥秘
我本人开始接触诊疗流程是从年秋天开始的,我当时在波士顿实习。为了做足准备,我看了一本经典的医学教科书,它把诊疗活动分成4个阶段:
第一,医生借助病人的病历和身体检查来收集关于其病情的信息。
第二,将这些信息进行整理,制作成一份潜在疾病的完整列表。
然后通过问题和初步检查帮助其加强一些假设,同时排除其他假设——这就是所谓的“鉴别诊断”。同时还要考虑某种疾病发生的概率,并参考病人的病史和风险状况。此时的列表就会收窄,由医生进提炼自己的评估结果。
最后一步就是决定性的实验室检测,利用X光或CT扫描来证实自己的假设,结束诊断。
数十年来,与之类似的诊疗流程在医学教科书中不断重复,一代又一代的医科学生的脑海里都植入了类似的规则。
但我很快发现,真正的诊断艺术并非如此简单。我在医学院的指导医师是个优雅的新英格兰人,他的皮鞋擦得锃亮,口音也很明显。他为自己是一名诊断专家而自豪不已。他首先会让自己的病人展示一下症状——就拿咳嗽为例——然后靠在椅子上,说出几个形容词。他可能说“刺耳而尖细”,也可能说“低沉而发颤”,仿佛是在品尝红酒。在我看来,所有的咳嗽听起来几乎都一样,但我还是会随声附和,“没错,刺耳”——就像在冒充行家品尝红酒一样。
那位擅长对咳嗽分门别类的医生很快就会缩小诊断范围。他可能会说,“听起来像肺炎。”也可能说:“似乎有充血性心力衰竭的罗音。”他之后会询问很多问题。例如,病人最近是否体重增加?有没有暴露在石棉环境中?他还会让病人再咳嗽几次,然后用听诊器仔细倾听。根据具体的结果,他可能会给出另外几种可能,感觉就像在加强或削弱之前的假设。之后,他会像路边变戏法的一样给出自己的诊断——“心力衰竭!”——然后要求病人通过检查来确定诊断是否正确。通常情况下,他的诊断都准确无误。
几年前,巴西的研究人员对放射科医生的大脑进行研究,希望了解他们是如何得出诊断结论。这些经验丰富的诊断专家是否会利用思维里的“规则手册”来判断图像,还是借助“模式识别或非分析性推理?”
他们让25名放射科医生评估一些肺部X光片,同时利用磁共振追踪他们的大脑活动。(这其中产生了一个绝妙的递归:诊断诊断过程,给拍片医生拍片。)X光片呈现在他们面前,其中一组包含常见的病变——可能是手掌形的肺炎阴影,也可能是肺内层的累积的不透明液体。第二组诊疗图片则是动物轮廓,第三组是字母轮廓。
放射科医生会随机看到这三种图片,然后尽快判断病变、动物或字母名称,同时用核磁共振仪追踪他们的大脑活动。放射科医生平均需要1.33秒得出诊断结论。在全部3种情况下,大脑点亮的区域都完全相同:一片是靠近左耳的神经元三角区,另一片是颅骨后底上方的一片蛾形带状区。
“我们的研究结果支持了一种假设:当医生迅速识别一种特征或病变时,过程与识别日常生活中的东西相同。”研究人员总结道。识别损伤的过程与识别动物相同。当你识别犀牛时,并不会考虑和排除其他动物,不会在内心把独角兽、犰狳和小象融为一体。你是把犀牛作为一个整体来识别,也就是一种模式。放射科医生同样如此。他们没有思考、回忆和区分的过程,只是看到了普通的物体。我的指导医生同样如此,在他看来,辨别那些罗音就像在听自己熟悉的叮当声。
知其然,还要知其所以然
年,英国心理学家基尔伯特·赖尔(GilbertRyle)针对两种知识发表了一场影响深远的报告。一个孩子知道自行车有两个轮,知道轮胎里充满空气,也知道可以通过一圈圈地踩踏踏板来推动这个奇妙的装置前进。赖尔将这种关于事实的命题性知识称作“知其然”(knowingthat)。但要学会骑自行车,则需要掌握另外一些知识。孩子需要通过摔跤、保持两轮平衡和反复穿过坑洼来学会骑车。赖尔将这种通过经验获得的隐晦的技能性知识称作“知其所以然”(knowinghow)。
这两种知识似乎相互依赖:你可能会使用事实性知识加深经验性知识,反之亦然。但赖尔警告称,不应把“知其所以然”简化成“知其然”——儿童不可能通过看书学会骑自行车。他宣称,我们的使用为规则赋予了意义。“规则就像小鸟,必须在先活下来才能被喂饱。”
一天下午,我看到我7岁的女儿准备骑自行车穿过一个小山坡。她第一次在坡度最陡的地方停下来摔倒。第二次则俯身向前,一开始幅度很小,后来越来越明显,然后随着坡度的减小把重心后移。但我并没有教给她骑车穿过山坡的规则。我猜,当她的女儿学习爬坡时,她也不会向其传授规则。我们只会向后代传递关于宇宙的一般规则,剩余的部分都交给大脑来解决。
在里格尼利-狄普尔给放射科医生上的那堂培训课结束后,我跟斯蒂芬·海德(SteffenHaider)聊了一次,他就是那个通过CT扫描片看出早期中风迹象的年轻人。他是怎么找出早期损伤的?这究竟是“知其然”还是“知其所以然”?他一开始跟我说了一些自己学习的规则。他知道中风往往位于一侧,会导致组织出现轻微“灰化”;组织往往还会出现轻微肿胀,导致解剖学边界消失。“大脑里有些地方的供血很容易出问题。”他说。为了找到损伤,他必须在大脑两侧不对称的地方搜索这些信号。
我提醒道,他当时查看的扫描图像中有很多被他忽略的不对称之处。与多数扫描片一样,那些片子也在左侧显示出一些右侧没有的灰色曲线——可能是人体运动造成的,可能是偶然,也有可能是那位妇女中风的前兆。他是如何将重点缩小到那片区域的?他停顿了一下,认真思考了一会儿说:“我不知道——应该跟潜意识有关。”他最终说道。
“作为放射科医生,在你成长和学习的过程中,就形成这种潜意识。”里格尼利-狄普尔对我说。问题在于,机器能否以同样的方式“成长和学习”。
AI大咖特龙出手
计算机学家塞巴斯蒂安·特龙
年1月,计算机学家塞巴斯蒂安·特龙(SebastianThrun)被医疗诊断难题深深吸引。特龙在德国长大,身材消瘦,留着光头,给人一种风趣幽默的感觉,有点像米歇尔·福柯(MichelFoucault)和憨豆先生的合体。他原先是斯坦福大学的教授,负责该校的人工智能实验室,后来离职创办了GoogleX,领导自学机器人和无人驾驶汽车项目。但他发现自己拥有学习能力的医疗设备很感兴趣。他的母亲49岁时死于乳腺癌——这种是特龙现在的年纪。
“多数癌症患者起初都没有症状。”他对我说,“我母亲也没有。等到她去看医生时,癌细胞已经转移。我真希望能在早期检查出癌细胞——那时还可以用手术刀将其切除。于是我一直在思考,机器学习算法能否帮上忙?”
自动诊断方面的早期尝试通常与教科书里的显性知识密切关联。以心电图为例,它可以将心脏的电活动以线条形式体现在纸张或屏幕上。过去20年,计算机解读往往会成为这些系统的一项功能。能够从事这项工作的程序往往非常直接,将特征波形与多种情况关联起来——心房颤动或血管堵塞——并将识别这些波形的规则输入系统。当机器识别出模式后,便可将符合条件的心跳标记为“心房颤动”。
在乳房X光成像领域,“计算机辅助诊断”同样也很常见。模式识别软件负责标记可疑区域,然后由放射科医生进行复查。但识别软件往往会使用基于规则的系统来识别可疑病变。这些程序没有内在的学习机制:看过张X光片的机器并不比只看过4张X光片的机器更聪明。
年的一项研究凸显了这一问题,当时的研究将实施计算机辅助技术前后的乳房X光成像的准确度进行了对比。有人或许认为,部署这项技术后的诊断准确性会大幅提升。但实际上,这些设备的影响很复杂。在计算机辅助诊断组的活体检查准确率上升,但肿瘤学家最希望检测到的小型浸润性乳腺癌准确率却有所降低。(后来的研究甚至发现存在假阳性问题。)
特伦相信,只要放弃基于规则的算法,转而使用基于学习的算法,便可超越第一代诊断设备。换句话说,就是将机器诊断方式从“知其然”变成“知其所以然”。逐渐地,特龙开发的学习算法开始使用“神经网络”这种计算策略——之所以叫神经网络,是因为它的灵感来自于大脑的模型。在大脑中,神经突触会通过反复的活动进行强化和弱化。这些数字系统希望通过数学模式来完成类似的目的,通过调整连接的“权重”来达到理想的输出结果。更强大的系统还拥有类似于神经的算法,每一层都会处理输入的数据,然后将结果发送给下一个层。因此就形成了“深度学习”。
特龙首先从皮肤癌开始,具体来说就是角化细胞癌(这是美国最常见的一种癌症)和黑色素瘤(皮肤癌中最危险的一种)。机器能否学会通过扫描图像将皮肤癌与良性的皮肤问题————痤疮、皮疹或胎记——区分开来?“如果皮肤科医生能够做到,那么机器应该也能做好。”特龙推测道,“机器甚至可能做得更好。”
以往,与其他医科学生一样,皮肤病学关于黑色素瘤的教学都是从一套便于记忆的规则开始:黑色素瘤通常不对称(asymmetrical,简称A);边缘(border,简称B)不均匀;颜色(color,简称C)不一致且有杂色;直径(diameter,简称D)往往大于6毫米。但当特龙从医学教科书和网上查找黑色素瘤的样本时,却发现这些规则在某些情况下完全不适用。
特龙仍在斯坦福大学担任兼职教授,所以他找了两名学生帮助他开展研究,他们分别是安德烈·艾斯特瓦(AndreEsteva)和布雷特·库普利尔(BrettKuprel)。他们的第一项任务就是开发所谓的“教学计划”:这其实是一组用于教给机器识别恶性肿瘤的庞大图形库。
艾斯特瓦和库普利尔在网上搜索后发现了18个由皮肤科医生分类的皮肤病变图形库。其中,总共约有13万张关于痤疮、皮疹、虫咬、过敏反应和癌症的图片,都被分门别类归入近种疾病。值得注意的是,还有个病变的数据集已经由病理学家进行过活体检查,因而基本可以确诊。
艾斯特瓦和库普利尔开始对系统进行训练。他们并没有编制任何规则,也没有教给系统任何“ABCD”。相反,他们只是向神经网络展示图片和诊断归类。我向特龙请教了这种网络的工作模式。
“试想,如果让一个传统程序去识别一只狗,”他说,“软件工程师需要写个‘if-then-else’语句:if有耳朵,有鼻子,有毛发,而且不是老鼠……诸如此类,不胜枚举。但小孩肯定不是这么认识狗这种动物的。他们起初会通过观察狗来学习,然后大人会告诉他们这就是狗。他们可能会犯错,但却会自我纠正。他们可能把狼错当成狗——但大人会告诉他们这其实是两种不同的动物。所以他们会逐步改变自己的认知:这是狗,那是狼。机器学习算法就像小孩一样从训练集中提取经过归类的信息。这是狗,那不是狗。它之后便可从一个数据集中提取特征。针对成千上万种经过归类的图片进行自测后,便可形成自己识别狗的方式——这同样跟小孩一样。”这样一来,它就能“知其所以然”。
年6月,特龙的团队开始通过一个“验证集”(已经由皮肤科医生诊断过的1.4万张图片,但未必进行过活体检测)测试机器的“本领”。这套系统能否把图像正确归类为良性病变、恶性病变和非癌性生长?系统的准确率达到72%。(该系统的输出结果并不是简单的“是”或“否”,而是给出某种病变可能属于某种类别的概率。)而两位同步接受测试的执业皮肤科医生表现略差:他们的正确率只有66%。
特龙、艾斯特瓦、库普利尔之后扩大了研究范围,纳入了25位皮肤科医生,而且使用了一套黄金标准测试集:其中大约包含张经过活体检测的图像。几乎在每次测试中,机器都比医生更加敏感:它忽略黑色素瘤的概率更低。机器也比人更加明确:它把其他东西误诊为黑色素瘤的概率更低。“在每次测试中,神经网络的表现都超过专业皮肤病医生。”该团队在《自然》杂志上发表的论文中写道。
“关于这套神经网络,还有一件十分重要的事情没有在论文中完全体现出来。”特龙对我说。他和他的团队最早使用的是一套完全“白纸一张”的神经网络。但他们发现,如果提前对神经网络进行训练,使之可以识别一些不相关的特征(例如,区分出猫和狗),便可实现更快、更好的效果。或许我们的大脑也采用类似的工作模式。因式分解、同源动词、元素周期表那些在高中时接受的各种练习虽然让人感觉思维麻木,但实际效果可能恰恰相反:它能让我们的思维更加敏锐。
在教育机器时,该团队必须小心处理图像。特龙希望人们有朝一日只需要用智能手机拍下自己担心的病变图片,即可完成诊断。这就意味着系统需要适应多变的角度和光线环境。但他回忆道,“在某些情况下,黑色素瘤已经被黄圈标记过。我们必须将其裁剪出来——否则电脑可能会把黄圈当成癌症的标记。”
这是个古老的难题:一个世纪前,德国公众被CleverHans迷住了,据说那匹马懂得加减法,而且能够通过敲击马蹄给出答案。但实际上,CleverHans只是感受了驯马师的举止。当马蹄声接近正确答案时,驯马师的表情和举止就会放松下来。这种动物的神经网络并没有学过算数,但却懂得判断人类的肢体语言。“这就是神经网络的神奇之处。”特龙说,“你无法判断它们在识别什么信息,就像黑盒子一样,内部的运作方式是个谜。”
“黑盒子问题”是深度学习领域所特有的。引导这套系统的并不是明确的医学知识和一系列诊断规则,它只是凭借大量的内部调整自学了如何区分痣和黑色素瘤,这种调整过程类似于大脑中突触连接的强化和弱化过程。它究竟是如何判断某个病变是黑色素瘤的?我们不得而知,它也不会告诉我们。
所有的内部调整和处理过程都都不受我们的监督。我们的大脑同样如此。当你骑自行车缓慢转弯时,身体会向相反的方向倾斜。我的女儿也会这么做,但她并不知道自己这么做了。黑色素瘤机器必须从图像中提取特定的特征。如果它不能告诉我们具体的特征,是否会有什么影响呢?这就像是微笑的知识之神。遇到这样的机器,你就能窥见动物对人类思维的认知:无所不知,但却无法解释。
特龙兴高采烈地设想了这样一个世界:我们时刻处于处于诊断性监控之中。我们的手机会通过语音模式的变化诊断阿尔兹海默症。方向盘则会通过轻微的犹豫和颤抖了解帕金森症的早期迹象。浴缸甚至也能在你沐浴时通过无害的超声波或磁共振进行连续扫描,由此判断卵巢是否出现了新的紊乱。大数据将会观察、记录和评估你的状况:我们可以逐步掌握更多算法。要进入特龙这个“浴缸和方向盘的世界”,就要进入由诊断镜组成的大厅,每一面镜子都需要更多的检测。
这番愿景的确有着不俗的诱惑力。这样一个时刻对我们展开细致扫描的医疗监狱每天都能详细对比各种医学影像,这或许可以帮助我们在第一时间诊断出癌症?这能否在癌症诊断方面取得突破?听起来似乎非常激动人心,但却有一个问题:很多癌症都是自限性的。我们会与之共同死去,而不是因为它们而死去。如果一个沉浸式的诊断引擎引发了数以百万没有必要的活体检验,该怎么办?在很多情况下,医学领域的早期诊断都能挽救或延长生命。但也有一些情况可能延长你的焦虑时间,但却不会延长生命。很难判断你究竟希望在多大程度上了解自己的病情。
“我很希望加强人类的能力。”在被问及这种系统对人类疾病诊断产生何种影响时,特龙说道,“瞧,工业化种植导致某种耕作方式消失了吗?的确,但却加强了我们的农产品种植能力。并非百利无一害,但的确让我们养活了更多人。工业革命加强了人类的肌肉。当你使用手机时,你的语音能力得以加强。你在纽约大喊一声,加州的人不可能听得到。”特龙和我当时的通话其实就远隔万里,“而且,尽管你手上的长方形设备让人类的声音可以传播0英里,可是手机真的能取代人声吗?不能,手机是放大设备。认知革命也能以同样的方式扩大人类的能力。就像机器将人类的肌肉力量增强了千倍一样,机器也可以让人类的脑力增强千倍。”
特龙坚称,这些深度学习设备不会取代皮肤科和放射科医生,他们可以增强专业人士的能力,为他们提供专业知识和辅助。
“机器学习之父”力挺
在谈到机器学习在临床医学中发挥的作用时,多伦多大学计算机科学家杰弗里·辛顿(GeoffreyHinton)显得更加直接。辛顿的曾祖父乔治·布尔(GeorgeBoole),他发明的布尔代数是数字计算的基石,而辛顿有时也被人称作“深度学习之父”。他从年代中期就开始研究这一课题,他的很多学生都成为该领域当今的泰斗级人物。
多伦多大学计算机科学家杰弗里·辛顿
“我认为,如果你是一名放射科医生,那你的处境就像动画片里的WileE.Coyote。”辛顿对我说,“你已经跑过了悬崖的边界,但你还没有向下看,下面其实已经没有路了。”商业领域已经针对胸部和心脏成像开发了深度学习系统。“5年之内,机器学习明显可以超过放射科医生。”他接着说,“可能是10年。医院里说过这番话,但并没有获得广泛认同。”
医院的那番讲话很直率:“他们不应该再训练放射科医生了。”当我向安吉拉·里格尼利-狄普尔提出这个挑战时,她指出,诊断型放射科医生的任务不只是判断“是否”。他们不仅要寻找导致中风的栓塞,还要注意到其他地方的小出血状况,这有可能因为误用溶栓药物引发灾难性后果。他们其实是在寻找一个意料之外甚至可能尚未出现症状的肿瘤。
辛顿现在确实有挑衅的资格。“放射科医生的职责将从感知任务——受过严格训练的鸽子或许也能完成这样的任务——转向更多的认知任务。”他对我说。他对自动化医疗的未来预测基于一个简单的原理:“任何涉及大量数据的传统归类问题都可以由深度学习来解决。今后将出现数以千计的深度学习应用。”他希望利用学习算法来阅读各种X光、CT扫描和核磁共振成像——这只是他所设想的近期前景。他表示,未来,“学习算法还可以进行病理诊断。”它们或许可以阅读子宫颈磨片检查结果、听诊心音,甚至预测精神病患者的复发。
我们探讨了黑盒子问题。尽管计算机科学家都在研究这个问题,但辛顿承认,要打开黑盒子、了解这些强大的学习系统究竟掌握了哪些知识以及它们掌握知识的方式,的确“是不容忽视的挑战——无论谁告诉你这无关紧要,都不要相信他们。”不过,他还是认为,我们可以适应这个问题。“如果让一个棒球运动员和物理学家比赛,看谁能更精确地判断球的落地点。”他说,“棒球运动员扔球的次数超过百万,虽然他可能完全不了解任何方程式,但却非常清楚球抛出的高度、速度以及落地点。物理学家可能写一个方程式来计算相同的事情。但最终,双方得到的结果可能相同。”
我提到了前几代计算机辅助检测和诊断技术在乳房X光成像领域的失望结果。辛顿承认,任何新系统都需要通过严格的临床评估。但他强调称,新的智能系统可以从错误中吸取教训,然后随着时间的推移逐步改进。“我们可以开发一套能够从所有错误——一名病人最终可能患上肺癌——中吸取教训的系统,然后反馈给机器。我们可以问,你错过了什么?你能改进诊断效果吗?人类放射科医生没有这样的系统。如果你错过了什么,病人5年之后患上癌症,没有一套系统化的方式告诉你该如何自我纠正。但你可以开发一套系统来教给计算机实现这一点。”
一些最具野心的机器学习诊疗算法希望将自然语言处理(使之可以阅读病人的病例)和来自教科书、期刊及数据库的全面的医学知识整合起来。IBM的沃森健康(WatsonHealth)和谷歌的DeepMind都希望创造这种全面的系统。我看过其中一些系统的演示,但很多功能仍处在开发阶段,尤其是深度学习组件。
辛顿之所以对深度学习诊疗技术的未来充满激情,一定程度上源自他本人的经历。在他开发这类算法的过程中,他的妻子被确诊为胰腺癌晚期。他的儿子也被诊断为恶性黑色素瘤,但后来的活体检查显示,这个病变只是基底细胞癌,严重程度远低于黑色素瘤。“这一领域还有很多需要学习的东西。”辛顿轻轻叹了口气说,“早期的精确诊断绝对不是不重要的事情。我们可以做得更好,为什么不让机器帮忙呢?”
人类医生的真正意义
3月的一个寒冷的清晨,就在采访完特龙和辛顿后没几天,我来到了位于曼哈顿51街的哥伦比亚大学皮肤病诊所。主治医生林赛·博尔多纳(LindseyBordone)那天计划看49个病人。到了10点,候诊室里挤满了人。一位大约60岁留着胡须的男子坐在角落里,用羊毛围巾盖着脖子。还有一对焦急的夫妻在缩在一起翻阅着《时代》周刊。
博尔多纳看到她的病人接连不断地赶到。在一间亮着荧光灯的后屋里,一位护士坐在电脑前,给出了一句结论:“55岁,没有病史,皮肤上有新的疑点”——随后,博尔多纳冲进检查室,她的金发在身后飘扬。
一位30多岁的年轻男子脸上长了红色鳞片皮疹。当博尔多纳给他做检查时,他的皮肤掉下一块,落到他的鼻子上。博尔多纳把他拉到灯光下仔细查看皮肤,然后用手持皮肤镜仔细检查。
“你头上有头皮屑吗?”她问道。
那位男子看起来很疑惑。“当然有。”他说。
“好的,这是脸上的头皮屑。”博尔多纳对他说,“情况很糟糕,但问题在于为什么会现在出现这种状况,又为什么会恶化。你在头发上用过什么新产品吗?你的家庭有什么特别的压力吗?”
“肯定有压力。”他说。他最近失业了,还要应对财务问题。
“坚持写日记。”她建议,“这样我们就能判断二者是否有联系。”她开了一个类固醇面霜处方,让他一个月后再来。
在隔壁的房间里有一个年轻的律师助理,他的头皮上起了一片发痒的疙瘩。当博尔多纳触摸他的头皮时,他闪躲了一下。“脂溢性皮炎。”她说道,就这样结束了检查。
另外一个房间里的女士已经脱下衣服,换上了病号服。她之前曾经被诊断为黑色素瘤,所以特地来进行预防性检查。博尔多纳仔细地检查她的皮肤,一个斑点接着一个斑点。她花了大约20分钟,但却非常彻底而全面,她用手指划过那片病变的皮肤后,给出了诊断结果。这是痣和角质物,但不是黑色素瘤或癌症。
“看起来还好。”她最后高兴地说道。那位女士也松了一口气。
诊疗仍在进行:博尔多纳不断接诊病人,不断给出诊断结果。如果说辛顿像郊狼,她更像是一只狂躁的走鹃,片刻不停地接诊着患者。当她在后屋里记笔记时,我跟她提起了特龙关于诊疗的愿景:用iPhone拍一张照片,然后上传到强大的远程网络,利用可靠但却无法理解的专业知识进行诊断。像博尔多纳这样的全职皮肤科医生一生大约能看20万个病例。斯坦福大学的机器学习算法3个月的时间就看了大约13万个病例。新上任的皮肤科住院医生却要从零开始,而特龙的算法却可以不断消化吸收,不断成长学习。
博尔多纳耸了耸肩说。“如果能更加准确地帮我制定决策,我很欢迎。”她说,“有的病人来之前会拍张皮肤病变部位的照片,这样就能增加我诊所的覆盖范围。”
这番回复听起来似乎很合理,我也记得特龙关于增强人类能力的观点。但随着机器学习掌握的知识越来越多,人类学习的知识是否会不断减少?很多父母都怀有这样的担忧:他们的孩子都会使用手机上的拼写检查功能:万一孩子因此不再学习拼写怎么办?这种现象被称作“自动化偏见”。当汽车拥有自动驾驶辅助功能后,驾驶员的警觉性可能降低,医疗领域可能也会发生类似的事情。
博尔多纳或许是这个时代的约翰·亨利(JohnHenry),凭借一己之力只身对抗即将进入网络世界的“蒸汽钻头”。但我无法忘记她工作时认真的样子,她始终集中精力,认真地查看每一处病情。如果跟机器合作,她的这种状态还会继续下去吗?
我还注意到博尔多纳与病人的互动方式。一方面,病人们离开时的心情几乎都会好转。他们得到了医生的触摸和诊察,还与之进行了对话。就连“痣”和“角化病”这些病变名称也成为了心灵的软化剂:让他们对诊疗过程深感安心。那位接受了皮肤检查的女士离开时感觉容光焕发,毫无负担,脸上的焦虑一扫而光。
此外还有很多。巴西研究人员或许已经猜到了,博尔多纳能在一瞬间给出诊断。当她说出“脂溢性皮炎”或“湿疹”等词汇时,感觉就像在识别一头犀牛:当她识别出这种模式时,你几乎总能看到她大脑的下后方椎体神经元发光。但这趟行程并没有就此结束。几乎在每次诊疗过程中,博尔多纳都会花很多时间调查病因。为什么会出现这些症状?是因为压力还是新的洗发水?是不是有人改变了泳池里的含氯量?为什么现在出现病变?
我意识到,这些门诊谈话中最有用的部分既不是“知其然”也不是“知其所以然”——并不是掌握病例的状况,或者理解病例形成的模式——而是涉及第三种知识:知其根源(knowingwhy)。
整体认知:医疗的终极回报
解释可深可浅。如果你手指上有个红色水泡,可能是因为你被热铁烫了一下,也可能是因为烫伤激发了前列腺和细胞因子的炎症级联反应,后者的具体过程仍然未被完全揭开。了解和询问原因是获得各种解释的渠道,而解释正逐渐掌控医学的进步。辛顿提到过棒球运动员和物理学家,无论是人工智能还是人类医生,诊断者都相当于棒球运动员,他们业务熟练,但并不透明。医学研究者相当于物理学家,他们并不参与临床诊断,正如理论家并不参与棒球比赛一样,但这些人都渴望知道“为什么”。这是一种实用的职责分工,但这或许也会带来损失?
“深度学习系统没有任何解释力。”辛顿直截了当地说。黑箱不能调查原因。事实上,他说:“深度学习系统越强大,就越不透明。随着提取出的特征越多,诊断精度就会加强。然而,这些特征为什么会从数以百万的其他特征中提取出来,仍然是个未解之谜。”算法可以解决案例,但却不能创建案例。
但在我自己的肿瘤学领域,我还是不禁注意到,如果熟练的职业医生同时也是喜爱钻研的研究人员,往往就能推动医疗技术的进步。事实上,过去几十年间,有抱负的医生曾经希望努力成为棒球运动员和物理学家合二为一的角色:他们试图用诊断中培养起来的敏锐来理解疾病的病理。
为什么可以通过皮肤病变的不对称边缘预测黑色素瘤?为什么有些黑色素瘤会自然消退?为什么有的病例中会出现白色斑块?碰巧的是,诊断专家在临床中观察到的这些现象,最终与如今临床上使用的一些最有效的免疫药物的发明联起来。(原来,皮肤变白是免疫反应的结果,这种反应也可以对抗黑色素瘤)。这一连串的发现源自临床。如果越来越多的临床实践被越来越不透明的人工智能系统取代,如果隐性和显性知识(知其然、知其所以然、知其根源)之间自发形成的密切关系开始消退,是否就会引发这样一种状况:我们可以把能做的事情做得更好,但却越来越不擅长重新审视我们应该做的事情,越来越不擅长跳出算法的黑盒子进行思考?
我跟哥伦比亚大学皮肤病学系主任大卫·比克斯(DavidBickers)交流过自动化的愿景。“相信我,我已经试着去理解特龙论文的所有分支知识,”他说,“我不明白这些算法使用的数学原理,但我确实知道这种算法或许能改变皮肤科的实践方式。皮肤科医生会失业吗?我不这么认为,但我认为确实应该认真思考如何把这些技术融入实践过程中。使用机器的代价是什么?如果机器预测错误,需要承担什么法律责任?如果依靠这样的算法,是否会有损我们的实践,或者损害诊断专家自己的形象?我们最终是否会训练出一批技术人员,而不再是医生?”
他看了看表。有个病人正等他,他要走了。“我这辈子都是诊断医生和科学家。”他说,“我知道病人多么依赖我分辨恶性病变与良性病变的能力,我也知道医学知识都源自诊断。”
他提醒我,“诊断”这个词来自希腊语,意思是“知其区别”(knowingapart)。机器学习算法只是更擅于知道这类区别:比如,区分和辨别痣和黑色素瘤。但是无论从哪个维度来看,博学(knowing)都胜过那些专注于解决具体任务的算法。在医学领域,最终的回报或许来自于“整体认知”(knowingtogether)。(编译/长歌)
预览时标签不可点收录于话题#个上一篇下一篇