刷新传统认知,言语与声音并行处理

神经现实 2022-01-15 19:32


“听”,对我们来说是如此轻而易举,以至于我们难以理解大脑的听觉系统需要处理和分离多少信息。听意味着必须接收声音,并将其转化成我们所感知到的声音对象,例如朋友的说话声、狗的叫声、淅淅沥沥的雨声;必须从背景噪音中提取所需的声音;还必须确定两个人说的同一个词是否语义相同,同时区分这些声音,并评估它们的音高、音色和其他属性。


根据传统的神经加工模型,当我们听到声音时,我们的听觉系统会从其中提取简单的特征,而这些特征在后续结合为越来越复杂、抽象的表征。这一过程让大脑能够将声音(例如某人说的话)转化为音素,随后是音节,最终转化为词语。


人说话的声音会淹没在一片嘈杂的背景声音中。为了更快地识别,大脑的听觉系统似乎能在极早的时候就将言语提取出来,与其他的声音进行并行处理。

Ana Kova/Quanta Magazine


但于21年8月份发表在《细胞》期刊上的一篇论文中1,一组研究人员对该模型提出了挑战,他们报告说,听觉系统经常以并行的方式同时处理言语和其他声音。这些发现表明,大脑理解言语的方式与科学家所预期的大相径庭。来自耳朵的信号分支到不同大脑通路的时机,在整个加工过程中出乎意料地早,有时甚至还避开了一块脑区,而这一区域过去被认为是构建复杂声音表征的关键基石。


这项研究提供了一种崭新的线索,以解答大脑是怎样如此快速、有效地梳理源源不断又互相重叠的听觉刺激的。然而在此过程中,这一发现不仅是对已有的关于言语处理的理论提出质疑,它还对有关整个听觉系统是如何工作的观点提出了挑战。许多关于声音感知的普遍观点都是类比我们已知的视觉系统的计算过程。但包括关于言语的新近研究在内,越来越多的迹象暗示,听觉处理的工作原理和原先认为的层级式结构迥然相异。如此多的迹象甚至让科学家开始重新思考听觉系统各个部分的功能,以及这对我们解码丰富的背景音有何意义。


达娜·博宾格(Dana Boebinger)2说,“这项研究是一项里程碑式的工作。”她是一位未参与研究的哈佛大学的认知神经学家。虽然她还没准备好抛弃有关大脑如何处理复杂听觉信息的传统理论,但她认为新研究的结果“具有挑衅性”,因为它们暗示着“也许我们实际上并不了解正在发生的事情”。


颠覆层级结构


我们对声音感知最早期的几个阶段已经非常清楚了。当我们听到某人说话时,耳内的耳蜗将复杂的声音分为不同频谱,并通过几个阶段的处理将这种表征发送至听觉皮层。首先,信息根据声音的空间位置、音高和变化度被提取出来。而随后要发生什么就难以确定了:通常来说我们认为,更高级的皮层区域会按层次顺序,梳理出与言语确切相关的特征,例如音素、韵律等。其他复杂的声音,比如音乐,也会通过类似的方式得到处理。


这种顺序与视觉系统是如何工作的模型相呼应,视觉工作模型将光落于视网膜细胞的模式解释为,首先形成线条与边缘(或轮廓),随后是更复杂的特征和图案,最后建立起一张脸或者一个物品的表征。


- Kotryna Zukauskaite -


然而一直以来,我们很难剖析听觉信息流的细节。针对言语的研究无法通过研究动物来推进,因为说话是人类独有的特质。在人类身上,大部分研究又不得不使用间接手段来记录脑部活动。直接记录脑部活动是侵入性的,科学家需要借助医疗程序,通过即将手术的癫痫患者脑内植入的电极采集数据,这使得直接采集数据更为棘手。但是,研究人员感兴趣的许多听觉区域都位于大脑额叶和颞叶之间的深处,而外科医生一般不记录这些位置。


尽管如此,许多直接或间接研究还是发现了传统的听觉和言语加工层次模型成立的证据:在这一过程的早期断点之一,也就是初级听觉皮层,其功能似乎被调整为编码声音的简单特征,例如频率。而当信号离开初级听觉皮层时,大脑的其他区域似乎对越来越复杂的声音特征(包括言语特有的特征,例如音素)有更强的反应。到目前为止,一切顺利。


但科学家们在得出这一层级结构时,“所基于的实验不足以观察这些脑区是如何连接的”,或是脑区被激活的顺序是怎样的,德克萨斯大学奥斯汀分校的神经学家利伯蒂·汉密尔顿(Liberty Hamilton)3指出。


因此,在2014年,她开始尝试建立一张“地图”,描绘贯穿整个听觉皮层的、更为全面的言语声音表征,以了解不同脑区会从声音中提取何种信息,以及这些信息如何从一个脑区整合到另一个脑区。


她得到了一个十分难得的机会去探索这个问题:她先是在加州大学旧金山分校的神经外科医生爱德华·张(Edward Chang)4的实验室做博士后研究员,之后又在她自己在奥斯汀的实验室继续研究。在这项研究中,张、汉密尔顿和同事们集结了一批患者,这些患者的治疗需要在不同的听觉区域放置电极阵列。


包括德克萨斯大学奥斯汀分校的神经学家利伯蒂·汉密尔顿(左)和加州大学旧金山分校的神经外科医生爱德华·张(右)在内的一个研究小组厘清了听觉皮层的不同部分如何处理言语和其他声音的特征。

Courtesy of Liberty Hamilton; Tom Seawell for UCSF


观测这些区域的机会非常难得,因此他们的记录是“极其珍贵,而且令人兴奋的数据”。当时,研究人员希望能够发现大脑如何将初级听觉皮层中的低层级声音表征转化为更高层级的脑区(即颞上回)中更为复杂的言语表征,从而为已有的结论补充细节。

然而事与愿违,他们的发现“在某种程度上颠覆了这个想法”,汉密尔顿说。


通路早已分开


事情进展和预期不同的第一个迹象,很快就出现了。张的小组分析了不同听觉区域对纯音、口语单词和句子特征的反应。他们证实了之前的发现,并补充了前人关于听觉处理过程的结论所缺失的细节。


但他们也观察到了异样。如果依他们所设想,信息是按层级自“低级区域”流向“高级区域”,那么初级听觉皮层应该比颞上回更早对输入作出反应。然而,颞上回的某些区域对言语开始出现的反应似乎和初级听觉皮层对简单的声音特征(如频率)的反应速度一样快


这个现象引出了一个诱人的假设:两部分脑区并行处理同一输入的不同方面。并且汉密尔顿说,“这种言语感知的并行通路可以绕过初级听觉皮层——过去我们认为所有信息都会经过的地方这将意味着,某些言语声音表征并不需要由在初级听觉皮层中提取的低层级特征构造出来。她指出,“你会认为,在一个层级模型中,初级听觉皮层是信息到达大脑皮层语言区域前必须经过的第一站。”但她的结果却表明,真相未必如此。


- Samuel Velasco/Quanta Magazine -


张、汉密尔顿和同事们决定进一步测试这一想法。当他们刺激患者的初级听觉皮层以干扰其功能时,患者依然能够毫无阻碍地感知言语。相反,他们报告说产生了幻听:患者听到了单词或句子之外的声音,像是嗡嗡声和敲击声,亦或是流水和铲砂的声音。

而当研究者刺激颞上回的一个子区域时,他们发现了相反的现象:患者无法理解言语,却仍然可以正常清晰地听见声音。一名被试报告说,“我能听见你在说话,但听不懂你说了什么。”

汉密尔顿强调,研究团队再一次意识到,“就好像有两个互相分离的过程。”——处理声音的通路,和据推测处理言语相关的高层级特征的通路各自独立。

发现听觉皮层的并行处理过程并不完全令人意外。索菲娅•斯科特(Sophie Scott)5说,“当谈到感知系统的时候,层级结构非常美妙且简洁,因为你知道在某一层级上,一个嘈杂的信号正在转变成某种更高阶且更抽象的东西。但从没有人告诉大自然,这肯定是最简单或者最清晰的方法。”斯科特是来自伦敦大学的神经科学家,她没有参与这项研究。


只有在某些情况下,必须由分离的脑环路同时处理不同类型的听觉信息——这样才说得通。事实上,研究者已经报告了听觉过程后期阶段的并行处理功能:复杂的音乐和言语元素被分别处理——至少它们的表征形成过程有一部分是并行的。

但那些言语和声音处理过程中的分离只出现在信号通过初级听觉皮层之后。而汉密尔顿和张的研究在非常早期的处理过程中就发现了这样的分支点。如此早的分支,可能意味着在皮层下水平的脑区,而不仅仅在皮层中,信息就已经得到了整合,以表征言语声音。如果皮层下的处理过程在言语理解中扮演着如此重要的角色,那么过去研究人员可能也忽略了大脑理解复杂声音的其他重要方式。

耶路撒冷希伯来大学的神经生物学家兼埃德蒙和莉莉萨弗拉脑科学中心(the Edmond and Lily Safra Center for Brain Sciences)主任以色列·内尔肯(Israel Nelken)6指出,“这些年来,我们一次又一次地了解到,至少在某种程度上,很多我们认为属于皮层层次的东西,其实是低于皮层之下的。”


这张声谱图显示了小提琴演奏的音乐中不同的声音频率。当复杂的声音进入耳朵时,内耳的耳蜗以同样的方式传递频率信息。研究人员想知道大脑随后如何处理这些信息,来构建我们所感知到声音的表征。

Quanta Magazine


实际上,新的研究结果表明,皮层的“低”层级也可能隐藏着更大的复杂性。例如斯科特发现,非常有趣的是,刺激初级听觉皮层导致了张的小组中患者一系列五光十色的幻听。据她所说,这些幻觉通常与高层级皮质区域有关。

可见,初级听觉皮层的作用可能比它通常被认为的要大。其他最近的研究也指向了相同的结论:和初级视觉皮层对比,初级听觉皮层接收的信号已经经过了更复杂的处理,并且它以一种对情境更加敏感的方式表征信息。纽约大学的一位神经科学家大卫·波佩尔(David Poeppel)7说,“它(初级听觉皮层)在功能上比初级视觉皮层更加下游*。”


*译者注

此处“上游“指更底层、更基础的功能,而“下游“则指发端于上游,但更精细、更复杂的功能。


“更像一场雷雨”


尽管如此,波佩尔说,“我不认为我们想把层级结构完全摒弃在目前的系统中仍然有一些层级结构,并且它们对于构建更加抽象的心理表征很重要。

但是,在非常前期就脱离层次结构,并行处理言语和其他声音,可能会带来许多优势。首先,由于声音的瞬时性,听觉系统需要微秒级的精度,而并行处理可以帮助优化听觉系统的速度。博宾格指出,“所以,有了这种并行结构,你可以更快地分析言语或是其他复杂声音中的信息。此外,听觉信号本质上是混乱的:人们在说话时随时可能丢失音素或跳过单词,而且可能在不同的社会语境下以不同的方式说话。一个并行处理系统可能更擅于处理这样混乱的输入。

并行处理或许还能帮助听觉系统更高效地分离复杂、重叠的声音,并且让大脑能够在声音流中快速切换注意力。斯科特说,“多个不同类型的信息流必须在同一时间,以一种可塑性极强的方式被处理,因为听觉环境会随时变化。”鉴于言语声音对人类的重要性,我们的大脑很有必要以一种快速且使它们与背景或环境音不同的方式进行处理。


- Timo Kuilder -


此外,如果言语和组成言语的声音(如音节、音素等)在很早期就被独立处理,那么也许其他类型的声音也一样。为了找到答案,汉密尔顿和其他人希望用类型更广的听觉输入(例如环境音、音乐、在嘈杂环境而非寂静中说出的句子)来进行实验,以验证不同类型的并行处理可能在何时何地产生。


南加州大学的神经学家罗伯特·香农(Robert Shannon)8说,“我们才刚刚开始能够解构这一处理过程的组成部分。”他还补充说,也许表征不仅以递增层级或是平行路径形成,而是具有更多样的并行性和复杂性,以至于它“更像一场雷雨”。

内尔肯也提到,“关于感觉系统是如何运作的,新发现展现了一幅非常独特的图景。”


作者:Jordana Cepelewicz | 封面:Andrea De Santis

译者:阿朔 校对:兜虫、物离

编辑:Orange Soda |排版:呦呦呦尤

原文:

https://www.quantamagazine.org/the-brain-processes-speech-in-parallel-with-other-sounds-20211021


参考文献


1.Liberty S. Hamilton, Yulia Oganian, Jeffery Hall, Edward F. Chang, Parallel and distributed encoding of speech across human auditory cortex, Cell, Volume 184, Issue 18, 2021, Pages 4626-4639. e13, ISSN 0092-8674, https://doi.org/10.1016/j.cell.2021.07.019.

2.https://scholar.harvard.edu/danaboebinger/home

3.https://slhs.utexas.edu/faculty/liberty-hamilton

4.https://profiles.ucsf.edu/edward.chang

5.https://www.ucl.ac.uk/icn/people/sophie-scott

6.https://elsc.huji.ac.il/people-directory/faculty-members/israel-nelken/

7.https://wp.nyu.edu/poeppellab/david-poeppel/

8.https://keck.usc.edu/faculty-search/robert-shannon/


本文来自微信公众号“神经现实”,谢绝转载到其它平台。如需开设白名单,请在后台回复“转载”,查看转载规范。公众号改版,星标“神经现实”公众号,不错过任何一条消息。

推荐阅读