技术人文 | 别总说关爱聋人,这明明是我们的感恩节~

小米云技术 2022-09-23 14:24

拔了牙没办法说话,但你必须和别人交流,怎么办?
做了飞秒手术睁不开眼,又及时回复消息,怎么办?
戴降噪耳塞睡觉,但又害怕听不到人敲门,怎么办?
有人可能会说,将就一下吧,又不是非得立刻回应,别太卷了。可这些“困扰”累积起来就是听障人士的常态——他们的每一天都处于沟通的困境。

为了发掘并解决这些“常态”,小米的产品同学“混迹”于用户反馈群,也是在这个过程中,我们发现以往无障碍工作把太多的注意力放在了视障用户的读屏适配,即让页面上的内容可以被读屏软件朗读出来,却忽略了将听不到的声音呈现给听障用户看。

图片 小米视觉无障碍支持界面

在智能手机诞生后的许多年,听障者与健听者间,只能用语音转文字+打字或写字,实现面对面的交流,虽然勉强够用,但效率实在是不高,为什么不能把语音转文字和文字转语音整合到同一个产品中呢?

2019年,小米无障碍团队率先发布了小米闻声——一款可以实现文字语音互转的系统软件。

事实上,它不仅解决了听障者的交流需求,也适用于每个人暂时不便听说的场景,比如在嘈杂的地铁上,想看直播但是又忘了带耳机,只要打开小米闻声左下角的悬浮窗,开启系统内录,小米闻声就可以帮你实时加字幕。如果你要去拔牙,也可以把要对医生说的话添加到快捷回复里,在你张着嘴的时候,一键表达诉求。

图片 小米闻声的使用界面 左侧:对话模式 右侧:字幕模式

目前有很多听障伙伴在从事外卖和网约车的工作:“平台一般要求到了以后电话通知,或者和客户确认放在哪,我们没办法打电话只能发短信,但现在的人根本不看短信……”。这让很多听障外卖员的送单效率大受影响。

在得知这个情况后,小爱通话增加了“主动呼出”和“手动对话”,并且全面收集了一轮听障用户的需求,“几乎所有不方便听说场景的需求都收集了,一来发现其实无障碍没那么难,二来发现这个功能,障碍者能用,普通人各种不方便的场景也就都搞得定了”。小爱通话团队的同学对此感到欣喜(也因此丧失了部分迭代的乐趣)。

图片 小爱通话的使用界面

随着小米闻声、小爱通话的开发,越来越多产品团队开始从“减少障碍”的角度去思考功能和交互设计,比如在同声传译的界面设计上,将屏幕切分为二,用户可以根据两个人是面对面还是在同一侧,选择屏幕界面的设置。

图片 小爱翻译 对向显示的使用界面

01 

声音不止“语言”,还有很多别的......


在小米闻声和小爱通话之后,新的用户需求也驱使我们进行新的思考——生活中不是只有语言才承载信息,还有很多信息来自于环境中非语言的声音

想像一下,当你在屋中小憩,没有听到开门或是脚步声,耳边却突然传来陌生人的一句“你好”,是否会感到恐惧?这是因为“开门”、“脚步”等来自环境中的非语言信息,其实提前给了我们预期和警觉,这也是我们感知环境的重要依据。

所以仅有文本信息是不完整的,也会让人感到不安——比如晚上你关了助听器和耳蜗,家里的警报声或孩子的哭声就完全听不到了。那环境里特定的声音能否被机器识别呢

无障碍产品经理柳青和技术向善团队的朱汐,带着这个问题在小米公司开启了“技术狩猎”,2020年小米第一届“黑客马拉松”举办,朱汐想和小米AI实验室的语音技术团队一起,把一个知道了很久但短期看来产品化无望的“构音障碍者语音识别准确率”问题先尝试解决一下。

图片 朱汐与语音技术团队成员

沟通中才发现,原来小米在语音技术领域已经储备了相当多的能力,但因为有些技术过于超前,在生态内可应用的场景不多,所以仅仅做了一些demo,发了一些论文,而环境音识别技术就在其中。需求和技术一拍即合,2021年2月,环境音识别正式立项,计划成为小米闻声的功能之一。

02 

再好的技术,“用得上”才有生命力


对语音技术团队的伙伴们来说,环境音并不陌生,团队骨干翰林在学生时代就已经在声音事件检测(sound event detection)方向深耕。但在他对接到听障者需求之前,一直苦于没有案例验证,并不知道环境音识别到底要用在哪里,而自己在论文中论证的“技术提升”,也迟迟无法呈现给受众。听障用户的需求,给翰林提供了一个验证路径。

从技术储备到实际应用有漫长的路要走,首先为了保证识别的准确性,翰林需要确保模型训练时使用的标注数据是多元的,他使用了开源数据库进行模型训练,因为这些数据包含由多种设备录制的声音,能够提升模型在不同设备上的兼容性,后又添加本地数据进一步提升精准度。

为验证唤醒的准确率,翰林以及另两名团队骨干,志勇永庆开启了“环境音狩猎”,如果当时你走过语音组的工位,可能会看到这样的情景:几个人围在一个手机旁,一边屏气凝神看屏幕,一边敲击桌面如痴如狂,如果你正好去饮水机接水,他们会盯着你和手上的手机,因为这正是观察水流声唤醒的绝佳时机…

图片 环境音识别的提示

就这样,一个可用的模型被逐渐“打磨”出来,接下来还需要给模型搭建适配的引擎,并对模型进行优化,减少功耗和内存,才能让技术落地到用户的终端。志勇和永庆使用了自研的“万能组件”Soil来支持引擎推理,可当时soil并不支持环境音识别的模型结构,优化组额外用了一些时间去开发Soil组件以支持小米闻声,也为之后环境音识别在更多平台运行提供了经验。

从翰林开始搭建、训练算法,到志勇、永庆给算法加上引擎,这期间其实不过三个月,大家都拿出了自己的“看家本领”,因为工程师们始终认为,能在生活中被用户用上的技术,才有了真正的生命。

2021年9月24日,环境音上线,目前已支持火警、婴儿啼哭、敲门、门铃等9种声音的识别。当这个技术在去年的聋人节发布后,内部各种基于环境音检测的需求都涌向了语音组:“咱是不是还能试试检测别的声音?”大家不无好奇。答案是,当然可以。

  • 如何开启环境音识别:
    “设置-更多设置-无障碍-听觉-小米闻声-设置-环境音识别”
图片 环境音识别功能展示

03

无障碍,让我们看得更远,想得更透


在环境音上线之后,我们收到了很多用户的好评,大家说“这个功能很实用”“放心了很多”。但与此同时,我们也一直在持续思考环境音更多的可能性。

图片 环境音识别上线后的用户评价

现在环境音识通知已经与手环打通,在手机检测到目标声音后,手环会震动通知,如“周围有敲门声”使用运动健康app链接后,开启镜像手机通知,即可收到通知)。而环境音在摄像头与小爱音箱上的应用也在逐步落地,覆盖生活中有需要的场景,比如,当家中的摄像头检测到婴儿啼哭,我们也能在手机上收到提醒。


随着应用的扩展,技术同学们开始往更深一步思考:既然都是检测到特定声音后,触发下一步行动,那其实这和语音唤醒(KWS)技术的逻辑相当类似。只不过,环境音识别是一个“百类分类模型”,即基于目标环境音类别都能给予“有”或者“没有”的反馈,而小爱同学的唤醒是“二分类模型”,即只对“小爱同学”这个唤醒词进行反馈。这两件事完全可以使用一个模型来解决,甚至还能相辅相成。


如果能把环境音识别与小爱唤醒的模型合并,一方面,针对小爱的唤醒场景,能对无效唤醒语料进行细分,这样机器可以更确信该声音确实不是唤醒词;另一方面,可以增加唤醒场景的应用可能,比如说当唤醒小爱同学时,它可以根据环境音中是否有那几个特定的触发因素,来推断用户大概处于什么场合,提供更合适的回应。(该功能尚处预研阶段,未上线)

为此,语音技术团队开始尝试“啮合”环境音识别模型与小爱唤醒模型,经研究及大量实验发现,两个模型的合并是完全可行的,我们在百类环境音的基础上添加了对小爱唤醒的支持。

这项创新的成果已申请发明专利,并在2022年的语音技术顶会Interspeech上进行了发表。评审意见说,无论是从科技还是实际应用的角度来说,这都是个值得关注的命题。虽然目前环境音与小爱唤醒仍然是独立存在的服务,但这个跨通的路径已被验证可行,我们也将进一步探索它落地的可能性。

图片 统一环境音识别与小爱唤醒的处理演示

洋洋洒洒说到这,终于要切回正题:9月25日是今年的国际聋人日,我们想用这一篇小文,回顾这一年来小米在听说支持上取得的小小进展与思考。上半年我们发布了语音合成方向的声音配型捐赠项目,声音识别方向上也没偷懒。

“关爱”不应该只是一场特定日子的狂欢我们努力将“包容”融入工作的细节,但借着这个日子,我们想对小米闻声、小爱通话的用户们表达感谢,感谢大家一如既往积极地试用新功能,持续反馈和建议,让我们及时发现产品或技术上的问题,探索更多的可能。

从认知惯性上讲,人们总是习惯从自己的生活经验出发去推导需求,并据此排列优先级、迭代产品。比如小爱通话的诞生,就始于商务人士会议多、又必须接电话的场景,但当听障骑手的需求出现时,我们一下子打开了“认知边界”,因为他们所需的就是任何时间、地点都能使用的,支持无声操作的功能,这些功能对障碍者来说是“每一次都需要”对其他人来说是“偶尔不方便的时候,真贴心。”

所以在小米内部,我们希望让无障碍成为技术人员思考和感知人类需求复杂和多样性的思维练习。当我们站在自己世界的小小圆心,很难打破一圈一圈的经验盲区,但当我们站在“不能看”“不能听”“不能动”的边界,回看常人的“痛点”,其实有很多已经包含在内了,这才能真的从可操作的层面实现“让全球每个人都可以享受科技带来的美好生活”,对不?

目前,在环境音的更多可能性上我们也还在探索,我们也期待大家跟我们一起畅想,在最边界的使用场景中,我们还有什么是没有被满足的,我们的技术还有什么可能性。

比如说:
“能不能有个声音指南针,让人们更快找到声音的来源”?......
大家还有什么其他的奇思妙想呢?欢迎在评论区留下你的需求和想法~

推荐阅读