聚焦听觉辅助功能——字幕,让听障者“看见”声音

2022年07月25日 5001阅读


据第二次全国残疾人抽样调查显示,中国约有2780万听力残疾人士,人数位居五大残疾之首,是世界上听障人数最多的国家。

据深圳市信息无障碍研究会、华为UCD中心联合发布的《中国听障用户数字产品体验调研报告》显示,目前,沟通仍然是听障用户面临的最大的痛点,语音转文字、声音识别和文字转语音功能对听障用户来说显得尤为重要。当前市面上已经有不少设备/应用具备语音转文字功能,但听障用户仍然认为在识别的准确性、稳定性以及多人身份识别方面需要提升。

另一方面,我国听障群体数量庞大、地域分布广阔,听力受损情况因人而异,具有口语、手语、书面用语等多种交流方式,导致听障群体的无障碍需求及解决办法难以统一,在听觉相关辅助功能设计领域内还未有一个固定的范式。

通过调研发现,在听觉相关辅助性功能中,字幕仍是目前听障群体获取即时语音信息的首选,有听障者表示“使用字幕是多年来的习惯”,它能方便用户及时获取、记录和编辑内容。

今天,我们就聚焦“字幕”这一辅助功能,通过案头研究和用户调研向大家分析它的现状、问题,以及发展建议。


不同类型字幕功能的现状及问题


在观看视频、直播的过程中,如果没有字幕、语音转文字等辅助功能的帮助,听障用户仅能通过画面来猜测信息。在对听障者数字生活的调研中发现,他们对视频平台的主要痛点集中于对直播内容无法理解:其中字幕优化意见超30%,问题主要集中在绝大多数直播不提供字幕支持。

目前,部分官方大型赛事中已针对该问题提出了解决办法。2022北京冬奥会线上直播间采用了“延迟画面+AI字幕”的方法,依托语音识别技术,结合神经网络算法,应用体育垂直场景的实时纠错自然语义能力提供了实时又准确的字幕。但在大型赛事或会议之外,该方案还未广泛推广应用。在非体育领域,也仍需要各行业投入更多精力来搭建对应词库,以提高实时字幕的准确度。


图:北京冬奥会上已支持“实时智能字幕”


字幕中只体现对白,就够了吗?答案是否定的。我们通常指的字幕,英文为“subtitle”(嵌入式字幕),但嵌入式字幕通常只针对语音、文本内容进行文字化转化。而观众理解脱离了“情景”,Siri说话用户可能也听不懂。因为交流的内容来源、语气、环境音等元素,都是嵌入式字幕提供不了的。

因此,就需要Closed Caption(隐藏式字幕,以下简称“CC字幕”)出马。在美国和加拿大的语境下,CC字幕和嵌入式字幕是属于不同的含义:

即嵌入式字幕默认观影者在听力感受性方面无障碍,可以听到但听不懂语言或口音,或者语音不完全清晰,即只是对语言、文化方面不贯通,因此通常嵌入式字幕只提供言语内容和文本内容的翻译;

CC字幕默认用户在听力方面有障碍,难以获取除言语内容以外的大量非言语声音信息,因此能提供更多关于情景的信息,其旨在向听障者描述所有重要的音频内容——口语对话和非语音信息,如演讲者的身份,偶尔描述他们的说话方式——以及使用单词或符号的任何重要音乐或声音效果。在无音状态下通过进行一些解释性的语言来描述当前画面中所发生的事情的字幕,例如画面中出现了背景的声音的时候,CC字幕都会通过字幕进行提示。

而在美国、加拿大以外,例如英国、新西兰等国家,通常不直接区分“Subtitle”(嵌入式字幕)和“Closed Caption”(隐藏式字幕),而是统称为“subtitle”,即隐藏式字幕也被划入“subtitle”的范畴中。而近年来随着美国出口的影音资料越来越多,澳洲一些国家也开始接受美标的“CC”及Closed Caption叫法。

这里举一个CC字幕和嵌入式字幕区别的例子:如下图,嵌入式字幕只考虑健听者的需求,将对话内容翻译放在在画面下方,但此时听障观影者没办法确认是“NO”是左边的人说的还是右边的人说的(健听观影者可直接通过说话人音色加以区分,因此无需进行字幕优化);而如果创作者能够考虑到听障者的需求,可通过相应的技术编辑手段如CC字幕,将字幕调整位置对应到说话人。更有创作者,将情境信息进行补充,例如“平静的语气”/“愤怒地大吼”。


图:上图为CC字幕,下图为嵌入式字幕,CC字幕需创作者区分说话人,方便听障观影者对语音信息来源进行区分。图片来自网络


在视听作品中加入CC字幕可以切实地提高听障者的观影体验,同时,在创作者的角度,CC字幕也提供了不少便利。例如,CC字幕允许创作者在发布视频之后再添加字幕,提升了视频本身发布的实时性;同时,CC字幕的内容、位置等编辑自由度较大,且即便非创作者也可以参与编辑,达到了“群策群力”的效果。

另外,CC字幕同样能够提高视障者的观影体验,通过将隐藏式字幕传递给读屏软件等同类型的辅助工具,理论上可以实现大规模的口述影像作品。

那么,拥有如此多优势的CC字幕为何没有在各大直播、视频平台推广?主要是相关技术标准和技术验证、版权问题等。

首先,视频创作时需要预留CC字幕的接口与空间。虽然目前的视频录制、编辑工具基本都支持CC字幕,但由于欧美与我国法律、技术标准的不统一,创作者对预留CC字幕接口空间的意识较为浅薄:各大厂商都提供了事后进行编辑字幕的强大工具,预留CC字幕接口的必要性就没有那么大了。

其次,CC字幕通常会涉及到版权问题。我们经常看到从国外一些付费平台录屏而搬运回国内的视频,这将会侵犯原创作者的知识产权。因此,版权问题也是阻挡CC字幕大面积普及的绊脚石。

另外,在我国相关行业规范层面,原国家广播电影电视总局曾于2013年8月批准发布《数字电视隐藏字幕系统规范》(GY/T270-2013)行业标准,只是该标准未能更好地落地实施,以至于无法惠及广大障碍群体。


未来展望


回望近几年我国政府大力推动城市无障碍环境建设的行动可以发现,我国官方对听障人士的关怀是急迫的,有关部门的行动决心也是坚决的。2022年3月3日(世界听力日、全国爱耳日),全国政协委员、中国残疾人艺术团团长邰丽华为听障等群体的特殊需求呼吁,建议以中央广播电视总台的相关频道为试点,推行隐藏式字幕,让听障人士“看见”声音,弥补他们的“信息鸿沟”。

另一方面,CGTN(中国国际电视台)纪录片海外落地的节目已经实现了隐藏式字幕播出,能够为中央广播电视总台在节目制作与播出技术上实现隐藏式字幕提供参考。CGTN对CC字幕的支持,显现出我国官方对听障人士文化生活的重视,也将为未来媒体无障碍的优化作铺垫。

结合社会环境背景及听障用户对目前字幕功能的反馈,我们总结出了以下几点建议:

1.结合无障碍环境建设相关政策,推动我国视频、直播等行业的行业无障碍标准规范建立及实施,促进行业无障碍生态发展;

2.结合障碍用户实际需求,推动视听平台及产品进行无障碍优化,重视、完善CC字幕等辅助功能,呼应广大听障群体的迫切希望;

3.鼓励创作者加强对CC字幕、语音转文字、AI字幕等辅助工具的运用,为障碍用户提供更完善的观看体验;

4.增强全民无障碍意识宣传科普,让大众了解障碍群体及信息无障碍,并呼吁更多人加入信息无障碍行动。

即便是字幕这一常用的听障辅助工具,也仍需不断完善产品设计以及更合理规范地使用。由此可以看到,我国面向听障及更多障碍人士的无障碍建设仍有较大的空间去探索迭代,实现让听障者“看见”声音的目标,需要全民的不懈努力。

作为坚定的信息无障碍推动者,信息无障碍研究会也将持续关注障碍群体,呼吁广大行业关注障碍群体的无障碍需求,推动企业、产品开展无障碍行动,让每个人都能通过科技平等享受现代文明。


作者:黄正韬、豆芽

编辑:幽默丝


END