亚马逊的AI字幕错误率还要更高达到了3672次超过52%

2022-02-27 14:36 [热点] 来源于：IT之家阅读量：12072

导读：AI自动生成的字幕，能离谱到什么程度。不仅把螃蟹误听成废话，当场爆粗: 甚至还能把玉米给翻译成p*rn。亚马逊的高科技装配线让公司的效率不断走高，却让员工苦不堪言。去年，美国阿拉巴马州一个仓库的工人试图成立工会，但没成功。关键在于...

AI 自动生成的字幕，能离谱到什么程度。不仅把螃蟹误听成废话，当场爆粗:

甚至还能把玉米给翻译成 p*rn。亚马逊的高科技装配线让公司的效率不断走高，却让员工苦不堪言。去年，美国阿拉巴马州一个仓库的工人试图成立工会，但没成功。

关键在于，这些是 AI 给儿童节目自动生成的字幕被 AAAI 2022 收录的一篇新研究发现，在 7013 个儿童视频中，接近 40% 的节目出现了少儿不宜或脏话等词汇

甚至在一个 113 集的儿童机器人学习栏目中，AI 就爆粗了 103 次，平均接近一集一次！对此，油管在接受《连线》采访时回应:

我们为 13 岁以下的儿童开发了 YouTube Kids，这个 App 会关闭字幕生成功能。工人们吐槽道，他们被要精力强加了不合理地工作目标，而这些目标就是算法推荐的。

但如果真有字幕需求的话，如何才能想办法减少这种 AI 生成错误一起来看看

亚马逊谷歌都很祖安

先来看看这篇论文的调查结果研究人员一共从油管上选出了 24 个儿童频道，分别记录了这些频道的播放量和订阅量可以看出，这些筛选出来的视频播放量基本都达到了百万级，订阅人数也同样不少

然后，研究人员分别试了一下谷歌和 AWS的字幕生成效果结果显示，AI 字幕的少儿不宜率可谓离谱:在 7013 个视频中，谷歌 AI 出现错误字幕的次数达到 2768 次，接近 40%亚马逊的 AI 字幕错误率还要更高，达到了 3672 次，超过 52%

具体来说，两个 AI 分别容易在这些不太恰当的字词上出错:

图左亚马逊，图右谷歌

在这些数据集中，有一些词语又尤为少儿不宜，例如一些骂人的脏词:

包括但不限于这些情况

那么，有没有什么办法减少这种情况发生呢。。

语序连贯的错误更容易修复

研究人员提出了一个新的数据集，利用近音字词来构建禁忌词的替换备选例如，对于 crap 这一可能出现的粗口，研究人员就给它设置了 crab，craft 等读音相似的字词，便于 AI 在搞错时进行替换

具体来说，他们在 BERT，XLM，XLNet 等 NLP 模型上，针对完形填空任务进行了重新训练，也就是用遮住部分单词，让 AI 来填写对应的内容。

结果显示，在语序正常，前后文案有逻辑的视频中，AI 替换的准确率更高:

可是在一些逻辑不强的文案中，成功替换的效果就没有那么好了:

最终，Megatron 和 Levenshtein 等模型展现出了最好的修复效果，分别给亚马逊 AI 带来了超过 25% 的正确修复率，给谷歌 AI 带来了超过 28% 的修复率。

看来 AI 在字幕生成能力上还是任重道远啊。

论文地址:

参考链接:

。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

（编辑：山歌）