Meta AI大模型能识别4000多种语言,称错误率仅有OpenAI产品的一半 今日观点
宣布,自己已经建立了新的人工智能模型,可以识别和产生 1000 多种语言的语音——比目前可用的模型增加了 10 倍。该公司表示,这是朝着传承有失传风险的语言迈出的重要一步。
正在通过 GitHub 向公众发布其模型。它声称,开源这些模型将帮助使用不同语言的开发人员构建新的语音应用程序——比如可以明白每个人所说语言的消息传递服务,或者可以用于任何语言的虚拟现实系统。
(相关资料图)
世界上大约有 7000 种语言,但现有的语音识别模型却只覆盖了其中的大约 100 种语言。这是因为此类模型往往需要大量的已标注训练数据,而这些数据只适用于少数语言,例如英语、西班牙语和汉语。
的研究人员通过重新训练该公司在 2020 年开发的一种现有的人工智能模型,从而解决了这个问题,该模型能够从音频中学习语音模式,而不需要大量的标记数据,比如转录后的文字记录。
(来源:STEPHANIE ARNETT/MITTR | ENVATO)
他们对两组新数据集进行了训练:一套包含《圣经·新约》的录音,以及来自互联网上的 1107 种语言的圣经对应文本,另一组包含 3809 种语言的未标记的圣经录音。该团队首先处理了语音音频和文本数据,以提高其质量,然后运行一种算法,将音频记录与对应的文本对齐。然后,他们用新对齐的数据训练另一种算法。有了这种方法,研究人员能够训练算法更容易地学习一种新的语言,即使没有对应的文本。
“我们可以利用这个模型学到的东西,用非常非常少的数据快速构建语音系统,”担任该项目的研究科学家的迈克尔·奥利()说。”
“对于英语,我们有很多很多好的数据集,但对于一些语言而言,我们可能找不到 1000 个使用者,我们拿不到好用的的数据集。”
研究人员表示,他们的模型可以转换 1000 多种语言,但能识别 4000 多种语言。
他们将这些模型与包括 Whisper 在内的竞争对手的模型进行了比较,并声称它们的错误率只有竞品的一半,尽管 覆盖的模型是竞品的 11 倍。
然而,该团队警告说,该模型仍然存在误译某些单词或短语的风险,这可能导致不准确或潜在的冒犯性标注。他们还承认,他们的语音识别模型比其他模型产生了更多的偏见词汇,不过只高出了 0.7%。
研究非洲语言自然语言处理的克里斯·艾姆祖()表示,虽然这项研究的广度令人印象深刻,但使用宗教文本来训练人工智能模型可能存在争议。他没有参与这个项目。
支持:Ren
原文:
https://www.technologyreview.com/2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/
-
Meta AI大模型能识别4000多种语言,称错误率仅有OpenAI产品的一半 今日观点
DeepTech深科技 2023-05-23
-
智能网联汽车规模化示范新阶段:商业化落地依然面临诸多挑战
21世纪经济报道 2023-05-23
-
每日速讯:唐河张店镇:优化服务功能助提升 健全机制保障促发展
大河网 2023-05-23
-
繁花歌词想表达的意思_繁花歌词
互联网 2023-05-23
-
河北衡水:村级光储零碳并网型微电网投运
电网头条 2023-05-23
-
《梦幻西游》手游 职业介绍
哔哩哔哩 2023-05-23
-
中国精密光学行业竞争格局及重点企业调研|世界球精选
XYZresearch 2023-05-23
-
河北威县:精彩职教 出彩人生-速看料
东方资讯 2023-05-23
-
世界今日报丨东莞独生子女补贴在哪里领 东莞独生子女补贴办理流程
互联网 2023-05-23
-
课堂评价多维度,东华小学让学生成长看得见 全球今热点
成都市锦江区东华小学 2023-05-23
-
Meta AI大模型能识别4000多种语言,称错误率仅有OpenAI产品的一半 今日观点
DeepTech深科技 2023-05-23
-
益生菌赛道持续火热 多家公司积极布局_全球今日报
证券日报网 2023-05-23
-
智能网联汽车规模化示范新阶段:商业化落地依然面临诸多挑战
21世纪经济报道 2023-05-23
-
我国水运基础设施规模世界第一 港口规模和内河航运能力双提升-头条焦点
央视网 2023-05-23
-
每日速讯:唐河张店镇:优化服务功能助提升 健全机制保障促发展
大河网 2023-05-23
-
热资讯!调节情绪的方法有哪些七下政治题_调节情绪的方法有哪些
互联网 2023-05-23
-
繁花歌词想表达的意思_繁花歌词
互联网 2023-05-23
-
河北衡水:村级光储零碳并网型微电网投运
电网头条 2023-05-23
-
“00后”小伙诈骗女网友11万抽盲盒被判刑,此前因抽盲盒已花光30万_世界快消息
检察日报@正义酷 2023-05-23
-
最美不过二次元
哔哩哔哩 2023-05-23
-
《梦幻西游》手游 职业介绍
哔哩哔哩 2023-05-23
-
【全球新要闻】明泰铝业:目前契约锁电子签约平台等信息化应用正在开发中
同花顺 2023-05-23
-
中国精密光学行业竞争格局及重点企业调研|世界球精选
XYZresearch 2023-05-23
-
新能源汽车合规观察:超六成向用户明示App后台自启动行为
南方都市报 2023-05-23
-
河北威县:精彩职教 出彩人生-速看料
东方资讯 2023-05-23
-
时空科技(605178)5月23日主力资金净买入204.10万元
证券之星 2023-05-23
-
世界今日报丨东莞独生子女补贴在哪里领 东莞独生子女补贴办理流程
互联网 2023-05-23
-
孔繁森
学习强国 2023-05-23
-
课堂评价多维度,东华小学让学生成长看得见 全球今热点
成都市锦江区东华小学 2023-05-23
-
一个月港元拆息跌13.82点子至4.63685% 环球最新
观点网 2023-05-23
-
ps如何将图片变成线条 PS如何快速把图片变成线条
城市网 2023-05-23
-
新疆:1-4月风光项目投资同比增长5.0倍 热门看点
新疆统计局 2023-05-23
-
绵阳市经开区危险废物集中收集贮存试点项目核准变更的批复 环球热点评
绵阳市发改委 2023-05-23
-
大连人被打回中甲水平!林良铭一语指出弊病 战浙江谁负责激怒大奎染红? 每日聚焦
萩龙观世界 2023-05-23
-
光伏设备板块快速拉升,奥特维涨近8%
互联网 2023-05-23
-
杭州四批次土拍共出让9宗地块 总成交价138亿元
中国房地产网 2023-05-23
-
博硕科技:智能自动化装备的主要应用领域为消费电子领域
资本邦 2023-05-23
-
全球今日报丨@老年人 到2025年,国家提供这些养老服务→
中央广电总台央视新闻客户端 2023-05-23
-
第三节末约基奇已砍20分13板10助 取今年季后赛个人第8个三双|全球速读
天下足球最新帖子 2023-05-23
-
空乘人员歧视非英语旅客?国泰航空:将严肃调查处理_环球报道
“北京日报”微信公号 2023-05-23