纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

Meta为ARVR宣布实时语音语言翻译计划基于AI的通用语言

1月13日 望北海投稿
  (映维网Nweon2022年02月24日)Facebook、Instagram、WhatsApp和VR社交平台Horizon的母公司Meta日前宣布了一个雄心勃勃的全新AI研究项目:创建一个适用于世界每个人的通用语言翻译器。Meta首席执行官马克扎克伯格表示:用任何语言来与任何人交流的能力是一种梦寐以求的超能力,而人工智能将在我们的有生之年实现这一点。
  Meta日前举办了一个名为MetaAI:InsidetheLab的人工智能实验室揭秘活动。除了演示人工智能团队所取得的最新突破外,Meta同时希望进一步说明人工智能将如何赋能公司的元宇宙未来。
  对于前述的通用语言翻译器计划,Meta撰文进行了详细的介绍,下面是映维网的具体整理:
  对于母语为英文、中文或西班牙文等的不同人士,今天的应用程序和网络工具似乎已经提供了我们所需要的翻译技术。但目前依然数十亿人排除在外,他们无法轻松访问互联网的信息,同时无法用母语与大多数网络世界联系。今天的机器翻译(MachineTMT)系统正在迅速进化,但它们严重依赖于从大量文本数据中学习,所以通常不适用于低资源语言(即缺乏训练数据的语言),以及没有标准化写作系统的语言。
  消除语言障碍将是一项意义深远的工作:它将能帮助数十亿人以自己的母语或首选语言获取网络海洋的信息。机器翻译的进步不仅会帮助不懂当今主导互联网的语言的人士,它们将从根本上改变人们联系和分享想法的方式。
  请想象一下,操着不同语言的人士能够通过电话、手表或眼镜实时相互交流,或者能够自由以自己喜欢的语言访问网络的多媒体内容。在不久的将来,当虚拟现实和增强现实等新兴技术将数字世界和物理世界结合在一起时,翻译工具将能帮助你与任何人交流,并在任何地方进行日常活动,例如举办读书俱乐部或合作开展工作项目等等。
  所以,MetaAI日前宣布了一项旨在构建支持世界大多数语言的机器翻译工具的长期努力。这包括两个新项目:第一个是NoLanguageLeftBehind(不落下任何语言)。团队正在构建一个可以从较少示例语言中学习的全新高级人工智能模型,并将其用于实现数百种语言的专家级翻译,例如阿斯图里安语,卢甘达语和乌尔都语。第二个是UniversalSpeechTranslator(通用语言翻译)。团队正在设计新的方法来实时将一种语言的语音翻译成另一种语言,从而支持没有标准书写系统的语言,以及既有书面语言又有口头语言的语言。
  要为全世界所有人提供真正通用的翻译工具需要大量的努力。但Meta认为,这里描述的一切是向前迈出的重要一步。团队进一步指出,未来将分享开源相关的代码和模型细节。通过借助社区的力量,我们将能更接近实现这一重要目标。
  1。翻译每一种语言的挑战
  当今的人工智能翻译系统并不是为了服务于世界各地使用的数千种语言,同时不是为了提供实时的语音到语音翻译。为了真正服务于每一个人,机器翻译研究业界需要克服三个重要挑战:我们需要获取更多语言的更多训练数据,并找到利用现有数据的新方法,从而克服数据匮乏的问题。我们需要克服随着模型向服务更多语言的方向发展而出现的建模挑战。我们需要找到新的方法来评估和改进结果。
  数据匮乏依然是跨更多语言扩展翻译工具的最大障碍之一。文本翻译的机器翻译系统通常依赖于从数百万个句子的注释数据中学习。所以,能够进行高质量翻译的机器翻译系统目前只为少数主导网络的语言开发。扩展到其他语言意味着为缺少网络存在感的语言寻找一种获取和使用训练示例的方法。
  对于直接的语音到语音翻译,获取数据的挑战更为严峻。大多数语音机器翻译系统使用文本作为中间步骤,这意味着语音首先转换为文本,然后翻译为目标语言中的文本,最后再将其输入到文本到语音系统以生成音频。所以语音对语音的翻译依赖于文本,从而限制了其效率,使其难以扩展到主要是口语的语言。
  直接语音到语音翻译模型可以为没有标准化写作系统的语言进行翻译。这种基于语音的方法可以带来更快速、更高效的翻译系统,因为它们不需要额外的步骤。
  除了需要数千种语言的合适训练数据外,今天的机器翻译系统设计根本不能满足全球所有人的需求。大多数机器翻译系统都是双语,这意味着每个语言对都是一个单独的模式,例如日英语俄语或日语西班牙语。这种方法很难扩展到几十个语言对,更不用说全世界范围内的所有语言。想象一下,从泰语言,老挝语,再到尼泊尔语,每种组合都需要创建和维护数千种不同的模型。
  一系列的专家建议多语言系统会有所帮助。但要将多种语言整合到一个高效、高性能、能够代表所有语言的多语言模型中非常困难。
  实时语音对语音机器翻译模型面临一系列与基于文本的模型相同的挑战,并且需要克服延迟问题,然后才能有效地用于实现实时翻译。
  主要的挑战基于这样一个事实:一个句子可以在不同的语言中以不同的语序表达。即便是专业的同声传译员都会落后于原始演讲约三秒中。例如,德语IchmchtealleSprachenbersetzen和对等的西班牙语Quisieratraducirtodoslosidiomas。两者的英文都是Iwouldliketotranslatealllanguages(我想翻译所有的语言)。相较于西班牙语和英语(词序相似),从德语到英语的实时翻译将更具挑战性,因为对应于英语动词translate(翻译)的德语动词bersetzen(翻译)出现在句子的末尾。
  最后,随着扩展到越来越多的语言,我们需要开发新的方法来评估机器翻译模型产生的结果。业界已经有资源来评估从英语到俄语的翻译质量,但从阿姆哈拉语到哈萨克语呢?
  随着我们扩大机器翻译模型可以翻译的语言数量,我们同时必须开发新的方法来训练数据和测量结果。除了评估机器翻译系统的准确性外,确保负责人地翻译负责任同样重要。我们需要确保机器翻译系统保持文化敏感性,不制造或加剧偏见。
  2。训练低资源和直接语音翻译系统
  为了实现低资源语言的翻译,并为未来更多语言的翻译创建构建模块,Meta正在扩展自动数据集创建技术。其中一种技术是开源工具包LASER,它现在包含了用28种不同脚本编写的125多种语言。
  LASER可以将各种语言的句子转换成单一的多语言表达。然后,团队使用大规模多语言相似性搜索来识别具有相似表示的句子,即在不同语言中可能具有相同含义的句子。Meta已经利用LASET开发了在互联网中寻找平行文本的ccMatrix和ccAligned。由于低资源语言几乎没有可用的数据,团队创建了一种新的teacherstudent训练方法,以便LASER能够专注于特定的语言亚组,并用更小的数据集进行学习。这使得LASER能够跨语言大规模有效运行。随着团队不断改进和扩展语言,并最终支持每种具有书写系统的语言,任何进步都将能帮助我们覆盖更多的语言。
  Meta最近已经将LASER扩展成支持语音。:通过在同一个多语言空间中构建语音和文本的表示,其能够在一种语言的语音和另一种语言的文本之间提取翻译,甚至可以直接进行语音到语音的翻译。通过这种方法,团队已经识别了近1400小时的法语、德语、西班牙语和英语对齐语音。
  文本数据非常重要,但不足以构建满足所有人需求的翻译工具。语音翻译基准数据以前可用于少数几种语言,所以团队创建了:CoVoST2:涵盖22种语言和36个不同资源条件的语言方向VoxPopuli:包含23种语言的40万小时语音,可用于语音识别和语音翻译等语音应用的大规模半监督和自监督学习。
  3。构建跨多种语言和不同模式的模型
  除了为机器翻译系统的训练提供更多数据,并将其提供给其他研究人员之外,Meta同时在努力提高模型的能力,从而能够处理更广泛语言之间的翻译。如今,机器翻译系统通常在单一模态中工作。如果模型太小,无法代表多种语言,其性能可能会受到影响,从而导致文本和语音翻译的不准确。建模方面的创新将帮助我们创造这样一个未来:翻译将能快速、无缝地支持多种语言的不同模式,例如语音到文本,文本到语音,文本到文本或语音到语音。
  为了提高机器翻译模型的性能,Meta投入巨资创建了能够在大容量情况下高效训练的模型。为了将基于文本的机器翻译扩展到101种语言,团队创建了第一个非以英语为中心的多语言文本翻译系统。
  双语系统通常是先从源语言翻译成英语,然后再从英语翻译成目标语言。为了令系统更高效、更高质量,团队取消了英语作为媒介,这样语言就可以直接翻译成其他语言,无需通过英语。当然,尽管消除英语提高了模型的容量,但多语言模型无法达到定制双语系统的质量水平。然而,随着性能的提升,Meta的多语言翻译系统赢得了WorkshoponMachineTranslationcompetition,甚至超过最好的双语模特。
  Meta的目标是提高技术的包容性:它应该支持书面语言和没有标准书写系统的语言。考虑到这一点,团队正在开发一个语音到语音,不依赖于在推理过程中生成中间文本表示的翻译系统。这种方法已证明比传统的级联系统更快。凭借更高的效率和更简单的架构,直接语音翻译可以为未来的设备开启实时翻译。最后,为了创建能够保留每个人讲话中的表达能力和特点的口语翻译,团队正在努力在生成的音频翻译中包括输入音频的特定方面,例如语调。
  4。衡量数百种语言的成功
  开发能够在多种语言之间转换的模型带来了一个重要的问题:如何确定是否开发出了一个更好的模型呢?评估一个大规模、多语言模型的性能是一件棘手的事情,尤其是因为它要求我们具备模型所涵盖的所有语言的专业知识。这是一项耗时、资源密集且往往不切实际的挑战。
  针对这一点,Meta开发了第一个涵盖101种语言的多语言翻译评估数据集FLORES101,以便研究人员能够快速测试和改进多语言翻译模型。与现有的数据集不同,FLORES101允许研究人员通过任何语言方向量化系统的性能,不仅仅只是翻译成英语和从英语翻译成其他语言。对于操着几十种官方语言的全球范围而言,这将能够创建满足重要现实世界需求的翻译系统。
  利用FLORES101,Meta正在与人工智能研究业界合作,并期待着继续将FLORES扩展到数百种语言。
  Meta进一步指出,未来将致力于负责任地开展这项工作。团队正在与语言学家合作,以理解创造准确数据集所面临的挑战。团队同时与评估人员网络合作,以确保翻译的准确性。这家公司表示,实现长期的翻译目标不仅需要人工智能方面的专业知识,同时需要来自世界各地的众多专家、研究人员和个人的持续投入。
  5。未来
  如果NoLanguageLeftBehind(不落下任何语言)和UniversalSpeechTranslator能够成功,再加上机器翻译研究业界的努力,这将能以前所未有的方式融合数字世界和物理世界。
  Meta最后总结道:在我们努力建设一个更包容、更互联的世界时,更重要的是要打破现有的信息和机会障碍,允许人们能够使用自己所选择的语言。
投诉 评论

帮你忙的人,不要请他吃饭,要学会这3种报答方式英国诗人约翰邓恩曾说:没有人是一座孤岛,谁都无法自全而活。人活一辈子,谁也无法做到真正的与世隔绝。我们难免会陷入困境和低谷,需要求助外界,麻烦他人。在获得帮助……ChatGPT还能生成视频?下周与百度文心一言巅峰对决中国版类ChatGPT终于要来了。3月10日傍晚,百度官方微博正式发布消息,百度计划于3月16日14时在北京总部召开新闻发布会,主题围绕生成式AI产品文心一言。百度创始人……河里现不明物是怎么回事不明物真相是什么河里现不明物:是怎么回事不明物真相是什么5月30日,在河南省洛阳市洛阳桥上,洛河上现不明漂浮物,疑似溺水者遗体。有人在洛河上乘船前去打探。这场景吸引了众多的吃……牙龈出血一种警示不要忽视牙龈出血这一常见现象牙龈出血一种警示:不要忽视牙龈出血这一常见现象牙龈总出血怎么回事?小问题很多人直接忽视,牙龈出血也是一种警示。早上刷牙,吐出的牙膏沫里又有血丝,牙龈又出血了。如果说嘴唇出……玄幻小说排行榜完本经典之作(完本30部)玄幻小说排行榜完本经典之作你看过的又哪些呢?经典的完本玄幻小说,或者说是完结的经典玄幻小说。下面综合精选了玄幻小说完本经典之作,部部经典,部部巅峰神作,值得熬夜反复看的小说完本……台湾女星瑶瑶个人资料简介台湾乳神为什么被男友甩黄乔歆不擅长歌唱外,亦不擅长舞蹈,是唯一以魔术为主要才艺的美眉。经常出丑闹笑话,成为大家捉弄的对象,也是节目中的开心果,久而久之又获得谐星组分类。……白化病萝莉酷似芭比萝莉白化病有什么危害?说起白化病,大家第一反应就是皮肤的病态白,且身体的各处毛发也都呈白色或者黄白色,更有甚者瞳孔和虹膜都呈淡粉色,通常我们看到白化病病人,多少都会投去好奇的……作弊被抓后坠亡大学生家属再发声事件始末详情经过回顾近段时间以来,作弊大学生被抓的事情在网上闹的是沸沸扬扬。近日,这件事情又有了新的进展,据了解,作弊被抓后坠亡大学生家属再发声,表示该事件已经和平解决了,事件始末详情经过回顾,一……Meta为ARVR宣布实时语音语言翻译计划基于AI的通用语言(映维网Nweon2022年02月24日)Facebook、Instagram、WhatsApp和VR社交平台Horizon的母公司Meta日前宣布了一个雄心勃勃的全新AI研究……蒸芋头要蒸多久芋头怎么挑选及吃蒸芋头有什么好处蒸芋头要蒸多久:蒸芋头的时间是根据芋头的大小以及蒸芋头的工具决定的,一般来说,大芋头需要20分钟以上,小芋头在15分钟左右,如果用电饭煲蒸的话,可以选择放在蒸到5分熟的米饭上,……现代诗阿弥陀佛谁能剃我黑发谁能点我戒疤谁能为我披上袈裟度我苦海之涯我应在佛祖像之下忏悔年华我应在僧经中坐禅修诸法空相生活诸般苦难本师释迦……第一鬼村封门村里的鬼是什么鬼揭晓(胆小请绕开)第一鬼村封门村里的鬼是什么鬼揭晓(胆小请绕开)封门村其实是风门村。要介绍中国第一鬼村,就必须先弄清楚这个鬼村到底叫什么名字……
维多利亚公园厕所事件经过真假揭晓(图)病危双胞胎转院北京请在这条路线上为这两辆车让路蚂蚁腰什么样子图片双胞胎姐妹花因蚂蚁腰走红照片巨型动物排名世界十大巨型动物大揭秘看照片吓哭肉欲版鱿鱼游戏来了,一集比一集刺激!明明这游戏看起来很可爱,难度却高得离谱,没点技术还真玩不来羊奶原来有这么多好处!尤其适合三类人群,后悔没早点知道云梦山白蛇渡劫失败被雷劈死竟被野猪吃掉德甲首轮0勒沃库森林心如的老公和孩子林心如的老公和孩子曝光我乐家居新品珍妮震撼上市现代简约缔造品质家居生活别再只盯着大牌了,这些低调手表同样令人惊艳!臆想症,幻想症,妄想症,癔症,这些病有什么区别?八戒升官记个光怪陆离的明朝野史烧鹅吃死人阴阳法术大雷小雷两会之后,这6个方面可能会有所调整,看看哪些与你有关1张人民日报录取名单曝光,我顿悟了当下社会最残忍的法则公司的注册资本有哪些作用草莓盆栽该选用合适的品种中国男篮国家队集结完毕!郭艾伦为荣誉而战,曾凡博为何入队?都让一让,福建最强的城市来了冷饮喝太多胃痛怎么办一个穴位搞定工程人的感人情书

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形