当前位置: > 热博

AI没有“无人区”

时间:2022-10-19 13:16:02 热博 我要投稿

人工智障和AI艺术家的差距,更多是人工智能中“人”的差距。

在美国举行的一场艺术博览会中,Allen利用AI制图工具Midjourney生成的《太空歌剧院》获得数字艺术类别冠军后,不少艺术家指责Allen使用AI生成作品是作弊。

事实上,这副作品并非是由AI软件生成后,直接拿去参加比赛,中途作者还用Photoshop对作品进行了调色。

与冠军作品《太空歌剧院》形成对比的,是网友在社交平台贴出的自己通过AI关键词“鲑鱼回溯”生成的照片。

理想中成群结对的鲑鱼结伴相游的照片并没有出现,取而代之的是一片片漂浮在水面上试图游泳的的三文鱼片。

同样是AI制图,一个拿了艺术大奖,一个被调侃人工智障。制作团队在模型设计、数据选择上的差异,包括用户使用软件时描述方式的不同,导致了最终不同的呈现效果。

这样看来,AI背后的人,似乎比人工智能更为重要。

壹:喂养AI

人工智能应用于某行业时,该行业的信息化程度应处于高水平,事实上不同行业的信息化建设程度不尽相同,这也意味着,AI进场首先将面临不同程度的信息化挑战。

以医疗行业来说,虽然医疗数据已经实现了数据化,但数据化程度不高,内部系统分散,数据很难流通共享,而AI药研需要医疗全过程的数据。

为了挖掘出数据的价值,需要专业人士借助中间系统,将不同系统里的医疗信息进行统一,或者采用联邦学习法进行处理。

完成信息系统的统一后,相关人员往往还需对信息本身进行二次处理。

有医疗行业人士对银杏科技表示,有些医生在录入信息时,会使用到业内人士才能明白的黑话,或者只记录下关键词。这些被省略的部分需要人工“翻译”出来,经过人工规范后的数据才能用于AI模型训练。

AI进行训练的语言通常较为规范,而人们日常生活的语言会更为通俗。为了让AI在日常应用中更有人情味,会有专门的工作人员对它们的语言进行“润色”。

以智能语音为例,用户在与智能语音对话时,往往会省略掉一些关键性修饰词,默认智能语音明白。而用户默认智能语音懂的这部分关键信息,就需要设计师“补”上去。

腾讯的车机系统在进入车载市场时曾遇到这样一个小插曲。用户要求语音助手播放《在路上》,但这既是一首歌曲名,也是一个电台名称。

面对这样一词多义的情况,正确的做法似乎是语音助手询问用户播放歌曲《在路上》还是电台《在路上》。

在实际的使用过程中,出于客户要求,设计者将歌曲版作为默认选项。而有的厂商在面对这样的问题时,考虑到电台版关注者并不多,而歌曲版近期大热,会将播放歌曲《在路上》作为默认选项。

这一种排序的优先级是人为对AI进行的一个程序设置,目的是增加用户在使用过程中对人工智能的亲切感,然而这样的设定会让想听电台版《在路上》的用户对语音助手的好感度下降。

当AI足够智能化后,它可以根据用户的喜好自动生成用户喜好或者习惯的排序优先级。

从数据收集、产品测试、再到正式投入使用,人们全程参与,及时根据AI的反馈调整模型和数据,确保在技术上达到理想效果。

从另一个角度讲,到底是播放歌曲,还是电台,这取决于平台干预,从而让AI平台们拥有了某种“权力”,它们可以根据好恶选择。

贰:教会AI“善良”

人工智能的一大技能,是可以根据蛛丝马迹找出人们试图隐藏的信息,这能帮助福尔摩斯破案,也可能导致科技公司信息被泄密。

前几年闹得沸沸扬扬的亚马逊智能音箱echo劝人自杀事件中,智能音箱只是从自己的数据库中调取信息作为对用户提问的回复,它并不理解其中的含义,也无法共情这样的答复会带给用户怎样的情感伤害。

从技术的角度讲,语音助手Alexa对用户的提问做出了回答,答案也不智障(抛开人类立场不谈),但人们无法在情感上接受这一回答,于是向亚马逊提出了抗议。

echo的工程师解释,Alexa很可能是从维基百科上下载了带有恶意文件的文本,才做出这样反人类的回答。

这就是为什么它会劝用户自杀,它的数据源出现了污染。

“机器人通过这些有缺陷的神经网络模型,学习到了有毒的刻板印象。”佐治亚理工大学的博士后研究员安德鲁·亨特表示。

本质上,Alexa的错误言论是人类社会的偏激言论,通过人工智能传递回了人类社会。

也是因为考虑到这一点,即使是智能产品已经在市场上成熟运行了一段时间,科技公司通常也会安排专门的人员,负责对产品的数据库、模型进行监测。

智能音箱数据被污染后,劝用户自杀带来的是可能发生的潜在伤害,而智能驾驶汽车的数据如果出现污染,带来的伤害几乎不可避免。

破坏者在系统中混入具有干扰性的数据,从而影响车辆对客观环境的判断,干扰车辆的正常行驶,很可能导致车辆失控。

严重情况下,攻击者甚至可以还原出系统的算法逻辑,对装载同款系统的汽车进行无差别攻击,给厂商带去不可估量的损失。

人工智能已经参与到互联网内容生产流通过程之中,抖音、快手的流量分发,内容审核,大部分都是交给人工智能完成。

机器负责第一遍信息筛选,根据以往数据对疑似违规的内容进行拦截或标红提示;之后再由审核人员对标红信息进行核实。

为什么没有办法完全交给机器呢?一位抖音的审核人员对银杏科技表示,机器是根据量化的指标做决定,比如一旦识别到“果体”画面或相关的关键词,就会自动拦截或作限流处理,但很多东西无法量化,比如意境、内涵,机器尚无法对只能意会不能言传的信息做出准确判断。现在不少擦边视频,画面与文字都不含敏感词,组合在一起却是妥妥的性暗示,像这样机器审核的漏网之鱼就只能人工抓捕。

纪录片《监视资本主义:智能陷阱》中,两拨人在算法推荐营造的茧房里将自身观看到的信息奉为真理,并在算法的推荐下不断强化这一信念,双方的信仰差异逐渐演成暴力事件,而他们最初争论的可能仅仅只是地球是圆是方。

一条具有倾向性的言论,一个投其所好的推荐机制,分开看都没什么问题,凑上一起再加上时间的催化就演变成了一场暴力事件。哪一方都没有责任,哪一方又好像都有责任。

相比前两者,AI技术的外部性或许更需要科技公司注意。

叁:AI不是万灵药

迈过技术关卡,规避掉各类各类风险后,乖乖为我们所用的AI就一定能为公司带来更好的经济效益吗?未必。

对于曲库量高达七千万的音乐平台来说,要求音乐编辑听完所有内容后再进行作品推荐显然不现实。

诚然,AI可以快速“听”完所有音乐后,根据听众的审美偏好推荐相似风格的小众作品,从而提高整个曲库的利用率,当年虾米音乐凭借独特的算法逻辑在版权弱势的情况下,依旧能与网易腾讯抗衡。

不过算法推荐也有弊端,不少用户反应推荐的音乐风格过于单一,音乐平台也尝试改变算法的逻辑,在日推中加入风格差异大的作品,以此缓解听众的审美疲劳。

即使是看似完全交给机器的算法推荐,背后依旧是按照人的意志来执行。

机器推荐始终稍显冰冷,这缺失的人情味便由用户自发上传的各类歌单补足。用户自建的歌单歌曲的风格连贯性不高,却热情饱满,大家自发地收藏评论,用户与用户的距离、用户与平台的距离,也就由此拉近了。

出于整体的商业利益考虑,大部分内容平台都会采用AI和人工两种推荐方式,取长补短。

内容行业由于其文化上的特殊性,不能完全交给机器;而完全可以用AI代替,代替后效果更佳的工业,不少公司依旧使用人工,部分原因在于使用AI后带来的收益并不能覆盖前期投入的成本。

一位从事传统行业的从业者对银杏科技表示:如果采用AI技术,带来了100万的收益,却让成本增加了110万,并且这个成本在三五年内并不一定会下降,那么他倾向于保持现状。如果成本与收益基本持平,但成本有望在三五年内大幅下降,那么他会愿意尝试。

除了成本问题,上述从业者还表示,希望能够在确保公司数据绝对隐私、绝对安全的情况下进行AI模型训练,如果不能保证这一点,即使采用AI技术收益会更高,他也很可能不会采用AI技术。

事实上,该从业者担心的数据安全、隐私泄露问题,即使是完全采用普通机器或者人工,担忧的事情也可能发生。

他告诉银杏科技,在他看来AI的信息泄露肯定比传统技术信息泄露造成的影响大,并且,法律对于传统技术中出现的泄密等问题是有明确的相关规定的,出现问题直接走法律程序。

而AI技术在这方面的法律规定还在制定当中,他表示,自己还是更愿意在这些配套设施基本完善之后再考虑AI技术。

从技术本身、到技术与人类社会的磨合、再到AI真正给用户带来价值,这其中的每一个环节都需要人参与,人的角色从一线的劳动者变成指挥AI进行一线劳动的调控者。

人们利用数据和模型培养一个助手,如何引导这个助手以达到自己想要的市场效果,还在摸索阶段。