你和朋友坐在一起聊天,随手把手机扔桌上。你问他,家里暖气不热怎么办?夜晚,你便在小红书的信息流里刷到教你给暖气放气。你人一惊,心想难道又被手机窃听了?因为你从未主动搜索过类似话题。 如果确实存在App监听谈话,那其目的大多是为了各种应用平台信息、商品、广告的精准推送,但这却是个人信息(或隐私)获取的众多方式中,最为敏感,也最不划算的一种。它被反复提及,原因是用户总能发现巧合,却难以对其证实。相关商业公司也只是否认,拿不出反驳证据。 如果app真的通过麦克风一直监听我们,到底可不可行? 语音助手先遭质疑 人们的确曾抓到过智能音箱和语音助手的把柄,亚马逊Alexa曾因为错误理解指令,把偷听来的谈话录音发给用户通讯录里的好友,证明麦克风偷听并非臆想。 2018年,一对住在俄勒冈州的夫妇突然接到朋友电话,被朋友告知,收到了他们家Echo智能音箱发来的聊天录音。确认了谈话细节,他们这才相信,被偷听了。 他们找到亚马逊讨个说法,对方出面解释道,有一种可能是当事人在对话中某个发音很像Alexa,由此唤醒了它。在随后的谈话过程里,Alexa错误地以为听到发送语音信息的请求,又错误地听成是某位联系人。亚马逊说,这种事情发生的概率极小,但也有意外。 如果不是麦克风一直在听,智能音箱怎么知道用户喊它了?乍一听,好像有点道理。 2020年,一位产品经理在hackernoon(一个技术分享社区)写过一篇文章专门解释这个困惑。他拿Siri举例,说Siri确实在听,但它听不懂,直到被HeySiri触发后,它才开始理解你的指令。 Siri确实在听,但它听不懂丨图片来源Giphy 因为Siri只是听懂你在喊它,就已经耗费很多力气。落到麦克风上的声音会以0。01秒为一帧,每次20帧(0。2s),被输入到深度神经网络,进行本地计算。深度神经网络将这些声音转换成概率密度函数。当函数值达阈值,主处理器被激活。在主处理器激活之前,处理声音做这些事情的是协处理器。 所谓协处理器可以理解为,具备有限的功能和电量消耗的辅助处理器,允许用户在屏幕关闭时,访问一些始终开启的功能。比如它帮助分担处理来自加速度计、陀螺仪等的数据,改善手机续航。(不然,你的运动步数是如何统计的?)HeySiri功能推出后,它就帮着Siri处理声音。Siri理解,你不想让它听的声音,它就左耳进右耳出。 那app会不会跟语音助手一样呢?如果它左耳进,但没右耳出呢? HeySiri可被看作是苹果的底层应用,是写在系统内部的,相比之下,iOS系统之上的应用,调用系统权限的时候,用户不会那么无感。 技术上可以,但算不过账来 2019年,国内的一个开发者团队写了一个安卓app,在演示中,app获取录音权限后,锁屏在后台监听。开发者对麦克风说,今晚吃什么?服务器端就收到app上传的语音转文字后的信息。他们为了证明,抛开所有限制条件,仅从技术角度来说,app在后台监听到用户说什么是可行的。 为什么强调仅从技术上?因为想要完全绕过用户的注意,实现偷听,难度可就大了。2017年,Facebook广告负责人AntonioGarcaMartnez在《连线》上撰文。他说,如果Facebook通过麦克风记录听到的所有内容,在功能上等同于用户和Facebook一直通电话。 如果Facebook通过麦克风记录听到的所有内容,在功能上等同于用户和Facebook一直通电话丨图片来源Giphy 有人做了实验,录音一小时(采样率48khz,比特率256kbps),文件大小达112。39M,消耗电量6。低功耗长时间的录音,耗电量不是很大。如果多个app,多个SDK同时使用该方式,手机会变得又热又烫。 如果你手边正好有一台iPhone6,打开Siri设置会发现,那时HeySiri只有在充电时才能用。得益于低功耗的M9协处理器,苹果在iPhone6s推出时,才首次加入始终聆听HeySiri功能。 低功耗长时间的录音,耗电量不是很大,如果十个一起呢?丨图片来源hackernoon 你难以想象实时传输能产生多少用户数据。Martnez假设用户每天使用手机时长为半天,以当时来计算,网络通话的单向传输速率平均24kbps,每人每天传输数据大约130MB。当时Facebook仅在美国的日活是1。5亿,每天产生大约20PB数据。Facebook数据库中存储了300PB的数据,每天处理的数据量大约600TB。这样一算,监听所产生的音频数据就是每天要处理的33倍了。即便公司体量如Facebook,也难承其重。 如果使用语音压缩技术,再分段传给服务器存储,再去处理呢? 以iLBC语音编解码器为例,采用20ms的帧格式,语音数据经过编码之后的速率为15。2Kbps,每分钟数据112KB。即便每天只监听用户1个小时,每年产生的数据,也会用掉用户2。5GB内存。 也许有人仍有疑问。既然这条路行不通了,手机、app厂商可以在本地将语音转文字,过滤后提取有价值的信息,再上传到后台服务器。抛开这样做后台运算会吞噬CPU,造成手机性能下降不说,担负的成本也不低。 Google以0。006美元15秒向第三方出售其语音转文字服务。(一个用户)每天转写24小时的成本是12614美元,即便每天转写1小时也得525美元。 2021年初,时任(中国)App治理工作组技术专家何延哲在做了实验和检测之后称,目前还没有发现哪款app有把语音信息上传之后的偷听行为。 来,我们简单测试下 根据各个平台的隐私政策,获取麦克风权限,淘宝是为了与AI客服对话,抖音是为了拍摄短视频作品,百度是为了语音搜索。 我做了一次从个人消费者出发的测试,想去证实两个怀疑,这三款主流的app有没有在无感知(没有启用麦克风)的情况下,录下我的对话;并将此用于app的个性化推荐和广告系统。 为此我尽可能规避其他变量,用一台抹掉所有内容和设置,并升级到iOS15以上的iPhone7Plus进行测试。并且注册了以上三款app的新账户。 先将淘宝获取麦克风权限,置于前台,连续两天,每次30分钟以上对麦克风输入与乒乓球有关的音频和对话。再将app放在后台,重复以上操作。对抖音,百度重复上述操作。 两天测试之后,我开始检验。首先,一旦我试图在三款app中,启用麦克风(无论进行语音搜索,还是录视频),在手机状态栏都有麦克风启动提示。 在淘宝的推荐页面下,我下滑100个页面(标准版,每个页面大概四个推荐结果),没有推荐与乒乓球相关的商品和广告;在抖音的推荐页面下,我连续刷100个视频,没有出现与乒乓球有关的视频内容;同样在百度的前100个推荐结果里,没有出现与之相关的新闻标题。 至少在这次实验中,app调用麦克风时无法不被察觉,也没有将我的谈话内容,和周围环境声音,转化为个性化推荐。 以为麦克风在偷听,是我的问题吗? 就像开篇提到的供暖例子,基于社交媒体对用户的了解,你可能已经被准确打上年轻女性、北漂标签,恰好北京供暖这个话题搜索热度高。帖子可能被推给了10万打着同样标签的人,其中恰好包括你,你理所当然地认为自己被监听了。 这可能是证实偏差(confirmationbias)在作祟。证实偏差是一个心理学上的概念,它就像脑中的过滤器,留下你认为正确的。而把那些与需要不相关的其他信息无意识地过滤掉,选择性注意。它也被称视网膜效应,或孕妇效应。 证实偏差就像脑中的过滤器丨图片来源Giphy 类似例子非常常见。2008年美国大选时期,研究者发现支持奥巴马当选的选民购买了更多正面描写奥巴马的书,反对者则是那些批评奥巴马书籍的主要买家。很多时候我们不可避免地带入这种主观性,它是影响我们大脑做出正确判断的主观因素。 你与男朋友在外散步,讨论起最近搬家,话中谈及买什么牌子的投影仪好。结果你晚上回家刷手机,不仅在社交媒体上被推荐中介看房,淘宝还给你推送了新款投影仪。这时候,你刚准备跟男朋友炫耀我就说,手机一定在窃听我们。等等,冷静了一下,回忆起自己出门根本没带手机。 这种情况之所以发生,也许是你的男朋友已经在网上浏览过搬家,如何挑选投影仪。而你们因为在网络上互为好友,被监测到相互转发等行为,已经被广告系统标注为有共同兴趣。 所以广告系统已经这样成熟了吗? 没必要!真的没必要! 至少在商业消费领域,通过偷听来获得的用户数据,质量不见得高,但需要付出的成本极其高昂,公司没必要为此买单。 2018年,今日头条在被质疑通过麦克风获取个人隐私时回复,他们的做法是除非用户明确点击授权,否则无法收到用户的语音信号。 几乎所有主流app都表明类似立场。因为对于第三方app来说,它们想不为用户发觉,或突破系统权限进行监听几乎不可能。iOS14(Android12)升级后,只要麦克风启动,就会在下拉状态栏的屏幕上方有所提示。 比起用麦克风窃听,商业公司有更成熟的画像方法。那些你看到的精准推送,可以基本上归因于大数据分析的结果。 如果投影仪厂商想投放广告,它可能会找任意一家互联网平台投放,后者根据在授权信息中出现投影仪、电影等相关标签的用户来推送。整个投放过程通过程序化广告系统自动完成。 那这些相关标签是如何建立的呢? App获取的第一个信息,就是移动设备标识号,在安卓手机上叫IMEI,在iPhone上叫IDFA。这跟注册、登陆该app无关,即便没有,用户的行为数据一样会被采集。这些行为数据里,你做了什么(观看、评论、购买等),停留时长,是一时兴起还是长期需求等,被赋予不同权重,构成一个兴趣模型的基本组成部分。 那些你看到的精准推送,可以基本上归因于大数据分析的结果。丨图片来源Giphy 经过一段时间对你的观察,模型就能给你的某个兴趣标签打分,并通过多个兴趣标签值,刻画出一个越来越立体的你。商业公司将无数个你进行分类,把同样的广告推给和你一样的人。让你有了平台好像比你更懂自己的错觉。App可以根据你的IDFA跟踪你在其他app上的行为。这就是你为什么刚在淘宝上搜索投影仪,就在刷抖音的时候,看到淘宝的投影仪广告了。 今天的广告系统还能通过依存关系给你推荐。出于对隐私保护,iOS13新增如果想要获取WiFi名称,需要在调用接口前获得用户的定位权限。因为通过WiFi信息可以定位到用户地理位置。但不代表不给定位权限,app就没法锁定你了。App还能通过同一局域网下的设备来跟踪。 因此iOS14中新增了本地网络权限。App想要访问同一局域网下的其他设备,需要经过你的授权(在此之前不需要)。 通过获取设备的MAC地址(唯一的网络标识),获知某个局域网下,连接的电子设备型号,以及你的关系链。如果几个用户每晚都连同一个WiFi,那么app判断他们大概率是一家人。在大数据的加持下,能找到MAC地址,与IMEI号的对应关系,给你和家人推送的内容就会交叉共享。 其实,app偷偷摸摸收集大家信息的行为,都不来自于听。 2020年,来自浙江大学、多伦多大学、加拿大麦吉尔大学等学者展示了一项研究成果,手机app可在无用户授权下,利用内置加速传感器采集声音的震动信号。这种不通过麦克风等收、录声设备,而是通过其他传感器,比如陀螺仪、加速计,再通过深度学习等技术恢复语音数据的技术,被称为侧信道还原技术。 同样不易被人察觉的还有SDK,嵌入在app内提供特定功能,方便开发者开发而存在。当appA和appB都采取了同一家广告SDK时,那么A和B内收集的数据都可能上传至这一家SDK上,A与B之间天然形成了数据共享。你在A上的搜索记录和使用习惯有可能就会被反映在B上。浙江大学计算机科学与技术学院周亚金教授称。今年工信部检测出13款app内嵌第三方SDK存在违规收集用户设备信息的行为。 2021年,网信办发布了对33款app违规收集使用个人信息情况的通报,一些耳熟能详的输入法产品也在其中。 商业公司如果真的企图获取用户的信息,麦克风监听性价比实在太低丨图片来源Giphy 这些违法违规的信息收集手段,都会让我们产生被监听的错觉。商业公司如果真的企图获取用户的信息(甚至窃取用户的隐私),有很多方式。相比之下,麦克风监听性价比实在太低。 那我的担心能解决吗? 手机厂商在尽量打消人们对于用麦克风窃听的顾虑和误解。 如上文提到,iOS14(Android12)升级后,只要麦克风启动,就会在下拉状态栏的屏幕上方有所提示。App几乎不可能突破移动操作系统限制,直接调用硬件功能,实现用户无感的录音操作。利用系统漏洞、安装恶意程序等方式,技术难度和法律成本都极高。 麦克风启用提示丨图片来源手机截图 首部个人信息保护法出台。它规定,处理个人信息,应在事先充分告知的前提下取得个人同意,不得误导、欺诈、胁迫等。 同时,对于个人信息的收集,应当限于实现处理目的的最小范围,不得过度收集个人信息。处理个人信息应当遵循公开、透明原则,公开个人信息处理规则,明示处理的目的、方式和范围。这规范拿到的语音数据,放在哪里,如何处理。 苹果之前对于通过HeySiri发送到服务器的语音,表示会按照隐私政策来处理,相当于给一个随机设备标识符,用完即扔。iOS15更新后,希望将Siri语音处理本地化(目前国内还不支持)。 如果用户想打消被偷听的顾虑,我们自己在客户端还能做些什么? 用户最先安装app时,可以拒绝调用麦克风的权限。对于已经在使用中的app,安卓用户可以在设置应用设置应用管理某app权限管理录音路径下,关闭app对麦克风的获取;iOS用户通过设置隐私与安全性麦克风,查看请求访问麦克风的应用,并关闭。 个性化广告已经成为了互联网广告的一种比较常见的模式,发生推荐结果也并不意味着app实施了监听。 iOS14。5更新后,IDFA的开关状态由默认开启改为默认询问。如果你此前没有关注到这一点,可以在设置隐私与安全性跟踪下,查看哪些app使用标识符来跟踪你,并且关闭它。 关闭程序化广告,广告相关度会降低丨图片来源Giphy 当然看到app里的个性化广告时,你总不免焦虑,时常担心到底哪一个行为暴露了自己的信息和喜好。现在你可以手动关闭它们。 2019年,澎湃新闻的记者发现,在今日头条app中关闭程序化广告后,用户看到的广告数量保持不变,但广告相关度会降低。南都在2020年的《个人信息安全年度报告》中对50款头部app测评,发现六款没有提供个性化推荐关闭选项。两年之后,这些头部app均已增加了这一选项。 个性化推荐选项一般在app各自的设置里,拿淘宝举例,通过我的淘宝设置隐私推荐管理关闭个性化推荐。 好了,这下手机不会抢答了。 参考文献 〔1〕https:hackernoon。comhowdoesheysiriworkwithoutyouriphonelisteningtoyouatalltimes827932do 〔2〕https:mp。weixin。qq。comslXqmU97nVBcKxklqYCpbhQ 〔3〕https:www。wired。comstoryfacebookslisteningsmartphonemicrophone 〔4〕https:cloud。google。comspeechtotextpricing 〔5〕https:www。guokr。comarticle4935 〔6〕https:sspai。compost61223 〔7〕https:www。androidauthority。comyourphoneisnotlisteningtoyou884028 〔8〕https:www。ndsssymposium。orgwpcontentuploads20200224076。pdf 〔9〕https:mp。weixin。qq。comsX5sVzp7nYMoY542Uep61g 作者:沈知涵 编辑:卧虫 本文来自果壳(ID:Guokr42),未经授权不得二次转载,如有需求请联系snsguokr。com 来源:果壳(ID:Guokr42) 整合:青春上海实习生崔茂辉 见习编辑:连翊辰 校审:沈蔚 终审:何婷婷