游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

AB测试,国内外为何冰火两重天

  AB测试不一定是最好的评估方法,它不是万能的,但是我觉得,不会AB测试肯定是不行的。
  撰文蓝洞商业郭朝飞
  抖音为什么叫抖音?
  当然,这不是张一鸣拍脑袋的结果,它与字节跳动内部一个名为AB测试的工具有关。
  抖音做出产品demo之后,起了很多名字,各自logo也不同。他们将这些名字放在不同应用市场,但位置、预算等条件是一致的,测试了各自对用户的吸引力程度、下载转化率等指标。
  抖音当时排第二,团队讨论后认为,长期来看抖音更符合认知,也更能体现产品形态,就选了这个第二名。
  从最初的今日头条,到后来的抖音、西瓜视频,再到懂车帝、飞书等构建成的产品矩阵,外界一直好奇,字节跳动持续迭代的方法论到底是什么?
  事实上,在字节跳动过去的九年间,大量的AB测试几乎每天都在进行。就在不久前,字节跳动旗下面向企业的智能科技品牌火山引擎举行品牌发布会,基于大数据、人工智能和基础服务等技术能力,为企业提供系统化的全链路解决方案,助力企业务实地创新,给企业带来持续、快速增长,而AB测试是火山引擎智能营销套件中的一个工具。
  如果说字节快速迭代的秘诀是数据驱动的话。AB测试是最能够体现数据驱动价值,也最能代表数据驱动理念的。
  事实上,AB测试早已在亚马逊、谷歌等海外互联网公司被广泛应用和传承。
  但在国内,AB测试还处于初级阶段。不久前,火山引擎市场部做过一个市场调研。1000家企业的样本数据显示:在企业的日常业务和管理中,AB测试的普及率并不高,渗透率不足30。
  AB测试到底是什么?有何神奇之处?既然如此强大,在国内外市场为何冰火两重天?AB测试并不是互联网的专利
  互联网圈有一句话,顶级PM(产品经理)只能跑赢一半AB实验。
  但如果追溯起来,AB测试并不是互联网的专利。很早的时候,AB实验就被用于医药实验等科研领域,比较著名的便是英国海军外科医生詹姆斯林德出海,在船上用临床实验治疗坏血病的案例。
  那是1747年,航行中很多人患上坏血病。林德选了12名比较严重的病例,分为6组,在6天的时间里,把他们安排在一起,吃食完全一样。实验的关键之处在于,根据当时的流传说法,给每组吃不同的可能治疗坏血病的东西。比如,一组每天吃两个橘子、一个柠檬,一组喝苹果汁,其他方案还包括喝酸醋、海水等。后来,实验证明吃橘子、柠檬是有用的。
  回过头来看,该实验未必完全严谨,比如患者的年龄、民族、地区等问题是否考虑进去。时至今日,其背后蕴含的AB实验精神与理念已经进入多个领域和行业,尤其在互联网行业被广泛应用。
  AB实验,又被称为小流量实验。在互联网领域,简单说就是针对要改进的某项功能、UI、逻辑策略等,提供两种或多种备选方案,从总体用户中抽取一小部分,随机将抽取出的流量分配给不同方案。比如让一部分用户使用A方案,一部分用户使用B方案,最终结合一定的统计方法,通过实验数据对比来确定最优方案。
  AB测试在互联网公司大规模应用,是在美国的谷歌、亚马逊、Facebook等公司。
  一位有谷歌工作经历的人士透露,谷歌用AB测试最广泛的是搜索、广告两大团队,因为这两项业务用户量超级大,结果都容易用数据衡量。
  上述人士透露,他曾在谷歌总部工作过一段时间,他当时的主要任务就是通过改进谷歌搜索广告的产品,来提升谷歌广告点击率和营收。
  当时,谷歌每月搜索广告的产品上会做几百、上千次实验,他会尝试不同的产品改动,不同的优惠策略、卖点,看看哪个转化率更高。他发现,100个实验版当中,可能6070个都对用户没有影响,剩下的几十个版本中,有十几个可能会比正在用更好,把这些更好的版本上线、推给更多的用户,就可以持续提升转化率,高效率地试错。
  谷歌翻译设计师PendarYousefi与OliviaGrace在一篇文章中指出,在谷歌翻译网页版的改版中,AB测试就起到了重要作用。
  一开始谷歌将翻译结果文本框做成了蓝底白字,但用户反馈不好。重新设计时,很多设计人员犹豫甚至质疑,是否要换掉蓝底白字。
  谷歌做了AB测试,一组实验用蓝底白字,另一组用灰底黑字。AB测试的结果显示,采用蓝底白字的翻译结果文本框后,用户使用谷歌翻译的频率和次数明显减少。最终,为了便于长篇翻译结果的可读性,谷歌还是改了过来。
  虽然有种种不情愿,但我们还是将蓝底白字更新成了灰底黑字。PendarYousefi与OliviaGrace在文章中写道。
  相比谷歌,亚马逊的产品更复杂、繁琐,运营策略也更复杂,因此亚马逊的实验数量更多,因为它可以优化的点特别多。
  贝索斯曾经说过,亚马逊的成功,秘诀就是每年、每月、每天不断进行实验。
  字节跳动一位高级实验工程师曾这样描述AB测试:一方面我们无法承担任何一个错误特性影响上亿用户体验的严重后果;另一方面我们又希望能够分离并量化每个特性的影响。
  这就需要我们设计并坚持使用一套数据驱动的方法,使得我们可以以较小的风险对新特性进行评估,积极试错积累经验;并且这个方法有能力排除其他因素(如同时开发的其他特性、时间因素等)的干扰;最后,除了好或者不好,我们希望这个方法也能够给出定量的结果。
  为了解决上述问题,普遍使用的方法是小流量随机实验,也就是AB实验。理念和认知受限
  在国内,AB测试也算不上新鲜事物。
  一位资深互联网运营人记得,2012年前后他第一次接触AB测试,彼时AB测试与精益创业等理念一同从外国传入。后来创业时,他第一次将AB测试应用于课程详细页的版本测试中。
  但不得不承认,目前AB测试在国内关注度并不高,普及程度与影响力也远不及美国市场。
  从根子上说,AB测试首先不是技术问题,而是理念与认知问题。
  在前述管理者看来,一些国家的教育体系中,贯穿着类似AB测试的理念,比如早在幼儿园时期,就会让儿童观测豆子生长过程中淋水与不淋水的差异。当这种AB测试、实验系统根植于理念中时,在产业界、企业界就不用推广,是自然而然的选择。
  在国内市场,很多时候决策者判断是否要做AB测试,不是根据数据判断,更多是依据经验。这里的决策者是广义的,可能是技术总监、产品总监,也可能是产品经理、研究人员。一些团队会认为,某个产品的好坏,产品经理可以根据用户洞察、产品价值洞察来判断,最重要的、最关键的是产品经理的个人能力。
  事实上,决策者也明白AB测试的重要性,但并不认为它是最重要的。原因在于,在他们看来,不做AB测试可能不会直接影响产品的成败,也不会直接决定产品的后续发展。
  对于企业来说,是否选择AB测试,还需要平衡成本与效率的问题。选择做AB测试,不仅有研发成本,还有时间成本。也就是说,搭建测试系统需要支出更多开发版本,搭建完成后,还要经历一个测试、等待、决策的时间周期。
  从管理角度来看,是否做AB测试,完全依赖于怎么算账。一个应用如果不做精细测试,很可能发展了三四个月之后发现,方向不对,就会浪费时间和机会;但是做测试,就需要投入金钱成本。总的来说,提前通过测试来试错,结果会更高效。
  所以为什么越大的团队、大厂越容易做AB测试,而越小的公司就越难?前述管理者提醒道。
  据火山引擎一位数据智能解决方案负责人透露,他们做过调研和沙盘推演后发现,企业自建AB测试平台会涉及到各种技术成本和运维成本。小企业虽然存在刚需,但是自建系统压力大。
  所以,最终的行业走向应该是,企业无需自行搭建测试系统,尤其是传统企业、创业公司,可以采购第三方的产品与服务,把专业的事交给专业的人。目前已有字节跳动这样的大厂,通过自己的ToB品牌火山引擎开放相关产品,是做AB测试的不错选择。并非万能公式
  AB测试系统的研发,护城河并不低。
  因此,对于采购AB测试的公司来说,尴尬之处就是国内市场可选择的标的并不多,而且相当一部分还是小规模公司,这也是当前国内AB测试发展缓慢原因之一。
  在火山引擎AB测试的一位产品工程师看来,准确的分流是AB测试的基础门槛,AB测试平台要保证科学的流量分割、流量层直接的正交互斥,使得实验不受干扰。
  如果分流不准,实验效果就肯定不准,就不知道怎么去迭代你的推荐模型,然后不能更多地留住用户,不能卖更多的广告,这是一个完整的链条。这位产品架构师补充道。
  此外,更复杂的是指标设计和解读以及置信度的统计方法,一旦出现失误,更易导致错误的结论。
  因此,在AB测试中存在很多坑,一不小心就会出错。
  比如,经常被采用的奇偶数分流,就是一种错误的分流方式。
  有些企业通过用户的ID尾号奇偶性做分流测试。虽然从极限理论上来看,奇数和偶数各占一半,看起来没有什么问题。但是从实操上来看,企业的数据的充分积累达到极限的边界并不现实,而且用这些数据来做AB测试,更是完全违背了小流量实验的原则。
  实际上,AB测试要求,尽可能地保持实验组和对照组流量分布一致(与总体流量也需保持分布一致),否则得出的实验数据并不具有可信性。
  再比如,AB测试中不能只简单观测实验数据的涨跌,不考虑实验结果是否显著。这是因为,实验观测得到的是样本数据,不是整体数据。如果只对数据进行简单的计算,对于实验结果的判断很可能会出错。
  因此,需要结合统计学的方法,在评估实验结果时加入相应的统计学指标,如置信度、置信区间、统计功效等。原则上,如果实验结果不显著,或者说不置信,便不能判断数据的涨跌,是否是由实验中采取的策略造成的,也可能由抽样误差造成的,就不能盲目地全量发布新策略否定新策略。
  当然,有必要提及的是,AB测试不是万能的,并不一定适用于所有场景。
  用字节跳动副总裁杨震原的话说,AB测试不一定是最好的评估方法,它不是万能的,但是我觉得,不会AB测试肯定是不行的。破局者出现
  火山引擎全面开放,为市场提供了一种选择。
  与很多公司不同的是,AB测试是写入字节跳动的基因与文化当中的,也曾在字节跳动的产品矩阵中扮演重要角色。
  杨震原2014年加入字节跳动,进入公司他就听说,当时张一鸣还在写代码,那时字节就已经在做AB测试。两年后,AB测试变成字节内部广泛使用的工具,增加了很多功能,被叫作Libra平台。2019年以后,AB测试对外开放,服务外部客户。
  目前,AB测试在字节内部可谓应用广泛,从产品命名、交互设计,到广告优化、市场活动、用户增长,甚至包括修改字体、弹窗、界面大小这样的细节。
  两个月前,火山引擎大数据应用产品总监张锦波分享过一个案例。字节旗下一款短视频APP,与同类产品相比,留存比较低。持续分析后,发现主要原因是大部分新用户没有上滑操作,体会不到上滑会带来更多、更丰富、好玩的视频。
  产品经理做了一个AB测试。他们设计了一个半动态化的上滑引导,一个月内针对新用户采用10的流量,对照组和实验组各占5,希望借此提升上滑操作渗透率与新用户留存。
  他们失败了。新用户的次留、2留、3留没有显著提升,错误操作的渗透率却提升了4。实验结论是:这种半动态式的引导样式其实对于核心指标是没有收益的。
  在第二轮测试中,他们设计了全动态式的引导方案。结果新用户的次留、2留、7留上全部显著提升,幅度在810之间。
  进一步分析发现,发达地区与欠发达地区也有差异,前者上滑功能渗透率提升明显,高于平均水平,后者新用户留存并没有提升。原因可能是,发达地区工作生活节奏快,如果没有直观的上滑操作引导,耐心用完就会马上跳出。
  内部基本上就是,能用AB测试的都用。杨震原总结道。
  数据显示,当前字节跳动每日新增约1500个AB测试实验,服务于400多项业务,累计做了70多万次实验。
  火山引擎AB测试与对手相比,竞争力主要在两个方面。
  一方面,从能力的完备性和实验场景的丰富度来讲,火山引擎是相对领先的。比如实验基础的流程管控能力、实验后报告分析能力等,这些都是在字节内部反复实践沉淀下来的。场景自不用说,字节有短视频、直播、推送、广告、搜索等等。
  另一方面,火山引擎开放后,除了产品,更强调服务,客户采购之后,会在实验方法论、分析、后续运维等方面帮助客户,让工具在客户内部真正落地,产生业务价值。
  拿悟空租车来说,其租赁平台在付款时,有一个押金缴纳环节,无法使用信用免押的用户,必须同时支付一笔数额较大的押金,这可能会给用户用车决策带来较大的影响,直接影响平台成单率与收入。悟空租车希望找到一种方式,降低押金开销对用户用车决策的负面影响,从而提升平台的下单转化率。
  悟空租车团队与火山引擎合作,推出新的设计方案,通过AB实验产品,用小流量进行方案试错。实验两周后,新方案为最终下单完成指标直接带来近7的增长。
  火山引擎AB测试成为一个行业变量,同时也是字节ToB的一把密钥。

自愿的反义词及造句自愿:自己愿意而没有受他人强迫地去做的。行为是自己的主观意愿而做的,自愿:代表一种心情。下面是小编整理的自愿的反义词及造句,希望对你有所帮助!自愿的反义词:说服、劝……小青蛙呱呱呱体育教案设计活动目标:1、模仿青蛙跳,初步学习双脚定点跳的动作,发展幼儿动作的协调能力。2、鼓励幼儿主动参与游戏活动,体验游戏带来的。快乐。活动准备:1、场地布置成……胸无大志的同义词胸无大志是指心里没有远大志向。下面大家就随小编一起去看看相关的同义词吧!胸无大志的同义词一无是处胸无大志造句他本该做一个平平凡凡、胸无大志的人么?……幼儿园大班数学说课稿熊妈妈,几点了幼儿园大班数学说课稿:熊妈妈,几点了今天我说课的题目是:大班数学活动《熊妈妈,几点了》它是大班数学认识单双数第二课时的活动。一、说教材1、教材来源:认识……巧用手势激发兴趣提高歌唱效果教学反思在上五年级第二册第二课《采树种》的歌唱教学时,由于歌曲中有较多的休止符和大附点音符,学生很难唱准,反复教唱还是唱不对,我绞尽脑汁想办法;怎样才能让学生又快又准地唱好这首歌曲呢?……山中留客阅读答案山中留客阅读答案1【原文】山中留客张旭山光物态弄春晖,莫为轻阴便拟归。纵使晴明无雨色,入云深处亦沾衣。【问题】此诗标题为山中留客,细读……小学三年级语文上册金色的草地教学反思身为一名刚到岗的人民教师,我们都希望有一流的课堂教学能力,在写教学反思的时候可以反思自己的教学失误,快来参考教学反思是怎么写的吧!以下是小编收集整理的小学三年级语文上册《金色的……湘教版邓稼先教学设计教学目标:1、整体把握课文,理解文章内容,学习邓稼先的思想品格和奉献精神。2、理清作者的写作思路,把握文章在行文顺序、材料安排方面的特点。3、把握文中的关键语……月亮姐姐的新伙伴第二课时教案课时目标:1、学习课文2、3、4自然段,能有感情地朗读。2、能说出人造卫星的用途。3、会用我会我会说话。4、培养爱科学的思想感情。教学准备:课件……花甲之年的成语造句【典故】:花甲:旧时用天干和地支相互配合作为纪年,六十年为一花甲,亦称一个甲子。花:形容干支名号错综参差。指六十岁。【出处】:宋计有功《唐诗纪事》第六十六卷:(赵牧)特大……幼儿园托班安全教案范文安安全全玩滑梯幼儿园托班安全教案范文:安安全全玩滑梯一、活动目标:1、。幼儿学会用正确的方法玩滑梯。2、帮助幼儿懂得用不正确方法玩滑梯易造成伤害。初步培养幼儿的安全意识。……大茶壶,小茶杯教案活动目标1、了解泡茶的过程,学说礼貌用语接待客人。2、乐意用肢体动作表现大茶壶、小茶杯的样子。活动准备1、大托盘、水壶、茶壶、茶叶、杯子等泡茶用具。……
探索月亮的奥秘教学的一些做法和思考映日荷花语文综合性学习,在于拓宽语文学习和运用的领域,注重跨学科的学习和现代科技手段的运用,使学生在不同内容和方法的相互交叉、渗透和整合中开阔视野,提高学习效率,初步获得……一年级语文我们身边的垃圾教学设计一年级语文《我们身边的垃圾》教学设计1教材说明:《我们身边的垃圾》是义务教育课程标准实验教科书一年级下册(人教版)中第三单元中口语交际的训练内容。这一单元的学习内容……大班晨间活动教案大全导语:让孩子们感受到体育活动带来的欢乐,愿意参加体育活动。以下小编为大家介绍大班晨间活动教案大全文章,欢迎大家阅读参考!大班晨间活动教案大全1设计思路小班的孩子年龄……以失魂落魄一词造句的模板1、他每天失魂落魄,到处游走,彷佛在逃避什么似的,令人生疑。2、他今天一副失魂落魄的样子。3、小明一看到厨房冒出火花便失魂落魄地喊着:失火了,大家快逃!4、他……非常的近义词是什么非常,汉语词汇。fichng。是很、不同寻常的的意思。口语中经常用到,是汉语中最常见的词之一。下面是小编收集整理的非常的近义词是什么,欢迎阅读非常的近义词是什么突出……水是什么形状教学设计一、教学目标:1、通过对水的观察,学生能利用自己的感官和简单的器材,通过观察活动,收集整理关于水的形状的资料,并能在已有的知识、经验和现有信息的基础上,通过讨论、思考,得……大班健康教案牙齿上的洞洞活动目标:1、知道酸会腐蚀牙齿;2、能说出龋齿三种以上的危害;3、看动画片,学习牙防五步曲,知道正确的护牙常识;4、培养幼儿良好的卫生习惯。活动准……大班抢椅子教学反思幼儿期是处于生长发育十分迅速的时期,这有利于幼儿培养发展良好的身体素质。下面是小编为大家收集整理的大班抢椅子教学反思,欢迎阅读。大班抢椅子教学反思一今天我班的主题活动是抢……成功的法则阅读答案的内容成功的法则有一天,一只小井蛙(对朝)来井边饮水的画眉鸟说:朋友们都笑我坐井观天,见识短浅,这太不公平了!这回我(立下树下)雄心壮志,订好学习计划,两年内成为一名知识渊博的……上教版(第七册)美术教案色彩的明度教学目的:感受色彩美。上教版(第七册)美术教案色彩的明度认识同一种颜色的特点。用深浅不同的颜色作一幅画。上教版(第七册)美术教案色彩的明度难点……创造回忆阅读理解答案创造回忆王鼎钧上帝在天上坐着,天使在宝座旁站着,俯视下界,但见人群忙忙碌碌,熙熙攘攘。天使好奇地问:这些人在干什么?他们在寻找一种叫做回忆的东西。过了一……用辘辘造句【注音】:lulu辘辘解释【意思】:轻象声词,形容车轮声:牛车发出笨重的声饥肠。辘辘造句:1、而女人却看出了男孩的饥肠辘辘,她给了男孩一大杯牛奶。……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网