A/B测试:驱动数字创新的隐形力量
A/B测试是一种以随机对照实验为底层逻辑、以数据驱动为核心思想的数字技术。在数字化时代,A/B测试被企业广泛应用,成为驱动企业数字创新的隐形力量。借助A/B测试,企业可以在数字创新过程中快速、高效且低成本地评估和选择创新方案,推动数字产品不断迭代和优化,实现持续的创新和增长。
文 / 邹腾剑、孙旭航、熊霏
“早试错,常试错,敢试错”(Fail early, fail often, fail forward)这一箴言,被硅谷的许多科技公司奉为圭臬。面对外部环境的不确定性,以A/B测试为代表的全新产品迭代策略的涌现,让企业能够大胆创新、频繁试错。然而,这种鼓励快速测试新想法和新思路的策略是否真的有助于企业的成功?为了回应这一质疑,科宁(Koning)等学者对2008年至2013年间成立的全球35262家高科技初创企业展开追踪研究。结果显示,虽然采用A/B测试的企业相对较少,但相比于其他未采用A/B测试的企业,他们的表现更为出色:平均每周网站访问量提升约10%,获得风险资本融资的概率增加5%,推出新产品的比率提高9%至18%。A/B测试犹如李白诗中“深藏功与名”的侠客,默默无闻地推动着企业的数字创新,对数字经济发展的重要意义不容小觑。
为深入理解A/B测试及其作用,本文首先介绍A/B测试的内涵、起源、发展现状和行业应用,然后阐述A/B测试的理论基础和作用机制,最后分析A/B测试可能带来的负面影响,并提出管理者驾驭A/B测试的有效策略。
A/B测试的内涵
A/B测试是一种以随机对照实验为底层逻辑、以数据驱动为核心思想的数字技术,它将用户随机分配至两个或两个以上版本的数字产品、服务、设计或策略等数字方案中,最终通过对比实验结果来评估确定最优方案。例如,华为App Gallery Connect(AGC)服务提供A/B测试功能,帮助应用开发者基于用户群体创建多个对比实验(见图1)。通过这些实验,开发者可以获得关键对比数据,从而选择最符合用户需求的应用界面、产品功能或营销方案。
在数字时代,A/B测试是一种快速、高效且低成本的决策工具。A/B测试的底层逻辑是随机对照实验,它将用户随机分配到实验组和对照组,通过实验来测试预先提出的假设,从而明确因果关系。基于此,实验者可以了解哪些因素能提升产品绩效,哪些因素会降低产品绩效,从而有针对性地对产品进行优化。此外,A/B测试也是一种大数据驱动的数字技术,企业可以通过A/B测试收集大量用户数据进行分析,据此得出可靠结论。总之,A/B测试的实验逻辑和大数据特性不仅加快了企业在数字创新过程中的决策速度,也提升了决策精准度,使之成为驱动企业数字创新的隐形力量。
A/B测试的起源及发展现状
A/B测试最早起源于医学领域的随机对照双盲实验。在大航海时代,船员因长途跋涉而饱受坏血病的困扰。为了寻找有效的治疗方式,1747年,英国皇家海军军医詹姆斯·林德做了人类历史上第一个随机对照实验:他先将12位生病的船员分成6组,让他们分别食用不同的辅食配方(见图2),食用橘子和柠檬的那一组船员最终康复。由于时代的局限性,林德当时没能发现橘子和柠檬中含有的维生素C可以治疗坏血病,但他的实验标志着检验药物有效性的方法从蒙昧走向科学,对人类战胜坏血病具有里程碑意义。A/B测试在医学领域的应用不仅改变了人们对坏血病的认知,也为现代医学研究奠定了科学的基础,为更多患者带来了福音。
林德的随机对照实验点燃的科学之光照亮了医学、工程学和社会科学等多个领域探索严谨因果关系的道路。随着互联网行业的崛起,林德的实验思想跨越时空与数字技术相逢,为互联网行业的数字创新带来了数据和实验驱动的全新思路。经典的林德实验在互联网时代重新焕发生机,获得了一个时髦的名字:A/B测试。
谷歌是互联网行业公认的A/B测试先驱。2000年,谷歌的工程师开展了互联网领域的首个A/B测试,用于评估搜索结果首页返回多少项搜索结果更合适。虽然这次测试因为搜索结果加载速度过慢失败了,但谷歌从此成为了A/B测试的忠实拥护者——仅2011年一年,谷歌就进行了七千多次A/B测试来帮助优化产品功能。现在,谷歌每月都会上线几百个大大小小的A/B测试,这些实验每年直接给公司带来超过10亿美元的增收,充分彰显了互联网公司“数据驱动决策”的发展理念。
谷歌的大获成功,点燃了各大互联网公司应用A/B测试的热情。每年有数以万计的A/B测试被谷歌、亚马逊、易贝(eBay)、脸书(Facebook)等先行者广泛应用于数字产品迭代、用户体验改进、算法优化、广告投放等方方面面,A/B测试的应用与推广已呈燎原之势。
与发达国家相比,A/B测试的思想和实践在我国市场扎根较晚,这与市场的发展阶段息息相关。在早期的“爆发增长”阶段,我国互联网市场拥有巨大的红利空间,用户群体迅速增长,互联网渗透率逐年提高,大多数互联网公司不需要实施复杂的数字实验就能快速获得大量用户。在这样的市场环境下,企业更倾向于迅速推出产品或服务,占据市场先机。然而,随着市场逐渐饱和,竞争日趋白热化,用户获取成本上升,早期轻易就能获得的市场红利开始消失。为了在激烈的市场竞争中脱颖而出,企业必须具备高技术壁垒和强大的效率优势,这就要求经营者们精益求精,在数字实验中探索和捕捉机会,实现持续创新和增长。
随着数字技术的蓬勃发展,国内一些企业开始意识到数字实验驱动创新的重要性,尝试从“野蛮生长”转向“精耕细作”。近年来,以字节跳动、百度、阿里巴巴、腾讯为代表的中国本土互联网公司开启了A/B测试的“西学东渐”之路。其中,作为互联网领域的佼佼者,字节跳动可以说是A/B测试的“头号粉丝”。早在2012年成立之初,字节跳动就在内部使用A/B测试,其旗下著名短视频平台“抖音”的名字,正是经过A/B测试和人为判断综合考量的结果。“独乐乐不如众乐乐”,历经十年打磨,字节跳动已成功将A/B测试产品化和商业化,并通过旗下的火山引擎DataTester向企业客户开放。截至2023年6月,火山引擎的A/B测试平台DataTester已累计进行二百四十万余次A/B测试,日新增实验四千多个,同时运行实验五万多个,服务了美的、平安银行、得到等上百家标杆客户。在字节跳动的辐射带动下,神策数据、百度、云眼、LeanCloud等平台相继推出A/B测试服务。可以预见,A/B测试将在中国市场发挥越来越重要的作用,为企业创造更大的商业价值。
A/B测试在不同行业的应用
互联网巨头在A/B测试的普及进程中起到了引领性作用。在目睹实验的“威力”后,越来越多企业成为A/B测试的追随者,A/B测试逐渐在电商、影视、通信、金融、咨询、游戏、软件等行业得到广泛应用。
电商行业
与其他行业不同,电商行业通常不存在“一刀切”的解决方案,对某个品牌有效的特定策略可能对另一个品牌完全无效。因此,电商行业的A/B测试是一个综合性极强、需要精细管理和快速反应的过程,它要求卖家深入了解自己的客户、产品和市场环境,以便制定最有效的销售策略。
作为国内领先的电子商务平台,京东通过智能店长工具向卖家提供A/B测试服务,以评估和优化其在线商店的用户体验和销售效果(见图3)。借助智能店长,卖家可以自行设置实验周期、分流占比等参数,对商品主图进行A/B测试,观察不同版本主图对销售转化的促进作用。事实证明,选择使用A/B测试的卖家获得了可观的回报——主图实验通过数据驱动帮助卖家更有效地利用流量,使搜索侧点击率平均提升了2%—3%,A/B测试带来的商业效益可见一斑。
影视行业
在快节奏的网络时代,企业常常使用A/B测试来对网站界面、推送内容等进行实验,以吸引越来越没有耐心的访客。爱奇艺是中国高品质视频娱乐服务提供者的代表,拥有超过1.2亿会员。目前,爱奇艺A/B测试实验系统已经服务于公司多个业务线,真正实现了“数据驱动业务”。
提升用户使用时长是爱奇艺的重要目标之一,为了实现这个目标,爱奇艺的产品团队在2021年对APP的电视剧频道页进行了UI改版A/B测试。他们对访问过电视剧频道页的用户画像进行分析,针对性地调整了频道页的UI交互设计(见图4)。测试结果显示,新版频道页使人均正片观看时长提升了17.85%,说明新版频道页在用户体验上显著优于旧版频道页,这为产品优化提供了重要的决策依据。
通信行业
数字化转型进入全新阶段,通信行业正积极抢抓新一轮战略机遇,力争在数字经济发展的“新蓝海”中勇立潮头。4G管家是中国移动为4G用户专门定制的移动端APP。为了提高APP的留存率和活跃度,产品部门提出了一个更新计划:将APP首页的业务文案由“话费余额”修改为“话费账单”(见图5)。为了验证这项改动的合理性,他们采用A/B测试对两个版本的用户进行了行为对照实验。三周过后,后台数据明确显示:与原版相比,实验版本的“话费账单”文案导致核心业务数据下降近23%。这表明用户对实验版本文案的接受度并不高。产品团队综合考虑了用户使用余额业务的情况以及这一业务的核心价值,最终决定放弃此次改动。中国移动的A/B测试经验提醒我们:用户使用产品有固有的习惯和认知,新想法的成效最好还是交由“实验”检验。
A/B测试的理论基础
A/B测试为何具有如此大的威力,背后机理何在?A/B测试本质上是一种数字实验(digital experimentation),组织和战略领域围绕实验(experimentation)的研究为我们理解A/B测试的惊人力量提供了重要理论视角。
开展实验对企业来说并非新鲜事。早在1969年,西蒙(Simon)就提出测试和实验是企业研发过程中的有效策略。此后,学者们探究了不同场景下不同类型的实验对企业创新、绩效等各方面的积极影响,包括对产品、商业模式、创业机会等的实验。这部分文献的核心观点是,实验是企业产生新知识和应对内外部不确定性的一种重要战略。通过实验,企业可以测试不同的策略或假设,并基于数据和因果关系作出决策,这有助于企业更好地适应内外部环境的变化、提高决策效率和质量。
实验之所以有这些功效,是因为它可以促进组织学习,学术界把这种类型的组织学习称为实验型学习(experimental learning)。具体来说,实验型学习指的是企业有意地创造对比条件来测试因果关系并产生新知识的过程。与经验学习(experiential learning)、认知学习(cognitive learning)、替代学习(vicarious learning)等传统学习方式相比,实验型学习能够帮助企业快速、高效且低成本地进行知识的获取、吸收、整合和利用,因而能够更好地提升企业在创新活动中的决策效率和决策质量。
实验型学习发生在企业的实验过程中。根据哈佛商学院斯蒂芬·汤姆克(Stefan Thomke)教授提出的实验迭代循环模型(见图6),企业的实验一般包含四个阶段:设计(design)、构建(build)、运行(run)和分析(analyze)。在设计阶段,实验者明确实验的目标和方向,并进行实验构思和设计。在构建阶段,实验者构建进行实验所需的原型或模型。在运行阶段,实验者在真实或模拟的环境中运行实验,并捕捉和收集相关数据。最后,在分析阶段,实验者分析和评估实验中收集到的数据,尝试理解其中蕴含的因果关系。如果分析的结果令人满意,则停止实验,基于实验结果进行决策。否则,实验者将依据从实验中学习到的知识改进设计并重新迭代。
从实验中学习(learning by experimentation)是实验迭代循环模型中不可或缺的一环,也是A/B测试等数字实验手段能够为企业创造巨大价值的关键所在。通过开展实验、从实验中学习的迭代循环,企业可以不断地获取新的知识和见解,并在此基础上进行进一步调整和迭代,从而为企业创新提供持续动能。
A/B测试驱动数字创新的机制
作为一种以随机对照实验为底层逻辑、以数据驱动为核心思想的数字技术,A/B测试可以为企业带来诸多的好处,包括帮助企业提升绩效、降低风险、优化用户体验、提高市场竞争力等。在数字化时代,A/B测试的重要性和影响力不断提升,逐渐成为企业数字创新的关键驱动力。A/B测试是如何驱动企业数字创新的呢?本文总结了以下几项作用机制。
第一,激发数据驱动决策的潜力以促进创新。
在数字化时代,数据成为企业最为宝贵的资源之一。通过对数据的收集、处理、分析和利用,企业可以基于真实数据和用户反馈进行决策,而不是仅仅依赖于直觉和经验。这有助于降低企业决策过程中的不确定性,提高决策的客观性和准确度。在A/B测试过程中,企业通过收集和分析大量的用户行为数据来了解不同产品方案或策略变化对产品绩效的影响,并最终根据从数据分析中获得的见解来优化数字产品。这种基于实验数据进行创新决策的模式可以帮助企业快速、客观、准确地检验假设,引导企业倾听用户的声音,有针对性地通过创新来解决用户的痛点,为用户创造更高的价值。
第二,降低实验成本以促进创新。
传统实验的开展通常需要耗费大量的资源和时间,且伴随着高昂的成本和巨大的风险,因此,企业往往只能小心谨慎且精打细算地进行小规模和低频率的实验。这延缓了企业通过实验获取新知识的速度和质量。与传统实验相比,A/B测试极大地降低了实验成本,使得企业能够在相对较低的成本下评估新想法。一方面提高了企业对创新失败的容忍度和员工参与创新的积极性,鼓励员工提出更多的创新想法进行实验;另一方面也促使企业更频繁地进行测试和实验,以寻找最有效的创新路径,从而推动了企业在数字创新过程中“小步快跑”、快速迭代,实现高效创新。
第三,培育试错迭代的实验文化以促进创新。
A/B测试不仅是有效的实验手段和决策工具,还是企业创新文化的催化剂。具体而言,A/B测试强调主动试错和快速迭代的重要性,将实验的失败视作学习的机会而非成本,鼓励员工不断提出和检验创新想法,并基于实验结果进行快速调整和迭代。通过采用A/B测试,企业可以逐渐形成一种积极进取、勤于探索、敢于冒险、勇于试错的实验文化。这种文化有助于推动创新想法的不断涌现,促进企业数字创新的蓬勃发展。
综上所述,A/B测试不仅能通过数据驱动和科学实验的方式帮助企业获取新的知识,还能塑造企业拥抱风险和容忍失败的创新文化,从而推动企业不断迭代和优化数字产品,实现持续的创新和增长。
A/B测试可能存在的负面影响
A/B测试可以有效促进数字创新,但也可能带来一些负面的影响。
第一,A/B测试可能引发“数字剥削”这一商业伦理问题。
数字剥削指的是企业使用A/B测试来探寻优化产品绩效指标(如转化率、购买率、点击率)的策略时,可能会剥削用户的资源(时间、金钱、健康)。数字剥削现象在数字产业中广泛存在,比如电商使用A/B测试来寻找促进用户非理性消费的策略,短视频App运用A/B测试来研究把用户“黏在”App上持续不断刷短视频的产品设计,游戏运营商通过A/B测试来寻找使用户游戏时间更长、购买装备更多的游戏设计方案。
A/B测试的数字剥削性主要体现在两个方面。一方面,企业使用A/B测试的目的是判断哪些优化策略可以提升产品的绩效指标,因而在实验过程中较少关注用户的利益,甚至可能故意剥削用户,助推用户花更多的时间和金钱在企业的产品和服务上。另一方面,企业开展A/B测试及收集相关数据往往是在用户不知情的情况下进行的。A/B测试不仅帮助企业“掠夺”了用户的资源,同时还侵犯了用户的数据隐私。
第二,由于A/B测试可以快速、高效且低成本地验证创意,企业员工可能提出大量未经深思熟虑的创意来测试,这不仅会造成企业实验资源的极大浪费,同时也会导致创意数量上升但质量下降的问题。
第三,A/B测试的实验周期一般较短,通常在一周到一个月之间。如此短的实验区间可能无法表征实验创意的长期效果。例如,A/B测试中发现修改“点击了解详情”按钮的形状或颜色可以带来用户点击率的上升,但该实验结果可能仅仅是因为用户觉得这个新按钮的形状或颜色有新鲜感。当新鲜感褪去之后,点击率会回落,甚至可能低于按钮修改前的水平。
第四,A/B测试只能帮助企业优化可衡量的显性指标,无法及时捕捉隐性指标的变化,因而可能带来“拆东墙补西墙”的情况。比如A/B测试发现增加广告弹窗的数量可以增加用户点击率,从而促进广告收入增长,但用户在使用过程中的体验感和满意度可能随之降低,这种负面影响是A/B测试难以直接衡量的。
企业管理者有效利用A/B测试的策略
A/B测试以随机对照实验和大数据驱动为底层逻辑,为企业在数字时代通过快速创新实现竞争优势带来了新的机遇。企业管理者该如何把握这个机遇呢?
管理者要思考企业中关于创新的决策是否需要A/B测试的辅助。如果这些决策比较简单和直接,遵循管理者和研发人员的经验和直觉就可以,不需要浪费人力和物力进行A/B测试。如果企业中的创新决策需要A/B测试的支持,管理者要考虑如何构建A/B测试平台。
A/B测试平台的构建可以遵循战略管理中的“Build-Borrow-Buy”经典框架。如果企业有充足的相关的资源和能力,可以考虑自建A/B测试平台(Build)。目前字节跳动、阿里巴巴、百度和腾讯等头部互联网企业使用的均是自建的A/B测试平台。如果企业不能自建A/B测试平台,可以考虑使用合作伙伴的A/B测试平台(Borrow)。比如每日互动的B端客户在使用其推送服务的同时,也在免费使用其提供的A/B测试工具对自身数字产品进行实验。此外,企业也可以付费使用第三方的A/B测试平台(Buy)。目前国内使用较为广泛的第三方A/B测试平台包括字节跳动旗下的火山引擎A/B测试平台以及神策数据的A/B测试平台。
构建A/B测试平台之后,管理者应给员工提供A/B测试的培训,让员工了解A/B测试的原理、流程和使用方法。更为重要的是,管理者要注意企业实验文化的营造,让A/B测试这种数据驱动决策的理念深入人心。
管理者还需要设置合理的管理机制来保证A/B测试的合理使用。一方面,需要设立具体的规则来给A/B测试排优先级,保证企业的实验资源用在数字创新的“刀刃”上。另一方面,有必要设立监督机制,在A/B测试上线之前评估商业伦理风险,对于有损用户权益的实验要坚决叫停,以保障企业和用户的长期利益。
邹腾剑:浙江大学管理学院研究员
孙旭航:浙江大学管理学院硕士研究生
熊霏:浙江大学管理学院博士研究生
(第二作者孙旭航和第三作者熊霏在本文写作中作出了同等贡献,两位作者按照姓氏首字母排序。)
责任编辑:朱晶
来源:《清华管理评论》2024年1-2月刊