A/B测试:基本概念

1-1

网站设计中,我们经常会面临多个设计方案的选择,比如某个按钮是用红色还是用蓝色,是放左边还是放右边。传统的解决方法通常是集体讨论表决,或者由某位专家或领导来拍板,实在决定不了时也有随机选一个上线的。虽然传统解决办法多数情况下也是有效的,但A/B 测试(A/B Testing)可能是解决这类问题的一个更好的方法。

所谓 A/B 测试,简单来说,就是为同一个目标制定两个方案(比如两个页面),让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录下用户的使用情况,看哪个方案更符合设计目标。当然,在实际操作过程之中还有许多需要注意的细节。

A/B 测试并不是互联网测试新发明的方法,事实上,自然界也存在着类似 A/B 测试的事件,比如下图中的达尔文雀

自然界的 A/B Testing

达尔文雀主要生活在太平洋东部加拉帕戈斯(Galapagos)的一个名为伊莎贝拉(Isabela)的岛上,一部分生活在岛的西部,另一部分生活在岛的东部,由于生活环境的细微不同它们进化出了不同的喙。这被认为是自然选择学说上的一个重要例证。

同样一种鸟,究竟哪一种喙更适合生存呢?自然界给出了她的解决方案,让鸟儿自己变异(多个设计方案),然后优胜劣汰。具体到达尔文雀这个例子上,不同的环境中喙也有不同的解决方案。

上面的例子虽然和网站设计无关,但包含了 A/B 测试最核心的思想,即:

1、多个方案并行测试;

2、每个方案只有一个变量(比如鸟喙)不同;

3、以某种规则优胜劣汰。

需要特别留意的是第 2 点,它暗示了 A/B 测试的应用范围,——必须是单变量。有时我们的多个设计稿可能会有非常大的差异,这样的情况一般不太适合做 A/B 测试,因为它们的变量太多了,变量之间会有较多的干扰,我们很难通过 A/B 测试的方法来找出各个变量对结果的影响程度。比如,土豆烧肉和豆腐鲫鱼汤都挺美味,但我们很难比较土豆和豆腐哪一个对菜的美味影响更大,而土豆烧肉和豆腐烧肉则是不错的比较。另外,虽然 A/B 测试名字中只包含 A、B ,但并不是说它只能用于比较两个方案的好坏,事实上,你完全可以设计多个方案进行测试,“A/B 测试”这个名字只是一个习惯的叫法。

回到网站设计,一般来说,每个设计方案应该大体上是相同的,只是某一个地方有所不同,比如某处排版、文案、图片、颜色等。然后对不同的用户展示不同的方案。

要注意,不同的用户在他的一次浏览过程中,看到的应该一直是同一个方案。比如他一开始看到的是 A 方案,则在此次会话中应该一直向他展示 A 方案,而不能一会儿让他看 A 方案,一会儿让他看 B 方案。同时,还需要注意控制访问各个版本的人数,大多数情况下我们会希望将访问者平均分配到各个不同的版本上。要做到这些很简单,根据 cookie (比如 cookie 会话ID的最后一位数字)决定展示哪个版本就是一个不错的方法。

下面是 A/B 测试示意图:

A/B Testing 用户分流

可以看到,要实现 A/B 测试,我们需要做以下几个工作:

1、开发两个(或多个)不同的版本并部署;

2、收集数据;

3、分析数据,得出结果。

关于 A/B 测试的基本概念就介绍到这里,其余部分我会在后续文章中继续介绍。

(注:本文首发于http://oldj.net/article/AB-Testing-basic-concept/。)

Category: 用户研究

16 responses

Leave a Reply

Your email address will not be published. Required fields are marked *

  1. grace says:

    如果AB两组用户自始至终看到的是一组版本的话,这样缺乏对比,会不会因为两组用户本身存在差异,使最终的评价缺乏准确性呢?

  2. vicky yu says:

    求解答,感觉这个的关键来自于用户样本,如何分配合适的用户组,确实是用户研究一个和重要的问题。解决这个问题可以不可以用同一组用户进行A\B两个测试进行解决呢?

  3. […] 相关话题:A/B测试 源地址:http://www.aliued.cn/?p=2773 […]

  4. says:

    鸟嘴的例子不错,通俗易懂

  5. E淘网 says:

    分析得很好,学习啦~~~~

  6. 优惠券网 says:

    这是对比测试吗?

  7. […] 源地址:http://www.aliued.cn/?p=2773 […]

  8. 刘乐 says:

    看来大学学的单因素分析这些统计学术语还是有用。不过可惜统计学需要较好的数学基础……哎!

  9. Janessi says:

    在分配用户时做到随机可以尽可能减少“两组用户本身存在差异,使最终的评价缺乏准确性”的相关问题吧

  10. 大亮 says:

    同样觉得不需对用户进行分流,一段时间后跟踪用户的使用习惯,或让用户进行选择使用A或B。

  11. kiki2010 says:

    grace 和 vicky的问题,只要随机做得好,就不是问题了。当然不能将一种设计给学生使用而另外一种给工作白领,这样就无法找到究竟是用户的不同造成的评分差异还是设计的不同造成的。但是如果是非常非常严格的随机,那么就会在随机抽取这个过程中将不必要的差异中和,从而只剩下设计差异。还有一种方式也可以使用,比如针对特定的用户群,然后前一段时间评分A,后一段时间评分B,然后再考察评分差异,这时就完全去除了因为用户差异而造成的评分差,但这种方法只适用于特定的(比如学生)用户群,群体内部一致性较高的时候……否则还是会出现差异被中和的情况……

  12. […] 源地址:http://www.aliued.cn/?p=2773 分享按钮 上一篇: 浅谈按钮分组和位置 标签: 设计思想 本文链接: A/B测试:基本概念 版权所有: Open小巷, 转载请注明本文出处。 […]

  13. 对比最好拉···

  14. Yingying says:

    很清晰的文章,谢谢!A/B测试似乎在网站可用性测试中越来越重要了,需要好好学习一下。

    上面有人说到用户差异的问题,我认为如果用户量比较大的话,是不是经过随机分配用户组之后可以忽略这种差异呢?

    文章里对A/B测试的核心解释得特别清楚,尤其是第二点“只有一个变量”。

    好文章!

  15. […] 转自:http://www.aliued.cn/2010/09/13/ab-testing-basic-concept.html […]

  16. […] [1]《腾讯传1998-2016:中国互联网公司进化论》,吴晓波 [2]《MS DOS 5.0》,http://compu-seite.de/de/ms-dos-5-0 [3]《用例建模指南》,http://www.ibm.com/developerworks/cn/rational/r-usecase-atm/ [4]《A/B测试:基本概念》,http://www.aliued.cn/2010/09/13/ab-testing-basic-concept.html […]