聚焦

在网页运营改版过程中,经常有设计师或者运营同事有这样的疑问:我的页面到底产生了多大价值?这个页面引导的用户接下来访问了多少商品的页面?有没有产生交易?有没有到我想让用户去的那些页面?

如果使用数据库查询,固然可以得到一些结果,但查询过程过于复杂,数据量大的网站查询耗时太长,很难灵活应用到普通页面。本文提出一种相对简单的分析方法可以解决这个问题。

每个用户在网站上的访问轨迹在网站日志或者数据库中,都是一串URL,有的只访问了一两步,有的访问了成百上千步,如何在如此复杂繁多的数据中找到用户在访问某个页面(例如服装首页)之前或者之后n步,有多少人访问过特定页面(例如交易页面)?

先抛开这个问题,我们想象这样一个场景:在一个大会场中,熟人坐在某个座位上,如果我们知道他们的位置,我们的眼睛很容易聚焦到这几个位置,自动忽略其他座位的人,请参看图1。同样,人们在观察周围事物时,经常会把精力聚焦到自己关心的事物上,下意识忽略其他。我们曾经做过这样的实验,我们的报告厅有4个很大的外置式扩音器,分列在两侧。注意不是那种不显眼的内置式,任何人只要稍微留心就会看到。而当我们要求会场的人闭上眼睛回答会场有几个扩音器时,很少有人能给出正确答案,因为大部分人会关心更重要的东西,比如会议内容,提问问题,甚至是如何找个舒适的位子也比扩音器的多少更让人关心。

图1

1

回到我们网站碰到的问题,某个项目的设计师关心的页面并非全部,而只是几个与之页面有关的页面和部分重要的指标页面。因此我们可以去除相关性不大的页面,只保留关心页面,从而缩短用户路径,大大提高计算效率。

另外,我们把索引的思想引入分析过程中,把网页的URL按照一定规则(例如正则表达式)替换成简单字符,把相关性不大的页面统计替换为同一个字符(例如“0”),把一些过渡性的页面替换成某个字符(例如”p”),如此以来,每个用户的访问路径就可以表示为一个字符串,例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用户的访问路径全为相关性不大的页面,此时,路径为”0,0,0,0,0,0,0,0,0,0,0,0,0,0”,这表示用户并未访问到目标页面,如果不需要计算用户比例或用户分类,那么这样的记录我们可以删除掉。

如果需要保留其他的用户信息,例如cookieid,登录名,访问时间等信息,这个字符串会更加复杂些。如果我们研究目的比较简单,还可以进一步处理,如果不需要对步长信息进行分析,我们可以去掉相邻重复的一些数据,把上式简化为” a,c,0,a,p,c,0,c,t,0”。

这个过程请参看图2中的①和②,由此我们可以得到多个用户的路径的字符串形式的文件。

图2

图2

得到这个聚焦式用户路径文件后,我们就可以对这个字符串文件进行分析了。例如,我们需要计算a页面后有多少个c页面,需要能忽略中间的翻页页面(p页面)。在上例中的这个用户的字符串中,就是1个用户,2次c页面。如果在访问了其他页面之后再访问c页面的行为也可计算入内的话,那就是1个用户,3次c页面。

接下来就是分析的样本量问题。一般分析过程中会讲究“多而全”,但数据量大到一定级别,分析1/10甚至1/100人群与分析全样本所得到的结果相差无几,花费很多资源去提升一点精确度是一件很得不偿失的事情。因此可以酌情分析小样本量,节省分析成本。

由于目标页面业务的独特性,每次需要分析的方式也很个性化。路径查询器可以灵活应对各种查询。例如,我们需要计算a后面有t的人次,a后面紧跟着c的人次,行为符合某种模式的用户数有多少等等。需要统计的模式在分析算法配置文件(图2中的③)中进行配置,查询器会计算并导出最终结果。

另外,查询器还支持分类信息查询,根据用户路径文件的配置信息,对每种分类的人群分别查询,或者导出符合某种模式的人群Cookieid,用户名等,与其他数据存储媒介联接,取得这部分人群的其他信息,从而进行综合分析。

这种方法优点在于比较灵活,如果网站的URL规则比较规范,在配置过程中可以多采用正则表达式,从而可以发现更多有趣的现象。

Category: 用户研究

34 responses

Leave a Reply

Your email address will not be published. Required fields are marked *

  1. 品牌网 says:

    这个方法很有创意,灵活使用网站日志,对运营人员来说太重要了。谢谢分享。

  2. 草根网 says:

    好文,收藏至20ju.com

  3. 图图网 says:

    第一次听说,学习了

  4. bornde says:

    阿里体系下总是用BI的方式来挖掘日志,固然可以自己调整算法来得出更多结论,但是耗费的成本也很高。如果能很好地熟悉 业务,创造出通用的算法和指标,就可以更新到 Webtrends或者Omniture之类的标准工具中了。

    这种研究,算是对Web分析的底层算法研究吧。有没有想过通过标准工具也能够达到目的呢?

  5. suyang says:

    。。。。。没看明白

  6. xianghang says:

    原来阿里也在这样做,小样本快速分析。比较适合页面级别的分析。

    提取一两个小时的日志,然后分析路径。

  7. 深圳SEO says:

    好文章~!值得收藏。。。

  8. 搜房网 says:

    终于了解了数据的内幕呵呵 ued书虫群106333963 大家有图书资源可以共享 分享读书心得 分享电子资源

  9. 音乐博客 says:

    通常聚焦在搜索引擎上。。

  10. 阿七 says:

    不错不错

  11. 天天笑话 says:

    嗯,原来都是定性的分析,看来这样定量也不错。

  12. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  13. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  14. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  15. […] 签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很 […]

  16. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  17. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  18. 我是菜鸟,还得多向大家讨教讨教

  19. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  20. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  21. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  22. […] 网站日志分析方法系列一:聚焦式分析 王雪莲 Sun, 10 Oct 2010 23:42:36 GMT […]

  23. 第1次看到,学习学习····

  24. 第一次听到在网站分析中聚焦分析这么个东东。学习了。

  25. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  26. 19285947 says:

    多谢分享,但是说实话这种方法实用性并不高。

  27. van steven says:

    用这种方法来做分析,好比一位数学科学家,用数学模型来证明为什么1+1=2,如何快速做出日志分析,应该做出假设性换位分析法,假设+内容=评估,做出分析的结果90%是正确的,但你只用很短的时间!

  28. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  29. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  30. […] 如此一来,Apache端的日志,就会被加入了这个标记,我们分析的样本中就有了我们需要的独特的标签。之后的分析工作,就可以参考网站日志分析方法系列一:聚焦式分析。根据这个方法,我们可以很方便的计算出之后的行为模式,跟踪这个区块对重要访问行为的贡献程度,从而计算这个区块的价值。 […]

  31. […] 如此一來,Apache端的日誌,就會被加入了這個標記,我們分析的樣本中就有了我們需要的獨特的標籤。之後的分析工作,就可以參考網站日誌分析方法系列一:聚焦式分析。根據這個方法,我們可以很方便的計算出之後的行為模式,跟踪這個區塊對重要訪問行為的貢獻程度,從而計算這個區塊的價值。 […]