清创创投学院公开课：陈思伟——利用大数据做多渠道精准营销

2015年9月24日晚，清创创投学院第一次公开课在清创空间多功能大厅开课。本次公开课由清创空间与雪晴数据网联合举办，讲课的老师是在美国电商行业有十几年工作经验的陈思伟(Steven Chen)，陈老师结合自己的经验为同学们介绍了美国的电子商务公司、银行、零售等行业如何利用大数据做多渠道精准营销。参加本次公开课的同学来自于亚信、美团、灵思集团、中国远航、京东、SAS等公司的数据分析从业人员，也有来自于对大数据精准营销感兴趣的垂直电商行业CEO以及各大高校的学生。

下面是陈老师讲课的部分内容：

一．美国的数据从哪里来？

Steven Chen介绍到，美国目前有很多第三方数据公司，从数据收集、整理、分析、模型应用、效果评估各环节入手，已经成为了一个成熟的数据产业链条。大型的公司包括Steven本人曾经工作过的Exprian（益百利），中小型的包括很多调查公司。产业链外的各行业，如零售、金融、汽车、服务等行业既无偿的向第三方公司开放数据，同时也从这些数据分析公司购买分析结果。而在国内，我们可能意识到了数据的重要性，但是在具体的数据开放程度做得还不够，以至于形成了一定的数据孤岛。不过相信不久我们国家无论在政府层面还是对企业来说，必要的数据开放肯定是大趋势(这对想在大数据领域创业的小伙伴来说是利好消息啊！)。益百利等第三方数据公司的数据有以下来源：政府/NGO公开数据，零售、金融等行业公司内部数据、从调查公司购买的调查数据。这些不同来源的数据，通过社保号、姓名、地址等信息相互匹配，数据公司将它们整合到一起，生成数据公司内部使用的唯一识别码进行关联。针对每个个体，大概有2000多维度的数据，常用维度如性别、年龄等覆盖率能达到全国人口90%以上，对于一些缺失比例较大的维度，则采用插补或者回归的方法来填补。同时，多重来源的数据可以进行相互验证，对其中存在的伪数据进行修正和清洗。

二．美国的传统行业怎么做精准营销？

(1)银行征信

因为拥有用户多渠道来源的数据，涵盖人口学信息、既往消费情况、既往信用情况，可以充分利用这些维度的信息，对2000多维的变量先进行筛选后构建回归模型，可以分析出潜在用户信用高低rank、潜在用户消费可能性高低rank，两个rank用一定的方式糅合在一块儿，就能圈定最适合的信用卡推广群体。

(2)保险续保

依然是利用多维度的数据，对是否续保这一行为进行回归为主的方法的建模，应用到待判定人群，评价其续保可能性。

(3)汽车精准营销

除了利用数据库中已有的多维度的数据，同时考虑用户的既往浏览、查询、搜索等信息，既要判断其是否买车，同时要为不同的厂家判断是否购买某种车，同时，还会做一些用户忠诚度的分析，这些都还是主要基于回归为主的一系列方法。

三．美国电商领域数据分析应用

(1)多渠道营销优化

传统的渠道营销效果判定是根据用户购买前最后一次接触到的正在做营销的渠道来进行统计的，比如，客户A在购买某产品前，依次看到了该产品的电视广告、网站外推、手机短信，最终通过短信里的链接登录购买了该产品，传统的统计方法，就会将客户A的这次购买完全归功于手机短信，这样做，势必会高估短信的ROI，而低估了之前环节的ROI。Steven的团队改进了计算各渠道ROI的模型，通过追踪用户cookie，纳入用户每个时间点的行为，从购买时间点往前回溯，将整个时间线上的所有用户接触过的营销渠道都纳入建模考虑中，修正了既往某些渠道高估/低估ROI的情况。

(2)精准营销结果评价

对于数据模型选择出来的目标人群进行精准营销，我们如何量化的衡量建模带来的收益？如果单纯的将营销前和营销后进行对比，很难排除时间因素以及其他非营销因素的干扰。Steven介绍还是使用A/B Test的方法，在同一时间既对模型选择出来的人群和全人群中随机抽样的样本进行同样的营销，在经过一段时间后，比较这两个人群的效果，如一周内的购买率，两个人群指标的差值即为建模带来的收益。当然，抽样的样本需要经过计算，对于购买率为5%左右的商品，就可以分为95万的模型选择精准人群和5万的随机抽样人群。

四．观众问答

(1)大数据实践中除Steven提到的回归外，还有哪些常用的算法？

除了回归外，决策树类的方法也经常使用，很多fancy的方法如SVM、神经网络等虽然理论很好，但实际应用中常出现过拟合、计算成本高等问题，所以Steven更推荐稳健的、计算成本小、外推性能好的模型。

(2)针对Steven讲述中提到的利用小样本（大概1000）的调查数据，给大样本没有调查的用户进行用户类型分类的mapping技术，具体是有监督、无监督还是半监督的做法？

小样本调查用户较大样本无调查的用户，多了调查问卷中涉及的特殊变量，以及已知他们的用户类型，Steven的团队主要采取了利用调查用户的数据进行分类器有监督的建模（利用第三方公司的2000多维的数据），再将该模型应用到大样本无标签用户上的做法。

(3)短信还能作为精准营销的主要渠道吗？

留5%不发短信，预留一段时间（可以人为给定），再看两个人群响应率的差异，如果效果好的话是可以的。

(4)美国怎么做电商？会给用户发短信吗？还是只发邮件？站内信？

有导流网站、视频媒体、音乐网站、印刷品、电子邮件、搜索引擎展示广告等等。

(5)聚类之后，定位了目标用户，数据不足，怎么分析用户特性？如何选渠道做营销？

可以做一个基于增加值的模型，选渠道的时候基于以往各渠道的数据，计算各渠道的Roi。

五．其他

除了上述内容，Steven还对中国目前各公司数据壁垒现状进行了评价和展望，认为今后以阿里为首的大型互联网公司会公开他们的数据库，尽管目前中国数据产业链的发展还是以小而散的形态，但是这块领域有很强的潜在需求，既需要政府主导的对数据壁垒的打破，也需要培养传统行业的数据收集、数据分析的意识，目前有很多商业场景都可以应用数据挖掘的方法提高效益、降低成本、优化现有方案，这些都相应的市场意识（需求）、数据（基础）、从业人员和技术。

北京清创科技孵化器有限公司