当前位置:2018年第2期-总第218期 > 封面故事
“大数据”背景下的客户关系管理研究
作者:贾应丽 阅读次数:10562
 


“大数据”背景下的客户关系管理研究


——B2C电子商务企业为例

文 / 贾应丽[

摘 要: 基于大数据背景下的客户关系管理,着眼于B2C电子商务企业,本文构建了客户分类指标体系,采用因子分析和Bagging模型对一家电商销售数据进行了研究,展示了大数据背景下客户关系管理的具体操作。本文发现,通过对以往消费者行为数据的分类,管理者能够区分出潜在、核心和流失客户;Bagging模型能够预判客户类型,从而指导管理者进行差异化的客户关系管理。

关键词大数据;客户关系管理;客户分类;数据挖掘

中图分类号F224.1        文献标识码A          文章编号

1  引言与文献述评

随着信息技术的发展,多种多样、来源广泛的数据以不同形式飞速增长和积累。这些数据数量巨大,种类各异。在大数据时代中,如何从客户信息挖掘价值,升级已有客户关系管理模型,是一个全新的话题。具体而言,大数据的出现,提高了各种信息的复杂度,数据体量和产生速度,但同时也提高了每一个客户的信息精准度。对于现在的许多企业尤其是在网络上进行交易的电子商务企业,数据分析和信息获取对其具有重要的商业意义。本文着眼于B2C企业,将给出基于大数据,利用数据挖掘技术进行客户关系管理的方法,我们主要着眼于电子商务领域中的B2C(即Business-to-Customer电子商务企业。

近年来,“大数据”成为研究的热点问题,在零售、医疗、电信、金融、制造等行业都得到了广泛关注及研究[1]。同时,大数据也在学术界引起了广泛的关注。Science期刊在20112月推出的关于数据处理的专刊“Dealing with Data”,分析了数据洪流Data Deluge可能会带来的挑战,并进一步说明大数据在今后科研领域的重要性[2]

如今在买方市场环境的主导下,顾客角色从被动采购逐步转换为企业新产品、新服务的共同开发者以及企业的合作者、价值创造者等。客户关系管理的研究最早源于西方的市场营销理论。Gartner Group公司率先提出客户关系管理(Customer Relationship ManagementCRM),即客户关系管理是通过客户细分来最大化了解客户,组织管理企业,采取满足客户需求或加强客户与供应商之间的联系的手段,并通过该手段增加企业收入以及提高客户满意度。早期研究主要侧重理论的探讨,后期发展集中在实用角度。Gartnet GroupCarlson Marketing GroupHurwitz Group等大型公司都积极地推出他们的客户关系管理理念。IBMOracle公司也相继推出CRM系统[3]。部分学者也发现客户价值与公司绩效、公司价值之间具有较高的相关性。

国内针对客户管理的研究更偏向理论性。王健康和寇纪淞[4]构建了客户关系价值链模型,齐佳音等[5]提出评价客户-企业价值的价值评价体系;刘英姿等[6]构建了一个将企业价值和客户价值联系起来的价值链模型,表明了企业价值与客户价值之间联系与互动的过程,企业必须从客户视角来分析企业的价值增值过程,结合客户需求的状况,通过更经济、更有效的方法提供更有价值的产品和服务,增大客户感知价值,从而提高客户忠诚度,进而提升企业的客户价值。

综合现有研究来看,客户关系管理的研究中,较少涉及应用大数据来指导企业的营销活动。本文的研究将基于大数据背景下的客户关系管理,着眼于B2C子商务企业,构建客户分类指标体系,采用因子分析和集成学习模型对一家电商销售数据进行了研究,展示了大数据背景下客户关系管理的具体操作。

2  大数据与客户关系管理

在大数据的背景下,企业必须通过对客户交互信息的不断搜集、处理、分析和挖掘来了解客户的需求与喜好,借此来为客户提供更加个性化的服务,从而实现客户关系管理的目标。

在我国,电子商务是从B2BBusiness to Business)发展而来的,然后有了C2CConsumer to Consumer)和B2CBusiness to Business)两种商业模式。在我国独特的经济环境下,B2C商业模式的发展受居民生活水平、物流行业发展、在线支付的完善程度、网络普及程度等因素的制约,这些决定了B2C的商业模式较适合一级城市和一些较为发达的二级城市。今天,B2C电子商务以其灵活的交易手段、低成本高收益的营销模式、快捷的物流配送支持等优势成为电子商务的业态中发展最迅速同时也是最具有生命力的商业模式。B2C商业形式的电子商务主要是指网络零售业借助于互联网开展在线的销售活动。同时,B2C电子商务正在深刻地改变着经济、市场和产业结构,改变着产品、服务及竞争模式,同时也改变着消费者的价值和行为以及就业形势和劳动力市场结构。

电子商务行业的快速发展和激烈竞争,使这个行业的变化加快,对于电子商务企业的经营者,要想在瞬息万变的行业趋势中做出最快的反应,就必须拥有准确预判的能力,从而,学习运用数据挖掘技术成为必要。因此,大数据挖掘对于电子商务尤为重要。特别是传统企业,如果想要在网络上胜出,必须与互联网接轨,将互联网信息运用到企业中。

客户关系管理就是通过与信息技术的结合,收集、整理、分析客户信息,对客户行为深入研究,为了优化企业资源配置,降低企业成本,以客户为中心开展企业的各项业务,为企业决策提供依据的管理理念。客户关系管理最终要解决的是企业的市场和客户资源分配问题。企业希望通过客户关系管理能够提高效率、为客户提供更加优质的服务、扩大销售、降低成本,实现客户和企业的双赢局面。

以下典型的商业行为可以通过数据挖掘得以解决:以数据库营销、客户群体划分、背景分析、交叉销售等为主要方式的市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等。数据挖掘广阔的应用平台依赖于电子商务领域丰富的信息资源,并能极大地提高企业提炼信息的能力。本文主要讨论数据挖掘在电子商务CRM中的应用,其主要体现发现潜在客户、分析客户价值、客户保持、建立推荐系统、分析客户满意度、改善网站设计、客户信用分析等。

为保证数据挖掘完全有效地进行,本文将电子商务企业用户数据挖掘分成四个大阶段,每个大阶段中又细分成了很多个细节作为小阶段,并且整个过程通过递归迭代的方式得到最优模型,再将理论最优模型从商业的角度进行模式评估,确保理论与实际的统一,提高模型的准确度。如下图所示:


图1 数据挖掘流程图

3  模型的构建

电子商务企业面临的顾客众多,每天店铺的点击量、商品收藏数、逗留时长、消费金额等数据非常繁杂。为了提高效益,企业可以从这些数据中挖掘有用的客户信息,对客户进行分类,从而进行差异化的营销手段,提高客户关系管理水平。企业可以从交易记录中获取数据,电商企业的客户交易数据能全面说明客户的购买行为,具有不涉及个人隐私、易获得且高准确度等特点。而在大数据时代,可以获取结构化和非结构化的数据,包括客户性别、年龄、关联的社交账号、商品链接分享、口碑传递等数据。

3.1 客户分类指标体系的构建

1指标体系构建原则

建立客户分类模型的基础是指标体系的构建,指标选择的好坏直接决定客户分类的质量,因此,建立客户分类指标体系,应遵循科学性原则、全面性原则、可操作性原则、恰当性原则。

2)指标体系的确定

B2C电子商务中,客户的信息可以分成三类:客户人口统计学特征、行为特征、客户价值信息[7,8]。对于人口统计学特征,我们选取年龄、性别以及个人月收入这三个指标,受教育程度与婚姻状况也是影响购买行为的重要指标,但是因为不易获得,因此舍弃;对于行为特征,选取了逗留时长与浏览次数这两个指标;对于客户价值,我们则选取了总消费金额和年均消费金额这两个反映过去价值的指标以及最近1个月消费额和最近3个月消费额这两个反映当前价值的指标。详细的指标体系如表1

表1                                    客户分类指标体系

一级指标

二级指标

指标符号

单位

人口统计学特征

年龄

X1

性别

X2

行为特征

逗留时长

X3

浏览次数

X4

收藏的商品类型

X5

账号注册时间

X6

关联的其他账号

X7

商品链接分享次数


社交网络口碑传递


客户价值

总消费金额


年均消费金额

X11

最近1个月消费额

X12

最近3个月消费额

X13

社交好友购买次数

X9

3.2  客户分类模型的建立

客户分类模型的总体框架。基于B2C电子商务企业的客户分类模型的总体框架如图2,具体说明如下:

1)提取指标。根据设计好的客户分类指标体系,从客户资料数据库中提取相应的指标。

2)因子分析。运用因子分析法,找出潜在的那些影响对客户进行分类结果的因素,最终确定需要应用的因子的个数、各因子的得分以及它们各自的权重。

3)根据(2)的因子得分,进行K-means聚类。

4)用Kruskal-Wallis检验算法对聚类结果进行检验。

5)若聚类结果通过检验,进入(6),若没有通过检验,调整分类类别,直到通过为止。

6)根据聚类结果,分析每一类客户的性质,定义客户类型,并将分类结果反馈到客户资料数据库。

图2 模型框架

3.3  构建预测模型

在对客户进行分类后,电商企业将得到不同类型客户的具体特征,而根据这些特征我们可以采用Bagging等集成学习算法对未来的客户进行预测,来判断一个客户属于什么类型,从而在开始便对客户进行有针对性的客户关系管理以提高客户的满意度。Bagging算法是基于Bootstrap的采样方式下的分类算法,其主要原理是通过投票这一自然方法来解决通过随机选取的相同规模训练集所产生的不同归纳结果来进行组合[9]。一般而言,由不同训练集所产生的可供投票的分类器越多,投票所产生的记过就越可靠。

1Bootstrap采样方法

在这过程中,我们需要应用Bootstrap的采样方法,故以下先对Bootstrap采样方法进行介绍:

Bootstrap的思想是:基于放回采样,对样本规模为n的随机数据集放回采样n次,每次随机抽出一个样本,然后由着n个样本构成一个规模为n的训练集,这样就会出现原来数据集中的有的样本会不出现,有的会多次出现的情况。

设数据集规模为n,则某个样本被选中的概率是1/n,不被选中的概率为(1-1/n),因为新生成的数据集,即训练集规模也为n因此某个数据不在训练集的概率为

对于一个合理大的数据源而言,新生成的训练集大约包含0.632的数据集样本。

但在这种情况下,训练集仅有约63%的样本,因此其训练集的样本使用率是较低的,为了弥补这一缺点,提高数据的使用率,一般是采取将测试集错误率和训练集错误率结合的方式来估计产生的模型的预测错误率。Bootstrap采样方法通过下面的公式来对最终预测错误率进行确定,记最终预测错误率为e,则:

Bootstrap算法需要多次反复进行放回式采样,来以此生成不同的训练集和测试集,最后取预测错误率的平均值作为最终结果。

2)集成学习算法的步骤

Bootstrap的采样方法的基础上,集成学习算法的主要步骤如下。

给定一个训练集S和一个弱训练器h,在每次应用训练集对训练器进行训练后,从S中通过Bootstrap采样取出样本集Si,并用该样本集建立一个对应的基训练器hi,进行λ次这样的训练,就可以得到基分类器h1h2,当有一个测试集u需要分类时,就可以分别用基分类器h1h2,对它进行分类,最后用投票的方法形成最终的分类结果

4 实证分析

4.1  数据采集与分析

本文以某B2C家具企业的数据为例。数据中包括客户信息。基于隐私考虑,这些客户的具体信息只括每个客户性别、年龄、平均每次逗留时长、浏览次数、购买平均单价、总消费金额、总购买次数、最近六个月的消费金额、最近一年消费金额、浏览的其他店铺、付款方式、互动、类别等。我们的研究也将建立在这些数据的基础上。

表2                                              变量描述表

变量

名称

单位

变量符号

类型

宽度

度量标准

性别

gender

x1

字符串

12

名义

年龄

age

x2

数值

12

度量

平均逗留时长

stay

分钟

x3

数值

12

度量

浏览次数

scan

x4

数值

12

度量

平均购买价格

avg_price

x5

数值

12

度量

总消费金额

tl_consump

x6

数值

12

度量

总购买数

amount

x7

数值

12

度量

最近6个月消费金额

consump1

x8

数值

12

度量

最近一年消费金额

consump2

x9

数值

12

度量

浏览的其他店铺

shops

x10

字符串

12

名义

付款方式

payment

x11

字符串

12

名义

是否互动

interaction

x12

字符串

12

名义

4.2 客户价值提取

本节给出基于客户信息,进行客户价值的提取过程。具体地,我们希望根据客户价值的不同对客户进行分类,因此我们选择平均逗留时长、浏览次数、平均购买价格、总消费金额、总购买数、最近6个月消费金额、最近一年消费金额,这七个最能代表客户价值或客户潜在价值的指标进行分析。

首先,我们采用因子分析对上述指标降维。在进行因子分析前必须考察变量之间的相关性,判断是否适合用因子分析法进行分析。下图是标准化的变量之间的相关系数表,从表格中可以看到总逗留时长和浏览次数具有很高的相关性,相关系数为0.692,总逗留时长和浏览次数与其他变量之间的相关度低。而平均购买单价、总消费金额、购买数量、最近6个月消费金额、最近一年消费金额这5个变量之间具有很强的相关性,除了购买数量与最近6个月消费金额的相关系数为0.481以外,其他变量之间的相关系数都超过了0.5。因此可以使用因子分析法。

表3                                          相关系数矩阵

Zscore

stay

scan

avg_price

tl_consump

amount

consump1

consump2

stay

1.000

.692

-.016

.000

-.009

-.028

-.011

scan

.692

1.000

-.003

.025

.012

-.002

.000

avg_price

-.016

-.003

1.000

.868

.674

.724

.569

tl_consump

.000

.025

.868

1.000

.803

.647

.749

amount

-.009

.012

.674

.803

1.000

.481

.635

consump1

-.028

-.002

.724

.647

.481

1.000

.726

consump2

-.011

.000

.569

.749

.635

.726

1.000

4)提取公因子。提取公因子时,我们采用最大方差旋转。使用最大方差旋转后,我们从下表可以看到前两个公因子旋转后的累计方差贡献率为77.912%,可以认为前两个公因子提供了7个变量的足够信息。因此提取两个公因子。

表4                                            解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的 %

累积 %

合计

方差的 %

累积 %

合计

方差的 %

累积 %

1

3.761

53.728

53.728

3.761

53.728

53.728

3.761

53.727

53.727

2

1.693

24.184

77.912

1.693

24.184

77.912

1.693

24.184

77.912

3

0.569

8.123

86.035

4

0.430

6.136

92.171

5

0.308

4.399

96.570

6

0.188

2.682

99.252

7

0.052

0.748

100.000

5)因子旋转。提取两个公因子后,用最大方差法对因子载荷进行旋转,使得每个指标仅在一个公因子上有较大的载荷,而在另一个公因子上的载荷较小。如表5所示。

表5                                       成份得分系数矩阵

Zscore

成份

1

2

stay

-0.002

0.543

scan

0.004

0.543

avg_price

0.236

-0.004

tl_consump

0.251

0.012

Amount

0.221

0.006

consump1

0.218

-0.011

onsump2

0.225

-0.002














根据旋转成份矩阵,可以看出第一个公因子在平均购买价格、总消费金额、总购买数、最近6个月消费金额、最近一年消费金额上有较大的系数,因此可以把公因子1命名为价值因子。第二个公因子在平均逗留时长和平均浏览次数上有较大的系数,可以把公因子2命名为浏览因子。把价值因子和浏览因子作为新的变量,得到每个顾客在新的变量上的值。

4.3 客户分类

通过因子分析法,得到两个新的变量,分别是价值因子和浏览因子。然后用K-means聚类方法对客户进行分类,来确定不同类型的顾客对企业的价值。

表6                                          初始聚类中心

聚类

1

2

3

REGR   factor score   1 for analysis 1

3.13294

-0.33234

7.10015

REGR  factor score   2 for analysis 1

-0.64866

1.65032

-0.81266

表7                                          最终聚类中心

聚类

1

2

3

REGR   factor score   1 for analysis 1

-0.32070

1.00668

1.52675

REGR  factor score   2 for analysis 1

0.92269

0.97035

0.11841

K-means聚类方法需要先确定k个点为凝聚点,然后,根据和这k个点的距离远近,把所有点分成k类。再把这k类的中心(均值)作为新的凝聚点,再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求。在分析中,我们选择将客户分成3类。

表8                                          方差分析表

聚类

误差

F

Sig.

均方

df

均方

df

REGR factor score   1 for analysis 1

468.249

2

0.447

1690

1047.436

0.000

REGR factor score   2 for analysis 1

614.213

2

0.274

1690

2239.167

0.000

从表8的方差分析表中可以看到,K-means聚类的效果非常显著,因此分类效果良好。从表7结果可以看到,第一类顾客的价值因子较小,为0.32,而浏览因子较大,为0.92,说明此类顾客在店铺消费金额较小,但是经常浏览该店铺;第二类顾客的价值因子比第一类顾客的大,为1.0,浏览因子为0.97,说明此类顾客在店铺消费较多,且浏览频繁;第三类顾客的价值因子最大,为1.53,而浏览因子较小,为0.12,说明此类顾客在店铺的消费多,但是浏览次数较小。

根据顾客分类的以上特征,可以把第一类客户定义为潜在客户,他们当前的价值较小,但是浏览次数较多或浏览时间较长;第二类客户定义为核心客户,他们的价值大且浏览次数多,浏览时间长;第三类客户定义为流失客户,他们的价值最大但是浏览次数很少,浏览时间短。从K-means聚类的结果中可以看到在1693个客户里面,有722个潜在客户,647个核心客户以及324个流失客户。

4.4 基于集成学习模型的客户

在对客户进行分类后,我们得到了三种不同类型的客户,分别潜在客户、核心客户和流失客户,并且得到了每种类型客户的具体特征。接下来,根据这些特征我们可以采用集成学习算法,Bagging算法对未来的客户进行识别,来判断一个客户属于什么类型,从而在开始便对客户进行有针对性的客户关系管理以提高客户的满意度。

Bagging算法处理后,错误率收敛到0.15,大大提高了判断精度。根据bagging算法可以判断客户的类型,从而电商企业可以根据客户类型进行差异化的客户关系管理。对于潜在客户,企业可以推送商品的优惠信息,以吸引潜在客户购买;对于核心客户,企业可以展示客户关怀,在节假日送上问候,以及在快递包装上体现企业的特色,以提高客户的忠诚度;对于流失客户,企业同样也可以推送优惠信息吸引其购买,或者联系客户得到改进的建议。

5 结论

在大数据时代背景下,谁能更有效地利用数据里面的信息,谁就能抢占市场的先机,得到制胜的法宝。而作为线上交易的电子商务企业有其独特的优势,若能从大数据中获取有用的信息,加以处理,对客户进行个性化的营销,展示不一样的客户关怀,提高客户满意度,从而提高企业的经济效益。本文详细研究了大数据背景下B2C电子商务企业的客户关系管理,探究了数据挖掘在商业客户关系管理的应用,介绍了电子商务企业数据挖掘流程和方法,并建立了客户关系管理的分析模型。通过因子分析,本文将客户分为潜在客户、核心客户和流失客户,潜在客户的价值因子较低,但浏览因子较高;而核心客户的价值因子和浏览因子都比较高;而流失客户的价值因子较高,而浏览因子较低。根据不同类型客户的特征,本文建立了bagging模型预测客户的类型,帮助企业识别客户,从而达到差异化的营销目标。

参考文献

[1]     McKinseyGlobal Institute. Big data: The next frontier for Innovation Competition andProductivity [R]. USA: McKinsey & Company, 2011

[2]     Dealingwith data [J]. Science2011.

[3]     BigData. Nature, 2008.

[4]     王健康,寇纪淞. 客户关系管理价值链研究[J]. 管理工程学报, 2002, 16(4).

[5]     齐佳音,韩新民,李怀祖. 一种新的客户-企业价值评价体系的设计[J]. 管理工程学报, 2002, 16(4).

[6]     刘英姿,姚兰,严赤卫. 基于价值链的客户价值分析[J].管理工程学报, 2004, 18(4).

作者简介贾应丽,博士研究生,中央财经大学商学院,研究方向:营销风险管理、企业战略规划、商务信用评估。


,


“大数据”背景下的客户关系管理研究


——B2C电子商务企业为例

文 / 贾应丽[

摘 要: 基于大数据背景下的客户关系管理,着眼于B2C电子商务企业,本文构建了客户分类指标体系,采用因子分析和Bagging模型对一家电商销售数据进行了研究,展示了大数据背景下客户关系管理的具体操作。本文发现,通过对以往消费者行为数据的分类,管理者能够区分出潜在、核心和流失客户;Bagging模型能够预判客户类型,从而指导管理者进行差异化的客户关系管理。

关键词大数据;客户关系管理;客户分类;数据挖掘

中图分类号F224.1        文献标识码A          文章编号

1  引言与文献述评

随着信息技术的发展,多种多样、来源广泛的数据以不同形式飞速增长和积累。这些数据数量巨大,种类各异。在大数据时代中,如何从客户信息挖掘价值,升级已有客户关系管理模型,是一个全新的话题。具体而言,大数据的出现,提高了各种信息的复杂度,数据体量和产生速度,但同时也提高了每一个客户的信息精准度。对于现在的许多企业尤其是在网络上进行交易的电子商务企业,数据分析和信息获取对其具有重要的商业意义。本文着眼于B2C企业,将给出基于大数据,利用数据挖掘技术进行客户关系管理的方法,我们主要着眼于电子商务领域中的B2C(即Business-to-Customer电子商务企业。

近年来,“大数据”成为研究的热点问题,在零售、医疗、电信、金融、制造等行业都得到了广泛关注及研究[1]。同时,大数据也在学术界引起了广泛的关注。Science期刊在20112月推出的关于数据处理的专刊“Dealing with Data”,分析了数据洪流Data Deluge可能会带来的挑战,并进一步说明大数据在今后科研领域的重要性[2]

如今在买方市场环境的主导下,顾客角色从被动采购逐步转换为企业新产品、新服务的共同开发者以及企业的合作者、价值创造者等。客户关系管理的研究最早源于西方的市场营销理论。Gartner Group公司率先提出客户关系管理(Customer Relationship ManagementCRM),即客户关系管理是通过客户细分来最大化了解客户,组织管理企业,采取满足客户需求或加强客户与供应商之间的联系的手段,并通过该手段增加企业收入以及提高客户满意度。早期研究主要侧重理论的探讨,后期发展集中在实用角度。Gartnet GroupCarlson Marketing GroupHurwitz Group等大型公司都积极地推出他们的客户关系管理理念。IBMOracle公司也相继推出CRM系统[3]。部分学者也发现客户价值与公司绩效、公司价值之间具有较高的相关性。

国内针对客户管理的研究更偏向理论性。王健康和寇纪淞[4]构建了客户关系价值链模型,齐佳音等[5]提出评价客户-企业价值的价值评价体系;刘英姿等[6]构建了一个将企业价值和客户价值联系起来的价值链模型,表明了企业价值与客户价值之间联系与互动的过程,企业必须从客户视角来分析企业的价值增值过程,结合客户需求的状况,通过更经济、更有效的方法提供更有价值的产品和服务,增大客户感知价值,从而提高客户忠诚度,进而提升企业的客户价值。

综合现有研究来看,客户关系管理的研究中,较少涉及应用大数据来指导企业的营销活动。本文的研究将基于大数据背景下的客户关系管理,着眼于B2C子商务企业,构建客户分类指标体系,采用因子分析和集成学习模型对一家电商销售数据进行了研究,展示了大数据背景下客户关系管理的具体操作。

2  大数据与客户关系管理

在大数据的背景下,企业必须通过对客户交互信息的不断搜集、处理、分析和挖掘来了解客户的需求与喜好,借此来为客户提供更加个性化的服务,从而实现客户关系管理的目标。

在我国,电子商务是从B2BBusiness to Business)发展而来的,然后有了C2CConsumer to Consumer)和B2CBusiness to Business)两种商业模式。在我国独特的经济环境下,B2C商业模式的发展受居民生活水平、物流行业发展、在线支付的完善程度、网络普及程度等因素的制约,这些决定了B2C的商业模式较适合一级城市和一些较为发达的二级城市。今天,B2C电子商务以其灵活的交易手段、低成本高收益的营销模式、快捷的物流配送支持等优势成为电子商务的业态中发展最迅速同时也是最具有生命力的商业模式。B2C商业形式的电子商务主要是指网络零售业借助于互联网开展在线的销售活动。同时,B2C电子商务正在深刻地改变着经济、市场和产业结构,改变着产品、服务及竞争模式,同时也改变着消费者的价值和行为以及就业形势和劳动力市场结构。

电子商务行业的快速发展和激烈竞争,使这个行业的变化加快,对于电子商务企业的经营者,要想在瞬息万变的行业趋势中做出最快的反应,就必须拥有准确预判的能力,从而,学习运用数据挖掘技术成为必要。因此,大数据挖掘对于电子商务尤为重要。特别是传统企业,如果想要在网络上胜出,必须与互联网接轨,将互联网信息运用到企业中。

客户关系管理就是通过与信息技术的结合,收集、整理、分析客户信息,对客户行为深入研究,为了优化企业资源配置,降低企业成本,以客户为中心开展企业的各项业务,为企业决策提供依据的管理理念。客户关系管理最终要解决的是企业的市场和客户资源分配问题。企业希望通过客户关系管理能够提高效率、为客户提供更加优质的服务、扩大销售、降低成本,实现客户和企业的双赢局面。

以下典型的商业行为可以通过数据挖掘得以解决:以数据库营销、客户群体划分、背景分析、交叉销售等为主要方式的市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等。数据挖掘广阔的应用平台依赖于电子商务领域丰富的信息资源,并能极大地提高企业提炼信息的能力。本文主要讨论数据挖掘在电子商务CRM中的应用,其主要体现发现潜在客户、分析客户价值、客户保持、建立推荐系统、分析客户满意度、改善网站设计、客户信用分析等。

为保证数据挖掘完全有效地进行,本文将电子商务企业用户数据挖掘分成四个大阶段,每个大阶段中又细分成了很多个细节作为小阶段,并且整个过程通过递归迭代的方式得到最优模型,再将理论最优模型从商业的角度进行模式评估,确保理论与实际的统一,提高模型的准确度。如下图所示:


图1 数据挖掘流程图

3  模型的构建

电子商务企业面临的顾客众多,每天店铺的点击量、商品收藏数、逗留时长、消费金额等数据非常繁杂。为了提高效益,企业可以从这些数据中挖掘有用的客户信息,对客户进行分类,从而进行差异化的营销手段,提高客户关系管理水平。企业可以从交易记录中获取数据,电商企业的客户交易数据能全面说明客户的购买行为,具有不涉及个人隐私、易获得且高准确度等特点。而在大数据时代,可以获取结构化和非结构化的数据,包括客户性别、年龄、关联的社交账号、商品链接分享、口碑传递等数据。

3.1 客户分类指标体系的构建

1指标体系构建原则

建立客户分类模型的基础是指标体系的构建,指标选择的好坏直接决定客户分类的质量,因此,建立客户分类指标体系,应遵循科学性原则、全面性原则、可操作性原则、恰当性原则。

2)指标体系的确定

B2C电子商务中,客户的信息可以分成三类:客户人口统计学特征、行为特征、客户价值信息[7,8]。对于人口统计学特征,我们选取年龄、性别以及个人月收入这三个指标,受教育程度与婚姻状况也是影响购买行为的重要指标,但是因为不易获得,因此舍弃;对于行为特征,选取了逗留时长与浏览次数这两个指标;对于客户价值,我们则选取了总消费金额和年均消费金额这两个反映过去价值的指标以及最近1个月消费额和最近3个月消费额这两个反映当前价值的指标。详细的指标体系如表1

表1                                    客户分类指标体系

一级指标

二级指标

指标符号

单位

人口统计学特征

年龄

X1

性别

X2

行为特征

逗留时长

X3

浏览次数

X4

收藏的商品类型

X5

账号注册时间

X6

关联的其他账号

X7

商品链接分享次数


社交网络口碑传递


客户价值

总消费金额


年均消费金额

X11

最近1个月消费额

X12

最近3个月消费额

X13

社交好友购买次数

X9

3.2  客户分类模型的建立

客户分类模型的总体框架。基于B2C电子商务企业的客户分类模型的总体框架如图2,具体说明如下:

1)提取指标。根据设计好的客户分类指标体系,从客户资料数据库中提取相应的指标。

2)因子分析。运用因子分析法,找出潜在的那些影响对客户进行分类结果的因素,最终确定需要应用的因子的个数、各因子的得分以及它们各自的权重。

3)根据(2)的因子得分,进行K-means聚类。

4)用Kruskal-Wallis检验算法对聚类结果进行检验。

5)若聚类结果通过检验,进入(6),若没有通过检验,调整分类类别,直到通过为止。

6)根据聚类结果,分析每一类客户的性质,定义客户类型,并将分类结果反馈到客户资料数据库。

图2 模型框架

3.3  构建预测模型

在对客户进行分类后,电商企业将得到不同类型客户的具体特征,而根据这些特征我们可以采用Bagging等集成学习算法对未来的客户进行预测,来判断一个客户属于什么类型,从而在开始便对客户进行有针对性的客户关系管理以提高客户的满意度。Bagging算法是基于Bootstrap的采样方式下的分类算法,其主要原理是通过投票这一自然方法来解决通过随机选取的相同规模训练集所产生的不同归纳结果来进行组合[9]。一般而言,由不同训练集所产生的可供投票的分类器越多,投票所产生的记过就越可靠。

1Bootstrap采样方法

在这过程中,我们需要应用Bootstrap的采样方法,故以下先对Bootstrap采样方法进行介绍:

Bootstrap的思想是:基于放回采样,对样本规模为n的随机数据集放回采样n次,每次随机抽出一个样本,然后由着n个样本构成一个规模为n的训练集,这样就会出现原来数据集中的有的样本会不出现,有的会多次出现的情况。

设数据集规模为n,则某个样本被选中的概率是1/n,不被选中的概率为(1-1/n),因为新生成的数据集,即训练集规模也为n因此某个数据不在训练集的概率为

对于一个合理大的数据源而言,新生成的训练集大约包含0.632的数据集样本。

但在这种情况下,训练集仅有约63%的样本,因此其训练集的样本使用率是较低的,为了弥补这一缺点,提高数据的使用率,一般是采取将测试集错误率和训练集错误率结合的方式来估计产生的模型的预测错误率。Bootstrap采样方法通过下面的公式来对最终预测错误率进行确定,记最终预测错误率为e,则:

Bootstrap算法需要多次反复进行放回式采样,来以此生成不同的训练集和测试集,最后取预测错误率的平均值作为最终结果。

2)集成学习算法的步骤

Bootstrap的采样方法的基础上,集成学习算法的主要步骤如下。

给定一个训练集S和一个弱训练器h,在每次应用训练集对训练器进行训练后,从S中通过Bootstrap采样取出样本集Si,并用该样本集建立一个对应的基训练器hi,进行λ次这样的训练,就可以得到基分类器h1h2,当有一个测试集u需要分类时,就可以分别用基分类器h1h2,对它进行分类,最后用投票的方法形成最终的分类结果

4 实证分析

4.1  数据采集与分析

本文以某B2C家具企业的数据为例。数据中包括客户信息。基于隐私考虑,这些客户的具体信息只括每个客户性别、年龄、平均每次逗留时长、浏览次数、购买平均单价、总消费金额、总购买次数、最近六个月的消费金额、最近一年消费金额、浏览的其他店铺、付款方式、互动、类别等。我们的研究也将建立在这些数据的基础上。

表2                                              变量描述表

变量

名称

单位

变量符号

类型

宽度

度量标准

性别

gender

x1

字符串

12

名义

年龄

age

x2

数值

12

度量

平均逗留时长

stay

分钟

x3

数值

12

度量

浏览次数

scan

x4

数值

12

度量

平均购买价格

avg_price

x5

数值

12

度量

总消费金额

tl_consump

x6

数值

12

度量

总购买数

amount

x7

数值

12

度量

最近6个月消费金额

consump1

x8

数值

12

度量

最近一年消费金额

consump2

x9

数值

12

度量

浏览的其他店铺

shops

x10

字符串

12

名义

付款方式

payment

x11

字符串

12

名义

是否互动

interaction

x12

字符串

12

名义

4.2 客户价值提取

本节给出基于客户信息,进行客户价值的提取过程。具体地,我们希望根据客户价值的不同对客户进行分类,因此我们选择平均逗留时长、浏览次数、平均购买价格、总消费金额、总购买数、最近6个月消费金额、最近一年消费金额,这七个最能代表客户价值或客户潜在价值的指标进行分析。

首先,我们采用因子分析对上述指标降维。在进行因子分析前必须考察变量之间的相关性,判断是否适合用因子分析法进行分析。下图是标准化的变量之间的相关系数表,从表格中可以看到总逗留时长和浏览次数具有很高的相关性,相关系数为0.692,总逗留时长和浏览次数与其他变量之间的相关度低。而平均购买单价、总消费金额、购买数量、最近6个月消费金额、最近一年消费金额这5个变量之间具有很强的相关性,除了购买数量与最近6个月消费金额的相关系数为0.481以外,其他变量之间的相关系数都超过了0.5。因此可以使用因子分析法。

表3                                          相关系数矩阵

Zscore

stay

scan

avg_price

tl_consump

amount

consump1

consump2

stay

1.000

.692

-.016

.000

-.009

-.028

-.011

scan

.692

1.000

-.003

.025

.012

-.002

.000

avg_price

-.016

-.003

1.000

.868

.674

.724

.569

tl_consump

.000

.025

.868

1.000

.803

.647

.749

amount

-.009

.012

.674

.803

1.000

.481

.635

consump1

-.028

-.002

.724

.647

.481

1.000

.726

consump2

-.011

.000

.569

.749

.635

.726

1.000

4)提取公因子。提取公因子时,我们采用最大方差旋转。使用最大方差旋转后,我们从下表可以看到前两个公因子旋转后的累计方差贡献率为77.912%,可以认为前两个公因子提供了7个变量的足够信息。因此提取两个公因子。

表4                                            解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的 %

累积 %

合计

方差的 %

累积 %

合计

方差的 %

累积 %

1

3.761

53.728

53.728

3.761

53.728

53.728

3.761

53.727

53.727

2

1.693

24.184

77.912

1.693

24.184

77.912

1.693

24.184

77.912

3

0.569

8.123

86.035

4

0.430

6.136

92.171

5

0.308

4.399

96.570

6

0.188

2.682

99.252

7

0.052

0.748

100.000

5)因子旋转。提取两个公因子后,用最大方差法对因子载荷进行旋转,使得每个指标仅在一个公因子上有较大的载荷,而在另一个公因子上的载荷较小。如表5所示。

表5                                       成份得分系数矩阵

Zscore

成份

1

2

stay

-0.002

0.543

scan

0.004

0.543

avg_price

0.236

-0.004

tl_consump

0.251

0.012

Amount

0.221

0.006

consump1

0.218

-0.011

onsump2

0.225

-0.002














根据旋转成份矩阵,可以看出第一个公因子在平均购买价格、总消费金额、总购买数、最近6个月消费金额、最近一年消费金额上有较大的系数,因此可以把公因子1命名为价值因子。第二个公因子在平均逗留时长和平均浏览次数上有较大的系数,可以把公因子2命名为浏览因子。把价值因子和浏览因子作为新的变量,得到每个顾客在新的变量上的值。

4.3 客户分类

通过因子分析法,得到两个新的变量,分别是价值因子和浏览因子。然后用K-means聚类方法对客户进行分类,来确定不同类型的顾客对企业的价值。

表6                                          初始聚类中心

聚类

1

2

3

REGR   factor score   1 for analysis 1

3.13294

-0.33234

7.10015

REGR  factor score   2 for analysis 1

-0.64866

1.65032

-0.81266

表7                                          最终聚类中心

聚类

1

2

3

REGR   factor score   1 for analysis 1

-0.32070

1.00668

1.52675

REGR  factor score   2 for analysis 1

0.92269

0.97035

0.11841

K-means聚类方法需要先确定k个点为凝聚点,然后,根据和这k个点的距离远近,把所有点分成k类。再把这k类的中心(均值)作为新的凝聚点,再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求。在分析中,我们选择将客户分成3类。

表8                                          方差分析表

聚类

误差

F

Sig.

均方

df

均方

df

REGR factor score   1 for analysis 1

468.249

2

0.447

1690

1047.436

0.000

REGR factor score   2 for analysis 1

614.213

2

0.274

1690

2239.167

0.000

从表8的方差分析表中可以看到,K-means聚类的效果非常显著,因此分类效果良好。从表7结果可以看到,第一类顾客的价值因子较小,为0.32,而浏览因子较大,为0.92,说明此类顾客在店铺消费金额较小,但是经常浏览该店铺;第二类顾客的价值因子比第一类顾客的大,为1.0,浏览因子为0.97,说明此类顾客在店铺消费较多,且浏览频繁;第三类顾客的价值因子最大,为1.53,而浏览因子较小,为0.12,说明此类顾客在店铺的消费多,但是浏览次数较小。

根据顾客分类的以上特征,可以把第一类客户定义为潜在客户,他们当前的价值较小,但是浏览次数较多或浏览时间较长;第二类客户定义为核心客户,他们的价值大且浏览次数多,浏览时间长;第三类客户定义为流失客户,他们的价值最大但是浏览次数很少,浏览时间短。从K-means聚类的结果中可以看到在1693个客户里面,有722个潜在客户,647个核心客户以及324个流失客户。

4.4 基于集成学习模型的客户

在对客户进行分类后,我们得到了三种不同类型的客户,分别潜在客户、核心客户和流失客户,并且得到了每种类型客户的具体特征。接下来,根据这些特征我们可以采用集成学习算法,Bagging算法对未来的客户进行识别,来判断一个客户属于什么类型,从而在开始便对客户进行有针对性的客户关系管理以提高客户的满意度。

Bagging算法处理后,错误率收敛到0.15,大大提高了判断精度。根据bagging算法可以判断客户的类型,从而电商企业可以根据客户类型进行差异化的客户关系管理。对于潜在客户,企业可以推送商品的优惠信息,以吸引潜在客户购买;对于核心客户,企业可以展示客户关怀,在节假日送上问候,以及在快递包装上体现企业的特色,以提高客户的忠诚度;对于流失客户,企业同样也可以推送优惠信息吸引其购买,或者联系客户得到改进的建议。

5 结论

在大数据时代背景下,谁能更有效地利用数据里面的信息,谁就能抢占市场的先机,得到制胜的法宝。而作为线上交易的电子商务企业有其独特的优势,若能从大数据中获取有用的信息,加以处理,对客户进行个性化的营销,展示不一样的客户关怀,提高客户满意度,从而提高企业的经济效益。本文详细研究了大数据背景下B2C电子商务企业的客户关系管理,探究了数据挖掘在商业客户关系管理的应用,介绍了电子商务企业数据挖掘流程和方法,并建立了客户关系管理的分析模型。通过因子分析,本文将客户分为潜在客户、核心客户和流失客户,潜在客户的价值因子较低,但浏览因子较高;而核心客户的价值因子和浏览因子都比较高;而流失客户的价值因子较高,而浏览因子较低。根据不同类型客户的特征,本文建立了bagging模型预测客户的类型,帮助企业识别客户,从而达到差异化的营销目标。

参考文献

[1]     McKinseyGlobal Institute. Big data: The next frontier for Innovation Competition andProductivity [R]. USA: McKinsey & Company, 2011

[2]     Dealingwith data [J]. Science2011.

[3]     BigData. Nature, 2008.

[4]     王健康,寇纪淞. 客户关系管理价值链研究[J]. 管理工程学报, 2002, 16(4).

[5]     齐佳音,韩新民,李怀祖. 一种新的客户-企业价值评价体系的设计[J]. 管理工程学报, 2002, 16(4).

[6]     刘英姿,姚兰,严赤卫. 基于价值链的客户价值分析[J].管理工程学报, 2004, 18(4).

作者简介贾应丽,博士研究生,中央财经大学商学院,研究方向:营销风险管理、企业战略规划、商务信用评估。


,


“大数据”背景下的客户关系管理研究


——B2C电子商务企业为例

文 / 贾应丽[

摘 要: 基于大数据背景下的客户关系管理,着眼于B2C电子商务企业,本文构建了客户分类指标体系,采用因子分析和Bagging模型对一家电商销售数据进行了研究,展示了大数据背景下客户关系管理的具体操作。本文发现,通过对以往消费者行为数据的分类,管理者能够区分出潜在、核心和流失客户;Bagging模型能够预判客户类型,从而指导管理者进行差异化的客户关系管理。

关键词大数据;客户关系管理;客户分类;数据挖掘

中图分类号F224.1        文献标识码A          文章编号

1  引言与文献述评

随着信息技术的发展,多种多样、来源广泛的数据以不同形式飞速增长和积累。这些数据数量巨大,种类各异。在大数据时代中,如何从客户信息挖掘价值,升级已有客户关系管理模型,是一个全新的话题。具体而言,大数据的出现,提高了各种信息的复杂度,数据体量和产生速度,但同时也提高了每一个客户的信息精准度。对于现在的许多企业尤其是在网络上进行交易的电子商务企业,数据分析和信息获取对其具有重要的商业意义。本文着眼于B2C企业,将给出基于大数据,利用数据挖掘技术进行客户关系管理的方法,我们主要着眼于电子商务领域中的B2C(即Business-to-Customer电子商务企业。

近年来,“大数据”成为研究的热点问题,在零售、医疗、电信、金融、制造等行业都得到了广泛关注及研究[1]。同时,大数据也在学术界引起了广泛的关注。Science期刊在20112月推出的关于数据处理的专刊“Dealing with Data”,分析了数据洪流Data Deluge可能会带来的挑战,并进一步说明大数据在今后科研领域的重要性[2]

如今在买方市场环境的主导下,顾客角色从被动采购逐步转换为企业新产品、新服务的共同开发者以及企业的合作者、价值创造者等。客户关系管理的研究最早源于西方的市场营销理论。Gartner Group公司率先提出客户关系管理(Customer Relationship ManagementCRM),即客户关系管理是通过客户细分来最大化了解客户,组织管理企业,采取满足客户需求或加强客户与供应商之间的联系的手段,并通过该手段增加企业收入以及提高客户满意度。早期研究主要侧重理论的探讨,后期发展集中在实用角度。Gartnet GroupCarlson Marketing GroupHurwitz Group等大型公司都积极地推出他们的客户关系管理理念。IBMOracle公司也相继推出CRM系统[3]。部分学者也发现客户价值与公司绩效、公司价值之间具有较高的相关性。

国内针对客户管理的研究更偏向理论性。王健康和寇纪淞[4]构建了客户关系价值链模型,齐佳音等[5]提出评价客户-企业价值的价值评价体系;刘英姿等[6]构建了一个将企业价值和客户价值联系起来的价值链模型,表明了企业价值与客户价值之间联系与互动的过程,企业必须从客户视角来分析企业的价值增值过程,结合客户需求的状况,通过更经济、更有效的方法提供更有价值的产品和服务,增大客户感知价值,从而提高客户忠诚度,进而提升企业的客户价值。

综合现有研究来看,客户关系管理的研究中,较少涉及应用大数据来指导企业的营销活动。本文的研究将基于大数据背景下的客户关系管理,着眼于B2C子商务企业,构建客户分类指标体系,采用因子分析和集成学习模型对一家电商销售数据进行了研究,展示了大数据背景下客户关系管理的具体操作。

2  大数据与客户关系管理

在大数据的背景下,企业必须通过对客户交互信息的不断搜集、处理、分析和挖掘来了解客户的需求与喜好,借此来为客户提供更加个性化的服务,从而实现客户关系管理的目标。

在我国,电子商务是从B2BBusiness to Business)发展而来的,然后有了C2CConsumer to Consumer)和B2CBusiness to Business)两种商业模式。在我国独特的经济环境下,B2C商业模式的发展受居民生活水平、物流行业发展、在线支付的完善程度、网络普及程度等因素的制约,这些决定了B2C的商业模式较适合一级城市和一些较为发达的二级城市。今天,B2C电子商务以其灵活的交易手段、低成本高收益的营销模式、快捷的物流配送支持等优势成为电子商务的业态中发展最迅速同时也是最具有生命力的商业模式。B2C商业形式的电子商务主要是指网络零售业借助于互联网开展在线的销售活动。同时,B2C电子商务正在深刻地改变着经济、市场和产业结构,改变着产品、服务及竞争模式,同时也改变着消费者的价值和行为以及就业形势和劳动力市场结构。

电子商务行业的快速发展和激烈竞争,使这个行业的变化加快,对于电子商务企业的经营者,要想在瞬息万变的行业趋势中做出最快的反应,就必须拥有准确预判的能力,从而,学习运用数据挖掘技术成为必要。因此,大数据挖掘对于电子商务尤为重要。特别是传统企业,如果想要在网络上胜出,必须与互联网接轨,将互联网信息运用到企业中。

客户关系管理就是通过与信息技术的结合,收集、整理、分析客户信息,对客户行为深入研究,为了优化企业资源配置,降低企业成本,以客户为中心开展企业的各项业务,为企业决策提供依据的管理理念。客户关系管理最终要解决的是企业的市场和客户资源分配问题。企业希望通过客户关系管理能够提高效率、为客户提供更加优质的服务、扩大销售、降低成本,实现客户和企业的双赢局面。

以下典型的商业行为可以通过数据挖掘得以解决:以数据库营销、客户群体划分、背景分析、交叉销售等为主要方式的市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等。数据挖掘广阔的应用平台依赖于电子商务领域丰富的信息资源,并能极大地提高企业提炼信息的能力。本文主要讨论数据挖掘在电子商务CRM中的应用,其主要体现发现潜在客户、分析客户价值、客户保持、建立推荐系统、分析客户满意度、改善网站设计、客户信用分析等。

为保证数据挖掘完全有效地进行,本文将电子商务企业用户数据挖掘分成四个大阶段,每个大阶段中又细分成了很多个细节作为小阶段,并且整个过程通过递归迭代的方式得到最优模型,再将理论最优模型从商业的角度进行模式评估,确保理论与实际的统一,提高模型的准确度。如下图所示:


图1 数据挖掘流程图

3  模型的构建

电子商务企业面临的顾客众多,每天店铺的点击量、商品收藏数、逗留时长、消费金额等数据非常繁杂。为了提高效益,企业可以从这些数据中挖掘有用的客户信息,对客户进行分类,从而进行差异化的营销手段,提高客户关系管理水平。企业可以从交易记录中获取数据,电商企业的客户交易数据能全面说明客户的购买行为,具有不涉及个人隐私、易获得且高准确度等特点。而在大数据时代,可以获取结构化和非结构化的数据,包括客户性别、年龄、关联的社交账号、商品链接分享、口碑传递等数据。

3.1 客户分类指标体系的构建

1指标体系构建原则

建立客户分类模型的基础是指标体系的构建,指标选择的好坏直接决定客户分类的质量,因此,建立客户分类指标体系,应遵循科学性原则、全面性原则、可操作性原则、恰当性原则。

2)指标体系的确定

B2C电子商务中,客户的信息可以分成三类:客户人口统计学特征、行为特征、客户价值信息[7,8]。对于人口统计学特征,我们选取年龄、性别以及个人月收入这三个指标,受教育程度与婚姻状况也是影响购买行为的重要指标,但是因为不易获得,因此舍弃;对于行为特征,选取了逗留时长与浏览次数这两个指标;对于客户价值,我们则选取了总消费金额和年均消费金额这两个反映过去价值的指标以及最近1个月消费额和最近3个月消费额这两个反映当前价值的指标。详细的指标体系如表1

表1                                    客户分类指标体系

一级指标

二级指标

指标符号

单位

人口统计学特征

年龄

X1

性别

X2

行为特征

逗留时长

X3

浏览次数

X4

收藏的商品类型

X5

账号注册时间

X6

关联的其他账号

X7

商品链接分享次数


社交网络口碑传递


客户价值

总消费金额


年均消费金额

X11

最近1个月消费额

X12

最近3个月消费额

X13

社交好友购买次数

X9

3.2  客户分类模型的建立

客户分类模型的总体框架。基于B2C电子商务企业的客户分类模型的总体框架如图2,具体说明如下:

1)提取指标。根据设计好的客户分类指标体系,从客户资料数据库中提取相应的指标。

2)因子分析。运用因子分析法,找出潜在的那些影响对客户进行分类结果的因素,最终确定需要应用的因子的个数、各因子的得分以及它们各自的权重。

3)根据(2)的因子得分,进行K-means聚类。

4)用Kruskal-Wallis检验算法对聚类结果进行检验。

5)若聚类结果通过检验,进入(6),若没有通过检验,调整分类类别,直到通过为止。

6)根据聚类结果,分析每一类客户的性质,定义客户类型,并将分类结果反馈到客户资料数据库。

图2 模型框架

3.3  构建预测模型

在对客户进行分类后,电商企业将得到不同类型客户的具体特征,而根据这些特征我们可以采用Bagging等集成学习算法对未来的客户进行预测,来判断一个客户属于什么类型,从而在开始便对客户进行有针对性的客户关系管理以提高客户的满意度。Bagging算法是基于Bootstrap的采样方式下的分类算法,其主要原理是通过投票这一自然方法来解决通过随机选取的相同规模训练集所产生的不同归纳结果来进行组合[9]。一般而言,由不同训练集所产生的可供投票的分类器越多,投票所产生的记过就越可靠。

1Bootstrap采样方法

在这过程中,我们需要应用Bootstrap的采样方法,故以下先对Bootstrap采样方法进行介绍:

Bootstrap的思想是:基于放回采样,对样本规模为n的随机数据集放回采样n次,每次随机抽出一个样本,然后由着n个样本构成一个规模为n的训练集,这样就会出现原来数据集中的有的样本会不出现,有的会多次出现的情况。

设数据集规模为n,则某个样本被选中的概率是1/n,不被选中的概率为(1-1/n),因为新生成的数据集,即训练集规模也为n因此某个数据不在训练集的概率为

对于一个合理大的数据源而言,新生成的训练集大约包含0.632的数据集样本。

但在这种情况下,训练集仅有约63%的样本,因此其训练集的样本使用率是较低的,为了弥补这一缺点,提高数据的使用率,一般是采取将测试集错误率和训练集错误率结合的方式来估计产生的模型的预测错误率。Bootstrap采样方法通过下面的公式来对最终预测错误率进行确定,记最终预测错误率为e,则:

Bootstrap算法需要多次反复进行放回式采样,来以此生成不同的训练集和测试集,最后取预测错误率的平均值作为最终结果。

2)集成学习算法的步骤

Bootstrap的采样方法的基础上,集成学习算法的主要步骤如下。

给定一个训练集S和一个弱训练器h,在每次应用训练集对训练器进行训练后,从S中通过Bootstrap采样取出样本集Si,并用该样本集建立一个对应的基训练器hi,进行λ次这样的训练,就可以得到基分类器h1h2,当有一个测试集u需要分类时,就可以分别用基分类器h1h2,对它进行分类,最后用投票的方法形成最终的分类结果

4 实证分析

4.1  数据采集与分析

本文以某B2C家具企业的数据为例。数据中包括客户信息。基于隐私考虑,这些客户的具体信息只括每个客户性别、年龄、平均每次逗留时长、浏览次数、购买平均单价、总消费金额、总购买次数、最近六个月的消费金额、最近一年消费金额、浏览的其他店铺、付款方式、互动、类别等。我们的研究也将建立在这些数据的基础上。

表2                                              变量描述表

变量

名称

单位

变量符号

类型

宽度

度量标准

性别

gender

x1

字符串

12

名义

年龄

age

x2

数值

12

度量

平均逗留时长

stay

分钟

x3

数值

12

度量

浏览次数

scan

x4

数值

12

度量

平均购买价格

avg_price

x5

数值

12

度量

总消费金额

tl_consump

x6

数值

12

度量

总购买数

amount

x7

数值

12

度量

最近6个月消费金额

consump1

x8

数值

12

度量

最近一年消费金额

consump2

x9

数值

12

度量

浏览的其他店铺

shops

x10

字符串

12

名义

付款方式

payment

x11

字符串

12

名义

是否互动

interaction

x12

字符串

12

名义

4.2 客户价值提取

本节给出基于客户信息,进行客户价值的提取过程。具体地,我们希望根据客户价值的不同对客户进行分类,因此我们选择平均逗留时长、浏览次数、平均购买价格、总消费金额、总购买数、最近6个月消费金额、最近一年消费金额,这七个最能代表客户价值或客户潜在价值的指标进行分析。

首先,我们采用因子分析对上述指标降维。在进行因子分析前必须考察变量之间的相关性,判断是否适合用因子分析法进行分析。下图是标准化的变量之间的相关系数表,从表格中可以看到总逗留时长和浏览次数具有很高的相关性,相关系数为0.692,总逗留时长和浏览次数与其他变量之间的相关度低。而平均购买单价、总消费金额、购买数量、最近6个月消费金额、最近一年消费金额这5个变量之间具有很强的相关性,除了购买数量与最近6个月消费金额的相关系数为0.481以外,其他变量之间的相关系数都超过了0.5。因此可以使用因子分析法。

表3                                          相关系数矩阵

Zscore

stay

scan

avg_price

tl_consump

amount

consump1

consump2

stay

1.000

.692

-.016

.000

-.009

-.028

-.011

scan

.692

1.000

-.003

.025

.012

-.002

.000

avg_price

-.016

-.003

1.000

.868

.674

.724

.569

tl_consump

.000

.025

.868

1.000

.803

.647

.749

amount

-.009

.012

.674

.803

1.000

.481

.635

consump1

-.028

-.002

.724

.647

.481

1.000

.726

consump2

-.011

.000

.569

.749

.635

.726

1.000

4)提取公因子。提取公因子时,我们采用最大方差旋转。使用最大方差旋转后,我们从下表可以看到前两个公因子旋转后的累计方差贡献率为77.912%,可以认为前两个公因子提供了7个变量的足够信息。因此提取两个公因子。

表4                                            解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的 %

累积 %

合计

方差的 %

累积 %

合计

方差的 %

累积 %

1

3.761

53.728

53.728

3.761

53.728

53.728

3.761

53.727

53.727

2

1.693

24.184

77.912

1.693

24.184

77.912

1.693

24.184

77.912

3

0.569

8.123

86.035

4

0.430

6.136

92.171

5

0.308

4.399

96.570

6

0.188

2.682

99.252

7

0.052

0.748

100.000

5)因子旋转。提取两个公因子后,用最大方差法对因子载荷进行旋转,使得每个指标仅在一个公因子上有较大的载荷,而在另一个公因子上的载荷较小。如表5所示。

表5                                       成份得分系数矩阵

Zscore

成份

1

2

stay

-0.002

0.543

scan

0.004

0.543

avg_price

0.236

-0.004

tl_consump

0.251

0.012

Amount

0.221

0.006

consump1

0.218

-0.011

onsump2

0.225

-0.002














根据旋转成份矩阵,可以看出第一个公因子在平均购买价格、总消费金额、总购买数、最近6个月消费金额、最近一年消费金额上有较大的系数,因此可以把公因子1命名为价值因子。第二个公因子在平均逗留时长和平均浏览次数上有较大的系数,可以把公因子2命名为浏览因子。把价值因子和浏览因子作为新的变量,得到每个顾客在新的变量上的值。

4.3 客户分类

通过因子分析法,得到两个新的变量,分别是价值因子和浏览因子。然后用K-means聚类方法对客户进行分类,来确定不同类型的顾客对企业的价值。

表6                                          初始聚类中心

聚类

1

2

3

REGR   factor score   1 for analysis 1

3.13294

-0.33234

7.10015

REGR  factor score   2 for analysis 1

-0.64866

1.65032

-0.81266

表7                                          最终聚类中心

聚类

1

2

3

REGR   factor score   1 for analysis 1

-0.32070

1.00668

1.52675

REGR  factor score   2 for analysis 1

0.92269

0.97035

0.11841

K-means聚类方法需要先确定k个点为凝聚点,然后,根据和这k个点的距离远近,把所有点分成k类。再把这k类的中心(均值)作为新的凝聚点,再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求。在分析中,我们选择将客户分成3类。

表8                                          方差分析表

聚类

误差

F

Sig.

均方

df

均方

df

REGR factor score   1 for analysis 1

468.249

2

0.447

1690

1047.436

0.000

REGR factor score   2 for analysis 1

614.213

2

0.274

1690

2239.167

0.000

从表8的方差分析表中可以看到,K-means聚类的效果非常显著,因此分类效果良好。从表7结果可以看到,第一类顾客的价值因子较小,为0.32,而浏览因子较大,为0.92,说明此类顾客在店铺消费金额较小,但是经常浏览该店铺;第二类顾客的价值因子比第一类顾客的大,为1.0,浏览因子为0.97,说明此类顾客在店铺消费较多,且浏览频繁;第三类顾客的价值因子最大,为1.53,而浏览因子较小,为0.12,说明此类顾客在店铺的消费多,但是浏览次数较小。

根据顾客分类的以上特征,可以把第一类客户定义为潜在客户,他们当前的价值较小,但是浏览次数较多或浏览时间较长;第二类客户定义为核心客户,他们的价值大且浏览次数多,浏览时间长;第三类客户定义为流失客户,他们的价值最大但是浏览次数很少,浏览时间短。从K-means聚类的结果中可以看到在1693个客户里面,有722个潜在客户,647个核心客户以及324个流失客户。

4.4 基于集成学习模型的客户

在对客户进行分类后,我们得到了三种不同类型的客户,分别潜在客户、核心客户和流失客户,并且得到了每种类型客户的具体特征。接下来,根据这些特征我们可以采用集成学习算法,Bagging算法对未来的客户进行识别,来判断一个客户属于什么类型,从而在开始便对客户进行有针对性的客户关系管理以提高客户的满意度。

Bagging算法处理后,错误率收敛到0.15,大大提高了判断精度。根据bagging算法可以判断客户的类型,从而电商企业可以根据客户类型进行差异化的客户关系管理。对于潜在客户,企业可以推送商品的优惠信息,以吸引潜在客户购买;对于核心客户,企业可以展示客户关怀,在节假日送上问候,以及在快递包装上体现企业的特色,以提高客户的忠诚度;对于流失客户,企业同样也可以推送优惠信息吸引其购买,或者联系客户得到改进的建议。

5 结论

在大数据时代背景下,谁能更有效地利用数据里面的信息,谁就能抢占市场的先机,得到制胜的法宝。而作为线上交易的电子商务企业有其独特的优势,若能从大数据中获取有用的信息,加以处理,对客户进行个性化的营销,展示不一样的客户关怀,提高客户满意度,从而提高企业的经济效益。本文详细研究了大数据背景下B2C电子商务企业的客户关系管理,探究了数据挖掘在商业客户关系管理的应用,介绍了电子商务企业数据挖掘流程和方法,并建立了客户关系管理的分析模型。通过因子分析,本文将客户分为潜在客户、核心客户和流失客户,潜在客户的价值因子较低,但浏览因子较高;而核心客户的价值因子和浏览因子都比较高;而流失客户的价值因子较高,而浏览因子较低。根据不同类型客户的特征,本文建立了bagging模型预测客户的类型,帮助企业识别客户,从而达到差异化的营销目标。

参考文献

[1]     McKinseyGlobal Institute. Big data: The next frontier for Innovation Competition andProductivity [R]. USA: McKinsey & Company, 2011

[2]     Dealingwith data [J]. Science2011.

[3]     BigData. Nature, 2008.

[4]     王健康,寇纪淞. 客户关系管理价值链研究[J]. 管理工程学报, 2002, 16(4).

[5]     齐佳音,韩新民,李怀祖. 一种新的客户-企业价值评价体系的设计[J]. 管理工程学报, 2002, 16(4).

[6]     刘英姿,姚兰,严赤卫. 基于价值链的客户价值分析[J].管理工程学报, 2004, 18(4).

作者简介贾应丽,博士研究生,中央财经大学商学院,研究方向:营销风险管理、企业战略规划、商务信用评估。


电子商务培训中心版权所有 未经本刊书面同意请勿转载

Copyright © 2003-2006 eb-online.cn all reserved. 京ICP备10010770号-6