excel数据分析项目

此次数据来自于葡萄牙某银行电话营销一款定期产品的各类信息汇总

1.提出问题

哪个年龄阶段的客户更有可能接受此次银行推出的产品?

业务员对客户的电话营销日期会对营销结果产生显著营销吗?

客户的信贷情况对产品营销的影响及原因。

2. 数据获取:KAGGLE

3. 数据清洗

3.1 理解数据-选择子集

原数据字段共17个

(1).age(年龄)

(2).job (职业)

(3).marital(婚姻状况)

(4).education(学历)

(5).default(失信记录)

(6).housing(房屋贷款情况)

(7).loan(个人贷款)

(8).balance(资产余额)

(9).deposit(有无存款)

(10).contact(联系方式)

(11).month(最后一次电话营销的月份)

(12).day(最后一次电话营销的日期)

(13)duration(通电时间 )

(14).campaign(这次营销期间与这位客户联系的次数)

(15).pdays(从上次营销到最后一次与客户联系的天数)

(16).previous(在这次营销前与这位客户联系的次数)

(17).poutcome(上次营销结果)

以下字段可以选择隐藏:

balance(资产余额)此项数据属于极其敏感的个人信息,即使是银行内部人员在无客户授权情况下也不能获得,如果是通过客户个人提供,其真实性也存疑,所以暂不纳入分析

duration:(通电时间 )此项数据在业务人员营销完后记录下来的,现实情况中对客户进行电话营销前无法得到此项数据,所以分析无意义

3.2删除重复值

由于此项数据集的字段都不具有唯一性,没有唯一的编号ID。而年龄,职业等单个数据可能搜集到的正好一致,如果应用excel“删除重复项”会造成有效数据缺失。因此,我应用了CONCATENATE函数来结合所有字段,并和IF函数结合来判断是否存在有两列重复的数据记录。发现没有重复数据记录。

3.3处理缺失值

(1)可以使用counta函数或者countblank函数来判断是否存在缺失值,此项数据集完整无需对空白值进行填充或者删除。或者通过选中列数据,查看excel右下角的计数来对比各列。由于字段较多,采用函数一目了然,均是11163个数据。

3.4对无效数据进行删除

发现JOB(职业),education(学历) poutcome(上次营销结果)均有UNKOWN(不知道)的数据,均可以通过筛选留下有效数据内容,再复制到数据清理后的新表进行后续分析。

3.5数据一致化处理

观察各字段数据内容,发现此数据集只需要对日期进行一些格式处理,方便后续分析

1. 将“month”这一列的月份数据通过month()函数统一转变为阿拉伯数字

2. 将day(天数)和月份数据结合转变为周数据,并通过设置单元格格式的“日期”设定将数字形式的周数据转变为易读的文字型数据。

3.6异常值处理

从年龄数据看出,该数据范围波动比较比较大,最小的18,最大的95。由于此项分析是推广银行产品营销,正常情况下业务均需要进行三亲见(亲见客户签名,亲见客户证件,亲见客户本人),不能亲人朋友代办。考虑到实际业务营销成本,我用excel只筛选出80岁以内的数据,并将年龄进行分组来划分客户群体。

应用vlookup函数将“年龄”这一列数据按照下表的划分将客户年龄重新归成不同的分组

4. 分析结论:

(1)将营销结果数据通过年龄分组来汇总数据,组内统计占比比例如下:

老年人和青年组的组内营销成功率远高于其他两个组。所以如果要按既定营销方案来推销此款定期银行产品,主要客户目标群应针对老年人(65<x<81)和青年人(0<x<25)。老年人和青年人对定期产品接受程度远高于其他组,主要是因为他们的风险偏好符合此款产品定位,均属于抗风险能力低的族群。而银行的定期产品风险远远低于其他的理财基金产品。

结论:老年人群体和青年人群体的接受程度较高,符合产品定位,业务营销部门在考虑营销渠道和营销模式是应注重这两个群体的特质。

(2)将营销结果数据按照电话营销当天的星期数统计:可以发现周三是非常特殊的。周三的失败率占到近97%,但令人费解的是周四的失败率却又是整周最低的。

造成此异常日期数据的原因可能是多方面的因素,暂时列举以下几个原因:

A在搜集日期数据是未考虑到法定节假日,法定节假日的调休日或者客户行业的特殊日;

B数据记录错误;

C样本不够大造成的数据偏差;

D其他不确定的行业或者该公司的内部业务人员因素确实造成了实际营销结果的偏差

此项异常特征需要进一步分析。

结合第一个数据分析结论,青年人组和老年人组对此产品接受程度较高,我通过excel 的切片器的功能对上表数据进行筛选。从以下两张图片可以发现青年组以及老年人组这两个成功率最高的分组并没有周三的数据,也就是说业务员们周三进行电话营销的客户群体恰巧都剔除了这两个族群,由此也可以部分解释这个异常值了。这个错误可以规划到样本偏差里,建议数据搜集时扩大样本种类数据再次进行分析了解异常值。

结论:周三营销失败率最低,周四成功率最高,随机数据样本有问题,建议扩大样本再次进行分析。

(3)客户信贷情况对产品营销情况:

1失信记录(no代表没有失信记录,yes代表有过信用不良记录)

有过失信记录的数据样本只有7个,建议扩大样本。但这100%失败率也侧面说明失信客户并不是目标客户,他们没有多余的资金放进银行存定期,更无法通过联动营销来推广其他理财产品。

2.个贷&房贷

由图显示,无房贷和个人贷款的客户的营销成功率为62.86%,是四个分组中成功率最高。此类客户没有经济压力,有较多的积蓄可以进行理财投资。单独的房贷客户营销成功率29.51%远低于个贷客户营销成功率40.91%,这是房贷客户经济压力比个贷客户经济压力更高的原因造成。

结论:银行推销此次定期产品的最具价值的客户应该是无失信记录的客户以及无任何贷款的客户群,其次是个人信贷但无房贷的客户群体。

编辑于 2018-12-11 12:47