《数据之美系列》第二篇：怎么做数据掘金？

作者杨钢老师 2020-07-14 10:42 3754

《数据之美》系列

第二篇：怎么做数据掘金？

严格的说，无论是宏观数据、行业数据还是经营管理数据，绝大多数的获取难度都不高，都可以从国家统计局、行业协会、上市公司报告以及企业所编制的各类报表中找到。真正困难的地方在于，企业需要识别哪些数据可以应用、哪些数据不必采集，因此，这就涉及到数据挖掘的两个关键：数据的相关性与因果性。

舍恩伯格在《大数据时代》一书中曾表达了这样一个观点，意思是在大数据时代，数据的相关性比因果性更重要，在大数据时代要相关性而不要因果性。这个论断多少显得有些不够严谨，因为本质上企业对数据进行分析，最重要的是想了解到不同维度、不同类型的数据之间究竟存在何种程度的因果性关系，即A数据会对B数据构成何种影响。而不同类型的数据之间所存在的链路有时候会很长、层级会很多，要解构其因果性关系的难度会很大，所以呈现出的特征看似不是因果关系，而作者就将这类弱相关的关系定义为相关性而非因果性。

以美国刮飓风和与蛋挞销量激增为例，两者看似无关，但其实细琢磨就会发现两者之间存在这样一个因果关系：飓风会导致电力和交通中断，超市也会关闭，居民不得不宅在家里而无法外出购物，所以，就需要提前准备食物尤其是高热量的食物。而蛋挞是一种高热量、易储存的食物，因此，一旦刮飓风或者出现极端天气，不仅蛋挞的销量会激增，包括酒精、薯片、热狗的销量也会激增，同时，在线游戏和在线点播视频节目的点击量也会明显增长。两者之间本质上还是因果性，而这种因果性有时候是正相关有时候是负相关。

这个简单的例子说明的是复杂的事务之间如果沿用过往的经验与常识，以及用现有的技术或方法无法对其验证因果关系时，但A数据的变化又会与B数据的变化存在一定程度的关联，那么就可以将其划归相关性，但其实相关性是假、因果性是真。这就涉及到本文索要谈及的数据挖掘的问题：哪些数据需要采集，哪些数据需要摒弃？

做数据挖掘时需要遵循几项基本原则，具体如下：

一、数据挖掘的基本原则：

1、以终为始，目的决定范围和手段：

不同的目的会有不同的数据维度与来源和范围的要求，理论上数据来源越广、数据维度越多，分析的准确性也就越高。但是，这个前提通常只适合大数据分析，而不适合小数据分析，并且，数据来源范围越广、数据量越大，数据的分析难度和成本也就越高，会远远超出企业的承受能力，并且这种不计代价不计成本的采集尽可能多的数据其实没有意义。

数据采集的第一个基本原则是以终为始，即根据数据分析的目的来选择数据的来源、类型和数量，不做不必要的采集。但问题是，企业在做数据采集时往往不知道哪些数据是必要的哪些数据是不必要的，这个才是最困难的地方。

判断哪些数据是必要的哪些是不必要的，通常有三个依据，其一是经验，其二是观察，其三是相关专业知识（如管理学、经济学、数学、财务学、生物学、气象学、物理学、化学等）。

先说经验。经验是前人智慧的总结，对于一个有着五千年文明的国度，中华文明有着太多宝贵的经验教训值得学习和借鉴，并且时至今日也依然有价值。这些传承久远的经验包括生活、气象、气候、地理、人文等领域，例如气象领域里的“朝霞不出门，晚霞行千里”，意思是夏季的早晨如果出现霞光，通常意味着出现刮风下雨的坏天气，不适合出门；而傍晚如果出现晚霞通常意味着第二天会是个好天气。如果用科学的方法或用数据来解释，那就是早晨的空气湿度增大，近地云层对流增强并且气压值逐渐升高，极易出现大风和降水的天气；反之则是湿度降低，近地云层对流弱、气压平稳，大概率是晴天。

在HR管理领域就有许多生活经验的应用场景，例如通常情况下，已婚已育员工的稳定性通常高于单身或未婚员工，有房贷压力的员工对高业绩的追求通常更高，烟酒不沾的员工通常更自律等等。要判断员工的稳定性和成就导向或自律性，不一定要通过测评工具，用经验也同样可以实现。

同理，要判断哪些数据应该采集哪些数据应该摒弃，也同样可以根据经验。但依托经验不意味着经验主义，因为经验主义有时候也会出错。

再说说观察。这是最笨也是最简单实用的方法。许多生活经验，其实都是源自观察尤其长期观察所形成的总结。对企业而言，绝大多数经营管理的问题都可以通过观察的方式去发现甚至是预防。例如，设备在出现故障之前几乎都会出现一些征兆，如异响、偶发性的不正常工况或报警等；企业经营业绩开始衰退也绝非突然发生也通常会在显现颓势之前出现若干征兆；而员工要离职，除了闪辞或突发事件之外，通常从萌生辞职的念头到提出辞职也会有一些时间，并且绝对事出有因。

无论是设备故障、业绩下滑还是员工流失，都会有或多或少、或明显或不明显的征兆，这些征兆除了可以表现为数据的方式之外，也可以通过行为特征的方式来表现——某些现象的发生通常都会伴随着其他现象的出现，这些不同的现象之间，既有可能是因果关系，也有可能是相关关系（但本质上还是因果关系），只要认真观察总能发现蛛丝马迹，而不必什么事都用数据的方式来解释或表达。

最后再说说专业知识。这个很容易理解，毕竟具备相关专业知识、受过相应的培训的人，其知识结构与方法会成体系，能够用科学、专业的方法去判断哪些数据需要采集哪些数据可以摒弃。

需要特别强调的是，数据科学作为一门新兴的跨界学科，知识类型的跨度很大，包括编程领域（计算机与软件相关）、数学与统计学领域，以及数据源领域（如金融、物理、医学、工业、生物等），没有人能够同时精通这三个领域。相比之下，数据科学的研究重点更多是强调跨类型知识的整合与应用，但对相关从业者的要求也更高。所以，如果精力有限，可以专注一门、熟悉两门，这样可以补齐明显的短板，在数据科学领域成就一番建树。

2、拉长时间轴：

要想准确预测一个事物的发展趋势或演变规律，不仅需要有足够的样本量，更需要足够长的时间；而要摸清某些事物的演变规律，长期的观察和记录往往就是关键。

例如，天气与水文预测，其周期就至少以五十年甚至数百年为单位；经济周期也至少以十年为一个最小的观测周期。企业的经营业绩好坏，尽管最短可以到月度（月报），但要真实的衡量一个企业的经营业绩，通常都应该将视野扩展至一年两年甚至更长时间——虽然在VUCA时代，一切都被加速，但观测、评价一个企业的经营业绩好坏，不能只看当期当季当年的报表，要评价一个员工的业绩表现，也不能只看当期的绩效考核结果。

数据挖掘不怕数据来源的时间跨度长，就怕数据来源的时间跨度太短。因为短暂的周期内所表现出的数据往往会存在很高的随机性和突发性，无法还原出真实的信息，引用这类短期数据很容易被误导；而如果数据源的时间跨度足够长，那么就会更容易了解其规律并排除偶发和随即因素。

因此，如果条件许可，在数据采集时应该尽可能的拉长时间轴，将采样的时间跨度拉大，这样得来的数据，其真实性、准确性最有保障。

3、抓大放小，不求精确：

抓大放小的意思是抓住能对变化、趋势或规律产生最直接影响的数据，即强相关或具有显著因果性的数据；同时，再根据重要性作出排序，抓住最主要的几种数据或关键因子，即可对数据进行比较准确的分析判断。事实上，除了极少数对精度要求很高的应用，如医学、药剂学、精密制造和航空航天航海等领域之外，绝大多数行业对数据采集的精度要求并不很高。

例如，研制一款疫苗，只要达到60%以上的有效率就已经算很高也足以投放市场，而不必去确认到底是59.1%还是59.9%；预测降水概率也通常只会精确到十位数，如60%降水概率。但如果是在航天领域，如某个重要零部件的可靠率，99%和99.5%就远不只是差了0.5%那么简单，为了确保绝对安全，可靠率每提高0.1%都是极为重要的成果——在极端的工作环境要求下，对相关数据的精度要求就会非常高并且永远追求更高。

对企业经营管理工作所涉及的数据分析而言，除了极少数关系到安全、质量、可靠性的数据会对精度有着较高要求，其余的数据通常只要求基本正确、大体准确，能够展现趋势或规律即可。以分析员工的业绩水平为例，影响员工业绩水平的因素固然有很多，但真正起到关键作用的、在剔除产品本身的原因之外，通常不外乎那么四点：员工的胜任力、员工的动机与意愿、激励的力度、员工教育培训的投入。尽管这四点因素各自所占的比重会因企业的不同、岗位的不同而存在差异，但要提高业绩水平，只需要对这四个关键因素以及相关的数据进行改善与调整即可；尽管其余因素固然也会构成影响，但相对于这四点而言不是决定性因素，因此可以抓大放小、忽略不计。

现实中，脱离实际情况、不计成本代价的追求数据的高精度不仅浪费人力财力物力，也没有太多现实意义。

二、数据挖掘的基本步骤：

尽管大数据的数据挖掘步骤与小数据的挖掘步骤有所差异，但数据挖掘的基本步骤与企业综合评估、报表分析、组织和HR审计类似，都需要经由几个基本步骤。这几个基本步骤对于数据科学或大数据算法专业的人员而言可能显得有些粗糙，但对于绝大多数企业级应用而言已经足够。因为大多数企业所需要的数据分析使用小数据技术和工具就已经足够，大数据分析不是本文想表达的内容，也不是多数企业应用的重点。

1、第一步数据分类，目的是将数据分门别类；

数据分类很好理解。由于企业在经营管理活动中会每时每刻的生成各类数据，以及从宏观环境和产业环境中获取数据，因此，首先需要对这三大类数据进行进一步的分类，确保在需要的时候能够快速地对已分类的数据进行查阅、记录、引用或分析。

不包括宏观数据与行业数据的话，企业应用的最多的还是经营管理活动中所生成的内部数据，而在对其进行分类的时候，通常都会遵循以专业职能作为数据划分的分类依据。例如，研发类、技术类、生产类、设备设施类、供应链类、质量管理类、市场类、销售类、财务类、客服类、人力资源类等，见下图示例。

《数据之美系列》第二篇：怎么做数据掘金？图三：企业内部数据分类示例

这种按专业职能作为数据划分的分类方式，最大的优点是简单易行，并且有利于相关数据的采集和垂直管理，但不利于数据整合与数据分析的统筹管理，除非数据整合与数据分析由专门的部门或岗位来完成。

2、第二步数据整理，目的是确保数据完整无缺漏；

如前所述，目标决定手段。数据分析的目的决定了数据的来源、类型和数量选择。做数据整理的目的是为了确保重要的数据来源无缺失、重要的数据种类无缺漏，既确保数据足够用于特定目的的分析所用，也不会让数据过多过杂，因为过多过杂的数据不仅会增加数据分析的工作量和难度，也会形成干扰，让数据分析出现偏离甚至是被误导，进而得出错误的结论。

做数据整理相当于初次校对，先解决数据来源的完整性并初步排除无效数据，这是开展后续工作的基础。

3、第三步是数据识别，目的是剔除弱相关、有瑕疵或不连贯的数据；

在完成数据整理之后，即可进入数据的识别环节。数据识别环节类似精校，目的是将第二步的工作细化，从完整的数据中剔除与数据分析的目的弱相关或无关的数据——有些数据真实可信也有连续性，但与特定的数据分析目的弱相关或无关，则应将其剔除。

还有一些属于偶发数据。因为有时候尽管某些数据真实可靠，能说明和解释在某一时段内的趋势与规律，但并不能完整的表达整体的趋势与规律，此类数据最容易迷惑人心，尽管这种数据本身是真实可信的，但不能将其纳入数据分析的来源，需要在本步骤进行剔除。例如，以上文谈及的案例，当美国刮飓风时蛋挞的销量激增；飓风是真实的，蛋挞的销量激增也是真实的，但如果为了统计蛋挞在年度的销售情况，则不适合将飓风所导致的销量激增作为统计。如果厂商将飓风时期的销量纳入统计当中并作为常态来进行生产安排，很有可能会出现库存积压、过期变质而导致厂商与零售商损失的情况。

还有，今年席卷全球的COVID-19疫情，让口罩、消毒用品生产商挣了大钱，但这并不表示口罩与消毒用品的爆炸式增长与消费是常态，道理一样。此类数据都属于偶发数据，因为没有连续性而且很难预测，出现的概率也非常低，因此通常不适合采用。

所谓有瑕疵的数据，通常是指数据的生成可能是由于设备故障或隐患所得出的数据，例如误差过大的测温枪所测出的体温、体重计亏电或未定期校准所测出的重量等等，此类数据都可以称之为有瑕疵的数据，都需要剔除。要判断数据是否有瑕疵很简单，评估某类或某个数据的生成设备或记录仪或记录人，当时的工况是否正常即可。

4、第四步是数据加工，目的是构建起不同数据之间的关系，能够直接使用；

在完成上述三个步骤的工作之后，摆在面前的数据就是加工好的、能用于数据分析的“原材料”，但是，这些“原材料”通常还不能直接使用，还需要将不同类型的数据，按照一定的方法和步骤进行组合，并对这些数据组进行加工，加工后所得出的结果，才是能够真正应用于预测趋势或解释原因表达规律的数据。

以分析人体型是否标准的BMI指数为例，其计算方法为BMI=体重（公斤）÷身高（米）的平方。身高数据很容易获取，体重数据也很容易获取，但只看身高或体重无法判断体型是否标准、体脂率是高是低，而BMI指数就可以很直观和精确的计算出人的体脂率。我们也可以把这个BMI指数这个函数的设计过程称为算法的构建过程。

BMI指数只是最简单的数据分析应用之一，实际上在企业的经营管理活动中所涉及的数据分析，难度和复杂性远高于BMI指数。但相比起大数据分析，企业里的诸多数据分析及其应用，本质上还都是小数据分析的范围；所以，构建算法的难度要小得多。

三、数据分析的常用工具方法：

数据分析最常用的工具方法有四种，而且这四种常用工具方法，多数人都会使用，通过EXCEL或SPSS软件即可实现。

1、对比分析；

顾名思义，对比分析就是将一种以上的数据进行对比，以观察其差异性和相似性并从中找出规律，也可以对某一数据进行不同时间的对比。例如，将某人在2010年的年度收入与2019年的年度收入进行纵向对比，从中找出驱动因素或规律。

对比分析是最简单的数据分析方法之一，但不适用于多主体、多种数据之间的对比，而且对比分析法不适合规律与原因的挖掘，只能说明绝对值的差异。

2、回归分析；

回归分析是应用最广泛的一种分析方法，主要是根据数据统计原理，对大量、多样的数据进行数学处理，通过建立高相关性的回归方程式/函数表达式，来确定因变量与自变量的关系。回归分析通常用于预测未来因变量的变化，主要有线性回归、曲线回归、二元逻辑回归，多元逻辑回归等。

以杨老师从事多年的HR咨询为例，给企业做薪酬现状分析就会用到二元逻辑回归分析方法，主要是对职位等级/收入水平这两组数据之间的关系进行分析与预测，其中，职位等级是自变量，收入水平是因变量。见下图示例。

《数据之美系列》第二篇：怎么做数据掘金？

图四：某企业职位等级/年度总现金现状回归

3、聚类分析；

聚类聚类，望文生义就是分类分析的方法，主要有层次聚类和非层次聚类两种方法，主要算法有K-means、分层、FCM等。聚类分析主要解决的是数据的类型划分和归类问题，是为了寻求数据之间的相似性并划分为簇（cluster）的一种方法。比如以性别划分群体、以收入划分群体、以身高划分群体等。聚类分析主要应用于商业零售业、生物、地理、金融等行业，最核心的意义是对被调查群体进行簇的划分（具备特定特征或条件的群体，如老人、小孩、男性、女性等），是做客户分析、产品研究、广告投放、用户画像的一种常用方法。见下图示例。

《数据之美系列》第二篇：怎么做数据掘金？