《数据之美》系列
第三篇:如何避免数据挖掘与数据应用的误区?
如前所述,目标决定手段。数据分析、数据挖掘都只是手段而非目的,不同的目的决定了是否有必要、如何进行以及选择对哪些数据进行挖掘和分析。
虽然数据挖掘应用于企业经营管理的时间并不短,但由于重视度不够,以及对深度挖掘多维度数据和高阶数据分析的理解不足,仍有许多企业还处于初始阶段,这不可避免的会在数据挖掘与数据应用的过程中犯错、绕路。以下就是企业在做数据挖掘和数据应用时常见的几个误区:
一、数据挖掘的三个误区:
1、混淆小数据与大数据的区别;
当大数据成为了最近几年的热门之后,几乎所有人都言必称大数据,生怕不紧跟大数据的潮流就会被时代所抛弃,其实大可不必。
虽然都叫数据并且核心差异仅仅是数据维度和数据的实时性,但大数据和小数据其实还是有较大的差别。大数据的主要特点见下图。
图七:大数据的主要特点
此外,更重要的是:大数据不是万能药,不能解决诸如产品品质、研发创新、人力资源等问题。同时,对于大多数行业而言,大数据其实没有太多现实意义,何况要采集、加工大数据,企业必然要斥巨资去建设数据中心并雇佣许多数据工程师、数据分析师等人员,仅此一个门槛就足以将99%的企业拒之门外。
但是,小数据的挖掘和分析,无论是难度还是成本都比大数据低得多,并且对小数据进行分析与挖掘的现实意义要远大于大数据。不夸张的所,企业可以没有大数据但不能没有小数据;小数据是底层基础,能够应用于企业经营管理活动的全部环节,包括供应链管理、研发创新、生产制造、质量控制、成本管理、市场营销、客户服务、人力资源、财务管理等领域。
但就是这个既重要又基础的底层,仍然有许多企业没有将它完成、做好。顺序上都是从小数据到大数据,先把小数据的挖掘和应用做好,才谈得上做大数据挖掘和应用。没有小就直奔大,从杨老师了解到的情况看,从来就没有先例。
大数据虽热,但不是所有行业都有必要应用,更不是所有企业都能玩得转;对于99%的企业而言,将小数据挖掘好并应用好就足够。
2、挖掘不具备连续性的偶发数据;
突如其来的COVID-19疫情让全球经济遭受重创,几乎所有行业都受到很大的冲击,但也有少数行业从中受益,例如消毒用品、个人护理、清洁用品和测温枪、呼吸机等行业,尤其是口罩、消毒液、测温枪等生产企业,订单量暴增数十倍。
COVID-19疫情就是自变量,而口罩、消毒液、测温枪生产企业的订单就是因变量,但这种因疫情而起的爆炸式增长属于典型的黑天鹅事件,极小概率的事件发生所导致的销量暴增,虽然体现在销售报表上会呈现出一个非常陡峭、近乎90°垂直的增长线,但完全没有可持续性。要统计口罩、消毒液、测温枪未来的销量,不能将疫情期间的销量作为参照系。但是,在后疫情时期,随着各国和全社会对公共卫生的重视度增加,包括口罩、消毒液、测温枪在内的所有防护、清洁和测温设备,都会迎来一次中长期的利好——增速相对平缓但持续时间较长的增长。
不具备连续性的偶发数据既可能是环境出现变化,例如天气、环境、战争、动乱、自然灾害、重大公共卫生事件,也有可能是传感器或设备出现故障,还有可能是有规律但间隔周期很长的“奇点”、或间隔时间有长有短的非对称周期。
理论上如果数据采集的周期足够长,例如以十年、百年、千年为单位,人们就足以从那些在短周期内找不到规律和趋势的数据中发现规律和趋势,但对绝大多数行业和绝大多数企业而言,这么做的意义很小而代价却极大。因此,99%的企业大可不必去挖掘那些不连续的、偶发的数据,而应把重心放在那些连续的、易于挖掘的数据,就足以满足数据挖掘的目的。
3、挖掘的数据远超/不够数据分析所用;
择偶不仅看颜值,还要看三观、习惯、人品、年龄等重要的维度,只择其一或过于重视某一方面,择错偶的风险将会大大提高。反过来看,有些人择偶还要看对方是否为独生子女、是否为原生家庭、是否毕业于211/985,虽然从个人层面上看,这纯属个人喜好并无对错之分,但也多少有些画蛇添足、舍本逐末之嫌。
数据挖掘常见误区与择偶时所罗列的条件类似,要么容易出现数据来源不足、要么是数据来源远超数据分析所用。虽然理论上数据来源越多、数据的维度越多,分析某人某事某物的精准度也就越高,但成本、时间和时效性也是做数据分析不得不考虑的重要条件。
二、数据应用的两大误区:
如前所述,数据分析的主要有两大作用,一是预测事物未来的演进趋势,二是解释成因并表达规律。本质上数据分析只是一种管理手段和管理工具,它不能成为救命的稻草更不能替代企业去补齐经营管理上的短板。但是,由于对数据分析缺乏足够的认识,许多企业在应用数据分析技术与工具时(包括大数据与小数据),仍然会存在几个常见的误区,如下:
1、对数据分析报以不切实际的幻想;
企业在经营管理过程中的所有活动,都可以通过数据的方式来记录和表达,而数据分析最大的价值恰恰在于可以将离散的、庞杂的、不规律的数据进行分类,并根据相应的算法或逻辑进行统计和总结,从中挖掘出能够阐述趋势、表达规律的数据集,从而为决策提供依据。但是,数据分析本身并不能替代决策,企业更不能只通过数据来自行解决问题,一切经营管理问题的解决最终都需要依赖并回归各职能管理,并由人或机器设备去实施和解决。
例如,通过数据分析了解到库存天数异常、客户采购的种类与规格、人员离职率分布与结构构成和原因等,找到了答案不代表问题得到解决;找到了问题的成因和事物的发展趋势,能够给企业相关人员预警并缩小解决问题的范围,但最终要解决问题,还是需要依靠人员或机器设备。
无论是大数据还是小数据,都不是万能药;对数据分析抱有不切实际的幻想是危险的也是不负责任的。
2、应用环境难以支撑数据分析的要求;
任何一个管理思想、管理工具的实施,都需要合适的应用条件和环境。以BSC平衡记分卡和OKR为例,BSC的应用环境要求企业具备基本的绩效文化和底层绩效数据作为支撑,同时,还要有清晰地竞争战略方案与宣贯。在BSC的四个维度里,缺少任何一个维度或任何一个维度的基础不扎实,都会让BSC的实施打折扣甚至是难以起效。
同样,起源于google的OKR,本质上是一套目标管理工具,但被改良后成功的应用于科技公司google,许多人只看到了OKR的作用(其实OKR的作用多少有些被夸大了),却忽略了google有着扎实的目标管理、项目管理、知识管理体系。而如果没有这些扎实的体系作为支撑,OKR不可能得以在google成功实施。
数据分析同样有着较高的应用环境要求。相比之下,小数据分析对应用环境的要求很低,只要企业有相应的数据记录,包括采购、研发、生产、营销、客服、质控、人力资源、财务等,就基本能够满足小数据分析和应用的要求。而大数据分析对应用环境的要求很高——不仅需要有来源多、可靠性高的小数据,更依赖通过各种设备设施所采集到的实时数据以及从外部获取的宏观数据与行业数据(如天气数据、经济数据、流量数据、产能数据等),并且大数据的数据来源比起小数据的数据来源多出了不止一个量级,这就要求企业需要有足够的算力、科学的算法去处理这些海量的数据。
应用环境不匹配不支撑,再先进的技术也难以发挥作用。所以,无论是小数据还是大数据,在应用之前都应该先检视应用环境是否具备,并且先从创造和优化应用环境开始。
综上所述,无论企业是应用小数据还是大数据,都应该避免这两大误区。除了部分特别依赖大数据的行业之外(如电商、金融业、电力行业以及城市公共管理等),绝大多数行业企业只需要把基础管理做扎实,把小数据分析做好,就足以让企业从中受益匪浅,而不应一窝蜂的去跟风大数据或AI。
保持定力、保持冷静,在任何时候都比学习先进的管理思想或管理工具更重要!