《数据之美》系列
第一篇:数据的来源与价值
序:
泰戈尔在《流萤集》里有一句很美的诗句:“天空没有留下翅膀的痕迹,但我已经飞过”。意境很美,但杨老师想说的不是诗句,而是潜藏在这段诗句背后所引申的含义:任何行为都会有迹可循,虽然有些用肉眼看不见!
挥挥衣袖当然带不走一片云彩,但总会留下印迹——这些印迹里的绝大多数,都可以或直接或间接的发现,都都可以通过数据的方式来表达。
正文:
自企业创立的那一刻开始,数据就开始生成,并伴随企业的整个生命周期。而这些数据涵盖了企业经营管理的各个方面,不包括外部数据(包括宏观数据与中观数据)在内的话,光是分类、整理、识别、加工这些与企业或直接或间接有关的内部数据或经营管理数据,就需要耗费大量的精力。
对所有内部数据或经营管理数据进行分类、整理、识别、加工(以下统称为数据分析),一是成本和难度太大,二是不必要,但这并不意味着企业可以对这些经营管理活动中生成的数据置之不理,而是在对其进行数据分析之前,首先需要明确三个基本前提,即:为什么、做什么和怎么做!这就回到了做数据分析的本源,也明确了数据分析的起点;否则,为了数据而数据或者脱离现实情况的做数据分析,不仅浪费更会导致严重的后果,例如错误的决策、丧失先机或导致巨大损失等。
一、数据分析的作用与意义:
在展开数据分析的路径、方法和策略之前,需要对数据分析对企业能有什么作用和意义进行明确,同时,也要对数据分析的局限性有着客观理性的认知,不夸大、不盲目也不轻视。
总体而言,无论是对于企业还是对于政府机构或非盈利机构,数据分析的基本作用有两大方面:
作用一:预测事物未来的演进趋势
我们不是神,无法预知未来,但在某些时候却可以通过一些迹象一些征兆去预测未来会发生什么样的变化,或者事物未来将变成什么样子。而与事物未来演进趋势有关的迹象或征兆越多(数据的维度与类型),预测的准确性也就越高,但成本和难度也相应的提高。
例如,想要判断一个人的饮食习惯和身体状况是否健康,以现在的医学技术与科技水平,已经可以不需要去医生去面对面诊断,甚至是非接触式的诊断都可以不需要。因为,除了通过了解该人的BMI指数之外,更进一步也是更深度的调查是统计其年龄、职业、所在区域和环境、每天所消耗和摄入的卡路里数值,以及饮水量。如果发现某个人在某个时期所摄入的卡路里过高,但TA并没有剧烈运动,TA所处的环境温度也没有明显变化(如降温、进入寒冷地区等)的话,那么可以推导出TA罹患高血脂和糖尿病的风险也就越高。更进一步的话,血压检查、血常规和尿常规检查、CT和B超、造影、核磁共振等设备的应用,如果都联网的话,完全可以在不见面的前提下给TA做一个全方位的体检,并出具准确度极高的检测报告,再结合饮食与生活习惯方面的数据,如果附加上基因检测的话,还可以推测出TA讲来罹患某些疾病的概率。
最近几年热门的大数据,其实就是将多个维度的小数据进行相关性与因果性分析之后,归纳总结出那些足以佐证或表达事物演进规律的数据,根据既定的算法和模型,在通过大数据技术,采集实时数据并生成某些判断——这就是最简单的AI。当然,现在的AI还非常初级,远远到不了人工智能的地步,无法预测复杂的、系统性的和非线性的某些事务或现象。
但是,企业的经营管理活动,所涉及的各类小数据相对而言就少得多,并且各种变量和不确定性也更少,所以,预测某些经营管理活动所产生的后果,其准确率也会更高。例如,GDP增长率与企业营收、货币政策(量化宽松或量化紧缩)、财政政策(税收与产业政策及行业法规等)与企业运行的基本面和业务前景的关系,通常也更容易准确地预测。例如商业银行、投行与保险公司,就设置有相应的研究部门,专门对宏观环境数据与产业环境数据进行针对性的研究,以此作为金融产品设计开发和定价的重要参照。在传统行业,恒大地产堪称研究和应用数据及政策的典范!其下设的恒大研究院是目前国内设置最早、研究程度最深、研究范围最广的数据分析与政策研究机构,为恒大地产的拿地、市场进入和产品定价、成本管理等诸多领域,提供了扎实的科学决策依据,甚至在社科领域如人口结构和产业机构,恒大研究院也有所涉及。
此外,大数据在做建模和设计算法时,都会涉及到非常复杂的数学模型,以及需要从浩瀚的数据海洋中选择巨量的数据源;但是,如果只是预测诸如未来的业绩水平、某一款产品未来某个时期的销量,或者公司在某个年末的人员编制等不太复杂的预测时,完全不必采用大数据技术,用小数据甚至是一个擅长EXCEL高阶应用的员工就可以做到。
预测准确度和成本之间永远是个矛盾,如果预测对象不复杂、对准确度要求也不太高,那么小数据即可。对于99.9%的中小微企业而言,想要预测某些经营管理决策未来会产生什么结果的话,用小数据就足够,但是,小数据也必须依托科学合理的算法与恰当的模型,否则也同样会出错。
作用二:解释成因并表达规律
不仅做科学研究要知其然更要知其所以然,开展经营管理工作也同样应该遵循科学、严谨的精神,去了解事件为什么会发生、事情为什么会发展成今日的样子。
例如城市化和生育率、收入水平与结婚率,杨老师卖个关子,读者朋友们知道城市化和生育率之间存在何种关联,收入水平与结婚率谁影响谁,这些指标之间存在着何种关系吗?(篇幅所限,详细原因本文不展开,有兴趣的读者朋友可以自行检索)
城市化率决定了生育率,城市化率越高、生育率越低;收入水平越高,结婚率越低。上述四个指标,各都是存在负相关关系,并且,都是前者影响后者,前者是因、后者是果。
应用到企业经营管理领域,也同样有许多指标存在着因果关系与相关关系,例如薪酬福利水平与员工离职率、培训投入与员工业绩水平、研发投入比与利润率。将这些不同维度的数据应用起来,只要企业创立时间足够(通常不少于2年),就能通过图表的方式呈现出一定的规律,而一旦掌握规律,自然能更好的对各项经营管理决策进行更加准确的调整和优化。
在应用于企业的重大经营管理决策之外,在研发管理、项目管理、质量管理、生产管理领域、供应链管理等领域,都有着十分广阔的应用,即便不是大数据技术,也同样可以通过企业在日常经营管理活动中所生成的各类小数据,并对其进行基于过往的历史数据或通过规律去挖掘出预测未来的多种应用。简言之,不说大数据,仅仅是沉淀在企业内部和分散在企业之外的各类宏观经济数据与中观行业数据等小数据,都能够从中挖掘出许多极具价值的信息,并应用于涵盖发展战略、投资决策、研发立项、生产管理、财务管理、人力资源管理等方面。
遗憾的是,许多企业尤其中小微企业对数据分析的价值和重视度远远不足,盲目决策、拍脑袋决策、经验主义的情况比比皆是,以至于犯下许多原本可以避免的错误,付出了高昂的代价。希望在未来,会有更多的企业领导者重视数据分析的重要性和紧迫性,让各项经营管理决策更加科学,从而减少甚至不犯错误,让企业能够成功转型升级,以此在疫情过后更加艰难的时期内熬过去并发展壮大。
二、数据的主要来源与类型:
如上文所述,企业自创立运行开始就会每时每刻都在生成不同维度的数据,就算不是大数据,就算不是实时在线,也同样具备重大价值和应用意义。
根据数据的来源,可分成企业内部数据与企业外部数据这两大类,具体包括如下:
1、内部数据的来源与类型:
企业内部数据的来源与类型主要有如下几类,见下图:
图一:企业内部数据示例
图一仅仅是企业内部数据的一部分,如果仅仅是想评估企业的基本经营管理水平,上述数据就已经足够;而如果想对企业进行全方位、深层次的分析评估,并且将内部数据与外部数据结合,应用于战略制订或投资决策,那么则需要挖掘和整理更多样的数据,甚至是购买行业数据,例如行业研究报告。或者企业也可以从公开发布的资料里(如上市公司的年报/半年报/季报)去获取某些数据,进而去开展某些特定的同业对标,如对标人均劳动生产率、销售额与销量等。
仅有内部数据固然能够应用于评价企业经营管理水平,但缺乏参照系也无法对标,因此,绝大多数时候,还需要采集外部数据,详见下文。
2、外部数据的来源与类型:
企业外部数据的来源与类型主要有如下几类,见下图:
图二:企业外部数据示例
所谓的外部是指企业之外的经营环境,具体有两种,一是中观环境(产业环境),二是宏观环境。产业环境相关的外部数据,主要有市场准入门槛、行业集中度、市场容量/规模、企业寿命,以及政府相关部门出台的行业政策。
以汽车整车生产制造行业为例,要进入汽车整车生产,首先要获得工信部的资质,而这个资质是有数量和门槛限制的,这就相当于牌照,而牌照数量基本上不会有新增,相当于对从业企业设置了准入门槛。例如,2019年,中国共有33家轿车生产制造企业,累计完成2144.4万辆乘用车的销售。其中,一汽大众在2019年完成了212.99万辆乘用车的销量,上汽大众在2019年完成了200.17万辆的乘用车销量;南北大众在2019年累计实现413.16万辆的乘用车销量,占2019年中国乘用车总销量的19.26%,位列乘用车销量的冠军,远超上汽通用152.11万辆,处于绝对领先的位置——只凭上述这段数据,多数人在第一时间就会得出如下结论:市场容量巨大,行业集中度处于充分竞争的状态。而如果再加上一段数据:2019年乘用车销量与2018年相比下跌7.4%。那么,应当如何判断乘用车行业的走势?又再加上一段数据:2019年,宝马在华销量(含进口与合资生产,下同)为723680辆,同比2018年上涨13.1%;奔驰2019年在华销量702088辆,同比2018年上涨6.2%;奥迪2019年在华销量688888辆,同比2018年上涨4.2%。在加上了BBA的销售数据之后,又会得出什么结论呢?
相对于产业环境数据,宏观环境相关的数据会对全行业和每一个公民构成影响,但是,有些宏观环境数据会对某些行业构成利好,而对另外的一些行业构成利空。例如央行提高存款准备金率和提高基准利率,就会对房地产行业构成较大的利空,而对商业银行构成相对利好。为应对COVID-19疫情,帮助中小微企业尽快复工复产并降低疫情导致的损失,国家及时出台了各项政策,例如加大货币投放量、降低基准贷款利率、低息贷款、发行特别国债、税费减免、疫情期间免征社保企业缴纳部分等等,这些都属于宏观环境数据的范畴,也都会对企业的经营管理活动构成直接影响。
无论是行业环境数据还是宏观环境数据,绝大多数都是免费的,而且多数都可以很容易的从网上或行业年鉴、上市公司年报中获取。获取这些数据的难度很成本都很低,真正困难的是如何筛选、如何识别,以及如何将这些企业外部数据与内部数据应用于经营管理,这才是真正有难度的地方。
数字化转型很热门、大数据很热门、AI很热门,但是在热门的背后杨老师还是需要建议企业先冷静下:先不去蹭这些热门和热点,先把小数据采集好、先把小数据的应用建立起来,再去考虑更高阶的应用也来得及。
1楼 林牧
为什么这么好的文章还有沙发?谢谢老师的无私分享!受教!