美文网首页
数据与模型

数据与模型

作者: liupc | 来源:发表于2016-06-12 00:03 被阅读31次

端午节放了三天羊,临近要上班才想到公众号到了要交稿子的时候了。这周来不及写价格与互联网相关的分析文章了,简单聊聊多年的老本行,数据与模型。

模型,是我们理解对象的一种结构化方式。所谓的建模,是基于一定的假设对分析对象展开简化分析的过程。所有的分析,必须时时刻刻记住我们的假设是什么,其中哪些假设可以放宽不会影响主要结论,哪些假设一旦不成立整个模型会分崩离析。带着这样的模型和假设,从数据里面找到可以证伪或不能证伪模型的证据,得出结论的过程,即从数据中寻求模式(pattern)的过程,也就是我们日常所讲的数据分析。以下简单聊聊数据分析过程中大部分人理解存在误区的地方。

第一,数据分析的本质是验证而非探索得到一个结论。从数据中寻求模式的过程,具备无限发散的可能。因此,首先必须有脱离于数据的模型以及模型的假设。不带任何假设看数据,得不出任何有价值的结论。即便是最纯粹的数据挖掘或机器学习,同样需要对样本有必要的假设。给定假设结合逻辑,可以演绎出一组结论,数据分析的过程便是基于数据来验证这一组结论的过程。

第二,数据分析中的验证,本质上只能是证伪而非证实。严格来讲,所有基于数据来验证模型和假设的可靠性,都需要关注P值。P值不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率。因此,通过数据分析来产出结论时,严谨的思考方式应该是:基于已有的数据,我们的假设没有被挑战,故而可以在一定程度上认为数据支持了我们的假设。只能在一定程度上说明这一点,是因为一个模型最大的假设是模型本身。

第三,一个模型,最大的假设是模型本身。这是CCER计量经济学教授朱家祥讲授的所有知识里面对我影响最深的一条。大部分人意识不到这一点,是因为在他们看来,来自于教科书的模型,默认应该就是对的。然而,在应用数据分析的过程中,模型从来都谈不上正确或者错误,只有合适或者不合适的差别。问题是,模型选择本身在大部分时候无法通过假设检验得到有效的反馈,只能依赖于建模者的经验和品味。对很多缺乏品味的数据分析师而言,这是一个悲剧。

第四,一个模型没有被数据证伪,不能说明该模型对,别的模型错。更可能出现的情况是,一个模型没有被数据证伪,说明该模型还凑合,但不排除还有别的模型更合适。大部分情况下我们不知道还有多少潜在的备选模型可能更合适。这时候,奥卡姆剃刀原理可以帮上忙,优先考虑简单的模型。在没有明确的领域知识时,模型越复杂,可能犯错的地方越多。绝大部分时候,最简单的模型,就是线性模型。

第五,模型不是越复杂越好,而是,在可以解释问题的前提下,越简单越好。甚至,在一些情况下,牺牲少许解释力可以大幅降低模型复杂度时,我们应该优先选择简单的模型。使用简单的模型对样本进行拟合的过程中,不可避免会出现残差。如果某项变量可以有效说明残差里面的一部分内容,把该变量纳入模型中可能是值得的。带着这样的思路,我们大致可以知道什么样的变量有必要进入模型。

第六,找到有价值的变量,依赖于领域知识和DGP(数据生成过程)的掌握程度。很多互联网行业数据分析师的领域知识匮乏到了令人发指的程度,不理解业务的目的,业务的发展阶段,业务开展过程中所面临的约束,业务变化可能会带来什么样的预期结果。这样的数据分析师,更合适的title是跑数据工程师。理解DGP的数据分析师更是凤毛麟角,只有兼具业务和技术视野,才能深入理解DGP。遇到了理解DGP的数据分析师,请珍惜TA。或者,请推荐给我。

相关文章

  • supermap知识库

    数据模型与地图投影 (1)数据模型 点数据模型 线数据模型 面数据模型 路由数据模型 复合数据模型 栅格数据模型 ...

  • 逆向工程

    逆向工程与EasyCode 一、基本概念 1、物理数据模型、逻辑数据模型与概念数据模型 数据模型所描述的内容包括三...

  • 统计学习方法

    概论 1.数据->特征->模型->知识->分析与预测 2.训练数据集->模型->策略->算法->最优模型->分析与...

  • CDM(概念数据模型)转换

    概念数据模型完成数据库的概要设计,逻辑模型是概念数据模型的进一步分解和细化,物理数据模型则完成与具体数据库管理系统...

  • 数据库基础

    1、数据库视图与数据模型 数据抽象:物理层、逻辑层和视图层 逻辑层使用数据模型:1、概念数据模型,用于数据库的设...

  • 02 数据仓库设计基础

    首先介绍关系数据模型、多维数据模型和 Data Vault 模型这三种常见的数据仓库模型和与之相关的设计方法,然后...

  • 数据与模型

    端午节放了三天羊,临近要上班才想到公众号到了要交稿子的时候了。这周来不及写价格与互联网相关的分析文章了,简单聊聊多...

  • 公共自行车使用量预测活动总结

    前言 本次练习主要致力于xgboost回归模型(XGBRegressor)的简单的数据处理与模型调参,数据与标杆模...

  • 59_数据建模实战_关系型与document类型数据模型对比

    59_数据建模实战_关系型与document类型数据模型对比 关系型数据库的数据模型 es的document数据模...

  • 数据建模&数据库设计

    数据建模:对需求的理解与表达两类模型:概念模型 和 数据模型概念模型:表达信息世界的模型(信息世界是对现实世界的...

网友评论

      本文标题:数据与模型

      本文链接:https://www.haomeiwen.com/subject/jcdedttx.html