物联网数据分析体系

物联网数据分析体系

及时的文章更新,可以关注微信公号“数联未来”(zycnb1)


1、“云-边-端”架构

在面向新一代信息基础设施的物联网体系架构中,数据处理以及基于数据的智能服务变得越来越重要。前两年出现了一个比较热的词,叫做"边缘计算",是指把简单的、需要实时计算和分析的过程放到离终端设备更近的地方,以保证数据数据处理的实时性,同时也减少数据传输的风险。最近又出现了一个新的热词,叫做“云边协同”,其含义跟边缘计算相差不是很大,只是强调“云-边-端”这样的架构,终端负责全面感知,边缘负责局部的数据分析和推理,而云端则汇集所有边缘的感知数据、业务数据以及互联网数据,完成对行业以及跨行业的态势感知和分析。

基于AI的智能服务则是贯穿“云-边-端”整个架构,在感知终端,AI技术旨在提高全面感知的敏感性、准确性以及人机交互、物物交互的实时性,同时也可以通过芯片来进行简单的逻辑推理。

在边缘处,AI技术主要负责汇集该域内的局部数据以及相关的业务数据,完成感知数据的分析和推理,并且能够把相关的分析结果或模型传送给感知终端,达到感知终端与边缘云的协同,同时,边缘云与边缘云之间也可以通过联网共享,共享数据、资源、算法等,完成边缘云之间的相互协同。

在云端,不仅需要提供类似边缘云的云计算相关的存储、计算、网络、安全资源,还需要汇集、融合所有的数据,提供基于全局数据的智能服务,包括智能调度、运维、宏观决策等。

云中心擅长全局性的、非实时的、长周期的大数据处理与分析,能够在长周期维护、业务决策支撑等领域发挥优势。边缘计算更适合局部性、实时、短周期数据的处理与分析,能更好地支撑本地业务的实时智能化决策与执行。边缘计算与云中心是互补协同的关系,边云协同将放大边缘计算与云计算的应用价值:边缘计算既靠近执行单元,更是云端所需高价值数据的采集和初步处理单元,可以更好地支撑云端应用;反之,云计算通过大数据分析处理优化输出的业务规则或模型可以下发到边缘侧,边缘计算基于新的业务规则或模型运行。

除了边云协同,云互联以及云网融合也成为重要的趋势,是指云中心之间的互联、共享,包括服务资源的动态调整、计算资源的合理分配以及定制化的业务互通等。


2、IOT中的知识图谱

上面说了AI是贯穿“云-边-端”整个架构的,关于IOT中的AI及知识图谱,我认为有如下几个要点:

  • 语义物联

所谓语义物联,就是要通过语义建模,建立一套标准的物联网语义,对物体的属性、状态、动作以及能力有个标准的规范,能够实现物体的描述、解析、注册、接入和认知,以解决物体是什么、物体在哪里、物体怎么用等问题。

  • 图谱使能

所谓图谱使能就是建立类似知识图谱的语义网络、能力图谱,实现多种感知数据的融合以及物品能力的规范整合,能够在物体描述的基础上,做到“物体发现”以及物体和能力的集成。

  • 知识规则

知识规则和能力图谱的建立,构成一套完整的知识图谱模型,以完成感知数据和业务数据的融合。建立以业务知识为核心的规则引擎,能够实时的完成简单逻辑的分析和推理。

  • 学习深化

融合全局的感知数据、业务数据、互联网数据,在规则引擎的基础上,利用连接主义的学习深化思想进行隐藏知识的学习和推理,对已有的规则引擎进行完善,以达到一种自动化的学习。


3、物联网数据数据分析

关于物联网数据数据分中常见的一些数据、应用、模式和模型等,借用网上的描述,稍作归纳:

从新一代架构中我们描述到的几种数据主要包括物联网数据、业务数据以及互联网数据,这里着重看看物联网数据。

(1)物联网数据

  • 数据分类

静态数据与动态数据

单从数据的变化上来说,物联网数据可以分为静态数据和动态数据,静态数据多为标签类,地址类数据,RFID产生的数据多为静态数据,静态数据多以结构性、关系型数据库存储;动态数据是以时间为序列的数据,物联网动态数据的特点是每个数据都与时间有一一对应关系,并且这种关系在数据处理中尤其重要,这类数据存储通常采用时序数据库方式存储。

静态数据会随着传感器的增多,控制设备数量的增多而增加;动态数据不仅随设备数量,传感器数量增加而增加,还会随时间的增加而增加。

无论静态数据还是动态数据,在物联网1.0阶段数据的增长是线性的,并非是指数级的,但是因为物联网动态数据是连续不间断的,因此数据的量也是海量的。因此物联网1.0阶段数据的压力是可控的,并不是如宣传的那样不可数,不可控。

能源类/资产属性类/诊断类/信号类

就数据的原始特性来说,我们可以把物联网数据分为能源类数据、资产属性类数据、诊断类数据、信号类数据。

能源类数据:是指可以能耗相关的,或者是计算能耗所需的相关数据例如电流、电压、功率因子、频率、谐波等等。能源数据是物联网最关键的数据类型,物联网最终的目的之一就是节能,那么获取能源数据,理解能源数据,分析能源数据是物联网实施中必须的功能。能源采集设备也是物联网重要的设备之一。

资产属性类数据:资产类数据通常指硬件资产数据比如设备的规格、参数等属性,设备的位置信息,设备之间的从属关系等等。资产类数据主要用于资产管理,资产管理是工业物联网非常重要的功能甚至可以作为独立的系统研究,因为它可以和ERP系统、MES系统、物流等几乎所有的系统对接。

诊断类数据:诊断类数据是指设备运行过程中检测设备运行状态的数据,诊断类数据可以有两类:一类为设备运行参数,例如设备输入/输出值,这里通常为传统工业自动化类数据即OT技术相关类数据;另外一类为设备外围诊断数据,例如设备的表面温度、设备噪音、设备震动等等,值得提出的是外围诊断才是物联网技术体现的地方它包括新型传感器技术和物联网通讯技术。外围诊断数据是预测性维护的重要的元数据,也为深度控制模型提供依据,因此诊断类数据是我们需要着重关注的数据类型。

信号类数据:信号类数据或者告警类数据是目前工业领域使用最普及的数据,因为其直观、易懂、关键,同时在本地、远程同时告知。信号类数据容易被忽略,但是它是物联网所需要的、也是快速可以采集到、并对物联网系统提供重要参考价值的数据之一。

  • 数据关联性

数据之间的关联性是不同数据之间的关系,数据之间的关系对了解整个系统的运行有着最直接的影响,数据之间的正确关系的梳理是系统有效运行,产生价值的基石。

数据之间的关联性可以从下面几个方面分析:

时间关联性:即同一时刻的数据照相,数据是同一时刻系统产生的,它反映的是系统这一时刻的状态,从数据世界角度看,这个系统就是这一时刻的数据集合。数据照相体现的是系统静态展示;时间戳是这类数据关键的因素,因此要求各个数据获取的时间戳必须相同,时间戳是目前很多数据所缺失的,也是物联网实施中需要关注和解决的问题之一。

流程关联性:即一个点的数据进过一定时间后影响第二个点数据的产生,它体现的是系统动态的流程展示。数据之间的流程关系性需要模型提供,并在实施中进行修正。

  • 数据的时效性

数据的时效性是指数据产生到其被清除的时间,数据时效性是由系统的实施部署所决定。数据可以被使用多次也可以被使用一次后就可以被清除。总体来说远程部署数据还是边缘部署数据影响着数据的时效性,通常边缘部署的数据时效性短,远程数据的时效性长。边缘部署需要的数据通常及时性强,但是边缘存储空间,计算能力弱因此不能长期保存;远程数据通常为历史性数据展示、计算分析,同时云端空间、计算的伸缩性强,因此数据时效性长。

数据的实时性也是数据时效性的一部分,实时性和数据的部署位置,数据的重要性以及传输方式都有关联性。

(2)应用模式

  • 基础应用:监控

通过物联网收集到设备数据后, 如果设备数据状态超过预设的状态则自动第一时间报警,管理员第一时间开展处理,可以通过远程操作,下达命令。把问题解决在萌芽状态。

  • 进阶应用: 报表统计

通过统计方法, 对设备的历史运行数据进行统计分析。可以按不同维度分析出不同报告。然后以图表或者大屏方式展现在管理员面前。管理员可以快速直观的了解到整个物联网设备运行状况。

  • 高级应用: 数据挖掘/机器学习

这部分需要从数据里面挖掘出有价值的东西出来。比如通过一段时间时间设备数据的连续跟踪分析并结合人类过往的设备运维经验,通过机器学习方式预测设备发生故障概率,以及发生故障后可能的引起原因,并给出维修方案。刚才举的例子,是物联网高级应用里面的冰山一角。通过引入现在火热的AI技术。物联网就能变成智能物联网了。也许在不久的将来,人与设备可以自由对话,设备与设备之间也能够对话并自动做出最优决策。

(3)分析模式

物联网的数据分析,可以分为如下四个类别:

  • 描述式分析(Descriptive):对采集的物联网数据进行统计和展示,这部分以统计分析为主;
  • 诊断式分析(Diagnostic):结合工业机理,对异常产生的原因进行诊断分析,这部分需要加入很多的数据挖掘技术,包括相关性分析、序列事件分析等;
  • 预测式分析(Predictive):通过长期历史数据的发展规律,预测趋势的变化,这部分需要引入包括机器学习、神经网络等技术,对趋势进行预测;
  • 处方式分析(Prescriptive):通过多个维度的数据分析的结果,结合知识库和机器学习,给出多种决策依据的可能,并提供智能的判决支持;

在每个类别里面,又必须从两个层次来展开分析:

  • 机理分析:根据物理或化学的原理,对工业设备的控制、过程以及产生的响应进行基于设计原理的专业分析,这部分一定是以专业知识为依据的;
  • 数据驱动的分析:对于工业里面很多无法测量,无法解释的现象,可以通过提取数据特征,从海量的数据中寻找异常点,通过机器学习的方法,弥补专业知识的不足;

可以看到,物联网数据分析的基础是物理机理,也就是专业知识的了解,而不是数据分析的方法和能力。没有充分的物理机理和专业知识,盲目的将一些大数据、人工智能的工具对工业数据进行分析,一定会适得其反

(4)分析模型

  • 梯度检查:检查时间序列的梯度,并提供检查结果
  • 线性回归: 计算时间序列数据的线性回归值,并提供所产生的曲线数据
  • 异常检测: 检测异常的时间序列数据,并提供检测结果
  • 趋势预测: 提供单个或多个 1d 时间轴上的微积分功能,具体包括基本的代数和统计学功能(均值、和值、方差)
  • 序列模式挖掘: 检测报警模式,并根据(变频器的)事件日志进行故障预测。该服务可从导致大型事件的序列中自动地学习相关模式
  • 多维KPI监视:该服务可以基于训练好的模型,从多个方面推断相关量化值。
  • 需求预测: 基于用于时间序列数据的深度神经网络(预先已训练)的预测模型执行程序

发布于 2018-12-09

文章被以下专栏收录