如何运用大数据来分析驾驶行为中的风险？

车联你我

2015/6/2 11:28:30

分享到

我们知道，保险公司利用UBI，会构建两个分析模型，一个是驾驶风险模型，一个是基于驾驶风险和其他风险的保险定价模型。驾驶风险模型是需要拥有车联网数据具备车联网运营经验，懂驾驶行为，懂车，能够进行数据分析，一般是主机厂、TSP或者数据平台公司。保险精算模型是具备车险资质和精算经验，一般是保险公司，保险经纪公司，精算咨询服务公司。

对大部分采用UBI计算的保险公司/车联网公司来说，驾驶风险模型会用到50个以上的变量，这些变量大部分是通过车联网采集，前装数据会多一点，质量好点，后装OBD的方式，有一些数据的噪音。

这些变量一般是：行驶里程，平均出行的时长、平均出行距离、平均每天出行次数、平均每天出行时间、平均一天驾驶距离、平均一周驾驶距离、周一到周五平均驾驶次数、周末驾驶次数、平均速度、急加速/百公里、急刹车/百公里、路型、各地形的行驶里程、个地形的驾驶时间、各地形的停车时间、转弯次数、横向加速次数、滚动停止、变道次数、变速频率、变速级别、巡航控制、左转弯次数、速度偏差、假期驾驶、驾驶类型（速度VS时间）、驾驶类型偏差、出行半径、交叉口次数、转弯信号灯、安全带状态、安全气囊状态、灯/雨刷状态、车辆维修状态、出行间隔、拥堵指数、手机使用等。因为各个变量之间也具备关联关系，这里我们会有基本算法的选择，是使用线性聚类，还是神经网络的决策树算法。

我们通过对一年5千辆车的运行车联网数据进行了基本的算法建立，如下图。

首先通过log file建立初始数据，通过云端存储进行半结构化的数据，通过HIVE和HDInsight进行数据的清理，drivesession相当于进行驾驶风险的数列化，建立基本的数据表单，通过Dataset,AML（基于云端的机器学习）和数据训练模式，形成最后的驾驶风险打分，打分的结果会通过WebService进行展示。目前车联网数据收集来源，这里很多工作是进行了数据的清洗工作。同时根据保险公司提供的理赔名单和驾驶车主进行匹配，在训练模型中进行相关的训练。

要建立一个驾驶风险的基准，一般要经过下图的几个步骤：