基于决策树分类算法的汽车保险理赔案件分析研究
作者:朱飞鸿
来源:《中国科技博览》2018年第14
        [ ]随着汽车的普及,车险成为了我们日常生活中不可或缺的一部分。利用Hadoop完全分布式平台和数据挖掘中的决策树分类算法对汽车保险理赔案件进行分析研究,为保险公司减少损失提高盈利做出了贡献,并对国内外关于汽车理赔的研究进行简要阐述[1]
        [关键词]决策树算法,保险理赔,数据挖掘,Hadooop
        中图分类号:TU686 文献标识码:A 文章编号:1009-914X201814-0306-01
        0 引言
        随着科技的飞速发展,网络生活中的信息和数据呈现爆炸式的增长,并呈现出一种信息过载的现象,使得在海量的信息中获取到真正有价值的信息变得越来越难。数据挖掘的出现可以有效解决这一问题。分类算法是数据挖掘算法中常见的一种,它可以有效的将具有不同特征的事物进行分类,为保险公司出感兴趣的信息。
        1 数据挖掘
        数据挖掘的定义:从技术角度来看看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程[2]
        从商业角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识[2]
        2 分类算法
        分类算法主要包括k-最邻近、决策树、贝叶斯、神经网络和支持向量机等。分类过程分为两个阶段:学习阶段与分类阶段。
        决策树分类算法是从一组无次序、无规则的样本中推理出决策树表示形式的分类规则。从根到叶子结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。
        假设训练数据集是关系数据表S,共有n元组和m+1个属性,其中、、、为描述属性或条件属性,C为类别属性。类别属性C的不同取值个数即类别数为u,其值域为(,,,),在S中类别属性C取值为(1≤i≤u)的元组个数为。
        属性(1≤k≤m),它的取值个数为v,其值域为(,,,)。在类别属性C取值为(1≤i≤u)的子区域中,属性取(1≤j≤v)的元组个数为。类别属性C的无条件熵定义为:
        ,为C=1≤i≤u)的概率。属性(1≤j≤m),类别属性C汽车保险理赔案例的条件熵定义为:
        条件熵表示在已知描述属性的情况下,类别属性C对训练数据集S的分类能力。
        属性(1≤k≤m),对应类别属性C的信息增益定义为:
        表示在已知描述属性的情况下,类别属性C对训练数据集S分类能力增加的程度,或者说选择测试属性对分类提供的信息越多。
        3 分类分析算法在保险理赔案件数据中的应用
        Hadoop主要提供两个功能,MapReduceHDFSMapReduce在处理海量数据时将任
务分解,并在多个节点处理,与Linux服务器结合,获得非常强大的大数据集。HDFS即分布式文件系统,主要为分布式计算存储提供底层支持。
        3.1 软硬件支持
        本实验采用三台计算机进行Hadoop物理集的搭建,计算机系统为CentOS6.3Hadoop版本选择Hadoop-1.2.1。软硬件配置一致,4G内存,500G硬盘。一台计算机为Master结点,IP地址为192.168.116.128,其他两台计算机为Slave结点,IP分别为192.168.116.129192.168.116.130
        3.2 实验过程
        选取某保险公司的汽车保险理赔部分数据,包括用户的个人信息及汽车保险的详细信息,首先进行数据数据预处理。保险数据理赔案例方面的数据信息包括车牌号,驾驶员姓名,性别,年龄,驾龄,出险次数,驾驶员职业,保险金额,修理时间等。决策树分类主要是对理赔客户进行风险级别分类。客户的风险特征作为此次实验的特征变量,对该变量作如图3.1定义:
        将保险金额、驾龄、修理时间3个变量作为决策树模型的输入变量,风险等级作为预测变量,即输出变量,建立投保客户风险等级判别模型。本实验将有效数据的80%用于建模,20%用于挖掘模型测试[3]
        决策树挖掘模型的依赖关系,可以看出,驾龄与风险级别的关联性最强,一般而言,驾驶员驾龄越短,风险系数越高;次之的是修理费用,车损的严重程度与维修难易程度、风险级别呈正相关。
        4 结束语
        随着云计算时代的来临,大量的数据成为了重要的生产元素,利用分类算法可以在海量的汽车保险数据中出对保险公司有利的信息,提高汽车保险公司的市场竞争力[4]Hadoop分布式平台可以对大数据进行读取,存储,对于分类算法和Hadoop分布式平台的结合,为交叉学科提供了无限可能。
        参考文献
        [1]卢东标.基于决策树的数据挖掘算法研究与应用[D].武汉理工大学,2008.05.
        [2]奚丹慧.我国汽车保险业务问题研究[M]2012.05.
        [3]杨世东.我国汽车保险理赔中存在的问题及对策研究[A].
        [4]彭建坤.我国机动车辆保险经营风险控制研究[D].西南财经大学,2007-04.
        作者简介:朱飞鸿 1990.01-- 女,陕西省延安市人,硕士,专业:软件工程.