2019年1月
位中央翼后距离对接装配站位较近区域设置液压驱动源和测试柜,在中央翼后下方安装襟翼。④测量统一布局,需要保证各个系统和装备的协调性。对于其中存在的问题,可以在装配平台上安装固定支撑测量点,统一在同一坐标系下,构建平台全局坐标系,在此基础上进行总体布局。
2.3柔性化滑轨安装车
滑轨安装车设计中,滑轨跨度为150mm左右,保证前轴承定位孔一致,具体分为三组,高低位置控制在500~1500mm 范围内。为了实现模块化装配,在滑轨设计中综合考量滑轨宽度、轴承孔、高度和长度等参数,结合实际情况动态调整长度,前后左右平移,安装车可以手动平移和下降。需要注意的是,各滑轨位置间安装车随意转化,安装带行走脚轮,达到预设位置后驻车支撑。
3活动翼面单元化测试
对于飞机机翼模块化装配中,需要对活动翼面进行单元化测试。由于活动翼面运动控制结构较为复杂,对于飞机其他部件性能稳定同样具有促进作用。为了可以有效解决活动翼面模块化装配问题,为了实现集成化和单元化,需要综合分析控制逻辑结构和测试方法等内容。其中控制逻辑结构分析包括对测试控制逻辑结构和模块化对象控制两方面。测试方法分析包括测试基本方法和模块化对象运动控制。
4结论
综上所述,飞机机翼模块化装配技术应用中,相较于传统的流程进一步优化,可以有效减少总装阶段的调试工作量,促使装配交付总装对接后调整飞机整体最佳运行状态,将故障隐患消灭在萌芽状态。
参考文献
[1]张敬衡.小型折叠多旋翼无人机的机翼转轴结构设计[J].新技术新
工艺,2018,46(03):15~17.
[2]张立丰,姚卫星,邹君.模块化飞机结构优化设计的等效多工况法[J].航空学报,2015,36(03):834~839.
收稿日期:2018-12-23
基于数据挖掘的汽车质量评估研究
李芷卿(杭州市萧山区第三高级中学)
【摘要】改革开放以来,中国的汽车产业吸收外来国家经验,并且不断创新,汽车产业有了显著的发展,然而,汽车质量问题频出,成为大众普遍关心的问题之一。本文采用数据挖掘的方法来分析汽车质
量的问题,主要采用KNN、决策树和随机森林三个模型,经过实验表明,随机森林比KNN和决策树效果更优。
【关键词】汽车质量评估;KNN;决策树;随机森林
【中图分类号】U491.7【文献标识码】A【文章编号】1006-4222(2019)01-0231-02
1背景介绍
21世纪以后,人们生活质量不断提高,对于汽车的需求不断增大,汽车的销售量直线上升,汽车产业发展迅速[1]。然而,汽车质量问题不断出现,有关汽车质量的投诉案例增加,。另一方面,安全问题是人们最关心的问题,而因为汽车质量造成的安全问题屡次出现,促使人们愈发关注汽车质量的问题。因此,关于汽车质量的研究变得愈发重要。
数据挖掘是一个很普遍的方法,使用计算机对数据进行分析处理,在大量数据中出其中的特有规律,然后得出反馈,帮助人们进行快速精确的分析。数据挖掘的适用范围很广,不同领域都有涉及[2~4],如超市顾客资源分析,学生情况数据分析等。此外数据挖掘有不同模型和算法,常见的有决策树,随机森林,支持向量机,K最近邻(KNN)等。不同的模型和算法适合于不同的情景。
本文主要使用KNN、决策树和随机森林三种模型,通过汽车的不同特征,来对汽车质量进行分析,预测
车辆的质量是否合格。本文从UCI数据仓库网站下载了公开数据集,数据集的每一个数据有六个特征,分别是购买价格,保养价格,车门数量,搭载人数,后备箱,安全性能。本文通过调整模型的不同参数,来使模型得出最优的结果,同时比较三种不同的模型,来得出最适合本任务的最佳模型。
2相关工作
K最近邻(KNN)模型的核心是使用一种距离度量方式,获得距离目标点最近的k个点,之后根据分类决策规则,进一步决定目标点的类别[5]。距离度量、k值的选择和分类决策规则是k近邻模型的三个基本要素。在距离度量方面,常采用的是欧氏距离和余弦距离。k值的选择是一个值得探究的问题,如果k值过小,近似误差虽然会较小,但是估计误差会较大;相反,如果k值过大,则近似误差会较大,估计误差会较小。kNN模型的分类决策规则是常见的简单多数规则,也就是在距离目标点最近的K个点中,哪种类别的数目最多,就把目标点的类别归于哪一类。
决策树是一种被广泛使用的分类算法,是一种自上而下的树形结构分类器,在其每一个内部节点选择一个最好的属性进行分类,每个叶节点都是同一个类别的数据。通过这个模型,可以很快得出结论。并且,在大部分情况下,决策树这种模型具有很高的准确率,然而,决策树也容易出现过拟合问题,使分类的精确率下降[6]。
20世纪70~80年代,id3决策树算法,cart决策树算法, c4.5决策树算法先后被提出,这三种算法都是采用贪
心算法构建一个树形结构分类器。决策树不要求有先验知识,相比于其他方法,更容易解释,但是在决策树递归过程种,容易过度分割样本空间,因而使得精确率下降,为避免出现此类问题,应对决策树剪枝,不同的剪枝方法都会增加算法的复杂性。
集成学习是将不同的分类器结合起来,通过对其结果的整合,来得出更加有效的结果。这种方法的提出是由于单个分类器分类精确率不高,并且容易出现各种问题,如过拟合问
论述231
2019年1月
表1决策树的实验结果精确率
召回率F 值unacc (%)97.4
95.496.4acc (%)
81.287.884.4good (%)67.353.659.7vgood (%)
7483.1
78.3
题。采用集成学习的思想,可以使数据模型的准确率提高,节省大量时间。
随机森林是采用了集成学习理论和随机子空间方法,并以决策树为基础的一个更高级的模型。随机森林是由许多决策树组成,每一个决策树都没有关联,通过输入一个样本,在每棵决策树上得出一个样本,并且判断样本属于哪一类,然后输出最多的那一类分类结果。
随机森林有很多优点,非常容易学习和使用,并且有很高的精确性,还有很好的抗噪声能力。又由于是由许多没有关联的决策树组成,可以并行运行,生成数据的时间大大缩小。因此,随机森林被广泛运用在各种领域,如医学研究,工商管理,金融等领域。
3实验设置
本文在UCI 数据仓库网站下载了一个关于汽车质量预测的数据集,一共有1728条数据,每个数据有六个特征:购买价格,保养价格,车门数量,搭载人数,后备箱容量,安全性。每个特征都有不同的取值,如:购买价格有很高、高、中等、低这四个取值;保养价格有很高,高,中等,低;车门数量有2,3,4,5,更多;搭载人数有2,4,更多;后备箱容量有小,中等,大;安全性有低,中等,高。每一个数据对应一个标签,表示汽车的质量水平,整个数据集的标签有四个类别。
本文使用的是wake 软件,因为只有训练集没有测试集,因此本文采用五交叉验证的方法来进行实验。
4实验结果
本部分使用决策树作为分类模型进行实验,最终决策树的训练时间为0.01s ,准确率为91.55%,详细的实验结果如表1所示。
从表格中可以看出:unacc 类别的三个指标都很高,表现是最好的,acc 类别的指标较高,而good 和vgood 类别的指标都比较低。分析数据集可知,这种情况是由于数据分布非常不均衡导致的,在数据集中,四个类别包含的数据个数不同,大部分数据都是unacc 类别,一小部分是acc 类别,其他较少的数据是good 和vgood 类别。unacc 和acc 类别的数据多,模型对它很敏感,因此对这两种模型有更多的分类倾向,所以这两种类别的三个指标都会偏高。而good 和vgood 类别的数据很少,模型无法对他们较好地进行预判,因此这两种类别的三个指标都会很低。
在实验结果的树形结构中,可以看出,安全性,搭载人数,购买价格这三个特征对类别的影响最大,很多数据都可以通过这三个特征直接得出类别预测结果。比如,安全性为低的时候,所以数据的类别都为unacc ;安全行为中等,并且搭载人数为2的时候,所以数据的类别都为unacc 。
本文还使用了随机森林为模型进行实验,对不同参数进行调整,通过设置不同决策树的数目,来比较哪种参数下随机森林的模型表现最优,结果如表2所示。
分析表2可以得出,当决策树的个数越多,随机森林的准
确率越高,训练的时间越长,本文中选取决策树个数为20时的随机森林模型作为最佳模型。该模型的详细实验结果如表3所示。
分析表3可以知道,unacc 和acc 类别的三个指标偏高,good 和vgood 类别的指标都偏低,出现这样情况的原因与决策树实验结果的原因相似,都是因为数据分布不均衡导致的。
本文还使用了KNN 模型作为分类模型进行实验,参数K 设置为3。模型的准确率为92.42%。详细的实验结果如表4所示。
比较KNN 、决策树和随机森林这三个模型,KNN 没有训练模型的过程,因此模型训练不耗时。而决策树和随机森林都需要一定的时间训练模型,决策树使用的训练时间相对较短。在准确率方面,三种模型的对比结果如表5所示,决策树准确率最低,KNN 居中,随机森林的准确率最高,并且在4种类别上的精确率、召回率和F 值都较高,预判结果更优。因此,可以得出结论:随机森林比决策树和KNN 模型更加适合本实验,在数据集上有更好的分类表现。
5总结
本文对汽车质量预测问题进行了实验,在网上下载了数据集,运用weka 软件,使用决策树和随机森林
中国汽车质量投诉网
两个模型,做了几次实验。实验结果表明,随机森林更适合本实验,有着更好的表现。同时本文还发现,安全性和搭载人数这两种特征对汽车质量类别的影响最大。
本文采用的模型比较少,未来希望运用其他的模型,如:SVM 、朴素贝叶斯、神经网络、深度学习等,来对这个数据集进行分析,来出更适合这个数据集的模型。
参考文献
[1]何叶.车辆悬架系统零部件性能与质量检测评价系统[D].吉林大学,2014.
[2]李运.机器学习算法在数据挖掘中的应用[D].北京邮电大学,2015.[3]刘钟情.基于数据挖掘的体育院校大学生兼职研究———以成都体育学院为例[J].中国大学生就业,2018(14).
[4]赵文豪,胡晔明,夏建军.基于数据挖掘的智能手机成瘾辅助研究[J].计算机时代,2018(7).
[5]于滨,邬珊华,王明华,等.K 近邻短时交通流预测模型[J].交通运输工程学报,2012,12(2):109~115.
[6]董师师,黄哲学.随机森林理论浅析[J].集成技术,2013,2(1):1~7.
收稿日期:2018-12-18
表2不同规模的随机森林模型的准确率和训练时间
3
5
10
15
20
准确率(%)87.0990.6892.4292.9493.34时间(s )
0.010.010.030.050.07表3随机森林的详细实验结果,随机森林由20棵决策树构成
精确率
召回率F 值unacc (%)97.297.597.4acc (%)
86
88
87
good (%)75.959.466.7vgood (%)79.483.1
81.2表4KNN 模型的详细实验结果,KNN 中K 的参数是3
精确率
召回率F 值unacc (%)96.196.697.8acc (%)
80.487.583.8good (%)10017.429.6vgood (%)
100
67.7
89.7
表5本文3种模型的训练用时和预测准确率对比
KNN 决策树随机森林训练用时(s )00.010.07预测准确率(%)
92.42
91.55
93.34
论述
232