2022年 3月 March 2022
Digital Technology &Application 第40卷 第3期Vol.40 No.3数字技术与应用
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2022)03-0152-03DOI:10.19695/jki12-1369.2022.03.48
徐海文1 谭台哲1,2
1.广东工业大学计算机学院;
2.河源市湾区数字经济技术创新中心
在以往的推荐系统模型中,大多是通过协同过滤算法实现的,所以会存在冷启动和数据稀疏性等问题,从而导致推荐质量不高。一般的解决办法就是通过加入一些附加的语义信息来提升推荐的精度。而知识图谱中就包含了大量的语义内容,可以在推荐系统中引入知识图谱作为附加信息。因此,本文提出了基于知识图谱的个性化推荐系统构建。在推荐模型中加入知识图谱,可以很好的增强推荐的准确性。
随着不同平台的数据量以前所未有的速度增长,人们充分享受到了获得信息的便利。但是,与此同时人们也面临着一些问题,比如在如此冗杂的数据中寻信息时,如何快速、准确、高效地定位目标,如何屏蔽垃圾信息,为用户呈现出有用的结果等。虽然搜索引擎能够解决掉一些问题,但是对于一些用户,他们在浏览网页的时候,没有明确目标,只是随便看看。如果网站不能提供给用户更有兴趣的内容,那么就很难留住用户。因此,通过互联网技术,为用户实时的推荐一些合适感兴趣的内容,成为了当下研究的热点。
大数据时代,推荐系统在很多领域都有应用,并且取得了不错的成绩,尤其是在电商领域。但也面临着许多的挑战,传统的推荐算法,利用了用户与用户之间,物品与物品之间内在少量的信息,从而导致了推荐精度下降,并且难以逾越这些瓶颈。推荐系统还存在冷启动和数据稀疏性等问题,一般的方法是通过引入一些语义内容作为附加信息,就可以很好的提升推荐的质量[1]。知识图谱就是一种语义关系图,可以作为推荐系统的辅助内容。知识图谱由多个节点和边连接而成,它们共同收稿日期:2021-12-28
作者简介:徐海文(1994—),男,湖南新田人,硕士,研究方向:知识图谱、推荐算法。
通讯作者:谭台哲(1970—),男,山东莱阳人,博士,副教授,研究方向:机器学习与大数据处理、图像处理与计算机视觉。构成了一个大的语义关系网络,描述了各种实体或概念及其关系。它可以挖
掘出用户之间,物品之间,以及用户和物品之间的更深层次的关系。将大数据内容转换为知识,增强了对互联网内容的理解,将知识存储在知识库,再融合到推荐算法当中,可以很好的提高推荐性能。
1 知识图谱两厢
1.1 知识图谱介绍
知识图谱是谷歌推出的一项通过图技术来增强搜索功能的技术,它已经成为了当前智能相关应用的重要资源。知识图谱通常由多个三元组“头实体-关系-尾实体”构成的图,实体被称为图的节点,节点之间的边为关系。“实体”是其最基本的组成单位,“关系”是不同实体之间的语义联系。在知识图谱中,节点用来表示实体,边用来表示关系,然后知识图谱就形成了结构化的网络图。图是展现客观世界中知识的一种符号方式。
在知识图谱内部由数据层和模式层构成。知识在这两层中都表示为“实体-关系-实体”三元组或“属性-值”对[2]。事实和实例存储在数据层中,其中的实体是具体的事物,例如人、组织、地点和时间[3]。模式层存储概念和规则,模式层中的实体是抽象术语,也称为本体,它代表了对合理存在的事物的一种阐述[4]。在人工智能领域,本体被定义为一个标准化的、语义化的描述性概念模型,它描述了模式层中知识的概念层次结构。模式层为数据层提供概念模型和逻辑层次结构。数据层存储模式层中概念的实现。由于模式层存储的内容经过了知识加工,更适合推理,因此模式层通常被视为知识
2022年第 3 期图谱的核心。然而,也有一些知识图谱只有数据层而没
有模式层[5]。根据知识图谱的应用领域不同,知识图谱
可以被划分为两类:通用知识图谱和领域知识图谱。
1.2 知识图谱的优势
与以往的数据表示和存储工具相比,知识图谱的优
势大致可以总结为以下三个方面:
(1)智能:知识图谱可以从概念和逻辑层面实现数
据的深度检索,而不是传统的基于字符串匹配和超链接
的检索。深度检索更贴近人类自然的检索需求。此外,
知识图谱构建方法包括知识加工和知识更新技术。不断
更新和学习可以提高知识图谱的智能;(2)可解释性:
基于知识图谱的决策系统不仅可以提供结果,还可以为决策提供依据,有助于人类理解;(3)准确性:知识图谱使用清晰准确的方式来表示实体之间的关系,有助于将图中的所有信息连接成一个相互关联的网络,因此可以挖掘出数据更深层次的联系。传统数据库用表格或其他类似的结构来存储数据,这些结构很难对关系进行建模,导致数据相对孤立。
1.3 知识图谱的构建
知识图谱的构建通常基于原始数据,从中提取出相应的知识并存储在知识库的数据层和模式层中。数据层将知识以事实为一个单元存储起来。模式层以前者为基础,作为知识图谱的核心,将提取的知识存储在其中[6]。知识建模通过数据构建知识图谱模型,通常分为自顶向下和自底向上两种方式。
(1)自顶向下的方法通常是从各种权威的信息网站中获取数据,从中提取本体和模式信息,从顶层开始构建,定义概念后逐渐向下划分和细化;(2)自底向上的方法一般是从公开收集的数据中提取所需的信息,从底层构建,对已有的实体进行归纳和加工,在定义概念后逐步向上发展。这种方法主要用于开放领域知识图谱中的知识建模。
2 基于知识图谱的推荐模型构建
知识图谱中包含了大量的语义内容,可以在推荐系统中引入知识图谱作为附加信息来提高推荐质量。
因此,提出了基于知识图谱的个性化推荐模型构建。该模型主要包含了通过引入知识图谱来建立用户兴趣模型,对用户的相似度进行评分预测,对项目的相似度进行评
suv推荐分预测,最后通过融合算法,融合两个推荐列表得出Top-N结果集。该模型如图1所示。
2.1 建立用户兴趣模型
利用TransR知识表示对实体的属性三元组进行向量化,得到三元组的向量表示,然后计算三元组集合中每个属性的权重并进行加权求和,建立用户兴趣模型。利用TransR算法得到实体、关系和属性的向量表示,然后计算用户兴趣向量。三元组的集合如公式(1)所示。
T
u
={(h,r,s)|h∈V
u
} (1)
其中V
u
是用户u历史访问的实体集,T
u
是用户u访问的实体集中三元组信息。(h,r,s)是用户已经评估的三元组,h是实体,r是关系,s是实体的属性值。通过对实体和属性的向量表示,使用公式(2)计算实体h中的属性s的权重。
(2)
其中,h和r
s
是通过特征学习方法获得的实体和关
系的向量表示。用户兴趣模型C
u
是通过对用户历史评估集中的所有属性值进行加权求和得到的。计算过程如公式(3)所示。
C
u
=∑
(h,r,s)
w
s
s (3)
2.2 用户相似度得分预测
用户之间的偏好相似度,使用了欧式距离公式来计算,如公式(4)所示;使用公式(5)将结果控制在
[0,1]之间,得到用户u、v之间的相似性。
(4)
图1 基于知识图谱的推荐模型
Fig.1 Recommendation model based on knowledge map
)
exp(
)
exp(
),,(
r h
T
r h
W T
s广州车展2014
t r h
s
T
s
∑∈
=盘锦交通违章查询
徐海文 谭台哲:基于知识图谱的个性化推荐系统构建
(5)
考虑到相似度较低的用户之间的偏好对推荐结果的影响并不大,但会影响到计算的效率。因此设置阈值δ,当用户间偏好相似度高于阈值时,认为用户间偏好相似,否则认为用户偏好不同,则用户相似度设置为0。用户相似度矩阵算法1,伪代码算法1所示:
用户相似度矩阵算法1
输入:相似性阈值δ,用户兴趣模型Uc,用户评价集U 输出:用户偏好相似度矩阵S
for循环U内的用户u:
for循环U内的用户v:
用户u感兴趣向量Cu; //来自Uc 用户v的兴趣向量Cv; //来自Uc
采用欧式距离来计算用户偏好相似度; //公式(7) 偏好相似性sim(u,v); //公式(8) 如果 sim(u,v) < δ: Suv = 0; 否则
Suv = sim(u,v); //公式(8) end for end for return Suv;
推荐列表融合算法2
输入:基于知识图谱和项目相似度的协同过滤相似集合 Set L={L0,……,Ln} ;
基于用户偏好相似度的相似集合 Set E={E0,……,En};输出:被推荐集合 C={C0,……,Ck}for i<N do: 如果Li不含于C: 集合C中添加Li; 如果Len(C)==k; break; 如果Ei不含于E: 集合C中添加Ei; 如果Len(C)==k; break;end for
return Top-N的推荐集合C;
通过得到的用户相似矩阵,使用公式(6)计算所有项目来预测用户得分。
其中P ui 表示通过项目i来预测用户u得分,sim(u,v)
表示用户之间的偏好相似度,
表示用户u的平均得分, 表示用户v的平均得分,s(u)表示用户u的相邻集
10万左右的家用轿车合。然后将结果做一个排序,就可以得到一个Top-N 的推荐列表了。
2.3 基于项目相似度的得分预测
采用了基于项目的协同过滤算法。使用用户的历史得分记录,来对未被用户评估的项目进行评分预测。项目相似度的计算如公式(7)所示。
其中T ki 表示用户k对项目i的评价。通过得到的项目相似矩阵,计算出用户对该项目的预测得分。计算过程如公式(8)所示。
(8)
其中,P ui 表示用户u对第 i 项目的预测得分,N(u)表示用户u得分的项目集合,sim(i,j)表示用户k与第i项最相似的项目集合。通过对计算出的预测评分进行排序,选择前N个项目来生成一个推荐列表。
2.4 推荐列表融合
通过融合算法将两个部分进行融合,就可以得出一个新的推荐结果。融合过程如算法2所示,该算法的主要思想是使用循环进行遍历,将两个集合L和E中的项依次放入新集合C中。在这个过程中,需要确保集合元素是无重复的。
∑∈=T ),(T p v u sim v u ui =
j i I I sim ),( 3 结语
综上所述,分析了推荐系统研究的意义,在推荐系统广阔的应用前景下,为了提高推荐精度,可以引入知识图谱作为辅助内容。基于知识图谱嵌入的推荐模型,是一种将用户和项目知识实体引入推荐算法的简单有效的方法。该模型主要包含了四个部分:建立用户兴趣模型,用户相似度得分预测,基于项目相似度的得分预测,推荐列表融合。通过将推荐结果两部分的融合,最后生成了最终的推荐结果来进行推荐。对于未来的工作,我们还要考虑将该模型应用到具体
的系统中去使用。
引用
[1] 李金海.基于在线评论挖掘的网络购物混合推荐模型及策略研究[D].镇江:江苏大学,2016.
[2] 徐兵.基于知识图谱的推荐研究综述[J].现代计算机,2021(4): 60-63.
……下转第164页
1
),(1
),(+=v u C C d v u sim u T v
T
图 5 通道间幅度、相位一致性结果
Fig.5 Amplitude and phase consistency results between channels
的模数转化器的同步采集与同步转换。
5 测试情况
选取板内、板间多次测试数据展示,如图4和图5所示:
4379可以看出多次测试中板内、板间幅度和相位测量数据具有较高的一致性,波动范围较小,可以看出无论是板内、还是板间的同步性能较好,因此文章提出的同步技术是科学的且可实现的
6 结语
本方案探究实践出一种主、从控板多通道同步采集的方法。本方案在通过选用高精度时钟分配芯片、优化信号走线的方式,实现多块板卡的同步采集;并且各通道完全独立采集和转换;经过长时间、多次数的数据采集测试,得到大量的测试数据可以验证相对以往的ADC分时采集方式,采集效率得到了较大提升,经实际测试可用于多通道高速数据同步采集。
引用
[1] 杨俊峰,何浩,武杰多.多通道同步高速数据采集系统及其Windows程序设计[J].电子技术,2002,29(9):56-59.
[2] 李潮,刘书平,郭照新.多通道高速信号的同步采集和处理[J].微计算机信息,2005,21(3):62-63.
[3] 黄智刚,柳重堪,姚彤.多路并行高精度数据采集系统的两种实现方法[J].数据采集与处理,1999,14(2):226-229.
[4] 阎世栋.基于PC104总线的16通道同步数据采集卡的研究[J].国外电子测量技术,2005(2):39-42.
[3] 高海翔,苗璐,刘嘉宁,等.知识图谱及其在电力系统中的应用研究综述[J].广东电力,2020,33(9):66-76.
[4] 黄恒琪,于娟,廖晓,等.知识图谱研究综述[J].计算机系统应用,2019,28(6):1-12.[5] 高泽璞,赵云,余伊兰,等.基于知识图谱的低压配电网拓扑结构辨识方法[J].电力系统保护与控制,2020,48(2):34-43.
[6] 王冬青,殷红岩.基于知识图谱的个性化习题推荐系统设计研究[J].中国教育信息化,2019(17):81-86.
……上接第154页
发布评论