基于SAC和TD3的含电动汽车虚拟电厂调度策略

电气传动2023年第53卷第9期

ELECTRIC DRIVE 2023Vol.53No.9摘要：虚拟电厂（VPP ）可以聚合分布式电源（DER ）参与电力市场和辅助服务市场运行，为配电网和输电网提供管理和辅助服务，其运行和控制得到广泛关注。针对含电动汽车（EV ）充电站的虚拟电厂，构建了基于柔性行动器-评判器（SAC ）算法和双延迟深度确定性策略梯度（TD3）算法的VPP 与EV 充电站主从博弈模型。通过训练主从博弈网络参数，计算博弈均衡时的策略和解。算例结果表明，上述模型训练完成后，可以有效地降低EV 充电站运行费用以及平缓功率，基于SAC 强化学习方法能够整合VPP 内部DER ，并引导电动汽车有序充电。在VPP 作为价格接受者参与日前电力市场时，也能够给出优化的交易策略；当VPP 与EV 之间存在主从博弈时，EV 用确定性策略算法可以降低充电成本，VPP 用随机性策略算法则可以提高收益。

关键词：虚拟电厂；SAC 算法；TD3算法；电动汽车；主从博弈；实时调度中图分类号：TM721

文献标识码：A

DOI ：10.19457/j.1001-2095.dqcd24441

Scheduling Strategy of Virtual Power Plant with Electric Vehicle Based on SAC and TD3

TAO Li 1，2，5，YANG Xiaxi 3，GU Jinhui 4，WEI Bingbing 3，ZHANG Lin 2，5

，WANG Jianing 4

（1.School of Economics and Management ，North China Electric Power University ，Beijing 102206，China ；

2.Nanrui Group Co.，Ltd.（State Grid Electric Power Research Institute Co.，Ltd.），Nanjing 210003，

Jiangsu ，China ；3.Suzhou Institute of Product Quality Supervision and Inspection ，Suzhou 215104，Jiangsu ，China ；4.School of Electrical &Electronic Engineering ，North China

Electric Power University ，Beijing 102206，China ；5.Beijing Kedong Electric

Power Control System Co.，Ltd.，Beijing 100194，China ）

基金项目：国家电网科技项目（5100-202040443A-0-0-00）

作者简介：陶力（1981—），男，博士，高级工程师，Email ：******************

基于SAC 和TD3的含电动汽车虚拟电厂调度策略

陶力1，2，5，杨夏喜3，顾金辉4，魏兵兵3，张琳2，5

，王嘉宁4

（1.华北电力大学经济与管理学院，北京102206；2.南瑞集团有限公司（国网电力

科学研究院有限公司），江苏南京210003；3.苏州市产品质量监督检验院，江苏苏州215104；4.华北电力大学电气与电子工程学院，北京102206；

5.北京科东电力控制系统有限责任公司，北京100194）

Abstract:Virtual power plant （VPP ）can integrate distributed energy resource （DER ）to participate in the operation of power market and auxiliary service market ，and provide management and auxiliary services for distribution network and transmission network.Its operation and control have been widely concerned.Aiming at the virtual power plant containing electric vehicle （EV ）charging stations ，the Stackelberg game model of VPP and EV charging stations was constructed based on soft actor -critic （SAC ）algorithm and twin delay deep deterministic policy gradient （TD3）algorithm.By training the network parameters of Stackelberg game ，the strategy and solution in game equilibrium was calculated.The calculation example results show that the model proposed can effectiv

ely reduce the operating cost and smooth power of EV charging stations after the completion of training ，and the SAC reinforcement learning method can integrate the internal DER of VPP and guide the orderly charging of EV.When VPP participates in day-ahead power market as price taker ，it can also give optimal trading strategy.When there is Stackelberg game between VPP and EV ，EV can reduce charging cost by using deterministic strategy algorithm ，while VPP can improve revenue by using stochastic strategy algorithm.

Key words:virtual power plant （VPP ）；SAC algorithm ；TD3algorithm ；electric vehicle （EV ）；Stackelberg game ；real-time dispatch

由于电动汽车（electric vehicle ，EV ）具有低能

耗、低排放的优势，预计其接入电网的比例持续

陶力，等：基于SAC和TD3的含电动汽车虚拟电厂调度策略电气传动2023年第53卷第9期

增加。电动汽车能够借助充电桩实现与电网之间的互动（vehicle to grid，V2G），在减少用户成本的同时，起到辅助电网安全稳定运行的作用[1]，是一种非常有潜力的分布式电源（distributed energy

resource，DER）。然而，由于EV接入电网的时空不确定性，其入网充电时间与充电电量均具有较高的随机性，这也给电网优化控制带来了极大的挑战。

针对EV充电的优化问题，文献[2]对用户取车时的目标电池荷电状态（state of charge，SOC）做出约束，提出采用双延迟深度确定性策略梯度（twin delay deep deterministic policy gradient，TD3）算法连续控制充电桩的充电功率，但是没有考虑到充电管理系统能够提高实际充电时的效率；文献[3]采用深度Q网络算法控制EV的充电行为，能够降低充电费用及平抑网络功率波动，但是这种算法只能用于充电功率的分档调节；文献[4]将电动汽车充、放电调度问题建模为带约束的马尔可夫决策过程，然后采用提高强化学习安全性的约束型策略优化（constrained policy optimization，CPO）算法求解；文献[5]将电动汽车实时电压控制问题转化为EV无功控制和V2G两种模式的马尔可夫博弈，并采用深度确定性策略梯度（deep deterministic policy gradient，DDPG）算法求解，效果较好。上述基于深度强化学习（deep reinforcement learning，DRL）的方法利于EV 充电站内部优化，但无法通过与传统运筹学模型相结合来与外部资源联合优化。

与此同时，随着分布式能源、储能、通信、并行计算等技术的发展，含电动汽车的虚拟电厂（VPP）可以将分布式可再生能源发电、储能装置、电动汽车等资源聚合成一个整体，作为一个特殊的电厂参与电力市场竞争[6-8]。文献[9]提出风电商和EV聚合商通过合作博弈组成VPP参与电力市场投标竞争，并采用Shapley值法进行收益分配。文献[10]提出以VPP为售电商的EV主从博弈模型，能够优化自身售电策略，

并引导EV有序充电。然而此类电力市场模型往往呈现非凸、非线性、维度高的特点，采用传统运筹学方法求解时难度较大。系统中可再生能源的间歇性以及电动汽车负荷需求的不确定性造成了供需双方的随机波动，传统的调度方法难以准确地适应实际环境的动态变化，也难以对智能体控制的EV 充电站优化调度。

随着人工智能技术的发展，DRL方法在电力系统中也越来越受到重视[11-13]，其可以模拟不完全信息的交易或博弈，能从高维、连续的状态空间中提取高阶数据特征，对含不确定性的可再生能源出力、电动汽车有序充电、电力市场交易等模型有较强的表达及特征挖掘能力。文献[14]采用DDPG算法，以解决VPP经济调度问题的最优解，但没有考虑电动汽车充电，也没有考虑VPP 在日前市场的交易。文献[15]采用基于优先经验回放的深度确定性策略梯度（deep deterministic

policy gradient with prioritized experience replay，DDPG-PER）算法作为电力市场竞价策略，当出清模型非凸时，获得的收益超过数学规划方法。此外，无模型的深度强化学习算法也已被应用于求解Nash博弈[16-17]、Stackelberg博弈[18-19]、平均场博弈（mean field games，MFG）[20]等多种博弈论模型。

从现有文献来看，传统博弈论方法一般局限于求解完全信息静态博弈问题。传统的强化学习（reinforcement learning，RL）算法虽然可以动态模拟不完全信息的重复博弈，但应用范围局限于低维

的离散状态/动作空间，且收敛结果不稳定。本文针对含EV充电站、分布式机组、储能、可再生能源等灵活性资源的VPP，提出基于深度强化学习的VPP与EV主从博弈模型，其中VPP采用柔性行动器-评判器（soft actor-critic，SAC）算法，EV聚合商采用TD3算法。VPP整合配电网内分布式能源并制定合理的售电策略来引导EV的有序入网，以实现多种新能源间的协调互补与整体优化。本文的主要贡献如下：

1）对于智能体优化控制的VPP与EV充电站构成的主从博弈模型，提出交替训练行动器-评判器算法网络参数的求解流程与方法。

2）算例从博弈论中策略类型的角度，研究了混合策略与纯策略在模型中的不同效果，并给出了初步的解释。

3）算例对比了博弈与不博弈下模型的结果，表明主从博弈模型能降低EV用电成本，提高社会福利。

1电力市场交易流程及VPP结构VPP服务器利用通信技术将可控分布式发电机组、风电、光伏、储能及电动汽车充电站等资源聚合，形成整体参与电网市场交易及电网运行。VPP容量较小，可作为价格接受者参与日前电力

陶力，等：基于SAC 和TD3的含电动汽车虚拟电厂调度策略电气传动2023年第53卷第9期

市场（day -ahead market ，DAM ）和实时平衡市场（real -time balancing market ，RBM ）的电力交易[21]。1.1

含VPP 电力市场交易流程

电价机制采用市场清算电价（pay -as -bid ，

PAB ），其规则[22]如下：在第n 天的能量市场交易

结束之前，VPP 以系统运营商（independent sys⁃tem operator ，ISO ）的出清结果为日前电力市场价格曲线，根据对电动汽车负荷量、可再生能源发电量的预测，通过与EV 主从博弈产生的均衡解，形成VPP 日前优化与实时调度的控制策略。并依据训练好的深度强化学习模型，向ISO 独立申报第n +1天24个交易时段的电量交易信息。在随后的实时平衡市场中，VPP 根据EV 以及新能源机组的实时功率波动，调整内部储能与可控分布式机组（distributed generator ，DG ）的出力、EV 充电电价以降低功率偏差，对于无法平衡的功率偏差则在实时平衡市场中以惩罚电价进行交易。VPP 在日前电力市场中的购电策略可以表

示为P D

={}P D 1

,P D

,⋯,P D T

，其购电成本C B t 为

C B

-P D t λD t -P R t λR b,t P R

t ≥0-P D t λD t -P R t λR s,t P R t <0

（1）P D min ≤P D t ≤P D max （2）

式中：

P D t ，P R t

为VPP 在日前电力市场和实时平衡市场中的购电/售电量；

P D

min

，P D max

为购售电量上、下

限，与联络线功率约束有关；

λD

为日前电力市场的出清价格，由ISO 在日前根据出清结果确定；λR b,t

，λR

s,t

为实时平衡市场中的惩罚性购售电价[10]

。

1.2

VPP 结构及数学模型

VPP 作为一个整体对外参与电力市场，对内

实现各DER 、储能、EV 充电站的协调运行控制，可以提高在电力市场中的竞争力[23]。1.2.1

EV 充电站

本文考虑一个包含K 个充电桩、完全由智能

体控制的EV 充电站，其中第i 台EV 充、放电的数学模型如下所示：

e i ,t =ìí

ïï

ïïe i ,t -1+ηch e P EV

i ,t Δt

Q e P EV i ,t ≥0e i ,t -1+P EV i ,t Δt ηdis e Q e P EV

i ,t <0

（3）

e i ,t ,min ≤e i ,t ≤e max

（4）e i ,t ,min =max {e min ,e n -ηch e P ch,max

i ,t

(t l,i -t )Q e

}

（5）ìí

î-P dis,max i ,t ≤P EV i ,t ≤P ch,max

i ,t

t a,i <t ≤t l,i

（6）

式中：P EV i ,t 为t 时刻充、放电功率，P EV i ,t ≥0代表EV 充电量，P EV i ,t <0代表放电量；t a,i ，t l,i 分别为EV 的到达、离开时刻；e i ,t ，e i ,t ,min 分别为第i 台EV 在时刻t 的SOC 和满足用户要求的最低SOC ；

e max ，e min 分别为EV 电池容量限制的最大SOC 和最小SOC ；

e n 为电动汽车出发时期望的最小SOC ；ηch e ，ηdis e 分别为EV

电池的充、放电效率；Q e 为电池总容量；Δt 为时间

间隔；P ch,max i ,t ，P dis,max i ,t 分别为充、放电功率P ch i ,t 和P dis

i ,t

的最大值。

充电站中不同EV 在每个时段内的充、放电功率由同一个充电站智能体控制。充电站智能体依次观察每台EV 当前的状态，并确定下个时刻EV 的动作。第i 台EV 的状态包括当前时间、充电站内充电桩使用率、VPP 制定的EV 充电价格、第i 台EV 的SOC 、第i 台EV 预计剩余的取车时间，即

S EV i ={}

t ,ηEV ,λEV t ,e i ,t l,i （7）其动作为每台EV 在t 时刻充、放电量，即A EV i ={}

P EV i ,t （8）

1.2.2

分布式机组发电

可控分布式机组一般为用户侧的小型燃气

机组或柴油机组，运行成本C DG i ,t 主要考虑发电成本C DG1i ,t 、启停成本C DG2i ,t ，

其运行特性与约束条件为ìíî

ïïïïïï

C DG i ,t =C DG1i ,t +C DG2

i ,t

C DG1i ,t

=a DG i (P DG i ,t )2+b DG i P DG i ,t +c DG

i C DG2i ,t =∑t =1T ∑i =1N G

[c on i h g i ,t (1-h g

i ,t -1)+c off i h g i ,t -1(1-h g

i ,t )]（9）

P DG i ,t ,min ≤P DG i ,t ≤P DG i ,t ,max

（10）ΔP DG i ,t =P DG i ,t -P DG i ,t -1

（11）P DG i ,down ≤ΔP DG i ,t ≤P DG

i ,up

（12）

式中：P DG i ,t 为第i 台分布式机组在t 时刻的输出功率；h g i ,t -1为机组的启停状态，1表示运行，0表示停运；a DG i ，b DG i ，c DG i 分别为第i 台分布式机组的耗量参数；c on i ，c off i 分别为第i 台常规机组的启动和停机成

本；P DG i ,t ,max ，P DG i ,t ,min 分别为DG 输出功率上、下限；ΔP DG i ,t 为功率变化量；

P DG i ,up ，P DG i ,down 分别为分布式机组爬坡速率上、下限。

式（9）为分布式机组成本耗量函数，式（10）为输出功率约束，式（12）约束分布式机组功率调整的爬坡速率。1.2.3

储能

本文储能单元的运行特性与约束条件为

陶力，等：基于SAC 和TD3的含电动汽车虚拟电厂调度策略

电气传动2023年第53卷第9期f ES i ,t

=ìíî

ïïf ES i ,t -1+ηch b P ES i ,t Δt P ES

i ,t ≥0f ES i ,t -1+P ES i ,t Δt

ηdis

b P ES i ,t <0（13）

f ES min ≤f ES i ,t ≤f ES max

（14）f ES i ,1=f ES i ,T

（15）

式中：

P ES

i ,t

为储能充放电量，P ES

i ,t

≥0代表充电量，

P ES i ,t <0代表放电量；

f ES i ,t 为t 时刻在储能单元中存储的能量；f ES min ，f ES max 分别为储能单元的最小、最大容量；

f ES i ,1，f ES i ,T 分别为一天开始与结束时刻储能单元的能量；ηch b ，ηdis b 为储能单元的充、放电效率。1.2.4

可再生能源发电

风电聚合商在日前给出预测的24h 风电出

力。风力预测相对误差通常大于负荷预测的相对误差，且该误差的标准差随着预测水平的增大而增大。本文保守估计其误差服从均值为0、标准差为δ的正态分布[24]。其出力可表示为

P wr,i ,t =P wf,i ,t +Δp w,i ,t （16）Δp w,i ,t ~N (0,δ2w,i ,t )

（17）δw,i ,t =150Q w,i +15

P wf,i ,t （18）

式中：

P wr,i ,t 为风电在t 时刻的功率实际值；P wf,i ,t 为风电在t 时刻的功率预测值；

Δp w,i ,t 为风电功率预测误差；

δw,i ,t 为风电在t 时刻的风电出力预测误差标准差；

Q w,i 为风电装机容量。风电设备的建造成本为一次性投入，本文将

其忽略。

2VPP 与EV 主从博弈模型

在Stackelberg 主从博弈[25]中，假定博弈中的所

有参与方都为理性人，以使己方利益最大化为目标。领导者先提出一个策略，然后跟随者根据领导者采取的策略，调整策略使自己的效用最大化。

在本文中，假定VPP 为博弈主体，EV 为博弈从体，根据DRL 算法，得出每个博弈主体的最佳策略。各主体与环境相互作用，以优化其长期奖励为目标进行策略的学习。VPP 的控制变量为{λEV t ，P ES i ,t ，P D t ，P DG i ,t ，

∀i ，∀t }，其目标函数和约束条件如下：

ìíîïï

min ∑t =1T

{C B t -C EV t +∑i =1N C DG i ,t +L VPP t }

<式(1)~式(2)，式(7)~式(18)

（19）

C EV t

=ìíîïïïï∑k =1

K λEV t P EV

k ,t P EV k ,t ≥0∑k =1

λEV t P EV k ,t P EV k ,t <0（20）

P R t

=∑i =1

K P

EV i ,t

+∑i =1

M P

ES i ,t

-∑i =1

N P DG i ,t -P wr,i ,t -P D

t （21）∑t =1

λD

=∑t =1

T λ

（22）λEV t ,min ≤λEV

t ≤λEV t ,max

（23）

式中：C EV t 为整个充电站的用电成本，即VPP 从EV 获得的收入；λEV t 为VPP 制定的t 时刻EV 的充、放电价格，满足对应时刻的价格上、下限约

束；L VPP t

为VPP 各约束的惩罚项。训练时，为处理模型中的等式约束，本文引入L VPP t 作为VPP 各约束的惩罚项，其表达式为L

VPP

=αEV

|∑t =1

T λD t

-∑t =1

T λEV t

|+α

∑i =1

M |f

ES i ,1

-f ES i ,T |（

24）式中：αEV ，αES 为惩罚项的系数，取值为足够大的正数，以激励智能体满足模型约束。

训练中，为引导智能体满足每辆EV 的SOC 不等式约束，引入L EV t 作为惩罚项，

其计算公式为L

EV t

=∑i =1

K L EV i ,t

（25）L

i ,t

=ìí

îβ|e i ,t ,min -e i ,t | e i ,t ≤e i ,t ,min

β|e i ,t -e max | e i ,t ≥e max

（26）

式中：β为惩罚项的系数。

本文中，VPP 的状态为时间、微型汽轮机发电量、电动汽车充电站充电桩使用率、储能SOC 、DAM 电价、电动汽车充电站的电价累计值、风电功率预测值，即

S VPP ={}

t ,P DG 1:N ,t ,ηEV t ,f ES 1:M ,t ,λD t ,τEV

t ,P wf,1:W ,t （27）

其中

τEV t =∑t

λEV t

VPP 的动作为微型汽轮机发电变化量、电动

汽车充电站充电价格、储能动作、日前售电量，即

A VPP ={}

ΔP DG 1:N ,t ,λEV t ,P ES 1:M ,t ,P D

t （28）

3基于深度强化学习的模型求解

强化学习基本框架如图1

所示。

图1

强化学习基本框架

Fig.1

Basic framework for reinforcement learning

3.1行动器-评判器算法框架

行动器-评判器（actor-critic ，AC ）框架是强化学习连续动作领域的一类重要算法，包含了

陶力，等：基于SAC和TD3的含电动汽车虚拟电厂调度策略电气传动2023年第53卷第9期

DDPG算法[26]、TD3算法[27]、SAC算法[28]等多种无模型（model-free）的、离轨策略（off-policy）的算法。其中，DDPG与TD3为确定性策略，SAC为随机性策略。

3.1.1优化目标

强化学习算法的训练目标为通过与环境互动，寻最优策略π*，使得智能体在有限马尔科夫决策过程（Markov decision process，MDP）[29]中，累积回报的期望最大，即

π*=arg maxπτ∼π[R(τ)]（29）

R(τ)=∑t=0T r t（30）式中：τ为策略π在环境中形成的状态-动作轨迹，即τ=(s0,a0,s1,a1,…)；R(τ)为智能体在每幕的总回报；r t为时刻t的回报。

策略则由参数为θ的神经网络表示，本文将确定性策略记为μθ(s)，即a=μθ(s)；将随机性策略记为πθ(⋅|s)，即a∼πθ(⋅|s)。

为提高算法的探索能力，防止过快收敛，SAC 算法采用了熵正则化，其目标函数为

J(π)=∑t=0Tτ∼π{r(s t,a t,s t+1)+αH[π(⋅|s t)]}（31）

H[π(⋅|s

t)]=a t∼π(⋅|s t)[-log P(a t)]（32）式中：α为温度系数，即熵项的权重；H为在策略

π、状态s

汽车资源网

下采取动作的熵项。

其贝尔曼方程（Bellman equation）为

Qπ(s,a)=τ∼π[r(s,a,s′)+γVπ(s′)]（33）

Vπ(s)=a~π[Qπ(s,a)]+αH[π(⋅|s)]（34）式中：Vπ(s)为状态值函数；γ为奖励折扣因子，表示一个状态的价值由该状态的奖励以及后续状态价值按一定的衰减比例求和组成。

在强化学习中，为得到最优策略π*，核心思想是用价值函数来对最优策略进行结构化搜索，通过迭代策略评估来寻满足贝尔曼方程的最优价值函数（optimal value function）V*和Q*。3.1.2动作的选择

智能体的动作由当前Actor网络的输出决定。对于确定性策略算法，为增加对环境的探索能力，对输出动作加噪处理，即

t=clip[μθ(s t)+ε,a L,a H]ε∼N(0,σ)（35）式中：clip()为将动作限制在[a L,a H]范围内。

对于随机性策略算法，智能体的动作由网络输出参数确定的分布决定，即

t∼πθ(⋅|s t)（36）3.1.3网络的更新

AC框架的网络由策略网络（actor）、价值网络（critic）、目标策略网络、目标价值网络组成，其参数分别用θ，ϕ，θtarg和ϕtarg表示。策略网络采用策略梯度方法，进行梯度上升更新，用于建立由状态s t到动作a t的映射，对于DDPG和TD3，假如从缓冲记忆库D中抽取一批数据B=[(s,a,r,s′,δ)]，其网络参数更新梯度为

∇θ1||B∑s∈B Qϕ[s,μθ(s)]（37）对于SAC，其网络参数更新梯度为

∇θ1||B∑s∈B{min j=1,2Qϕj[s,aθ(s)]-αlogπθ[aθ(s)|s]}

（38）其中，为了使得式（38）可微，aθ(s)为通过重参数化技巧（reparameterization trick）得到的动作，本文采用挤压高斯策略（squashed Gaussian policy）获得，即

θ(s,ξ)=tanh[μθ(s)+σθ(s)⊙ξ]ξ~N(0,I)（39）式中：⊙为向量间对应元素相乘。

价值网络相当于传统强化学习算法中的状态值函数，即从初始状态出发得到的期望累积回报，采用梯度下降方法更新，目的是对策略网络建立的映射作出评价，即进行Q值估计。对于DDPG，其网络参数更新梯度为

∇ϕ1||B∑()s,a,r,s′,d∈B[Qϕ(s,a)-y(r,s′,d)]2（40）

其中

y(r,s′,d)=r+γ(1-d)Q

ϕtarg[s′,μθtarg(s′)]（41）式中：y(r,s′,d)为目标。

对于TD3和SAC，为避免出现DDPG中常见的价值高估问题，采用两个结构相同的价值网络估算Q值，并取最小值，其网络参数更新梯度为∇ϕj1||B∑(s,a,r,s′,d)∈B[Qϕj(s,a)-y(r,s′,d)]2j=1,2

（42）对于TD3，有：

y(r,s′,d)=r+γ(1-d)min

j=1,2

ϕtarg,j[s′,a′(s′)]

（43）a′(s′)=clip[μ

θtarg(s′)+ε,a L,a H]ε∼N(0,σ)

（44）对于SAC，进一步采用了熵正则化技巧：

基于SAC和TD3的含电动汽车虚拟电厂调度策略

发布评论取消回复

最近发表

热门文章

标签列表