“微信扫一扫”进入"可可试卷"微信小程序刷题
强化学习策略的目标是实现奖励最大化。在选择动作时,通常采用的策略包括( )。
A.贪心策略
B.ε-贪婪策略
C.玻尔兹曼探索
D.UCB策略
E.随机策略
参考答案:ABCD
进入考试题库