“微信扫一扫”进入"可可试卷"微信小程序刷题

人工智能训练师(三级) 理论知识复习题库(900题)


强化学习策略的目标是实现奖励最大化。在选择动作时,通常采用的策略包括( )。


A.贪心策略

B.ε-贪婪策略

C.玻尔兹曼探索

D.UCB策略

E.随机策略


知识点:多选题


参考答案:ABCD

进入考试题库