في التعلم المعزز (reinforcement learning)، الكيان الذي يستخدم سياسة (policy) لتعظيم العائد (return) المتوقع المكتسب من الانتقال بين حالات (states) البيئة (environment).
0 156 أقل من دقيقة
في التعلم المعزز (reinforcement learning)، الكيان الذي يستخدم سياسة (policy) لتعظيم العائد (return) المتوقع المكتسب من الانتقال بين حالات (states) البيئة (environment).