จุดเริ่มต้นในการเอาชนะผู้เล่นที่ดีที่สุด

ตัวแทนเป็นหลักพยายามที่จะเพิ่มประสิทธิภาพการดำเนินการทั้งหมดตัวเลขขึ้นอยู่กับค่าตอบแทนและค่าปรับเพื่อให้ได้คะแนนผลสูงสุดสำหรับงานที่กำหนด วิธีนี้ใช้ในการฝึกอบรมโปรแกรมคอมพิวเตอร์ DeepMind ว่าในปีพ. ศ. 2560 เป็นจุดเริ่มต้นในการเอาชนะผู้เล่นที่ดีที่สุดในโลกคนหนึ่งในเกม “Go” นอกจากนี้ยังใช้ในการฝึกอบรมรถยนต์ที่ไม่มีคนขับในการซ้อมรบ

เช่นการผสานเข้ากับการจราจรหรือที่จอดรถโดยที่รถจะฝึกซ้ำไปเรื่อย ๆ จนกว่าจะมีความเหมาะสม ตัวแทนของหุ่นจำลองหวีผ่านทางการปกครองแบบดั้งเดิม สูตรเหล่านี้ขึ้นอยู่กับโปรโตคอลที่ใช้มานานหลายทศวรรษแล้วและขึ้นอยู่กับการทดสอบทางสัตว์และการทดลองทางคลินิกต่างๆ ผู้เชี่ยวชาญด้านเนื้องอกวิทยาใช้โปรโตคอลที่กำหนดขึ้นเพื่อทำนายปริมาณผู้ป่วยที่จะขึ้นอยู่กับน้ำหนัก