Title(KR)
강화학습으로 테트리스 게임하기
Title(ENG)
Playing Tetris Game with Reinforcement Learning
Keywords(KR)
Reinforcement Learning, Tetris, Game
Keywords(ENG)
Reinforcement Learning, Tetris, Game
Author
Tack Hyun JUNG, Kee Cheon KIM
Abstract(KR)
본 논문은 보편적으로 복잡한 문제로 정의되던 테트리스 게임을 강화학습을 통해 해결하기 위한 아키텍처를 구현하였다. 테트리스 게임은 무작위로 나타나는 블록의 모양과 회전의 형태를 고려해서 블록을 최적의 위치에 신속하게 쌓아야 하므로, actor의 빠른 판단능력과 반응속도를 요구한다. 또한, 다양한 블록의 형태와 순서로 인해 매우 많은 경우의 수가 나타나기 때문에 수행의 주체가 사람이라면 단순히 기억력과 암기에 의존하는 방법으로는 수행에 한계가 있다. 따라서 본 연구에서 구현한 강화학습 아키텍처의 경우 학습 모델의 구현뿐 아니라 의사결정의 정확성을 높일 수 있는 휴리스틱을 보상에 가중치로 활용하는 방식으로 접목하였고, 그 결과 사람이 직접 게임을 수행하는 것에 비해 보편적으로 높은 점수를 얻을 수 있었다. 아직은 해당 분야를 완전히 정복하였다고 표현할 수는 없지만, 여러 번의 실험에서도 일반적인 사람에 비해서 더욱 좋은 플레이를 할 수 있었다. 하지만 성능에 가장 큰 영향을 미치는 요소가 학습 모델보다 휴리스틱에서 비롯되고 있다는 단점도 식별하였다. 이에 본 논문에서는 이러한 아키텍처의 구조와 사용한 기술들과 알고리즘에 대해 자세히 기술하였으며 접근 방향을 제시한다.
Abstract(ENG)
This paper is implemented the architecture for solving the Tetris game which are defined as a complex problem in general through reinforcement learning. Tetris games require the actor's quick judgment ability and speed of response because the blocks must be stacked in an optimal location quickly, taking into account the shape and rotation of randomly appearing blocks. Also, since the number of cases is very large due to the various block types and order, if the subject of performance is a person, there is a limit to performance by simply relying on memory and memorization. therefore, the reinforcement learning architecture implemented in this study is applied not only to the implementation of the learning model but also We apply the Heuristic to increase the decision accuracy as the weighting method of reward. As a result, we were able to obtain high scores. Although it is not yet possible to say that he has completely conquered the tetris game, In several experiments, reinforcement learning was able to play better than some people. However, we also identified the disadvantage that heuristics are more influential on performance than learning models. In this paper, the structure of these architectures and the techniques and algorithms used are described in detail and the direction of approach is given.
Page 1-13