:: 게시판
:: 이전 게시판
|
- 모두가 건전하게 즐길 수 있는 유머글을 올려주세요.
- 유게에서는 정치/종교 관련 등 논란성 글 및 개인 비방은 금지되어 있습니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
21/03/03 14:37
현재로서는 기계학습이 효율적이려면 사람이 플레이하는 속도보다 훨씬 빠르게 내부 시뮬레이션,학습이 가능한 환경이 되어야 할듯..
이 게임도 게임의 코드를 통째로 AI에 밀어넣고 고속으로 돌리면 금방 인간을 뛰어넘겠죠.
21/03/03 15:24
왠지 설계에 문제가 있었을 것 같은... 딥마인드가 했다면 결과는 달랐을 것 같네요.
기계학습쪽을 요새 좀 파고 있는데, 이게 생각보다 무작정 한다고 되는게 아니더라고요. 어떤 학습방법을 쓸것이고, 피드백은 어떻게 할 것이며, 학습결과가 편향되지 않도록 하는 것 등등 고려할게 엄청 많아요.
21/03/03 15:46
DQN 논문은 사실 강화학습 방식에 대한 원론만 제시한거고, 세세한 튜닝에 대해서는 언급이 안돼있죠.
딥마인드 회사 전체도 아니고, DQN 저자중 한명만 있었어도 저것보다는 훨씬 성능이 좋았을것 같긴 합니다.
21/03/03 16:01
퉁쳐서 튜닝이라 한거죠;,
사실 알파고도 강화학습 방식 자체는 기존의 DQN과 큰 차이는 없다고 보고, 최적화를 위해 몬테카를로 탐색방식을 쓴게 신의 한수라 보거든요. 근데 QWOP 같은 게임은 경우의 수도 적어서 몬테카를로 같은건 필요없을것 같고... 결국은 튜닝과 피드백의 문제일거라고 예상이 되네요.
21/03/03 16:13
몬테카를로 탐색은 알파고 전부터 바둑ai 에선 흔히 쓰던 알고리즘입니다.
구글이 엄청난 컴퓨트를 가지고 딥러닝 스케일링과 강화학습 알고리즘 문제를 해결한게 큽니다.
|