:: 게시판
:: 이전 게시판
|
- 모두가 건전하게 즐길 수 있는 유머글을 올려주세요.
- 유게에서는 정치/종교 관련 등 논란성 글 및 개인 비방은 금지되어 있습니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
19/08/10 12:20
근데 결국은 딥러닝 기반은 아니라는 거고.... 진짜 그랬으면 완벽했을 텐데 사실상 프로그래밍한 상태로만 동작하는 카드라고 하니 아쉬움...
19/08/10 12:38
딥러닝 기반이 아니라는 게 어떤 의미인지 모르겠네요.
알파고 제로 이전의, 즉 인간의 기보를 베이스로 딥러닝을 돌린 알파고는 딥러닝 기반이 아니라는 뜻인가요? 아니면 발표와는 달리 그저 케이스 바이 케이스일 뿐, 유저의 선택을 학습시키고 있지 않을 거라는 뜻인가요?
19/08/10 12:57
저러한 외부 개입이 들어가는 것 자체가 머신러닝에서는 불가능한 이야기입니다.
예를 들어 알파고가 완성되지 않은 상태에서 바둑을 두는 데 똑같은 플레이에 계속 집니다, 그러면 알파고가 학습하는 방법 자체가 잘못된 것이지 알파고에게 '그 플레이에는 이렇게 대항하는 거야'라는 걸 가르치지는 않습니다. 제피르스는 빅 데이터 기반으로 가장 승률이 높은 카드를 골라주긴 하지만 그게 머신러닝으로 학습되어 골라주는 카드는 아니라는 거죠
19/08/10 13:04
제피르스는 스스로 학습하는 게 맞을 겁니다.
제가 생각할 때 제피르스는 아마 다음하고 비슷하지 않을까 싶습니다. 1. 패와 필드를 보고 상황을 추상화함. 2. 이 추상화된 케이스마다 유용한 카드에 추가점을 줌. - 여기까지는 기획자가 입력 (기보 입력) 3. 점수가 높은 순으로 유저에게 제시 4. 유저가 선택한 카드에 추가점수 부여. 도태된 카드는 우선순위 하락. 5. 시간이 갈수록 케이스에 맞는 카드들이 제공됨. 이런 구조일 것 같습니다. 충분히 학습한다고 할 만 하죠. 인게임에서는 달랑 3장만 제시하니까, 제로베이스로는 시작할 수가 없어요. 아니면 딥러닝을 위해 모든 카드를 제공하고 학습시키는 내부버전을 따로 만들어서 1, 2번을 대신했을 수도 있습니다만 여튼. Q. 그렇다면 왜 파멸의 예언자같은 추가학습이 필요한가? A. 3장 밖에 제공하지 않으니까 저런 특별한 로직일 때 대충 걸러주지 않으면 적절한 카드가 풀에 올라오기까지 시간이 너무 오래 걸립니다. 유저 입장에서 쓸 데 없는 카드만 나오는데, "하하~ 1년만 기다리시면 적절한 카드가 나올 겁니다~" 라고 할 수는 없잖아요.
19/08/10 14:01
그러니까 1.을 반복해서 본인이 승률을 높이는 선택지를 고르는 게 아닌 듯 싶어서...
1.은 아무리 봐도 스크립트 기반인 듯 하고 345에서만 부분적으로 머신 러닝이 이용되는 게 아닌가 싶습니다. 결국 그러면 그냥 동계적으로 좋은 카드를 쥐어주는 선에서 그치는... 사람들이 기대했던 건 1,2를 스스로 반복해서 모든 카드 중 가장 적합한 카드를 찾는 돌파고였다면 제피르스는 거기에는 발끝만큼도 닿아 있지 않은...
19/08/10 14:05
"유저들의 경험을 학습시킨다"고 발표했을 때, 이미 확정된 거죠.
컨셉을 인간 머리 위에 있는 알파고가 아니라, 유저들과 같이 커나가는 카드로 잡았다고 봅니다. 전자로 홍보했을 경우, 리스크도 좀 크고... 후자가 정답이죠.
19/08/10 13:35
사실 하스스톤 같이 사이즈가 정해져 있고 카드풀이 제한된 게임은 딥러닝보다 Tabular Q-learning이 훨씬 더 잘 먹힐 겁니다 -_- 가능한 모든 기보라 해봤자 몇 개나 될까요. 복잡한 상황은 광역기를 꺼내게 일원화시킨다면 그냥 백만 개도 안 될텐데요?
저는 파멸의 예언자 학습이 안 되는 시점에서, "제피르스의 메커니즘은 다다음 턴의 결과를 고려하지 않는구나. 카드를 전-후 필드만을 고려하는구나." 라는 가설을 제시할 수 있을 것 같습니다. 그렇다면 reward에 맞추어 학습하는 Q-learning이 아니라 그냥 어떤 카드를 play했을 때 최적의 결과가 나오게 하면 (내 필드 밸류 - 상대 필드 밸류 최대화 정도면 되겠네요.) 되고, 이는 그냥 자체적으로 카드를 플레이한 후에 제일 좋은 카드 세 개를 내면 되는 거겠죠. 이건 머신러닝도 아닙니다. 7마나가 있다 + 불기둥을 꺼내보는 시뮬레이션을 백그라운드에서 했더니 상대 필드가 정리되었다 = 불기둥이 제시된다 일 수 있고, 이럴 가능성이 높아 보입니다.
19/08/10 13:37
제가 만약 제피르스를 코딩해야 한다면
(1) 일정 이상의 성능만으로 괜찮다면 머신러닝을 안 쓸 겁니다. 위에서 말한 방식으로 오리지날 카드풀에 대해서 시뮬레이션을 돌리고 최적의 카드를 찾는 방식을 채택할 것 같습니다. (2) 이상적인 카드가 필요하다면 머신러닝을 쓰겠지만, 딥러닝을 쓰진 않을 겁니다. tabular Q-learning에 state 예외처리를 하는 방식을 사용하는 편이 직관적으로 낫다고 생각합니다.
19/08/10 13:46
"As a rule, we don’t plan to teach Zephrys about individual card mechanics and interactions."
라는 걸 보면 원칙적으로는 딥러닝을 추구하는 거죠.
19/08/10 13:52
(1) 그 individual card mechanics / interactions를 블리자드는 당연히 가지고 있고, 이를 통하여 카드를 플레이한 전/후 상황을 알아낼 수 있습니다. "심지어" 오리지날/기본 카드 중에서 위치에 영향받는 카드는 [배신] 하나죠? 위치에 의존적인 코딩은 배신 한 장에 대해서만 하면 되네요. 오리지날 카드가 기껏해 봐야 1000장이고 위치는 14개니까 뭐 기껏해봤자 가능한 카드 플레이 이후 상황은 10000개나 될까요? 여기엔 머신러닝이 없고, 그저 카드를 플레이하는 시뮬레이션을 거쳤을 뿐입니다.
(2) 이렇게 만 개의 상황 중에서 최적의 상황을 3개 뽑아냈다고, 이게 [individual card mechanics]나 [interaction]을 학습했다고 보는 건 아닙니다.
19/08/10 14:02
안 알려줬다는데 왜 알려줬을 거라고 하시는지 모르겠네요.
저건 메인디자이너, 혹은 임원진의 꿈이 잔뜩 들어간 컨텐츠예요. 케바케로는 "앞으로 성장한다"는 표현도 못 쓰고, "유저들의 경험을 학습한다"는 표현도 못 씁니다. 그런데 밖에는 학습이라고 발표하고 내부적으로 쉬쉬하면서 케바케를 한다고요? 그렇게는 절대로 컨펌 못 받습니다.
19/08/10 14:05
솔직히 저 카드에 대해서는 하나도 못믿겠습니다. 유저들의 경험을 학습한다고 광고하는 시점에서 신뢰도 팍 떨어집니다. 그냥 내부 머신 돌려서 업데이트 때마다 (딥러닝이라면) 신경망 갈아끼는 게 훨씬 효율적이에요. 이게 무슨 바둑판도 아니고.
그리고 다른거 필요없이 "눈에 보이는 필드와 코스트만 고려" 했을 때 할 수 있는 행동 자체가 제가 말한 것뿐입니다.
19/08/10 14:06
1. 거짓말 할 거라면 저렇게 파멸의 예언자에 대해 예외적으로 알려줬다고 쓰지도 않았을 겁니다.
2. 시간이 지나면 각 케이스마다 결과가 몇 번에 걸쳐 바뀌어야 하는데, 시뮬은 결과가 거기서 거기겠죠. 그럼 사람이 직접 손을 봐야 한다는 건데요? 아닐 겁니다 진짜. 게다가 퇴사한 후, 까발리기라도 하면 전세계 개쪽 파는 짓인데, 절대 아닐 겁니다. 절대.
19/08/10 14:14
스토리북 님// 아뇨, 카드 플레이한 이전-이후 에 대한 시뮬레이션은 필드 보고 카드 플레이한 후 전후 필드밸류와 명치 확인, 킬각 여부 (이거도 하드코딩 가능) 이게 끝인데 카드 코딩이 다 돼 있다면 사람 손 별로 안들어갑니다.
19/08/10 14:28
저격수 님// 같은 조건 넣고 시뮬레이션 뽑는 게 무슨 수로 반복할 때마다 더 나은 결과로 변화할 수 있는지는 논문 열 개를 써도 힘들 겁니다.
19/08/10 14:34
스토리북 님// 세상 모든 하스스톤 게임을 모아도 그거 나아지게 할 표본은 못모읍니다. 강화학습에서 간단한 문제라도 기본 트레이닝 셋 개수는 천만 단위입니다.
19/08/10 14:52
스토리북 님//
저러면 안 나아집니다. 왜냐하면 유저에게 주어지는 선택지가 3개뿐이고, 국소최적에 빠지면 나올수 없죠. 저도 돌파고가 딥러닝은 아니라고 봅니다. 그냥 딥러닝이라고 말하는건 마케팅이죠... 이슈메이킹하는데는 그게 최적이니까요.
19/08/10 14:56
1. 그래요. 그러니까 파멸의 예언자처럼 예외처리해서 강제로 빠져나오게 하는 거죠.
그래서 저 공지야말로 오히려 '학습시킨다'는 증거라는 겁니다. 2.근데 진짜로 케바케인데 저렇게 말할 수는 없어요. 기술에 대해서 대놓고 거짓말 하는 건 회사 내부적으로도 반발이 심합니다.
19/08/10 15:02
스토리북 님//
예외처리를 해서 강제로 빠져나오게 한다는것부터가 딥러닝이 아니란 소린데요; 진짜 딥러닝이면 알아서 빠져나옵니다. 거짓말에 반발이 심한지 않은지는 모르는거죠. 내부자세요?
19/08/10 15:09
1. 같은 얘기를 반복하게 만드시네요. 위에 왜 예외처리해야 하는지 적어놨지 않습니까?
이건 논문용 프로젝트가 아니라 상용 서비스 중인 게임이예요. 2. 내부자라면 내부자죠. 블리자드는 아니지만. 저렇게 대놓고 거짓말하면 익명게시판에 폭로글부터 나올 겁니다. 같은 팀 동료들 커리어 다 조지는 건데, 거짓말일 수가 없죠. 과장은 있겠지만.
19/08/10 15:28
스토리북 님//
1. 예외처리가 필요하다는것 자체가 딥러닝이 아니라구요. 진짜 딥러닝이면 예외처리 없어도 파멸의 예언자를 카운터하는 카드들이 선택지에 당연히 있어야합니다. 하스스톤 경우의 수는 진짜 몇가지가 안되는데 심지어 2턴이상 고려도 안한다고 명시했으니까요. 2. 블리자드 직원이 아닌이상 내부자가 아니죠.. 크크크크 게임업계 종사자시면.. 혼자만 게임업계 종사자라 생각하시는건가요?
19/08/10 15:50
제가 나가야 되서, 앞으로 돌아가서 하나만 묻겠습니다.
그러니까 케바케일까요? 아니면 최소 머신러닝일까요? 저는 케바케는 절대 아닐 거라고 하는 겁니다. 그러면 저렇게 홍보할 수가 없습니다. 아마 원칙적으로 딥러닝을 추구한다는 글 때문에 딥러닝을 자꾸 언급하시는 것 같은데, 저는 계속 학습하냐 안 하냐를 얘기하고 있다는 걸 다시 한 번 봐주시면 좋겠네요. 최소 머신러닝일 거라고 생각하시면 더 이상 충돌하는 부분이 없고, 케바케일 수도 있다고 생각하시면 여전히 충돌하는 부분이 있는 겁니다. 딥러닝까지 도입했냐 안했냐는 저에게는 중요한 이슈는 아니고요. 게다가 어차피 딥러닝 아니라면 딥러닝으로 교체하는 게 목표일 거니까요. 블소 AI가 그랬듯이 말입니다. ps. 저격수님이 인공지능 프로그래머인데, 테이블 박아둔 걸 학습한다고 홍보하면 안 빡치겠습니까?
19/08/10 16:55
스토리북 님//
기계학습 정도는 하겠죠. 요즘 그거가지고 인공지능이라고 홍보하기엔 참 조잡하겠지만요. 딥러닝으로 교체하는게 목표일리가 있나요. 꼴랑 저 카드 한개를 위해 제대로된 딥러닝을 만드는건 수영장 건너려고 항공모함 만드는 꼴입니다. 그냥 적당히 케이스 조절해주고 기계학습 정도만 시키는 카드일텐데요. ps. 사바사라서 안 빡치는 사람도 많을겁니다.
19/08/11 03:14
스토리북 님// tabular Q-learning이 뭐 쉬운 것도 아니고, 문제를 해결하는 데 그게 최선의 방법이면 써야죠 어쩔 수 있겠습니까.
딥러닝이 무슨 전가의 보도가 아니에요. 딥러닝을 쓸 수 있는 문제가 있고, 그렇게 적합하지 않은 문제가 있는데 여기에는 적합하지 않다고 느끼는 겁니다. 추가. 굳이 이 카드에 대해서 딥러닝을 하려면 올바른 방식은, "사용할 카드의 선택"+"사용 방식의 선택 (크게 내 명치, 내 필드, 상대 필드, 상대 명치)" 을 선택한 후에 밸류의 변화를 측정하는 방식이어야 합니다. 이러한 방식을 사용할 때에 블리자드에서 하는 말이 헛소리인 이유가 좀 있습니다. (1) 사용자의 경험을 측정하는 것보다 그냥 블리자드에서 가능한 필드 상황에 대한 시뮬레이션을 돌려버리는 것이 훨씬 낫습니다. 전세계의 제피르스 사용이 하루에 100만회라고 치더라도, 블리자드 서버 구석에 있는 서버 컴퓨터가 100만회보다 훨씬 많은 양의 시뮬레이션을, 그것도 훨씬 다양한 상황에 대해서 시행할 수 있습니다. 그러니까 그냥 헛소리입니다. (2) 저는 앞에서 이 문제에 대해서 딥러닝이 처음부터 적합하지 않다고 했습니다. 그 이유는 다음과 같습니다. - 하스스톤의 필드 변화는 단순합니다. 4데미지를 주는 카드를 내면 4데미지를 줍니다. 화염구를 쓰면 어떤 대상의 체력이 6 깎이고 죽거나 천상의 보호막이 사라지거나 아니면 피해를 입습니다. (격노 상태) 바둑판과 같이 바둑판의 복잡한 형태가 원하는 "집 변화"로 변하지도 않고, 언어와 같이 자음 하나 변한다고 의미가 완전히 변하지도 않고, 이미지와 같이 픽셀 몇 개의 변화로 알아볼 수 없는 이미지가 되지도 않습니다. 너무 단순해서 state를 직접적으로 해석할 수 있습니다. 이는 raw data를 abstract한 state로 변환하는 과정이 전혀 필요하지 않다는 것을 의미합니다. - 이 때는, 그냥 table를 그대로 가져와서 (table를 state로 변환하는 과정이 쓸데없으므로) 각 카드 중에 어떤 것이 reward를 최대화시키는지만을 판단하면 됩니다. 블리자드는 게임을 만든 회사이므로, 이 시뮬레이터는 이미 갖추고 있습니다. (3) 강화학습이 최적의 학습 방식인 상황은 하나입니다. - Bellman optimality equation을 푸는 것이 합리적일 때. 하스스톤은 이러한 문제에 해당되지만 웬걸, "블리자드는 이 equation을 풀지 않겠다고 합니다." 현대 필드와 코스트, 체력만 보겠다고 했죠? [미래의 필드, 코스트, 체력은 보지 않겠다는 뜻입니다.] 강화학습 안하고 있다는 뜻이니 제껴도 됩니다.
19/08/10 15:10
강화학습 방식의 딥러닝은 결국 agent가 개입하게 되어있고, agent의 세팅에 따라서 학습방향이 달라집니다.
딥마인드의 아타리 게임 깨는 딥러닝도, agent의 설정에 따라서 결과값이 달라지더라고 논문에도 나와 있습니다. 유명한 벽돌깨기 같은 경우는 하이스코어만 판단해줬지만, 롤플레잉 게임 같은 경우엔 좀더 복잡한 조건들을 많이 추가해줬다고 하더군요.
19/08/10 12:33
이번 확팩 카평 때만 해도 못쓸 카드들이 많다는게 중론이었는데 막상 나오고 나니 다양한 새 덱들이 잘 굴러가서 하스가 꽤 재밌어 졌습니다. 이제 전사만 적당히 너프하면 화룡점정일텐데...
19/08/10 13:28
그렇긴한데 몇몇 퀘스트라던가, 주어진 컨셉에 맞는 덱을 구성하기 어려울 거라는 평가를 받은 카드들이 여럿 있어서요. 메타 초기니까 더 봐야하긴 하겠지만.
19/08/10 13:29
우리 편 필드에 빙결에 걸린 하수인이 있고, 상대편 체력도 딱이라 이 하수인이 때리기만 하면 킬이라서 침묵기를 기대하고 돌파고님을 모셨는데... 침묵기를 안 주셔서 섭섭했던 적이 있읍니다...
19/08/11 03:15
대규모 무효화가 안 나오나 보네요. 생각보다 허술한 것 같습니다. 대규모 무효화 정도를 나오게 하는 건 그렇게 어려운 신경망 훈련이 필요하지도 않은데, 블리자드에 좋은 머신러닝 엔지니어가 잘 없나요, 아니면 이 정도 일을 하는 데에 소비하기 싫은 걸까요?
19/08/11 09:40
후자겠죠.. 그와 별개로 대규모 무효화는 아군에 걸 수 없으니 이 케이스에서는 나오면 안됩니다.. 침묵이나 부엉이 같은게 나와야죠.
|