야구) 인트로+상황별 단위
뜬금없이 야구 지표 이야기를 합니다.
- 네, 저는 한화이글스의 아주 오래된 팬입니다. 천안에서 태어난 건 아니지만, 초등학교 때 천안으로 전학을 와보니, 야구부가 있었고(그때 우리 반 친구 한 명이 야구부였는데, 그 친구는 지금은 야구를 하는지 안하는지 모르겠군요), 뺑뺑이로 중학교를 들어가니 또 야구부가 있었습니다. 중학교 2학년때 학교 정문에 ‘조규수 신인왕’이라는 현수막이 걸려 있었던 기억이 나네요. 그리고 별 생각없이 들어간 북일고에도 야구부가 있었습니다. 초등학교-중학교 모두 야구부가 학교에 있기는 했지만, 별로 관심이 없었는데 고등학교는 야구를 아주 잘해서 자주 야구장으로 동원되었습니다. 문득 동대문야구장이 그립군요.
- 아무튼 그러다가 몇년 전부터는 극렬한 한화팬으로 귀속되었습니다. 알수록 더 재밌습니다. 처음에는 타자가 홈런을 치거나 안타를 치거나 할때만 좋아했는데, 이제는 투수가 중요한 순간에 타자를 삼진으로 잡는다거나(정우람 사랑합니다), 중요한 순간에 센스있는 수비를 한다거나(송광민 송천재!!), 팀의 어린 선수들이 포텐을 보여주거나(정은원!!! 지성준!!!) 할때 흥분됩니다.
- 그렇게 야구를 보다 보면, 야구를 더 재밌게 볼 수 있는 방법은 무엇일까 고민하게 됩니다. 야구가 재밌는 것은 야구의 기록은 discrete하다는 것이죠. 구체적인 상황을 모델링할 수 있습니다. 물론 축구나 농구도 모델링 할 수 있지만, 매 기회마다 다른 선수들이 어디에 위치 해 있는지는 너무 다양한 상황을 초래하죠.
- 야구는 매 상황들이 비슷하게 존재합니다. (몇 회, 득실점 상황, 아웃 상황, 볼카운트) 등 정도로 상대를 모델링할 수 있습니다. 개별 상황, 타자가 공을 치려고 준비하고, 투수가 공을 던지는 그 상황들 그 연속된 시간의 흐름이 야구에서는 단 하나의 상황일 뿐입니다. 그래서 기록의 스포츠가 되는 거라고 생각합니다.
- 말이 길었습니다만, 야구만큼 기록을 분석하기 좋은 스포츠는 없다, 라고 생각합니다.
-
더 재밌게 보기 위해서 한번 야구의 지표를 정리하면 좋겠다는 생각을 했는데, 이번에 해보려고 합니다 하하핫.
-
뭐, 저렇게 나누어 쓰겠다고 했지만, 아마도 그냥 쓰고 싶을 때 쓸 것 같습니다. 하하하하하핫
- 자료를 찾다보니, nc blog에서 야구에 관해서 아주 잘 정리된 자료들을 발견했습니다. 이 자료들을 읽고, 제가 해석하고 내용을 추가하고 보완하는 식으로 써보려고 합니다.
개별 상황을 정의하자.
- 야구는 간단히 말해 투수가 던진 공을 타자가 치거나 못 치며 쳤을 경우에는 야수들이 친 공을 막아내는 행위입니다. 이 때의 상황을 각각 정의하여 상황별 통계를 낼 수 있습니다.
시간: 시즌, 경기, 이닝, 타석
시즌
- 야구라는 스포츠의 가장 큰 단위는 하나의 시즌입니다. 선수가 주어진 하나의 시즌을 어떻게 보냈느냐 가 선수를 평가하는 주요 지표입니니다. FA 때 영입할 때도, 이전 개별 시즌 혹은 최근 시즌들의 성적을 기본으로 평가하게 되죠.
- 물론 넓게 보면, 2010년대, 2000년대로 볼 수도 있지만, 이런 분류는 10진법에 익숙한 사람들이 인위적으로 정의한 것뿐이고, 독립적이지 못합니다.
경기: 월, 주, 요일
-
2018년 현재 한국 야구의 한 시즌은 144개의 경기로 이루어져 있습니다. 개별 경기는 특정한 월의 어떤 주, 어떤 요일에 이뤄지죠.
- 월:
- 월이라기보다는 시즌 초반, 중반, 후반, 그리고 계절에 따라 상황을 구분하는 것이 더 적절하기는 합니다. 시즌전 훈련을 끝내고 시즌에 도입했을때는 이전 시즌과는 타자도, 투수도 달라지기 때문에 초반에 강한 선수들이 생겨납니다.
- 시즌이 전개되면서 어느 정도 공략법이 생겨났을 때 그것을 빠른 시기에 극복할 수 있느냐, 없느냐 가 뛰어난 선수와 그렇지 않은 선수를 가르는 기준이 되죠.
- 또한, 추울때가 아니라 여름에 강한 선수들이 있습니다. 시즌이 대략 4월부터 9월까지 전개되곤 하는데 ‘5월 즈음부터 살아나는 선수’가 있고, 또 ‘5월부터 힘이 빠지는 선수’들이 있습니다. 그래서 태어난 별명들이 가을 정권 같은 것들이 아닐까요.
- 주:
- 주는 그다지 유의미하지 않다고 생각되기는 하지만, ‘지난주’+’이번주’정도는 쓸만하다고 생가합니다. 특히 타자와 불펜 투수의 경우는 사이클이 있습니다. 타자는 몰아칠 때가 있는데, ‘지난주 가장 타격감이 좋은 선수’는 의미가 있습니다.
- 요일:
- 야구경기는 화요일부터 - 일요일까지 6일동안 진행됩니다. 특히 간혹 ‘화요일’에 강한 선수들이 있는데, 아마도 월요일에 푹 쉬었기 때문에 그런 것이 아닐까 싶습니다.
- 비슷하게 토요일/일요일에는 야구가 오후에 시작되는데, 낮경기에 유독 강한 선수들도 있습니다.
상대와 이닝, 타순, 아웃상황, 득점권, 볼카운트
-
누구를 상대하느냐, 그리고 경기 내에서 어떤 상황이 벌어지고 있는가 가 더 세부적인 상황이 됩니다.
- 팀
- 보통 팀 상대 전적을 따지곤 하는데, 이게 합리적이라고 생각하지는 못합니다. ‘팀’때문이 아니라, 특정 팀에 속한 어떤 선수들 때문이거나, 감독 때문이다 라고 말하는 것이 더 설득력 있는 것 같아요.
- 물론 해당 데이터가 (동일한 선수 집단, 동일한 감독) 등의 맥락에서 발생한 것이라면, 의미가 있다고 할 수 있습니다. 하지만, 대부분의 데이터 분석가들이 이러한 ‘concept drift’를 인지하고 팀 상대 전적을 사용하는 것인지 모르겠네요.
- 이닝, 타순, 아웃상황, 득점권, 볼카운트
- 초반 이닝에 강한 선수, 후반 이닝에 강한 선수, 또 후반 중요한 순간에 강한 선수, 득점권에 강한 선수, 아웃상황에 따라 달라지는 선수, 볼카운트가 몰렸을때 강한 선수 등 각 상황을 위에 따라 분류하여 볼 수 있습니다.
- 일반적으로는 그냥 ‘득점권에 강한 선수’, ‘득점권에 약한 선수’를 많이 보는 것 같습니다.
- 또한, 타순에 민감한 선수들도 있는데, 저는 타순은 개개인보다 어떻게 조합하느냐가 더 중요한 문제라고 생각합니다. 단순히 ‘누가 몇 번에 있을때 잘하더라’라기보다는 ‘누구 앞뒤로 누구들이 있을때 좋더라’라는 게 더 적합한 평가인 것 같아요.
댓글남기기