야구 데이터 분석 #2 데이터 분석의 선구자들

다년간 쌓인 통계 자료를 이용해 야구 기록을 분석하는 ‘세이버메트릭스’.

이 단어를 들으면, 흔히 세이버메트릭스를 대중에게 알린 영화 <머니볼>의 빌리 빈과 오클랜드의 동료들을 떠올리게 되는데요.

하지만 이들 전에도 야구 데이터를 객관적으로 분석하려고 한 선구자들이 있었습니다. 이번에는 세이버메트릭스의 여명기를 이끌었던 사람들을 소개하겠습니다.  ( ͡° ͜ʖ ͡°)


# F.C. 레인(Ferdinand Cole Lane)

F.C. 레인은 1910년부터 1937년까지 <Baseball Magazine>의 편집자로 일하면서, 야구 스탯에 대한 다양한 주장을 펼쳤습니다. #27년_근속 #대단해요

세이버메트릭스의 뿌리를 마련한 F.C. Lane

그는 타자의 타율과 투수의 승률, 야수의 수비율 등 전통적인 스탯이 가지는 한계를 인식했습니다.

또 구장이 선수 기록에 영향을 주는 ‘구장 효과’에도 일찌감치 눈을 떴죠.

팬스 길이와 잔디 상태 등  구장의 컨디션에 따라 기록이 달라진다는 #구장효과 

독자적인 계산 방법으로 안타와 홈런의 가치를 추정하기도 했는데요.  하지만 그의 주장과 계산 방법은 수십 년 뒤에야 인정을 받았습니다.

당시에는 거의 주목을 받지 못했지만, 현재는 F.C. 레인이 고안한 방법들이 야구 데이터 분석의 기틀이 되었다고 해도 과언이 아니죠.

 

#브랜치 리키(Branch Rickey)

브랜치 리키는 1910년대부터 1950년대까지 여러 구단에 단장으로 몸 담으며 무수히 많은 업적을 남겼습니다.

그중 가장 유명한 것은 마이너리그에서 유망주를 육성하는 ‘팜 시스템’의 개념을 창안한 것입니다.

또 타자들이 헬멧을 쓰게 했고, 사람 대신 공을 던져주는  ‘피칭머신’도 도입했습니다.

브랜치 리키가 도입한 피칭머신 #세상편한것 

하지만 그의 가장 중요한 업적은, 메이저리그 최초의 흑인 선수 재키 로빈슨를 영입해 인종의 벽을 허문 것이었죠.

선수와 단장 이상의 관계였던 재키 로빈슨(주)과 브랜치 리키(우)

브랜치 리키는 야구 데이터 역사에서도 중요한 위치를 차지합니다.

그가 브루클린 다저스의 단장이었던 1947년, 야구 데이터 전문가인 앨런 로스를 고용해 그의 분석 결과를 구단 운영에 적극적으로 반영했기 때문이죠.

 

#앨런 로스(Allan Roth)

위에서 언급한 앨런 로스는 세계 최초로 구단에 속했던 데이터 분석 전문가입니다.

넥타이와 멜빵을 판매하는 평범한 샐러리맨이었던 로스는 1940년, 취미로 야구와 아이스하키 데이터를 기록하기 시작합니다.

그런데 취미로 시작한 데이터 기록이 너무 재밌었던 나머지,  북미아이스하키리그(NHL)에 기록원으로 취직합니다.

앨런 로스 #성공한_덕후 #기록이_가장_쉬웠어요

로스는 이후 2차 대전이 터져 군에 입대했다가, 제대 후 스포츠 기자로 활약합니다.

이때 다저스의 리키 단장을 만나, 로스는 데이터 분석가로 구단에 합류하게 되었죠.

당시 리키 단장이 다저스 구단주들에게 “야구단에 통계 전문가가 왜 필요한지” 설득시키느라 무척 애를 먹었다는 뒷이야기가 있습니다.

중계석에서 캐스터와 대화중인 앨런 로스(좌) 

로스는 1947년부터 다저스의 모든 경기를 지켜보며 투구 하나하나를 기록하고 분석합니다.

당시에는 컴퓨터가 없어서, 매일 그날 경기를 정리하고 분석하는 데 최소 다섯 시간 이상이 걸렸죠.

그는 야구 외에는 숫자와 전혀 친하지 않아서, 심지어 자기 전화번호도 외우지 못했다고 하네요. 오로지 야구에만 특화된 진정한 야덕이었던 것이죠!

야근 중인 야덕. jpg 

브랜치 리키는 앨런 로스의 분석 결과를 바탕으로  1954년 <Life>지에 “Goodby to Some Old Baseball Ideas”라는 기념비적인 글을 기고하기도 했습니다.

그는 이 글에서 야구의 모든 영역을 아우르는 종합 측정 스탯을 제안했는데, 여기에는 출루/장타/클러치 등이 모두 포함돼 있습니다.

오늘날 WAR과 같은 종합 평가 지표의 증조할아버지쯤 되는 스탯이라고 할 수 있죠.

 

#조지 린지(George R. Lindsey)

원래 군사 전략 전문가였던 조지 린지는 1950년대 중반부터 수백 경기를 직접 기록하고 분석했습니다.

그는  <Operations Research Journal>지에 자신의 분석 결과를 발표했는데, 좌우놀이는 유용하지만 번트와 도루는 별 도움이 되지 않는다는 등의 내용이 포함돼 있었습니다.

린지는 또한 F.C. 레인의 분석을 발전시켜 ‘기대득점 표(Run Expectancy Matrix)’를 만들었습니다.

기대득점 표 

이를 바탕으로 1루타, 2루타, 3루타, 홈런의 득점 가치를 계산했는데, 컴퓨터  없이 계산했음에도 매우 정확한 값이었습니다.

이러한 린지의 계산 방법은 이후 야구 데이터 분석의 근간을 이루게 됩니다.

 

# 언쇼 쿡(Earnshaw Cook)

2차 대전 당시 미국의 원자탄 개발에 참여했던 금속공학자 언쇼 쿡은 1960년대에 야구 데이터에 확률론을 접목시켜 여러 논문과 책을 썼습니다.

1971년에 펴낸 책<Percentage Baseball and the Computer>에서, 그는 DX 라는 종합 공격 평가 지표를 발표합니다.

DX를 발표한 언쇼 쿡의 저서 

이 스탯은 출루율에 장타와 도루를 한데 버무린 것으로, 지금 보면 좀 엉성하지만 발표 당시의 기준으로는 가장 정확도가 높은 지표였습니다.

이러한 선구자들의 노력에 힘입어, 메이저리그에서는 데이터 분석에 주목하기 시작했습니다.

1980년을 전후해 휴스턴 애스트로스의 스티브 만, 샌프란시스코 자이언츠의 에릭 워커 같은  데이터 분석 전문가들이 구단 프런트에 합류했죠.

매의 눈으로 선수를 찾자! #중요한건_통계 

야구장 안에서도 볼티모어 오리올스의 얼 위버 감독처럼 통계 자료를 적극 활용해서 선수를 기용하는 감독이 나타납니다.

이처럼 세이버메트릭스는 몇 명의 천재가 갑자기 발명한 게 아니랍니다.

수많은 사람들이 야구의 발전을 위해 끊임없이 고민하고 연구한 결과물인 것이죠.


임선남팀장님_프로필임선남  대기업 사무직 직원으로 살다가, 엔씨소프트 데이터정보센터(DIC)를 거쳐 현재 NC다이노스 데이터팀 팀장으로 재직 중입니다. 스스로 야구 덕후라고 생각해 본 적이 없습니다. 그냥 야구를 좋아하고 데이터를 좋아하다 보니 자연스럽게 야구 데이터가 업이 된 것이 아닌가 합니다. 세이버메트릭스는 야구를 합리적, 객관적으로 잘 이해하기 위한 노력입니다. 이러한 이해가 야구를 더 재미있게 해 줄 수 있다고 믿습니다.

 

 

 

야구 데이터 분석#1 야구의 아버지, 헨리 채드윅