스포츠 데이터·확률 기본 용어
스포츠 경기를 숫자와 데이터로 읽을 때 반복해서 등장하는 기본 용어를 한자리에 정리했습니다. 승률·확률·기댓값처럼 통계에서 빌려온 개념부터, 점수차를 보정하는 핸디캡, 두 팀 점수를 합산하는 언더/오버까지 중립적인 정의로 풀어 드립니다. 모두 경기를 객관적으로 이해하기 위한 정보·참고용 설명이며, 특정 행동을 권유하는 내용이 아닙니다.
- 승률Win Rate / Winning Percentage
- 전체 경기 중 이긴 경기가 차지하는 비율을 말합니다. 예를 들어 100경기 중 55경기를 이겼다면 승률은 55%이며, 팀이나 선수의 누적 성과를 가장 직관적으로 비교할 수 있는 기본 지표입니다.
- 확률Probability
- 어떤 결과가 일어날 가능성을 0에서 1(또는 0~100%) 사이의 숫자로 나타낸 값입니다. 0에 가까울수록 거의 일어나지 않고 1에 가까울수록 거의 확실하며, 한 경기의 모든 가능한 결과(승·무·패)의 확률을 더하면 이론상 1이 됩니다.
- 기댓값Expected Value (EV)
- 각 결과가 일어날 확률에 그 결과의 값을 곱해 모두 더한 '평균적으로 기대되는 값'입니다. 예컨대 절반 확률로 +2, 절반 확률로 -1이라면 기댓값은 0.5입니다. 한 번의 결과보다 장기적으로 반복했을 때의 평균 경향을 보여 줍니다.
- 표본Sample
- 전체(모집단) 중에서 실제로 관찰하거나 측정한 일부 데이터를 가리킵니다. 분석에 쓰인 경기 수가 곧 표본 크기이며, 표본이 너무 작으면 우연의 영향이 커져 결론을 일반화하기 어렵습니다.
- 표본 크기Sample Size
- 분석에 사용한 관측치(예: 경기 수)의 개수입니다. 큰 수의 법칙에 따라 표본 크기가 커질수록 표본의 평균이 실제 참값에 가까워지므로, 적은 경기 수로 얻은 비율은 잠정적인 참고치로 보는 것이 안전합니다.
- 큰 수의 법칙Law of Large Numbers
- 관측 횟수가 많아질수록 결과의 평균이 이론상의 기댓값(참값)에 점점 가까워진다는 통계 원리입니다. 동전을 많이 던질수록 앞면 비율이 0.5에 수렴하는 것이 대표적인 예로, 데이터가 쌓일수록 우연의 변동이 상쇄됩니다.
- 평균회귀Regression to the Mean
- 운이 크게 작용한 극단적인 기록은 시간이 지나면 평균 수준으로 되돌아가는 경향을 말합니다. 비정상적으로 좋거나 나빴던 성적 뒤에 평소 실력에 가까운 결과가 나오는 현상으로, '신인 2년차 부진'이 자주 인용되는 사례입니다.
- 평균Average / Mean
- 여러 값을 모두 더한 뒤 개수로 나눈 대표값입니다. 경기당 득점, 시즌 평균 실점처럼 데이터 전체의 중심 경향을 한 숫자로 요약하지만, 극단적인 값(이상치)이 섞이면 실제 감각과 어긋날 수 있어 주의가 필요합니다.
- 홈 어드밴티지Home Advantage
- 홈경기를 치르는 팀이 원정팀보다 유리한 경향을 가리키는 통계적 현상입니다. 익숙한 환경·이동 부담 감소·관중 영향 등이 원인으로 꼽히며, 축구에서는 홈팀 승리가 대체로 45% 안팎으로 원정팀(약 27%)보다 높게 관측됩니다.
- 핸디캡Handicap / Point Spread
- 전력 차이가 있는 두 팀의 균형을 맞추기 위해 한쪽에 가상의 점수를 더하거나 빼서 보정하는 개념입니다. 강팀에는 -점수(그만큼 더 이겨야 함), 약팀에는 +점수를 부여해 두 팀의 결과 가능성을 비슷하게 만든 기준선입니다.
- 언더/오버Under / Over (Totals)
- 두 팀의 점수를 합산한 총점을 미리 정한 기준값과 비교하는 개념입니다. 합계가 기준보다 많으면 오버, 적으면 언더에 해당하며, 보통 동점 처리를 피하려고 기준값에 0.5를 붙여 소수점으로 설정합니다.
- 내재확률Implied Probability
- 배당(예: 소수형 배당)을 확률로 환산한 값으로, 소수배당 기준 1÷배당으로 계산합니다. 예컨대 배당 2.0은 50%에 해당하며, 시장에는 마진이 포함되어 모든 결과의 내재확률 합이 100%를 조금 넘는 점이 특징입니다.
- 마진(오버라운드)Margin / Overround
- 한 경기의 모든 결과를 배당으로 환산한 내재확률 합이 100%를 초과하는 부분을 말합니다. 이 초과분 때문에 표시된 배당의 내재확률은 순수한 발생 가능성보다 다소 높게 잡혀 있어, 참고할 때 보정해서 읽는 것이 좋습니다.
- 캘리브레이션Calibration
- 예측한 확률이 실제 발생 빈도와 얼마나 잘 들어맞는지를 나타내는 신뢰성 개념입니다. 어떤 모델이 70%라고 예측한 사건들이 실제로 약 70% 정도 일어난다면 잘 보정(well calibrated)된 것이며, 예측의 정직함을 평가하는 핵심 기준입니다.
- 신뢰구간Confidence Interval
- 추정한 값이 들어 있을 것으로 보이는 범위를 일정한 확신 수준과 함께 제시한 구간입니다. 표본이 작거나 변동이 클수록 구간이 넓어지며, 단일 수치보다 '어느 정도까지 불확실한가'를 함께 보여 준다는 점에서 유용합니다.
- 분산·표준편차Variance / Standard Deviation
- 데이터가 평균에서 얼마나 넓게 흩어져 있는지를 재는 지표입니다. 값이 클수록 경기력의 기복이 크다는 뜻으로, 같은 평균 득점이라도 표준편차가 작은 팀은 꾸준하고 큰 팀은 경기마다 편차가 심하다고 해석할 수 있습니다.
이 지표들, 실제 경기에서 보기
용어가 실제 경기 데이터로 어떻게 쓰이는지는 ASPA의 경기별 분석에서 확인하세요.