POSTECHIAN 기사 보기

[2020 여름호] 3 - 선거 빅데이터 기술

  • 김은진
  • 2020-07-31 17:05:53

2020 SUMMER 기획특집 3

선거 빅데이터 기술
Big Data Technology


올해 봄, 선거의 계절이 다시 돌아왔었습니다! 선거 전에는 선거 결과를 예측하기 위해 여론조사를 시행하는데요. 하지만 2016년 국회의원 선거와 지난 미국 대선의 선거 결과와 예측 결과를 비교했을 때, 여론조사보다 빅데이터를 이용한 분석이 더 정확했다고 합니다. 점차 4차 산업혁명 시대로 가면서 빅데이터 분석은 선거를 비롯해 더욱 다양한 분야에 적용되며 중요하게 다뤄지고 있습니다. 그럼 지금부터 실제 선거에 사용되는 선거 결과 예측 알고리즘에 대해 알아보도록 할까요?



선거 결과를 예측하는 상관 분석

선거 결과를 예측하는 알고리즘으로는 대표적으로 구글 검색 결과 개수를 나타내는 Google Trend [링크 - GOOGLE TREND 홈페이지]와 같은 빅데이터를 상관 분석에 이용하는 방법이 있습니다. 먼저 상관 분석을 하기 위해서는 상관관계에 대해 알아야 하는데요. 상관관계 Correlation는 서로 독립적인 관계이거나 상관된 관계인 두 변수 간의 관계 정도를 말합니다. 이를 이용하여 확률적, 통계학적으로 두 변수 간에 어떤 선형적 또는 비선형적 관계가 있는지를 분석하는 방법을 상관 분석이라고 합니다. 상관관계의 정도를 파악하기 위해 다양한 상관 계수를 사용할 수 있는데요. 대표적으로두 변수 간의 관련성을 나타내는 피어슨 상관 계수 Pearson correlation coefficient를 사용하며 r로 이 값을 나타냅니다. 이외에도 자료의 값 대신 순위를 이용하는 스피어만 상관 계수 Spearman correlation coefficient, 검사 문항들이 동질적인 요소로 되어있는가 등을 판단할 수 있도록 내적 일관성 신뢰도를 나타내는 크론바흐 알파 계수 Cronbach's alpha coefficient 등이 있습니다. 이때 상관 계수는 두 변수 간의 연관된 정도를 나타낼 뿐이지 인과관계를 설명할 수는 없다는 것을 유의해야 합니다.

피어슨 상관 계수를 이용한 분석

지금부터는 상관 분석에서 가장 일반적으로 쓰이는 피어슨 상관 계수를 이용하여 분석하는 방법을 알아보겠습니다. 두 변수의 선형 관계를 분석하기 위해 주로 사용되는 피어슨 상관 계수는 다음과 같은 r 값으로 정의됩니다.

$$r={두\,변수가\,함께\,변하는\,정도\over두\,변수가\,각각\,변하는\,정도}$$

상관계수의 값은 -1과 1 사이의 범위에 존재하며 절댓값 1은 완전한 선형 관계를 나타내고 0에 가까운 상관 값은 변수 사이에 선형 관계가 없음을 의미합니다. 대체로 0.3 이상이면 상관관계가 존재한다고 보지만 연구의 성격과 자료의 특성에 따라 다르게 평가될 수 있습니다. 피어슨 상관 계수의 부호는 상관관계의 방향을 의미합니다. 두 변수가 함께 증가하거나 감소하는 경향이 있으면 계수가 양수이며, 두 변수의 상관을 나타내는 선이 오른쪽 위의 방향으로 기울어집니다. 반대로 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있으면 계수가 음수가 되며, 두 변수의 상관을 나타내는 선이 오른쪽 아래의 방향으로 기울여지게 됩니다. 다음은 두 변수의 데이터 값의 분포에 따른 피어슨 상관 계수와 그 분석의 예시입니다.

[$r=0$] 점들이 무질서하게 배치되어 있으며 변수 사이에 선형 관계가 없다는 것을 나타냅니다.



[$r=0.476$] 일부 점들은 선에 가깝고 일부는 멀게 있어서 변수 사이에 적절한 선형 관계가 있다는 것을 의미합니다.



[$r=0.93$] 변수 사이에 강한 선형 관계가 있으며한 변수가 증가하면 다른 변수도 증가합니다.



[$r=-0.968$] 변수 사이에 강한 음의 선형 관계가 있으며 한 변수가 증가하면 다른 변수는 감소합니다.

절댓값이 작은 피어슨 상관 계수는 두 변수 간에 선형 관계가 적다는 것을 의미하는 것은 맞지만 변수 간의 비선형 관계가 있을 수도 있습니다. (비선형 관계를 파악하기 위해서는 그래픽으로 산점도를 생성하거나 적합선 그림을 그리는 방법이 있습니다.)

이 피어슨 상관 계수를 활용한 상관 분석을 선거에도 적용해 볼 수있습니다. 두 변수를 검색 결과 수와 실제 득표수로 두고 피어슨 상관 계수를 구해 볼 수 있는데요. 2007년 대선 후에 후보였던 이명박, 정동영, 이회창 후보에 대해 검색한 결과를 바탕으로 검색량과 득표율 간의 피어슨 상관 계수를 구해 보았을 때 0.988의 값으로 두 변수가 매우 강한 상관관계를 가진다는 것을 알 수 있었습니다. 이는 2011년 서울시장 보궐선거에서도 다시 한번 확인해 볼 수 있었습니다. 선거 전날 밤 박원순 후보와 나경원 후보를 검색했을 때 구글 검색 결과가 각각 약 5,430개와 4,660개가 나왔고 실제 선거 결과에서 박원순 후보가 53.4%의 득표율을 얻고 나경원 후보가 46.2%의 득표율을 보였기 때문입니다. 지난 2016년 미국 대선에서도 비슷한 결과로 구글 검색 수를 통해 구글은 트럼프 후보가 당선될 것을 예측할 수 있었습니다. 이 선거 당시 사람들은 모두 상대 후보인 힐러리가 당선될 것으로 생각했지만 결국 구글이 예측한 트럼프가 당선되게 되면서 선거에서 빅데이터가 미치는 영향이 매우 크다는 것을 알게 되는 계기가 되었습니다.

GOOGLE TREND에 따른 2016.1.~2016.11. 기간의 미국 대통령 후보 검색량 추이 (미국 내 검색결과)

이렇게 빅데이터가 선거 결과 예측에 유용하게 쓰일 수 있는 근거를 마련해 줄 수 있다는 것을 확인할 수 있었는데요. 이 외에도 두 변수에 대한 빅데이터를 분석할 때 그 관계를 설명해 줄 수 있는 추가적인 분석 방법이나 예시 등을 찾아보는 것도 좋을 것 같습니다!


피어슨 상관 계수 사용 시 주의할 점

피어슨 상관 계수를 이용한 분석을 할 때는 몇 가지 주의할 점이 있습니다. 먼저 정규분포의 문제가 있습니다. 피어슨 상관 계수를 이용할 때 두 변수가 모두 정규분포를 따라야 한다는 전제는 없지만, 정규분포일 때 가장 잘 작동한다고 합니다. 즉, 상관계수를 계산할 두 변수의 데이터값들이 정규분포를 반드시 따르지 않아도 되지만 두 변수 데이터값들의 평균을 나타내는 점에서 각각의 데이터값의 편차의 곱은 정규분포를 따라야 한다는 것입니다.

다음으로는 특수 원인 값의 문제를 들 수 있는데요. 피어슨 상관 계수는 극단 데이터값의 영향을 많이 받기 때문에 데이터 값들 중 나머지 값들과 매우 다른 하나의 값이 있다면 상관 계수가 크게 달라질 수 있습니다. 따라서 극단 데이터값의 원인을 조사하고 모든 데이터의 입력 또는 측정 오류를 수정하며 비정상적인 일회성 사건과 연관된, 즉 특수 원인이 있는 데이터 값을 삭제하는 과정이 필요합니다. 이러한 과정 을 반복했을 때더욱 정확한 피어슨 상관 계수를 구할 수 있습니다.

마지막으로 오해석의 문제가 있습니다. 상관 계수만을 기초로 하여 한변수의 변화가 다른 변수의 변화를 끌어낸다는 결론을 내리는 것은 적절하지 않습니다. 위에서 언급했듯이 상관 계수는 인과관계를 설명할수 없습니다. 또한 낮은 피어슨 상관계수는 비선형 관계가 있을 수있다는 것을 유의하며 변수 사이에 관계가 없다고 섣불리 판단해서는 안됩니다. 실제 선거 결과를 분석할 때에도 이러한 점을 유의해야 합니다.

이렇게 피어슨 상관계수를 이용한 상관분석으로 구글 트랜드의 후보자 검색 수를 이용하여 선거 결과를 예측할 수 있다는 것을 알게 되었는데요. 이번 기획특집에서는 빅데이터가 무엇인지 알아보고 데이터를 처리하고 추출하는 알고리즘, 실제 선거 결과 예측에 쓰이는 방법을 알아보았습니다. 4차 산업혁명 시대가 되며 빅데이터가 우리 생활과 더욱 밀접한 관계가 되는 것 같은데요. 선거뿐만 아니라 사용자의 취향을 분석해 주는 알고리즘이나 버스 이용 관련 빅데이터를 이용한 심야버스 운영 등 다양한 곳에 쓰이고 있는 빅데이터에 조금 더 관심을 가져보는 것도 좋을 것 같습니다!

ALIMI 25기 화학공학과 김은진

항상 더 나은 내가 되도록 노력하는 알리미입니당!

기사 모아 보기