POSTECHIAN 기사 보기

[2020 여름호] 1 - 정보의 홍수, 빅데이터 시대

  • 김현우
  • 2020-07-31 16:02:38

2020 SUMMER 기획특집 1

정보의 홍수, 빅데이터 시대
Big Data Technology


다들 ‘빅데이터’라는 용어 많이 들어 보셨나요? ‘빅데이터’라는 단어 그대로 방대하고 다양한 형태의 데이터 집합을 지칭하는 용어입니다. 이 빅데이터는 실생활에서도 많이 쓰이고 있는데요. 최근 치러진 제21대 국회의원 선거에서도 많은 IT 기업이 빅테이터를 이용하여 미리 선거 결과를 예측하였다고 합니다. 그럼 이번 기획특집을 통해 빅데이터가 무엇이고 어떻게 분석되는지, 그리고 선거와 빅데이터의 관계를 자세히 알아봅시다!


빅데이터1
올해 4월 15일이 무슨 날이었는지 기억하시나요? 바로 대한민국 제21대 국회의원선거가 있었던 날입니다! 선거 전에는 항상 사전 투표를 하는 기간을 두어 선거 결과를 예측하려고 합니다. 하지만 빅데이터를 사용하여 선거 결과를 예측하기도 하는데요. 그 예측이 사전 투표를 통한 예측보다 더 정확할 때도 있다고 합니다. 이렇게 4차 산업혁명 시대로 접어들면서 빅데이터는 더욱 다양한 분야에서 사용되고 있는데요.

빅데이터가 무엇인지,
빅데이터 분석 알고리즘은 어떻게 작동하는지,
선거 결과 예측에 적용되는 빅데이터 기술은 무엇인지,
지금부터 한번 알아볼까요?




빅데이터란 무엇인가?

먼저 빅데이터의 정의에 대해 알아봅시다. 정보통신 기술이 발전하면서 인터넷에는 엄청난 양의 정보가 생성되고 있습니다. 이 정보들은 영상, 글, 사진 등의 다양한 형태로 존재합니다. 이렇게 생성된 막대한 양의 정보들을 처리하기 위해 나온 기술이 바로 빅데이터 기술입니다.

여러 SNS에서 1분마다 생성되는 데이터의 양

그럼 빅데이터는 어떤 특징을 가지고 있을까요?


빅데이터는 기존의 데이터 처리 기술과 다른 특징이 있는데, 이를 3V 라고 부릅니다.

3V 더 알아보기


3V는 데이터의 규모 Volume, 데이터 처리 속도 Velocity 그리고 데이터의 다양성 Variety을 나타내는 용어인데요.
먼저, 데이터의 규모는 위에서도 말했듯이 매우 많은 양의 데이터를 담고 있는 빅데이터의 특징입니다. 데이터 처리 속도는 데이터의 실시간 처리를 말하는데, 인터넷에는 항상 엄청난 양의 데이터가 생성되기 때문에 이를 빠르게 처리할 수 있는 빅데이터의 특징을 나타냅니다. 마지막으로 데이터의 다양성은 빅데이터가 정형화된 데이터(전체 데이터의 20%)뿐만 아니라 비정형 데이터(전체 데이터의 80%) 또한 포함하는 특징을 말합니다. IBM에서는 빅데이터의 특징인 3V에 데이터의 정확성 Veracity 또한 포함하여 4V를 정의하기도 했습니다. [링크 - IBM이 정의한 빅데이터] 엄청난 양의 정보가 쏟아지는 만큼 신뢰할 수 없는 정보 또한 많이 생성되기 때문에 데이터의 정확성 또한 빅데이터의 중요한 요소가 되었기 때문입니다. 이와 연관되어 데이터의 가치 Value를 포함하여 5V로 정의되기도 합니다.

빅데이터의 특징 (3V ~ 5V)

이러한 특징을 가진 빅데이터는 많은 양의 정보를 수집하여 결과를 내기 때문에 개인에 대한 정확도가 떨어질 수 있다는 단점을 가지고 있습니다.
이에 등장한 개념이 스몰 데이터인데요, 스몰 데이터란 개인의 행동, 성향, 습관 등 ‘작은 정보’들을 분석하여 특정 사람에게 맞는 서비스나 상품을 판매하기 위해 사용됩니다. 스몰데이터는 이런 특성 때문에 탐정에 비유되기도 합니다.

빅데이터의 생성과 수집

그럼 과연 빅데이터는 어떻게 생성되고 수집되는지에 대해 간단히 알아봅시다. 먼저 데이터의 생성이란 말 그대로 데이터가 발생하는 것입니다. SNS에 올린 나의 셀카, 유튜브에 올라오는 재밌는 영상 모두 데이터의 생성이라고 할 수 있습니다. 그다음은 생성된 데이터의 수집입니다. 데이터의 수집에는 여러 방법이 있는데 그중 웹 크롤러와 로그 수집기에 관하여 이야기해 보겠습니다.

웹 크롤러의 구조

웹 크롤링 Web Crawling/Web Scalping이란 자동화된 프로그램을 사용하여 웹 페이지에 있는 정보를 복사해 오는 방식을 이야기합니다. 간단한 웹 크롤링은 파이썬 Python을 사용하여 집에서 직접 구현할 수 있습니다.


웹 크롤링에 관심 있는 학생들은 직접 구현해 보면 좋은 공부가 될 것입니다.

PYTHON을 이용한 웹 크롤링


다음은, 로그 수집기입니다. 로그 Log란 컴퓨터를 끄고 켜거나 여러 작업을 수행할 때 남는 기록들입니다. 로그들은 주로 Fluentd [링크 - Fluentd 홈페이지] 등 수많은 로그를 수집하여 라우팅 Routing 할 수 있는 로그 수집기 프로그램을 사용하여 수집됩니다. Fluentd와 같은 로그 수집기는 기본적으로 Input → Engine → Output의 데이터 흐름을 가집니다. Input은 말 그대로 들어오는 로그 기록입니다. 이때 다양한 확장 플러그인을 사용하여 여러 종류의 로그를 수집할 수 있게 합니다. Engine은 받아온 로그 기록을 정리하는 부분입니다. 마지막으로 Output은 정리가 끝난 로그 기록을 저장하는 부분입니다.

Fluentd의 내부 구조

빅데이터의 응용 분야

빅데이터는 우리 실생활 아주 다양한 곳에 적용될 수 있습니다. 그중 우리가 빅데이터의 영향을 가장 잘 느낄 수 있는 분야는 광고 분야일 것입니다. 실제로 미국의 아마존닷컴은 모든 고객의 물품 구매내역을 저장하고 분석하여 소비자의 관심사를 파악합니다. 또한 구글과 페이스북은 사용자의 검색 기록, 포스팅한 글을 실시간으로 분석하여 맞춤 광고를 제공하기도 합니다. 이런 경제 분야뿐만 아니라 스포츠에서도 빅데이터가 활용된 사례가 있습니다. 바로 머니볼 이론입니다. 머니볼 이론이란 오로지 경기의 데이터를 분석하여 선수를 선발하고 배치하여 승률을 높이는 게임 이론입니다. 이는 실제로 2000년대 초반 미국 메이저 리그의 최하위 팀 ‘오클랜드 에슬레틱스’를 미 야구 역사 최초의 20연승을 달성한 팀으로 바꾼 실화를 바탕으로 만들어진 이론이랍니다.

지금까지 빅데이터의 정의와 특징, 그리고 여러 응용 분야에 대해 알아 보았습니다. 하지만 아직 우리는 빅데이터가 어떻게 처리되는지는 배우지 않았는데요, 다음 페이지에서 본격적으로 빅데이터가 어떻게 분석되는지에 대해 다양한 과학적 접근과 알고리즘, 그리고 선거와 빅데이터의 관계를 알아 봅시다!


기획특집 ② - 빅데이터 분석 알고리즘 편으로 이어집니다.

기획특집 ② 보기

ALIMI 25기 전자전기공학과 김현우

고교 생활 중 진로에 대한 고민이 생긴다면 언제든지 편하게 질문해주세요!!!

기사 모아 보기