본문 바로가기주요메뉴 바로가기

주메뉴

IBS Conferences

 

Vol.10 [수학자의 연구 노트] 데이터 과학, 세상을 수학으로 보다

  • 기초과학연구원(IBS)은 세계 수준의 기초과학 연구를 위해 2011년 대한민국이 설립한 연구기관입니다. 수학 분야에서는 5명의 연구책임자가 이끄는 3개의 연구단이 활발한 연구를 펼치고 있습니다. IBS는 설립 10주년을 맞아 <수학동아>와 함께 IBS 수학자들의 연구와 삶을 소개하는 시리즈 <나의 삶, 나의 수학>을 연재해왔습니다. 이번 편을 끝으로 <나의 삶, 나의 수학> 연재를 마칩니다.

글에 앞서 필자는 순수 수학이 아닌, 수학을 기반으로 만들어진 알고리듬과 인공지능으로 사회과학 문제를 푸는 데이터 과학자임을 밝힙니다. 데이터 과학은 현실의 난제를 푸는 ‘행동하는 기초과학’으로, 필자가 지금까지 어떤 데이터 과학 분야를 연구하며 수학을 적용해왔는지 소개합니다.


대학원 시절 차미영 CI(오른쪽 세 번째)가 지도교수인 문수복 전산학부 교수(차 CI의 왼쪽)와 동료들과 함께 찍은 사진
▲ 대학원 시절 차미영 CI(오른쪽 세 번째)가 지도교수인 문수복 전산학부 교수(차 CI의 왼쪽)와 동료들과 함께 찍은 사진

KAIST 대학원에서 나의 첫 연구 주제는 큰 용량의 비디오 영상을 실시간으로 효율적이고 빠르게 보내는 방법을 찾는 것이었다. 네트워크상에서 실시간 영상을 주고받으려면 통신장비인 라우터가 오작동하거나 실수로 네트워크가 끊길 때 손실된 패킷(데이터가 전송되는 기본 단위)을 포착해 빠르게 다시 보내도록 해주는 알고리듬이 필요했다.


국제학회에서 얻은 인턴십 기회

이 문제를 잘 풀어보기 위해, 홍콩에서 열린 미국전기전자공학회 컴퓨터통신학술대회(IEEE INFOCOM)에 무료로 참석하고 공부할 기회를 얻었다. 강연 사이의 휴식 시간. 레게머리를 한 사람이 내게 인사를 건넸고, 나는 자연스레 어떤 문제에 관심이 있는지 그에게 설명했다. 다음 강연이 시작돼 일어나려는데, 그 사람이 냅킨에 이름과 이메일 주소를 적어주었다. 그리고 자신을 미국 럿거스대학교에서 이산 수학 및 전산 이론 센터 책임교수이자 통신회사인 AT&T 연구원이라고 소개했다. 놀라운 일이 바로 뒤에 일어났다. 그가 항공편과 숙소를 지원해줄 테니 연구소에서 인턴십을 해보는 게 어떠냐고 제안해준 것이다.

우연한 기회에 방문한 AT&T 연구소는 인터넷망으로 TV 영상과 정보를 송출하는 IPTV(Internet Protocol Television)의 통신망을 디자인하고 있었다. 나는 IPTV의 네트워크 구성에 필요한 요건을 파악해 TV 영상을 끊이지 않게 전송할 알고리듬을 궁리했다. 그러다 문득 그래프 채색 문제가 떠올랐다. 그래프 채색 문제란 그래프에서 연결된 점이 서로 다른 색을 갖도록 최소의 색으로 색칠하는 문제다. 이 문제를 네트워크 오류가 생길 때 가능한 최적의 이동 경로를 찾는데 사용했다.

이 아이디어를 점검하기 위해 가상 데이터로 자체 개발한 모델을 수없이 실행했다. 그리고 컴퓨터 모델에 실제 데이터를 넣어 비용을 크게 낮출 수 있다는 결과가 나왔던 순간은 그 어느 때보다 짜릿했던 기억으로 남아있다. 인턴십이 끝날 무렵 수많은 실험을 거쳐 제시한 모델은 AT&T 연구소가 개발한 모델보다 20% 정도 비용을 줄일 수 있고 각종 사고에서도 더 안정적이라는 평가를 받았다. 귀국 전, AT&T 연구소의 대가들 앞에서 연구 결과를 발표하는 자리가 있었다. 이때 연구자들이 조언해 준 이야기들은 내게 나이와 인종, 성별을 넘어서 영감을 주었고, 이후 데이터 과학 연구에 더 깊이 빠져들 수 있었다.

데이터를 분석한 모델을 만들어보자~! / 수심만 가구의 실제 iptv사용 데이터를 모을수 있다니! 일러스트

유럽으로 가 동영상 공유 플랫폼을 분석하다

이후 존 크로크로프트 영국 케임브리지대학교 교수님 연구실과 스페인의 최대 통신회사이자 남아메리카에서 가장 큰 인터넷 사업회사인 텔레포니카(Telefonica)의 인턴십에 초청됐다. 특히 텔레포니카는 이미 IPTV를 구축해놓았기에, AT&T 연구소에서 기초 지식을 쌓은 나에게 실제 IPTV를 통해 오가는 데이터를 볼 수 있는 꿈같은 기회였다.

IPTV는 사용자가 채널을 바꿀 때마다 라우터에 채널 요청 정보가 전송되고 그 결과를 다시 받는 방식으로 운영된다. 그래서 라우터에 정보를 수집하는 기술을 구현할 수 있다면 전 국민의 TV 시청 패턴을 알 수 있다. 나는 영국과 스페인을 오가며 데이터 수집과 모델 분석을 병행했다. 그렇게 라우터에서 시청 데이터를 저장하는 모듈을 구현했고 세계 최초로 수십만 가구 규모의 TV 시청 패턴을 연구할 수 있었다. 미국 닐슨 같은 시청률 조사 회사는 계약된 일부 가구에 모니터링 장비를 설치하기 때문에, 이렇게 얻은 데이터는 다큐멘터리 시청 비중이 높은 것으로 알려져 있다. 반면 내 연구에서 제시한 IPTV 데이터는 편향이 없는 더욱 보편적인 행동 패턴을 모델링하게 해주는 중요한 의미를 가진다. 후에 크로크로프트 교수님이 컴퓨터 시스템 분야의 세계 최고 학회인 시그콤(SIGCOMM)에서 2009년 상을 받으며, 이 연구를 기억에 남는 연구 중 하나로 언급해주신 것은 지금까지도 영광이다.

이처럼 데이터 과학은 다방면을 넘나든다. TV 시청 기록만으로도 해당 가구에 어린이가 있는지, 퇴근을 언제쯤 하는지, 언제 채널을 돌리고, 어떤 광고가 효과적인지 가늠할 수 있다. 이를 인간이 어떻게 행동하는지 모델링하는 문제로 접근할 수도 있고, 정부나 기업 등이 개인을 파악하는 응용문제로 다룰 수도 있다. 이것이 데이터 과학의 큰 매력이라고 생각한다. 또 나는 연구를 통해 다양한 사람들을 만날 수 있었다. 데이터가 모이는 핵심 라우터의 위치를 알기 위해 스페인 현지의 엔지니어와 손짓과 발짓을 모두 섞어가며 소통했고, 한국-스페인 수교 후 57년 만인 2007년에 열린 한국-스페인 정상회담에 초대되어 후안카를로스 국왕과 고(故) 노무현 전 대통령을 만날 수 있었다. 인턴십을 통해 공학자, 연구자, 법무팀 등 다양한 분야의 전문가를 만나며 내 시야도 넓어지고 있었다.

유튜브 동영상 분석결과를 보며 데이터 과학으로 동영상데이터에서 규칙을 찾아내는 연구원들 일러스트

또 2006년 당시 스타트업이었던 유튜브가 구글에 약 1조 6000억 원에 매각되던 때, 수백억 개에 달하는 유튜브 동영상 채널수는 IPTV의 200여 개 채널을 분석하던 내게 새로운 도전으로 다가왔다. 나는 곧바로 데이터를 수집하는 크롤링 스크립트를 작성해 유튜브 동영상의 인기를 가늠하는 지표들을 수집했다. 가장 인기 있는 동영상부터 아무도 보지 않는 동영상까지 그 순위를 가로축에 나열하고 세로축에는 해당 동영상의 조회 수를 표시했다. 그런 뒤 가로, 세로축의 값을 로그함수로 바꿔 그래프를 그려 멱 법칙이 존재하는지 살폈다.

멱 법칙은 한 수를 다른 수의 거듭제곱으로 나타낼 수 있는 함수 관계로, 도시별 인구수나 사용되는 단어의 빈도 등 자연 현상을 설명하는데 사용된다. 이때 x축 방향으로 갈수록 그래프의 꼬리가 꾸준히 유지되는지, 빨리 떨어지는지 등을 보고 경영 전략을 세울 수 있다. 멱 법칙 분포를 기반으로 수리 모형실험을 했더니 꼬리가 긴, 즉 사람들이 꾸준히 보는 동영상을 개인에 맞게 추천할 때, 조회 수와 이를 통한 광고소득이 얼마나 오를지 볼 수 있었다. 이 연구를 통해 박사과정 마지막 해에 열렸던 미국 컴퓨터 협회(ACM)에서 최우수 논문상을 받았으며, 독일 막스 플랑크 연구소에서 박사후연구원을 제안 받았다.

더 큰 네트워크의 세계로

데이터 과학은 내게 매혹적인 퍼즐 같았다. 복잡하고 정제되지 않은 데이터를 차근차근 분석하면 그 상황에서 새로운 법칙들을 찾을 수 있었기 때문이다. 그래서 나는 더 큰 데이터를 다루고 싶다는 욕심이 생겼는데 마침 기회를 얻을 수 있었다. 박사학위를 받은 뒤 독일 막스 플랑크 연구소, 유엔 글로벌 펄스(UN Global Pulse), 세계관세기구(WCO) 등과 계속 협업을 하게 된 것이다. 그중 미국 실리콘밸리의 페이스북에서 일한 경험은 특별한 기억으로 남는다. 페이스북 사용자인 30억 인구의 데이터를 분석할 수 있는 곳이기 때문이다.

알고리듬은 더는 이론으로 존재하는 것이 아닌, 누군가에게 어떤 정보를 노출할지를 결정하는 중요한 역할을 한다. 따라서 뉴스, 구직정보, 오랜 친구의 소식이나 인터넷에서 시작된 유행인 밈(meme)까지 사용자의 마음을 읽듯 알고리듬을 통해 데이터가 정렬돼 있어야 한다. 반복된 콘텐츠나 헤어진 연인의 소식이 잘못 뜨기라도 하면 이용자가 서비스를 떠날 수 있기에 사용자에 대한 배려가 필요하다.

차미영 CI가 2014년 미국 페이스북 본사에 방문해 무엇이든 쓸 수 있게 한 페이스북 담벼락을 배경으로 서있는 이미지
▲ 대학원 시절 차미영 CI(오른쪽 세 번째)가 지도교수인 문수복 전산학부 교수(차 CI의 왼쪽)와 동료들과 함께 찍은 사진

여기 다시금 수학적 사고의 중요성이 강조된다. 수십억 인구의 대화가 담긴 데이터에서 개인이 무엇을 원할지 예측하는 데 인공지능이 사용되는데 그 핵심에는 수학 모델링이 있다. 계산량이 많은 경우에는 목적함수*를 잘 정의해주어야 의미 있는 결과를 얻을 수 있다. 이 과정은 절대 단순하지 않다. 사회과학 문제에는 여러 목적과 조건들이 있기 때문이다. 한 예로 검색 사이트가 단지 클릭 수를 높이는 목적함수를 설정한다면 자극적인 낚시성 기사나 가짜뉴스가 많이 추천될 것이다. 따라서 검증되지 않은 정보의 노출을 줄이고 이로운 정보를 늘리는 ‘사회적 가치’를 수식으로 만들어야 한다. 이 전반의 과정을 페이스북에서 데이터 과학자로 일하며 경험할 수 있었다.
* 목적함수: 예측값과 실제값의 오차를 최소화하거나 최대화하는 목적의 식.

지금은 수학을 기반으로 만들어진 다양한 알고리듬과 인공지능으로 사회 난제 해결의 실마리를 찾고 있다. SNS에서 가짜뉴스가 어떻게 전파되고 이를 빠르게 막을 수 있는지, 개발도상국의 경제지표를 딥러닝 기반의 인공위성 데이터에 적용해 유추하고, 우범화물선별 알고리듬으로 세관의 세수 확보를 증가시키며, 스마트워치에서 수집된 데이터를 분석해 불면증의 패턴을 찾아낸다. IBS와 KAIST는 공익 목적의 협업 연구와 혁신적인 모델 방법론을 제시하는 기초과학도 함께 추구하기에 이러한 연구를 하기에 이상적이다. 그래서 경제학자, 정신과 전문의, 경제학자, 지리학자, 세관원, 기자, 기후학자를 비롯해 다양한 분야의 열정적인 전문가들과 교류하며, 데이터 과학 연구를 선도하고 있다.


글·사진 | 차미영 기초과학연구원(IBS) 수리 및 계산 과학 연구단 데이터 사이언스 그룹 CI

진행‧디자인‧일러스트 | 수학동아

만족도조사

이 페이지에서 제공하는 정보에 대하여 만족하십니까?