인과관계 추정 정확도를 높인 새로운 방법론

시간의 흐름을 기준으로 기록된 ‘시계열 데이터’는 일기 예보, 경제, 의학 등 다양한 분야에서 쓰입니다. 특히 스마트워치 등 웨어러블 기기를 통해 일상에서 건강 데이터를 쉽게 수집할 수 있게 되면서, 의학 분야에서 시계열 데이터 분석의 중요성은 더 커지고 있는데요. 기초과학연구원 수리 및 계산과학 연구단이 시계열 데이터의 인과관계 추정 정확도를 높인 새로운 방법론을 개발, 인과관계 추정 연구에 새로운 패러다임을 제시할 것으로 기대됩니다. 이 연구에 참여한 연구진이 그 의미를 이해하기 위해 알아야 할 개념과 기존 방법론에 대해 직접 알려드립니다.

인과관계란 무엇일까?

세상은 수많은 요소들로 구성되어 있고, 그들은 서로 영향을 주고받으며 다양한 현상을 만들어 냅니다. 이때, 어떤 두 요인 사이에 직접적인 영향을 미치고 있는 관계, 다시 말해 원인과 결과의 관계가 있을 때, 인과관계가 있다고 말합니다. 예를 들어, 기온이 높아질수록 아이스크림 소비량이 늘어나는데, 여기에는 명백한 원인과 결과의 관계인 인과관계가 있습니다. 다른 한편으로 기온이 높을수록 범죄율도 같이 늘곤 합니다. 따라서, 아이스크림 소비량과 범죄율은 실제로 비슷한 경향을 보이곤 하지만, 둘 사이에는 직접적인 인과관계가 없습니다. 다만 기온이 두 가지 서로 다른 요인(아이스크림 소비량과 범죄율)의 원인이 되기 때문에 결과가 되는 두 요인 사이에 비슷한 경향성이 나타나는 것입니다.


이처럼 우리는 세상 모든 일들이 어떻게 작동하는지 한눈에 알기는 어렵습니다. 이때, 정확한 인과관계를 찾는 것은 특정 현상의 메커니즘을 밝히는 첫걸음이 될 수 있습니다. 그렇기에 수많은 분야에서 현상을 자세히 기록하여 데이터화하고, 이를 분석하는 과정을 통해 인과관계를 추정하려 합니다. 특히, 시간의 흐름을 기준으로 기록된 ‘시계열 데이터’는 일기 예보와 경제 분야뿐만 아니라 의학 분야에서도 인과관계 추정에 가치 있게 쓰입니다. 입원 환자의 심전도 측정을 통해 심장 발작의 직접적인 요인을 찾는 것이 대표적입니다. 최근에는 스마트워치 등 웨어러블 기기를 통해 일상에서 건강 데이터를 쉽게 수집할 수 있게 되면서, 의학 분야에서 시계열 데이터 분석의 중요성이 더 커지고 있습니다.

[그림 1] 시계열 데이터의 인과관계 추론 / 서로 다른 대상의 시계열 데이터가 주어졌을 때, 이들 사이에 인과관계가 있는지 추정하는 것은 사회/자연과학 전 분야에 걸쳐 오랫동안 연구가 진행된 중요한 문제다.[그림 1] 시계열 데이터의 인과관계 추론 / 서로 다른 대상의 시계열 데이터가 주어졌을 때, 이들 사이에 인과관계가 있는지 추정하는 것은 사회/자연과학 전 분야에 걸쳐 오랫동안 연구가 진행된 중요한 문제다.

노벨경제학상의 주인공, 그레인저 인과관계 검정

시계열 데이터에서 인과관계를 추정하는 대표적인 방법으로는 2003년 노벨 경제학상을 수상한 클라이브 그레인저 UC샌디에이고 교수가 제시한 ‘그레인저 인과관계 검정(Granger causality test)’이 있습니다. 그레인저 인과관계 검정의 주요 아이디어는 간단합니다. 지구의 평균 기온과 온실가스 농도를 매일 기록한 시계열 데이터가 있다고 가정해 봅시다. 과거부터 오늘까지의 기온 데이터만을 이용해서, 내일의 기온을 예측한다면, 얼마나 정확히 예측할 수 있을까요? 혹은 오늘까지의 기온 데이터뿐만 아니라 온실가스 농도 데이터도 같이 이용하여 내일의 기온을 예측한다고 해 봅시다. 일전의 예측보다 더 정확해질까요? 만약, 온실가스가 정말 지구 기온에 영향을 미치고 있다면, 즉 인과관계가 있다면, 두 데이터를 모두 사용하는 것이 예측의 정확도를 높일 것입니다. 반면에, 온실가스와 기온 사이에 인과관계가 없다면, 온실가스 데이터를 추가로 사용한다고 해도 예측의 정확도는 크게 달라지지 않을 것입니다. 이처럼 정보의 유무에 따라 통계 모형의 정확도가 유의미하게 달라지는지를 이용하여 인과관계를 판단할 수 있으며, 이것이 그레인저 인과관계 검정의 핵심 아이디어입니다. 이러한 그레인저 인과관계 검정은 미래 경제지표 예측, 질병 요인분석, 지구온난화의 원인 등 수많은 분야에 걸쳐 응용되고 있습니다. 또한, 그레인저 인과관계 검정 이후에도 정보 이론 기반의 다양한 인과관계 추정 방법이 개발되어 왔습니다.

인과관계 추정 방법론들의 고질적인 문제

하지만 기존에 사용된 인과관계 추정 방법론들에는 몇 가지 문제점들이 있습니다. 우선, 시계열 데이터가 비슷한 주기로 변화하는 동시성을 가지기만 하면 인과관계가 있다고 잘못 예측하는 경우가 많았습니다. 예를 들어, 기온의 변화와 바다 조수는 모두 약 하루의 주기를 가지고 진동하지만 실제로는 서로 직접적인 연관이 없습니다. 그러나 그레인저 인과관계 검정은 기온과 바다 조수 사이에 인과관계가 있다고 잘못 예측합니다. 또한, 직접적인 인과관계와 간접적인 인과관계를 잘 구별하지 못한다는 한계점도 있습니다. 예를 들어, 풀은 사슴의 먹이이고, 사슴은 호랑이의 먹이가 됩니다. 따라서 풀이 많아지면 풀을 먹는 사슴의 수가 늘고, 이에 사슴을 먹이로 하는 호랑이의 수도 같이 늘어나게 됩니다. 이렇게 풀의 양은 간접적으로 호랑이의 개체 수에 영향을 줄 수 있지만, 둘 사이에 직접적인 인과관계는 없습니다. 그러나 지금까지의 인과관계 추정 방법론들은 풀의 양이 호랑이 개체 수에 직접적인 영향을 주는 것으로 잘못 추정하는 오류를 범하곤 합니다.

수리모델의 필요성과 한계점

앞서 나온 문제점들을 해결하기 위해, 즉 동시성과 간접적인 영향으로부터 인과관계를 정확하게 추정하기 위해, 수리모델이 유용하게 사용될 수 있습니다. 앞서 나온 호랑이와 사슴의 예시를 살펴봅시다. 사슴은 호랑이의 먹이이기 때문에, 잡아 먹히는 사슴의 수는 호랑이의 개체수([호랑이]) 와 사슴의 개체수([사슴])에 비례합니다. 또한 사슴은 번식을 통해 개체수가 늘어나기 때문에, 사슴의 개체수 변화율([사슴]’)은 다음과 같은 식을 따릅니다.


[사슴]’ = a x [사슴] – b x [사슴] x [호랑이]


비슷한 방식으로, 호랑이의 개체 수는 사슴과 호랑이가 많을수록 빨리 증가하며, 호랑이의 죽음에 따른 개체수 감소까지 고려한다면, 호랑이 개체수의 변화율은 다음과 같습니다.


[호랑이]’ = c x [사슴] x [호랑이] – d x [호랑이]


이러한 방정식을 포식자와 피식자 간의 관계를 표현한 로트카-볼테라 방정식이라 부릅니다. 이제, 호랑이와 사슴의 시계열 데이터가 주어졌다고 생각해 봅시다. 우리는 매개변수 a, b, c, d를 조정하며 로트카-볼테라 방정식이 해당 시계열 데이터를 잘 설명하는지 확인함으로써 호랑이와 사슴 사이의 포식 관계 유무를 판단할 수 있습니다. 즉, 호랑이와 사슴 개체수 사이의 인과관계를 판단할 수 있는 것입니다. 이러한 방법론들은 수리모델이 정확하기만 하면 동시성과 간접적인 영향을 인과관계와 혼동하지 않는다는 장점이 있습니다. 하지만 보통의 경우에는 정확한 수리모델이 잘 알려져 있지 않으며, 수리모델을 알더라도 인과관계를 추정할 때 복잡한 계산이 필요하다는 또 다른 제약이 있습니다.


새로운 방식의 인과관계 추정 방법론, GOBI(General Ode Based Inference)

수리모델을 기반으로 한 방법론의 문제점을 해결하기 위해, 정확한 수리모델을 알지 못할 때에도 적용 가능한 패턴을 생각해 볼 수 있습니다. 다시 사슴과 호랑이 예시로 돌아가 봅시다. 호랑이는 사슴을 잡아먹기 때문에 호랑이의 개체 수는 사슴의 개체 수에 음의 영향을 끼친다고 볼 수 있습니다. 반면에, 사슴의 개체 수는 호랑이의 개체 수에 양의 영향을 미치고 있습니다. 이처럼, 인과관계를 추정하기 위해서는 양의 영향 혹은 음의 영향의 유무만을 판단하면 됩니다. 시계열 데이터에서 사슴의 개체수가 증가하는 시점을 생각해 봅시다. 그 시점에 호랑이의 개체수 변화율이 증가한다면, 사슴이 호랑이에게 양의 영향을 주고 있다고 추측해 볼 수 있습니다. 즉,


D[사슴] x D[호랑이]’


이 값이 항상 양수 값을 가지면 사슴은 호랑이에게 양의 영향을 주고 있는 것입니다. 반면에, 저 값이 항상 양수가 아니라면 사슴은 호랑이에게 양의 영향을 끼치고 있지 않은 것이 됩니다. 비슷한 방법으로 호랑이가 사슴에게 음의 영향을 미치는지도 확인할 수 있습니다. 이러한 패턴을 이용하여, 시계열 데이터가 일반적인 형태의 수리모델로 표현될 수 있는지 확인하는 이론을 만들 수 있습니다. 이러한 이론을 바탕으로 여러 통계 검정을 더해 특정 모델에 대한 가정이나 복잡한 계산 없이도 시계열 데이터로부터 인과관계를 추정하는 방법론(GOBI: General Ode Based Inference)이 개발되었습니다.

GOBI를 통해 더 정확한 인과관계 추정이 가능해져

해당 방법론을 이용해 여러 시스템의 인과관계를 분석한 결과, 세포 내 분자들의 상호작용, 생태계 네트워크, 그리고 기상 시스템에 이르기까지 다양한 분야의 데이터에서 기존의 인과관계 추정 방법론에 비해 월등한 성능을 보여주는 것을 확인할 수 있습니다. 그 예로, 여러 대기오염 물질 중 이산화질소와 호흡 가능한 부유 미립자가 심혈관질환에 영향을 미친다는 것을 확인할 수 있었습니다. 특히, 기존 인과관계 추정 방법론들과 달리 동시성 및 간접적인 영향을 가지는 시계열 데이터에서도 인과관계를 성공적으로 추론한다는 것을 알 수 있었습니다. 이러한 연구 결과는 인과관계 추정 연구에 새로운 패러다임을 제시할 것으로 예상됩니다.

[그림 2] 기존 개발된 방법론과 새로 제시된 방법론의 인과관계 추정 결과 비교 / (a) 서로 무관한 먹이 포식자 시스템(P와 D)과 세포 내 단백질 상호작용 시스템(28 과 TetR)을 합친 시스템의 시계열 데이터이다. GC (그레인저 인과관계 검정) 등 기존 방법론들은 시계열 데이터에 동시성이 있으면 거의 모든 대상 사이에 인과관계가 있다고 잘못 추정한다. 그러나 GOBI는 실제로 있는 인과관계만 정확히 추정한다. (b) 홍콩에서의 심혈관질환 환자수와 대기 중 오염물질의 농도를 나타낸 시계열 데이터이다. 다른 방법론들과는 다르게, GOBI는 사용하는 시계열 데이터의 길이(2년 또는 3년)와 무관하게 오직 이산화질소(NO2)와 호흡 가능한 부유 미립자(Rspar)만이 심혈관질환에 영향을 준다고 바르게 추정한다.
[그림 2] 기존 개발된 방법론과 새로 제시된 방법론의 인과관계 추정 결과 비교 / (a) 서로 무관한 먹이 포식자 시스템(P와 D)과 세포 내 단백질 상호작용 시스템(28 과 TetR)을 합친 시스템의 시계열 데이터이다. GC (그레인저 인과관계 검정) 등 기존 방법론들은 시계열 데이터에 동시성이 있으면 거의 모든 대상 사이에 인과관계가 있다고 잘못 추정한다. 그러나 GOBI는 실제로 있는 인과관계만 정확히 추정한다. (b) 홍콩에서의 심혈관질환 환자수와 대기 중 오염물질의 농도를 나타낸 시계열 데이터이다. 다른 방법론들과는 다르게, GOBI는 사용하는 시계열 데이터의 길이(2년 또는 3년)와 무관하게 오직 이산화질소(NO2)와 호흡 가능한 부유 미립자(Rspar)만이 심혈관질환에 영향을 준다고 바르게 추정한다.


ibs 박세호 UNIVERSITY OF WISCONSIN MADISON 수학과 대학원색 대수학과 통계 그리고 컴퓨터 알고리듬을 통해 인과관계 추정에 대해 연구하고 있습니다.


본 콘텐츠는 IBS 공식 포스트에 게재되며, https://post.naver.com/ 에서 확인하실 수 있습니다.