지식 오류의 역사는 지금도 계속된다.

이윤모 대표 분석 컨설턴트

사람은 누구나 실수를 하고 잘못을 저지른다. 대부분의 사람들이 경험해본 목적지와 반대방향으로 가는 지하철을 타는 실수 같은 것은 흔하게 일어난다. “지구는 평평하다.”는 주장과 같이 오랫동안 인류의 지식 역사의 한 장을 장식했던 오류를 범하기도 한다.

과거에 인류가 범한 오류들을 발견하고 비웃는 것은 과거보다 현재가 낫다는 일종의 우월감을 느끼게 하지만 과학과 기술이 발달한 오늘날에도 계속해서 오류는 발생한다. 사실 우리가 알고 있는 지식은 현재 상태를 반영할 뿐 미래에는 쓸모 없는 것이 될 수도 있다. 우리의 자손들은 지금 우리가 확실하다고 믿는 것이 사실은 어리석은 오류라고 비웃을지도 모른다.

재미있는 것은 우리가 실수를 저지르면서도 기본적으로는 자신이 옳다고 가정하며 일상생활을 영위한다는 것이다. 기억, 신념, 가치관, 지식, 법과 규범을 끊임없이 의심하면서 하루를 보내는 사람은 없을 것이다. 우리는 일상에서 우리가 보고 듣고 해석하는 ‘정보’가 옳다는 믿음 하에 움직이며, 때로는 실수를 감수하거나 명백히 틀렸을 때조차 여전히 자신이 옳다고 우기기도 한다.

우리는 과학자나 경제학자 같은 전문가들의 말을 신뢰하는 편이다. 하지만 이들의 연구나 조언들도 간혹 부정확하거나 오류를 내포하고 있다. 네이처나 사이언스 같은 유명 저널에 개제되는 논문의 2/3가 제대로 검증하면 틀렸다는 보고서도 있다. 예를 들어, 2002년 네이처 저널의 커버스토리를 장식한 4가지 중 2가지는 재 실험에 실패했다고 한다.

popeye필자가 어릴 때 봤던 ‘뽀빠이’ 라는 만화에서는 여자친구인 올리브가 악당인 부루터스에게 괴롭힘을 당할 때면 뽀빠이가 시금치 통조림을 먹고 힘을 내어 부루터스를 물리치는 것이 주요한 내용이었다. 사람들은 시금치에 철분이 아주 많이 들어 있다고 생각한다. 하지만 시금치의 철분 함량은 다른 채소들과 별반 다를 바가 없다고 한다. 그렇다면 뽀빠이의 영양식으로 시금치가 선택된 것은 어떤 이유 때문일까? 문제는 작은 실수로부터 비롯되었다. 스위스의 생리학자인 Gustav von Bunge가 시금치의 철분 함량을 기록할 때 잘못된 실험 조건의 결과를 그대로 기록하면서 소수점을 한 자리 뒤에 찍었다. 그때부터 철분의 대표 주자로 시금치가 인식된 것이라고 한다.

이 시기에 어린 시절을 보냈던 사람들이라면 이런 지식을 의심 없이 받아들이고 자녀들에게도 시금치를 많이 먹이려는 시도를 했을 것 같다. 이런 사실을 알게 된 후에도 필자는 시금치를 보통 이상으로 건강에 좋은 채소라고 생각할 때가 있다. 머릿속에 각인된다는 것은 참 무서운 것 같다.

대럴 허프는 “How To Lie with Statistics”에서 ‘통계야 말로 절대 믿어서는 안 되는 거짓말 중의 거짓말’이라고 했다. 통계의 오류를 경계한 것이다. 숫자가 주는 교묘한 눈속임도 한 몫 한다. ‘50% 할인 + 3개 이상 구매시 추가 20% 할인’이라는 광고 문구를 보면 대부분의 사람들은 할인율이 70%일 것으로 생각한다. 하지만 실제로는 50% 할인을 한 다음에 그 가격에서 추가로 20%를 할인한다는 의미이기 때문에 실제로는 60%할인을 해주는 것이다.

mark_twain_lies_344

오늘날 우리에게 통계는 거의 일상이 되어 있다. 데이터와 컴퓨터만 있으면 정교한 통계 작업을 수행할 수 있기 때문에 연구분야뿐만 아니라 정책, 경제, 생활에 이르기 까지 많은 영향을 주고 있다. 통계는 미래를 예측하거나 자신의 주장에 설득력 있는 논거를 제시하기 위해 자주 사용된다.

그렇지만 통계의 오류는 여전히 위험하고 오용되는 사례가 매우 많다. 가장 대표적인 사례는 ‘해석’의 잘못이다. 다음과 같은 가상의 뉴스를 예로 들어보자. ‘교통 사고 통계에 따르면 자동차 사고로 죽은 운전자 10명 중 6명이 안전띠를 매고 있었고, 4명은 그렇지 않았다.’ 분명 이 같은 결과를 본 사람들은 안전띠를 매는 것이 덜 안전한가? 하고 생각할 것이다. 뉴스 뒤에 감춰진 숫자의 의미를 이해해야만 오류를 범하지 않을 것이다. 이런 ‘해석’의 잘못은 건강상식, 대학 입시 분석처럼 많은 사람들이 관심을 가지는 영역에서도 더욱 빈번하게 일어난다.

우리는 자신이 직접보고 듣고 확인한 정보가 틀릴 수도 있다고 잘 생각하지 않는다. 회사에서 오랜 현장 경험을 가진 영업직원들을 만나보면 본인들이 알고 있는 시장 상황이나 고객에 대한 생각을 거의 전적으로 확신하고 있다. “부처님 손바닥이야.”라거나 때로는 숫자를 이용해서 “다음달 실적은 80%를 넘기 어려울 겁니다.”라면서 확신의 깊이를 강조하는 표현을 쓰기도 한다. 오류는 학자들의 섣부른 판단으로만 발생하는 것이 아니다. 요즘은 누구나 쉽게 통계를 접하고 데이터 분석을 할 수 있게 되면서 숫자를 근거로 사실을 왜곡되거나 과장하는 일이 많이 생긴다. 그리고 자극적인 내용들은 SNS를 통해 빠르게 확산되기도 한다. 잘못된 지식들이 확대 재생산될 위험이 많아진 것이다. 하지만 오류의 가능성을 인정할 때 더 크고 위험한 오류를 방지할 수 있다. 통계 데이터 분석은 ‘1그램의 정보를 1톤의 의견보다 무겁게 만들 수 있다.’ 통계는 많은 거짓말을 하지만 또한 통계 없이 진실을 말하는 것도 어렵다.

Davenport와 Harris는 “현재의 비즈니스 환경에서 마지막으로 남은 해결책은 고성능의 비즈니스 프로세스와 최선의 의사결정이며 이는 분석을 통해 달성할 수 있다.”고 했다. 통계나 데이터 분석이 요즘보다 더 강조된 때도 없었을 것 같다. 거기에 ‘빅데이터’ 라는 새로운 상품(?)까지 가세하면서 트렌디해지기까지 했다.

데이터 분석은 분석의 목표를 달성하기 위해 데이터 정합성, 모델링, 평가 등의 과정을 거쳐 최종 결과를 만들어낸다. 이러한 과정에는 변화하는 행동을 끌어내는 것은 포함되어 있지 않다. 하지만 이런 과정 없이 최선의 행동을 끌어내기는 어렵다. 통계나 분석의 결과가 행동을 이끌어내려면 결과에 대한 확신도 중요하지만 성공에 대한 경험이 필요하다. 성공에 대한 경험은 남들은 어떻게 하고 있는지에 대한 질문에 있는 것이 아니다. 내재화된 성공 경험만이 가치가 있으며 행동을 이끌어내게 된다.

datascienceman현장에서의 경험을 떠올려보자. 제조 공정에서 품질 분석을 하는 경우 조업 조건의 변경으로 더 나은 품질의 제품을 생산할 수 있다는 분석 결과가 나왔다 하더라도 쉽게 조업 조건을 바꾸는 행동을 이끌어내기는 쉽지가 않다. 오랫동안 생산설비를 잘 운영해온 경험치를 바꾼다는 것은 얼마나 큰 모험인가. 니치 마켓을 발굴하고 새로운 타겟 고객층을 분류했다 하더라도 정작 마케팅 비용을 집행해야 하는 시점이 되면 엄청난 갈등이 있게 마련이다. 데이터 분석가들에게 커뮤니케이션 능력이 절대적으로 요구되는 때가 오는 것이다. 통계나 분석 결과에는 오류가 있다는 점도 분석가를 어렵게 한다. 인류는 삶과 우주를 비롯한 이 세상 모든 이치와 사물에 대해 연구하기 시작한 이래 여러 오류들을 범했다. 그럼에도 불구하고 역사는 오류를 안고 지금도 계속되고 있다.

출처 : 한국데이터베이스진흥원

제공 : 데이터 전문가 지식포털 DBguide.net

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중