통계 분석가로 가는 길 “이론/경험/관심의 조화”


▲이윤모 ㈜베가스 R&D센터장, 통계학 박사

“통계데이터 분석과 일반 데이터 분석은 어떻게 다른가?”

통계학을 전공했던 사람으로서 데이터 분석을 전문으로 하고 있다. 하지만 요즘은 ‘통계 분석이 데이터 분석’이라고 하기에는 좀 무리가 있다. 데이터 분석 분야가 발전하면서 매우 다양한 방법으로 데이터 분석이 이루어지고 있다. 예를 들어, 예전에는 데이터 시각화를 주로 직관적인 판단을 내리기 위한 영역으로 봤는데, 요즘에는 데이터의 시각적 표현만으로도 인사이트를 얻기도 하며, 데이터 전처리 작업의 주요한 도구로 사용되고 있다. 데이터 시각화는 인포그래픽이나, BI 영역 등 과는 다르게 보아야 한다. 그러다 보니 데이터 분석자가 보지 못했던 영역에서 데이터 시각화에 기대하는 점이 많이 있다.  그리고 GIS 분야의 기법들도 데이터 분석에 많이 활용되고 있다. 이렇듯 데이터 분석 영역은 매우 방대한 영역을 아우른다. 결국 통계 분석도 데이터 분석의 일부분이라고 볼 수 있다.

“통계 분석에서는 주로 어떤 도구를 사용하는가?”

분석 소프트웨어로는 R, SAS, SPSS 등을 주로 사용하고 있으나 Splunk, Spotfire 등과 같은 소프트웨어의 도움을 받기도 한다. 전문 분석가 입장에서는 오픈소스 R이 가진 유연함과 확장성, 솔루션 개발의 편리성 등의 이유로 많이 사용하는 편이다. 그리고 상용 도구를 고객이 보유하고 있지 않는 경우도 많기 때문에 오픈소스 R을 사용하는 것이 좋을 때가 많다.

“IT에 대한 이해도 필요할 거 같다.”

데이터 아키텍처를 이해하지 못하면 분석에서 제대로 된 성과를 내기가 어렵다. 다양한 DB에서 데이터를 가져오는 방식을 이해하고 또 처리할 수 있어야 하며, 각 소프트웨어들의 특성을 잘 알고 있어야 분석 결과에 대한 최적의 퍼포먼스를 낼 수 있다. 특히 빠르게 변하고 있는 빅데이터와 관련된 기술들에 대한 이해가 많이 요구되는 등 IT 지식은 분석가에게는 필수적인 요소다. 일종의 원활한 커뮤니케이션 측면에서 필요하다고도 볼 수 있다.

“데이터 분석을 하다 보면 통계 지식이 필요하다고 한다. 통계 지식이 없더라도 가능하지 않나?”

통계 데이터 분석에 익숙하지 않은 경영자나 마케팅 담당자들도 시장 동향을 파악하기 위해 버즈(Buzz) 분석이나 텍스트 마이닝 방법론들을 이용한 SNS 데이터 분석은 많이 하고 있다. 키워드 분석이나 포지셔닝맵 분석, 감성분석 등을 이용해서 시장과 고객을 알아가고 있다. 이러한 분석을 위해 깊이 있는 통계적 지식이 요구되는 것은 아니다. 깊이 있는 통계 지식이 없더라도 여러 번 하다 보면 익숙해진다. 굳이 어려운 통계적 방법론을 알고 있어야만 할 수 있는 분석 방법들이 아니다. 통계는 일상생활 곳곳에서 접할 수 있는 것인 만큼 분석에 대한 인식만 있다면 간단한 방법론만으로도 분명 필요한 인사이트를 얻을 수 있다. 그러나 이런 방법론들만으로는 복잡해지는 시장과 개인화되어 가는 고객의 니즈를 파악하는 데는 한계가 있다. 그리고 데이터가 생산되는 영역이 다양해지고 있고, 그 중 산업 현장에서 나오는 데이터의 비중이 매우 확대되고 있는 요즘과 같은 때의 데이터 분석은 매우 전문적인 분석 방법론들도 많이 요구되고 있다. 따라서 도메인 전문가들은 데이터 분석을 하더라도 고급 통계 분석 방법론의 다양한 특성들을 알고 있을 필요가 있다.
math3_650

“데이터 분석이 주목 받으며 통계 데이터 분석 분야에도 변화가 있을 거 같다.”

기존에는 데이터 분석이 큰 프로젝트의 서브 영역이었는데, 데이터 분석에 대한 관심이 올라가면서 독자 영역으로 떠오르는 모습이다. 더불어 요즘은 데이터가 정형/비정형으로 구분될 만큼 매우 폭 넓다. ‘데이터 분석 업체’라고 했을 때 너무 방대한 영역을 포괄하므로, ‘베가스는 통계 데이터 분석 전문 업체’라고 부르는 것이 맞을 것 같다. 빅데이터 시대에는 데이터의 종류가 다양한 만큼 각 데이터 영역에서 전문적인 강점을 보여주는 업체들 간 경쟁이 아닌, 협력이 더 요구되고 있다. 협력은 시장과 고객들에게 더 많은 가치를 제공할 수 있는 길이라고 본다.

“비정형 데이터라고 할 수 있는 SNS 데이터도 계량화가 가능한가?”

지난해 KOSCOM에서 SMD(Social Media Data)를 이용한 주가예측 모형 개발 가능성 확인 프로젝트를 진행한 적이 있다. SNS나 포털에 올라온 글을 분석해 계량 모델로 만들 수 있는지를 검토한 사업이었다. 프로젝트를 통해 SMD를 이용한 주가예측이 가능하며 지본 시장에서 필요한 콘텐츠를 만드는 데 SMD를 사용할 수 있음을 확인했다. 하지만 인터넷의 비정형 데이터를 분석해 주가를 예측한다고 했을 때, 산업 영역에 따라 달라질 수 있음을 염두에 둬야 한다. 일반 소비재를 다루는 기업과 철강, 조선 등 기간재를 다루는 회사의 주가를 동일한 소스로 분석하여 예측한다는 것은 무리가 있었다. 즉 SMD를 다룰 때는 매우 조심해야 한다는 것도 확인할 수 있었다.

“데이터 분석이 미래의 산업영역으로 각광받고 있음에 따라 이 분야 전문가들이 고소득자로 인식되고 있다. 임금 수준이 궁금하다.”

외부에서 보는 만큼 높은 것은 아니지만 평균적인 소득 수준은 높은 편이다. 어느 분야나 마찬가지겠지만 상위 전문가들과 기타 전문가들과의 차이도 제법 있다. 그리고 회사 입장에서 보면 프로젝트가 연간 지속적으로 발생하는 것이 아니기 때문에 매출이 집중될 때와 그러지 않을 때가 있다. 무엇보다 데이터 분석 분야가 활성화되기 위해서는 단가에 대한 기준을 정립할 필요가 있다. 데이터 분석 비즈니스는 데이터를 수집해 데이터 마트를 구축한 다음, 이것을 분석해 일반인들이 쉽게 사용할 수 있도록 개발하는 형태로 이뤄진다. 분석은 베가스 같은 전문업체가 하더라도, 데이터 마트와 결과 데이터에 대한 사용자 접근성 부분은 SI 업체가 담당한다. 그래서 특히 프로젝트를 하다 보면, 분석을 소프트웨어 개발의 한 영역으로 보고, 특급/고급 등 SI 단가 기준을 적용하려 한다. 많은 분석가를 직원으로 확보한 분석 전문 업체는 보통 가동률이 60% 정도다. 그럼에도 이런 기준을 적용하는 것은 현실적이지 않다. 결국 이런 기준이 분석 프로젝트 비용까지 영향을 미친다. 분석은 지식 기반의 사업 영역임에도 자꾸 솔루션 기반의 영역으로 보려고 할 때 안타깝다.

“통계를 잘 모르는 개발자나 학생들이 데이터 분석 시 필요한 통계 기술 습득을 놓고 부담스러워하는 모습을 봤다.”

고등학교 수학 시간에 접했던 통계에 대한 부담감 때문일 수도 있을 것이다. 수학도 어려운데 통계까지 해야 한다면 부담스러울 수밖에 없다(고등학교 수학 시간에 나오는 통계는 제시된 공식을 단순히 적용하는 형태로 이뤄진다. 어떻게 그 공식이 도출됐는지는 접근하지 않고 있다. _편집자 주). 통계학을 전공한 사람들은 어떠한 계량 데이터나 쉽게 접근할 거라고 생각하지만, 그렇지 않다. 예를 들어 철강기업의 공장 생산 라인의 센서 데이터를 다년 간 분석했던 경험을 갖고 있는 사람이라면, 문제는 다르다. 하지만 특정 업체의 데이터를 지속적으로 다루는 경우는 드물다. 누구나 낯선 데이터를 접했을 때는 어떻게 바라 봐야 할지 당혹스러울 수밖에 없다. 이때 경험이 중요한 척도로 작용한다. 비슷한 일을 해본 사람이라면, 그 경험을 기준으로 접근할 수 있기 때문이다.

“이론뿐 아니라 경험도 중요하다는 말인가?”

맞다. 베가스는 통계학 석사 학위를 가진 신입 직원이 들어왔을 때, 3~4년 정도는 선배 분석가를 따라 다니면서 경력을 쌓는다. 도제방식이나 오랜 기간 멘토가 필요한 영역들처럼 데이터 분석 분야도 그러한 기간이 필요하다. 이러한 경험들이 쌓여서 나중에 책임자로서 외부 업체에 파견되는데, 그때도 최소한 2명 이상이 함께 나간다. 그래도 처음에는 담당자들은 부담스러워 한다. 이런 것을 보면, 통계 데이터 전문가로 가는 길이 생각보다 멀다는 것을 알게 된다. 일종의 진입 장벽이 있는 분야로 볼 수 있다.

“베가스의 통계 분석 전문가들은 어떤 전공을 한 사람들로 구성됐나?”

30여 명의 통계 분석가들이 일하고 있는데, 90% 이상이 통계학 및 기타 분야 석사 이상의 학위를 갖고 있다.

“학부에서 배운 이론만으로는 어렵기 때문에 석사 이상의 학위가 필요한가?”

다양한 통계적 방법론을 적용하려면 학부에서 배운 것만으로는 부족하므로 최소한 석사 이상의 인력을 뽑게 된다. 특히 베가스의 주력 분야인 산업 생산 현장의 데이터 분석 같은 경우에는 전문적인 통계학 이론뿐만 아니라 풍부한 경험까지 필요하다. 개인적으로 대학원에서 ‘의사결정나무모형’에 바탕을 둔 데이터 마이닝을 전공했으며 오랜 기간 다양한 산업 분야에서 통계 데이터 분석에 대한 경험을 쌓았다. 어떻게 보면, 통계 데이터 분석가는 생산 시설에서 일하는 기술자와 비슷하다고 볼 수 있다. 일반적으로 장인(master)이라고 하면, 풍부한 현장 경험에 이론가지 겸비한 사람들을 의미한다. 이런 장인들은 지금까지 마주하지 못했던 상황을 접하더라도 ‘이렇게 하면 되겠구나’ 하는 정도에 이른 사람들일 것이다. 통계 데이터 분석 분야에도 장인이 있다. 그리고 앞으로 더 많이 요구될 것이다.
img_who_3

“꼭 통계학을 전공해야 통계 데이터 분석가로서 일할 수 있나?”

그렇지 않다. 지금까지는 데이터 분석가로서 일할 만한 인력의 대부분이 통계학 전공자들이었기 때문이다. 산업공학이나 경영학을 전공한 사람을 뽑고 싶은데 부족하다. 베가스에서 일하는 데이터 분석가 중에는 산업공학과 교통공학을 전공한 사람도 있다.

“요즘 통계학과가 매우 각광 받고 있다는데?”

조카가 이번에 대학 입학 수능시험을 봤는데 물어 보지도 않았는데도 ‘통계학과가 인기’라고 하더라. ‘외삼촌도 통계학을 전공했다’고 하니까 매우 놀랐다(웃음).

“현업 전문가로서 대학에서 특강 요청이 많을 거 같다.”

현재 고려대학교 정책대학원에서 데이터 마이닝에 대해 강의하고 있다. 여러 대학과 여러 전공분야에서 세미나 요청이 많이 있다. 부족하지만 감사한 마음으로 요청에 응하고 있다. 뭘 잘 알고 있기 때문이 아니라 현장의 이야기들을 후배들과 나눌 수 있는 좋은 기회이기 때문이다. 하지만 개인적으로 아쉬운 부분은 한두 차례의 세미나로 대학과 현장의 교류가 그칠 것이 아니라 학교와 현장 전문분석가들 사이에 보다 광범위한 인적 교류가 있었으면 한다.

img_who_2

“데이터 분석 분야에서 통계 분석이 먼저 자리를 잡은 배경은 무엇인가?”

빅데이터 분석이 인기를 얻으면서 데이터 분석에 대한 인식과 수준이 많이 높아졌다. 하지만 데이터 분석에서 통계 분석은 오래 전부터 나름의 역할을 해오고 있었다. 제조업에서는 생산시설 자동화와 함께 시설 작동 상태를 체크하기 위해 센서를 설치하고 모니터링을 해왔다. 여기서 나오는 데이터를 분석해 생산 설비의 상태를 파악하거나 품질 검사를 위한 분석 등의 부분에서 많은 효과를 거두고 있었다. 즉, 데이터분석을 통계분석으로 생각하는 자연스러운 생각이 있었기 때문이 아닌가 하고 생각한다.

“외부 기업에서 데이터 분석 프로젝트를 할 경우, 어느 부서와 주로 일하는가?”

처음 접촉 단계에서는 IT 부서와 일하지만, 본격적으로 분석할 단계에서는 경영 또는 사용자 부서와 일한다. 그래도 IT 부서와는 협력이 매우 중요하다. 데이터를 갖고 있는 부서이기 때문이다.

“데이터 분석이 부수적인 영역에서 메인 영역으로 떠오름에 따라 여러 전문 업체와 협력도 많아지지 않겠나?”

질문한대로다. 분석 업체에서 다양한 분야의 전문 인력을 운영할 수 없으므로 DB 전문 업체와 SI 업체 등과 협력할 때도 있다. 현재로서는 전문 영역인 분석에 집중하려고 하고 있다.

“데이터 분석이 인기를 얻으며, 고객들의 요청도 달라졌을 거 같다.”

요즘 들어 분석 요구 사항이 매우 구체적으로 바뀌고 있다. 매우 바람직한 현상이라 생각한다. 그만큼 데이터를 보는 고객들의 수준이 높아진 것이다. 상대적으로 정부 또는 공기업의 분석요구는 덜 구체적이거나 심지어 막연하기까지 하다. 예전에는 정부가 민간기업의 방향타 역할을 했다면 지금을 그렇지 않다. 그만큼 공부를 안한다고 생각한다. 정부가 가장 많고 또 가장 다양한 데이터를 보유한 만큼, 인식의 전환과 함께 장기적인 안목을 가지고 데이터에 대한 인프라를 민간 기업에 제공했으면 좋겠다.

“업무 특성을 놓고 봤을 때, 통계 분석가는 어떤 유형의 사람에게 적합하다고 보는가?”

사람들을 만나서 얘기하는 것을 좋아하는 성격이라면 더 좋다. 고객사의 실무 부서나 IT 부서와 소통은 기본이고, 협력업체 담당자들과도 소통하면서 사업을 진행해야 하기 때문이다. 한마디로 통계 데이터 분석가는 이론이나 매뉴얼을 토대로 할 수 있는 분야는 아니다.

“통계 데이터 분석을 공부하려는 사람에게 조언한다면?”

통계학은 수학에 근거한 학문이라서 부담스럽겠지만, 통계 데이터 분석 실무는 이론과는 다르다. 용기를 갖고 도전해 보라고 권한다. 나도 통계 분석 전문가이지만, 금융, 물류 등 전문 분야에 대해서는 잘 모른다. 사람인데 모든 것을 잘할 수 있겠는가? 사람이 하는 일이라고 생각하고 도전할 필요가 있다. 또한 직접 데이터 분석을 해 보면서 필요하면, 통계 분석을 공부할 수도 있다. 현재 경영학이나 산업공학을 전공하고 있다면, 통계 데이터 분석 분야에 진출했을 때 나름 좋은 무기 하나를 더 가진 것이라고 볼 수 있다. 요즘 들어 사용하기 쉬운 통계 분석 도구도 많이 나오고 있다. 쉬운 도구를 배워서 기본적인 탐색적 자료분석/회귀/시계열 분석 등을 할 수 있다.

출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중