권재명 애플 시니어 데이터 과학자
5월 31일 ‘데이터로 만들어내는 조직, 문화, 그리고 실리콘밸리 이야기‘라는 주제로 제79차 ‘앱인(APPIN)’ 행사가 개최되었다.
(사)앱센터가 주최하고 서울산업진흥원이 주관한 이번 행사는, 실리콘밸리 현업 데이터 과학자 권재명 박사로부터 데이터 과학(Data Science)에 관한 강연을 듣고 이에 대한 질의·응답을 갖는 시간으로 2시간 동안 진행되었다.
강연자로 나선 권재명 박사는 강연을 크게 데이터 과학의 정의, 데이터 과학자가 되는 데 필요한 역량 3가지, 그리고 전문가 양성을 위한 교육 방향으로 나누어 강연한 후 짧게 실리콘밸리의 근황을 전했다.
데이터 과학이란?
그는 ‘기계학습’, ‘딥러닝(Deep Learning)’, ‘데이터 마이닝(Data Mining)’ 같은 생소한 단어로 데이터 과학을 소개하기보다는, 흔한 일상생활을 소재로 삼아 강연을 진행하였다.
그는 뉴스 구독을 통한 선호 뉴스 데이터 생성, 출근길 실시간 교통정보 이용을 통한 주행자료 생성, 온라인 쇼핑·맛집 검색을 통한 추천 데이터 생성 등을 예로 든 후 “우리는 하루에도 많은 데이터를 생성한다.”면서 거의 모든 활동이 데이터와 연관이 있음을 밝혔다.
그는 “데이터 과학이란, 적절한 컴퓨터 툴과 통계 방법을 효율적으로 사용하여 실제적인 문제에 대한 해답을 찾아내는 활동”이라고 정의하고, 데이터 과학에 대한 신비주의와 편견을 하나씩 풀어나갔다.
먼저 그는 자료수집과 회귀분석을 통한 부동산 집값 예측 방법, 자료수집과 예측분석을 통한 선거 결과 예측 방법 등의 사례를 소개하면서 “데이터 과학의 절차는 문제 정의 – 자료 정의 – 실험 계획/표본 자료 수집 – 자료 취득 – 자료 가공 – 탐색적 자료 분석 – 모델링 – 보고서 작성에 이르는 기본적인 모형을 따르게 된다.”고 설명하였다.
데이터 과학자가 되는 데 필요한 역량 3가지
그는 “데이터 과학자의 경우 출신 대학과 전공은 다양하나, 3가지 지식과 기술을 보유하고 있다는 공통점이 있다.”면서 “그건 바로 통계학 지식, 코딩 실력, 그리고 문제해결능력”이라고 강조하였다.
그는 “데이터 과학자는 쓸모있는 통계학자”, “개발자보다는 통계를 잘하고, 통계학자보다는 코딩을 잘하는 융합 직군”이라는 인용문을 소개하면서, 이를 간단한 도식으로 나타낸 ‘데이터 과학자 벤다이어그램(The Data Science Venn Diagram)’을 보여주기도 하였다. 그러면서 “데이터 과학의 방법론은 없으므로 별도의 전공 학과가 없는 게 맞다.”라는 생각을 드러냈다.
먼저 통계학과 관련하여 그는 “‘자연계의 진실’인 통계는 우리의 본능적 반응과는 거리가 있으므로 따로 배워야 한다.”면서 통계학에서 꼭 알아야 할 기본 개념으로 “우리가 관측한 자료가 신호와 잡음으로 섞여 있다는 개념, 유의확률(P-value)과 신뢰구간, 선형모형, 일반화 선형모형”을 언급하였다. 그는 통계학의 필요성에 대해 “모든 자료를 결국은 통계 모델로 표현되고, 이미지와 같은 비정형 자료도 결국 내부적으로는 상당히 정형화가 되기 때문”이라고 추가적으로 밝혔다.
한편, 꼭 알아야 할 코딩 툴로는 “자료 취득과 가공에 사용하는 R과 파이썬(Python), SQL과 유닉스”를 꼽았다. 그러면서 ‘갭마인더(Gapminder)’와 ‘지지플롯2(ggplot2)’ 패키지를 통해 데이터를 시각화한 자료를 보여주기도 하였다.
끝으로 그는 적용과 협업 능력의 필요성을 밝혔다. “실제 문제를 수리적으로 표현할 능력, 다시 말해 실제 문제를 컴퓨터 툴을 사용하여 풀어내는 능력이 필요하다.”고 말한 그는 협업에 있어 갖춰야 할 자세로 겸손함, 돕고자 하는 자세, 쉽게 동의하지 않는 용기를 언급하였다. 또한, 알아두면 좋은 협업 툴로써 “‘GIT’와 같은 버전 관리 툴, ‘구글닥스(Google Docs)’와 같은 실시간 협업 툴, ‘지라(JIRA)’와 같은 프로젝트 관리 툴”을 소개하기도 하였다.
데이터 과학자 양성을 위한 교육 방향
‘어떻게 데이터 과학자를 양성할 것인가?’에 대해 그는 “통계와 코딩 교육도 중요하지만, 무엇보다 많은 프로젝트 경험이 중요하다.”고 강조하였다.
그는 “잡음 속의 진실을 추구하려는 합리성은 데이터 과학자가 아니더라도 필요한 능력”이라고 강조하면서, 기초 통계 학습과 R/파이썬을 이용한 갭마인더 자료 분석 외에도 일반인이 데이터 과학을 손쉽게 배울 수 있는 콘텐츠를 다음과 같이 소개하였다.
- 통계학자 한스 로슬링(Hans Rosling)의 TED 강연 동영상
- 경제학자 스티븐 레빗(Steven D. Levitt)의 저서 ‘괴짜 경제학‘
- 심리학자 대니얼 카너먼(Daniel Kahneman)의 저서 ‘생각에 관한 생각‘
- 통계학자 네이트 실버(Nate Silver)의 저서 ‘신호와 소음‘
- 기술 과학 분야 저널리스트 클라이브 톰슨(Clive Thompson)의 저서 ‘생각은 죽지 않는다‘
실리콘밸리 이야기
마지막으로 그는 데이터 기반의 조직이라 할 수 있는 실리콘밸리에 대해서도 간략하게 소개하였다. 그는 “1938년 HP를 시작으로 실리콘밸리에 자리 잡은 기업 간에는 치열한 플랫폼 경쟁이 벌어지고 있다.”고 말하면서, 양질의 산업 생태계로 유명한 실리콘밸리의 특성으로 “속도가 빠르므로 협업이 중요하고, 직원이 거의 모든 소스코드에 접근할 수 있게 하는 투명성, 학벌보다는 능력주의 인사, 데이터에 기반한 의사결정 문화가 있다.”고 말했다. 또한, 외국인에 대한 차별이 거의 없다는 점, 날씨가 좋다는 점도 부가적으로 언급하였다.
권재명 박사는 서울대학교에서 계산통계학 학사와 통계학 석사를 마친 후 미국 유학을 떠나 UC 버클리 대학교에서 통계학 박사 과정을 마친 이후 현재까지 미국에서 거주하면서 데이터 과학자로 활동하고 있다.
APPIN 모임은 IT 분야별 전문가 강연과 더불어 인터넷 서비스 개발자들의 협력을 돕는 (사)앱센터의 대표적인 오프라인 네트워킹 모임이다.
원문 : 실리콘밸리 현업 데이터 과학자가 알기 쉽게 소개하는 ‘데이터 과학’
안경은 앱센터 외부필진 / 자신이 하고 싶은 일을 하는 사람들을 좋아합니다. 그들의 이야기에 귀를 기울이는 것을 즐깁니다. 글로 정리해 사람들과 공유할 때 신이 납니다.
Leave a Comment