보안 위협을 분석, 예측하는 보안 관제 시스템. 빅데이터 시스템의 도입으로 더 발전하게 되는데..
최근 몇년 사이에 화두가 되는 IT의 아이템이라고 한다면 여러가지가 있을 것입니다. IoT, 빅데이터, 웨어러블.. 이전에 IoT의 보안에 대해서 언급한 적이 있는데 오늘은 빅데이터를 활용하는 보안 솔루션에 대해서 얘기를 해볼까 합니다. 참고로 먼저 결론 비스므리한 얘기하자면 최근에 얘기가 나오고 있는 빅데이터의 컨셉을 어떻게 보면 가장 먼저 활용한, 빅데이터라는 단어 자체가 시장에 퍼지기 전에 먼저 시장에서 그 컨셉을 사용하고 있었던 분야는 다름아닌 보안분야입니다. 그 이야기를 좀 해볼까 합니다.
과거의 현재의 데이터를 통해서 패턴을 찾아 미래를 예측하는 빅데이터 시스템
빅데이터에 대해서 솔루션들을 얼추 찾다보면 현재까지는 솔루션의 컨셉이 대부분 비슷하다는 것을 알 수 있습니다. 물론 향후에는 더 발전된 컨셉의 솔루션들이 나오기는 하겠지만 아직까지는 이 컨셉에서는 못벋어나는 듯 싶습니다. 다름아닌 예측 시스템을 만드는데 그 목적이 있다는 것입니다.
빅데이터 시스템을 보면 다양한 데이터들을 대량으로 수집하여 그 데이터들 사이에서 일정한 패턴을 발견합니다. 그 패턴을 분석하여 현재에 일어나고 있는 상황을 분석하고 그 분석 결과를 기반으로 미래에 이렇게 일이 일어날 것이라는 것을 예측하는 예측 시스템을 이루는 것이 대부분임을 알 수 있습니다. 아직까지는 말이죠. 이것이 가능한 이유는 기존의 데이터웨어하우스(DataWarehouse, 이하 DW)는 주로 기업 내부에서 만들어진 정형화된 데이터를 저장하고 처리하는데에 그 주안점을 두고 구축되지만 빅데이터 시스템의 경우에는 기업 내부의 정형화된 데이터 뿐만이 아니라 외부의 비정형 데이터까지 함께 저장하고 처리할 수 있어서 SNS와 같은 현재의 내용을 알 수 있는 데이터들까지 처리함으로 기업 내부에서 만들어진 과거의 데이터와 외부의 현재의 데이터를 분석하여 미래의 일을 예측하게 하는 것입니다. 어찌되었던 기반은 분석이지요. 다량의 정형, 비정형 데이터를 빠른 시간 안에 분석해서 패턴을 찾고, 그것을 기반으로 미래의 일을 예측하는 것이 빅데이터의 지금까지의 시스템 형태입니다. 앞서 얘기했던 것처럼 미래에는 좀 더 다양한 컨셉의 빅데이터 시스템들이 나오기는 하겠지만요.
빅데이터 컨셉을 이전부터 갖고 있었던 보안 관제 시스템
보안 솔루션, 특히 보안 관제 솔루션의 컨셉은 서버와 데스크탑, 보안 시스템으로부터 생성되는 다량의 로그 데이터들을 수집하여 분석하고 그 결과를 관리자에게 알려주는 시스템입니다. 과거에는 ESM(Enterprise Security Management)라고 불렸고 요즘에는 SIEM(Security Information & Event Management)이라고 불리는 보안 관제 시스템이 이 분야에 속합니다. SIEM의 핵심은 얼마나 많은 로그 데이터를 얼마나 빨리 분석하여 보안의 위기 상황을 관리자에게 정확하게 알려주는가에 있습니다.
과거 ESM은 로그를 수집해서 데이터베이스 시스템(RDBMS, 이하 DB)에 저장하고 DB에 저장된 데이터를 분석하여 데시보드에 현황을 표시하고 문제가 있을 때 관리자에게 알려주는 역할을 했습니다. 그래서 ESM의 핵심 기술로 얼마나 많은 로그 데이터를 얼마나 빨리 DB에 저장시키게 하는가와 얼마나 빨리 분석을 하는가, 그리고 얼마나 이쁘게(^^) 현황을 보여주는가가 꼽혔습니다. 이에 ESM 프로젝트를 하면 어떤 DB를 사용하는가와 또 어떤 데시보드 솔루션을 이용하는가가 프로젝트 성공여부를 측정하는 척도가 되곤 했습니다.
DB를 선정하는데 있어서 빨리 데이터를 저장하고 또 분석하는 역할을 수행하려고 하니 성능이 얼마나 받쳐주는가가 관점이 되었습니다. 이에 ESM을 구축하는 업체들은 오라클이나 IBM의 DB2, SyBase, MS의 SQL Server와 같은 외산 DB를 많이 선호했습니다. 지금은 어떨지 몰라도 10년 전에 ESM을 구축하려는 시기에는 국산 DB보다는 외산 DB가 성능이 우수했기 때문입니다(최근에는 국산에서 만든 DB들의 성능도 많이 올라와서 구축하는데 어려움이 없다는 얘기도 들립니다). 빨리, 그리고 많이 데이터를 저장해야 하고 또 저장된 데이터를 빨리 분석해야 하기 때문에 DB의 성능도 우수해야 했고 거기에 걸맞는 하드웨어도 우수해야 했습니다. 또 대량의 데이터를 저장해야 했기 때문에 스토리지의 성능도 무시할 수 없었지요. 과거의 ESM은 이런 식으로 구축을 했습니다. SIEM으로 넘어와도 마찬가지였습니다. 어차피 이름만 바뀌었고 ESM에서 좀 더 기능이 확장되었지만 본질 자체는 ESM과 동일한 것이 SIEM이기 때문에 말이지요.
데이터 보관 및 처리에 대한 고민의 시작.
그런데 고민이 생깁니다. SIEM에서 수집한 로그 데이터는 분석을 위한 데이터로는 필요했지만 분석 이후에는 정밀 검사를 위해서 필요한 경우를 제외하고는 의미가 없는 쓰레기 데이터가 된 것입니다. 물론 문제가 생겨서 해당 부분을 검사하기 위해 정밀 분석을 위해서는 로그 데이터가 필요하겠지만 그렇지 않고 일반적인 경우에는 시간이 지난 로그 데이터는 골치덩어리가 되어버립니다. 비싼 DB에 이 로그 데이터들을 계속 저장해둬야 하는 것이 맞을지 고민을 하게 됩니다. 이에 SIEM을 구축할 때에는 로그 데이터는 몇년간의 데이터만 보관한다는 내용을 포함시키게 되지만 그 보관 기간동안의 DB 유지도 만만찮은 비용을 요구하게 됩니다. 그리고 로그라는 것이 매번 들어오는 내용들이 다르기 때문에 폭주할 때에는 무시할 수 없는, 어쩔 때에는 감당못하는 상황이 오기도 합니다.
그리고 가장 큰 문제점은 SIEM에서 중요한 것이 데이터를 수집하고 저장하는, 그리고 빠르게 그 많은 데이터들을 분석하는 일인데 RDBMS 시스템이 아무리 좋아도 수많은 데이터를 순싯간에 저장하는데에는 기술적 한계를 가져오게 됩니다. 기존 RDBMS는 주로 오랫동안 보관하고 나중에 보관된 데이터를 읽어오는데 주안점을 두고 설계했기 때문에 Read : Write의 비율이 7:3 정도로 유지된다고 보고 설계된 경우가 많습니다. 그래서 Read : Write의 비율이 5:5만 되더라도 시스템에 문제를 일으키는 경우가 종종 생기곤 합니다. 다량의 데이터를 한꺼번에 저장하는데에는 취약하지요. 내부적으로 인덱싱(Indexing)도 해야하고 하드디스크에 저장하는 것도 시간이 걸립니다. 나름 캐싱을 이용하는 방법을 쓰지만 그것도 Writing을 지속적으로 하는 것이 아니라 어느 주기별로 하는 것을 염두해두고 하는 작업입니다. 계속 쓰려고만 한다면 당연히 문제가 생기겠죠. 병목 현상으로 생기는 문제가 있습니다. 최근 나오고 있는 DB 어플라이언스 제품들은 이런 문제를 해결하고자 SDD를 이용한 슈퍼 드라이브 방식을 채택하고 있습니다만 완벽히 해결하지 못합니다.
비용 및 성능에 대한 새로운 돌파구 ‘빅데이터 시스템’의 도입
그래서 SIEM을 만드는 업체들은 기존 DB에서 빅데이터 시스템쪽으로 눈길을 돌리기 시작합니다. 나름 저렴하게 다량의 데이터를 저장할 수 있는 시스템을 구축할 수 있기 때문입니다. 데이터의 저장 및 보관에 들어가는 비용을 획기적으로 줄일 수 있는 방벙이라고 생각을 한 듯 싶습니다. 또한 하둡 시스템이 갖고 있는 빠른 속도의 데이터 저장 및 맵리듀스가 지니고 있는 빠른 분석이 SIEM의 컨셉에 딱 들어맞게 됩니다. SIEM을 구성하는 요소로 로그 데이터의 수집 및 저장, 분석, 그리고 데시보드로 보여주는 부분이라고 했을 때 기존 DB가 차지하고 있던 저장 및 분석 부분을 하둡 시스템을 중심으로 하는 빅데이터 시스템으로 대체하면서 기존에 보안 관제 시스템을 구축하기 위해 투자해야 했던 엄청난 비용을 대폭 감소시킬 수 있게 되었습니다.
여기에는 빅데이터 시스템이 주로 오픈소스를 기반으로 구축된다는 것이 한몫하고 있습니다. 위에서 언급했듯 SIEM을 구축하기 위해서는 저장 및 분석을 위해 DB를 설치해야 했고 이중에서 가장 많이 사용했던 DB가 오라클이었습니다. 그런데 오라클을 제대로 구축하기 위해서는 그것에 걸맞는 하드웨어와 OS가 필요합니다. 비싼 서버 장비에 비싼 유닉스 OS를 설치해서 사용하는 경우가 많았습니다. 오라클 자체도 비싼데 하드웨어와 OS까지 비싸니 이중, 삼중으로 비용이 들어갔던 것이 사실입니다. 그런데 하둡 기반의 빅데이터 시스템으로 오면서 기존 유닉스 OS를 사용하는 하드웨어가 아니라 리눅스 기반의 x86이 탑재된 하드웨어를 사용하게 되니까 DB 말고도 기반 시스템에 들어가는 비용이 확실히 절약되는 효과를 가져오게 됩니다. 그리고 저장공간을 늘리기 위해서는 기존 DB의 경우에는 추가 비용이 좀 많이 들어간 것이 사실이지만 빅데이터 시스템으로 오면서 하둡 시스템의 장점으로 꼽는 하둡 시스템이 설치된 x86 시스템만 붙이면 선형적으로 성능이 올라간다는 부분을 활용하여 좀 더 저렴하게 저장공간을 확장할 수 있게 되었습니다. 이래저래 빅데이터 시스템을 도입하면서 SIEM은 여러가지로 비용적인 측면에서, 또 맵리듀스를 활용하는 분석적인 측면에서 효과를 제대로 보고 있는 셈입니다.
이런 빅데이터 시스템을 SIEM에 적용하고 있는 사례로 꼽는 것이 EMC에 인수된 RSA가 내놓은 시큐리티 어넬리틱스(SA)라는 제품입니다(EMC의 그린플럼을 SIEM에 적용한 제품인데 그린플럼을 빅데이터 시스템이라고 보기 어렵다는 의견도 많지만 말입니다. 참고로 그린플럼은 하둡을 이용한 것이 아니라 PostgreSQL이라는 오픈소스 DB를 커스터마이징해서 Massively Parallel Processing(MPP)로 만든 기존 RDBMS 계열의 DB 확장판이라고 보면 됩니다. 오라클의 엑사데이터도 비슷한 성격의 제품이라고 생각이 듭니다). 또 HP에서 제공하는 Haven도 빅데이터 시스템을 활용하는 보안 분석, 관제 시스템이라고 볼 수 있습니다. Haven은 하둡에 HP에서 제공하는 오토노미, 버티카와 같은 솔루션이 포함되었으며 아크사이트 엔터프라이즈 시큐리티 메니저가 결합되어 보안 분석 기능을 제공하는 시스템입니다. 그 외에도 국내에서도 SIEM을 만드는 업체들이 빅데이터 시스템을 도입하려는 모습들이 많이 보이고 있습니다.
이렇듯 보안 솔루션 시장에서는 어떻게 보면 지금 화두가 되고 있는 빅데이터 시스템의 컨셉을 수년전에 먼저 도입해서 사용하고 있었다고 보면 됩니다. 물론 하둡 시스템의 시스템 컨셉은 아니지만 대량의 정형, 비정형 데이터를 수집하여 그 안에서 보안 위협을 발견하고 그 결과를 알려주는 시스템의 컨셉은 예전이나 지금이나 비슷하다고 보여집니다. 물론 수집되는 데이터의 양과 분석 결과의 컨셉이 많이 발전했고 또 바뀌어지기는 했지만 말입니다. 그리고 이제는 단순한 로그 데이터 수집 뿐만이 아니라 CCTV를 통한 영상 분석부터 시작하여 수집 및 분석의 범위가 점점 넓어지고 있는 것이 빅데이터를 도입한 SIEM의 최근 추세입니다. 점점 더 발전하게 될 것으로 보여집니다.