스페셜 리포트 _ DW 재도약 |
|
조경희 기자 I khcho@bnimedia.com |
2008.03.03 | |
ECM과 DBMS 사이에 낀 DW ‘재도약’ |
|
기업의 데이터들을 통합적으로 분석, 가치있는 정보로 추출해내기 위해서는 DW라는 저장 용기가 필요하다. 이 DW가 ECM, BI, 데이터베이스의 변화에 따라 새로운 국면을 맞고 있다. BI는 미래 예측 기능을 강화했으며 ECM은 비정형 데이터의 저장 관리소로, DBMS는 정형뿐만 아니라 비정형 데이터까지 저장할 수 있는 시대가 됐기 때문이다. BI의 인프라스트럭처가 되는 DW는, 애플리케이션의 진화와 더불어 2.0 시대를 맞을 것인가, 아니면 다른 애플리케이션의 진화에 밀려 정체될 것인가. DBMS와 ECM, BI, MDM의 발전 속에서 DW의 발전 방향을 가늠해본다 |
데이터의 창고를 뜻하는 DW(Data Warehouse)는 5~10년간 기업의 핵심 데이터를 저장해왔다. OLTP 데이터베이스가 계정계, 운영계를 담당하면서 빠른 트랜잭션 처리를 담당해 왔다면, DW(OALP)는 정보계, 분석계를 담당하면서 기업의 의사 결정과 판단을 돕기 위해 데이터를 저장해 왔다.
기업들은 DW를 이용해 고객의 최근 몇 년간의 구매 동향이나 신제품에 대한 반응, 제품의 수익률 등을 목적에 맞게 분석할 수 있다. 더욱이 이러한 목적별 데이터뿐만 아니라 기업 활동에 관한 모든 정보를 일원화해 관리하므로 그 용량이 작게는 수백 GB에서 수 TB에 이르고 있다. 그야말로 데이터와 정보의 홍수 속에 살고 있다고 해도 과언이 아니다.
하지만 기업의 애플리케이션은 점차 변하고 있다. 다시 말해 DW를 둘러싼 애플리케이션의 변화가 DW 자체의 변화와 진보보다 더욱 빠르게 움직이고 있는 것이다. DW는 기업 내 정형 데이터를 저장하고 있다. 물론 고객 정보, 예산, 회계 등 기업에서 핵심 ‘코어’ 역할을 하는 데이터를 저장하고 있지만, 늘어나는 비정형 데이터까지는 일반적으로 저장하지 못하고 있다.
현재 기업 내에서 주요하게 사용하는 정보들은, 고객 정보나 예산, 회계 등 데이터를 ‘정보’화해서 사용하는 부분과 일상적인 업무에서 사용하는 정보들로 나뉜다. 가령, 기업 내 직원들은 출근과 동시에 전자우편을 확인하고 PPT, JPG, MP3, DOC 등 첨부된 문서들을 통해 의사를 결정하고 있다.
기업의 핵심 정보를 담고 있는 DW가 흔히 우리가 사용하고 비정형 데이터를 담아내지 못하게 되면, 이는 기업은 반쪽짜리 데이터로 의사 결정을 하는 게 아닐지 반문할 수 있다.
DW는 오랫동안 CRM과 BI를 위한 인프라가 돼 왔다. 하지만 비정형 데이터가 의사 결정에 있어 하나의 수단이 되는 만큼, DW는 비정형 컨텐츠를 담아내거나 혹은 비정형 데이터와의 연계가 필요하다. 만약 DW와 상관없이 데이터 마트나 혹은 마스터 데이터 관리를 통해 직접 필요한 데이터를 뽑아낼 수 있다면, DW의 가치는 하락할 수 있다.
오라클의 경우 문자, 숫자, 날짜만 저장되던 기존 DW에 오라클 LOB(Large Of Binary)를 적용, 사진이나 JPG 파일이 저장될 수 있도록 했다. 이는 DW의 또 다른 진화로 받아들일 수 있는가. DW, DBMS, BI, ECM, CRM에 이르는 데이터 가공에 관련돼온 기술들을 짚어본다.
엔터프라이즈 시장에 나타난 ‘비정형 데이터’
한국후지쯔가 총판으로 제공하던 CA의 객체형 DBMS인 ‘자스민’의 경우 동영상, 이미지 파일과 같은 비정형 데이터까지 모두 저장했다. 1999년 발표돼 한때 150여개의 고객사까지 확보한 것으로 알려진 자스민은, 컨텐츠 하나하나를 오브젝트로 저장했다. 당시에는 멀티미디어 DBMS 혹은 오브젝트 DBMS로 불렸으나 지금은 자취를 찾아보기 힘들다.
당시에는 목적이나 사상에 따라 크게 확산되지 못한 것으로 평가되고 있다. 하지만 비정형 데이터가 DBMS에 최초로 저장됐던 사례일 뿐만 아니라, 정형 · 비정형 데이터가 함께 관리돼야 BI가 가능하다는 사실이 인식됐던 것만은 확실하다.
하지만 이제 과거와는 사정이 달라졌다. 전자우편이나, 전자우편에 첨부된 수많은 문서들, 회의를 저장한 동영상 파일 등 고객 데이터뿐만 아니라 일상적인 업무에서 활용되는 비정형 데이터들의 양이 기하급수적으로 증가하고 있기 때문이다.
시장 조사 업체인 IDC에 따르면 전 세계적으로 생산되는 디지털 정보량이 2010년에는 988EB(Exabyte), 약 1조 기가바이트(1EB=1024PB)에 육박할 것이라고 밝혔다. IDC는 향후 수년간 전 세계의 디지털 정보량이 57%의 높은 연평균성장률을 기록하며 확장세를 지속하는 가운데, 2010년에는 전 세계적으로 연간 생산, 유통 및 복제되는 디지털 정보가 지금보다 6배나 늘어난 무려 988엑사바이트에 달할 것이라고 전망했다. 이를 기가바이트로 환산하면 9880억 기가바이트로, 천문학적 단위 제타바이트(zetabyte) 시대가 열리는 것이다.
이 때문에 기존 DW만을 통해 의사 결정 실현을 위한 BI를 구현할 것이 아닌, 비정형 컨텐츠(비정형 데이터)까지 포함해서 의사 결정을 해야 한다는 목소리가 나오고 있다. 기존에는 고객 데이터나 영업 정보를 정리해서 저장하는 것에 만족했다면, 이제는 정형화된 데이터뿐만 아니라 비정형화된 데이터까지 관리하는 것이 중요해졌다.
한국EMC CMA 사업본부 홍정화 상무는 “우리가 흔히 운영 업무라고 부르는 매일의 환경은 의사결정의 연속이라고 해도 과언이 아니다. 1년 매출에 대한 데이터를 당장 결정하는 것 보다는 매순간 의사 결정이 성패를 좌우하기도 한다. 전자우편이나 엑셀, PPT는 중요한 의사결정의 수단이 된다”고 설명한다.
ECM은 DW 대체가 아닌 ‘보완’ 관계
비정형 데이터는 이제 정형 데이터보다 더욱 빠르게 확대되고 있다. 이 때문에 IBM, 오라클, SAP, EMC 등의 대형 글로벌 기업들은 ECM 업체들을 지속적으로 사들였다. 시장 조사 업체들은 오라클이 스텔런트를 인수하기 전, SAP와 경쟁하기 위해서라도 ECM 업체를 인수하라고 조언했을 정도다.
그렇다면, ECM은 DW를 대체할 수 있을 것인가. DBMS에서는 정형 데이터를, ECM에서는 비정형 데이터를 관리할 수 있다면, 마스터 데이터 관리만을 통해 원하는 데이터를 추출해낼 수 있지는 않을까. 하지만 이에 대한 대답은 “No” 다.
사이베이스나 테라데이타 처럼 DW만 가지고 있는 업체뿐만 아니라, DBMS와 ECM 까지 모두 가지고 있는 IBM이나 오라클 그리고 ECM 시장에 주력하고 있는 한국EMC까지 모두 대체 개념이 아닌 보완 관계라고 설명한다.
한국EMC는 모든 기술들이 ‘컨버전스’ 되는 상황에서 정형 데이터와 비정형 데이터를 결합해 의사결정을 내려야 한다고 설명한다. ECM과 DW가 융합될 때, 더욱 풍부한 분석이 가능하다는 설명이다. 즉, BI에 검색 기능이 추가되거나 보완돼 DW 내 정형 데이터뿐만 아니라, 비정형 데이터까지 검색할 수 있어야 한다는 것이다. 특히 ECM 내 메타데이터를 활용한다면 이는 기존 DW 영역을 한 차원 더 끌어올릴 수 있다는 것이 한국EMC의 설명이다.
한국오라클은 DW가 있어야 BI가 가능하며, DW와 DBMS, ECM은 경쟁적인 기술이 아니라 상호 보완적이라고 강조한다. 물론, 한국EMC와 한국오라클은 비정형 데이터를 디스크 기반에 저장하는 것과 DBMS에 저장하는 것에는 의견이 차이가 있지만, 이들이 상호 보완적이라는 것에는 동의하고 있다.
한국오라클은 DBMS와 ECM이 서로 대립되는 개념이 아니며 DW와 ECM은 상호 분석을 위해 존재한다고 설명한다. 흔히 운영계는 데이터의 양이 대단히 방대함에도 불구하고 3개월 이상 저장하지 않기 때문이다.
이에 중요 데이터는 DW에 저장하고 있으며, 지역별 매출 성장률 등과 같은 과거 데이터 등은 ECM과 결합해 의사 결정을 내릴 수 있는 정보화가 된다는 설명이다. BI는 DW 없이는 불가능한데, 이제는 정확한 BI를 위해서는 DW와 ECM 모두를 융합해야 진정한 인텔리전스를 구현할 수 있다는 것.
한국오라클 퓨전미들웨어 실장 장성우 이사는 “오라클은 DBMS와 DW를 모두 동일한 DBMS로 보고 있다. 다만, 업무에 따라 다르게 사용하고 있다. BI를 위해서는 DW가 필수이고, ECM은 DW가 일반적으로 저장하지 못하는 것들을 저장하고 있다. 가령, 이미지나 소리, 지식 등 기업 내에서 쌓인 지식을 포함한다”고 설명한다.
기존 BI는 수치에 기반한 분석을 하는 반면 ECM은 지식을 포함하고 있는 내용 검색을 기반으로 한다. BI는 전통적으로 데이터 마이닝이나 숫자에 기반한 통계를 분석해왔다. 이는 기존 DBMS나 DW에 저장되는 데이터들이 모두 숫자나 문자, 날짜 등을 저장해 왔기 때문이다. 하지만 기술의 진보 속에서 보다 진정한 BI를 구현하기 위해서는 DW와 ECM을 서로 병행해서 분석하는 것이 훨씬 더 효율적이라는 것에는 이견이 없다.
물론 ECM과 BI가 상호 보완적이라고 해서, 같은 기능을 가지고 있는 것은 아니다. 각각 태생이 틀린 만큼 차별적인 기능이 있다. 그리고 이 기능은 서로가 서로를 대체할 수 있는 기능이 아닌 것은 분명하다.
DW의 눈부신 발전, 2.0 시대 ‘연다’
IBM은 지난해 3월, 자사의 IOD 전략 중 하나의 ‘씸’이라고 일컫는 ‘다이내믹 웨어하우징 전략’을 내놓았다. 이는 전통적인 DW 기능 외 7가지의 새로운 기능 등이 추가돼 대단히 진일보한 DW라는 평가를 받고 있다.
IBM 다이내믹 웨어하우징 전략은 실시간 비즈니스 프로세스의 일환으로 진일보한 분석론을 사용하는 동시에 정형화된 정보뿐 아니라 텍스트, 전자우편, 오디오 파일, 웹 페이지 등 비정형 정보 속의 지식까지도 활용할 수 있다.
또한 검색 및 텍스트 분석, 정보 통합, 프로세스 관리, 엔터프라이즈 데이터 모델링, 마스터데이터관리(MDM), 업종별 비즈니스 모델 등 내부 R&D 및 인포메이션 온 디맨드 분야에서의 전략적인 인수를 통해 확보된 기술을 결합, 다이내믹 웨어하우징을 위한 통합 오퍼링을 제공하고 있다.
IBM은 다이내믹 웨어하우징 전략을 통해 기존의 BI 및 DW 기술의 한계를 극복, 글로벌 기업을 비롯해 어떤 규모의 고객사도 비즈니스 프로세스 간소화, 고객 서비스 변화, 직원 생산성 향상, 비즈니스 위험(risk) 경감, 새로운 매출 기회 창출 등이 가능하도록 보다 확장된 기능의 엔드 투 엔드 서비스를 제공하고 있다.
즉, 초기 DW가 현 상황을 파악하기 위한 질의 및 보고 기능에 초점을 맞췄다면, 두 번째 단계에서는 원인을 분석하고 앞으로의 전략적 대응 조치 권고를 위한 데이터마이닝이나 OLAP과 같은 이력 분석 기술에 역점을 둬 왔다.
하지만, 차세대 DW는 전통적인 DW 기능 외 정보 통합, 프로세스 관리, 산업별 분석 템플릿 제공, 마스터데이터관리, 엔터프라이즈 데이터 모델링, 서치&텍스트 분석까지 필요하다는 설명이다. 차세대 DW는 정형, 비정형 데이터로부터 필요한 정보를 통합, 변형, 분석해 이를 운영 비즈니스 프로세스에서 실시간으로 사용할 수 있어야 한다는 의미다.
한국IBM 소프트웨어사업부 BI/MDM 솔루션팀 박송미 부장은 “과거에는 고객 정보나 세일즈 정보를 정리해서 보관하기에도 벅찼지만, 이제는 정확한 사람에게 적재 적시에 정보를 제공하는 것이 중요하다. 더욱이 데이터의 ‘쓰나미’ 현상까지 예고되면서 이들을 관리하기 위해서는 정보 전체에 대한 라이프 사이클이 필요하다”고 설명한다.
최근 코그노스를 인수하며 IOD 전략을 완성해나가고 있는 IBM은 ERP, CRM 등의 트랜잭션 데이터와 컨텐츠부터 데이터 품질 관리, 마스터 데이터 관리, 메타 데이터 관리, DW와 이를 정확히 분석할 수 있는 BI 툴까지 확보하고 있으며 한 기능이 다른 솔루션으로 대체되는 것이 아닌, 유기적인 조합과 연결로 파악하고 있다.
사이베이스의 경우 DW의 성능을 강화시키기 위해 현재 사이베이스 IQ 12.7 버전의 업그레이드 버전에서 ETL 기능을 추가한다. 사이베이스는 ‘솔론데’ 라는 제품을 다음 버전에서 번들시켜 판매할 예정이며 기업에서는 ETL 툴을 따로 구매하거나 인터페이스 시키지 않고도 DW를 활용할 수 있게 된다. 피트니보우즈그룹원소프트웨어한국지사의 세이전트 데이터 플로어는 DW와 ETL이 하나의 플랫폼에서 제공되는 것도 같은 맥락이다.
물리적 공간의 압박, 그리고 새로운 시도들
디스크 드라이브에 대한 압박은 어제 오늘의 일은 아니다. 기업들은 3년 내지 5년간의 휴면 데이터를 테이프에 저장 후 로딩해서 사용하거나 디지털 아카이빙을 통해 관리해 왔다. 보다 풍부한 BI 기능을 강화하기 위해서 ECM과 DW, DBMS 업체들은 모두 상호 보완적인 관계이지만, 물리적 데이터의 저장에 대해서는 한 치의 양보도 없다.
한국사이베이스는 압축 알고리듬을 사용하고 있으며, 한국EMC와 한국IBM은 ILM에 입각한 관리를 내세우고 있다. 한국오라클은 비정형화된 데이터이든 정형화된 데이터이든 안정성 확보를 위해 DBMS에 저장하는 것을 원칙으로 하고 있다.
DBMS 라이선스 기준에 따라 비용에는 차이가 있을 수 있지만, 오랜 기간 데이터를 저장해야 하고 해당 컴플라이언스 이슈까지 해결해야 한다면, DBMS에 저장하는 것이 가장 안정성을 확보할 수 있다는 설명이다.
물리적 공간에 압박을 느낀다면, 테라데이타를 참고해볼 수 있다. 테라데이타는 테라데이타 웨어하우스 8.2는 디스크 드라이브 공간을 보다 효율적으로 활용하기 위해 출시된 업그레이드 제품이다. 테라데이타는 ‘멀티-템퍼러처’ 기능을 제공하는 데 이는 기업에서 자주 액세스하는 ‘핫’ 데이터와 접속 빈도가 낮은 ‘쿨’ 데이터를 동시에 관리하는 기능이다.
액세스 범위에 따라 데이터를 공유하고 관리하므로 핫 데이터에 액세스하는 애플리케이션은 요구받는 성능 수준으로 일정하게 유지할 수 있으며 거의 액세스하지 않는 데이터도 사용자가 사용할 수 있다. 데이터가 기하급수적으로 늘어가는 상황에서 데이터를 불러들이는 빠른 속도뿐만 아니라 디스크 용량을 최적화시켜 장기적으로 기업의 TCO 절감과 ROI 도출을 목표로 하고 있다.
DW는 정체되고 있지 않다. DW를 둘러싼 수많은 애플리케이션과 함께 진화하고 있다. DW는 이제 EDW로 진화하고 있으며 시장 조사 업체인 IDC와 가트너는 2009년까지 6.5% 이상 성장할 것으로 전망하고 있다.
시장성이 있다고 판단할 것일까. HP가 하드웨어와 소프트웨어, 서비스가 통합된 올인원 형태의 DW 통합 서버를 들고 DW 시장에 뛰어들었다. HP 네오뷰 DW는 하드웨어, 소프트웨어, 서비스 플랫폼이 통합된 것으로, 테라데이타나 IBM 등 전통적인 DW 강자들을 긴장시키기도 했다.
테라데이타가 NCR과 분리됐기 때문에 HP가 테라데이타를 인수할 가능성도 생겼다. HP는 이미 남아 있는 BI 업체 중 마이크로스트레티지보다 더 규모가 작은 업체를 인수할 가능성도 내비췄고 BI 관점에서 본다면 DW 솔루션 업체 인수도 가능성이 있어 보인다. BI를 위해서는 데이터 통합과 DW, 리포팅, 분석(데이터마이닝) 등이 필요하기 때문이다.
IBM의 코그노스 인수는 BI 단계 중 가장 상위 단계인 심화된 분석 단계다. BI를 위해서는 DW가 필수라는 사실을 고려할 때, HP 혹은 어떤 글로벌 기업이라도 이 시장에 뛰어들 수 있을 것으로 보인다.