넘치는 고객정보 어떻게 관리하나 - 인터넷 시대의 데이터 마이닝(Data Mining) 전략
인터넷의 확산과 정보 통신 기술의 발달은 고객 관련 데이터의 폭발적인 증가를 가져왔다. 데이터의 홍수 속에서 효과적인 고객정보 관리를 위한 데이터 마이닝 활용 방안을 검토해 본다.
고객 관계 관리(CRM)의 기반은 고객에 대한 데이터
기업의상위 20%에 해당하는 고객이 전체 수익의 80%를 창출한다는 2:8의 법칙은 최근 부각되고 있는 고객 관계 관리(CRM : Customer relationship management)의 당위성과 필요성을 표현해 주는 말이다. 기존의 마케팅은 기업과 거래하는 전체 고객을 대상으로 하는 Mass marketing과 고객 수의 양적 증대를 목적으로 하는 시장 확대에 초점이 맞추어져왔다. 이에 반해 CRM은 개별적인 고객에게 맞춤 서비스를 제공하고, 고객 수의 확대보다는 기존 고객으로부터 새로운 니즈(Needs)를 발굴함으로 새로운 시장기회를 발견하는 고객 확장(Customer extension)의 개념을 기반으로 한다. 실무적으로는 우량고객발굴과 차별화된 서비스의 제공이 대표적인 활용 사례로 볼 수 있다.
기업의 CRM활동은 고객 데이터의 저장, 정리 및 분석을 하는 ‘분석 CRM (Analytical CRM)’ 영역과분석 CRM의 결과를 바탕으로 대상고객과 접촉하여 실제 활동을 수행하는 ‘수행 CRM(Operational CRM)’영역으로 구분할 수 있다.
고객 관계 관리의 구체적인 활동은 고객 관련 정보를 기반으로 하므로 분석 CRM 영역은 기업의 고객 관계 관리활동에방향성을 제시해주는 중요한 역할을 담당한다. 또한 고객 관련 정보(Information)는 해당 고객의 거래 내역(Transaction data)이나 인적 속성(Demographic data) 데이터를바탕으로 도출되므로 결국 기업의 CRM활동은 고객과 관련된 데이터로부터 출발한다고할 수 있다.
인터넷의 확산과 정보 통신 기술의 발달 - 넘치는 고객 데이터
고객의 데이터를 이용하여 제반 기업 활동을 위한 정보로서 활용한다는 점은 제한된기업자원을 보다 효과성을 높일 수 있는 부분에 집중한다는 측면에서 대부분의 기업에게 매우매력적으로 보인다. 그러나 최근까지 국내 CRM 시장은 신용 카드사, 보험사,은행 등의 금융권 업종과 이동통신 업종 등으로 매우 제한된 수요 층을 보이고 있다.국내 CRM 시장수요의 편중현상은 이러한 업종들이 여타 업종에 비하여 우수고객의 비중이 상대적으로 크며, 기업과 고객의 거래가 일회성에 그치지 않고 지속적인 거래 유형을 보인다는 점에 기인한다. 그러나 보다 설득력 있는 설명은 CRM을 가능하게 하는 출발점으로서의 고객 데이터가 어느 정도 축적된 업종이라는 점에서 찾을 수 있다. 은행의 경우만을 예로 들더라도 고객의 예금 인출 내역, 자금 수요에 대한 이력 데이터,대출의 경우 필수적으로 요구되는 다양한 고객 관련 인적 정보(Demographic data)등이 상시적으로 집계, 관리되고 있다.
인터넷과 정보통신 기술의 발달은 전자상거래시장의 확대와 고객 데이터의 추적, 획득, 관리 기술의 진보를 가져왔다. 웹을 통한 전자상거래는개별고객의 거래 내역을 추가적인 노력을 기울이지 않고 손쉽게 추적하여 획득할 수 있다. 최근에는 고객 데이터 분석의 보다 진보된 기술인 클릭스트림 데이터 분석(Clickstream data analysis)이라는 새로운 개념도 등장하고 있다. SAS社의 WebHound와 같은 제품이 대표적이며 개별 고객이 자사의 웹사이트에서 실행하는 모든 클릭 내용을 추적하여 데이터로 저장되며 필요한 경우 데이터의 분석 결과까지 도출해 준다.
미국의 경우 시장조사 기관인 eMarketer에 의하면 기업과 개인간의 BtoC 전자상거래 규모는 2000년에 $37 billion에 이르고 2003년에는 $100 billion으로 성장할 것으로 예상되고 있다. LG 경제연구원의 자료에 의하면 우리 나라의 전자상거래 규모는 2000년에 2,160억원, 2003년에는 1조 7,150억원의 규모로 매년 100%이상 성장할 것으로 예상된다. Storage Technology Corp.의 최근 보고서에 의하면 인터넷, 멀티 미디어, e-mail 및데이터 베이스 관련 기술의 성장에 힘입어 디지털 형태의 데이터의 양은매년 60%의 증가세를 보이고 있다.
이처럼 폭발적으로 증가하는 데이터는 기업 내부에 구축된 데이터 저장용량의 한계를 초래하여, 최근에는 네트워크를 이용한 보다 저렴하고 확장이 용이한 새로운 데이터 저장 방식으로 Storage area networ(SAN)나 Network attached storage(NAS)등의 개념도 등장하고 있다.
따라서 향후 고객 데이터의 획득이 용이해짐에 따라 기업내부에 데이터의 양이 폭발적으로 증대(Data explosion)할 것으로 보인다. 이에 따라 금융업이나 통신업 등의 제한적인 산업 영역 뿐만 아니라 대부분의산업에서 획득된 고객 데이터의 효과적인 활용을 위한 요구가 증가할 것으로 보인다.
고객의 데이터에서필요한 정보를 캐내는 기법 - Data mining
고객의 데이터는 고객과 관련된 사실이나 행위의 단순한 기록이다. 이러한 데이터는 기업의 활용 목적에 맞도록 변환되어야비로소 정보(Information)의 역할을 할 수 있게 된다. 차별화 된 고객에게 차별화된 대응을 하는 CRM의 효과적인 수행을 위해서는 우선 해당 고객에 관한 정보를 끌어내어고객별 특성을 구분해 낼 수 있어야 한다.
고객에 대한 데이터의 수집이 용이해지고 이에 따라 관련 데이터의 양이 폭발적으로 증대하는 웹 기반의 환경에서는 데이터마이닝(Data mining)에 대한 요구가 상대적으로 증가하게 된다. 데이터 마이닝이란 대량의 데이터 베이스로부터 변수간에 존재하는 추세, 유사성 및특정 패턴을 발견하여기업의 의사결정에 활용할 수 있도록 해주는 기법이다. 마이닝의 사전적인 의미는 ‘채굴(採掘)’인데 이는 일견 무의미해 보이고 무질서한 데이터로부터 의미 있는 정보를 캐어내는 과정이 흡사 광산에서 광물을 캐어내는 작업과 유사하다는 점에서 붙여진 용어이다.
최근 데이터 마이닝의 확산은 웹 기반의 환경과 정보기술의 발달에 기인하는 바가 크며 구체적으로는 다음과 같은 요인을 들 수 있다. 첫째, 기업 내부의 데이터를 효율적으로 관리하기 위한 데이터 베이스 도구로서 데이터웨어 하우스의 활용이 확산되었다는 점과 둘째, 디지털 정보의 급격한 양적 증대, 마지막으로 데이터의 저장과 관련한 하드웨어 장비가격이 매우 저렴해졌다는 점을 들 수있다. Meta Group의 조사에 의하면 미국내 데이터 마이닝 시장은 1996년의 $3.3 billion에서 2001년까지는$8 billion 으로 확대될 것으로 전망되고 있다.
데이터 마이닝 수행시 고려 사항
기업이 확보한 데이터로부터 의사결정에 필요한 정보를 얻기 위한 데이터 마이닝 작업은 기업의 전략적인 요구와 연계하여 이루어져야 한다. 효과적인 데이터 마이닝을 위해 고려할 사항을 정리해보면 다음과 같다.
● 데이터의 정리, 분류와 선별
마이닝 전문가들은 기업의 데이터 베이스에 저장된 데이터의 30~50% 정도는 고객거래 기록을 처리하는 과정에서 변형되기 때문에 마이닝에 활용하기에는 적합하지 못하다고 말한다. 이러한 오류는 신속성과 정확성이 중요시되는 거래 기록(Transac-tionrecord)의 처리 과정에서는 전혀 문제가 되지 않는다. 예를 들어, 실무에서는 고객의거주지역의 데이터를 실제 지역 명이 아닌 숫자로 변환하여 입력하는경우가 많다. 이러한 숫자 데이터는 거래자료를 처리하는 단계에서는 신속한 업무처리라는 이점이 있으나 마이닝을 통한 정보 획득을 위해서는 데이터에 대한 적정한 재정의가 있어야 한다.
고객 데이터의 획득 채널로서 인터넷은 기존의 채널에 비하여 데이터의 양적인측면에서는 손쉽게 대량의 상세한 데이터를 얻을 수 있는 반면에 데이터의 질적인 면에서는 심각한 문제점을 안고 있다. 영업원을 통하거나 전화 등을 이용하는 경우와는 달리 인터넷의 경우는 고객이 직접 데이터를 입력하며 이 과정에서 의도적 혹은 실수로 인한 오류의 발생율이 상대적으로 높다.
이러한 부정확한 데이터의 오류를 수정해주는 기법으로 데이터 크리닝(Data cleaning)의 활용이 확산되고 있다. 데이터 크리닝이란 입력 과정에서의 오류의 수정을 자동적으로 체크 해 주거나 데이터 분류 시스템의 변경 시 과거의 데이터를 자동으로 업데이트 해주는 기능을 말한다.
● 데이터가 내포하는 정확한 의미의 파악
대부분의 기업 데이터는 거래 처리를 위한 자료이며 분석을 위한 자료는 아니다. 거래 데이터를 마이닝에 활용하기 위해서는 해당 데이터가 의미하는 내용을 정확하게 파악하는 일이 중요하다. 일반 가정의 유선 전화 사용에 대한 데이터를 분석하는 경우를 예로 들어보자. 대부분의 가정에서는 가장의 이름으로가입자 등록이 되어 있다. 이 경우 전화 가입자의 사용 패턴을 알기 위해 주어진 데이터를 그대로 사용하는 경우 가족 전체의 사용 내역이 등록된 가입자 개인의 사용 실적으로 해석되는 오류를 범하게 된다.
데이터가 의미하는 정확한 내용을 알기 위해서는 분석하고자 하는 작업과 관련한 주요 업무에 대한 이해가 필요하다. 즉, 마이닝을 수행하는 프로그램은 입력된 데이터를 프로그램의 논리에 따라 처리하는 하나의 도구에 불과하며 입력된 데이터의 의미 파악과 결과 해석은 전적으로분석자의 몫이다.
● 메타 데이터(Meta data)와 외부 자료의 활용
메타 데이터는 데이터의 데이터를 의미한다. 예를 들면, 웹 문서(World wide web document)의 내용을 나타내는 문서꼬리표(Tag)와 같은 것이다. 외부 자료란 외부 시장 조사 기관 등으로부터 입수된 자료를 말한다. 이러한 자료들을 활용하면 큰 수고를 절약하면서 의미있는 정보를 활용할 수 있게 된다. 이 경우 메타데이터나 외부 자료는 기존의 데이터베이스에 존재하는데이터의 배열 형태와는 상이한 경우가 일반적이므로 하나의 데이터 웨어하우스로 통합하기 위해서는 별도의 변환 알고리즘이 필요하다.
● 사용자의 명확한 대상 규명과 사용자 요구의 반영
마이닝 작업의 결과로 도출된 정보가 아무리 훌륭하다고 해도 활용되지 않으면 아무 소용이 없다. 마이닝의 목적은 실무에서요구되는 다양한 정보를 제공하는데 있다. 따라서 구체적으로 사용자가 요구하는 내용이 무엇인가를 파악하는 일이 무엇보다 우선되어져야 한다. 실무적인 마이닝 프로세스에서는 현업 인터뷰 등을 통하여 사용자의 요구를 파악하는 작업이 개발 초기 단계에서 수행된다. 사용자 요구 파악은 먼저 정보 사용자의 대상을 규명하는 작업이 선행되어야 한다. 고객 접점의 영업원이나 현장의 마케팅 담당자들이 고객 대응을 하는 과정에서 필요로 하는 정보가 무엇인가를 파악하고, 소프트웨어 및 하드웨어 측면에서도 사용자들이 쉽게 활용할 수 있는 환경을 구축하여 시스템의 활용도를 높여야 한다.
● 고객 정보의 Privacy 침해 문제
인터넷의 등장은 방대한 양의 매우 구체적인 고객 정보를 쉽게 획득할 수 있게 해주었으나 반면에 개인정보 침해라는 윤리적인 문제에 대한 논란을 가져왔다. 인터넷은 기본적으로 네트워크 통신에 기반을 두고 있다. 통신을 위해서는 자체적으로 정해진 규약(주고 받는 정보에 대한 기준)이 필요한데, 이 규약으로 인해 웹상에서의 사용자의 행위가 모두 기록되어 남게 된다.
www.privacy.net라는 사이트는 인터넷 상에서 개인 정보가 어느 정도까지 노출되고 있는가를 보여준다. 해당 사이트에 들어가는 순간 화면 상단에 사용자의 IP가 표시되고 사이트의이동경로까지 확인이 가능하다. ‘Click Here’라고 표시된 부분을 누른 후 새롭게 뜨는 화면의 하단에는 사용자의 오퍼레이션 시스템(OS)이 무엇인지, 어떤 웹 브라우져를 쓰고 있는지, 그리고 화면의 해상도가 어느 정도인지 등을 보여 준다.
해당 사이트의 회원일 경우에는 보다 자세한 사항까지 노출이 되고 있는데 그 웹사이트에서는 데이터 마이닝 기법을 통해 사용자의 관심 분야까지도 파악이 가능하다.
전문적으로 개인의 정보를 제공해주는 사이트까지도 등장하고 있다. Docusearch. com이라는 사이트에서는 미국지역의 개인의 소재정보에 대한 정보를 제공하고 있다. 제공되고 있는서비스는 10여종의 소재파악 서비스, 5종의 차량 조회 서비스, 10종의 전화 내역 조회, 12종의 금융 조회, 전과조회, 자산조회 등의 매우 다양한 서비스를 제공하고 있다.
미국의 인터넷 광고업체의 선두 주자인 더블 클릭(DoubleClick.com)은 ‘쿠키파일(이용자 신상정보가 저장된 파일)’을 통해 광고를 클릭하는 사용자의 이름과 주소까지도 확보할 수 있는 프로그램을 운영하여 현재 1억 개로 추정되는 개인 정보를 보유하고 있는 것으로 알려져 있다. 더블 클릭은 이러한 고객 정보를 무단으로 활용하여 자사의 영업에 활용함으로 사용자의 프라이버시 침해 문제로 이용자와 더블 클릭간 법적대응이 진행 중이다.
고객의 정보를 잘 분석해서 얼마나 올바르게 잘 활용하느냐는 인터넷 비즈니스의 핵심적 과제인 동시에 사업자의 윤리의식이 반드시 필요한 부분이기도 하다. 인터넷을 통해 획득한 고객 데이터의 활용은 개인 고객의 프라이버시를 침해하지 않도록 신중한 고려가 있어야 할 것이다.
● 적합한 툴(Tool)의 선택과 외부 전문가의 활용
국내에 나와 있는 마이닝 프로그램은 제품별로 강점과 약점을가지고 있으며 최근에는 인터넷을 통한 고객 정보의 비중이 증가함에 따라 웹 환경의데이터 처리를 지원할 수 있는 기능이 보강되고 있다.
한국 SAS는 ‘엔터프라이즈 마이너’라는 데이터 마이닝 툴을 보유하고 있는데 현재 10여개의 고객사를 확보하고 있다. 최근에는 웹상의 데이터 분석을 지원하는 ‘e디스커버리’라는 웹 마이닝 솔루션으로 새로운 시장 수요에 대응하고 있다. 데이콤 시스템 테크놀리지는 지난 1월말 고객관리 분석을 지원하는 데이터 마이닝 솔루션인 ‘S델타’를 출시하였다. 이 제품은 AT&T사의 통계분석 엔진인 ‘S플러스’를 기반으로 개발된 웹 기반의 데이터 마이닝솔루션으로 주로 금융기관의 고객을 대상으로 시장을 공략하고 있다.
이 밖에 한국IBM은 ‘인텔리전트 마이너‘라는 제품을 제공하고 있으며 통계분석 전문업체인 SPSS코리아도 ‘클레멘타인’이라는 데이터 마이닝 툴로 시장공략에 나서고 있다.
마이닝 프로그램은 기업의 업종과 활용분야를 고려하여 특성에 맞는 선정을 하여야 한다. 대부분의 마이닝프로그램은 사용자 인터페이스 환경으로 되어 있어 프로그램의 이용방법을 익히는데굳이 전문적인 지식을 갖춘 개발자를 요구하지는 않는다. 그러나 정형화된 작업을 수행하는 분석 프로그램이라 할지라도 통계 분석의 가정과 이에 따른 결과 해석의 한계를 이해하는 데는 충분한 경험을 갖춘 전문가의 도움을 얻는 것이 효과적이다. 특히 주관적인 판단을 요구하는 입력 변수의 선정이나 가공, 결과물의 해석 단계에서 경험 있는 전문가의 조력은 필수적이다.
이 경우 기업 내부의 실무자와 마이닝 분석 전문가의 긴밀한 협조가 중요시된다. 문제 해결의 실마리를 쥐고 있는 실무자와 분석 작업에 대한 전문지식을 보유한 외부 전문가의 조화가 없이는 만족할 만한성과를 기대하기 어렵다.
데이터 마이닝은 기본적으로 데이터 웨어하우징 시스템의 구축을 전제로 하는 방대한 작업이다. 미국의 경우 평균적인 시스템 구축에 소요되는 비용은 $1.8 million에 달한다. 막대한 비용의 지출을 효과적인 성과로 연결시키기위해서는 입력 데이터의 선별에서 출력 결과의 해석에 이르는 전과정에 각 부분의 조화로운 협조가 필요하다.
출처 : 김상일 주간경제 572호
인터넷의 확산과 정보 통신 기술의 발달은 고객 관련 데이터의 폭발적인 증가를 가져왔다. 데이터의 홍수 속에서 효과적인 고객정보 관리를 위한 데이터 마이닝 활용 방안을 검토해 본다.
고객 관계 관리(CRM)의 기반은 고객에 대한 데이터
기업의상위 20%에 해당하는 고객이 전체 수익의 80%를 창출한다는 2:8의 법칙은 최근 부각되고 있는 고객 관계 관리(CRM : Customer relationship management)의 당위성과 필요성을 표현해 주는 말이다. 기존의 마케팅은 기업과 거래하는 전체 고객을 대상으로 하는 Mass marketing과 고객 수의 양적 증대를 목적으로 하는 시장 확대에 초점이 맞추어져왔다. 이에 반해 CRM은 개별적인 고객에게 맞춤 서비스를 제공하고, 고객 수의 확대보다는 기존 고객으로부터 새로운 니즈(Needs)를 발굴함으로 새로운 시장기회를 발견하는 고객 확장(Customer extension)의 개념을 기반으로 한다. 실무적으로는 우량고객발굴과 차별화된 서비스의 제공이 대표적인 활용 사례로 볼 수 있다.
기업의 CRM활동은 고객 데이터의 저장, 정리 및 분석을 하는 ‘분석 CRM (Analytical CRM)’ 영역과분석 CRM의 결과를 바탕으로 대상고객과 접촉하여 실제 활동을 수행하는 ‘수행 CRM(Operational CRM)’영역으로 구분할 수 있다.
고객 관계 관리의 구체적인 활동은 고객 관련 정보를 기반으로 하므로 분석 CRM 영역은 기업의 고객 관계 관리활동에방향성을 제시해주는 중요한 역할을 담당한다. 또한 고객 관련 정보(Information)는 해당 고객의 거래 내역(Transaction data)이나 인적 속성(Demographic data) 데이터를바탕으로 도출되므로 결국 기업의 CRM활동은 고객과 관련된 데이터로부터 출발한다고할 수 있다.
인터넷의 확산과 정보 통신 기술의 발달 - 넘치는 고객 데이터
고객의 데이터를 이용하여 제반 기업 활동을 위한 정보로서 활용한다는 점은 제한된기업자원을 보다 효과성을 높일 수 있는 부분에 집중한다는 측면에서 대부분의 기업에게 매우매력적으로 보인다. 그러나 최근까지 국내 CRM 시장은 신용 카드사, 보험사,은행 등의 금융권 업종과 이동통신 업종 등으로 매우 제한된 수요 층을 보이고 있다.국내 CRM 시장수요의 편중현상은 이러한 업종들이 여타 업종에 비하여 우수고객의 비중이 상대적으로 크며, 기업과 고객의 거래가 일회성에 그치지 않고 지속적인 거래 유형을 보인다는 점에 기인한다. 그러나 보다 설득력 있는 설명은 CRM을 가능하게 하는 출발점으로서의 고객 데이터가 어느 정도 축적된 업종이라는 점에서 찾을 수 있다. 은행의 경우만을 예로 들더라도 고객의 예금 인출 내역, 자금 수요에 대한 이력 데이터,대출의 경우 필수적으로 요구되는 다양한 고객 관련 인적 정보(Demographic data)등이 상시적으로 집계, 관리되고 있다.
인터넷과 정보통신 기술의 발달은 전자상거래시장의 확대와 고객 데이터의 추적, 획득, 관리 기술의 진보를 가져왔다. 웹을 통한 전자상거래는개별고객의 거래 내역을 추가적인 노력을 기울이지 않고 손쉽게 추적하여 획득할 수 있다. 최근에는 고객 데이터 분석의 보다 진보된 기술인 클릭스트림 데이터 분석(Clickstream data analysis)이라는 새로운 개념도 등장하고 있다. SAS社의 WebHound와 같은 제품이 대표적이며 개별 고객이 자사의 웹사이트에서 실행하는 모든 클릭 내용을 추적하여 데이터로 저장되며 필요한 경우 데이터의 분석 결과까지 도출해 준다.
미국의 경우 시장조사 기관인 eMarketer에 의하면 기업과 개인간의 BtoC 전자상거래 규모는 2000년에 $37 billion에 이르고 2003년에는 $100 billion으로 성장할 것으로 예상되고 있다. LG 경제연구원의 자료에 의하면 우리 나라의 전자상거래 규모는 2000년에 2,160억원, 2003년에는 1조 7,150억원의 규모로 매년 100%이상 성장할 것으로 예상된다. Storage Technology Corp.의 최근 보고서에 의하면 인터넷, 멀티 미디어, e-mail 및데이터 베이스 관련 기술의 성장에 힘입어 디지털 형태의 데이터의 양은매년 60%의 증가세를 보이고 있다.
이처럼 폭발적으로 증가하는 데이터는 기업 내부에 구축된 데이터 저장용량의 한계를 초래하여, 최근에는 네트워크를 이용한 보다 저렴하고 확장이 용이한 새로운 데이터 저장 방식으로 Storage area networ(SAN)나 Network attached storage(NAS)등의 개념도 등장하고 있다.
따라서 향후 고객 데이터의 획득이 용이해짐에 따라 기업내부에 데이터의 양이 폭발적으로 증대(Data explosion)할 것으로 보인다. 이에 따라 금융업이나 통신업 등의 제한적인 산업 영역 뿐만 아니라 대부분의산업에서 획득된 고객 데이터의 효과적인 활용을 위한 요구가 증가할 것으로 보인다.
고객의 데이터에서필요한 정보를 캐내는 기법 - Data mining
고객의 데이터는 고객과 관련된 사실이나 행위의 단순한 기록이다. 이러한 데이터는 기업의 활용 목적에 맞도록 변환되어야비로소 정보(Information)의 역할을 할 수 있게 된다. 차별화 된 고객에게 차별화된 대응을 하는 CRM의 효과적인 수행을 위해서는 우선 해당 고객에 관한 정보를 끌어내어고객별 특성을 구분해 낼 수 있어야 한다.
고객에 대한 데이터의 수집이 용이해지고 이에 따라 관련 데이터의 양이 폭발적으로 증대하는 웹 기반의 환경에서는 데이터마이닝(Data mining)에 대한 요구가 상대적으로 증가하게 된다. 데이터 마이닝이란 대량의 데이터 베이스로부터 변수간에 존재하는 추세, 유사성 및특정 패턴을 발견하여기업의 의사결정에 활용할 수 있도록 해주는 기법이다. 마이닝의 사전적인 의미는 ‘채굴(採掘)’인데 이는 일견 무의미해 보이고 무질서한 데이터로부터 의미 있는 정보를 캐어내는 과정이 흡사 광산에서 광물을 캐어내는 작업과 유사하다는 점에서 붙여진 용어이다.
최근 데이터 마이닝의 확산은 웹 기반의 환경과 정보기술의 발달에 기인하는 바가 크며 구체적으로는 다음과 같은 요인을 들 수 있다. 첫째, 기업 내부의 데이터를 효율적으로 관리하기 위한 데이터 베이스 도구로서 데이터웨어 하우스의 활용이 확산되었다는 점과 둘째, 디지털 정보의 급격한 양적 증대, 마지막으로 데이터의 저장과 관련한 하드웨어 장비가격이 매우 저렴해졌다는 점을 들 수있다. Meta Group의 조사에 의하면 미국내 데이터 마이닝 시장은 1996년의 $3.3 billion에서 2001년까지는$8 billion 으로 확대될 것으로 전망되고 있다.
데이터 마이닝 수행시 고려 사항
기업이 확보한 데이터로부터 의사결정에 필요한 정보를 얻기 위한 데이터 마이닝 작업은 기업의 전략적인 요구와 연계하여 이루어져야 한다. 효과적인 데이터 마이닝을 위해 고려할 사항을 정리해보면 다음과 같다.
● 데이터의 정리, 분류와 선별
마이닝 전문가들은 기업의 데이터 베이스에 저장된 데이터의 30~50% 정도는 고객거래 기록을 처리하는 과정에서 변형되기 때문에 마이닝에 활용하기에는 적합하지 못하다고 말한다. 이러한 오류는 신속성과 정확성이 중요시되는 거래 기록(Transac-tionrecord)의 처리 과정에서는 전혀 문제가 되지 않는다. 예를 들어, 실무에서는 고객의거주지역의 데이터를 실제 지역 명이 아닌 숫자로 변환하여 입력하는경우가 많다. 이러한 숫자 데이터는 거래자료를 처리하는 단계에서는 신속한 업무처리라는 이점이 있으나 마이닝을 통한 정보 획득을 위해서는 데이터에 대한 적정한 재정의가 있어야 한다.
고객 데이터의 획득 채널로서 인터넷은 기존의 채널에 비하여 데이터의 양적인측면에서는 손쉽게 대량의 상세한 데이터를 얻을 수 있는 반면에 데이터의 질적인 면에서는 심각한 문제점을 안고 있다. 영업원을 통하거나 전화 등을 이용하는 경우와는 달리 인터넷의 경우는 고객이 직접 데이터를 입력하며 이 과정에서 의도적 혹은 실수로 인한 오류의 발생율이 상대적으로 높다.
이러한 부정확한 데이터의 오류를 수정해주는 기법으로 데이터 크리닝(Data cleaning)의 활용이 확산되고 있다. 데이터 크리닝이란 입력 과정에서의 오류의 수정을 자동적으로 체크 해 주거나 데이터 분류 시스템의 변경 시 과거의 데이터를 자동으로 업데이트 해주는 기능을 말한다.
● 데이터가 내포하는 정확한 의미의 파악
대부분의 기업 데이터는 거래 처리를 위한 자료이며 분석을 위한 자료는 아니다. 거래 데이터를 마이닝에 활용하기 위해서는 해당 데이터가 의미하는 내용을 정확하게 파악하는 일이 중요하다. 일반 가정의 유선 전화 사용에 대한 데이터를 분석하는 경우를 예로 들어보자. 대부분의 가정에서는 가장의 이름으로가입자 등록이 되어 있다. 이 경우 전화 가입자의 사용 패턴을 알기 위해 주어진 데이터를 그대로 사용하는 경우 가족 전체의 사용 내역이 등록된 가입자 개인의 사용 실적으로 해석되는 오류를 범하게 된다.
데이터가 의미하는 정확한 내용을 알기 위해서는 분석하고자 하는 작업과 관련한 주요 업무에 대한 이해가 필요하다. 즉, 마이닝을 수행하는 프로그램은 입력된 데이터를 프로그램의 논리에 따라 처리하는 하나의 도구에 불과하며 입력된 데이터의 의미 파악과 결과 해석은 전적으로분석자의 몫이다.
● 메타 데이터(Meta data)와 외부 자료의 활용
메타 데이터는 데이터의 데이터를 의미한다. 예를 들면, 웹 문서(World wide web document)의 내용을 나타내는 문서꼬리표(Tag)와 같은 것이다. 외부 자료란 외부 시장 조사 기관 등으로부터 입수된 자료를 말한다. 이러한 자료들을 활용하면 큰 수고를 절약하면서 의미있는 정보를 활용할 수 있게 된다. 이 경우 메타데이터나 외부 자료는 기존의 데이터베이스에 존재하는데이터의 배열 형태와는 상이한 경우가 일반적이므로 하나의 데이터 웨어하우스로 통합하기 위해서는 별도의 변환 알고리즘이 필요하다.
● 사용자의 명확한 대상 규명과 사용자 요구의 반영
마이닝 작업의 결과로 도출된 정보가 아무리 훌륭하다고 해도 활용되지 않으면 아무 소용이 없다. 마이닝의 목적은 실무에서요구되는 다양한 정보를 제공하는데 있다. 따라서 구체적으로 사용자가 요구하는 내용이 무엇인가를 파악하는 일이 무엇보다 우선되어져야 한다. 실무적인 마이닝 프로세스에서는 현업 인터뷰 등을 통하여 사용자의 요구를 파악하는 작업이 개발 초기 단계에서 수행된다. 사용자 요구 파악은 먼저 정보 사용자의 대상을 규명하는 작업이 선행되어야 한다. 고객 접점의 영업원이나 현장의 마케팅 담당자들이 고객 대응을 하는 과정에서 필요로 하는 정보가 무엇인가를 파악하고, 소프트웨어 및 하드웨어 측면에서도 사용자들이 쉽게 활용할 수 있는 환경을 구축하여 시스템의 활용도를 높여야 한다.
● 고객 정보의 Privacy 침해 문제
인터넷의 등장은 방대한 양의 매우 구체적인 고객 정보를 쉽게 획득할 수 있게 해주었으나 반면에 개인정보 침해라는 윤리적인 문제에 대한 논란을 가져왔다. 인터넷은 기본적으로 네트워크 통신에 기반을 두고 있다. 통신을 위해서는 자체적으로 정해진 규약(주고 받는 정보에 대한 기준)이 필요한데, 이 규약으로 인해 웹상에서의 사용자의 행위가 모두 기록되어 남게 된다.
www.privacy.net라는 사이트는 인터넷 상에서 개인 정보가 어느 정도까지 노출되고 있는가를 보여준다. 해당 사이트에 들어가는 순간 화면 상단에 사용자의 IP가 표시되고 사이트의이동경로까지 확인이 가능하다. ‘Click Here’라고 표시된 부분을 누른 후 새롭게 뜨는 화면의 하단에는 사용자의 오퍼레이션 시스템(OS)이 무엇인지, 어떤 웹 브라우져를 쓰고 있는지, 그리고 화면의 해상도가 어느 정도인지 등을 보여 준다.
해당 사이트의 회원일 경우에는 보다 자세한 사항까지 노출이 되고 있는데 그 웹사이트에서는 데이터 마이닝 기법을 통해 사용자의 관심 분야까지도 파악이 가능하다.
전문적으로 개인의 정보를 제공해주는 사이트까지도 등장하고 있다. Docusearch. com이라는 사이트에서는 미국지역의 개인의 소재정보에 대한 정보를 제공하고 있다. 제공되고 있는서비스는 10여종의 소재파악 서비스, 5종의 차량 조회 서비스, 10종의 전화 내역 조회, 12종의 금융 조회, 전과조회, 자산조회 등의 매우 다양한 서비스를 제공하고 있다.
미국의 인터넷 광고업체의 선두 주자인 더블 클릭(DoubleClick.com)은 ‘쿠키파일(이용자 신상정보가 저장된 파일)’을 통해 광고를 클릭하는 사용자의 이름과 주소까지도 확보할 수 있는 프로그램을 운영하여 현재 1억 개로 추정되는 개인 정보를 보유하고 있는 것으로 알려져 있다. 더블 클릭은 이러한 고객 정보를 무단으로 활용하여 자사의 영업에 활용함으로 사용자의 프라이버시 침해 문제로 이용자와 더블 클릭간 법적대응이 진행 중이다.
고객의 정보를 잘 분석해서 얼마나 올바르게 잘 활용하느냐는 인터넷 비즈니스의 핵심적 과제인 동시에 사업자의 윤리의식이 반드시 필요한 부분이기도 하다. 인터넷을 통해 획득한 고객 데이터의 활용은 개인 고객의 프라이버시를 침해하지 않도록 신중한 고려가 있어야 할 것이다.
● 적합한 툴(Tool)의 선택과 외부 전문가의 활용
국내에 나와 있는 마이닝 프로그램은 제품별로 강점과 약점을가지고 있으며 최근에는 인터넷을 통한 고객 정보의 비중이 증가함에 따라 웹 환경의데이터 처리를 지원할 수 있는 기능이 보강되고 있다.
한국 SAS는 ‘엔터프라이즈 마이너’라는 데이터 마이닝 툴을 보유하고 있는데 현재 10여개의 고객사를 확보하고 있다. 최근에는 웹상의 데이터 분석을 지원하는 ‘e디스커버리’라는 웹 마이닝 솔루션으로 새로운 시장 수요에 대응하고 있다. 데이콤 시스템 테크놀리지는 지난 1월말 고객관리 분석을 지원하는 데이터 마이닝 솔루션인 ‘S델타’를 출시하였다. 이 제품은 AT&T사의 통계분석 엔진인 ‘S플러스’를 기반으로 개발된 웹 기반의 데이터 마이닝솔루션으로 주로 금융기관의 고객을 대상으로 시장을 공략하고 있다.
이 밖에 한국IBM은 ‘인텔리전트 마이너‘라는 제품을 제공하고 있으며 통계분석 전문업체인 SPSS코리아도 ‘클레멘타인’이라는 데이터 마이닝 툴로 시장공략에 나서고 있다.
마이닝 프로그램은 기업의 업종과 활용분야를 고려하여 특성에 맞는 선정을 하여야 한다. 대부분의 마이닝프로그램은 사용자 인터페이스 환경으로 되어 있어 프로그램의 이용방법을 익히는데굳이 전문적인 지식을 갖춘 개발자를 요구하지는 않는다. 그러나 정형화된 작업을 수행하는 분석 프로그램이라 할지라도 통계 분석의 가정과 이에 따른 결과 해석의 한계를 이해하는 데는 충분한 경험을 갖춘 전문가의 도움을 얻는 것이 효과적이다. 특히 주관적인 판단을 요구하는 입력 변수의 선정이나 가공, 결과물의 해석 단계에서 경험 있는 전문가의 조력은 필수적이다.
이 경우 기업 내부의 실무자와 마이닝 분석 전문가의 긴밀한 협조가 중요시된다. 문제 해결의 실마리를 쥐고 있는 실무자와 분석 작업에 대한 전문지식을 보유한 외부 전문가의 조화가 없이는 만족할 만한성과를 기대하기 어렵다.
데이터 마이닝은 기본적으로 데이터 웨어하우징 시스템의 구축을 전제로 하는 방대한 작업이다. 미국의 경우 평균적인 시스템 구축에 소요되는 비용은 $1.8 million에 달한다. 막대한 비용의 지출을 효과적인 성과로 연결시키기위해서는 입력 데이터의 선별에서 출력 결과의 해석에 이르는 전과정에 각 부분의 조화로운 협조가 필요하다.
출처 : 김상일 주간경제 572호
댓글 없음:
댓글 쓰기