티스토리 툴바


'IT'에 해당되는 글 6건

  1. 2010/09/28 데이터 관리와 데이터 마이닝
최근 회사내 프로젝트에서도 많은 데이터들을 이용해 과연 무엇을 해볼 수 있을까? 라는 고민을 많이 하고있고 실제로 진행하고 있는 만큼 데이터는 이제 많이 중요해진 듯 하다. 우연히 올해 6월에 마이크로소프트웨어에 기고된 좋은 글을 발견하여 이렇게 포스팅합니다. 출처는 http://www.imaso.co.kr/?doc=bbs/gnuboard.php&bo_table=article&wr_id=35316 입니다.인터넷 기술이 발전하고 정보 공유의 속도가 나날이 빨라지면서 우리 주위에는 수많은 데이터들이 존재하게 되었다. 스토리지 기술의 발전으로 인해 수많은 데이터가 체계적으로 저장되었으며, 사용자는 이렇게 저장된 데이터들을 효율적으로 사용할 수 있게 되었다. 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내기 위해 데이터 마이닝이 도입되었다. 지금부터 데이터 마이닝에 대한 이야기를 시작해 본다.

김형훈 asinayo73@hotmail.com|모바일 디바이스의 설계부터 테스팅까지 모든 부분에 관심이 많으며, 현재 gmobileTech사에서 모바일 디바이스 구조검증 및 설계 컨설팅 업무를 맡고 있다. 다양한 형태의 모바일 디바이스가 어떻게 하면 각각 최적의 성능을 낼 수 있는지에 대해 연구하고 있다.

‘데이터란 재료, 자료, 논거라는 뜻의 datum의 복수형이다. 컴퓨터 용어로서 정보를 작성하기 위해 필요한 자료를 의미한다. 컴퓨터에 입력하는 기호, 숫자, 문자를 말하며, 그 자체로는 단순한 사실에 불과하지만 컴퓨터에 의해 일정한 프로그램을 통해 처리되어 특정한 목적으로 사용될 수 있는 정보를 만들어낸다.’ 

네이버 백과사전에 나온 데이터의 정의는 위와 같다. 데이터의 관리는 이 세상에 데이터가 존재할 때부터 시작되었으며, 흩어져 있는 여러 가지 데이터를 가치 있는 리소스로 변경해 관리될 수 있도록 하는 데 주된 목적이 있다. DAMA(Data Management Association, www.dama.org)에서 발행하는 DMBOK의 프레임워크에서 나타낸 바와 같이 데이터의 관리는 다음과 같이 다양한 측면에서 이뤄지고 있다.

- 데이터 거버넌스
- 데이터 구조, 분석 및 설계
- 데이터 관리
- 데이터 보안 관리
- 데이터의 품질 관리
- 레퍼런스 및 마스터 데이터 관리
- 데이터 웨어하우징 및 비즈니스 지식 관리
- 문서, 레코드 및 콘텐츠 관리
- 메타 데이터 관리

위에서 제시한 여러 가지 데이터 관리 기법 중에서 기업 간의 경쟁이 심화됨에 따라 특히 주목 받고 있는 것으로 ‘데이터 마이닝(Data Mining)’이 있다. 여기서는 ‘데이터 마이닝’이 무엇이고 왜 중요하며 어떻게 운용되는지를 간략히 살펴보도록 하자.

데이터 마이닝이란 무엇일까? 마이닝(Mining, 채광작업)이라는 단어를 일단 눈을 감고 잠시 생각해 보자. 그러면 방대한 데이터들이 쌓여있는 지층 속에서 금과 같은 ‘유용한 정보’라는 보석들을 캐내는 모습을 떠올리게 된다.

실제로 데이터 마이닝은 ‘대용량의 데이터들 사이에서 통계학적인 기술들을 적용해 여러 가지 광대한 데이터들 사이에 존재하는 관계들과 패턴 및 규칙 등을 탐색하고 찾아내어, 이를 모형화한 이후에 유용한 정보들을 추출할 수 있는 프로세스’라고 정의할 수 있다. 우리는 데이터 마이닝을 통해 데이터들 간의 상호관계를 구할 수 있다.

또한 일반적으로 데이터 마이닝은 데이터 또는 지식 검색으로 볼 수 있으며, 이러한 검색의 비용과 예산을 효과적으로 사용하기 위해 다양한 데이터들 사이에 존재하는 정보들을 분석하고 요약하는 과정을 거치게 된다. 이를 위해서는 데이터를 분석하는 다양한 기법들이 사용되어야만 한다. 그러면 이러한 분석기법들이 단지 사용하기만 하면 될까? 그건 물론 아니다. 여러 가지 분석기법들을 다양한 차원에서 사용하고 그 결과들을 구분하고 확인해야만 한다.


<화면 1> 마이닝이란?

따라서 데이터 마이닝을 정해진 틀에만 맞춰서 결론만을 도출해내는 하나의 분석기법으로 생각하지만 말고, 유용한 정보를 뽑아내기 위한 여러 기법들의 적절한 조합으로 이뤄진 일련의 과정으로 이해해야 할 것이다.

데이터 마이닝과 더불어 기존의 데이터 관리 기법인 데이터 웨어하우스나 OLAP(On-Line Analytical Processing)는 분석자가 만든 가설에 해당하는 여러 가지 질의에 대한 조회 결과를 통해 가설을 확인하거나 부정하는데 그치나, 데이터 마이닝에서는 분석자가 의도하지 않았던 가설들을 산출해내어 유용한 정보들을 생성하는 효과를 가지고 있다.

그러면 데이터 마이닝은 왜 중요할까? 그 이유를 알기 위해서는 시장환경의 급격한 변화와 인터넷의 탄생과 더불어 갈수록 급속히 증가하는 대용량의 데이터들을 눈여겨 봐야만 한다. 다양하고 광범위한 데이터가 존재하는 환경에서 기업이 생존하고 발전하기 위해서는 정해진 빠른 시간 안에 지속적으로 소비자의 정보를 파악하고, 분석하고 대처할 수 있어야만 한다. 이를 위해 반드시 필요한 것이 바로 정보의 관리다.

따라서 기업들에게는 단순히 쌓여 있는 데이터가 아니라 가치 있는 ‘정보(Information)’의 관리가 절실히 요구된다. 컴퓨팅 기술과 저장 기술의 발전에 의해 엄청난 양의 데이터를 수집 및 저장하는 것은 손쉽게 이뤄지고 있지만, 이 중에서 가치 있는 정보만 찾아내는 것이 무엇보다도 중요한 까닭에 이를 위해 데이터 마이닝이 도입되었다.


<그림 1> 데이터 변화 과정

데이터 마이닝은 강력한 고객의 관점을 토대로 많은 기업들에 의해 사용되고 있는 데이터 관리 기법이다. 일반 소매업부터 시작해 금융, 통신, 마케팅 업체에 이르기까지 제품의 가격 결정이나 포지셔닝과 같은 내부적인 요소부터 시작해 경제적인 정책 지시, 경쟁력 강화, 소비자 분석과 같은 외적인 요소에 이르기까지 적용된다. 소매업에서 데이터 마이닝을 적용하는 경우에는 고객 개개인의 구매 히스토리에 맞춰서 맞춤 프로모션을 진행할 수 있게 되고, 고객 정보를 기반으로 세세한 특정 그룹으로 구분해 각 그룹별 제품 개발을 요청할 수도 있게 된다.

그러면 여기서 간략하게 데이터 마이닝에서 사용되는 데이터와 정보, 지식에 대해 살펴보자. 데이터는 앞서 이미 언급한 바와 같이 컴퓨터에 의해 처리될 수 있는 숫자 또는 텍스트 등과 같은 일련의 사실들로 다양한 포맷들을 가질 수 있으며 각기 다른 데이터베이스로 구성될 수도 있다. 데이터는 다음과 같이 분류될 수 있다.

- 운용 & 트랜잭션 데이터(판매, 가격, 급여, 회계 관련 데이터)
- 비운용 데이터(예측 데이터, 경제 관련 데이터)
- 메타데이터(논리 데이터베이스 설계와 데이터 사전 정의에 대한 데이터 본연의 데이터)

정보는 데이터들 사이에 존재하는 관계와 패턴 등과 같은 것들을 의미한다. 데이터 그 자체를 의미하기보다는 데이터를 분석해서 나온 결과가 정보가 된다. 정보는 패턴이나 트렌드에 대한 지식으로 변경될 수 있다. 예를 들면, 소매점에서의 판매량에 대한 요약 정보는 프로모션을 위해 분석되어 구매자의 구매 행위와 관련된 지식을 제공하기 위해 사용될 수 있다. 따라서 이러한 지식을 토대로 생산자나 소매점에서는 어떤 아이템들이 더 잘 팔릴 수 있는지를 결정할 수 있게 된다. 

데이터 마이닝은 어떻게 운용되는가? 데이터 마이닝 프로세스는 다음에 언급된 5단계의 Cycle을 거치면서 다양한 문제를 해결하기 위한 유용한 정보들을 추출한다.

- 단계 1 : 비즈니스 문제 정의 
- 단계 2 : 구체적인 목표 설정
- 단계 3 : 데이터로부터 의미 있는 정보 얻음(다양한 데이터 마이닝 분석기법들 활용)
- 단계 4 : 획득된 정보를 기반으로 의사결정에 활용(비즈니스 문제에 적용)
- 단계 5 : 실제 업무에서의 효과를 바탕으로 더욱 향상된 정보를 위해 모델 평가

마지막 단계인 모델 평가 단계에서는 평가된 모델을 바탕으로 비즈니스 문제를 재구성 및 재적용하고 다른 비즈니스 문제에 적용하거나 참고자료로 활용한다.

비즈니스 문제를 정의하고 구체적인 목표를 설정하고자 할 때, 데이터 마이닝의 결과로 얻어진 정보를 어떻게 구분/활용할 것인지는 실제 업무와의 연계성을 충분히 고려해 정의해야 한다. 그리고 비즈니스 관점에서 이러한 정의는 다음과 같이 구분될 수 있다.


<그림 2> 데이터 마이닝 결과 정보 구분 방법

데이터 마이닝은 매우 큰 규모의 정보를 처리하는 기술이 가지는 트랜잭션 시스템과 분석 시스템 사이에서 연결점을 제공할 수 있다. 따라서 데이터 마이닝 소프트웨어는 사용자 질의에 기반한 트랜잭션 데이터 내에서의 관계와 패턴을 분석할 수 있으며, 분석을 수행하기 위해 다음과 같은 여러 가지 종류의 소프트웨어를 사용한다.

- 통계 소프트웨어
- 머신 런닝 소프트웨어
- 신경망 소프트웨어

이러한 소프트웨어는 다음과 같은 네 가지 타입들을 지원할 수 있으며, <표 1>과 같은 결과를 얻을 수 있다.

- 클래스
- 클러스터 
- 연관 관계 
- 순차적 패턴


<표 1> 분석 소프트웨어로부터 얻을 수 있는 결과 형태

데이터 마이닝은 크게 나눠 다음과 같은 네 가지 동작들로 이뤄진다. 첫 번째는 데이터 웨어하우스를 대상으로 트랜잭션 데이터를 저장, 관리, 로드하는 동작이며 두 번째는 (다차원) 데이터베이스 시스템에 데이터를 저장하고 관리하는 동작이다. 세 번째는 비즈니스 관점에서의 분석과 정보 기술을 통한 데이터 액세스 제공이고, 네 번째로는 애플리케이션 소프트웨어에 의한 데이터 분석 수행 동작이다.

분석을 위해 사용되는 다양한 데이터마이닝 기법들은 데이터로부터 의미 있는 정보들을 찾기 위해 문제 정의를 먼저 수행한다. 그리고 이를 위해 데이터를 수집, 선별하고 어떤 기법을 사용해 모델을 만들 것인지를 결정한다. 이때 사용할 수 있는 기법들로 다음과 같은 것들이 존재한다.

- 시장 바구니 분석(Market Basket Analysis)
- 사례 기반 추론(Memory Based Reasoning)
- 군집 발견(Cluster Detection)
- 연결 분석(Link Analysis)
- 의사 결정 나무(Decision Tree)
- 신경망(Neural Network)
- 유전자 알고리즘(Genetic Algorthm)

데이터 마이닝 모델을 만들기 위해서는 데이터 마이닝 알고리즘이 사용된다. 모델을 만들기 위해 알고리즘은 먼저 데이터 집합을 분석한 후에 특정 패턴과 추세가 어떻게 되는지를 확인해야 한다. 데이터 마이닝 알고리즘은 분석 결과를 사용해 마이닝 모델의 매개 변수를 정의하고, 매개 변수를 전체 데이터 집합에 적용해 동작 가능한 패턴과 자세한 통계를 추출한다. 데이터 마이닝 알고리즘이 만드는 마이닝 모델은 다음과 같은 형태를 가질 수 있다.

- 일련의 규칙 : 트랜잭션 내의 그룹화 방법 설명
- 의사 결정 트리 : 제품 구입 여부 예측 
- 수학적 모델 : 예측 
- 일련의 클러스터 : 데이터 집합의 사례 간 관계 설명

데이터 마이닝에서 모델은 마이닝 구조에서 데이터를 얻고, 분석 데이터 마이닝 알고리즘을 사용해 데이터를 분석한다. 여기서 주의해야 할 점은 마이닝 구조와 마이닝 모델은 별도의 개체라는 것이다. 마이닝 구조에서는 데이터 원본을 정의하는 정보를 저장하며, 마이닝 모델은 분석 처리되는 마이닝 구조에 의해 얻을 수 있을 때까지 비어 있게 된다. 데이터 마이닝을 구성하는 요소 중 메타데이터에서는 다음과 같은 항목들을 지정하고 있음을 기억하도록 하자.

- 모델 이름 정의 
- 해당 모델이 저장된 서버 정의
- 마이닝 구조의 열 목록을 포함하는 모델 정의 
- 모델 처리 시의 선택적 필터 정의
- 데이터 분석 알고리즘 지정

여기서 특히 열, 필터 및 알고리즘의 선택은 중요한 요소로서 분석된 결과를 얻을 때 큰 영향을 미칠 수 있다. 모델 생성 시에 각기 다른 알고리즘과 필터를 사용할 경우에 모델 콘텐츠 생성에도 영향을 미칠 수 있다. 모델에 저장되는 결과는 알고리즘에 따라 달라지지만 패턴, 항목 집합, 규칙 및 수식에 영향을 미칠 수 있는 요소를 포함한다. 데이터 마이닝 구조에서는 마이닝 모델을 작성하는 데이터, 즉 원본 데이터 뷰, 열 유형과 수, 학습 및 테스트 집합으로의 선택적 분할을 정의한다. 하나의 마이닝 구조는 같은 도메인을 공유하는 여러 개의 마이닝 모델을 지원할 수도 있다.

지금까지 나타낸 데이터 마이닝 모델의 생성은 <그림 3>의 단계를 따라서 이뤄진다.


<그림 3> 데이터 마이닝 모델 생성 단계

또한, 데이터 마이닝의 구조 설정은 <그림 4>와 같은 단계로 구성된다.

데이터 마이닝 구조를 정의할 때는 기존 데이터 원본 뷰에서 제공하는 열을 사용해서 여러 데이터 원본을 결합해 생성된 구조 또는 마이닝 모델에서 하나의 원본으로 사용할 수 있다. 원래의 데이터 원본은 클라이언트 응용프로그램에서는 볼 수 없다.


<그림 4> 데이터 마이닝 구조 설정 단계

지금까지는 데이터 마이닝에 대한 대략적인 기본 내용을 살펴봤다. 이제는 실제로 제공되는 여러 가지 솔루션들을 살펴보도록 한다. 대표적인 솔루션으로 마이크로소프트에서 제공하는 Micro soft SQL Server를 우선적으로 분석해 본다. Microsoft SQL Server의 분석 서비스에서는 데이터 마이닝 솔루션에서 사용할 수 있는 여러 가지 알고리즘을 제공한다.

우선 이 분석 서비스에서는 데이터 집합의 다른 특성을 기반으로 하나 이상의 불연속 변수를 예측하는 분류 알고리즘을 제공하며, 이러한 분류 알고리즘의 예로 Microsoft 의사 결정 트리 알고리즘을 들 수 있다. 그리고 데이터 집합의 다른 특성을 기반으로 수익 또는 손실과 같은 하나 이상의 연속 변수를 예측하는 회귀 알고리즘을 제공하며, 회귀 알고리즘의 예로는 Microsoft 시계열 알고리즘이 있다.

또한 데이터를 속성이 유사한 항목의 그룹 또는 클러스터로 나누는 세그먼트화 알고리즘이 지원되며, 이 알고리즘의 예로 Microsoft 클러스터링 알고리즘이 있다. 데이터 집합에 있는 여러 특성 사이의 상관관계를 찾기 위해 이를 위한 연결 알고리즘이 지원되며, 이러한 종류의 알고리즘은 시장 바구니 분석에 사용할 수 있는 연결 규칙을 만드는 데 가장 일반적으로 적용된다. 웹 경로 흐름과 같은 데이터에서 자주 사용하는 시퀀스 또는 에피소드를 요약하는 시퀀스 분석 알고리즘도 지원할 수 있다.

특정 비즈니스 태스크에 적합한 알고리즘을 선택하기 위해서는 사용자는 여러 알고리즘을 고려해야 한다. 물론 하나의 데이터 마이닝 솔루션에서는 데이터를 탐색하는 데 여러 종류의 알고리즘을 사용하며, 해당 데이터를 기반으로 특정 결과를 예측하는 데 다른 알고리즘을 사용할 수도 있다. 또한 하나의 솔루션 내에서 여러 알고리즘을 사용해 여러 개별 태스크를 수행할 수 있으며 마이닝 모델로 값을 예측하고 데이터를 요약해 숨겨진 상관관계를 찾을 수도 있다. <표 2>에서는 데이터 마이닝 솔루션에 적합한 알고리즘을 선택하는 데 도움이 될 수 있는 알고리즘들을 나타내었다.


<표 2> 마이크로소프트의 데이터 마이닝 알고리즘

Microsoft SQL Server 2008 엔터프라이즈 솔루션에서는 주기성을 검색하거나 예측을 만들거나 사례를 분석하기 위한 최적의 솔루션을 제공한다. Microsoft SQL Server에서 지원하는 Microsoft 시계열 알고리즘으로 ARTxp와 ARIMA가 있으며, 이 두 가지 모두를 사용할 수 있다. Microsoft의 시계열 알고리즘은 제품 판매량과 같은 연속 값을 시간 경과에 따라 예측하도록 최적화된 회귀 알고리즘을 제공하기 때문에, 의사 결정 트리와 같은 다른 Microsoft 알고리즘에서 가지는 새 정보로 된 추가 열 입력과 같은 추가 작업을 필요로 하지 않는다.

또한 Microsoft 시계열 알고리즘은 패턴을 분석하고 예측을 만들 때 알고리즘을 혼합해 사용할 수 있으며, 동일한 데이터에 대해서는 2개의 모델을 별도로 사용한다. 여기서 사용되는 한 모델은 ARTxp 알고리즘이며, 또 다른 모델은 ARIMA 알고리즘이다. 알고리즘은 두 모델의 결과를 혼합해 여러 개의 시간 조각에 대한 최상의 예측을 생성하기 때문에 정확도가 매우 높게 된다. 알고리즘 ARTxp는 단기 예측에 가장 적합하므로 일련의 예측이 시작되는 부분에서는 ARTxp에 더 비중을 두지만, 예측하는 시간 조각이 보다 미래로 이동하면 ARIMA에 더 비중을 두도록 한다.

Microsoft의 시계열 모델은 모델을 만드는 데 사용되는 원래 데이터 집합만을 기반으로 추세를 예측할 수 있다. 또한 예측을 만들고 자동으로 새 데이터를 추세 분석에 통합하는 경우, 시계열 모델에 새 데이터를 추가할 수도 있다.

무엇보다도 Microsoft 시계열 알고리즘의 중요한 기능은 교차 예측을 수행할 수 있다는 것이다. 관련된 2개의 별도 계열이 있는 알고리즘을 학습하는 경우 결과 모델을 사용해 한 계열의 동작을 기반으로 다른 계열의 결과를 예측할 수 있다. 그러므로 관찰된 특정 제품의 판매량이 다른 제품의 예측 판매량에 영향을 줄 수 있어서 여러 계열에 적용될 수 있는 일반 모델을 제공할 수도 있다.

데이터 마이닝을 모바일에 접목시킨 사례로는 M2M 데이터 마이닝 프로젝트가 대표적인 사례다. 이는 Calabria 대학의 그리드 컴퓨팅 랩에서 진행한 과제로서 모바일 디바이스들에 유비쿼터스 데이터 마이닝을 적용했다. 각각의 모바일 디바이스들은 데이터를 서버에 저장하기도 하지만, 저장된 데이터를 요청하기도 한다. 데이터 제공자는 고정 디바이스일 수도 있지만, 모바일 디바이스도 가능하다.

모바일 디바이스가 데이터 마이닝에 대한 요청을 서버에 하면 서버는 수집된 정보를 기반으로 분석을 수행하고 그 결과를 다시 클라이언트인 모바일 디바이스에 반환한다. 리소스의 제한이라는 모바일 디바이스의 특성으로 인해 광범위한 대량의 데이터를 저장하고 이를 분석하기 어려운 환경에서 이를 해결하기 위해, 데이터 마이닝 서버를 모바일 디바이스의 외부에 위치시키고 클라이언트가 요청하는 형태를 가진다.


<그림 5> 데이터 마이닝 서버의 구성


<그림 6> 데이터 마이닝 서버의 구성

오늘날의 데이터 마이닝 애플리케이션들은 메인 프레임, 클라이언트/서버, PC 플랫폼을 기반으로 하는 모든 시스템에서 동작할 수 있다. 물론 엔터프라이즈급에서 동작하는 애플리케이션은 10GB에서 10TB 이상의 데이터 처리를 수행할 수 있다. 그렇지만 이렇게 대용량을 처리하는 데 중요한 이슈가 되는 것이 데이터베이스의 크기와 쿼리의 복잡성이다. 더 많은 데이터가 처리되고 관리/유지되기 위해서는 시스템은 더욱 더 막강해야 하며, 더욱 복잡한 쿼리가 처리되기 위해 보다 강력한 시스템이 필요하게 된다.

그러면, 모바일 디바이스에서 주력으로 사용되는 SQLite에서는 어떻게 될까? 모바일 디바이스 내부에서 SQLite만을 사용해 데이터 마이닝이 이뤄진다면 좋겠지만, 작고 가볍고 정말 빠른 SQLite도 동시접근의 문제를 해결하고 대규모의 데이터를 처리하기에는 아직까지는 부족한 면이 있다. SQLite에서는 가상테이블을 이용해 데이터 마이닝을 수행하고자 하는 의견이 제안되어 검토되고 있으며, 분산 내장형 데이터베이스 엔진들을 기반으로 다른 기술과 접목되어 지속적으로 향상된다면 불가능하지만은 않을 것이다.

지금까지 언급했던 데이터 마이닝을 통해 얻은 정보는 의사결정에 활용되어 비즈니스 문제를 해결하는 데 핵심 역할을 수행할 것이다. 즉, 실제 업무에서의 결과를 토대로 향상된 정보를 얻기 위해 모델을 수립하고 이 모델을 평가하고 난 이후에, 그 문제를 재구성해 다시 적용하거나 다른 문제에 적용해 참고자료로 활용함으로써 문제 해결의 디딤돌로서 중요한 역할을 수행할 것이다. 이제 데이터 마이닝을 통해 데이터를 최적으로 활용하도록 하자.


데이터 웨어하우스
데이터 웨어하우스(Data Warehouse)란 사용자의 의사 결정에 도움을 주기 위해, 운영 시스템에서 축적된 내/외부 데이터를 공통의 형식으로 변환해서 일괄적으로 관리하는 데이터베이스를 의미한다. 조직 내 여러 곳에서 분산 운영되는 온라인 트랜잭션 프로세싱 위주의 데이터베이스 시스템에서 필요한 정보를 추출한 후 중앙 집중화된 저장소에 모아서, 이를 가공해 분석함으로써 고객의 구매 동향, 신제품에 대한 반응도, 제품별 수익률과 같은 세밀한 정보를 얻어 내고 이를 통해 비즈니스 인텔리전스(Business Intelligence)와 연계해 전술적인 의사결정을 지원하는 데 사용할 수 있다. 여기서 웨어하우스(Warehouse)는 창고라는 의미로서, 데이터의 수용이나 분석 방법까지 포함해 조직 내 의사 결정을 지원한다. 목적별 데이터를 비롯해 기업 활동 전반에 필요한 정보를 전 회사 규모의 데이터베이스로 일원화해 관리한다. 데이터 웨어하우스는 다음과 같은 계층으로 구성된다.

- 원시 데이터 계층
- 데이터 웨어하우스 계층
- 클라이언트 계층

데이터 웨어하우스를 사용함으로써 자세한 마케팅 정보를 얻을 수 있고 모든 활동에 관한 정보를 데이터베이스로 관리해 대량의 데이터를 고속으로 검색할 수 있다.

또한, 데이터 웨어하우스를 통해 고객 관계 증대로 인한 수익 확대를 꾀할 수 있고, 고객 정보의 통합으로 정보 분석 기능을 강화할 수 있으며, 통합 마케팅 프로세스를 관리할 수 있고, 신속한 마케팅 목표/실행/평가 관리가 가능해지며 타깃 마케팅을 통한 비용 절감과 효율 증대 효과를 얻을 수 있다. 최근 데이터 웨어하우스는 분석계 플랫폼 전체를 대표할 정도로 중요성이 커졌으며, 기업들의 실시간 경영(RTE) 개념이 확산되면서 정제되고 통합된 데이터를 비즈니스 인텔리전스(CRM, BSC, ABM 등)에 공급해 주는 데이터 인프라 측면이 강조되고 있다.

참고자료
1. http://en.wikipedia.org/wiki/Data_warehouse
2. Berry and Linoff, “Data Mining Techniques”, WILEY, 1997 
3. 장남식, 홍성완, 장재호, “데이터마이닝”, 대청, 1999 
4. http://msdn.microsoft.com/en-us/library/bb510517.aspx 
5. http://en.wikipedia.org/wiki/Data_management
6. http://www.dama.org/files/public, “DAMA-DMBOK Guide (Data Management Body of Knowledge) Introduction & Project Status”
7. http://www.software.or.kr/sw_info/swinsight/sw1/1186482_1071.html

저작자 표시 비영리 변경 금지
Posted by Jason Park
이전버튼 1 2 3 4 5 ... 6 이전버튼