본문 바로가기

아이디어-급진적

데이터에서 의사결정:빅 데이터를 위한 가치사슬



헬스케어, 교통, 재무, 에너지, 자원소비, 환경적 지속성, 국토방위와 같은 다양한 영역에서 여러 가지 이슈들이 발생하고 있으며, 효율적인 관리를 위한 정보시스템이 필요하고, 이에 더하여, 적절한 품질과 더불어 솔루션의 제공도 중요한 이슈로 부각되고 있다. 이를 위한 기반 기술들과 날이 갈수록 진화하고 있는 사용자 요구사항은 정보시스템에 있어서 데이터 용량과 다양성을 부각시키고 있고, 데이터는 여러 가지 복잡한 소스로부터 예측하지 못한 방향으로 나타나고 있는 것이 현실이다. 

기대한 산출물을 도출하고자 할 때, 기술적 측면과 이해관계자 측면에서 모두 기업들은 원시 데이터를 양질의 데이터로 변환시켜야 되는 어려움에 직면하고 있는데, 이와 같은 어려움은 보다 유용한 정보로 자동적으로 변환되지 않기 때문에 더 커지고, 더 빨라지며 더 다양한 데이터로 변모되면서 가중되고 있다. 



기하급수적으로 증가하고 있는 데이터로 인하여, 기업들은 여러 기술을 주의 깊게 선택하고 특정 조사를 위한 주요 데이터 또한 주의 깊게 선택하고, 특정 요구사항과 분석에 대한 보다 대형화된 통합 데이터 셋을 혁신적인 형태의 맞춤형 데이터로 정의할 필요성이 증대한다. 이와 같은 모든 작업들이 데이터 가치 사슬로부터 나타나게 되는데, 데이터 가치 사슬은 다양한 이해관계자들을 지원하면서 필요한 의사결정을 이루기 위하여 데이터를 전체적인 시각에서 관리하는 것을 의미한다. 

데이터 가치 사슬의 정의(Defining a Data Value Chain) 

마이클 포터는 지난 1980년대 가치사슬 개념을 소개하면서 가치를 창출하고 구축하는 일련의 활동을 제시하였다. 가치사슬사의 다양한 활동들이 전체 가치로 누적되고, 기업 조직은 이를 자신의 고객에게 전달하는 체계를 정의할 수 있었다. 이와 같은 가치사슬을 기반으로 데이터 가치사슬은 크게 네 단계로 다음과 같이 정의된다. 

1) 의사결정 과정을 지원하기 위하여 데이터 발생에서부터 정보의 최종 소비자에 이르기까지 데이터를 관리하고 조정하는 부분 


2) 서비스 딜리버리와 의사결정 품질을 최적화시킬 수 있도록 데이터를 분석하고 다양한 이해관계자로부터 데이터 수집에 대한 협업적인 파트너십과 조정 작업을 형성하는 부분 


3) 관련된 모든 이해관계자를 위한 긍정적인 산출물 도출이 가능하도록 하는 데이터 관리 활동을 강화시키는 부분 


4) 기업조직의 성과를 강화시킬 수 있도록 혼합된 데이터의 가치를 극대화시킬 수 있는 사용자, 프로세스, 기술상의 투자 관리를 위한 포트폴리오 관한 접근방법의 수립 





데이터 발견(Data Discovery) 

기업조직은 의사결정에 필요한 분석 작업을 수행하기 전, 사용가능한 데이터 소스가 무엇인지 파악할 필요가 있다. 이와 같은 데이터 발견(파악)작업에는 데이터 자산을 인벤토리화하는 것뿐만 아니라 자산을 조직화하고 준비하는 다음과 같은 일련의 세 가지 과정이 요구된다. 

1) 수집&주석달기 


가치사슬 상에서 첫 번째 링크에 해당하는 부분은 가용한 데이터 소스에 대한 목록을 만들고, 완전성, 유효성, 일치성, 시의성, 정확성이라는 관점에서 이와 같은 소스의 품질을 나타내는 메타 데이터를 제작하는 것이다. 비구조화된 데이터를 구조화된 데이터로 변환시키는 부분들은 유효한 메타데이터와 연관된다. 이와 같은 데이터 수집과 주석달기에 있어서 적합한 두 가지 기법이 존재하는데, 하나는 더블린 코어(Dublin Core) 기법이고, 또 다른 하나는 미국 국방성에서 개발한 메타데이터 상세화 기법이다. 

2) 준비하기(Prepare) 


공유시스템으로 데이터를 복사하기 위하여 데이터 소스에 대한 접근방법을 정의하는 단계로 데이터 사용에 있어서 보안과 프라이버시 규제에 대한 부분을 만드는 것이다. Hadoop 분산 파일 시스템, 빅 테이블, 몽고DB와 같은 대용량 병렬 분산 스토리지 시스템은 구조에 상관없이 테라바이트 이상의 데이터를 저장할 수 있다. 데이터 접근을 제공하는 도구에는 대표적인 상태 전송, 애플리케이션 프로그래밍 인터페이스, 웹서비스 묘사 언어, 오픈 데이터베이스 연결성/자바 데이터베이스 연결성 도구 등이 존재한다. 

이와 같은 접근통제정책을 담당하는 언어들은 수십 년간 발전하여 왔고, 역할 기반의 접근 통제방법이 비교적 잘 활용되어 왔다. 기업 경계 전체에서 이와 같은 역할을 정의하는 것은 여전히 난제로 남아있는 것이 사실인데, 속성 기반의 접근 통제 정책의 이해도가 높지는 않지만, 관련된 표준이 부상하면서 이와 같은 문제점 또한 해결되고 있는 상황에 있다. 프라이버시 정책을 표현하고 가능하게 하는 표준이 아직 부족하고, 프라이버시 정책을 포괄하는 범용 도구들이 아직 존재하지 않고, 상업용 패키지들이 특정 환경에 보다 맞춤화되어 제공될 가능성이 여전히 존재한다. 

3) 조직화하기(Organize) 


데이터 소스 개발자들은 데이터의 문법, 구조, 시맨틱에 관한 조직적 선택에 있어서 심사숙고하여야 한다. 메타데이터 리포지토리로부터 가용한 부분이 가동하여야 하고, 통합하기 전에 데이터를 조직화하는데 필요한 시맨틱스를 공유하고 추적하는 기반들을 마련하여야 한다. 메타데이터 리포지토리는 상당 부분 XMI에 기반을 두고 있지만, XMI의 일방성으로 인하여 각각의 도구들은 커스터마이징된 확장판을 따로 제공하여야 한다. 데이터 분석가들은 공식적인 데이터 조직을 빠트리는 경우가 나타나곤 하는데, 이는 데이터를 공유하려고 하기보다 자신의 데이터 니즈에 기반을 둔 접근방법으로 인하여 나타나기 때문이라고 판단된다. 내부 데이터 조직에 관한 지식을 공유하는 것은 데이터 공급자의 환경과 데이터 소비자의 환경에 대한 끊임없는 통합으로 가능해진다. 

데이터 통합하기(Data Integration) 

적절하게 조직화된 데이터는 특정분석에 적합한 공통의 표현으로 결합되도록 준비된다. 각각의 통합노력은 공통표현에 관한 데이터 소스를 어떻게 정의하여야 하는지에 대한 부분과 매핑된다. 메타데이터 리포지토리는 미래 분석을 촉진시킬 수 있도록 하는 이와 같은 매핑작업을 추적할 필요가 있다. 

데이터웨어하우스와 같은 공통의 웹사이트나 공통의 리포지토리에 상관없이 이질적인 데이터소스를 통합하는 것은 새로운 정보를 발견하는데 매우 유익하다. 분석가들은 사기와 같은 패턴과 이해관계자들 간의 새로운 관계를 찾을 수 있음을 증명하였다. 

기존의 데이터 통합 기술과 이머징 시맨틱 기술들은 혼합된 데이터 리소스의 통합과 질의작업 자체를 지원하는데, 관계형 데이터베이스가 태뷸러 형태의 데이터에 가장 높은 적합성을 보이는 반면, 시맨틱 웹은 비태뷸러 형태와 비슷한 형태의 데이터 형식을 주로 지원하면서 주로 네트워크 화된 관계성을 제시하는데 적합성을 보이고 있다. 이와 같은 두 가지 기술을 통합함으로써 데이터 분석가에게 통합된 데이터셋내부에서 새로운 지식의 탐색이나 발견에 종합적인 이해가 가능한 방법들을 제공하게 된다. 


데이터 활용(Data Exploitations) 

일단 데이터가 수집되고 통합되면, 기업조직은 의사결정을 위한 작업에 착수하게 된다. 의사결정자들은 사용자에게 통찰력을 제공할 수 있는 데이터 가시화 작업을 다음과 같은 세 단계로 추진하게 된다. 

1) 분석 
통합된 데이터 소스는 분석에 대한 작업들을 추진하게 되는데, 입력물과 결과물 간에 유효성을 유지시키는 작업과 더불어 분석가들이 필요한 유효성 강화 등의 작업을 추진하는 것을 지원하게 된다. MapReduce와 같은 인기 있는 데이터 분석 기법의 경우에는 프로그래밍 모델의 생성과 대용량 데이터 셋을 처리하고 발생시키는데 있어서 연관된 구축 기법들을 지원하게 된다. 

2) 가시화 
가시화 기법에는 정적 형태의 리포트로서의 의사결정자에게 필요한 분석결과를 제공하는 것과 해당결과를 이용하고 정렬하는 다양한 방법들을 지원하게 된다. 이를 위한 주요 목표들에는 중요한 의사결정 과정을 지원할 수 있도록 만드는 필요한 일련의 작업들도 포함되어 있다. 미디어나 트레이닝과 같은 산업에는 풍부한 데이터 가시화 기법들이 포함되어 있는데, 다른 분야의 사용자들로 이를 적절하게 선택할 수 있도록 지원한다. 가상&증강 현실 기술의 경우 사용자에게 필요한 경험을 제공하고 2차원 미디어에 있어서 필요한 정보 이해를 보다 용이하도록 만들게 된다. 

3) 의사결정 
데이터 가치 체인에 있어서 최종적인 결과물은 가시화된 결과내용에 필요한 부분들을 결정하도록 만드는 부분이다. 이를 위한 도큐먼테이션 작업을 지원하고, 필요한 도큐멘테이션과 정보제공은 오리지널 소스에 대한 추적성을 가능하게 만들고, 품질작업에 있어서 필요한 주석들을 할당하게 만들며, 통합매핑과 분석 메타데이터들을 제공하여 분석가들이 필요한 결과내용에 대한 획득 작업이 가능하도록 지원하게 된다. 



원문출처 : http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6449385

출처  : KISTI 미리안 글로벌동향브리핑 2013-03-11