빅데이터의 가치를 높이는 기술, 데이터 시각화
빅데이터 활용의 중요성은 점차 커지고 있습니다. 빅데이터에 가치를 더하고 이를 통해 사용자에게 인사이트를 제공하는 기술인 데이터 시각화에 대해 알아보세요.
모든 분야에서 데이터의 중요성에 대한 사회적 인식이 높아지고 있습니다. 실제로 정치, 사회, 경제, 문화, 과학기술 등 우리 삶과 관련된 모든 영역에서 데이터는 목표 달성을 위한 지표나 근거로 활용되고 있습니다. 정보화 시대에 접어들면서 데이터 수집이 쉬워지고, 보다 세밀한 데이터가 수집되기 시작했습니다. 수십 테라바이트에서 수 페타바이트에 이르는 데이터를 의미하는 '빅 데이터'라는 개념은 일반적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 허용 한계를 넘어서는 개념으로 등장했습니다.
빅데이터는 수집, 저장, 분석, 처리하기 어려운 대량의 데이터를 의미합니다. 다양한 형태의 대규모 데이터를 생성, 수집, 분석, 표현하는 것이 특징인 빅데이터를 다루는 기술의 발전은 다변화된 현대 사회를 보다 정확하게 예측하는 데 도움을 줍니다. 이러한 기술의 발달로 개인화된 사회에서 구성원 개개인에게 맞춤형 정보를 제공, 관리, 분석하는 것이 가능해졌습니다.
하지만 빅데이터 기술의 핵심은 얼마나 많은 데이터를 보유하고 있느냐가 아니라 수집된 빅데이터를 어떻게 활용하느냐에 달려 있습니다. 모두가 알고 있는 정보는 정보가 아니듯, 데이터의 단순한 나열이나 수집 자체는 큰 의미가 없습니다.
빅데이터의 가치를 높이는 기술
빅데이터를 잘 활용하려면 어떻게 해야 할까요? 빅데이터에 가치를 더하기 위해서는 먼저 데이터 전처리와 데이터 시각화라는 두 단계를 거쳐야 합니다. 데이터 전처리는 데이터를 기술적으로 수집하고 정제하는 데이터 처리 단계부터 분석 기법을 활용한 데이터 분석에 이르는 과정에 필요한 기술입니다. 방대한 양의 원시 데이터를 분석 목적과 분석 방식에 적합한 형태로 가공하는 과정입니다.
현대로템은 철도차량 상태기반 유지보수(CBM) 시스템의 일환으로 철도차량에서 수집된 다양한 빅데이터를 분석해 열차 및 부품의 고장을 실시간으로 진단하고 예측하는 플랫폼을 개발 중입니다. 또한 빅데이터 수집, 전처리, 분석 기술을 활용한 빅데이터 관리 기술을 바탕으로 수소전기트램과 수소충전시설의 실시간 운행 및 고장 데이터를 활용한 디지털 트윈 기술을 적용한 수소 통합관제시스템 데모 버전을 2021년 부산국제철도물류전시회에서 선보인 바 있습니다. 수집된 빅데이터를 목적에 맞게 정제 후 사용자 눈높이에서 시각화 기술을 결합하여 인사이트를 제공하는 대표적인 사례가 빅데이터 활용 기술입니다.
"현대로템의 빅데이터 전처리 기술" 자세히 알아보기
https://tech.hyundai-rotem.com/en/digital/hyundai-rotems-big-data-preprocessing-technology/
데이터 시각화란?
데이터 시각화 기술은 수집된 빅데이터의 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 기술을 말합니다. 데이터 시각화가 빅데이터 기술의 중요한 요소로 떠오르는 이유는 인간의 인지 처리와 관련이 있습니다. 인간은 다른 어떤 감각보다 시각 정보에 친숙하며, 정보의 약 80%는 시각을 통해 얻습니다. 또한 시각화된 데이터는 청각 데이터에 비해 정보의 밀도가 높고 시간과 공간의 제약이 적다는 점도 데이터 시각화의 유용성을 뒷받침합니다.
데이터 시각화라고 하면 차트나 그래프와 같은 형태를 떠올리기 쉽습니다. 이러한 형태도 데이터 시각화의 한 예이지만, 최근의 데이터 시각화는 좀 더 발전된 형태를 취하고 있습니다. 수집된 데이터가 정형화된 문자나 숫자의 형태를 벗어나 이미지, 영상 등 비정형 데이터가 등장하면서 차트나 그래프로 표현하는 데는 한계가 있기 때문입니다. 즉, 데이터 시각화의 개념이 차트나 표로 데이터를 표현하는 기존의 의미에서 인간이 이해할 수 없는 비정형 데이터를 이해하기 쉬운 형태로 정리하는 기술이라는 의미로 점차 변화하고 있습니다.
데이터 시각화에는 다양한 유형이 있습니다. 데이터의 의미를 더 쉽게 찾고 이해할 수 있도록 도와줍니다. 대표적인 유형으로는 막대형 차트, 꺾은선형 차트, 영역형 차트, 도넛형 차트, 분산형 차트, 거품형 차트, 방사형 차트, 프레임 다이어그램, 깔때기형 차트, 간트형 차트 등이 있습니다.
막대형 차트는 데이터를 막대로 표현하여 다양한 항목의 수치를 전체적으로 비교하기 쉽다는 장점이 있습니다. 사람의 눈은 높이 차이에 민감하기 때문에 데이터의 최고가와 최저가를 비교할 때 유용할 수 있지만, 분류가 많아지면 데이터의 특성을 표현하기 어렵다는 단점이 있습니다. 꺾은선형 차트는 좌표축에 점으로 데이터를 표현하고 이 점들을 연결하여 시간에 따른 데이터 변화를 선형적으로 관찰할 수 있도록 데이터를 시각화한 것입니다. 주로 데이터의 추세를 파악하는 데 사용되며, 무질서한 데이터의 특성을 표현하는 데는 적합하지 않습니다. 면적 차트는 선이나 점이 아닌 도형의 면적을 사용하여 통계 수치의 크기를 시각화하는 방법입니다. 꺾은선형 차트와 마찬가지로 시간에 따른 데이터의 변화를 표현하는 데 사용됩니다. 하지만 꺾은선형 차트와 달리 데이터의 양을 시각적으로 표현하는 특징이 있습니다.
도넛형 차트는 데이터의 전체 항목 중 각 부분의 비율을 부채꼴 모양으로 배열하여 백분율로 표현하는 시각화 방법입니다. 전체에 대한 각 부문의 중심 각도의 비율을 의미하며, 각 항목의 비율을 한눈에 파악할 수 있어 통계 수치를 비교할 때 자주 사용됩니다. 산점도는 두 개의 연속적인 변수 사이의 상관관계를 한 변수를 X축에, 다른 변수를 Y축에 배치하여 시각화한 그래프입니다. 주로 각 변수의 변화에 따른 상관관계를 파악하는 데 사용됩니다. 버블 차트는 데이터의 값을 동그란 버블의 크기로 표현하는 시각화 방법입니다. 버블 차트 자체는 데이터 값의 크기만 표현할 수 있습니다. 하지만 스캐터플롯 기능을 추가하면 X축과 Y축의 변수와 해당 변수의 결과값도 표현할 수 있어 3차원 데이터를 표현할 때 유용합니다.
레이더 차트는 평가 항목이 여러 개일 때 항목 수에 따라 원을 나누고 중앙에서 일정한 간격으로 눈금을 측정하여 각 평가 항목의 정량화된 값에 따라 해당 위치에 점을 그리고 선을 만들어 항목 간의 균형을 한 눈에 볼 수 있도록 한 차트입니다. 예를 들어 특정 제품의 품질을 평가하기 위해 디자인, 가격, 편의성, 독창성 등에 점수를 매겨 레이더 차트로 그리면 제품의 특성을 한눈에 파악하기 쉽습니다. 게임 캐릭터나 운동선수의 능력을 표현할 때도 자주 사용됩니다.
프레임 다이어그램은 계층 구조를 나무 형태로 표시하는 시각화 방법의 일종으로 데이터의 계층적 관계를 명확하게 표현하기 위해 사용되며, 깔때기 차트는 지표가 단계적으로 어떻게 변화하는지 한눈에 표현하기 위한 목적으로 사용됩니다. 간트 차트는 타임라인을 가로 막대로 표시하는 시각화 방법으로, 주로 프로젝트와 프로젝트에 포함된 작업의 일정을 정리하는 데 사용됩니다.
데이터 시각화의 장점
데이터 시각화의 첫 번째 장점은 방대한 양의 데이터를 한눈에 볼 수 있다는 점입니다. 예를 들어 '서울시 생활이동인구 데이터'를 원시 형태로 보면 데이터에서 유의미한 추세를 찾기 어려울 뿐 아니라 검토할 수 없을 정도로 방대한 숫자가 나옵니다. 하지만 이를 시각화하면 데이터 분석 전문가가 아니더라도 시간, 지역, 성별 등 다양한 조건에 따라 서울시의 인구를 한눈에 파악할 수 있습니다.
또 다른 장점은 데이터 시각화가 요약 통계보다 더 정확한 분석 결과를 도출할 수 있다는 점입니다. 일반적으로 시각적 정보는 분석 결과를 다른 사람에게 '보여주기' 위한 목적으로 사용됩니다. 데이터 시각화는 단순히 데이터 분석 결과를 전달하기 위한 목적뿐만 아니라 정확한 분석을 위한 데이터 탐색 방법으로서도 활용도가 높습니다. 즉, 시각화는 다음에서도 중요한 역할을 합니다.
위 그림은 데이터 시각화 분야의 유명인사인 알베르토 카이로의 데이터 세트인 데이터사우루스(Datasaurus, 일반 통계처럼 보이지만 시각화하면 공룡처럼 보이는 데이터 집합)와 소수점 두 자리까지 동일한 요약 통계를 가진 12개의 데이터 세트의 차이를 보여주는 연구 사례입니다. 공룡 형태로 배포된 차트와 아래 12개의 차트는 소수점 둘째 자리까지 평균, 분산, 표준편차 등 주요 지표가 모두 동일한 데이터이지만 소수점 셋째 자리 이하 수치를 변경하여 시각화하면 전혀 다른 패턴이 나타납니다. 이는 숫자로 요약된 통계만으로는 숫자의 정확한 의미를 도출하는 데 한계가 있으며, 시각화해야만 의미 있는 차이를 발견할 수 있다는 메시지를 전달합니다. 이러한 연구 결과를 통해 데이터 시각화는 단순히 데이터를 요약하는 것을 넘어 데이터를 이해하고 활용할 수 있는 인사이트를 제공하는 데 필수적이라는 것을 확인할 수 있습니다.
앞서 언급했듯이 데이터 시각화는 데이터 분석 과정에서 인사이트를 도출하고 방대한 양의 데이터를 보기 쉽게 정리하여 많은 사람들이 데이터를 활용할 수 있도록 도와줍니다. 데이터 시각화의 또 다른 장점은 이러한 특성을 바탕으로 데이터 기반의 의사결정을 용이하게 한다는 점입니다. 예를 들어 보고서나 프레젠테이션 문서에 삽입된 시각화 차트는 메시지 전달을 효과적으로 뒷받침하는 근거 자료로도 활용됩니다.
데이터 시각화 결과를 공유하는 대표적인 방법은 데이터 대시보드입니다. 데이터 대시보드는 여러 개의 시각화 차트와 표로 구성되며, 중요한 데이터 지표를 모니터링하는 데 사용됩니다. 대부분의 데이터 대시보드는 사용자가 데이터 조회 기간을 선택하거나 특정 기준에 따라 데이터를 필터링할 수 있는 대화형 기능을 제공하여 데이터를 자유롭게 탐색할 수 있습니다.
이러한 특성 덕분에 데이터 대시보드는 기업과 조직에 매우 유용합니다. 많은 조직 구성원이 공통의 데이터 대시보드를 공유하고 다양한 관점에서 데이터를 탐색하여 인사이트를 도출할 수 있기 때문입니다. 특히 데이터 대시보드는 시각화 차트로 구성되어 있기 때문에 데이터 분석 전문가가 아니더라도 다양한 기능을 통해 데이터를 유용하게 활용할 수 있습니다. 이를 기반으로 기업이나 조직은 쉽게 발견하지 못했던 문제점을 발견하고 정확한 데이터를 기반으로 중요한 의사결정을 내릴 수 있습니다.
데이터 시각화는 어디에 어떻게 사용하나요?
많은 기업들이 데이터의 활용도를 높이기 위해 데이터 시각화를 도입하고 있습니다. 사내 성과 지표를 추적하고 데이터 기반 마케팅을 활성화하기 위한 목적으로 데이터 대시보드를 구축하여 활용하고 있습니다. 예를 들어 금융권에서는 은행의 핵심 경영 지표, 조직 단위별 업무 성과 모니터링, 숫자가 아닌 고객 특성에 따른 비정형 정보 분석 등 다양한 데이터를 만들어 업무의 효율성을 높이고 있습니다. 언론과 미디어는 데이터 기반의 스토리텔링에 중점을 둔 데이터 저널리즘을 실현하기 위해 데이터 시각화를 적극적으로 활용하고 있습니다. 데이터를 활용한 콘텐츠 제작으로 객관성과 신뢰성을 높이면서 독자에게 효과적으로 스토리를 전달하기 위해 시각화 기법을 활용하고 있습니다.
데이터 시각화의 활용도가 높아지면서 누구나 쉽게 데이터 시각화를 구현할 수 있는 다양한 솔루션이 등장했습니다. 대표적인 예로 Microsoft의 Power BI와 Tableau를 들 수 있습니다. Power BI는 언제 어디서나 모든 데이터에 접근하여 한눈에 볼 수 있는 데이터 활용 도구로 70여 종의 데이터 커넥터를 제공하기 때문에 다양한 데이터 원본을 시각화할 때 유용합니다. 마찬가지로 Tableau는 복잡한 데이터 원본을 시각적으로 분석하는 도구로서 누구나 쉽게 데이터 시각화에 접근할 수 있도록 다양한 시각화 기능을 제공합니다. 또한, 오라클 OBIEE, SAP 애널리틱스 클라우드, 마이크로스트레티지, 도모 등 다양한 데이터 시각화 솔루션이 있습니다.
현대로템의 데이터 대시보드 활용 사례
현대로템은 2018년부터 열차 빅데이터를 활용해 스마트 유지보수의 일환인 상태기반 유지보수(CBM)와 예지보전을 가능하게 하는 빅데이터 분석 플랫폼을 개발해 왔습니다. 이 플랫폼은 각 프로젝트의 요구사항에 따라 구축 방식과 활용 방법이 조금씩 다릅니다. 주요 시스템의 센서 데이터 수집과 분석에 초점을 맞춘 빅데이터 분석 플랫폼 형태가 있는가 하면, 실시간 모니터링과 진단을 통해 운영자에게 보다 직관적인 열차 상태를 제공하는 플랫폼 형태도 있습니다. 이 모든 플랫폼은 사물인터넷(IoT) 기술을 활용해 각종 센서와 데이터 수집 장치에 연결, 철도 차량의 정보를 수집하고 분석해 필요한 조치를 즉시 취할 수 있어 스마트한 열차 운행과 유지보수를 수행할 수 있습니다.
데이터 시각화 및 데이터 대시보드를 통해 관리자는 이 시스템의 문제를 쉽게 파악하고 해결할 수 있습니다. 열차에서 실시간으로 수집되는 수많은 데이터는 수치만으로는 단시간 내에 문제를 파악하기 어렵습니다. 하지만 데이터 전처리와 시각화를 통해 직관적으로 문제를 파악하고 해결할 수 있는 시스템을 구축한 사례입니다. 예를 들어 현대로템은 상태기반 유지보수 시스템 데이터 대시보드에서 진단 구성품의 이벤트 결과, 진단 구성품의 점수, 열차의 주행거리, 진단 구성품의 잔여 수명, 진단 구성품의 정비 이력, 열차 누적 고장 건수, 시스템별 고장 건수, 차량별 고장률, 고장 TOP 10 분석, 위치별 고장 건수 등 다양한 데이터를 쉽게 확인할 수 있습니다. 관리자는 데이터를 시각화한 대시보드를 통해 데이터를 기반으로 열차의 현재 상태를 파악하고 고장 발생 가능성을 예측하여 승객에게 안전한 열차 이용 환경을 제공할 수 있습니다.
현대로템은 열차 유지보수 외에도 열차 내 각종 데이터를 실시간으로 모니터링해 진단을 용이하게 하는 시각화를 통해 운영자와 유지보수자가 보다 효율적으로 열차를 관리할 수 있도록 인사이트를 제공하고 있습니다. 열차 실시간 모니터링 진단 플랫폼은 데이터 대시보드를 통해 열차의 실내 온도, 승객 수, 점멸 상태, 추진/제동 명령, 가선 전압, 배터리 전압, 주 공기압 등의 정보를 실시간으로 파악해 열차 내 환경을 최적으로 관리합니다.
기존의 데이터 활용 방식은 흩어져 있는 데이터를 일일이 읽고 분석하여 문제점을 파악하고 해결책을 도출하는 형태로 진행되었습니다. 이는 시간과 노력이 많이 소요될 뿐만 아니라 전문 분석가가 아닌 일반인이 접근하기에도 어려웠습니다. 하지만 데이터를 수집하고 분석하는 기술이 발달하고 이를 효과적으로 보여주는 데이터 시각화 기술이 보편화되면서 방대한 양의 데이터를 한 화면에 구현하여 효율적으로 문제를 파악하고 빠르게 의사결정을 내릴 수 있게 되었습니다.
실제로 해외에서는 데이터를 활용한 스마트 유지보수 플랫폼을 도입해 유지보수 비용을 기존 대비 최대 30%까지 절감한 사례도 있습니다. 물론 이러한 비용 절감 효과가 데이터 시각화의 전부는 아니지만, 데이터를 의사결정에 활용하는 최종 형태가 시각화라는 점에서 데이터 시각화의 중요성은 매우 높습니다. 최근 데이터를 어떻게 확보하느냐보다 어떻게 활용하느냐가 더 중요해지는 추세에 따라 데이터의 가치를 높이는 기술인 데이터 시각화에 대한 관심도 높아지고 있습니다.
https://tech.hyundai-rotem.com/en/digital/technology-to-value-big-data-data-visualization/
'Bigdata Hadoop' 카테고리의 다른 글
2024 빅데이터 시각화 가이드 (0) | 2024.07.02 |
---|---|
가장 인기 있는 10가지 빅 데이터 분석 도구 (1) | 2024.07.02 |
빅 데이터를 위한 상위 10가지 Hadoop 분석 도구 (0) | 2024.07.02 |
라즈베리파이 하둡 클러스터 설치 가이드 (1) | 2024.07.02 |
사물인터넷(IoT) 함께하는 빅데이터 교육 과정 (0) | 2023.01.20 |
라즈베리파이4 빅 데이터 교육 과정 (0) | 2023.01.12 |
비지도 학습 기반 빅데이터 라벨링 기술 동향 (0) | 2021.05.03 |
e-koreatech 인공지능 및 빅데이터 관련 과정 안내 (0) | 2021.05.03 |
더욱 좋은 정보를 제공하겠습니다.~ ^^