기존 빅데이터의 개념은 단순히 데이터의 양이 많은 것을 의미했다면 최근의 일반적인 빅데이터의 개념은 기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터 집합을 의미한다. 빅데이터의 정의에 합의된 바는 없지만, 글로벌 컨설팅 기관인맥킨지는 2019년 보고에서, 빅데이터란, 기존 데이터에 비해 너무 커서 기존 방법이나
도구로 수집, 저장, 검색, 분석, 시각화 등이 어려운 정형 또는 비정형 데이터를 의미한다. 즉, 일반적인 DB SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터를 말한다. 또한, 빅데이터는 단순히 규모만 큰 데이터일 뿐만 아니라, 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집,발굴, 분석을 지원 하도록 고안된 차세대 기술 및 아키텍처로 정의한다.
빅데이터 란 우리가 알지 못하는 새로운 것을 의미하는 것은 아니다. 우리가 지금까지 데이터라고 인식하지 못했던 것들까지 모두 데이터화 시키는 것이다. PC와 인터넷, 모바일 기기 이용이 생활화 되면서 사람들이 도처에 남긴 발자국(데이터)은 기하급수적으로 증가하고 있다.
쇼핑뿐 아니라 은행, 증권과 같은 금융거래, 교육과 학습,여가활동, 자료검색과 이메일 등 하루 대부분의 시간을 PC와 인터넷에 할애한다. 사람과 기계, 기계와 기계가 서로 정보를 주고받는 사물지능통신 (M2M, Machine toMachine)의 확산도 디지털 정보가 폭발적으로 증가하게 되는 이유다. 사용자가 직접제작하는 UCC를 비롯한 동영상 콘텐츠, 휴대전화와 SNS(Social Network Service)에서 생성되는 문자 등은 데이터의 증가 속도뿐 아니라, 형태와 질에서도 기존과 다른양상을 보이고 있다.
빅데이터는 기존의 데이터 수집, 저장, 관리, 그리고 분석 역량을 넘어서는 대량의 데이터 세트를 의미하며, 기존의 관계형 데이터와비교하여 양, 속도, 다양성 및 복잡성에서 그 차이를 볼 수 있다. 데이터에는 정형화된 데이터와 비정형화된 데이터가 있는데, 최근에 논의되고 있는 빅데이터는 정형화된 것이든 아니든 상관없이 엄청난 양의데이터를 말한다. 빅데이터에 대한 정의는 다양하지만, 기업적인 측면에서 빅데이터를 기업의 효과적인 전략 도출에 필요한 상세하고 높은 빈도로 생성되는 다양한 종류의 데이터로 정의할 수도 있다.
또한 기업 및 사회는 이러한 수집된 데이터를 기반으로 예측분석을 하기 위하여 다양한 종류의 대규모 데이터 처리, 분석 및 활용 기술을 필요로 하고 있다. 대량의 다양한 데이터 생산 기술의 진보와 이에 필요한 데이터 저장, 관리, 분석기술의 발전 속에서 빅데이터가 출현하게 된다.
기업의 입장에서는 소 데이터와 유사한 유형의 비정형 데이터뿐만 아니라 기존의제조장비 등에서 발생하는 데이터, 기존의 정보시스템에서 발생하는 데이터 등 정형의 데이터도 빅데이터화 하고 있고, 이를 수집, 저장, 처리하는 것이 중요한 이슈로 떠오르고 있다. 뿐만 아니라 최근에는 정형과 비정형, 기업외부에서 발생한 데이터와 내부에서 발생한 데이터를 결합하여 더 고도화된 함의를 추출하려는 노력도 이루어지고 있다.
㉠ 빅데이터의 특징
빅데이터를 바라보는 시각은 학자마다 다르지만, 빅데이터를 정의할 때 빼놓을 수 없는 특징들은 여섯 가지가 있다.
첫째, 양, 크기(Volume)다. 빅데이터 체계 안에서는 양 자체가 기존의 시스템으로 다루지 못할 만큼 많다. 일반 빅데이터라면 양이 많아야 한다.
둘째, 다양성(Variety)이다. 빅데이터는 다양한 형태의 데이터가 모여 형성 된다. 기록을 남기는 로그, 사진이나 비디오, SNS에 쓰는 짧은 글도 모두 빅데이터에 포함된다.
셋째, 속도(Velocity)다. 데이터가 만들어지는 속도와 처리되는 속도가 아주 빨라야 한다. 빅데이터는 스마트폰과 같은 기기를 통해 데이터가 아주 빠르게 생성되고 처리되는 특징을 가진다.
넷째, 정확성(Veracity)이다. 빅데이터를 제대로 활용하기 위해서는 데이터 사이의 불일치성, 불확실성, 근사값의 부정확성 등과 같이 모호한 데이터를 가려내서 신뢰할 수 있는 데이터를 확보해야 한다.
다섯째, 가치(Value)다. 빅데이터에는 너무 많은 데이터가 존재하고, 그 중에는 불필요한 데이터도 존재하기 때문에 유의한 가치를 얻을 수 있는 데이터를 분별해야 한다. 여섯째, 가변성(Variability)이다. 빅데이터 환경에서는 데이터의 형태조차도 급격하게 변화한다. 빅데이터는 끊임없이 변화하는 체계이다.
이렇듯 빅데이터는 아직까지 온전히 정립된 개념이 아니다. 앞으로 빅데이터 분야가 더 발전하면 추가적인 특징이 더해질 수도 있다.
㉡ 빅데이터 관련 기술
빅데이터는 단순하게 큰 용량을 말하는 것이 아니다. 현재 사용하고 있는 시스템들의 모든 데이터와 그 데이터들을 빠르게 연산 및 분석할 수 있는 방법이다. 빅데이터의 등장에 대해서 더그 레이니(Gartner's analyst)는 빅 데이터의 속성을 세 가지로 정의하였다. 그 세 가지는 각각 Volume(규모), Variety(다양성), Velocity(속도)이며, 이후 IBM에서는 Varacity(정확성)을 추가하였고, 최근 빅데이터 2.0에서는 4가지 요소에서 Value(가치)를 추가하여 5V로 정의하였다
Volume(규모)은 데이터의 발생량으로서 물리적인 크기와 데이터의 속성도 함께 포함하며, 그것을 연산 및 처리가 가능한지를 의미한다. 갈수록 커지는 데이터를 갖고 여러 가지 패턴으로 분석이 필요하기 때문에 규모의 중요성은 계속해서 증대되고 있다. Velocity(속도)는 데이터의 처리 속도를 말하며, 다량의 사용자 요청을 실시간으로처리하고, 그 결과를 반환하는 기능으로서 시간적인 의미가 크다
데이터 생성 및 처리속도를 의미하며, 3가지로 정의할 수 있다. 먼저 데이터가 발생하고 특정 저장공간에저장되기까지의 속도, 무의미한 데이터를 처리하고 필요한 데이터만을 가공하는 속도,그리고 가공된 데이터를 분석하여 의미있는 데이터로 추출하는 속도로 말할 수 있다. 이 속도들은 데이터의 접근성과 사용 가능성에 영향을 미친다.
Variety(다양성)는 기존의 정형화된 데이터들과 함께 통일되지 않은 비정형 데이터들도 분석할 수 있음을 의미한다. 사진 또는 동영상 등과 같이 기존 형식의 구조화된데이터가 아닌 다양한 형태의 데이터들도 빅데이터 기술에서는 수집 및 분석하여 다양하게 활용할 수 있게 되었다.
데이터는 현재 공공기관 및 일반 기업 등 다양한 분야에서 활용되고 있다. 특히세계적인 기업들은 서비스 이용 고객들의 데이터들을 분석하여 그 결과를 마케팅 분야 또는 기업의 기술력 향상에 성공적으로 적용하였고 그 사례는 다음 (표) 와 같다. 그 외 국내의 공공기관 및 각 지역에서도 (표) 와 같이 부처별 전문분야 또는 지역사회 발전을 위하여 빅데이터를 활용하고 있다
(기업들의 성공적인 빅데이터 활용 사례)
기업 | 사례 |
구글 |
모든 웹 페이지에 대한 제목과 내용들이 사용자들이 검색하는 단어와 얼마나 밀접한 관계를 맺고 있는지 지수로 측정하여 환산하였다. 이 작업들을 처리하기 위하여 맵리듀스와 구글의 분산파일 시스템의 결합으로 획기적으로 빠른 처리 기술을 개발하였다. |
IBM |
슈퍼컴퓨터 ‘왓슨’. 광범위한 정보를 인간의 언어를 기반으로 검색하는 기술의 힘을 입증하였다. 2011년 2월 제퍼디 퀴즈쇼에서 인간 챔피언과 겨루어 승리함으로서 그 기술력을 입증하였다. 퀴즈쇼에서 왓슨은4TB의 공간에 저장된 2억 페이지의 정보들을 활용하였다. |
아마존 |
고객들이 구매한 도서의 데이터들을 분석하여 고객들의 취향을 알아내어 추천 도서 목록을 제공한다. 전형적인 빅데이터 분석을 활용한 예 이다. |
라쿠텐 |
빅데이터 시스템을 구축하여 이를 기반으로 마케팅 활동에 힘쓰고 있다. 라쿠텐 그룹 회원들의 기본 정보와 서비스 예약 현황, 구매 현황 등을 갖고 전자 상거래 및 신용, 결제 서비스와 포털, 여행, 증권 등 다양한 부문에서 활용하고 있다. |
넷플릭스 |
미디어 콘텐츠 유통기업에 맞게 회원들의 영화 대여 목록을 갖고 취향에 맞는 새로운 영화를 추천해주는 시네매치 시스템을 구축하였다. 시네매치 경진대회를 열어 시스템의 정확도를 높이는 활동을 하기도 하였다. |
유튜브 |
이용자들이 선호하는 동영상을 따로 분류하여 제공한다. 개인별 동영상 재생에 대한 데이터가 축적되면 그것을 바탕으로 다양한 개인 맞춤서비스를 제공한다. |
자라 |
자라는 패션 트랜드에 상당히 민첩하게 움직이는 브랜드 전략을 펼치고 있다. 트랜드에 맞게 다품종 소량 생산을 추구하며 이런 생산 라인을 구축하기 위하여 상품의 수요를 예측하고 매장별 적정 납품량을 실시간 데이터 분석을 통하여 계획한다. |
(공공 빅데이터 우수사례)
기관 | 제목 | 사례 |
전라북도 | 골든타임 확보를 위한구급차 배치 운영최적화 모델 | 구급차 구급 요원 취약지역 시간대 분석을 통한 배치 최적화 |
경기도 | CCTV 설치지역 분석 및 모델 고도화 | 범죄예측지수 모델링 감시취약지수 분석을 통한 우선 설치지역 도출 |
경찰청 국가정보자원관리원 |
인공지능을 활용한과학적 민생치안 | 임장일지 기반 유사사건 여죄분석 |
국민건강 보험공단 | 국민건강 알람서비스 | 기상 환경 변수 등활용 실시간 국민관심질병 예측 서비스 |
광주광역시 | 빅데이터 분석을 통한 시내버스 효율적 운영 | 대중교통 사각지대 분석을 통한 취약지역 분석 개선 |
대구광역시 | 전기차 충전 인프라설치 입지선정 | 충전인프라 지속적인 설치와 편리한 접근성을 위한 입지지역 도출 |
남양주시 국민연금공단 |
잠재적 사회취약계층 일자리 창출 자립지원 | 사회취약계층을 선제적으로 지원하기 위해 우선지원 취약계층 선정 |
전주시 | 전주 한옥마을 관광분석을 통한 경제 활성화 | 방문객의 동선 및 상권 분석을 통한 마케팅 활용 관광정책 수립 |
한국관광공사 | 빅데이터 활용문화 관광 축제 분석 | 각 지역 문화관광 축제를 방문한 관광객들의 유출입 경로파악 |
기상청 농촌진흥청 |
기상데이터와 농산물 생산성 예측 | 기상 병충해 발생자료 등의 분석을 통한생산량 예측모델 개발 |
한국도로공사 ICT센터 |
인공지능기반도로 포장파손 실시간 탐지 시스템 | 교통하중 기후환경 등의 분석을 통한 효율적 도로유지 관리체계 구축 |
㉢ 빅데이터 활용 사례
1) 경제 및 경영 분야 활용사례
인터넷으로 시작해서 인터넷으로 마감하는 생활, 스마트폰을 이용해 정보를 검색하고 쇼핑도하고 SNS를 이용해서 실시간으로 글을 남기는 등의 다양하게 인터넷을 이용하는 동안 남는 흔적들로 모인 데이터들을 분석하면 개인의 생활 패턴, 소비성향 등을 예측할수 있고 이런 데이터를 통해서 기업들은 소비자가 원하는 것들을 미리 예측할 수 있다.
영국의 보험회사 아비바(AVIVA)는 주행거리 분석을 통한 합리적인 자동차 보험료를 제시하여 고객으로부터 좋은 반응을 얻고 있다. 혼잡 시간대와 사고 다발 지역의 운행 빈도가 낮은 운전자에게 보험료를 할인해 주는 주행거리연동보험은 기존 보험업의 관행을 깬 접근으로 고객으로부터 좋은 반응을 얻고 있다.
이는 차량 내 부착된 운행 기록 장치를 통해 실제 운전 행타가 보험사에 전송되어 이러한 자료 분석을 통해 체계적인 보험료가 산정되는 방식이다. 또한 대부분의 보험사가 꺼려하는 고위험운전자의 세분화 및 위험 수준에 근거한 자동차 운전자의 등급 산정을 통해 가입자별로 정확한 리스크 관리 수행이 용이하다.
2) 스포츠 분야 활용사례
머니볼 이론이란 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론이다. 이는 미국 메이저 리그 베이스볼 오클랜드 어슬레틱스의 구단장 빌리 빈이 리그 전체 25위에 해당하는 낮은 구단지원금 속에서도 최소비용으로 최대 효과를 거둔 상황에서 유래되었다. 빌리 빈은 하버드대에서 경제학을 전공한 폴 데 데스터를 영입하여 타율, 타점, 홈런 등 흥행 요소만을 중시하던 야구계에서 출루율, 장타율, 사사구 비율이 승부와 관련되어 있음을 간파하고 데이터를 수집, 분석, 활용하였다.
최근 들어과학기술 및 카메라 기술의 발달로 더욱 정교한 데이터의 수집이 가능해졌으며 투구의궤적 및 투수의 그립, 타구 방향, 야수의 움직임까지 잡아낼 수 있게 되었다. 류현진(LA 다저스)이 숙적 샌프란시스코 자이언츠를 상대로 시즌 14승을 따냈던 2013년 10월25일 샌프란시스코 AT&T 파크 경기장 5회말 원아웃에 스코어는 1대1, 원볼 투스트라이크 상황에서 류현진이 힘차게 71번째 공을 뿌린다. 91마일짜리 패스트볼이 뱀처럼꿈틀 거리며 홈플레이트 바깥을 타고 쏜살같이 지나간다. 볼 인지 스트라이크인지 쉽게 분간을 할 수 없었다.
그 순간 주심의 팔이 한 치 망설임 없이 힘차게 올라간다. 결과는 삼진 아웃. 이 극적인 순간 이면에는 빅데이터 분석이 있었다. 경기 전 포수 AJ엘리스는 더그아웃에 붙인 구심 스트라이크존 분석 자료를 외우다시피 들여다봤다. 좌타자인지 우타자인지, 투스트라이크 이전인지 이후인지 등 모든 상황을 가정해 분석한스트라이크존이 확률과 통계의 힘을 빌려 붉은색과 푸른색으로 표시를 하고 있다. 붉은색은 스트라이크 가능성이 높은 영역, 푸른색은 그 반대다. 오늘의 구심이 판정한 수백 수천 번의 경기 자료를 토대로 나온 자료다. 이처럼 기존의 정형 데이터뿐만 아닌비정형 데이터의 수집과 분석, 활용을 통해 최근 야구경기에서 빅데이터의 중요성은 더욱 커지고 있다.
3) 문화 분야 활용사례
인기 아이돌 그룹 ‘소녀시대’에 대한 네티즌들의 평가를 활용하여 유닛그룹인 ‘소녀시대태티서’를 구성하여 성공하였다. 소셜 분석업체인 와이즈넛은 2008년 3월부터 2009년 2월까지 ‘소녀시대’를 검색 키워드로 포털사이트와 블로그를 검색한 결과, 윤아는 외모, 태연은재능에서 가장 높은 평가를 받고 있으며, 막내 서현은 이미지 면에서 네티즌들의 가장 큰지지를 받고 있는 것으로 조사 되었다.
이런 결과를 바탕으로 SM엔터테인먼트는 태연, 태파니, 서현 3 의 멤버로 구성된 ‘소녀시대-태티서’를 결성하여 미니음반 ‘TWINKLE'을 발표하였다. 인터넷 게시글을 수집하여 텍스트 마이닝 기법을 활용한 소녀시대의 이미지 분석이음악적 재능과 퍼포먼스, 스타일 등을 고려한 유닛그룹을 결성하는 계기가 되었다.
4) 의료분야 활용사례
빅데이터를 활용하면 미국 의료부문은 연간 3,300억 달러(미 정부 의료 예산의 약8%에 해당하는 규모)의 직간접적인 비용 절감 효과를 보일 것으로 전망했다. 특히 임상분야에서는 의료기관 별 진료방법, 효능, 비용 데이터를 분석하여 보다 효과적인진료방법을 파악하고 환자 데이터의 온라인 플랫폼화로 의료협회 간 데이터 공유로 치료 효과를 제고하며 공중보건 영역에선 전국의 의료 데이터를 연계하여 전염병 발생과같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망이다.
미국 국립암연구소는 암 환자에 대한 빅데이터를 분석해 암 발생의 원인을 밝혔다고한다. 또한 환자의 상태와 가족력 등을 분석하여 이를 고려한 식단, 운동, 치료가 가능한 이른바 맞춤형 의료가 가능할 것이라고 한다. 빅데이터와 같은 ICT가 의료 분야에응용되면서 의료의 패러다임이 바뀌고 있다. 그 동안 의료는 병에 걸리면 치료를 한다는 치료의 개념이 강했지만 빅데이터를 활용하면 질병을 원천적으로 차단하는 예방 의료가 가능해진다.
참고자료
google.co.kr
과학기술정보통신부
국회도서관 학술자료
과학기술연감(과학기술부, 1999)
'교육.입시(자연계열 자료실)' 카테고리의 다른 글
AI가 바꿀 일자리 (32) | 2024.10.21 |
---|---|
신소재 (66) | 2024.10.17 |
인공지능 기술 (73) | 2024.10.17 |
자율주행 자동차 (45) | 2024.09.25 |
인공지능 (10) | 2024.09.22 |