2020/08/26 - [Learn/TensorFlow] - TensorFlow 학습 #1 A.I. / MachineLearning / DeepLearning
잡담
이전 글도 그렇고, 사실 대학 강의 때문에 시작한거지만... 처음에 개요로 몇가지만 짚고 넘어가는 내용을 엄청 파고 들고 있다. 쓸모 없는 일은 아닌데 현 종사중인 일도 있는 상황에 부담스럽긴 하다. 하지만, 이렇게 달려놓지 않으면 정작 바쁠 때 정말로 학업에 일시적으로 손을 떼야하는 상호아이 발상한다. 그것도 뗄 수 없을 때.
빅 데이터(Big Data)
정의
기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 즉, 기존의 데이터베이스로는 처리하기 어려울 정도로 방대한 양의 데이터를 의미한다.
특징
3V라 하여 세가지로 요약하는 것이 빅 데이터 특징을 일반적으로 표현하는 방법이다.
나무위키 버전
정확성(Veracity)
빅 데이터 시대에는 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있다. 하지만 정보의 양이 많아지는 만큼 신뢰성이 떨어지기 쉽다. 따라서 빅데이터를 분석하는데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 대두되었고, 이러한 측면에서 새로운 속성인 정확성이 제시되고 있다.
가변성(Variability)
최근 소셜미디어의 확산으로 자신의 의견을 웹사이트를 통해 자유롭게 게시하는 것이 쉬워졌지만 실제로 자신의 의도와는 달리 자신의 생각을 글로 표현하게 되면 맥락에 따라 자신의 의도가 다른 사람에게 오해를 불러일으킬 수 있다. 이 처럼 데이터가 맥락에 따라 의미가 달라진다고 하여 빅데이터의 새로운 속성으로 가변성이 제시되고있다.
시각화(Visualization)
빅데이터는 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정을 거친다. 이때 중요한 것은 정보의 사용대상자의 이해정도이다. 그렇지 않으면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무용지물이 될 수 있기 때문이다.
데이터의 생성 속도(Velocity)
데이터들이 실시간에 가깝게 생산될 뿐만 아니라 처리되고 분석된다.
데이터의 양(Volume)
데이터의 양이 커지면서 수십 테라에서 수십 페타바이트 이상으로 증가한다.
데이터의 다양성(Variety)
데이터의 종류는 매우 다양하므로, 정형화 정도에 따라 정형, 반정형, 비정형으로 구분한다.
1. 정형(Structured) : 구조화된 데이터, 고정된 필드에 저장된 데이터로 관계형 데이터베이스, 스프레드시트, CSV 파일등이 이에 해당한다.
2. 반정형(Semi-Structured) : 고정된 필드는 아니지만 스키마를 포함하는 데이터, 연산이 불가능하다. XML, HTML, JSON 등의 형태다.
3. 비정형(Unstructured) : 고정된 필드에 저장되어 있지 않은 데이터, 연이 불가능하고 일정한 형태가 없다. 소셜 미디어, 영상, 이미지, 음성, 텍스트 등의 형태다.
활용 사례
예측과 분류를 통한 의사결정 최적화가 대표적이다. 예시로는 재난 재해 예측, 마케팅을 활용한 추천 시스템이나 챗봇같은 것이 있다.
'Learn > TensorFlow' 카테고리의 다른 글
TensorFlow 학습 #5 텐서플로우 연산구조 (0) | 2020.09.05 |
---|---|
TensorFlow 학습 #4 - 설치 및 실행 (0) | 2020.09.04 |
TensorFlow 학습 #3 - 머신 러닝 (0) | 2020.08.26 |
TensorFlow 학습 #1 A.I. / MachineLearning / DeepLearning 간단한 설명과 셋의 관계 (0) | 2020.08.26 |