데이터 특성
1. 존재적 특성 : 객관적 사실(fact)
2. 당위적 특성 : 추론/예측/추정/전망을 위한 근거(basis)
데이터 유형
1. 정성적 데이터 : 비정형 데이터 ex) 언어, 문자 등등
2. 정량적 데이터 : 정형 데이터 ex) 수치, 도형, 기호 등등
데이터 단위
킬로바이트 < 메가바이트 < 기가바이트 < 테라바이트 < 페타바이트 < 엑사바이트 < 제타바이트 < 요타바이트
데이터와 정보
DIKW 피라미드 모형
D 데이터 : 가공전 순수한 수치나 기호 (A카페 3500원, B카페 4500원)
I 정보 : 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터 (가격비교 A카페 < B카페)
K 지식 : 상호 연결된 정보 패턴을 이해하고 이를 토대로 예측한 결과물 (더싼 A카페에서 커피를 산다)
W 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 (다른 커피도 A카페가 더 저렴하다고 판단)
데이터 기반의 지식 경영
지식의 형태
1. 암묵적 지식 : 언어로는 설명할 수 없는 전적으로 개인의 경험이나 잠재적인 능력에서 비롯되는 지식 ex) 느낌, 감각, 노하우 등등
2. 형식화된 지식 : 언어로 명료화되어 전달될 수 있는 지식 ex) 말로 설명, 그림, 동영상, 글, 사진 등
지식변환 프로세스
공통화 >> 표출화 >> 연결화 >> 내면화 순으로 반복한다.
1. 공통화 : 암묵적 지식을 타인에게 알려주는 것
2. 표출화 : 암묵적 지식을 책이나 교본등 형식지로 만드는 것
3. 연결화 : 책이나 교본에 자신이 알고 있는 새로운 지식(형식지)을 추가하는 것
4. 내면화 : 만들어진 책이나 교본을 보고 다른 직원들이 암묵적 지식을 습득 하는 것
데이터 베이스 정의
데이터 무결성 유지 및 최종 저장하는 역할
저장된 정보를 사용자에 의해 운영될 수 있게 함
데이터 베이스 특징
1. 통합데이터 : 똑같은 데이터가 원칙적으로 중복되어 있지 않음
2. 저장데이터 : 컴퓨터가 접근가능한 저장매체에 저장
3. 운영데이터 : 한 조직의 고유한 기능을 수행하기 위해 필요한 데이터
4. 공용데이터 : 한 조직의 여러 응용프로그램이 공동으로 소유/유지/이용하는 데이터
정보 이용 측명에서의 특징
1. 정보의 축적 및 전달 측면 : 기계가독성, 검색가독성, 원격조작성
2. 정보 이용 측면 : 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득
3. 정보 관리 측면 : 정보를 일정한 질서와 구조에 따라 정리, 저장, 검색, 관리하여 정보를 체계적으로 관리해 추가 및 갱신 용이
4. 정보기술 발전 측면 : 네트워크 기술으 발전을 견인
5. 경제/산업 측면 : 경제, 산업, 사회 활동을 효율성 제공 국민의 편의 증진
데이터베이스의 구성요소
1. 외부스키마 : 실세계에 존재하는 데이터를 어떤 형식, 구조, 배치 화면을 통해 사용자에게 보여 줄것인지 정의
2. 개념스키마 : 데이터베이스의 전체적인 논리적 구조
3. 내부스키마 : 물리적인 저장장치 입장에서 db가 저장되는 방법을 기술한 구조
4. 메타데이터 : 데이터에 관해 구조화된 데이터, 다른 데이터를 설명해주는 데이터
5. 테이블 : 행 열로 구성된 데이터 집합
6. 인덱스 : 테이블의 검색 속도 향상을 위한 오브젝트
7. 뷰 : 다른 테이블을 기반으로 만들어진 가상 테이블
8. 데이터사전(=시스템 카탈로그) : 시스템 전체에서 나타나는 데이터 항목들에 대한 정보를 지정한 저장소
데이터베이스 설계 절차
1단계 : 요구사항 분석 ex) 요구사항 정의서
2단계 : 개념적 설계 ex) ER 다이어그램
3단계 : 논리적 설계 ex) 릴레이션 스키마
4단계 : 물리적 설계
5단계 : 구현
데이터베이스 언어 sql
데이터 정의어 DDL : CREATE, ALTER, DROP
데이터 조작어 DML : SELECT, INSERT, UPDATE, DELETE
데이터 제어어 DCL : GRANT, REVOKE
트랜잭션제어어 TCL : REROLL, COMMIT
데이터베이스 관리시스템 유형
네트워크형 DBMS : 데이터를 그래프 구조로 표현하는 데이터 모델, 복잡하고 변경어려움
계층형 DBMS : 데이터를 트리구조로 표현하는 데이터 모델, 복잡하고 변경어려움
관계형 DBMS : 열과 행으로 이루어진 2차원 테이블 형태로 구성 (오라클, 엑세스, mysql등등)
객체지향형 DBMS : 비정형 복합 구조 데이터 확산에 따른 어려움 해소, 같은 행위의 객체는 하나의 클래스로 클래스 연산은 매서드로 정의 ( ObjectDB )
객체관계형 DBMS : 관계형 DBMS + 객체지향형 DBMS (PostgreSQL)
NOSQL DBMS : 데이터의 읽기보다 쓰기에 중점을 두고 수평확장 가능, 비정형 데이터 저장및 처리가능 ( MongoDB, Redis )
데이터 웨어하우스
사용자의 의사결정 지원을 위해 기업이 축적한 많은 데이터를 사용자 관점에서 주제별로 통합하여 운영시스템과 사용자 사이의 별도의 장소에 저장해 놓은 데이터 베이스
데이터 마트
하나의 주제 또는 하나의 부서 중심의 작은 규모를 가진 데이터웨어하우스
데이터 웨어하우스 특징
1. 주제중심 : 분석하고자 하는 데이터를 일상적인 트랜잭션을 처리하는 주제중심으로 시스템을 구조화
2. 통합구조 : 기존 운영시스템의 데이터를 추출하여 사용자의 요구에 맞게 표준화 및 통합화
3. 시계열성 : 최신 데이터를 보유하고 있으며, 시간순으로 데이터가 어떻게 변했는지 이력 데이터를 보유
4. 비휘발성(영속성) : 초기 데이터 적재 이후에는 데이터의 갱신/삭제 없이 검색/조회만 수행
OLTP OLAP 비교
OLTP : 트랜잭션 중심으로 거래, 데이터의 정확한 처리 기능 제공이 중요, 동적, 순간적으로 처리
OLAP : 요청된 조건에 맞는 대용량 데이터를 검색하여 다양한 뷰 제공이 중요, 정적, 주기적으로 처리
데이터레이크
조직에서 수집한 정형/비정형/반정형 데이터를 변함없이 원형 데이터로 저장하는 단일한 데이터 저장소
구조화된 데이터 : RDBMS테이블, CSV파일, XML, 로그, JSON
구조화되지 않은 데이터 : PDF, 워드문서, 텍스트파일, 이메일 등
바이너리 데이터 : 오디오, 비디오, 이미지파일
기업 데이터베이스 활용
OLTP 보편화 후 OLAP 데이터 활용성증대
전사적자원관리(ERP) : 인사/재무/생산 등 기업의 전 부분 시스템을 통합해 하나의 자원으로 관리, 재무 및 생산성 효율화하는 경영관리 시스템
고객관계관리(CRM) : 기업이 고객과 관련된 내/외부 자료를 분석/통합해 고객중심 자원을 극대화하고, 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획/지원/평가 및 관리하는 시스템
공급망관리(SCM) : 원재료의 생산/유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 시간과 장소에 제공하기 위한 시스템
비즈니스 인텔리전스(BI) : 기업이 보유한 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스
BA : 통계적이고 수학적인 분석에 초점
시험범위 x 추가내용
EAI > ESB > API Gateway, Event Bus(Kafka, RabbitMQ)
EAI : 중앙허브형, 유연성 낮음, 확장성 낮음, 구형 초창기 통합
ESB : 분산 버스형, 느슨 결합, 유연성 높음, 확장성 높음 , MSA통합이나 클라우드환경에 쓰임
API Gateway + Event-Driven 시스템
API Gateway
외부 요청을 한 곳(API Gateway)으로 모아서 관리 (nginx)
인증, 라우팅, 속도 제한, 로깅 등을 처리
Event-Driven
아예 "요청-응답" 방식이 아니라,
시스템끼리 이벤트를 발행하고 구독하는 식으로 통신
Kafka, RabbitMQ 같은 메시지 큐를 써서 시스템 간 결합도를 확 낮춤
B2B : 기업 ↔ 기업
B2C : 기업 ↔ 소비자
C2C : 소비자 ↔ 소비자
B2G : 기업 ↔ 정부
G2C : 정부 ↔ 개인
각 산업분야별 데이터베이스 활용
제조부문
ERP, CRM, SCM, BI등 비즈니스의 중심으로 사용
금융부문
핀테크 분야에서 가장 핵심은 신용평가
EAI, EPR, e-CRM 을 통한 정보공유 및 통합
EAI는 기업내부 여러 시스템을 통합하는 솔루션
데이터웨어하우스 도입, 데이터베이스를 통한 마케팅 강화 BI활용증대
마이데이터 서비스, 블록체인, 인공지능 기술적용을 위한 데이터 활용 확대
유통부문
CRM, SCM구축
상거래를 위한 인프라와 지식관리시스템KMS를 위한 백업시스템 구축
IoT, 로봇등에 데이터 활용
KMS : 기업 및 조직 내 지식을 수집, 저장, 공유 및 검색할 수 있도록 지원하는 시스템
사회기반 데이터베이스 활용
물류부문
종합물류정보망 : 실시간 차량추적, 전자지도 상에서 차량위치 확인 등등
부가가치통신망 : 기본 통신망을 기반으로 다양한 부가 서비스 제동하는 통신망
지리부문
국가지리정보체계(NGIS), 전역위치결정시스템(GPS)등
교통부문
지능형교통시스템(ITS)
의료부문
의료 EDI
교육부문
교육행정정보시스템(NEIS)
-------------------------------------
빅데이터
데이터양의 큰 데이터(정형/반정형/비정형)
기존데이터베이스 관리도구로 데이터를 수집,저장,관리,분석할 수 있는 역량을 넘어서는 정형,비정형 데이터 집합
빅데이터 특징
Volume(크기) : 물리적 데이터 양의 증가 (수십 페타/엑사/제타바이트 데이터)
Variety(다양성) : 데이터의 다양성을 의미 (정형/반정형/비정형)
Velocity(속도) : 실시간에 가까운 빠른 수집 및 처리 속도를 의미
Value(가치) : 비즈니스에 실현될 궁극적 가치에 중점, 가치 창출의 의미
>>>>
5V : Veracity(진실성)
6V : Visualization(시각화), Validity(정확성), Volatility(휘발성)
빅데이터가 만들어내는 변화
사전처리>사후처리
표본조사>전수조사
질>양
인과관계>상관관계
빅데이터 활용기술
수집기술 : ETL, 크롤링, OpenApi, 스쿱, 카프카
저장 : RDBMS, NoSQL, 분산파일시스템(GFS, HDFS)
처리/관리 : 하둡, 맵리듀스, HDFS
분석/시각화 기술 : 텍스트 마이닝, 머신러닝, 파이썬, SPSS, R, SAS, 태블로
빅데이터 가치 산정이 어려운 이유
데이터 활용방식 : 재사용, 재조합이 많아서 어떤 데이터가 활용될지 예측이 어렵다.
가치 창출 방식 : 기존에 없던 새로운 가치를 창출함에 따라 가치 측정이 어렵다
가치경계 측정방식 : 가치있는 데이터와 없는 데이터의 경계를 식별하기 어려움
빅데이터의 영향
기업
혁신 : 빅데이터를 활용해 행태정보, 시장변동을 예측해 비즈니스 모델 혁신 및 신사업 발굴
경쟁력제고 : 원가절감, 제품 차별화, 기업활동의 투명성 제고등에 활용해 경쟁사보다 경쟁력 확보
생산성 향상 : 효율성이 증가해 산업 전체 생산성 향상 및 국가 GDP상승
정부
환경탐색 : 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회변화 추청
상황분석 : 수집된 데이터를 바탕으로 사회관계망분석, 시스템 다이나믹스등의 분석방식으로 미래의제 도출
미래대응 : 미래의제에 대한 대응방안을 빅데이터를 통해 획득
개인
목적에 따른 활용
빅데이터 활용 기법
1. 연관규칙 : 어떤 변수간의 상관관계가 있는지 찾아내는 것 (슈퍼마켓에 상관관계가 높은 상품 같이 진열)
2. 분류분석 : 특정 데이터를 정해진 집단으로 구분하고자 하는 문제에 사용 (수강생들을 특성에 따라 분류)
3. 유전자 알고리즘 : 최적화가 필요한 문제를 점진적으로 진화시켜나가는 방법 (최대시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는지에 대한 결정)
4. 머신러닝 : 학습 데이터로부터 학습을 통해 알려진 특성을 활용해 예특하는 방법(지도학습 : 스팸메일 여부판단, 비지도 학습 : 군집(유사성 묶음))
5. 회귀분석 : 독립변수를 조작해 종속변수의 변화를 보고 인과관계 분석 (구매자 나이에 따른 구매차량 타입 영향 변화 확인)
6. 사회연결망분석 : 개인과 집단등의 관계를 노드와 링크로서 모델링하여 위상 구조와 확산 및 진화과정을 계량적으로 분석(SNS 구독자 많은 사람 파악)
7. 텍스트 마이닝 : 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용하여 숨겨진 의미 발견 (문서요약, 정보추출, 연계성 파악)
8. 감성분석 : 문장의 의미를 파악하여 긍정/부정, 만족/불만족 등을 파악하여 감성변화에 대한 신속한 대응 (고객리뷰를 파악해 긍정적인지 부정적인지 판단)
빅데이터 위기요인과 통제방안
빅데이터 위기요인
1. 사생활 침해
2. 책임 원칙 훼손
3. 데이터 오용
빅데이터 통제 방안
1. 동의에서 책임으로
2. 결과 기반 책임 원칙 고수
3. 알고리즘 접근 허용
빅데이터 관련법
1. 개인정보보호법
2. 신용정보법
3. 정보통신망법
4. 데이터 3법 : 위 3개 개정법
5. 공공데이터법 : 공공기관이 공공데이터 개방
데이터 비식별화
가명처리 : 개인정보 주요 식별자를 다른 값으로 대체
홍길동,35세, 서울 거주, 한국대 재학 > 임꺽정, 30대, 서울 거주, 국제대 재학
총계처리 : 데이터의 총합값으로 보임
임꺽정 180cm, 홍길동 170cm, 콩쥐 160cm, 팥쥐 150cm > 물리학과 학생 키 합 : 660cm, 평균 : 165cm
데이터 삭제 : 필요없는 값이나 식별자 삭제
주민등록번호 250429-3434567 > 20년대생 남자
데이터 범주화 : 데이터 값을 범주로 변환
홍길동 35세 > 홍씨, 30~40대
데이터 마스킹 : 식별자를 보이지 않게 처리
홍길동 35세 서울거주, 한국대 재학 > 홍ㅇㅇ, 35세, 서울 거주, ㅇㅇ대 재학
프라이버시 기반 추론 방지 기법
k-익명성 : 동일한 값을 가진 준식별자를 k개 이상 만듬
l-다양성 : 각 레코드는 l개 이상의 다양성을 가져 동질성이나 배경지식으로 추론 불가
t-근접성 : 데이터 집합의 분포나 특정 정보의 분포차이를 t이하로 맞춰 추론 방지, 유사성 공격 방지
미래의 빅데이터 활용 3요소
1.자원
2.기술
3.인력
미래 사회 특성에 빅데이터 역할
불확실성-예측, 융합-창조력, 리스크-대응력
-----------
빅데이터 회의론
1. 분석목적에 맞지 않는 과도한 투자 (의도에 맞지않는 준비부족)
2. 성과위주의 분석 프로젝트 수행 (빅데이터가 불필요한 환경)
3. 개인정보보호 문제
빅데이터 분석전략 인사이트
1. 크기가 아닌 데이터에서 비즈니스 가치를 얻을 수 있을것인가
2. 단순한 많은 분석이 아닌 전략적인 통찰력을 확보해 핵심 비지니스 및 분석 문제에 집중한 데이터 분석
3. 일차원적인 분석 중심>전략적 통찰력 창출 중심, 일차원적인 분석도 중요하지만 큰 변화에 대응이 어려워 분석활용 범위 확대및 변화 필요
대표적인 일차원분석
금융 : 신용점수산정, 사기탐지, 가격책정, 고객수익성 분석
소매업 : 판촉, 수요예측, 재고보충, 가격 및 제조 최적화
제조업 : 공급사슬 최적화, 수요예측, 맞춤형 상품개발, 신상품 개발
에너지 : 트레이딩(에너지 매매), 공급, 수요예측
온라인 : 웹 매트릭스, 사이트 설계, 고객추천
데이터 사이언스 3대 구성 요소
1. it전문성 : 데이터 처리와 관련 (프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스 등)
2. 분석 능력 : 분석적 영역 ( 통계학, 수학, 머신러닝, 분석학 등)
3. 비즈니스 능력 : 비즈니스 컨설팅 영역 (커뮤니케이션, 스토리텔링, 시각화 등)
데이터사이언티스트 정의
데이터를 이해/처리하는 능력, 데이터에서 가치를 뽑아낸는 능력, 데이터를 시각화 하는 능력, 데이터를 잘 전달하는 역할을 하는 직무
데이터의 다각적 분석을 통해 인사이트를 도출하고 조직의 전략방량을 제시하는 전략가
데이터사이언티스트 역량
하드스킬
1. 빅데이터에 대한 이론적 지시 : 관련 기법에 대한 이해와 방법 습득
2. 분석 기술에 대한 숙련 : 분석 이론에 대한 지식 뿐만 아니라 비즈니스 요소도 분석
소프트스킬
1. 통찰력 있는 분석
2. 설득력 있는 전달
3. 다분야 간 협력
전략적 통찰력을 위해 인문학이 필요함
외부환경변화에 의한 인문학 활용 근거
단순 세계화 > 복잡한 세계화
비즈니스 중심 > 제품생산 및 서비스
공급자 중심 기술 경쟁 > 무형자산의 경쟁
데이터 사이언티스트에 요구되는 인문학적 사고의 특성
정보활용
리포팅(과거정보요약) > 경고(현재판단) > 추출(미래예측)
통찰력 제공
모델링, 실험설계 > 권고 > 예측, 최적화, 시뮬레이션
데이터사이언티스는 모델의 능력에 항상 의구시을 가지고 가정과 현실의 불일치를 끈임없이 고찰하고 분석 모델이 예측할 수 없는 위험을 살피기 위래 현실세계를 쳐다봐야함
모든 추정엔 인간의 가정이 들어감
빅데이터 발전으로 가치 패러다임 변화
과거:디지털화 > 현재:연결 > 미래 : 에이전시
'자격증' 카테고리의 다른 글
| sqld 혼동사항 정리 (0) | 2025.03.06 |
|---|