Data Science
- 데이터를 정제하고, 가시화하며, 가공하여 필요한 인싸이트를 최대한 도출하는 과정
Step
- 프로젝트의 범위 지정
- 데이터 획득
- 데이터 원천: Survey, Sensor network, Data broker 등
- 데이터 준비 (cleaning & transformation)
- 데이터를 알맞은 형식으로 전환
- Na(결측치) 값들 삭제
- Na: 값이 기록되지 않았거나 관측되지 않은 경우 데이터에 저장되는 값
- 아웃라이어 조작
- 아웃라이어: 데이터 상의 다른 값들의 분포와 비교했을 때 비정상적으로 떨어져 있는 관측치
- 데이터 분석 - EDA (Exploratory Data Analysis)
- 아웃라이어: 데이터 상의 다른 값들의 분포와 비교했을 때 비정상적으로 떨어져 있는 관측치
- feature selection: 유용한 데이터의 특징 선별
- engineering: 대규모 데이터 효율적 관리 및 처리, 가공 –> 분석에 적합한 형태로 생성
- 데이터 모델링
- 가시화 (그래프, 차트 등)
- Communication
Variable type
- Dependent VS Independent
- Dependent: 우리가 알아보고자 하는 변수
- Independent: Dependent 변수에 영향을 주는 변수
- ex) Dependent: 집 가격, Independent: 방의 개수, 위치 등 / Dependent: 생존, Independet: 나이, 클래스, 성별 등 (타이타닉 데이터)
- Categorical (Norminal VS Ordinal)
- Nominal: 순서가 중요하지 않는 카테고리의 숫자
- ex) 남여(0,1)
- Ordinal: 순서가 중요한 카테고리
- ex) 1: 고등학교, 2: 졸업, 3: 대학, 4: 박사
- Nominal: 순서가 중요하지 않는 카테고리의 숫자
- Numerical (Discrete VS Continuous)
- Discrete: 셀 수 있는 것들
- ex) 주사위, 방 안의 사람 명 수 등 - Continuous: 어떤 범위 내에서 무수히 많은 값을 가질 수 있는 것들
- ex) 키, 자동차의 속도 등
Machine Learning
- 빅데이터를 사용하여 알고리즘을 훈련시킨다. 이때 이 알고리즘은 예측 혹은 데이터의 패턴을 추출하는 데 사용된다.
종류
- Supervised Learning
- Data & Task
- Unsupervised Learning
- Data & Task X
- Reinforcement Learning
- Rules & Task
Deep Learning
- 뉴럴 네트워크를 이용하여 Machine Learning 하는 과정
- 매우 많은 양의 수학적 계산 필요
AI
- ML과 DL을 통합, 적용하여 인간이 수행하는 과업들을 수행할 수 있는 컴퓨터 시스템
- 예: 얼굴 인식, 음성 인식, 매출 예측, 자율주행 자동차 등
참고사항
- DS, ML, DL 등의 실습을 위해서 jupyter notebook, pandas, sklearn, matplotlib 를 설치하는 것이 편리
- cmd 창에서 pip install 이름의 형태로 설치