Home DS,ML,DL,AI
Post
Cancel

DS,ML,DL,AI

Data Science

  • 데이터를 정제하고, 가시화하며, 가공하여 필요한 인싸이트를 최대한 도출하는 과정

    Step

    1. 프로젝트의 범위 지정
    2. 데이터 획득
    • 데이터 원천: Survey, Sensor network, Data broker 등
      1. 데이터 준비 (cleaning & transformation)
    • 데이터를 알맞은 형식으로 전환
    • Na(결측치) 값들 삭제
      • Na: 값이 기록되지 않았거나 관측되지 않은 경우 데이터에 저장되는 값
    • 아웃라이어 조작
      • 아웃라이어: 데이터 상의 다른 값들의 분포와 비교했을 때 비정상적으로 떨어져 있는 관측치
        1. 데이터 분석 - EDA (Exploratory Data Analysis)
    • feature selection: 유용한 데이터의 특징 선별
    • engineering: 대규모 데이터 효율적 관리 및 처리, 가공 –> 분석에 적합한 형태로 생성
  1. 데이터 모델링
  2. 가시화 (그래프, 차트 등)
  3. Communication

Variable type

  1. Dependent VS Independent
    • Dependent: 우리가 알아보고자 하는 변수
    • Independent: Dependent 변수에 영향을 주는 변수
    • ex) Dependent: 집 가격, Independent: 방의 개수, 위치 등 / Dependent: 생존, Independet: 나이, 클래스, 성별 등 (타이타닉 데이터)
  2. Categorical (Norminal VS Ordinal)
    • Nominal: 순서가 중요하지 않는 카테고리의 숫자
      • ex) 남여(0,1)
    • Ordinal: 순서가 중요한 카테고리
      • ex) 1: 고등학교, 2: 졸업, 3: 대학, 4: 박사
  3. Numerical (Discrete VS Continuous)
    • Discrete: 셀 수 있는 것들
    • ex) 주사위, 방 안의 사람 명 수 등 - Continuous: 어떤 범위 내에서 무수히 많은 값을 가질 수 있는 것들
    • ex) 키, 자동차의 속도 등

Machine Learning

  • 빅데이터를 사용하여 알고리즘을 훈련시킨다. 이때 이 알고리즘은 예측 혹은 데이터의 패턴을 추출하는 데 사용된다.

    종류

    1. Supervised Learning
    • Data & Task
      1. Unsupervised Learning
    • Data & Task X
      1. Reinforcement Learning
    • Rules & Task

Deep Learning

  • 뉴럴 네트워크를 이용하여 Machine Learning 하는 과정
  • 매우 많은 양의 수학적 계산 필요

AI

  • ML과 DL을 통합, 적용하여 인간이 수행하는 과업들을 수행할 수 있는 컴퓨터 시스템
  • 예: 얼굴 인식, 음성 인식, 매출 예측, 자율주행 자동차 등

참고사항

  • DS, ML, DL 등의 실습을 위해서 jupyter notebook, pandas, sklearn, matplotlib 를 설치하는 것이 편리
  • cmd 창에서 pip install 이름의 형태로 설치