본문 바로가기
강남혁신 데분 아카데미

Day13 R설치/통계학(평균,분산)

by Boggi 2025. 7. 1.
반응형

R 언어 기초

  • 논리형 연산:
    • TRUE, FALSE는 각각 1, 0으로 자동 변환되어 산술 연산 가능
    • a <- TRUE; b <- FALSE; a + b → 1
  • 초기화 시 기본값:
    • 주소: NULL, 숫자: 0, 문자: "", 논리형: FALSE
  • 결측값 처리:
    • NA: 결측치
    • NaN: 수학적으로 계산 불가능한 값
  •  

 

데이터 종류와 표현

  • 양적 데이터 (산술 연산 가능): 이산형(정수), 연속형(실수)
  • 질적 데이터 (산술 불가): 명목형, 순서형
  • 실무에서는 질적 데이터를 숫자로 변환하기도 함
  • R에서는 명목형 데이터를 factor로 표현

 

R의 자료구조

  • 스칼라: 0차원 (x <- 1)
  • 벡터: 1차원, 동일 타입 (x1 <- c(1,2,3))
  • 리스트: 다양한 타입 포함 가능
  • 배열/행렬: 2차원 이상, 동일 타입
  • 데이터프레임: 2차원, 다양한 타입 가능
  • rm(x) → 메모리에서 변수 제거

 

기초 통계 함수

  • mean(): 평균
  • median(): 중위수 (중앙값)
  • mode(): 최빈값 (가장 자주 나타나는 값)
  • 평균과 중위수가 같으면 이상치가 적다는 의미

 

분산과 표준편차

  • 분산: 평균에서 얼마나 흩어졌는지 (편차 제곱 평균)
  • 표준편차: 분산의 제곱근
  • 예) 평균 80, 표준편차 10 → 개성 강한 집단
    평균 80, 표준편차 5 → 통일성 있는 집단