본문 바로가기

IT Data 분석

[ADSP] 3과목 데이터분석 - 통계분석

728x90

1. 통계 

  • 조사 또는 실험을 통해 데이터를 확보, 조사 대상에 따라 총조사와 표본조사로 구분
  • 대상 집단 모두를 조사하는데 비용이 드므로 특별한 경우를 제외하고는 표본조사를 사용

2. 표본조사

  • 모집단에서 샘플을 추출하여 진행하는 조사
  • 모집단 : 조사하고자 하는 대상 집단 전체
  • 원소 : 모집단을 구성하는 개체
  • 표본 : 조사하기 위해 추출한 모집단의 일부 원소
  • 모수 : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 
  • 모집단의 정의, 표본 크기, 조사방법, 조사 기간, 표본추출방법을 정확히 명시해야함

3. (확률)표본추출 방법 4가지 -> 표본 추출이 표본조사에서 가장 중요. 표본추출법에 따라 분석결과와 해석차이 발생

  • 단순랜덤 추출법(simple random sampling):
    • 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다. (비복원, 복원 추출)
    • 모집단의 모든 부분이 표본으로 선택될 동일한 확률을 가진 경우에 사용. 무작위로 표본이 뽑히기 때문에 표본은 편향되지 않으며 표본으로부터 얻어진 결과를 일반화시킬 수 있다.  
  • 계통추출법 (systematic sampling) : 단순 랜덤 추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간을 나누고, 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 n개의 표본을 선택한다. 즉, 임의 위치에서 매 k번째 항목을 추출하는 방법이다.
  • 집략, 군집추출법 (cluster random sampling): 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링하는 방법이다. 
    • 예를 들어 학군에 따른 고등학생들의 독서량 -> 학군을 여러 그룹으로 군집화하고, 각 학군에서 단순임의 표본추출을 사용해 표본을 추출한다. 
  • 층화추출법 (stratifed random sampling) : 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법으로, 유사한 원소끼리 몇 개의 층으로 나눠 각 층에서 랜덤 추출하는 방법
    • 예를 들어 고등학교 학생의 독서량 -> 고1, 고2, 고3간에는 다를 수 있지만 1반, 2반, 3반.. 간에는 독서량의 차이가 없을 수 있다. 이때 이질적인 특성은 학년이다. 이렇게 서로 다른 층으로 나눌 수 있는 기준이 있을 때 그 특성을 기준으로 모집단을 소집단으로 구성하고, 그 안에서 단순 무작위 표본추출을 진행.  

4. 측정

  • 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
  • 측정방법
    • 명목척도: 측정대상이 어느 집단에 속하는지 분류 (성별, 출생지 구분)
    • 순서척도(서열척도) : 측정대상의 서열관계를 관측 (만족도, 학년, 신용등급)
    • 구간척도(등간척도) : 측정대상이 가진 속성의 양을 측정, 구간이나 구간 사이 간격이 의미있는 자료 (온도, 지수)
    • 비율척도: 간격에 대한 비율이 의미를 가짐. 절대적 0이 존재하고, 사칙연산이 가능함. (무게, 나이, 시간, 거리)
    • 질적 척도 : 범주형 자료, 숫자 크기 차이가 계산되지 않음 (명목, 순서)
    • 양적 척도 : 수치형 자료, 숫자 크기 차이 계산가능함 (구간, 비율)
    • 순서척도는 명목척도와 달리 매겨진 숫자 크기 의미를 활용가능
    • 구간척도는 절대적 크기는 측정 불가하기 때문에 비율처럼 곱하거나 나누는 것은 불가능

5. 통계분석

  • 기술통계 : 주어진 자료의 판단과 예측같은 주관을 배제, 통계집단의 여러 특성을 수량화하여 객관적인 데이터로 나타냄, 평균, 표준편차, 중위수 등
  • 통계적추론(추측통계) : 수집된 자료를 이용해 대상 집단에 대한 의사결정을 하는 것으로, 샘플을 통해 모집단을 추정하는 것
    • 모수추정 : 표본집단으로부터 모집단의 특성인 평균, 분산 등을 분석해 모집단 추론
    • 가설검정 : 대상집단에 대해 특정한 가설을 설정한 후에 그 가설이 옳은지 그른지 채택 여부 결정
    • 예측 : 불확실성을 해결해 의사결정을 하기 위해 활용 (회귀분석, 시계열분석 등)

6. 확률 및 확률분포

  • 확률 : 표본공간 S에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고, 전체 확률의 합이 1인 것을 의미한다. 표본공간 Q의 부분집합인 사건 E의 확률은 표본공간의 원소의 개수에 대한 사건 E의 개수의 비율로 확률을 P(E)라고 할 때, n(E) / n(Q)로 정의한다. 
  • 확률분포 : 확률변수가 특정한 값을 가질 확률을 나타내는 함수 
    • 이산확률분포 : 이산확률변수가 가지는 확률분포
      • 이산균등분포, 푸아송분포, 베르누이분포, 이항분포, 기하분포 등
    • 연속확률분포 : 확률밀도 함수를 이용해 분포를 표현할 수 있는 경우
      • 정규분포, 연속 균등분포, 카이제곱 분포, t분포, 지수분포, f분포 등
  • 표본공간 : 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
  • 사건 : 관찰자가 관심있는 것으로 표본공간의 부분집합
  • 원소 : 나타날 수 있는 개별 결과
  • 확률변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
    • 정의역이 표본공간, 치역이 실수값(0<y<1)인 함수
    • 0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형, 연속형으로 구분
    • 확률변수의 기대값 E(X)
      • 기댓값은 표본평균처럼 분포의 위치를 알려주는 특성값이지만, 확률분포의 가중합이나 가중적분으로 정의, 가장 확률 (또는 확률밀도)이 높은 x값 근처의 값이다. 즉, 확률이 모여있는 곳의 위치를 나타낸다. 
      • Σ(x_i f(x_i)) : 이산형 변수인 경우, 표본공간 원소 x_i의 가중평균이다. 이때 가중치는 x_i가 나올 수 있는 확률, 즉 확률질량함수 f(x_i)다. 
      •  ∫xf(x))dx : 연속형 변수인 경우, 확률밀도 함수 (가능한 값이 실수의 어느 특정 구간 전체에 해당하는)을 가중치로 하여 모든 가능한 표본 x를 적분한 값이다. 

 

 

 

 

 

 

 

 

출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀), 데이터 사이언스 스쿨