[DA][Python] 데이터 분석 시 활용할 수 있는 기초 함수

💡 Data Analysis/Study

[DA][Python] 데이터 분석 시 활용할 수 있는 기초 함수

Sun A 2024. 7. 5. 13:00

개요

데이터 분석에 활용할 수 있는 함수 4개를 생성해보고 데이터를 입력 후 출력했을 때 어떤 형식으로 나오는 지에 대해 알 수 있다.

함수 종류

1. 평균과 표준편차 계산 함수

2. 상관행렬을 계산하는 함수

상관행렬이란
- 데이터 세트의 여러 변수들 간의 상관관계를 나타내는 표를 의미
- 행렬은 변수들 간의 상관계수를 계산하여 그 결과를 행렬 형태로 나타낸다.
- 값은 -1부터 1까지의 값을 가진다.

1 : 두 변수 간에 완벽한 양의 상관관계가 있음
-1 : 두 변수 간에 완벽한 음의 상관관계가 있음
0 : 두 변수 간에 상관관계가 없음

3. 결측치를 처리하는 함수

4. 특정 열의 기초 통계 정보를 제공하는 함수

기본 파이썬 라이브러리

데이터 프레임을 설정하기 위해 pandas를 불러오고 결측값을 처리하기 위해서 numpy 라이브러리를 불러온다.

import pandas as pd
import numpy as np

1. 평균과 표준편차 계산 함수

평균 mean과 표준편차 std를 계산하는 함수라는 의미에서 calculate_mean_std 로 함수명을 짓는다.

def calculate_mean_std(data) :

data 인수를 입력하여 해당 함수가 계산해야 하는 데이터 프레임을 나타낸다.

인수에 mean과 std 함수를 사용하여 계산하고 반환하는 코드로 해당 함수 코드를 마무리한다.

	mean = data.mean()
	std = data. std()
	return {"mean": mean, "std":std}

2. 상관행렬 계산 함수

함수명을 정의한다.

def calculate_correlation_matrix(data) :

상관행렬을 계산하는 함수는 corr() 이므로 해당 계산을 한 후 반환하는 코드를 입력한다.

    correlation_matrix = data.corr()
    return correlation_matrix

3. 결측치 처리 함수

함수 정의

def handle_missing_values(data, method='mean') :

결측값을 처리하는 방법을 선택하는 선택적 인수로 method = 'mean'을 썼다.
기본 값이 'mean'이라는 뜻

조건문을 통해 함수를 정의하여 대체할 값을 찾는다.

if method == 'mean' :
	return data.fillna(data.mean())
elif method == 'median' :
	return data.fillna(data.median())
elif method == 'mode' :
	return data.fillna(data.mode().iloc[0])
else : 
	raise ValueError("Method는 'mean', 'median', 'mode'중 하나여야 합니다.")

각각 method 인수가 mean, median, mode에 해당할 때 메소드에 해당하는 값으로 데이터 프레임을 반환한다.
mode는 최빈값으로 대체하는 것이며, iloc[0] 을 사용하여 첫 번째 최빈값을 선택할 수 있다.
마지막으로 예외 처리를 하여 유효하지 않은 method 인수에 대해 오류를 발생시키고 오류 메시지 또한 뜰 수 있도록 한다.

4. 특정 열의 기초 통계 정보를 제공하는 함수

함수 정의

def get_column_statistics(data, column_name) :

column_name은 기초 통계 정보를 계산할 열의 이름을 의미한다.

data에서 column_name에 해당하는 열 데이터를 추출할 수 있도록 column_data라는 변수를 정의한다.

    column_data = data[column_name]

status로 추출한 열 데이터에 대한 기초 통계 정보를 계산하여 딕셔너리에 저장한다.

기초 통계 정보로는 최소값, 최대값, 평균값, 중앙값, 표준편차를 계산할 수 있다.

    status = {
        "min": column_data.min(),
        "max": column_data.max(),
        "mean": column_data.mean(),
        "median": column_data.median(),
        "std": column_data.std()
    }

마지막으로 반환하는 코드를 입력하여 딕셔너리를 반환하면 된다.

    return status

함수 활용하기

위에 생성한 함수들을 활용하기 위해서는 예시 데이터가 필요하다.

예시 데이터를 생성하는 함수를 형성한다.

def create_sample_data() :
	sample_data = pd.DataFrame({
    	'A': [1, 2, np.nan, 4, 5],
        'B': [5, 4, 3, 2, 1],
        'C': [2, 3, 4, np.nan, 6]
    })
    return sample_data

형성한 함수를 출력하는 함수를 입력하고 호출하여 값을 내면 된다.

def process_data():
    """데이터를 처리하고 결과를 출력하는 함수"""
    sample_data = create_sample_data()
    print("1:", calculate_mean_std(sample_data))
    print("2:\n", calculate_correlation_matrix(sample_data))
    print("3:\n", handle_missing_values(sample_data, method='mean'))
    print("4:", get_column_statistics(sample_data, 'A'))

# 함수 호출
if __name__ == "__main__":
    process_data()

최종 출력값은 아래와 같다.