[DA][Python] 대화 분석 기능 - 사용자별 각 시간대 활동 빈도 분석 (3)

앞 게시글에서 카카오톡 원본 대화 내용을 내려받아 전처리하는 과정을 작성하고 함수로 구현해보았다.

▼ 게시물 확인하기

[DA][Python] (2차 설계 및 완성) 카카오톡 대화 데이터 전처리 코드 수정 설계

현재 해당 내용은 피드백을 받아 코드 작성을 완료하였으며 최종 완성된 코드에 대한 설명이다.수정사항1. 함수명을 명확하게 변경2. 원본 데이터에 존재하는 서로 다른 형식의 라인 두 가지에

sundery.tistory.com

앞서 두 개의 함수를 만들었기 때문에 세번째 기능 함수를 구현하고자 한다.

이번에는 시간대 범위를 나누고 각 사용자가 자주 채팅방에 들어오는 활동 시간대를 분석하는 것이다.

범위에 대해 각자 나타나는 것이기 때문에 파이차트로 출력되도록 설계할 것이며 개별적으로 사람을 필터링하여 추출될 수 있도록 코드를 작성할 예정이다.

또한 앞서 함수에서 사용한 데이터들은 가족 단톡방을 가져왔지만 이번에는 6명의 인원의 단톡방 내용을 가져와서 6개의파이차트를 보이도록 하여 다양한 결과값을 도출할 예정이다.

분석 내용

사용자별 각 시간대 활동 빈도 분석

먼저 함수가 2개 나올 예정이다.

시간대 범위로 나눠서 활동 빈도를 집계한 함수와 이름별로 결과를 따로 출력해주는 함수 두 개를 작성할 것이다.

먼저 시간대 범위를 나누는 함수를 정의한다.

def analyze_activity_by_time(df):

원본 데이터를 참고해보면 아래와 같은데

여기서 Time 칼럼을 가져와서 사용해야 한다.

우선 내가 나누게 될 시간대 범위는 아래와 같다.

새벽	오전	오후	저녁
00시 ~ 05시 59분	06시 ~ 11시 59분	12시 ~ 17시 59분	18시 ~ 23시 59분

범위는 Hours를 기준으로만 나누기 때문에 시간 데이터값에서 Hours만 추출해야 한다.

df['Hours'] = pd.to_datetime(df['Time'], format='%H:%M').dt.hour

Time 칼럼에서 시간과 분 fomat으로 가져와서 datetime의 hour만 추출한다.

시간대를 4개 범위로 나누기 위해 라벨과 범위를 지정한다.

boundary = [0, 6, 12, 18, 24]
labels = ['새벽', '오전', '오후', '저녁']

그리고 데이터프레임 칼럼 'Time_Parts'를 만들어서 값을 넣어준다.

값은 앞서 나누었던 Hours에서 가져온다.

df['Time_Parts'] = pd.cut(df['Hours'], bins=boundary, labels=labels, right=False, include_lowest=True)

값은 boundary, 각 범위 명은 labels에서 가져오고 오른쪽 값은 포함하지 않고 왼쪽 값은 포함하도록 False와 True를 지정해준다.

다음으로 시간대별로 활동 빈도를 집계해주는 값을 작성한다.

activity_by_time = df.groupby(['Name', 'Time_Parts']).size().reset_index(name='Count_Messages')
return activity_by_time

Name과 Time_Parts 열을 기준으로 그룹화한다.
각 그룹의 크기, 각 그룹 내의 행 수를 계산하기 위해 size()를 쓴다.
그룹화 결과를 데이터프레임 형태로 변환하고 인덱스를 Count_Messages라는 칼럼 이름으로 지정한다.

▼ 최종 코드

#사용자별 각 시간대 활동 빈도 분석
def analyze_activity_by_time(df):
    """데이터프레임에서 시간대별 활동을 분석"""
    
    #시간대 Hours 칼럼으로 추출
    df['Hours'] = pd.to_datetime(df['Time'], format='%H:%M').dt.hour
    
    #시간대 4개 범위로 나누기
    boundary = [0, 6, 12, 18, 24]
    labels = ['새벽', '오전', '오후', '저녁']
    df['Time_Parts'] = pd.cut(df['Hours'], bins=boundary, labels=labels, right=False, include_lowest=True)
    
    #시간대별 활동 빈도 집계
    activity_by_time = df.groupby(['Name', 'Time_Parts']).size().reset_index(name='Count_Messages')
    
    return activity_by_time

각 사용자 개인 값도 출력되도록 작성

위의 기능을 파이차트로 출력되도록 설정할 것이기 때문에 따로 함수를 지정해준다.

def individual_activity_time(activity_by_time, names):

names 함수에 출력값을 찾을 이름을 입력한다.

사용자 데이터의 값이 문자열인지 아닌지 확인하고 리스트로 변환한다.

if isinstance(names, str):
	names = [names]

앞서 만든 names 값에 들어가는 값을 제외한 값들은 False로 지정할 수 있도록 한다.

user_data = activity_by_time[activity_by_time['Name'].isin(names)]

'Name' 열에서 names 리스트에 있는 이름들을 가진 행을 찾아서 데이터 프레임을 형성하여 user_data 변수에 삽입한다.

데이터를 재구성하여 시간대 범위에 맞게 값이 출력되도록 피벗 테이블을 구성한다.

pivot_table = user_data.pivot(index='Name', columns='Time_Parts', values='Count_Messages').fillna(0)

피벗 테이블의 행 레이블을 'Name' 값으로 설정한다.
또한 피벗 테이블의 열 레이블을 Time_Parts로 지정하여 각 열을 시간 범위로 지정한다.
마지막으로 피벗 테이블의 값은 Count_Messages 열 값으로 메시지 수를 센다.
그리고 값이 없는 셀은 0으로 지정하기 위해 fillna(0)을 사용하여 특정 사용자와 시간 조합에 메시지가 없는 경우를 삭제한다.

생성한 피벗 테이블을 활용하여 파이 차트를 생성한다.

if not pivot_table.empty:
	pivot_table.iloc[0].plot(kind='pie', autopct='%1.1f%%', startangle=90, legend=False)
    plt.title(f"{names}의 시간대별 활동 빈도")
    plt.ylabel('')
    plt.show()

만약 pivot_table의 데이터가 비어있지 않다면
- pivot_table의 첫 번째 사용자 데이터를 선택하여 출력한다. (user_data를 넣었기 때문에 사용자가 입력한 참여자의 값이 출력된다.)
- 파이차트로 종류를 선택하고 백분율로 표현하되, 소수점 첫 번째 자리까지만 출력한다,
- startangle=90을 써서 파이 차트의 시작 각도를 90으로 설정한다.
- 범례를 표시하지 않도록 legend=False로 설정한다.
파이차트의 title 명과 y축 라벨을 제거하여 표시하도록 작성한다.

반대로 전체로 출력하고 싶을 때를 입력한다.

사용자의 이름을 작성하지 않았을 때 전체 값이 출력되도록 한다.

else:
	pivot_table = activity_by_time.pivot(index='Name', columns='Time_Parts', values='Count_Messages').fillna(0)

앞에는 user_data 값을 가져와서 피벗 테이블로 만들었지만, 전체가 출력되어야 하기 때문에 activity_by_time에서 생성한다.

여러 개의 서브 플롯을 생성하여 파이차트를 생성한다. (전체를 출력하기 위해 필요)

fig, axes = plt.subplots(nrows=1, ncols=len(pivot_table), figsize=(15, 5))

여러 개의 서브플롯을 생성하는 subplots를 사용한다.
nrows=1 을 사용하여 한 행에 모두 배치되도록 한다.
서브 플롯의 개수는 pivot_table의 행 수만큼 생성해야 하기 때문에 len을 사용한다.pie
전체 그래프의 크기를 가로 15인치, 세로 5인치로 fig 사이즈를 지정한다.

피벗 테이블의 모든 값을 출력하기 위해 반복하여 처리하는 for 문을 사용한다.

for i, (names, data) in enumerate(pivot_table.iterrows()):
	data.plot(kind='pie', ax=axes[i], autopct='%1.1f%%', startangle=90, legend=False)

for을 사용하여 피벗 테이블의 각 행을 반복하여 처리한다.
i로 인덱스 값을 나타내고 names로 현재 행의 이름을 나타낸다.
enumerate 파이썬의 내장 함수로, 리스트를 순회하면서 인덱스와 요소를 동시에 반환한다.
- names와 data를 반복 순회한다.
ax=axes[i]를 사용해서 현재 서브플롯에 차트를 그린다.
autopct = '%1.1f%%' 를 이용하여 파이 차트에서 각 조각의 비율을 표시하는 형식으로 지정한다.
- pie 함수에서만 사용된다.
- f를 써서 숫자를 소수로 형식화함을 나타낸다.
- %%를 사용해서 퍼센트 기호를 출력에 포함시킨다.
startangle=90으로 차트의 시작 각도를 90으로 설정하고 legend=False 를 통해 범례를 표시하지 않도록 설정한다.

서브플롯의 제목과 y레이블의 서식을 없애고 깔끔한 파이 차트로 출력하기 위해 아래와 같은 코드도 추가한다.

            axes[i].set_title(names)
            axes[i].set_ylabel('')

각 서브 차트의 이름은 사용자 이름으로 지정하고 ylabel은 필요없기 때문에 생략해준다.

그리고 파이 차트가 출력되도록 하는 코드로 마무리한다.

        plt.tight_layout()
        plt.show()
    return individual_activity_time

▼ 전체 코드

## 개별 사용자 활동 시간대 출력 코드
def individual_activity_time(activity_by_time, names):
    """특정 사용자의 시간대별 활동 빈도를 파이 차트로 표시"""
    
    # 특정 사용자 데이터 필터링
    if isinstance(names, str):
        names = [names]
    
    user_data = activity_by_time[activity_by_time['Name'].isin(names)]
    
    # 피벗 테이블 생성
    pivot_table = user_data.pivot(index='Name', columns='Time_Parts', values='Count_Messages').fillna(0)
    
    # 파이 차트 생성
    if not pivot_table.empty:
        pivot_table.iloc[0].plot(kind='pie', autopct='%1.1f%%', startangle=90, legend=False)
        plt.title(f"{names}의 시간대별 활동 빈도")
        plt.ylabel('')
        plt.show()
    else:
        pivot_table = activity_by_time.pivot(index='Name', columns='Time_Parts', values='Count_Messages').fillna(0)

        fig, axes = plt.subplots(nrows=1, ncols=len(pivot_table), figsize=(15, 5))
    
        for i, (names, data) in enumerate(pivot_table.iterrows()):
            data.plot(kind='pie', ax=axes[i], autopct='%1.1f%%', startangle=90, legend=False)
            axes[i].set_title(names)
            axes[i].set_ylabel('')
        plt.tight_layout()
        plt.show()
    return individual_activity_time

activity_by_time = analyze_activity_by_time(df)
individual_activity_time(activity_by_time, ' ')

결과값

'💡 Data Analysis > 📂 Project - Analysis of KakaoTalk (end)' 카테고리의 다른 글

[DA][Python] 대화 분석 기능 - 사용자별 평균 답변 시간 분석 (4) (2)	2024.07.24
[DA][Python] (수정) 대화 분석 기능 - 시각화하여 출력 코드로 수정 (3)	2024.07.23
[DA][Python] 카카오톡 대화 내용 분석 기능 함수 구현 (3-1) (0)	2024.07.16
[DA][Python] 대화 분석 기능 - 사용자별 이모티콘 사용 빈도 분석 (2) (0)	2024.07.11
[DA][Python] 대화 분석 기능 - 사용자별 대화 빈도 분석 (1) (0)	2024.07.11

Sun`s diary

[DA][Python] 대화 분석 기능 - 사용자별 각 시간대 활동 빈도 분석 (3)

분석 내용

사용자별 각 시간대 활동 빈도 분석

각 사용자 개인 값도 출력되도록 작성

결과값

'💡 Data Analysis > 📂 Project - Analysis of KakaoTalk (end)' 카테고리의 다른 글

티스토리툴바

[DA][Python] 대화 분석 기능 - 사용자별 각 시간대 활동 빈도 분석 (3)

분석 내용

사용자별 각 시간대 활동 빈도 분석

각 사용자 개인 값도 출력되도록 작성

결과값

'💡 Data Analysis > 📂 Project - Analysis of KakaoTalk (end)' 카테고리의 다른 글

관련글

티스토리툴바