[DA][Python] 카카오톡 대화 내용 분석 기능 함수 구현 (3-1)

앞 게시글에서 카카오톡 원본 대화 내용을 내려받아 전처리하는 과정을 작성하고 함수로 구현해보았다.

▼ 게시물 확인하기

[DA][Python] (2차 설계 및 완성) 카카오톡 대화 데이터 전처리 코드 수정 설계

현재 해당 내용은 피드백을 받아 코드 작성을 완료하였으며 최종 완성된 코드에 대한 설명이다.수정사항1. 함수명을 명확하게 변경2. 원본 데이터에 존재하는 서로 다른 형식의 라인 두 가지에

sundery.tistory.com

처음에 만든 것은 사용자별 대화 빈도 분석이었고 두번째에 만든 것은 사용자별 이모티콘 사용 빈도 분석이었다.

두 가지 조건을 필터링하고 해당하는 행의 개수만 세서 출력하면 되는 쉬운 함수였다.

이번 세 번째로 만들게 될 함수는 시간대별 각 사용자 활동 빈도를 분석할 것이다.

분석 내용

시간대별 각 사용자 활동 빈도 분석

우선 시간의 범위를 정한다.

'새벽', '오전', '오후', '저녁' 이렇게 4개의 범위로 정하고 시간을 배분한다.

새벽	00:00 ~ 06:00
오전	06:00 ~ 12:00
오후	12:00 ~ 18:00
저녁	18:00 ~ 24:00

우선 함수를 정의해준다. 시간 별 활동 빈도를 분석하는 것이기 때문에 analyze_activity_by_time이라는 함수를 사용한다.

def analyze_activity_by_time(data):

시간대별로 나눠서 계산해야 하기 때문에 Time 칼럼에서 Hours만 추출한다.

df['Hours'] = pd.to_datetime(df['Time'], format='%H:%M').dt.hour

원본 데이터가 12:00 와 같은 형식이기 때문에 이 format을 datetime으로 변환해주는 코드를 작성한다.
format = '%H:%M'
여기서 hour만 추출하여 df의 칼럼에 'Hours'로 넣는다

Hours를 4개의 범위로 나눈다.

시간의 경계는 위에 나타낸 듯이 새벽, 오전, 오후, 저녁으로 나누기 때문에 boundary라는 리스트에 경계값을 넣는다.

그리고 각 경계값의 이름을 삽입해준다

boundary = [0, 6, 12, 18, 24]
labels = ['새벽', '오전', '오후', '저녁']

boundary로 각 시간대의 경계를 나타내었기 때문에 pd.cut 이라는 함수를 사용하여 아래와 같은 결과가 나올 수 있다.

새벽 : 00시(포함) ~ 06시(미만)
오전 : 06시(포함) ~ 12시(미만)
오후 : 12시(포함) ~ 18시(미만)
저녁 : 18시(포함) ~ 24시(미만)

마지막으로 나눈 범위 값을 칼럼으로 넣고 (칼럼명 : 'Time_Parts') 판다스의 함수 cut을 가져와서 labels를 삽입한다.

df['Time_Parts'] = pd.cut(df['Hours'], bins=boundary, labels=labels, right=True, include_lowest=True)

Time_Parts에 들어갈 내용은 Hours 칼럼의 값을 가져온다는 의미에서 df['Hours'] 입력
구간을 나누는 기준값들이나 구간의 개수 값을 bins에 삽입
각 구간에 붙일 레이블을 추가한다. (앞서 정의한 값을 넣으면 된다.)
- right = True : 구간의 오른쪽 끝을 포함한다.
- right = False : 구간의 오른쪽 끝을 포함하지 않는다.
- include_lowest=True : 구간의 가장 작은 값을 포함한다.
- include_lowest=False : 구간의 가장 작은 값을 포함하지 않는다.

이제 계산하려는 값인 시간대별 활동 빈도 집계 값을 출력한다.

activity_by_time = df.groupby(['Name', 'Time_Parts']).size().reset_index(name='Count_Messages')
return activity_by_time

groupby를 통해 'Time_Parts'와 'Name' 두 가지 컬럼을 기준으로 그룹화가 가능하다.
각 그룹화된 그룹의 빈도를 계산하기 위해 size() 함수를 입력한다.
그리고 인덱스를 초기화하여 데이터프레임 형태로 변환하는데 size()값에 Count_Messages 라는 칼럼명을 붙여주면 된다.

출력값은 아래와 같다.

사실 원래 처음에는 표 형식으로 출력하기 위해 unstack(fill_value=0)함수를 써서 행과 열 인덱스를 지정하여 출력되도록 하였다.

하지만 위와 같은 형식으로 출력하면 지금 당장 보기에는 편하지만 데이터 분석 시에는 좋지 않기 때문에 삭제하고 개별 값이 튜플에 출력되도록 값을 형성하였다.

전체 완성 코드

#시간대별 각 사용자 활동 빈도 분석
def analyze_activity_by_time(data):
    """데이터프레임에서 시간대별 활동을 분석"""
    
    #시간대 Hours 칼럼으로 추출
    df['Hours'] = pd.to_datetime(df['Time'], format='%H:%M').dt.hour
    
    #시간대 4개 범위로 나누기
    boundary = [0, 6, 12, 18, 24]
    labels = ['새벽', '오전', '오후', '저녁']
    df['Time_Parts'] = pd.cut(df['Hours'], bins=boundary, labels=labels, right=False, include_lowest=True)
    
    #시간대별 활동 빈도 집계
    activity_by_time = df.groupby(['Name', 'Time_Parts']).size().reset_index(name='Count_Messages')
    return activity_by_time

df = generate_dataframe(data)
analyze_activity_by_time(df)

'💡 Data Analysis > 📂 Project - Analysis of KakaoTalk (end)' 카테고리의 다른 글

[DA][Python] (수정) 대화 분석 기능 - 시각화하여 출력 코드로 수정 (3)	2024.07.23
[DA][Python] 대화 분석 기능 - 사용자별 각 시간대 활동 빈도 분석 (3) (9)	2024.07.23
[DA][Python] 대화 분석 기능 - 사용자별 이모티콘 사용 빈도 분석 (2) (1)	2024.07.11
[DA][Python] 대화 분석 기능 - 사용자별 대화 빈도 분석 (1) (0)	2024.07.11
[DA][Python] (2차 설계 및 완성) 카카오톡 대화 데이터 전처리 코드 수정 설계 (2)	2024.07.08