[DA][Python] (수정) 대화 분석 기능 - 시각화하여 출력 코드로 수정

💡 Data Analysis/📂 Project - Analysis of KakaoTalk (end)

[DA][Python] (수정) 대화 분석 기능 - 시각화하여 출력 코드로 수정

Sun A 2024. 7. 23. 13:16

앞서 만든 두 가지 함수는 시각화 코드가 아닌 데이터프레임화 된 결과값만 출력되도록 작성되어 있기 때문에

시각화 결과값이 출력되도록 코드를 수정한다.

▼ 기존 함수 2가지

사용자별 대화 빈도 분석(1)

[DA][Python] 대화 분석 기능 - 사용자별 대화 빈도 분석 (1)

앞 게시글에서 카카오톡 원본 대화 내용을 내려받아 전처리하는 과정을 작성하고 함수로 구현해보았다.▼ 게시물 확인하기 [DA][Python] (2차 설계 및 완성) 카카오톡 대화 데이터 전처리 코드 수

sundery.tistory.com

사용자별 이모티콘 사용 빈도 분석 (2)

[DA][Python] 대화 분석 기능 - 사용자별 이모티콘 사용 빈도 분석 (2)

sundery.tistory.com

수정

사용자별 대화 빈도 분석(1)

▼ 기존 코드

#사용자별 대화 빈도 분석
def count_messages_by_name(df):

    #Name 칼럼 인덱스 수 세기
    """ 데이터프레임에서 'Name' 칼럼의 값을 세어 각 이름별 메시지 수를 반환한다."""
    messages_count = df['Name'].value_counts().sort_values(ascending = False).reset_index(name = 'Message_Count')
    
    messages_count.columns = ['Name', 'Message_Count']
    
    return messages_count

기존 코드는 아주 간단했다.

여기에 시각화되어 출력될 수 있는 코드만 추가하면 된다.

해당 차트는 바 차트로 출력할 것이기 때문에 bar 차트로 출력되도록 입력한다.

plt.figure((figsize=(5, 4))
plt.bar(messages_count['Name'], messages_count['Message_Count'], color='green')

바의 가로 세로 길이를 지정해주고 (figsize) 바의 각 값을 칼럼명으로 지정해준다.
색은 green

출력되는 시각화 차트의 각 라벨을 지정해준다.

    plt.title('사용자별 대화 빈도')
    plt.xlabel('사용자')
    plt.ylabel('대화 메시지 수')
    plt.show()
    
return messages_count

▼ 최종 수정 코드

#사용자별 대화 빈도 분석
def count_messages_by_name(df):

    #Name 칼럼 인덱스 수 세기
    """ 데이터프레임에서 'Name' 칼럼의 값을 세어 각 이름별 메시지 수를 반환한다."""
    messages_count = df['Name'].value_counts().sort_values(ascending = False).reset_index(name = 'Message_Count')
    
    messages_count.columns = ['Name', 'Message_Count']
    
    #데이터 시각화
    plt.figure(figsize=(5, 4))
    plt.bar(messages_count['Name'], messages_count['Message_Count'], color='green')

    #라벨 설정
    plt.title('사용자별 대화 빈도')
    plt.xlabel('사용자')
    plt.ylabel('대화 메시지 수')
    plt.show()
    
    return messages_count

count_messages_by_name(df)

사용자별 이모티콘 사용 빈도 분석 (2)

▼ 기존 코드

#사용자별 이모티콘 사용 빈도 분석
def compare_emoticon_counts(data, emoticon):
    #Name 별로 이모티콘 이라는 단어가 Message 칼럼 내의 문자열에 얼마나 포함되었는 지 세서 Emoticon_Count에 삽입
    emoticon_count = df[df['Message'].str.contains(emoticon, na=False)].groupby('Name').size().reset_index(name='Emoticon_Count')
    
    #많이 사용한 순으로 정렬
    emoticon_count = emoticon_count.sort_values(by='Emoticon_Count', ascending=False)
    return emoticon_count

위의 코드에서 정렬까지는 똑같고 시각화 코드를 추가하는 것이다.

위와 동일하게 바 차트를 사용할 것이며 사이즈는 5, 4로 설정한다.

plt.figure(figsize=(5, 4))
plt.bar(emoticon_count['Name'], emoticon_count['Emoticon_Count'], color='lightcoral')

색상은 lightcoral

출력되는 시각화 차트의 각 라벨을 지정해준다.

    plt.title('사용자별 이모티콘 사용 빈도')
    plt.xlabel('사용자', fontsize=9, labelpad=15)
    plt.xticks(rotation=45)
    plt.ylabel('이모티콘 수')
    plt.show()
   
   return emoticon_count

▼ 최종 수정 코드

#사용자별 이모티콘 사용 빈도 분석
def count_emoticon_usage(df, emoticon):
    """데이터프레임에서 특정 이모티콘의 사용 빈도를 이름별로 계산하여 반환"""
    
    #Name 별로 이모티콘 이라는 단어가 Message 칼럼 내의 문자열에 얼마나 포함되었는 지 세서 Emoticon_Count에 삽입
    emoticon_count = df[df['Message'].str.contains(emoticon, na=False)].groupby('Name').size().reset_index(name='Emoticon_Count')
    
    emoticon_count = emoticon_count.sort_values(by='Emoticon_Count', ascending = False)

    #데이터 시각화
    plt.figure(figsize = (5,4))
    plt.bar(emoticon_count['Name'], emoticon_count['Emoticon_Count'], color='lightcoral')
    
    
    #라벨 설정
    plt.title('사용자별 이모티콘 사용 빈도')
    plt.xlabel('사용자', fontsize=9, labelpad=15)
    plt.xticks(rotation=45)
    plt.ylabel('이모티콘 수')
    plt.show()

    return emoticon_count

count_emoticon_usage(df, '이모티콘')