본문 바로가기
[코드스테이츠] AI부트캠프2기

[Section4] 프로젝트 스크립트

by xper100 2021. 7. 7.

프로젝트의 최종목적: 다중감정분류를 활용한 맞춤 서비스 및 제품을 추천하는 알고리즘을 만드는 것

 

이번 프로젝트: 첫 단계인 세그먼트작업을 수행할 수 있는 모델을 만드는 것입니다.

 

 

동기부여로는

 

1. 현대인의 우울증과 같은 정신질환의 심각성

2. 정신질환 인식이 안좋아 시의적절한 치료 불가

3. 대화를 통해 정신건강을 검진 및 증진

 

 

 활용방안으로는 세가지가 있는데요.

 

  1. 대화를 통해 스트레스 지수, 우울증 지수와 같이 정신상태를 수치화하여 표현함으로서 스스로 인지하는데 도움을 줄 수있음(헬스케어)
  2. 정신질환의 유무를 1차적으로 판단하여 질환이라 인식하도록 도움
  3. 상담이 어려운 사람에게는 부차적으로 도울 수 있는 제품, 서비스 등을 제공함

 

 

간단하게 데이터에 대해 설명하겠습니다.

 

데이터는 AI hub에서 받아왔으며 사람의 음성을 텍스트화하였습니다.

 

- 약 28만개의 데이터

 

- 데이터에는 1~4개의 사람문장이 있으며 각각 시스템이 응답한 내용 포함

 

- 분류에 쓰이는 클래스는 총 2가지: 6개의 감정대분류와 58개의 감정 소분류

 

- 프로젝트에서는 감정대분류과 첫번째 사람문장만을 사용하였습니다.

 

- 남여의 성비는 약 5.5대 4.5

 

- 연령대는 4분류로 청년층이 가장 높은 비율

 

 

 

 

 

전처리과정을 설명하겠습니다.

 

- 형태소 분석기 Mecab

 

- 불용어 처리로는 Ranks NL이라는 회사에서 제공하는 자료를 바탕으로 몇 단어만 추가하여 적용하였습니다.

 

 

LSTM을 기본, 3가지 다른 조건을 적용하였습니다.

- Word2Vec을 사용한 기본 LSTM

- FastText를 사용한 기본 LSTM

- Attentiond과 2개의 hidden layer를 포함한 LSTM

 

 

프로젝트의 결과는 Change Level과 비슷한 정확성 (약 18%) 한가지의 클래스인 ‘기쁨’으로 모든 데이터를 분류

 

개선방향으로는 총 6가지가 있습니다.

 

  1. 기본 LSTM 모델의 임베딩방식만 다르게 하여 다중감정분류에 적합하지 않음
  2. 불용어 추가 및 전처리 시 토큰의 길이가 작은 데이터 제거
  3. 구현된 모델 중 적합한 모델을 찾아서 적용할 수 있음
  4. 기존에 학습된 형태소 분리모델 적용하여 임베딩과 전처리 개선
  5. 사람문장 전체를 적용하여 데이터양 늘리기
  6. 연령별 및 상황키워드에 따라 타겟층 축소

 

댓글


출처: https://privatedevelopnote.tistory.com/81 [개인노트]