All Articles

TIL&TEL 20.07.20~20.07.26

TIL( Today I Learned)

20-07-20 월

  • 딥러닝을 이용한 자연어 처리 - 위키독스 완독 하기,

    • qna 데이터 셋에 적용 가능할 만한 방법들 찾기
    • qna 데이터 만들때 적용 가능할 만한 방법들 찾아보기

20-07-21 화

  • 가능한 자연어 처리 정리해보기

    • 문서 유사도
    • TF-IDF와 코사인 유사도만으로 영화의 줄거리에 기반해서 영화를 추천하는 추천 시스템을 만들 수 있습니다. => 질문에 기반하여 답변을 추천한다.

      • 처리과정
      • 질문- 답변
      • 맨 마지막에 질문 추가해서 DF MATRIX 만들고
      • 맨 마지막 질문과 유사한 질문들 idx 넘버 뽑아온다.
      • 그 질문들 목록을 띄우고,

        • + 가장 최고 점수 답변과 비슷한 답변들의 질문 또한 띄운다.
      • 예상되는 문제
      • 질문이 늘어날수록 DF MATRIX 사이즈가 선형 증가

        • 코사인 유사도 계산도 기하 급수로 증가??
      • 기존에 입력되어있지 않은 단어가 들어간 질문일 경우 방향을 못잡을 수 있다.
      • 낭비되는 0의 공간이 많다.
      • 새로운 정보에 대해 업데이트가 어렵다.
    • 유클리드 유사도

      • 기준 문서가 있고 해당 문서와 가장적은 방향을 잡는다.
    • 자카드 유사도

      • 두 문서의 총 단어 집합에서 두 문서에서 공통적으로 등장한 단어의 비율
    • 토픽 모델링?
    • LSA

      • LSA는 쉽고 빠르게 구현이 가능할 뿐만 아니라 단어의 잠재적인 의미를 이끌어낼 수 있어 문서의 유사도 계산 등에서 좋은 성능을 보여준다는 장점을 갖고 있습니다. 하지만 SVD의 특성상 이미 계산된 LSA에 새로운 데이터를 추가하여 계산하려고하면 보통 처음부터 다시 계산해야 합니다. 즉, 새로운 정보에 대해 업데이트가 어렵습니다. 이는 최근 LSA 대신 Word2Vec 등 단어의 의미를 벡터화할 수 있는 또 다른 방법론인 인공 신경망 기반의 방법론이 각광받는 이유이기도 합니다.
    • LDA

      • 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출한다.
    • 문장(문서) 라벨
    • 단어 태깅
    • 질의 응답
    • 결과값에 의한 분류
    • many to 1 - 문장을 넣었을때 1 단어 나온다.

      • 감성 - 라벨 필요
      • 의도 - 라벨 필요
      • 대화내용 평가 긍/부정 OR Score(?/100) 라벨 필요
      • 유사 문서 인덱스 corpus 필요
      • 문서 분류 corpus 필요
    • many to many - 문장을 넣었을 때 여러 단어 나온다.

      • 분류( 확률 분포) - 라벨 필요
      • 언어 번역 - 라벨 필요
      • 질문 답변 - 라벨 필요

20-07-22 수

  • 문서 정리 디테일 하게 하기

    • 머신 러닝과 자연어 처리
    • 머신러닝 연계된 자연어 처리 활용 분야들
  • 15:00 twc crew interview

    TWC 운영 블로그에 올라간 내용

  • 딥러닝을 이용한 자연어 처리 실습

    • word2vec,
    • 임베딩 연습

20-07-23 목

  • 서비스 중 안되는 부분 디버깅

    • STT 처리 하는 데서
  • 데이터 전처리
  • 14:00 개발 본부 전체 미팅

20-07-24 금

  • 서비스 확대 논의
  • Celery 도입 알아봄

TEL (Trial and Error Log)

20-07-23

  • ERROR: queue 가 안빠짐

    • SITUATION: 프로세스 queue가 안빠지고 있었다.
    • REASON: 요청받는 상황에서 에러가 났을때 dequeue를 하지않고 정해진 상황에서만 dequeue를 하고 있다.
    • SOLUTION: 에러나는 상황에서도 dequeue를 하는 걸로 수정
  • ERROR: queue가 안빠짐 2

    • SITUATION: 프로세스 queue가 안빠지고 있었다 2
    • REASON: 내가 먼저 했을때 처리한 부분은 뒷단이고 요청보낼때 에러 발생시키는 부분이 있는걸 생각을 못했다.
    • SOLUTION: 누락부분 보완