TIL( Today I Learned)
21-08-09 월
-
TF-IDF 정리
-
조정 가능한 것들
-
- 비교문서군 포함 단어, 단어가 포함된 비교문서군 수
-
포함 단어 ↓ , 미포함단어 ↑
- 포함 단어 Frequency 가 받쳐주지 않으면, 비교문서군에 있는 단어들이 위로 올라옴.
-
단어가 들어있는 비교문서군이 많을수록 점수 ↓
- 그러나 대체로 count가 높아서 그 점수로 위로 올라감
-
- 비교문서군 숫자 (동일한 내용도 됨 )
-
비교문서 문서수를 늘리면, 전체 점수가 상승 ( 모든 단어 동반 상승, 동일한 폭은 아님 단어 카운트에 따라 달라짐, 점수는 0 ~ 1 분포)
- e.g. 0.068 -> 0.234 (상대적 숫자)
-
단어가 들어있는 비교문서군 숫자를 늘리면 비교 문서군에 있는 단어, 없는 단어의 점수 배율이 조절된다.
-
e.g.
- 비교문서군에 다 들어 있는 단어 1점, 비교문서군에 하나도 들어있지 않은 단어 3 점
- 1 - 3점, => 1 - 5점으로 조정 할 수 있다. (엄청늘릴 수는 없다.)
-
- 비교문서군을 늘릴 수록 처리 속도가 느려질 수 있음
-
-
TF-IDF 단점
-
단어 카운트 의존
- tf가 많으면, idf가 적어도 위로 올라간다.
- tf가 적으면, idf가 많아도 내려간다.
- 비교문서군에 없으면 의미없는, 이상한 단어 점수가 높아진다.
-
상담의 유형 및 내용에 따라 점수가 들죽날죽해진다.
- 특수 단어가 1번만 나올 경우 점수가 안나옴.
- 상담원이 1 대화안에서 관용적으로 사용하는 단어가 많을 경우, 특수 단어의 점수가 밑으로 내려간다.
-
의미로 검출되지 않아서, 정확한 단어가 아닐 경우 추출 안된다.
- e.g. ㅂㅐ송, 물건이 안와요.
-
-
-
메일 푸시 서비스
-
메일
- 고객별로 다른 내용
-
전송
-
python only
- gmail 계정 limit에 걸린다.
- You may see this message if you send an email to a total of more than 500 recipients in a single email and or more than 500 emails sent in a day.
- 유료 구글 계정 2,000/day
- If you access Gmail via POP or IMAP clients, like Microsoft Outlook or Apple Mail, you can send an email message to a maximum of 100 people at a time
-
mail deliver service
-
SendGrid Email API ( Paid)
-
가격표
- 1만건 무료, 그 이상 과금
-
-
aws : SES
-
가격표
- 6.2 만 까지 무료, 그 이후 1만건당 1USD
-
-
-
multi channel alarm 서비스
-
courier
-
가격표
- 200 / 1USD
- 확장시 추가 될 수 있음
- app push
- sms
-
dm
- discord
- facebook messenger
- intercom
- teams
- slack
-
-
-
-
21-08-10 화
- 멀티 프로세스 코드 읽기
- aiohttp
- pytest, TDD, TF-IDF 공유
21-08-11 수
- 프로젝트 회의 참석
- webhook 알림 만들기
21-08-12 목
- 코드 수정
21-08-13 금
- 코드 작업
- 프로젝트 정책 미팅
TEL (Trial and Error Log)
- empty