일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 논문리뷰
- torch
- 표준편차
- GRU
- 자연어처리
- Statistics
- HackerRank
- Window Function
- 설명의무
- LSTM
- 자연어 논문
- update
- 그룹바이
- NLP
- 짝수
- sql
- SQL 날짜 데이터
- inner join
- 자연어 논문 리뷰
- SQL코테
- t분포
- MySQL
- 코딩테스트
- leetcode
- CASE
- nlp논문
- 카이제곱분포
- 서브쿼리
- sigmoid
- airflow
- Today
- Total
목록자연어처리 (2)
HAZEL
5장. 유사성과 모호성 5-6 . 특징 벡터 만들기 5.6.1. TF 행렬 만들기 TF : 단어의 문서별 출현 횟수 -> 공부의 특징 벡터 : [0,0,1] 한계점 - 문서가 적으면, 특징 벡터를 구성했다고 하기엔 무리가 존재함. 그러나 너무 많으면 지나치게 많은 차원이 생김 - 희소벡터가 될 수 있음 ( 벡터의 극히 일부분만 의미있는 값, 나머지는 0으로 채워진 벡터 ) -> 특정 통계를 얻는데 걸림돌 이 될 수 있음 5.6.2. 컨텍스트 윈도우로 함께 출현한 단어들의 정보 활용 ( Based on Context Window ( Co- occurrence ) ) - 윈도우 기반 동시 등장 행렬 - 단어별로 윈도우 내에 속해 있는 이웃 단어들의 출현 빈도를 세어 행렬로 나타내는 것 - window siz..
5장. 유사성과 모호성 5-1. 단어의 의미 5.1.1. 단어와 의미의 관계 표제어 : 겉으로 보이는 단어의 형태 - 같은 형태이지만, 다른 의미로 쓰이는 단어가 존재. 사람들은 주변정보에 따라 의미를 파악함 - 주변정보가 부족하여 모호성이 증가하면, 사람이여도 해석이 실패함. 중의성 문제 : 한가지 형태의 단어에 여러 의미가 포함되어 생기는 문제. - 기계 번역에서 단어의 의미에 따라 해당 번역 단어의 형태가 완전히 바뀌기 때문에 중요 -> 겉으로 보이는 형태의 매개체를 이해하고 내부의 다양한 의미로 변환하여 사용하여야 함 5.1.2. 동형어와 다의어 동형어 : 형태는 같으나 뜻이 다른 단어, 아예 어원이 다른 의미들이 같은 형태를 띄고 있는 것 다의어 : 한 형태의 단어가 여러의미를 가지지만, 그 의..