3.1 근접 이웃 탐색의 응용 자카드 유사도 (Jaccard Similarity): 교집합의 상대적인 크기로 관찰되는 집합의 유사성 집합 S와 T가 있으면, 이 둘의 자카드 유사도는∣S∩T∣/∣S∪T∣| 로 정의한다. (둘의 자카드 유사도는 SIM(S, T)로 나타내기도 함.) 일반적으로 웹이나 기사 모음 같은 말뭉치에서 유사한 문서들을 찾는 일은 자카드 유사도로 다루기 적합한 종류의 문제인데, 이는 문자 기반 유사성 (Character-level Similarity) 임에 유의하자. 즉, 의미가 유사한 것이 아닌 문자 자체의 유사도를 비교하는 것이다. (사용하는 예시: 표절, 미러페이지, 출처가 유사한 기사의 필터링) 단순히 글의 유사도만 걸러내는 것이 아니라, 협업 필터링 (Collaborative ..