VSFe의 블로그?

  • 홈
  • 태그
  • 방명록

CS/[21-01] 빅데이터 1

빅데이터 2주차 내용 정리

3.1 근접 이웃 탐색의 응용 자카드 유사도 (Jaccard Similarity): 교집합의 상대적인 크기로 관찰되는 집합의 유사성 집합 S와 T가 있으면, 이 둘의 자카드 유사도는∣S∩T∣/∣S∪T∣| 로 정의한다. (둘의 자카드 유사도는 SIM(S, T)로 나타내기도 함.) 일반적으로 웹이나 기사 모음 같은 말뭉치에서 유사한 문서들을 찾는 일은 자카드 유사도로 다루기 적합한 종류의 문제인데, 이는 문자 기반 유사성 (Character-level Similarity) 임에 유의하자. 즉, 의미가 유사한 것이 아닌 문자 자체의 유사도를 비교하는 것이다. (사용하는 예시: 표절, 미러페이지, 출처가 유사한 기사의 필터링) 단순히 글의 유사도만 걸러내는 것이 아니라, 협업 필터링 (Collaborative ..

CS/[21-01] 빅데이터 2021.03.14
이전
1
다음
더보기
프로필사진

VSFe의 블로그?

contact: klm03025@gmail.com

  • 분류 전체보기 (50)
    • Programming (29)
      • Web (0)
      • Algorithm (4)
      • Design Pattern (0)
      • C (0)
      • C++ (0)
      • Python (0)
      • Java (24)
    • CS (6)
      • OS (4)
      • CA (0)
      • [21-01] 빅데이터 (1)
      • Network (0)
    • Mathematics (0)
    • 기타 (13)
      • 아무말 (2)
      • 후기 (11)

Tag

Backend.ai, 백준, 알고리즘, BFS,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바