tf idf 예제

이 예제에서 각 문장은 별도의 문서입니다. TF-IDF의 작동 방식을 더 잘 설명하기 위해 몇 가지 예제를 살펴보겠습니다. 한 달 전에 우리 가족이 모아나의 캐릭터 마우이의 이름을 따서 명명된 Mawi라는 새로운 개를 입양했다는 점을 감안할 때, 우리는 이 예에서 모아나의 위키백과 페이지를 사용할 것입니다. 단어 “예제”는 더 재미 있다 – 그것은 세 번 발생하지만, 두 번째 문서에서만 발생 : TF * IDF는 더 나은 저평가 된 콘텐츠를 이해하기 위해 검색 엔진에 의해 사용된다. 예를 들어 Google에서 `콜라`라는 용어를 검색하려는 경우 Google에서 `COKE`라는 제목의 페이지가 있는지 확인할 수 있습니다. 이전 코드 조각으로, 우리는 그들의 메서드를 사용 하 여 모듈을 추가 하 여 다시 시작 합니다. 이 예제에서는 Numpy, 팬더 및 정규 표현 외에 Scikit 학습을 활용합니다. Scikit-learn은 파이썬을위한 무료 기계 학습 라이브러리입니다. CountVectorizer를 사용하여 텍스트 문서 컬렉션을 토큰 개수 행렬로 변환합니다. TfidfTransformers정규화된 TF 또는 TF-IDF 표현으로 개수 행렬의 변환을 처리합니다.

예를 들어, 100단어 문서에 `고양이`라는 용어가 12번 포함되어 있는 경우, `고양이`라는 단어에 대한 TF는 예를 들어 10,000,000,000,000개의 문서 크기의 코퍼스(예: 웹)에서 “고양이”라는 용어가 x배로 나타난다고 말합니다. “cat”이라는 용어가 포함된 문서가 0.3백만 개라고 가정해 보겠습니다. 우리는 쿼리와 각 문서 사이의 유사성을 찾기 위해 유사성 측정값 (예 : Cosine 유사성 방법)을 사용합니다. 예를 들어 Cosine 유사성 방법을 사용하여 유사성을 찾은 다음 각도가 가장 작으면 유사성이 더 많이 됩니다. TF-IDF로 좋은 결과를 얻으려면 거대한 코퍼스가 필요합니다. 내 예에서, 난 그냥 작은 크기의 코퍼스를 사용했다. 중지 단어를 제거했기 때문에 결과가 즐거웠습니다. 이 기사를 읽어 주셔서 감사합니다. 도움이 된다면 공유해야 합니다.

가장 빈번한 경우: [영화`, `설리`, `괴물`, `더`, `마이크`, `괴물`, `픽사`, `스토리`, `아이`, `랜달`, `부`, `디즈니`, `캐릭터`, `일`, `좋아요`, `인`, `릴리즈`, `모피`를 사용하여 TF를 쉽게 사용할 수 있습니다. sklearn. 이제 우리는 TF-IDF가 코퍼스에서 텍스트 데이터를 처리하는 도구로 얼마나 강력한지 이해합니다. sklearn TF-IDF에 대해 자세히 알아보려면 이 링크를 사용할 수 있습니다. 문서의 기본 세트를 위해 우리는 65 손으로 고른 영화의 컬렉션을 사용했다. 이것은 데모 용이었지만 TF-IDF를 사용하여 더 나은 결과를 얻으려면 훨씬 더 큰 문서 기반을 사용해야합니다. 바이오: Enrique Fueyo는 Lang.ai CTO 이자 공동 창립자로서, 비정형 텍스트 데이터를 처리해야 하는 기업과 개발자 모두를 돕는 제품과 서비스를 구축하기 위해 언어 이해를 위한 감독되지 않은 AI 작업을 하고 있습니다. 몇 초 후에 결과가 표시됩니다. 이 경우 미국에서 영어에 대해 “tf*idf”라는 키워드를 넣습니다.