Gensim
보이기
Gensim은 최신 통계 기계 학습을 사용하여 비지도 주제 모델링, 문서 색인화, 유사성 검색 및 기타 자연어 처리 기능을 위한 오픈 소스 라이브러리이다.
Gensim은 성능을 위해 파이썬 및 사이썬으로 구현되었다. Gensim은 데이터 스트리밍 및 증분 온라인 알고리즘을 사용하여 대규모 텍스트 컬렉션을 처리하도록 설계되었으며, 이는 메모리 내 처리만을 대상으로 하는 대부분의 다른 기계 학습 소프트웨어 패키지와 차별화된다.
주요 특징
Gensim에는 fastText[1], word2vec 및 doc2vec 알고리즘[2]의 스트리밍 병렬 구현뿐만 아니라 잠재 의미 분석(LSA, LSI, SVD), 비음수 행렬 분해(NMF), 잠재 디리클레 할당(LDA), tf-idf 및 무작위 투영이 포함되어 있다.[3]
Gensim의 새로운 온라인 알고리즘 중 일부는 Gensim의 창시자인 라딤 예흐렉(Radim Řehůřek)의 2011년 박사 학위 논문인 자연어 처리에서 의미론적 분석의 확장성에도 게재되었다.[4]
각주
- ↑ Scalable *2vec training
- ↑ Deep learning with word2vec and Gensim
- ↑ Radim Řehůřek and Petr Sojka (2010). Software framework for topic modelling with large corpora. Proc. LREC Workshop on New Challenges for NLP Frameworks
- ↑ Řehůřek, Radim (2011). “Scalability of Semantic Analysis in Natural Language Processing” (PDF). 2015년 1월 27일에 확인함.
my open-source gensim software package that accompanies this thesis
외부 링크
- Gensim - 공식 웹사이트