토픽 모델링(Topic Modeling)

: 문서 집합에 숨어 있는 주제를 찾아내는 것

 

사람이 수행하는 토픽 모델링은 더 함축적인 의미로 문장을 요약하는 것에 반해, 머신러닝 기반의 토픽 모델은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축척으로 추출

 

머신러닝 기반의 토픽 모델링에 자주 사용되는 기법은

1. LSA(latent semanti analytics)

2. LDA(latent dirichlet allocation)

 

LDA는 Count 기반의 벡터화만 사용함

lda = LatentDirichletAllocation(n_components=8, random_state=0)
lda.fit(feat_vect)

 

LatentDirichletAllocation 객체의 components_ 속성 값은 개별 토픽별로 각 word 피처가 얼마나 많이 그 토픽에 할당됐는지에 대한 수치를 가지고 있음

print(lda.compoents_.shape)
lda.components_

 

lda_model.components_ 값만으로는 각 토픽별 word 연관도를 보기 어려움

각 토픽별로 연관도가 높은 순으로 Word를 나열하여 살펴본다

 

 

 

'ML' 카테고리의 다른 글

문서 유사도  (0) 2022.12.01
문서 군집화  (0) 2022.12.01
감성 분석  (0) 2022.11.23
텍스트 분류 실습 - 20 뉴스그룹 분류  (0) 2022.11.23
텍스트 분석  (0) 2022.11.22

+ Recent posts