Тематическое моделирование является мощным прикладным инструментом анализа и систематизации как текстовых коллекций, так и любых других данных, которые можно представить в доступном алгоритму формате.
Вероятностная тематическая модель позволяет кластеризовать коллекцию документов, описывая каждую тему дискретным распределением на множестве токенов, а каждый документ — распределением на множестве тем. Таким образом, тематическая модель является эффективным средством систематизации и анализа больших коллекций текстов, и данных, которые можно свести к ним (например, в работе показан анализ банковских транзакций посредством тематического моделирования).
Постановка задачи тематического моделирования
Перейдем к формальной постановке метода.
Пусть дана коллекция текстовых документов, т.е
- D — конечное множество текстовых документов
- W — конечное множество слов (токенов)
- T — конечное множество тем
Задачей тематического моделирования является по заданному корпусу текстов определить число тем, распределения частот слов для каждой темы и степени принадлежности текстов к каждой из тем
Формально, задачей тематического моделирования является приближение матрицы частот вхождений слов в каждый из документов произведением двух матриц:
p(w|d) &= \sum_{t \in T} p(w|d, t)p(t|d) = \sum_{t \in T} p(w|t)p(t|d) =\\
&=\sum_{t \in T} \phi_{wt}\theta_{td} = \Phi\Theta
\end{aligned}

Эта задача стохастического разложения матриц \Phi,\ \Theta обычно решается максимизацией правдоподобия:
где n_{dw} — количество вхождений слова w в документ d.
Переходя к логарифму правдоподобия \mathscr{L} и заменяя p(w|d) на \sum_{t \in T} \phi_{wt}\theta_{td}:
при условиях, что \Phi и \Theta — стохастические, т.е
\phi_{wt} \geq 0,&\quad \sum_{w\in W}\phi_{wt} = 1\\
\theta_{td} \geq 0,&\quad \sum_{t\in T}\theta_{td} = 1
\end{aligned}
Наша задача является некорректно поставленной (у нее есть бесконечное множество решений). Стандартным приемом доопределения решения является регуляризация. Тогда наш оптимизируемый функционал принимает вид
Для решения данной оптимизационной задачи обычно применяется EM-алгоритм:
\begin{aligned}
\text{E-шаг:}& &p_{tdw} &\equiv p(t|d,w) = \norm\limits_{t \in T}(\phi_{wt}\theta_{td})\\
\text{M-шаг:}& &\phi_{wt} &= \norm\limits_{w \in W}\left(n_{wt} + \phi_{wt}\frac{\partial R}{\partial \phi_{wt}}\right),& n_{wt}&=\sum_{d \in D}n_{dw}p_{tdw}\\
&&\theta_{td} &= \norm\limits_{t \in T}\left(n_{td} +\theta_{td}\frac{\partial R}{\partial \theta_{td}}\right),& n_{td}&=\sum_{w \in d}n_{dw}p_{tdw}\\
\text{где}&&\norm\limits_{t \in T}(x_t) &= \frac{\max(x_t, 0)}{\sum\limits_{s \in T}\max(x_s, 0)}
\end{aligned}
Проблема балансирования тем
Вероятностные тематические модели основаны на принципе максимума правдоподобия, а для этого они должны полностью задействовать все свои параметры для описания коллекции. Модели не выгодно как сокращать количество тем (это означает уменьшение числа доступных параметров), так и сокращать доли отдельных тем в коллекции, так как это привело бы к неполному использованию параметров, а в пределе — к уменьшению числа тем. Получается, что модели выгодно использовать темы примерно в равных долях.
С другой стороны, реальные текстовые коллекции определяются не принципом правдоподобия, а историей их создания, и могут оказаться несбалансированными.
Например, если в коллекции из тысячи документов 980 относятся к теме математики, 10 — биологии, а остальные 10 — психологии, то в тематической модели с тремя темами все три будут о математике, а 20 нематематических текста будут случайно распределены по этим темам.
Так как семантически однородные темы могут отличаться в разы или на порядки, а тематическая модель выравнивает их по мощности, то наиболее мощные темы окажутся разделенными на много мелких, отличающиеся друг от друга деталями, когда наименее мощные объединятся.

Предлагаемое решение проблемы несбалансированности
Проблема несбалансированности классов является очень популярной и давно решенной в задаче классификации. Там она обходится путем нормировки на мощность класса. Попробуем применить этот же подход и в исследуемой задаче
\begin{aligned}
\text{E-шаг:}& &p_{tdw} &\equiv p(t|d,w) = \norm\limits_{t \in T}(\phi_{wt}\theta_{td})\\
&&p_{tdw}\rq &= \norm\limits_{t \in T} \left( \frac{\phi_{wt}\theta_{td}}{n_t} \right), & n_t& = \sum_{d \in D}\sum_{w \in d}n_{dw}p_{tdw}\\
\text{M-шаг:}& &\phi_{wt} &= \norm\limits_{w \in W}\left(n_{wt} + \phi_{wt}\frac{\partial R}{\partial \phi_{wt}}\right),& n_{wt}&=\sum_{d \in D}n_{dw}p_{tdw}\rq\\
&&\theta_{td} &= \norm\limits_{t \in T}\left(n_{td} +\theta_{td}\frac{\partial R}{\partial \theta_{td}}\right),& n_{td}&=\sum_{w \in d}n_{dw}p_{tdw}\rq\\
\text{где}&&\norm\limits_{t \in T}(x_t) &= \frac{\max(x_t, 0)}{\sum\limits_{s \in T}\max(x_s, 0)}
\end{aligned}
В ходе проведения обширной работы было исследовано поведение модифицированного EM-алгоритма как в отдельности, так и с различными регуляризаторами и подходом кластеризации.

В ходе исследования было получено улучшение построения несбалансированных тем, используя предложенный итеративный алгоритм совместно с разреживающим регуляризатором. Однако, рассматриваемая проблема требует дальнейшего изучения посредством других методов, так как улучшение скорее косметическое.