Pavel Plyusnin

Data Scientist

Проблема балансирования тем в тематическом моделировании

Тематическое моделирование является мощным прикладным инструментом анализа и систематизации как текстовых коллекций, так и любых других данных, которые можно представить в доступном алгоритму формате.

Вероятностная тематическая модель позволяет кластеризовать коллекцию документов, описывая каждую тему дискретным распределением на множестве токенов, а каждый документ — распределением на множестве тем. Таким образом, тематическая модель является эффективным средством систематизации и анализа больших коллекций текстов, и данных, которые можно свести к ним (например, в работе показан анализ банковских транзакций посредством тематического моделирования).

Постановка задачи тематического моделирования

Перейдем к формальной постановке метода.

Пусть дана коллекция текстовых документов, т.е

  • D — конечное множество текстовых документов
  • W — конечное множество слов (токенов)
  • T — конечное множество тем

Задачей тематического моделирования является по заданному корпусу текстов определить число тем, распределения частот слов для каждой темы и степени принадлежности текстов к каждой из тем

Я не боюсь математики!

Формально, задачей тематического моделирования является приближение матрицы частот вхождений слов в каждый из документов произведением двух матриц:

\begin{aligned}
p(w|d) &= \sum_{t \in T} p(w|d, t)p(t|d) = \sum_{t \in T} p(w|t)p(t|d) =\\
&=\sum_{t \in T} \phi_{wt}\theta_{td} = \Phi\Theta
\end{aligned}
Тематическое моделирование является задачей стохастического матричного разложения

Эта задача стохастического разложения матриц \Phi,\ \Theta обычно решается максимизацией правдоподобия:

\mathscr{L}(\Phi, \Theta) = \prod_{d \in D}\prod_{w \in d} p(w|d)^{n_{dw}} \to \max_{\Phi, \Theta}

где n_{dw} — количество вхождений слова w в документ d.

Переходя к логарифму правдоподобия \mathscr{L} и заменяя p(w|d) на \sum_{t \in T} \phi_{wt}\theta_{td}:

L(\Phi, \Theta) = \sum_{d \in D}\sum_{w \in d}n_{dw}\sum_{t \in T}\phi_{wt}\theta_{td} \to \max_{\Phi, \Theta}

при условиях, что \Phi и \Theta — стохастические, т.е

\begin{aligned}
\phi_{wt} \geq 0,&\quad \sum_{w\in W}\phi_{wt} = 1\\
\theta_{td} \geq 0,&\quad \sum_{t\in T}\theta_{td} = 1
\end{aligned}

Наша задача является некорректно поставленной (у нее есть бесконечное множество решений). Стандартным приемом доопределения решения является регуляризация. Тогда наш оптимизируемый функционал принимает вид

L(\Phi, \Theta) = \sum_{d \in D}\sum_{w \in d}n_{dw}\sum_{t \in T}\phi_{wt}\theta_{td} + R(\Phi, \Theta) \to \max_{\Phi, \Theta}

Для решения данной оптимизационной задачи обычно применяется EM-алгоритм:

\def\norm{\mathop{norm}}
\begin{aligned}
\text{E-шаг:}& &p_{tdw} &\equiv p(t|d,w) = \norm\limits_{t \in T}(\phi_{wt}\theta_{td})\\
\text{M-шаг:}& &\phi_{wt} &= \norm\limits_{w \in W}\left(n_{wt} + \phi_{wt}\frac{\partial R}{\partial \phi_{wt}}\right),& n_{wt}&=\sum_{d \in D}n_{dw}p_{tdw}\\
&&\theta_{td} &= \norm\limits_{t \in T}\left(n_{td} +\theta_{td}\frac{\partial R}{\partial \theta_{td}}\right),& n_{td}&=\sum_{w \in d}n_{dw}p_{tdw}\\
\text{где}&&\norm\limits_{t \in T}(x_t) &= \frac{\max(x_t, 0)}{\sum\limits_{s \in T}\max(x_s, 0)}
\end{aligned}

[свернуть]

Проблема балансирования тем

Вероятностные тематические модели основаны на принципе максимума правдоподобия, а для этого они должны полностью задействовать все свои параметры для описания коллекции. Модели не выгодно как сокращать количество тем (это означает уменьшение числа доступных параметров), так и сокращать доли отдельных тем в коллекции, так как это привело бы к неполному использованию параметров, а в пределе — к уменьшению числа тем. Получается, что модели выгодно использовать темы примерно в равных долях.

С другой стороны, реальные текстовые коллекции определяются не принципом правдоподобия, а историей их создания, и могут оказаться несбалансированными.

Например, если в коллекции из тысячи документов 980 относятся к теме математики, 10 — биологии, а остальные 10 — психологии, то в тематической модели с тремя темами все три будут о математике, а 20 нематематических текста будут случайно распределены по этим темам.

Так как семантически однородные темы могут отличаться в разы или на порядки, а тематическая модель выравнивает их по мощности, то наиболее мощные темы окажутся разделенными на много мелких, отличающиеся друг от друга деталями, когда наименее мощные объединятся.

Вероятностные тематические модели выравнивают темы по их мощности (красные кластеры), что приводит к появлению тем-дубликатов (А) и семантически разнородных тем (С). Лишь часть тем остаются семантически однородными и нераздробленными(B)

Предлагаемое решение проблемы несбалансированности

Проблема несбалансированности классов является очень популярной и давно решенной в задаче классификации. Там она обходится путем нормировки на мощность класса. Попробуем применить этот же подход и в исследуемой задаче

Модифицированный EM-алгоритм

\def\norm{\mathop{norm}}
\begin{aligned}
\text{E-шаг:}& &p_{tdw} &\equiv p(t|d,w) = \norm\limits_{t \in T}(\phi_{wt}\theta_{td})\\
&&p_{tdw}\rq &= \norm\limits_{t \in T} \left( \frac{\phi_{wt}\theta_{td}}{n_t} \right), & n_t& = \sum_{d \in D}\sum_{w \in d}n_{dw}p_{tdw}\\
\text{M-шаг:}& &\phi_{wt} &= \norm\limits_{w \in W}\left(n_{wt} + \phi_{wt}\frac{\partial R}{\partial \phi_{wt}}\right),& n_{wt}&=\sum_{d \in D}n_{dw}p_{tdw}\rq\\
&&\theta_{td} &= \norm\limits_{t \in T}\left(n_{td} +\theta_{td}\frac{\partial R}{\partial \theta_{td}}\right),& n_{td}&=\sum_{w \in d}n_{dw}p_{tdw}\rq\\
\text{где}&&\norm\limits_{t \in T}(x_t) &= \frac{\max(x_t, 0)}{\sum\limits_{s \in T}\max(x_s, 0)}
\end{aligned}

[свернуть]

В ходе проведения обширной работы было исследовано поведение модифицированного EM-алгоритма как в отдельности, так и с различными регуляризаторами и подходом кластеризации.

Зависимость количества верно восстановленных тем от k при T=200 (использовано разреживание)

В ходе исследования было получено улучшение построения несбалансированных тем, используя предложенный итеративный алгоритм совместно с разреживающим регуляризатором. Однако, рассматриваемая проблема требует дальнейшего изучения посредством других методов, так как улучшение скорее косметическое.

Постерный доклад со SMILES 2020

Добавить комментарий

Your email address will not be published. Required fields are marked *.

*
*
You may use these <abbr title="HyperText Markup Language">HTML</abbr> tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>