Вахрушев Я.М., Брычкина М.С., Бусыгина М.С. О возможности использования модели машинного обучения в диагностике стадий хронической дуоденальной недостаточности. Здоровье, демография, экология финно-угорских народов. 2025; 1: 56-61.

Популярно о болезнях ЖКТ Лекарства при болезнях ЖКТ Если лечение не помогает Адреса клиник

Авторы: Вахрушев Я.М. / Брычкина М.С. / Бусыгина М.С.


О возможности использования модели машинного обучения в диагностике стадий хронической дуоденальной недостаточности



Я.М. Вахрушев1, М.С. Брычкина2, М.С. Бусыгина1


1 ФГБОУ ВО «Ижевская государственная медицинская академия» Минздрава России, г. Ижевск, Россия
2 ФГБОУ ВО «Ижевский государственный технический университет им. М.Т. Калашникова», г. Ижевск, Россия

УДК 616.342–002–008.64–036.12–07:004. 891.3

Вахрушев Яков Максимович — доктор медицинских наук, профессор, ORCID ID: https://orcid.org/0000–0001-9424–6316; Брычкина Мария Сергеевна — кандидат физико-математических наук; Бусыгина Марина Сергеевна — кандидат медицинских наук, ORCID ID: https://orcid.org/0000–0003–1740–2391


Аннотация.

Цель исследования: разработать модель машинного обучения для определения стадий хронической дуоденальной не достаточности.

Материалы и методы исследования. Обследовано 100 пациентов с хронической дуоденальной недостаточностью (47 (47%) женщин, 53 (53%) мужчины). Средний возраст участников составил 37,1±1,5 года. В контрольной группе исследования — 30 практически здоровых лиц, не имевших жалоб со стороны желудочно-кишечного тракта. На основе комплексных исследований, включающих видеоэзофагогастродуоденоскопию, рентгеноскопию, поэтажную манометрию, периферическую электрогастроэнтерографию, определение гормонов, оценку вегетативного гомеостаза и определение резорбционной функции двенадцатиперстной кишки, получены данные, характеризующие 3 стадии течения хронической дуоденальной недостаточности. Программное моделирование проводилось с использованием языка программирования Python, 3 моделей машинного обучения: 1) логистической регрессии, 2) метода опорных векторов и 3) алгоритма «случайного леса». Для построения модели на входе использовался набор полученных при обследовании пациентов данных размерности 9 столбцов-признаков, один из которых ключевой («Стадия»), на 100 строк-наблюдений.

Результаты исследования. В результате проведенных исследований получен набор данных, состоящий из 13 параметров по каждому из 100 пациентов. Модели машинного обучения необходимо было построить на основе данных, полученных при проведении малоинвазивных процедур, поэтому наиболее инвазивные методы были исключены. При использовании логистической регрессии, метода опорных векторов и алгоритма «случайного леса» выявлено, что данные пациентов хорошо разделимы по классам — стадиям. Суммарная объяснённая дисперсия по 2 компонентам составила 85,6%, что позволило утверждать: сохранение только двух главных компонент позволяет эффективно захватывать основную структуру распределения данных. При построении модель «случайного леса» состояла всего из 1 дерева решений. Поэтому для решения поставленных задач нагляднее было использовать алгоритм «Дерево решений» по двум параметрам: гастрин и частота электрической активности двенадцатиперстной кишки.

Заключение. Таким образом, применение методов машинного обучения для определения стадии хронической дуоденальной недостаточности по специально подобранным критериям позволяет малоинвазивным способом определить ее стадию.

Ключевые слова: хроническая дуоденальная недостаточность; машинное обучение; стадия; гастрин; электрическая активность двенадцатиперстной кишки

Для цитирования: Я.М. Вахрушев, М.С. Брычкина, М.С. Бусыгина. О возможности использования модели машинного обучения в диагностике стадий хронической дуоденальной недостаточности. Здоровье, демография, экология финно-угорских народов. 2025; 1: 56—61.

The possibility of using a machine learning model in diagnosing stages of chronic duodenal insufficiency

Ya.M. Vakhrushev1, M.S. Brychkina2, M.S. Busygina1

1 Izhevsk State Medical Academy, Izhevsk, Russia
2 Izhevsk State Technical University named after M.T. Kalashnikov, Izhevsk, Russia

Vakhrushev Yakov Maksimovich — Doctor of Medical Sciences, Professor, ORCID ID: https://orcid.org/0000-0001-9424-6316; Brychkina Maria Sergeevna — Candidate of Physical and Mathematical Sciences; Busygina Marina Sergeevna — Candidate of Medical Sciences, ORCID ID: https://orcid.org/0000-0003-1740-2391

Abstract.

Aim: to develop a machine learning model for determining the stages of chronic duodenal insufficiency.

Materials and methods. 100 patients (women — 47 (47%); men — 53 (53%)) with chronic duodenal insufficiency were examined. The mean age of the subjects was 37.1±1.5 in the control group that included 30 practically healthy people who had no gastrointestinal complaints. Data characterizing 3 stages of chronic duodenal insufficiency were obtained on the basis of complex studies, including video esophagogastroduodenoscopy, fluoroscopy, gasrointestinal manometry, peripheral electrogastroenterography, determination of hormones, assessment of autonomic homeostasis and determination of the absorbing function of the duodenum. Software modeling was carried out using the Python programming language and 3 machine learning models: 1) logistic regression, 2) support vector machine, 3) the random forest algorithm. To build the model, a set of data obtained during examination of patients with a dimension of 9 columns-features, one of which is the key one («Stage»), per 100 rows-observations was used as an input.

Results. As a result of the conducted research, a data set consisting of 13 parameters for each of the 100 patients was obtained. Machine learning models had to be built on the basis of data obtained during minimally invasive procedures, so invasive methods were excluded. Using logistic regression, the support vector method and the random forest algorithm it was found that patient data were well divided into classes — stages. The total explained variance for 2 components was 85.6%, which allowed us to state that preserving only two principal components allows us to capture effectively the main structure of the data distribution. When building the random forest model, we only had 1 decision tree. Therefore, to solve the tasks, it was more pictorial to use the Decision Tree algorithm for two parameters: gastrin and the frequency of electrical activity of the duodenum.

Conclusion. Thus, the use of machine learning methods to determine the stage of chronic duodenal insufficiency according to specially selected criteria allows us to determine its stage in a minimally invasive way.

Key words: chronic duodenal insufficiency; machine learning; stage; gastrin; the electrical activity of the duodenum

For citation: Ya.M. Vakhrushev, M.S. Brychkina, M.S. Busygina. The possibility of using a machine learning model in diagnosing stages of chronic duodenal insufficiency. Zdorov'e, demografiya, ekologiya finno-ugorskikh narodov. 2025; 1: 56—61.


Синдром «хроническая дуоденальная недостаточность» (ХДН) нами рассматривается как сложный симптомокомплекс, возникающий на основе морфологического поражения двенадцатиперстной кишки (ДПК), проявляющийся нарушениями моторно-эвакуаторной, гидролизно-резорбционной и гормонообразовательной функции ДПК [1].

На основе собственных исследований предложена классификация ХДН с учетом функциональных изменений ДПК [2]. Существуют стандартные протоколы исследования ХДН, включающие в себя многочисленные инвазивные процедуры [1], что создает серьезные сложности в определении стадии ХДН. Однако их установление имеет важное значение в использовании соответствующих лечебно-профилактических мероприятий. В связи с этим представляет интерес поиск способа определения стадии ХДН на основе данных, полученных без сложных инвазивных вмешательств. Помощь в подобной диагностике могут оказать модели машинного обучения.

Цель исследования: разработать модель машинного обучения для определения стадий хронической дуоденальной недостаточности.

Материалы и методы исследования. Обследовано 100 пациентов с ХДН (47 (47%) женщин, 53 (53%) мужчины). Средний возраст участников составил 37,1±1,5 года. В контрольной группе исследования ‒ 30 практически здоровых лиц, не имевших жалоб со стороны желудочно-кишечного тракта. Критерии исключения из исследования: беременность и лактация, аутоиммунные, эндокринные, инфекционные, тяжелые соматические заболевания.

Для определения стадий ХДН мы использовали стандартные методики исследования, включающие: 1) видеоэзофагогастродуоденоскопию, проводимую с помощью видеогастроскопии («Pentax EG –2790K», Япония) [3]; 2) гистологический анализ биопсийного материала из луковицы и из дистальной части ДПК; 3) беззондовую дуоденографию на рентгендиагностическом комплексе с дистанционным управлением Clinodigit (Italray, Италия) [4]; 4) поэтажный манометрический метод открытого катетера Вальдмана, определяющий интрадуоденальное давление [5]; 5) периферическую электрогастроэнтерографию с помощью гастроэнтероманитора ГЭМ-01 «Гастроскан–ГЭМ» (НПП «Исток–Система» г. Фрязино), использующую такие параметры как: Pi – электрическую активность отдельного органа ЖКТ, (Pi/Ps) – процентный вклад каждого частотного спектра в суммарный спектр, (Pi/Pi+1) – отношение электрической активности вышележащего органа к нижележащему, Кritm – коэффициент ритмичности, который представляет собой отношение длины огибающей спектра обсле дуемого отдела к ширине спектрального участка данного отдела [6]; 6) иммуноферментный анализ содержания в периферической крови гастрина (набор реагентов «Biohit», Финляндия) и 7) инсулина (набор реагентов «ДРГ ИНСТРУМЕНТС, Г.М.Б.Х.», Германия) [7,8]; 8) кардиоритмографию на аппарате «Варикард 2,51», определяющую индекс напряжения (ИН): ИН от 30 до 90 у.ед характерен для эутонии, менее 30 – ваготонии, более 90 – симпатикотонии [9]; 9) оценку резорбционной функции ДПК путем определения всасывания глюкозы (анализатор «ЭКСКАН-Г» МГ-1) [10].

Программное моделирование проводилось с использованием языка программирования Python, электронных библиотек «Pandas», «Matplotlib», «Scikit-learn». Для решения задачи классификации использовались следующие классические модели машинного обучения: 1) логистическая регрессия, 2) метод опорных векторов и 3) метод «случайного леса». Для оценки значимости полученных различий использовались критерий χ2 и непараметрический U-критерий Манна–Уитни. Статистический анализ выполняли с применением пакета программ «Statistica 6.0». Различия считали статистически значимыми при p <0,05.

Результаты исследования и их обсуждение. В таблице 1 представлена предложенная нами ранее [11] клинико-патогенетическая характеристика стадий ХДН на основе комплексных инвазивных исследований.


Таблица 1. Показатели функционального состояния двенадцатиперстной кишки и нейрогормональных регуляторных факторов у пациентов с хронической дуоденальной недостаточностью

Источник: собственная разработка, р ‒ достоверность по отношению к контрольной группе.


В результате проведенных исследований, представленных в таблице 1, получен набор данных, состоящий из 13 параметров по каждому из 100 пациентов (рис. 1).  


Рис. 1. Набор данных у пациентов с хронической дуоденальной недостаточностью (Источник: собственная разработка)


Модели машинного обучения необходимо было построить на основе малоинвазивных исследований, поэтому для дальнейшего исследования оставлены только следующие параметры: 1) частота электрической активности ДПК натощак, 2) частота электрической активности ДПК постпрандиально, 3) коэффициент соотношения электрической активности желудка к ДПК (P желудка/P ДПК), 4) коэффициент ритмичности ДПК, 5) гастрин, 6) инсулин, 7) индекс напряжения, 8) резорбционная функция, 9) стадия. Для построения модели на входе использовался набор данных (датасет) из 9 столбцов- признаков, полученных при неинвазивных исследованиях, один из которых ключевой («Стадия») на 100 строк-наблюдений (рис. 2). 


Рис. 2. Набор данных для построения моделей машинного обучения в определении стадии хронической дуоденальной недостаточности с помощью малоинвазивных методов (Источник: собственная разработка)


Определение стадии ХДН является задачей классификации с ключевым признаком «Стадия», принимающим 3 значения. Распределение этого признака по классам показало, что 50 пациентов имели первую стадию ХДН, 30 – вторую и 20 – третью. Таким образом, имелся дисбаланс стадий ХДН, который необходимо будет учитывать в параметрах моделей.

Для решения задачи классификации использовались соответствующие модели машинного обучения, в частности логистическая регрессия, метод опорных векторов и метод «случайного леса» [12]. 
Рис. 3. Распределение объясненной дисперсии по компонентам у пациентов с хронической дуоденальной недостаточностью (Источник: собственная разработка)


Рис. 4. Диаграмма рассеяния данных трех стадий хронической дуоденальной недостаточности (Источник: собственная разработка)


Рис. 5. Дерево решений для определения стадии хронической дуоденальной недостаточности (Источник: собственная разработка)


Таблица 2. Оценка результатов расчета трех моделей машинного обучения (Источник: собственная разработка)


Для оценки качества построенных моделей использовалась метрика задач классификации для несбалансированных выборок – F1-Score [13]. Она показала, что все признаки имели непересекающиеся интервалы изменения в зависимости от стадии ХДН, значит, данные были хорошо разделимы по классам – стадиям. Для подтверждения этого предположения использовался метод главных компонент (Principal Component Analysis), который позволял выявить наиболее информативные признаки многомерных данных и улучшить их визуализацию [14]. Оценить результаты анализа главных компонент помог метод объясненной дисперсии. В машинном обучении объясненная дисперсия – это разница между фактическими выборками набора данных и прогнозами, сделанными моделью. Компонент – параметр, характеризующий каждую стадию ХДН, полученный при малоинвазивном исследовании. Все 8 компонент объяснили 100% дисперсии, при этом на первую компоненту приходилось 63,2% объясненной дисперсии, на вторую – 22,4%. Таким образом, суммарная объяснённая дисперсия по 2 компонентам составила 85,6%. Распределение объясненной дисперсии по 8 компонентам пациентов с ХДН представлено на рис. 3 [15].

В результате анализа выявлено, что достаточно только двух главных компонент для эффективного описания всех данных по трем стадиям ХДН. Используя их, была построена диаграмма рассеяния для выявления закономерностей и стадий ХДН (рис. 4).

По рисунку 4 видно, что разбиение данных по стадиям – идеальное. Значит, все модели машинного обучения, несмотря на малый объем обучающих данных, показывают отличные результаты. Для проверки наличия линейных связей между признаками была построена матрица корреляции, которая выявила между признаками значимую линейную связь. Поэтому часть признаков была исключена. Таким образом, модели были построены по следующим признакам: «Частота электрической активности ДПК натощак», «Гастрин», «Индекс напряжения» и «Резорбционная функция».

Перед обучением выборка была разделена на обучающую и тестовую части. Цель разделения выборки состояла в том, чтобы оценить качество модели на независимом от обучения наборе данных и её способность обобщать на новых данных.

Во всех трех используемых моделях машинного обучения (логистическая регрессия, метод опорных векторов и метод «случайного леса») оценен показатель метрики F1-Score для проверки правильности классификации объектов моделями (табл. 2).

Значение метрики F1-Score, равное 1, означает, что все модели (логистическая регрессия, метод опорных векторов и метод «случайного леса») показали идеальный результат, то есть стадии заболевания были определены корректно.

При построении модели «случайного леса» параметр количества деревьев равен 1, то есть включал в себя только 1 «дерево». Поэтому данный метод можно было заменить на более наглядный – «Дерево решений» (рис. 5).

На основе дерева (рис. 5) получена схема принятия решения задачи определения стадии ХДН машинным способом с помощью малоинвазивных методов.

Согласно данной схеме можно определить, что первая стадия ХДН соответствует содержанию гастрина менее 22,55±0,4 пг/л. Если содержание гастрина превышает данный показатель, но частота миоэлектрической активности ДПК более 8,97±4,6 цикл/мин, то это вторая стадия ХДН. При третьей стадии ДПК частота миоэлектрической активности ДПК менее или равна 8,97±4,6 цикла/мин.

Таким образом, с учетом представленных в таблице 1 нарушений при разных стадиях ХДН рекомендована модель машинного обучения и схема принятия решений для определения стадии данного сложного патологического состояния.

На сегодня многие процессы можно автоматизировать с помощью различных IT-технологий [16]. В частности, в последнее время очень актуально использование машинного обучения в различных отраслях, в том числе в медицине [17]. Нами предложен способ решения задачи установления стадии с использованием технологий машинного обучения, основывающихся на результатах предварительно проведенных клинических, лабораторных и инструментальных исследований. Создана модель машинного обучения, определяющая стадию согласно классификации ХДН с помощью малоинвазивных процедур. По материалам проведенных исследований получено свидетельство о регистрации объекта интеллектуальной собственности «Способ определения стадии хронической дуоденальной недостаточности» [18].

Заключение. Таким образом, применение методов машинного обучения для определения стадии ХДН по специально подобранным критериям позволяет малоинвазивным способом определить стадию хронической дуоденальной недостаточности.

ЛИТЕРАТУРА
  1. Вахрушев Я.М. Хроническая дуоденальная недостаточность / Я.М. Вахрушев, М.С. Бусыгина. – Ижевск: ИГМА, 2021. – 136 с.
  2. Вахрушев Я.М. Клинико-патогенетическая характеристика стадий хронической дуоденальной недостаточности / Я.М. Вахрушев, М.С. Бусыгина // Терапия. – 2024. – (10). – С. 80–90 doi: https://dx.doi.org/10.18565/ therapy.2024.10.80-90.
  3. Самигуллин М.Ф. Эндоскопическая диагностика моторных нарушений верхних отделов желудочно-кишечного тракта / М.Ф. Самигуллин, В.Ю. Муравьев, А.И. Иванов // Медицинский альманах. – 2008. – (2). ‒ С. 33–34.
  4. Труфанов Г.Е. Лучевая диагностика: учебник / Г.Е. Труфанов. ‒ М.: ГЭОТАР-Медиа, 2021. – 484 с.
  5. Витебский Я.Д. Хронические нарушения дуоденальной проходимости и язвенная болезнь желудка и двенадцатиперстной кишки / Я.Д. Витебский. ‒ Челябинск: Южноуральское книжное издательство, 1976. – 189 с.
  6. Смирнова Г.О. Периферическая электрогастроэнтерография в клинической практике: пособие для врачей / Г.О. Смирнова, С.В. Силуянов, В.А. Ступин. – М.: «Медпрактика- М», 2009. – 19 с.
  7. Щербатых А.В. Гормональная функция двенадцатиперстной кишки в норме и при патологии / А.В. Щербатых, А.А. Реут, О.А. Маркелов // Байкальский медицинский журнал. – 1998. – 13(2). – С. 5–9.
  8. Шкляев А.Е. Мотилин и холецистокинин при функциональной диспепсии: единство и борьба противоположностей / А.Е. Шкляев, Д.Д. Казарин // Здоровье, демография, экология финно-угорских народов. – 2022. – № 1. – С. 36–41.
  9. Шлык Н.И. Вариабельность сердечного ритма и методы ее определения у спортсменов в тренировочном процессе: метод. пособие / Н.И. Шлык. – Ижевск: Удмуртский университет, 2022. – 80 с.
  10. Парфенов А.И. Энтеропатия с нарушением мембранного пищеварения и перспективы цитопротективной терапии / А.И. Парфенов, О.В. Ахмадуллина, Н.И. Белостоцкий // Терапевтический архив. – 2021. – 93(2). – С. 129–137.
  11. Вахрушев Я.М. Клинико-патогенетическая характеристика стадий хронической дуоденальной недостаточности / Я.М. Вахрушев, М.С. Бусыгина // Терапия. – 2024. – 10(10). – С. 80–90. Doi: https://dx.doi.org/10.18565/therapy.2024.10.80–90.
  12. Scikit-learn: [сайт]. – URL: https://scikit-learn.org/stable/index.html (дата обращения: 20.09.2024).
  13. Флах И. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / И. Флах. – М.: ДМК Пресс., 2015. – 400 с.
  14. F-1 Score for Multi-Class Classification: [сайт]. – URL: https://www.baeldung.com/cs/multi-class-f1-score (дата обращения: 24.09.2024).
  15. Как применять метод PCA для уменьшения размерности данных: [сайт]. – URL: https://habr.com/ru/companies/otus/articles/769274/ (дата обращения: 24.09.2024).
  16. Дюжева Е.В. Разработка математической модели оценки эффективности деятельности медико-санитарных частей пенитенциарного здравоохранения с использованием метода анализа иерархий / Е.В. Дюжева // Евразийский научный журнал. – 2017. – (4). – С. 233–240.
  17. Возможности применения облакоориентированных технологий в дистанционном образовании на курсах повышения квалификации специалистов и профессиональной переподготовке в медицинском вузе / Н.М. Попова, Н.Г. Сабитова, Д.А. Толмачев, Л.Л. Шубин // Вестник ИжГТУ имени М.Т. Калашникова. – 2015. – 18(3). – С. 117–119.
  18. Рационализатрское предложение № 07.24 от 18.03.2024. Способ определения стадии хронической дуоденальной недостаточности / М.С. Бусыгина, М.С. Брычкина, Я.М. Вахрушев, Е.П. Кузнецов; Центр трансфера технологий ФГБОУ ВО «Ижевская государственная медицинская академия» Минздрава России, опубл. 27.03.24. - 16 л.


Назад в раздел
Популярно о болезнях ЖКТ читайте в разделе "Пациентам"
Адреса клиник
Видео. Плейлисты: "Для врачей", "Для врачей-педиатров",
"Для студентов медВУЗов", "Популярная гастроэнтерология" и др.

Яндекс.Метрика

Логотип Исток-Системы

Информация на сайте www.GastroScan.ru предназначена для образовательных и научных целей. Условия использования.