Анализ       Справочники       Сценарии       Рефераты       Курсовые работы       Авторефераты       Программы       Методички       Документы     опубликовать

В. А. Петрухин, Ю. Н. Манойло




Скачать 180.43 Kb.
НазваниеВ. А. Петрухин, Ю. Н. Манойло
Дата01.02.2013
Размер180.43 Kb.
ТипДокументы

Системи збереження

і масового розповсюдження даних



УДК 681.3

В. А. Петрухин, Ю. Н. Манойло


Институт кибернетики имени В.М. Глушкова НАН Украины

проспект Академика Глушкова, 40, 03187 Киев, Украина

e-mail: vapetr@icyb.kiev.ua

Средства информационного обеспечения

системы автоматизации сбора и обработки

данных в комбустиологии



Рассмотрена процедура автоматизации формирования высказываний на языке формализации опыта экспертов, используемого для построения моделей динамических систем, названных академиком В.М. Глушковым обобщенными. Приведены примеры использования предложенных процедур для анализа данных течения ожоговой болезни и ее исходов.

^ Ключевые слова: автоматизированная обработка данных, извлечение знаний, базы данных медицинской информации, прогнозирование исходов ожоговой болезни, меры информативности непараметрических признаков.

Введение


В статье рассматриваются процедуры автоматизации формирования высказываний на языке формализации опыта экспертов, используемого для построения моделей динамических систем, названных академиком В.М. Глушковым обобщенными [1–4]. Рассматриваемый язык является неотъемлемой частью системы представления и интерпретации знаний в динамических предметных средах, использующей процедуры недедуктивного вывода.

При моделировании технических систем, характеризующихся числовыми параметрами, широко используется аппарат систем обыкновенных дифференциальных и разностных уравнений, математической физики (интегральных уравнений), теории вероятностей и других разделов современной математики. Однако, существует большой класс динамических моделей, характеризующихся использованием качественных параметров — параметров, способных принимать лишь конечные множества значений (например, отеки голени в медицине могут характеризоваться как слегка выраженные, умеренно выраженные, значительно выраженные, резко выраженные). Качественные параметры могут быть описаны с помощью


© В. А. Петрухин, Ю. Н. Манойло

обычных числовых параметров, однако, язык качественных параметров близок экспертам, которые пользуются им для построения своих высказываний — формализации накопленного ими в процессе практической деятельности опыта.

Кроме того, многие числовые параметры часто фактически используются как качественные, например, температура человека, являющаяся числовым параметром с интервалом значений от 34 до 43 градусов, на практике «загрубляется» и характеризуется как нормальная (в интервале от 36,5 до 36,9), пониженная (менее 36,5), субфебрильная (от 37,0 до 37,3), повышенная, высокая и т.д. Такое загрубление вызвано отсутствием точных закономерностей, причем, при повышении точности знания о причинно-следственных, темпоральных зависимостях, число качественных градаций числового параметра может быть увеличено.

Использование моделей обобщенных динамических систем актуально в ситуациях, когда сложность изучаемых систем такова, что один специалист не в состоянии охватить все взаимосвязи процессов и явлений. Другой отличительной особенностью таких систем является отсутствие количественных законов развития процессов изучаемых объектов, известны лишь некоторые эмпирические закономерности в узких предметных областях, которыми владеют эксперты-спе-циалисты. Ярким примером такой предметной области является медицина. Следует отметить, что биологические объекты в своей динамике имеют свойство системы сохранять в процессе взаимодействия со средой значения существенных переменных в некоторых заданных пределах (гомеостаз), данное свойство объективно требует использования языка качественных оценок при построении математических моделей.

Любой из медиков помнит и знает множество симптомов, диагнозов, разнообразную патологию, но он не в состоянии удержать их одновременно в голове, оценить системно состояние пациента.

Только перечень известных болезней занимает около тысячи страниц. Физически невозможно, чтобы человек удерживал всю эту информацию в голове. Врачи обычно работают с часто встречающимися заболеваниями. Однако, существуют такие болезни, с которыми подавляющее число врачей никогда не встречается. Кроме этого, очень часто болезни протекают нетипично и плохо распознаются.

Для исследования таких объектов используются методы системного подхода, предполагающего четкое определение объекта исследования, постановку целей, задание критериев для изучения этого объекта и управления им. Данный этап исследования плохо формализуется, успех здесь, прежде всего, определяется искусством и опытом системного аналитика, глубиной его понимания поставленной проблемы. На первом этапе построения модели изучаемого объекта производится его структуризация, разложение его на отдельные подсистемы, блоки, элементы. Выделяются факторы внешней среды, управляющие воздействиями на изучаемый объект. Данный этап построения модели завершается этапом параметризации — четко устанавливается совокупность параметров с областями их изменения, значением параметров в норме. Данные этапы моделирования не имеют строгой регламентации своего выполнения, здесь в большей мере успех определяется квалификацией, опытом и интуицией аналитиков, входящих в группу системного анализа, которая в контакте с экспертами, организует данный процесс первичной формализации изучаемого объекта — составление словаря параметров. Основным требованием здесь является требование учета всех важных, с точки зрения изучаемой динамики, параметров, выбор необходимой степени загрубления параметров.

После выполнения параметризации начинается основной этап составления модели — установление зависимостей между введенными параметрами. Тип зависимостей определяется точностью существующих знаний о причинно-следст-венных, логико-динамических связях данного параметра. Данные знания могут выражаться в виде строгих математических закономерностей, но для качественных параметров чаще всего такое знание представляется не в виде формул, а в виде продукций: ЕСЛИ < ситуация (t) > ТО < прогноз значения параметра (t + ∆t) >. Эксперт описывает различные ситуации, при выполнении которых рассматриваемый параметр может изменить свое значение, кроме того, может быть указана уверенность эксперта в реализации данного причинно-следственного перехода. Еще одной особенностью рассматриваемых зависимостей является их неоднозначность, порой наличие взаимопротиворечивых зависимостей — формализован-ного опыта различных специалистов, которые в таком случае должны сопровождаться весовыми коэффициентами, с помощью этих коэффициентов данные зависимости процедурой вывода будут интерпретироваться как вероятностные. Присутствие динамики в рассматриваемых предметных областях накладывает дополнительные требования на язык представления знаний и процедуры вывода.

Целью работы была разработка средств информационного обеспечения системы автоматизации сбора и обработки данных в комбустиологии, создание базы данных формализованных историй болезни ожоговых больных для решения задачи разработки и испытания алгоритмов анализа информации, создания простых и надежных алгоритмов прогнозирования динамики течения ожоговой болезни и ее исходов. Все разделы формализованной истории болезни ожогового больного преобразованы в соответствующие таблицы реляционной базы данных. Решение широкого круга задач сбора данных связано с реализацией интерактивных режимов взаимодействия с ЭВМ. Для решения задач интервьюирования при заполнении базы данных были разработаны специальные языки, с помощью которых описывалась структура диалога. Созданные языки просты, и ими может пользоваться конечный пользователь (медицинский персонал без специальноого длительного обучения). Инструментальные средства, рассматриваемые как средства доступа непрофессиональных пользователей к базе данных, включают в себя транслятор языка описания сценария диалога и монитор ведения диалога в соответствии с заданным сценарием. При задании сценария диалога на языке описания сценария диалога специфицируется общение пользователя с системой для решения задач, связанных с вводом, поиском, просмотром и корректировкой информации, содержащейся в базе данных формализованных историй болезни ожоговых больных.

^

Алгоритм вычисления коэффициентов информативности

параметров и классификации объектов

Актуальной является задача построения процедур извлечения знаний из динамических баз данных, хранящих реализации «траекторий» динамической системы, пользуясь которыми в автоматизированном режиме специалист может формализовать свой опыт. Рассмотрим один из возможных вариантов построения такой процедуры. Для этого необходимо наличие алгоритмов определения информативности признаков, характеризующих распознаваемые объекты или явления, значения которых составляют непараметрические совокупности, т.е. тех, которые не имеют адекватного числового выражения. Воспользуемся способом вычисления меры информативности непараметрического признака, основанным на идее вычисления вероятности значений этого признака для каждого класса распознаваемых объектов [5]. В предположении, что признаки дискретны, сформулируем задачу определения информативности следующим образом.


Пусть имеется (задается экспертом в процессе обработки информации базы данных) разбиение конечного множества объектов распознавания, каждый из которых описан набором из n признаков на систему непустых непересекающихся подмножеств — классов заданного разбиения:


;


где К — число классов разбиения, а — пустое множество. Тогда задача определения, информативности признака состоит в вычислении величины Ixi, количественно выражающей пригодность xi для решения конкретной задачи распознавания.

Рассмотрим запись набора из n признаков, выбранных для описания объекта распознавания, как n-мерный вектор = (x1, x2,…, xn), каждая компонента которого имеет конечное число значений li. Введем сквозную нумерацию для всех значений xi.

Пусть компонента x1 имеет l1 значений , x2 l2 значений и, наконец, xn ln значений .

Выпишем последовательность индексов, используя сквозную нумерацию:


1, 2,…, l1, l1 + 1,l1 + 2,…, l1 + l2,…, l1 + l2++ ln. (1)


Зададим взаимнооднозначное отображение множества во множество p-мерных булевых векторов , где


(2)


j = 1, 2,…, p, 1, 2,…, n — номера из (1).

Каждый из полученных в результате отображения (2) p-мерных булевых векторов будет иметь точно n компонент, равных единице, и компонент, равных нулю.

Рассмотрим запись множества как булеву матрицу из N строк (число объектов) и p столбцов, а также отношение hj — числа ненулевых элементов j-го столбца к N. В предположении, что соблюдаются достаточные условия проявления закона больших чисел, свяжем частоту hj с вероятностью :





Заметим, что сумма вероятностей всех значений компоненты xi, принимаемых объектами каждого из классов данного разбиения, будет





Согласно отображению (2), признаку с дискретными значениями соответствует li столбцов матрицы , а ,…, — вероятности этих значений.

Зададим неотрицательную числовую функцию определенную на выпуклом множестве действительных чисел — интервале [0, 1]





где ^ К — число классов, — вероятности j-го значения в классе соответст-венно r и q (При К = 2 функция имеет вид .)

Пригодность дискретного непараметрического признака для решения данной конкретной задачи распознавания количественно определяется естественной мерой информативности Ixi, вычисляемой по формуле (3) и связанной с понятием неопределенности значений xi так: чем больше неопределенность, тем меньше величина информативности


(3)

Теперь с помощью коэффициентов информативности можно минимизировать входное описание объекта, выбрав из всего множества признаков наиболее информативные.

Далее можно перейти, непосредственно, к решению задачи классификации объектов.

Классификация объектов распознавания основана на построении системы эталонов, аппроксимирующих обучающее множество объектов, и вычислении расстояния до эталонных векторов классов, которые строятся на основе обработки объектов обучающей выборки. Применяя покомпонентную дизъюнкцию p-мерных булевых векторов классов, получаем исходные векторы классов. Затем сравниваем исходные эталонные векторы с применением покомпонентной конъюнкции в соответствии с выражением:


;


где — исходные эталонные векторы классов r и q, (rq).

Если , где — нулевой вектор, то эталонные векторы остаются без изменений. В противном случае производится сравнение вероятностей pjr и pjq значений для тех компонент, для которых выполняется условие = 1. Если pjr < pjq, тогда j-й компоненте вектора присваивается значение «0» и j-ю компоненту вектора оставляем без изменения, т.е. получаем . Если pjr > pjq, тогда =1, =; если pjr = pjq, тогда значения j-х компонент изменяем произвольным образом, т.е. или .

Таким образом, строятся эталонные векторы классов, покомпонентные конъюнкции которых есть нулевой вектор «».

Классификация объектов распознавания производится путем вычисления расстояний до эталонных векторов классов


(4)


где — эталонный вектор класса r, r = 1, 2,…, К; — булевой p-мерный вектор объекта контрольной группы, n — количество признаков описаний объекта.

По критерию минимума расстояний определяется принадлежность распознаваемого объекта к тому или иному классу. В случае равенства расстояний классификация не определена. Эксперт в процессе извлечения знаний из динамической базы данных определяет выборку историй болезни (записи базы данных), в процессе анализа которых будут формироваться гипотезы наличия причинно-след-ственных связей и их структура. Формируется также контрольная выборка записей, которая используется для проведения испытаний гипотез. Однако, первоначально процесс извлечения знаний начинается с фиксации списка параметров, взаимосвязи которых будут исследоваться с помощью процедур вычисления коэффициентов информативности, а также процедур усечения данного списка до варианта списка наиболее информативных параметров, продолжающего обеспечивать приемлемую точность решения задачи классификации исследуемых объектов. Следующим важным этапом является разбиение областей изменения значений параметров. Предлагается сначала выполнить разбиение областей изменения значений на максимально возможное количество интервалов (с учетом точности измерения данного параметра), а затем уже провести процедуру агрегации интервалов области изменения значений параметра с учетом построенных эталонных векторов (выполнить процедуру объединения — «склеивания» одинаковых строк в построенной прогнозной карте, процедуру укрупнения интервалов области изменения значений параметра). Затем производится испытание имеющихся эталонных векторов на контрольной выборке объектов, если же точность испытаний является неудовлетворительной, то процесс построения эталонных векторов повторяется, при этом выбирается уже другое множество признаков. Данный выбор — эвристическая процедура, основанная на использовании опыта специалистов в исследуемой предметной области. Построенные таким образом эталонные векторы, протяженность интервала времени реализации классифицируемых событий, надежность классификации — все это позволяет сформулировать высказывание на языке представления опыта экспертов. Данный алгоритм извлечения знаний из динамических баз данных представлен на приведенной далее блок-схеме.


^ Актуальность разработки алгоритмов прогноза

исходов ожоговых поражений

В настоящее время во всех высокоразвитых странах мира одной из важнейших проблем наряду с кардиологическими и онкологическими заболеваниями является травматизм. Интенсивное научно-техническое развитие последних лет сопровождается увеличением частоты и тяжести термических поражений. По данным Всемирной организации здравоохранения ожоги занимают третье место среди прочих травм. Особую актуальность проблема ожогов получила в связи с потенциальным применением в военных целях современного оружия массового поражения. Термическая травма становится одной из преобладающих в структуре санитарных потерь, что делает особо важным вопрос прогнозирования выживаемости обожженных при массовых поражениях. Эта проблема требует научной разработки и реализации комплекса мер по совершенствованию методов и способов лечения и реабилитации, разработке надежных средств прогнозирования состояния обожженных для обеспечения процесса сортировки на этапе медицинской эвакуации. Рост числа методов исследований в комбустиологии, совершенствование средств и методов лечения ожогов, привели к значительному увеличению информации об ожоговых больных, в связи с чем вызвана необходимость решения задачи автоматизации сбора и обработки информации для научных исследований и врачей-комбустиологов. Как отмечалось выше, при применении ядерного оружия и зажигательных смесей ожоги являются одним из основных видов поражений. Для определения объема первой медицинской помощи во время сортировки пораженных необходимо произвести прогноз состояния обожженного и определить возможность его дальнейшей эвакуации. На основе анализа информации, имеющейся в базе данных, предложенными алгоритмами и программами были разработаны прогнозные карты состояния пораженных, находящихся в острых стадиях ожоговой болезни (шок, острая ожоговая токсемия), а также с учетом того, что при особой ситуации к решению вопросов сортировки на этапах медицинской эвакуации может привлекаться средний медицинский персонал, а в отдельных случаях (при больших очагах поражения) и санитары.




Блок-схема. Алгоритм извлечения знаний из динамических баз данных

^ Анализ информации ожоговой базы данных

Описанные алгоритмы определения информативности параметров и классификации объектов были использованы для анализа информации ожоговой базы данных с целью прогнозирования динамики течения ожоговой болезни и ее исходов. В базе данных содержалась информация 390 формализованных историй болезни комбустиологического профиля (сформированная на основе данных клинических историй болезни ожоговых больных). Для решения задачи анализа была изучена прогностическая значимость таких разделов базы данных как паспортные данные, клинический диагноз, жалобы больного при поступлении, история заболевания, объективное исследование. Показатели исследовались при условии разделения ожоговых больных на классы с благоприятным (класс 1) и неблагоприятным (класс 2) исходами.

Решение задачи начиналось с разбиения конечного множества объектов на подмножества, т.е. классы заданного разбиения. В данной работе множество изучемых объектов (записей в базе данных — историй болезни) разбивалось на два класса:

1 класс — больные с «гладким», благоприятным течением и исходом;

2 класс — больные с неблагоприятным течением и исходом.

Затем для выбранных показателей рассчитывались коэффициенты информативности фиксированных признаков при решении задачи распознавания классов 1 и 2.

После фиксации списка параметров производилось разбиение области изменения их значений, т.е. построение градаций признаков. Далее, рассчитывались эталонные векторы классов больных с благоприятным и неблагоприятным течением болезни (в соответствии с описанным на приведенной блок-схеме алгоритме), производилась оценка надежности классификации. На основании анализа полученных результатов могут быть изменены фиксированные ранее списки параметров и разбиение областей изменения их значений (градаций признаков), а также составлены карты прогноза динамики состояния обожженных. При этом для использования в клинических условиях карта содержала 19 показателей, а для прогнозирования при массовых поражениях карта была упрощена, и в последнем варианте содержит всего 8 признаков, которые легко использовать в условиях дефицита времени и отсутствия квалифицированного персонала на этапе первичной медицинской сортировки пораженных. В прогнозной карте оставлены только те показатели, значение которых можно реально определить с учетом чрезвычайности ситуации при принятии решений в процессе сортировки на этапах медицинской эвакуации, когда может отсутствовать квалифицированный персонал и привлекаться средний медицинский персонал, а в отдельных случаях (при больших очагах поражения) и санитары. Анализ комбустиологической информации происходил путем последовательных приближений — определялся вариант прогнозной карты фиксацией списка параметров, удовлетворяющим названным выше критериям, затем выполнялось тестирование прогнозной карты, оценка результатов (качества) классификации и процесс далее мог повторяться на новой итерации до получения удовлетворительных результатов решения поставленной задачи (как представлено на блок-схеме). Причем следует отметить, что данный анализ проводился в тесном контакте со специалистами-комбустиологами, что накладывает специальные требования на пользовательские интерфейсы разработанного математического и программного обеспечения, ориентированного на работу с конечным непрофессиональным в области информатики пользователем, а также на представление информации и результатов, которое обеспечивает кооперативную работу системных аналитиков и профессионалов в предметной области анализируемой информации. Разработанные алгоритмы в реальных внедрениях продемонстрировали их высокую эффективность для решения задач анализа комбустиологической информации.


Карта прогноза состояния обожженного



пп

Наименование

признака

Градации

признака

Эталон класса

1

Эталон класса 2

1.

Возраст (лет)

До 60 лет

Свыше 60 лет

1

0

0

1

2.

Общая площадь ожога

в процентах

До 30

Более 30

1

0

0

1

3.

Ожог дыхательных путей

Есть

Нет

0

1

1

0

4.

Сознание

Ясное

Спутанное

Бред

отсутствует

1

0

1

0

0

1

0

1

5.

Число дыхательных движений в минуту

До 22

Более 22

1

0

0

1

6.

Артериальное давление

систолическое (мм рт. ст.)

До 100

Выше 100

0

1

1

0

7.

Артериальное давление

диастолическое (мм рт. ст.)

До 60

60–100

Выше 100

0

1

0

1

0

1

8.

Пульс (ударов в минуту)

До 100

Выше 100

1

0

0

1

Заключение


Прогнозная карта была испытана на контрольной выборке из 50 историй болезни, выбранных произвольным образом из базы данных. Следует заметить, что это другая выборка, отличающаяся от выборки, на базе которой производилось вычисление коэффициентов информативности параметров и генерация карт прогноза состояния больных ожоговой болезнью. Испытания построенной прогнозной карты дали правильный результат в 91 % случаев. Полученные результаты имеют самостоятельное значение — разработанные программные процедуры позволяют проводить анализ комбустиологической информации не только с целью анализа причинно-следственных связей параметров, они также применимы для разработки карт прогнозирования исходов различных патологических состояний. Предложенные процедуры анализа информации динамических баз данных являются составной частью системы представления и интерпретации знаний в динамических предметных средах и позволяют решать задачи автоматизации процесса поиска причинно-следственных взаимосвязей параметров при извлечении знаний из динамических баз данных [2–4].





  1. Глушков В.М. Основы безбумажной информатики. — М.: Наука., 1982. — 552 с.

  2. Глушков В.М., Петрухин В.А., Попов А.А. Системный подход к моделированию в медицине // Кибернетика и вычислительная техника. — 1977. — Вып. 36. — С. 3–6

  3. Петрухин В.А. О языке формализации опыта экспертов системы представления и интерпретации знаний в динамических предметных средах // Проблемы программирования. — 2002. — № 1–2. — С. 441–446.

  4. Глушков В.М. Введение в АСУ. 2-е изд., испр. и доп. — К.: Техніка, 1974. — 320 с.

  5. Адасовский Б.И. К определению информативности непараметрических признаков в задаче распознавания // Кибернетика. — 1979. — № 6. — С. 131–133.



Поступила в редакцию 31.03.2003

ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2003, Т. 5, № 2 109



Разместите кнопку на своём сайте:
Документы




База данных защищена авторским правом ©kiev.convdocs.org 2000-2013
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Похожие:
Документы