Анализ       Справочники       Сценарии       Рефераты       Курсовые работы       Авторефераты       Программы       Методички       Документы     опубликовать

Розділ Організація пошукових систем в автоматизованих електронних бібліотеках




Скачать 400.69 Kb.
НазваниеРозділ Організація пошукових систем в автоматизованих електронних бібліотеках
страница5/5
Дата01.10.2014
Размер400.69 Kb.
ТипДокументы
1   2   3   4   5
1. /3/teor/Висновки.doc
2. /3/teor/Вступление.doc
3. /3/teor/Додаток А.doc
4. /3/teor/Додаток Б.doc
5. /3/teor/Додаток В.doc
6. /3/teor/Доклад.doc
7. /3/teor/Реферат.doc
8. /3/teor/Роздел1.doc
9. /3/teor/Роздел2.doc
10. /3/teor/Роздел3.doc
11. /3/teor/Роздел4.doc
12. /3/teor/Роздел5.doc
13. /3/teor/Роздел6.doc
14. /3/teor/Роздел7.doc
15. /3/teor/Содержание.doc
16. /3/teor/Сокращения.doc
17. /3/teor/Список литературы.doc
18. /3/teor/титульник.doc
Інформації в базі даних. Розроблено систему перегляду та друку інформації про літературу І самої літератури. Розробити систему армб орієнтовану на роботу в ком-п`ютерній мережі, де велика кількість користувачів одночасно працює з одним сервером бази даних
Цей процес особливо активізувався на рубежі 1970-1980-х рр у зв'язку з появою й інтенсивним поширенням персональних електронно-обчислювальних машин
В.Є. Ходаков розробка автоматизованої інформаційної бібліотечної системи спільного факультету. Автоматизоване робоче місце бібліотекаря
Початковий код програмного продукту
Доклад Шановні голова та члени державної екзаменаційної комісії, дозвольте представити вашій увазі дипломний проект на тему: "Розробка автоматизованої інформаційної бібліотечної системи спільного факультету.
Задача побудови автоматизованої інфомаційної бібліотечної системи Херсонського державного технічного університету
Розділ Огляд базових концепцій організації автоматизованих інформаційно-бібліотечних систем
Розділ Організація пошукових систем в автоматизованих електронних бібліотеках
Розділ Концептуальна модель дипломного проекту 1 Постановка задачі
Розділ 4 Математичний опис розв’язуваної задачі
Розділ 5 Опис програмного продукту 1 Вибір мови програмування
7. 1 Аналіз умов праці
2. 1 Пошук розподіленої інформації
Балашов Е. П., Пузанов Д. В. Проектирование информационно-управляющих систем
(2.1)

де х -операція кон’юнкції предикатів.

Припустимо, що можливість узгодження морфологічних інформацій не залежить від того, до яких словоформ вони відносяться, тоді на декартовом добутку безлічі S x S можна задати предикат t (qm, qn) приймаючий значення 1, якщо морфологічні інформації словоформ qm і qn зв'язані при даному типі граматичного підпорядкування, і значення 0 у противному випадку. Практично ніколи підмножина морфологічної інформації, що погодиться, не збігається з декартовим добутком усіх можливих зв'язків, тобто МІ поруч коштують словоформ, що не погодяться при даному типі граматичного підпорядкування, виключаються з формули (3.1) множником t (qm, qn), t = 1,2,3 (узгодження, керування, примикання). Таким чином, бінарне відношення на безлічі поруч коштують словоформ речення для всіх типів граматичного підпорядкування може бути задано формулою:

(2.2)

де знак х позначає операцію з'єднання комплексів морфологічної інформації словоформ (операцію зв'язку МІ двох поруч коштують словоформ, тобто знак х указує на те, що дві поруч коштують словоформи зв'язані між собою семантико-синтаксичним зв'язком). Дійсно, логічний добуток предикатів Р(qm) і Р(qn) описує всілякі зв'язки між двома словоформами, які стоять поруч у реченні, а предикат t (qm, qn) виключає частина зв'язків, що не реалізуються в даному типі граматичного підпорядкування аналізованої мови.

Розглянемо роботу даної моделі на прикладі речень російської мови. Виберемо найпростішу систему морфологічних категорій і їхніх значень, що складає з частини мови і найбільш істотних морфологічних ознак. Якщо АІБС набудовується на обробку складних текстів, то систему граматичних категорій можна розширити без зміни алгоритму.

Словоформи, що стоять на першому місці в словосполученні, будуть мати наступні МІ:

х1 = іменник, називний відмінок,

х2 = іменник, непрямий відмінок,

хЗ = прикметник,

х4 = дієприкметник,

х5 = дієслово не минулого часу,

х6= дієслово минулого часу,

х7 = порядковий числівник,

х8 = кількісний числівник,

х9 = прийменник,

х10 =прислівник.

МІ словоформ, що стоять на другому місці в ланцюжку, мають наступний вид :

у1= іменник називний відмінок,

у2= іменник, непрямий відмінок,

уз = прикметник,

у4 = дієприкметник,

у5 = дієслово не минулого часу,

у6 = дієслово минулого часу,

у7 = порядковий числівник,

у8 = кількісний числівник,

у9 = прийменник,

у10 = прислівник.

Графічно зв'язку між словоформами в словосполученнях при трьох можливих типах граматичного підпорядкування російської мови показані на мал. 2.4




Мал. 2.4 Три типи граматичного підпорядкування словосполучень російської мови.
Аналіз словосполученнь російської мови показав, що дві словоформи, які стоять поручь можуть бути зв'язані в словосполученні по типу «узгодження». При цьому утворяться наступні композиції морфологічної інформації:

Х1У3 – іменник називного відмінка, прикметник (стіл дерев'яний, олівець простій);

Х2У3 – іменник непрямого відмінка, прикметник (столі дерев'яному, олівцем простим);

Х1У4 – іменник називного відмінка, дієприкметник (хлопчик що малює, план накреслений);

Х2У4 - іменник непрямого відмінка, дієприкметник (хлопчика що малює, плані накресленому);

Х2У7 - іменник непрямого відмінка, порядковий числівник (студента третього, поворотом другим);

Для типу зв'язку «керування» характерні наступні сполучення морфологічної інформації двох словоформ:

Х1У2 – іменник називного відмінка, іменник непрямого відмінка (робота сокирою, ніжка стільця);

Х2У2 – іменник непрямого відмінка, іменник непрямого відмінка (роботою сокирою, ніжкою стільця);

Х9У2 – прийменник, іменник непрямого відмінка (на березі, у будинку);

Х5У2 – дієслово не минулого часу, іменник непрямого відмінка (бачу текст, робити навантаження);

Х6У2 – дієслово минулого часу, іменник непрямого відмінка (зробив навантаження, побачив будинок).

Для примикання характерні наступні сполучення морфологічної інформації поруч шарують словоформ:

Х5У9 – дієслово не минулого часу, прийменник (йде на, надходить в);

Х6У9 – дієслово минулого часу, прийменник (побіг на, надійшов в);

Х4У9 – дієприкметник, прийменник ( що грав у, що написав на);

Х1У9 – іменник називного відмінка, прийменник (студент із);

Х2У9 – іменник непрямого відмінка, прийменник (студен-тах з);

Х5У10 – дієслово не минулого часу, прислівник (удягається красиво, працює добре);

Х10У5 – прислівник, дієслово не минулого часу (добре говорить, легко несе);

Для математичного опису зв'язків між МІ словоформ, які стоять поручь, речення скористаємося формулою (2.3). Безліч можливих МІ перших словоформ словосполучення задається предикатом Р(qm), що може бути представлений у такий спосіб:



Безліч МІ словоформ, що коштують на другому місці, можна виразити предикатом:

При граматичному підпорядкуванні по типі узгодження функція 1 = (qn, qm) може бути представлена в такий спосіб:



при граматичному підпорядкуванні по типі керування 2 = (qn, qm) представляється формулою:



при примиканні 3 = (qn, qm) визначається як:



Тоді, відповідно до формули (2.3.2), опишемо безліч можливих зв'язків комплексів морфологічної інформації в словосполученнях по типі узгодження, що задається за допомогою предиката Р1 (qm, qn):

(2.3)

Безліч можливих зв'язків комплексів морфологічної інформації в словосполученнях по типі керування, що задається за допомогою предиката Р2 (qm, qn):

(2.4)

Безліч можливих зв'язків комплексів морфологічної інформації в словосполученнях по типі «примикання», що задається за допомогою предиката Р3 (qm, qn) можна описати в такий спосіб:

(2.5)

При підстановці КМІ першої і другої словоформ словосполучення, отримані на етапі морфологічного аналізу, у формули 3.3 — 3.5, предикати, що описували тип словосполучення, не властивим даним словоформам, звертаються в нуль. Ті ж предикати, що приймають значення 1, дозволяють істотно зменшити кількість можливих варіантів сполучень між словоформами. Таким чином, отримані бінарні предикати дозволяють уже на етапі предсинтаксіса зняти частину морфологічної омонімії.
2.2.4. Інформаційно-пошуковий тезаурус АІБС.
Інформаційно-пошуковий тезаурус (ІПТ) є однієї з найважливіших складових лінгвістичного забезпечення АІБС. Його використання на етапі аналітико-синтетичної обробки документа дозволяє одержувати результати (пошукові образи документів, розподілу класифікації, указівки рубрик і т.д.), практично цілком еквівалентні результатам, отриманим у тому випадку, коли індексування виконує людина. При автоматизації процесу складання тезауруса ми моделюємо одну з вищих форм інтелектуальної діяльності людини — його розуміння і класифікацію по значеннєвих ознаках лексичних одиниць природної мови.

Методика розробки ІПТ ґрунтується на ДСТ 7.25-80 «Тезаурус інформаційно-пошуковий однозначний. Правила розробки структури, склад і форма». Відповідно до цієї методики розробка ІПТ здійснюється на підставі трьох наступних етапів:

1) визначення тематичного профілю тезауруса;

2) збір лексики і формування словника ключових слів;

3) формування класів еквівалентності, виділення дескріп-торів.

При автоматизації другого етапу створення тезауруса — процесу формування словника ключових слів — враховується інформативність слова, обумовлена виходячи з частоти зустрічальності слова в тексті документів, що вважаються типовими для даної предметної області. Для обліку інформаційної значимості ключових слів уведемо вагові коефіцієнти чи ваги, що є додатковим засобом семантичної диференціації мовних одиниць. Алгоритм визначення ваги ключового слова базується на частоті залежності інформаційної значимості лексичної одиниці від її позиції в тексті. Масив ключових слів для інформаційно-пошукового тезауруса формується на основі концептуальної моделі тієї предметної області, тезаурус якої розробляється. Дана модель може бути представлена словником даної наукової дисципліни. При цьому при автоматичному складанні списку ключових слів по текстах документів повинні бути використані негативні словники, що містять списки заборонених до використання слів.

Ключові слова представлені в словнику в універсальній граматичній формі, для цього використовуються методи автоматичного аналізу тексту. На етапі морфологічної і синтаксичної обробки різні форми прикметників заміняються формою називного відмінка однини чоловічого роду; форми іменника (при однослівному ключовому словосполученні) заміняються формою називного відмінка однини. У результаті цього етапу одержуємо безліч R = {r1, r2, …, rn} КС, що входять у словник даної предметної області. Слід зазначити, що розглянутий метод автоматизації процесу складання словника ключових слів повинний базуватися на великих масивах документів, призначених для виділення лексики: чим більше обсяг масиву, чим вище частотність слова і словосполучення, тим більш справжні одержувані результати.

В основі третього етапу розробки тезауруса лежить значеннєва класифікація лексики. На цьому етапі відбувається формування класів еквівалентностей і виділення дескріпторів, тобто і дескріпторізація ключових слів. При виконанні операції дескріпторізації усувається неоднозначність у виді омонімії і полісемії ключових слів і здійснюється їхнє угруповання по класах умовної і безумовної еквівалентності.

Під класифікацією ключових термінів ми будемо розуміти процес розподілу понять на непересічні, тобто взаємно виключають класи. Клас являє собою безліч об'єктів, що мають один чи кілька загальних змістовних ознак. Класифікація в тезаурусі будується таким чином, щоб у системі, що вийшла, кожен клас займав щодо інших класів визначене, точно зафіксоване місце. Основний принцип розподілу понять заснований на лексичній синонімії (безумовна еквівалентність) і семантичної спорідненості слів (умовна еквівалентність).

Промоделюємо діяльність людського інтелекту на третьому етапі розробки тезауруса. Розуміючи ключовий термін r, що виражається визначеними лексичними одиницями (ЛО), класифікатор співвідносить його з визначеним концептом, змістом, поняттям р. Під концептом ми будемо розуміти інформацію, що несе r про можливі денотати. Функцію f відповідності ключового слова r концепту р назвемо функцією розуміння ключового слова: р = f(r). Ця функція описує процес розуміння класифікатором КС, тобто його співвіднесення з концептом, знаком якого він є.

Якщо класифікатор розглядає безліч ключових слів словника R, то безліч усіх значень функції f, тобто сукупність усіх понять, породжуваних ключовими словами з безлічі R, будемо позначати R1. Функція f відображає безліч R1 на безліч R. Причому безліч R1, значно менше безлічі R, тому що розмаїтість концептів значно менше розмаїтості знаків цих концептів. Ключові слова, які відносяться індексатором до одного поняття, ми будемо розуміти як безумовно еквівалентні (рис 3.4).

При складанні тезауруса, крім класів безумовної еквівалентності, необхідно виділити класи умовної еквівалентності, що включають групи рівнозначних чи семантично близьких термінів даної предметної області. Такі ключові слова відповідають близьким за змістом концептам. Критерієм включення чи слів словосполучень у клас еквівалентності є семантична значимість цих КС при пошуку документів, на практиці яка проявляється в наступному: якщо слово при пошуку документа може бути замінено іншим словом так, що на будь-який запрос видача документів буде такий же, як і до заміни, те такі два КС з'являються умовно еквівалентними і включаються в один клас еквівалентності. Таким чином, ключові слова, що входять і клас умовної еквівалентності, відповідають близьким за змістом концептам. Денотати таких концептів, як показують дослідження, розглядаються в одному зв'язному тексті, що, як відомо, характеризується на рівні семантики тематичністю.



Мал. 2.5 Логічна схема дескріпторізації лексичних одиниць.
Розуміючи текст документа, класифікатор співвідносить текст t із предметом (денотатом) , що розглядається в тексті. Функцію g відповідності предмета розгляду тексту назвемо функцією розуміння тексту:  = g(t). Функція g відображає безліч текстів Т на безліч розглянутих у них денотатів Т1.

Будемо вважати ключові слова r1 і r2 умовно еквівалентними, якщо вони відповідають поняттям p1 = f(r1) і p2 = f(r2), денотати яких 1 і 2 розглядаються в одному тексті 1  t і 2  t. При цьому предикат інтелектуальної аналітико-синтетичної обробки документа: ( = Z((, () відбиває відповідність (( = 1) і не відповідність (( = 0) предмета, розглянутого в тексті документа, ( концепту (. Установлення конкретного виду предиката Z(, ) дозволить групувати ключові терміни по класі умовної і безумовної еквівалентності.

Відповідно до формули (2.7), вид предиката Z(, ) можна установити за допомогою дескріпторно-текстового предиката:

(2.6)

Таким чином, нам удалося перейти від суб'єктивного сприйняття понять і предметів до об'єктивного відношення між текстом і ключовим словом, що відповідає Р(t, r) = 1 чи не відповідному Р(t, r) = 0 даному тексту. Розглянувши представницький масив найбільш інформативних для даної предметної області текстів документів, удається розбити словник на класи еквівалентності, кожний з який відповідає одному дескріптору. Критерієм вибору дескріптора з класу еквівалентних ключових слів може вважатися повнота вираження значеннєвого значення даного класу,, що виражається формально в частоті зустрічальності даного терміна ri у текстах безлічі Т и його інформаційна значимість, виражається формально позицією розташування в тексті, приналежністю до структурно-визначеного фрагмента тексту, що були визначені на етапі розробки словника. При цьому дескріптором стає ключове слово з максимальною ваговою функцією:

(2.2.7)

де пj - кількість документів у системі, що містять ключове слово, а вага vj представлена частотою входження ri у тексти ni з обліком їх «позиції» у тексті, тобто приналежності до тих чи інших структурно-визначених фрагментів тексту. Передбачається, що найбільш істотна інформація укладена в заголовках документів (v = 2), заголовках окремих частин документів (v = 1,75), в окремих розділах документа: висновку (v =1,75), вступу (v = 1,75), бібліографії (v = 1,75}, першому й останньому абзаці документа (v = 1,5), першому й останнім реченнях кожного абзацу (v = 1,2), першому й останнім реченнях першого й останнього абзацу документа (v = 1,75). Інформаційна вага лінгвістичної одиниці, що не належить до перерахованим вище структурних фрагментів тексту, дорівнює одиниці (v = 1).

У результаті, таким чином, проведеної класифікації, словник розбивається на дескріпторні статті тезауруса, що мають вид: ,

де D - заголовний дескріптор словникової статті, що має максимальну вагарню функцію; а Мс - безліч дескріторів (ключових слів), що входять у класи умовної і безумовної еквівалентності дескріптора.
1   2   3   4   5



Разместите кнопку на своём сайте:
Документы




База данных защищена авторским правом ©kiev.convdocs.org 2000-2013
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Похожие:
Документы