Анализ       Справочники       Сценарии       Рефераты       Курсовые работы       Авторефераты       Программы       Методички       Документы     опубликовать

Розділ Організація пошукових систем в автоматизованих електронних бібліотеках




Скачать 400.69 Kb.
НазваниеРозділ Організація пошукових систем в автоматизованих електронних бібліотеках
страница2/5
Дата01.10.2014
Размер400.69 Kb.
ТипДокументы
1   2   3   4   5
1. /3/teor/Висновки.doc
2. /3/teor/Вступление.doc
3. /3/teor/Додаток А.doc
4. /3/teor/Додаток Б.doc
5. /3/teor/Додаток В.doc
6. /3/teor/Доклад.doc
7. /3/teor/Реферат.doc
8. /3/teor/Роздел1.doc
9. /3/teor/Роздел2.doc
10. /3/teor/Роздел3.doc
11. /3/teor/Роздел4.doc
12. /3/teor/Роздел5.doc
13. /3/teor/Роздел6.doc
14. /3/teor/Роздел7.doc
15. /3/teor/Содержание.doc
16. /3/teor/Сокращения.doc
17. /3/teor/Список литературы.doc
18. /3/teor/титульник.doc
Інформації в базі даних. Розроблено систему перегляду та друку інформації про літературу І самої літератури. Розробити систему армб орієнтовану на роботу в ком-п`ютерній мережі, де велика кількість користувачів одночасно працює з одним сервером бази даних
Цей процес особливо активізувався на рубежі 1970-1980-х рр у зв'язку з появою й інтенсивним поширенням персональних електронно-обчислювальних машин
В.Є. Ходаков розробка автоматизованої інформаційної бібліотечної системи спільного факультету. Автоматизоване робоче місце бібліотекаря
Початковий код програмного продукту
Доклад Шановні голова та члени державної екзаменаційної комісії, дозвольте представити вашій увазі дипломний проект на тему: "Розробка автоматизованої інформаційної бібліотечної системи спільного факультету.
Задача побудови автоматизованої інфомаційної бібліотечної системи Херсонського державного технічного університету
Розділ Огляд базових концепцій організації автоматизованих інформаційно-бібліотечних систем
Розділ Організація пошукових систем в автоматизованих електронних бібліотеках
Розділ Концептуальна модель дипломного проекту 1 Постановка задачі
Розділ 4 Математичний опис розв’язуваної задачі
Розділ 5 Опис програмного продукту 1 Вибір мови програмування
7. 1 Аналіз умов праці
2. 1 Пошук розподіленої інформації
Балашов Е. П., Пузанов Д. В. Проектирование информационно-управляющих систем

Пошукові програми для веб



Найбільше широко для розподіленого пошуку використовуються програми для веб, такі як, Infoseek, Lycos, AltaVista і Excite. Це системи, що автоматично індексують матеріали в Інтернет. Відповідно до малюнка 1.1, вони надають помірну функціональність з невисокими "бар'єрами" для застосування: веб-сайти не повинні починати ніяких спеціальних дій під час індексування. Єдина "розплата" для користувачів - це необхідність бачити на екрані рекламу. Таке сполучення функціональності і приступності робить ці програми винятково популярними.

Більшість програм має подібну базову архітектуру, хоча в деталях багато розходжень. Помітним виключенням є Yahoo, що веде свою історію від класифікаційних систем. Інші програми складаються з двох основних частин: web crawler (веб-паук; пошуковий робот), що будує індекси матеріалів в Інтернету, і пошукової машини ("розвідувач", retrieval engine).

      1. Пошукові роботи



Ці роботи (web crawler) являють собою програми, що індексують, що послідовно рухаються по гіперпосиланнях і складають списки сторінок, що вони проходять. Вони будують постійно збільшується індекс веб-сторінок. Усередині системи існує список відомих системі URL, чиї сторінки або вже індексувалися, або ще немає. З цього списку вибирається URL HTML-сторінки, що ще не індексувалася. Вміст сторінки перевантажується в центральний комп'ютер для аналізу. Автоматична програма індексування обробляє сторінку і створює індексні записи, що потім додаються до зведеного індексу. Гіперпосилання на інші сторінки витягаються, причому ті, Котрих у зведених списках системи ще ні, додаються в чергу на індексування.

За цією простою принциповою схемою ховаються різні проблеми і варіанти їхнього рішення.

Одне з питань — який URL відвідувати наступним. У будь-який момент часу в робота є мільйони сторінок, які необхідно досліджувати, але немає критерію добору наступної сторінки. Такі критерії можуть включати, наприклад: яка сторінка індексується в даний момент, скільки інших URL на ній знаходиться; чи є вони посиланнями на нові домашні чи сторінки посиланнями в рамках єдиної ієрархії матеріалів даного сайта.

Найбільшою проблемою, однак, є саме індексування. Пошукові машини використовують автоматичні системи, що індексують, для створення записів, що можуть надаватися користувачам. Останні зіштовхуються при використанні автоматичних індексів із самим головної - мільйонами сторінок, створених тисячами людей з різними підходами до того, як повинна структурурватися інформація. Звичайно на веб-сторінці є лише дуже убогі зведення для автоматичного індексування. Деякі розроблювачі і видавці навіть навмисно хитрять: вони наповняють свої сторінки термінами, що (як вони припускають) будуть частіше запитувати користувачі, сподіваючись на те, що посилання на їхні сайти будуть пред'являтися у відповідях на запити серед перших. Без створення більш чітко структурованих сторінок і наявності систематичних метаданих якість індексних записів ніколи не буде високим. Хоча для найпростіших цілей вони цілком придатні.
      1. Пошук в індексі веб-сторінок



Програми для пошуку у веб дозволяють користувачам проводити пошук у своїх індексах. Індекси організовані так, щоб можна було ефективно виконувати пошук відразу по великому числу запитів. Оскільки індексні записи низької якості, а користувачі, швидше за все, слабко підготовлені, пошукові програми випливають стратегии, відповідно до якої ідентифікуються всі записи, що хоча б приблизно підходять під запит і виводять їх на екран, ранжируя тим чи іншим способом.

Більшість користувачів цих програм, швидше за все, знаходять їхній дуже корисними, але відзначать ряд проблем. Алгоритми ранжирування дають мало інформації про тім, на якій підставі приймається рішення про розташування записів у списку. У результаті найвищий ранг може бути привласнений сторінці з мінімальною цінністю для користувача, а дійсно корисні сторінки будуть далеко внизу списку. Програми індексування з працею розпізнають дублікати, хоча і намагаються групувати схожі записи. А оскільки схожі записи звичайно мають подібний ранг, програми виводять довгі списки практично ідентичної інформації. Зацікавлений підхід до ранжирування запропонований у пошуковій системі Google, що підраховує гіперпосилання. Google особливо ефективна при пошуку вставних чи оглядових матеріалів по конкретній темі.

Роботи досліджують веб постійно і - ймовірно - можуть знайти практично усі. Однак важливі матеріали можуть чекати індексування місяцями після їхньої появи у веб. З іншого боку, не можна назвати правильним повернення до матеріалів, якщо багато індексних записів указують на них, як на більше не існуючі чи перенесені на інше місце.

Інша проблема ефективності індексування полягає в тому, що пошукові роботи не можуть індексувати матеріали, до яких не мають прямого доступу. Якщо веб-сторінока має обмеження доступу чи є інтерфейсом бази чи даних колекції ЕБ, що індексують програми нічого не зможуть довідатися про ті ресурси, що ховаються за цим інтерфейсом. Оскільки усе більше число сторінок перетворюється в Java-інтерфейси (чи інші скріпти), програми індексування втрачають багато високоякісної інформації. Ця слабість досить важлива, але її не варто переоцінювати. Практика - критерій істини. Досвідчені користувачі, використовуючи комбінації інструментів і найчастіше кілька пошукових інструментів веб, звичайно можуть знайти необхідну їм інформацію. Програми далекі від досконалості, але вони дуже гарні — а головне, вони безкоштовні.

Більшість пошукових служб вирослася на базі дослідницьких груп, але швидко коммерціалізуються. Той факт, що базові сервіси і служби в Інтернету безкоштовні, має найважливіше значення як для нього самого, так і для таких комерційних компаній. Їхнє прагнення до прибутку веде до засилля реклами, вони швидко рухаються на суміжні ринки з використанням таких прийомів, як ліцензування власного програмного забезпечення іншим організаціям, що хочуть будувати індекси на своїх веб-сайтах.

Менш приємні аспекти такої моделі бізнесу полягають у прагненні обмежити індексування. Споконвічно індексують програми призначалися для обстеження усього веб. Однак, у міру його росту й у міру того, як керування такими програмами перетворювалося в бізнес, повнота пішла на другий план у порівнянні з поліпшенням інтерфейсу і розвитком суміжних сервісів. Для побудови реального високоякісного індексу Інтернету і підтримки його неактуальному стані, вимагаються значні інвестиції. Більшість компаній робить корисну роботу, але якби їхня мотивація до досконалості була сильніше, їхні індекси були б ще краще.

1   2   3   4   5



Разместите кнопку на своём сайте:
Документы




База данных защищена авторским правом ©kiev.convdocs.org 2000-2013
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Похожие:
Документы