Ips е... Цел и функции на системите за търсене на информация

За съвременния човек е трудно да си представи живот без Интернет и почти незабавен достъп до информационни източници. Потребителят рядко се замисля как да търси необходимото му съдържание в интернет. Това е много интересно.

Системата за извличане на информация (Information Retrieval System - IRS) е сложна хардуерна и софтуерна система, която извлича информация въз основа на заявка на потребителя. Информацията се съхранява на сървъри в цифров вид, както някога книгите по рафтовете на библиотеките. Системата е съставена от много подсистеми. Всеки от тях изпълнява конкретна задача в процеса на обработка на заявката на потребителя и представяне на информация в текстова или аудио форма. Сложността на архитектурата на съвременните системи за извличане на информация (съкращение от система за извличане на информация) произтича от множеството задачи, които трябва да бъдат решени. Това е като "черна кутия"Входът е текстът на заявката, съдържанието в него е неизвестно, а изходът е изчерпателна информация.

Шкаф за документи в реалния свят

Входни потоци

Заявките за информация, които човек попълва в текстова форма на екрана на своята притурка, са малка част от заявките, обработвани от търсачката. Основните масиви от заявки за търсене се генерират от роботи, които приемат човешки заявки и извършват многоетапни търсения и предоставят обратна информация на потребителя. Търсачките включват Google, за който всички знаем, "Yandex" и други, които обработват милиони заявки дневно.

Източници на обекти за търсене

Интересните за търсене обекти са документи, записи, видеоклипове, изображения и др. Те се създават извън IPS. Една обща система за съхранение и извличане на информация трябва да има вградена библиографска система, вид каталог, който позволява всякакъв вид извличане.

Обектите или техните цифрови трансформации стават "входни ресурси" в IPS. Сред тях се избира търсената от потребителя информация.

Извличане на информация

Външни източници

Външните източници на знания се използват за представяне на подбора на информация. Това е информацията, която потребителят търси. Заглавие на филм, цитат от книга и др. За компютърните търсения тази информация трябва да бъде превърната в заявка на алгоритмичен език. В IPS това се прави с помощта на звено за създаване, индексиране и разработване на заявки.

В идеалния случай тези три процеса - представяне, индексиране и проектиране на заявки - трябва да разчитат на идентични източници на знания, но на практика това е непостижимо.

Източниците на знания трябва да се преглеждат и актуализират постоянно, а актуализациите да са идентични и синхронизирани. Да, и външният източник на знания винаги хронологично предхожда използването му в търсачките за заявката, понякога с няколко години.

Система за извличане на информация

представителства

Изходните представяния на обектите се компилират от входните данни в някаква комбинация или се трансформират в съответствие с правилата и алгоритмите на определена информационна-търсачка.

Изгледите са повече или по-малко трансформирани копия на оригиналния обект за търсене. В колекция от нередактирани пълни текстове всеки текст е самостоятелно представяне. В колекция от музейни предмети и артефакти представянето може да бъде трансформирано описание на предмета с неговото изображение. В някои случаи представянето може да бъде получено отчасти от оригиналния обект и отчасти от описанието: в библиографските системи за търсене представянето се получава от обекта - например заглавието, името на автора се комбинират с резюмето на произведението.

Намерете това, което ви е необходимо

Индекс с възможност за търсене

Тъй като информацията в системите за извличане на информация се съхранява под формата на представяне, логично е да се приеме, че търсенето се извършва върху представяне и след избор се предоставя на потребителя. Това не е така на практика. Например настоящите онлайн библиотечни каталози обикновено ограничават търсенето до няколко полета: автор, заглавие и подзаглавия в рамките на изглед, съдържащ други полета, в които не може да се търси. Това е достатъчна причина да се прави разлика между изглед и индекс с възможност за търсене, който е частта от изгледа с възможност за търсене. Той определя всички, която трябва да да може да се търси. Един индекс за търсене, подобно на представяне и обект на източник, може да бъде разделен на отделни подиндекси, за да позволи по-прецизно и целенасочено търсене

Търсещите машини обикновено имат вътрешносинтетична структура за съпоставяне на подходящи резултати от търсенето. Тази структура е вторият компонент на индекса, в който може да се търси.

Процедурно процесът на индексиране може да бъде осъществен по различни начини: индексът с възможност за търсене може да се получи чрез

  • буквално копие на изглед с възможност за търсене;
  • чрез копиране на данните за представяне. Това може да бъде част или целият изглед, който съществува физически само като фрагменти, разпределени според правилата за създаване на индекс за търсене, които ще бъдат събрани при необходимост.
Управление на търсенето

Правила за разработване на заявки и формални заявки

Разработването на заявки е функцията, която посредничи между потребителска заявка и официална заявка. Той трансформира заявката на потребителя, като я съпоставя с речниците на командите за извличане, спецификациите на индексите и индекса преди извличането. В началото на разработването на IPS тази роля традиционно е била запазена за квалифицирани ИТ специалисти.

Разработването на компютърни заявки, които могат да съпоставят речниковите заявки с индекса на системата за търсене, обикновено се нарича модул "речниково вписване". Автоматизирането на тази функция е обещаващо и предлага възможности за експертни и вероятностни методи за търсене.

Формална заявка става след преобразуване на заявката на потребителя. Примери за такива формални трансформации включват съкращаване, заместване, нормализиране, векторизиране и други трансформации "външен" мнения в "вътрешен" компютърни представяния на IPS (декодиране - система за извличане на информация).

Извлечени референтни набори от документи

Полученият набор от информационни източници е логически подмножество на изгледите, създадени от правилата за съвпадение, приложени към формална заявка чрез индекс за търсене.

Обикновено, но не непременно, има отделен процес на сортиране на набора от извлечена информация. Онлайн библиотечните каталози обикновено пренареждат извлечените комплекти по азбучен ред на авторите, преди да ги покажат. В системите за извличане на информация, които създават строга рангова подредба, ранговата подредба предхожда всяка промяна на реда.

Анализ на данните

Изходни потоци

Извеждането на резултатите от търсенето се извършва традиционно на дисплея, по-често като поток от обекти, които да се използват другаде или за друга цел, завършва основният цикъл на търсене.Такива потоци могат да се насочват към устройства за визуализация, да се съхраняват за по-късна обработка или да се използват като входни потоци за други услуги за селекция.

Системите за извличане на информация могат да осигурят обратна връзка с резултатите от всеки процес на подбор. Изходът на всеки процес може да осигури обратна връзка с други процеси. Обратната връзка може да осигури база за експертна оценка на всеки етап.

Статии по темата