<МЕТА> - Украина | Блоги | Українська
<META> - Украина
Интернет
Реестр
Новости
Рефераты
Товары
Блоги
искать в блоге Записки шовиниста искать в постах/комментариях пользователя keva
Авторизация
Логин:
Пароль:
 
#

Категории

BMW (1)
Вино (17)
Киев (3)
кино (1)
мета (3)
#

Календарь

 Июнь 
Пн
Вт
Ср
Чт
Пт
Сб
Вс
 
 
 
 
2
3
4
5
7
8
9
12
14
15
17
18
19
21
22
23
24
25
26
27
28
29
30
#

Записи

Суббота 19 февраля 2011

Устойчивые словосочетания в рамках некоторого массива текстов - это цепочки слов длиной L > 1, которые встречаются в этом массиве с частотой, сравнимой с частотой появления любых их расширений.

Иными словами, A B является устойчивым словосочетанием, если встречается в анализируемом массиве текстов сильно чаще, чем иные сочетания слов A и B с другими словами.

Специально заметим, что для разных массивов текстов устойчивые словосочетания будут разными: так, на нашем новостном массиве это будет один набор, на большом поисковом индексе по украинскому сегменту Интернет - другой.

В настоящий момент мы построили устойчивые двух- и трехсловные словосочетания для новостного массива, и приступаем к построению множества устойчивых словосочетаний для множества документов большого поискового индекса.

Для построения мы использовали непосредственно образы документов, которые хранятся на дисковых носителях наших проектов, так как тексты в них уже прошли предварительную обработку, фильтрацию и удавливание паразитного содержания, такого, как навигационная обвязка (алгоритм markupGelder), коммерческие ссылки (spamLink), и представляют собой статистически чистый от оформления набор текстов уникальных документов.

На первой фазе для каждого документа, состоящего из N слов, строится не более N-1 потенциальных двухсловных контактных словосочетаний и N-2 - трехсловных. "Не более" - потому, что знаки пунктуации не могут входить в короткие словосочетания по постановке задачи.

Выделенные кандидаты складываются в хранилище, сортируются с учетом морфологии русского, украинского или английского языка, а частоты их появлений суммируются. Результатом является массив двух- и трехсловных словосочетаний с частотами появлений в обработанном массиве текстов.

На второй стадии из этого массива выделяются словосочетания, частоты для которых превышают пороговое значение, которое может быть весьма и весьма свободным: действительно, если словосочетание - устойчивое, оно встретится в массиве на порядки большее количество раз, чем условно случайные сочетания слов.

Отобранные таким способом словосочетания проходят техническую нормализацию - определение грамматической структуры, проверку на "нужность" обнаруженной структуры и построение нормальной формы.

Сейчас обрабатываются именные группы - прилагательные, согласованные с определяемым словом, цепочки родительных падежей, персоны и, с большим штрафом, глаголы с зависимыми словами в винительном падеже (прямые дополнения)..

Вторник 6 июля 2010
Сообщение прочтено 402 раз
keva | 2010-07-06 21:47:02
Администрация МетаБлогов предупреждает, что этот пост может содержать материалы для взрослых.
Воскресенье 23 мая 2010

 

Группировка по тематике

1         Приветствие, обращение к аудитории

Добрый день, я – Андрей Коваленко, компания <META>, я расскажу вам о том, как мы сделали новый способ представления результатов поиска в Сети, и, собственно, что это за способ.

Два с половиной месяца назад, в феврале, на условно закрытой конференции по информационному поиску в Яхроме, мы уже показывали предварительную версию этой нашей новой группировки. Показали осторожно, из-под полы – и, выслушав замечания коллег, тут же убрали с глаз долой.

После этого мы еще несколько месяцев поработали, где-то что-то подкрутили, отполировали, очень серьезную работу провели над визуализацией полученных результатов, предельно сократили количество выдаваемой информации,  дабы пользователь не терялся в дебрях наукоемких технологий, и сегодня я готов представить вам результаты нашей деятельности.

После той конференции, куда я прилетел взмыленный – у меня за несколько дней до нее родилась еще одна дочка – и сделал доклад, участники в блогах писали, что, мол, запомнился веселый хохол из Меты, который очень интересно рассказывал о чем-то совершенно непонятном. Поэтому сегодня я постараюсь построить свой рассказ так, чтобы вы вспоминали о веселом москале из Меты, рассказ которого был не только интересным, но и познавательным.

2         Способы представления поисковой выдачи

Начну с небольшого взгляда в историю. Информационный поиск как таковой существует столько же, сколько существуют компьютеры, и иногда даже кажется странным, для чего нужны были инверсные индексы на машинах, где всю память можно было быстро просмотреть глазами. И результатом поиска всегда был либо документ, либо какой-либо иной фрагмент текста с искомыми словами, их синонимами или другими признаками, делающими этот текст релевантным, то есть соответствующим запросу.

Первое, революционное, как мне кажется, изменение поисковой выдачи произошло в 1998-1999 году, когда Женя Киреев и Миша Костин, строившие вторую версию поисковой системы «Апорт», сделали объектом поиска не документ, а сайт. Сейчас группировка выдачи по сайтам стала основным режимом для всех без исключения больших поисковых машин в Сети.

Вообще, «Апорт» - это была революционная для 1997 года поисковая система. Я до сих пор горжусь этим своим проектом. Именно Апорт! стал первым искать с учетом морфологии языка, он же первым стал давать цитаты релевантных фрагментов. Поэтому, кстати, я не терплю вот это вот вульгарное словечко «сниппет», которое употребляют вместо слова «цитата».

А теперь мы, как мне кажется, сделали еще один шаг в сторону изменения поисковой выдачи. Мы сгруппировали найденные документы не только по сайтам, но и по тематикам, или, если угодно, по рубрикам.


Читать
Поиск:
ИнформацияОбщениеБизнесДосуг
добавить сайт | реклама на портале | контекстная реклама | контакты Copyright © 1998-2010 <META> Все права защищены