WAP Мастер Форум / Какие существуют алгоритмы поиска похожих текстов?

» WAP Мастер Форум https://forum.wapinet.ru/index.php
» PHP https://forum.wapinet.ru/viewforum.php?id=3
» Какие существуют алгоритмы поиска похожих текстов? https://forum.wapinet.ru/viewtopic.php?id=2245

TLENS » 2013.12.19 19:09

В общем хочу сделать такое как на ютубе отображение похожих видео. Не знаю смогу ли объяснить свой
Сейчас у меня такой алгоритм (Автор Я):
Создал в базе данных таблицу ключевых слов. related_video со структурой key(index) | video_id
При каждом добавлении видеоролика собираю с видео ключевые слова допустим такой файл
"Прикольный видеоролик с танцующим алкашом" тут у нас 4 ключевых слова я ищу каждое в базе ключевиков и добавляю туда в video_id в конец через запятую айди данного видео ролика.
После просто при отображении видео беру с него ключевые слова и делаю выбор с таблицы related_video
получаю допустим четыре массива идентификаторов если взять в пример ключи про бомжа.
Каждому ид присваиваю число количество индексов те количество массивов с айдишками где встречается этот ролик. После делаю сортировку и получается похожие ролики у нас те которые имеют больше всего похожих слов. Это на мой взгляд самый быстроработающий алгоритм. но самый тупой.

Gemorroj » 2013.12.19 20:39

я бы советова смотреть в сторону поисковых движков типа сфинкса. и поиск лучше будет и быстрее.

TLENS » 2013.12.20 09:50

Gemorroj И как данный модуль поможет мне в моем вопросе? У него есть алгоритм поиска похожих текстов?

Gemorroj » 2013.12.20 10:48

TLENS, в этом одна из его основных задач.

TLENS » 2013.12.20 14:06

Gemorroj Заинтересовал)

Влад23 » 2013.12.20 18:59

мое мнение по тексту к видео "описанию" это не есть правильно, в первую очередь искать по загаловку названию, + сортируя если присутствует цифра, допустим 1 выше чем 23. Плюс как то отслеживать переходы на похожее видео присваевать рейтинг и выводить уже по рейтингу. Подобная схема на ютубе, если залить сериал из 10 серий, они в похожих новостях будут появляться рандомно, сортируясь по цифрам, может 10 стоять выше чем 4 или 50 и 5 на одном уровне, спустя время когда сериал посмотрят определенное кол-вл людей похожее видео принимает статический вид. 1 серия, 2 серия , 3 серия а не 01 серия, 10 серия, 11 серия и тд