Size: a a a

2020 December 22

АК

Алексей Клименко... in use Perl or die;
ДА СУКА
источник

АК

Алексей Клименко... in use Perl or die;
Переслано от Vadim Goncharov
тьфу, ебучие скачущие чаты с одними и теми же лицами
источник

АК

Алексей Клименко... in use Perl or die;
Vadim Goncharov
шо значит почему? потому что Дуров поставил таску, очевидно
Типа, индексы, индексы, индексы?..
источник

VG

Vadim Goncharov in use Perl or die;
Алексей Клименко
Типа, индексы, индексы, индексы?..
да хер знает, что у них там в базе
источник

VG

Vadim Goncharov in use Perl or die;
для поиска точно специальные индексы
источник

АК

Алексей Клименко... in use Perl or die;
Vadim Goncharov
да хер знает, что у них там в базе
Вот мне и интересно.
источник

АК

Алексей Клименко... in use Perl or die;
Vadim Goncharov
для поиска точно специальные индексы
А для тредов комментов?

Индекс по топ-reply?
источник

VG

Vadim Goncharov in use Perl or die;
но, в общем, поиск по словам - везде индексацией этих слов делают
источник

VG

Vadim Goncharov in use Perl or die;
Алексей Клименко
А для тредов комментов?

Индекс по топ-reply?
вот хороший вопрос... я более чем уверен, что у телеги mysql, а завезли ли туда рекурсивные запросы / для деревьев, не знаю
источник

АК

Алексей Клименко... in use Perl or die;
Vadim Goncharov
вот хороший вопрос... я более чем уверен, что у телеги mysql, а завезли ли туда рекурсивные запросы / для деревьев, не знаю
Нет, почему рекурсивный, просто WHERE же.
источник

АК

Алексей Клименко... in use Perl or die;
Vadim Goncharov
но, в общем, поиск по словам - везде индексацией этих слов делают
Глобальный индекс всех слов во всём облаке (всех юзеров за всю историю), а потом делают WHERE chat_id==my_chat_id ?
источник

VG

Vadim Goncharov in use Perl or die;
баньте @JinChaoOO за приваты
источник

VT

Vasily Terkin in use Perl or die;
Насмехайтесь над ним
источник

VG

Vadim Goncharov in use Perl or die;
ссыте ему в аватарку
источник

a

allter in use Perl or die;
Алексей Клименко
Глобальный индекс всех слов во всём облаке (всех юзеров за всю историю), а потом делают WHERE chat_id==my_chat_id ?
Разве что в самом первом приближении. У меня диплом был по полнотекстовому поиску. Даже на небольших объёмах (несколько сотен мегабайт текста) подход "в лоб" с инвертированным индексом ( https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D0%B2%D0%B5%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81 ) не работает, т.к. очень много индексов в БД меняется при вставке одного документа. Нужно продумывать кучу вещей, типа своего планировщика запросов, обновлялщика-агрегатора и т.д.
источник

АК

Алексей Клименко... in use Perl or die;
allter
Разве что в самом первом приближении. У меня диплом был по полнотекстовому поиску. Даже на небольших объёмах (несколько сотен мегабайт текста) подход "в лоб" с инвертированным индексом ( https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D0%B2%D0%B5%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81 ) не работает, т.к. очень много индексов в БД меняется при вставке одного документа. Нужно продумывать кучу вещей, типа своего планировщика запросов, обновлялщика-агрегатора и т.д.
На каком-то сайте имиджборде (то ли данбуру, то ли gelbooru.com) я замечал, что индексы для поиска по тегу – битые.

Например, написано что по тегу должно быть столько-то картин, а возвращается одна-две, или вообще ни одной.

Также, были теги, которые указывают на картины, на которых уже нет этих тегов. Какое-то расхождение, им как будто всё переиндексировать и перестроить списки тегов нужно было.
источник

a

allter in use Perl or die;
Алексей Клименко
На каком-то сайте имиджборде (то ли данбуру, то ли gelbooru.com) я замечал, что индексы для поиска по тегу – битые.

Например, написано что по тегу должно быть столько-то картин, а возвращается одна-две, или вообще ни одной.

Также, были теги, которые указывают на картины, на которых уже нет этих тегов. Какое-то расхождение, им как будто всё переиндексировать и перестроить списки тегов нужно было.
Может там контент убран местным комнадзором, а в индексе не чистят. :) Или контент показывается только определённым странам.
источник

АК

Алексей Клименко... in use Perl or die;
allter
Может там контент убран местным комнадзором, а в индексе не чистят. :) Или контент показывается только определённым странам.
Нет, я видел ужасно битые мусорные теги, которых быть вообще не должно, но они существовали и на что-то указывали.
источник

a

allter in use Perl or die;
P.S. Я лично не пробовал, но если вам надо что-то такое реализовать, то говорят хорошо идут вещи типа ElasticSearch - вроде там уже готовые штуки для этого были.
источник

АК

Алексей Клименко... in use Perl or die;
Я просто думаю о том, как сделать сохранённую локально частичную базу контента Telegram – юзабельной не хуже оригинала.

Ну то есть, если я буду всё «руками» делать (без БД) – то максимум у меня будет диалоги/сообщения.
Смогу проиндексировать медиа, и быть может, хештеги (и то не глобально, а разумно в пределах чата).

Но поиск…
источник