AI Document Archive Search Implementation

We design and deploy artificial intelligence systems: from prototype to production-ready solutions. Our team combines expertise in machine learning, data engineering and MLOps to make AI work not in the lab, but in real business.

8+Years of workmore info 900+Completed projectsmore info 100+In house employeesmore info 19+Partnersmore info

Offered services

Showing 1 of 1 servicesAll 1566 services

Medium

~5 business days

FAQ

AI Development Areas

Discuss your AI project

Free consultation — we'll show you how AI can solve your challenge

Get a quote

We'll estimate the budget and timeline for your AI project

AI Solution Development Stages

Latest works

Development of a web application for FEEDME
1170
Development of an online store for the company FURNORO
1094
B2B Advance company logo design
563
Development of a web application for Enviok
830
AIDER company logo development
763
CRM development for Chasseurs
879

Show more works

Реализация AI-поиска по архиву документов (Document Search)

AI-поиск по документальному архиву позволяет находить документы по смыслу запроса — не только по ключевым словам в названии файла. «Договоры с условием автопролонгации, истекающие в 2025 году» — такой запрос решает AI-поиск, но не файловая система.

Индексирование архива

Каждый документ при попадании в архив проходит обработку:

Извлечение текста: pdfminer (PDF), python-docx (DOCX), unstructured.io (все форматы)
Структурирование: разбивка на чанки + сохранение метаданных (раздел, страница)
Эмбеддинги: text-embedding-3-small (OpenAI) или cointegrated/rubert-tiny2 (on-premise)
Индексирование в Qdrant/pgvector
Извлечение структурированных метаданных: тип документа, стороны, даты, суммы → в реляционную БД

Гибридный поиск

Комбинация полнотекстового и семантического поиска:

def search_documents(query: str, filters: dict = None) -> list[SearchResult]:
    # Семантический поиск
    query_embedding = embedder.encode(query)
    semantic_results = qdrant.search(
        collection_name="documents",
        query_vector=query_embedding,
        query_filter=build_qdrant_filter(filters),
        limit=20
    )

    # BM25 поиск
    bm25_results = elasticsearch.search(
        index="documents",
        body={"query": {"match": {"content": query}}, "filter": build_es_filter(filters)},
        size=20
    )

    # RRF слияние и reranking
    merged = reciprocal_rank_fusion(semantic_results, bm25_results)
    reranked = cross_encoder.rerank(query, merged[:10])
    return reranked[:5]

Фасетный поиск

Дополнительные фильтры для точного поиска:

Тип документа: договор / акт / накладная
Контрагент: название или ИНН
Диапазон дат (подписания, окончания)
Диапазон сумм
Статус: действующий / расторгнут / истёк

Conversational search

«Найди договоры» → «с каким контрагентом?» → «Газпром» → «за какой период?» — диалоговый уточняющий поиск. LLM конвертирует диалог в структурированный запрос к хранилищу.

Метрики: NDCG@5, MRR, пользовательская оценка «нашли ли то что искали» (explicit feedback).