Как Open Search и BERT спасли от бумажного апокалипсиса

О проекте

Представьте: ваши сотрудники сидят за компьютерами, их глаза медленно закрываются, а пальцы судорожно листают сотни документов в поисках дублей.

«Где же эта проклятая повторяющаяся задача?» — шепчут они, как герои фильма ужасов.

Именно так выглядел будний день нашего клиента. Но мы пришли на помощь с двумя «супергерями»: Open Search и BERT.

1. Анализ проблемы: Когда ручной поиск стал врагом человечества

Проблемы клиента:

- Поиск дублей напоминал игру «найди 10 отличий», но без приза в конце.

- Группировка замечаний превращалась в квест: «Почему „это замечание 1“ и „замечание 999“ — это одно и то же?».

Цели:

- Заменить сотрудников-роботов (в смысле, людей, которые делают рутинную работу) на настоящих роботов.

- Научить ИИ понимать, что «отсутствие в проектной документации» и «нет в документации проекта» — это одно и то же, но с разным уровнем драмы.

2. Выбор технологий: Почему Open Search и BERT?

Open Search:

- Как Шерлок Холмс для данных: быстро, умно, и всегда находит нужную «улику».

- Умеет работать с гигабайтами информации, не жалуясь на перегрузку (в отличие от вашего ноутбука).

BERT:

- Не просто модель, а настоящий полиглот: понимает сарказм, технический жаргон и даже опечатки.

- Если бы BERT был человеком, он бы выигрывал в «Крокодила» с закрытыми глазами.

3. Интеграция: Когда технологии встречают реальность

Этапы внедрения:

- Индексация данных в Open Search: «Переваривание» документов прошло успешно, без изжоги у серверов.

- Обучение BERT на исторических данных: Модель научилась отличать «срочно!» от «ну это когда-нибудь потом».

- API-интеграция: Теперь замечания группируются быстрее, чем сотрудники успевают написать «я в отпуске».

Особенности:

- Гибридный поиск: как шоколад с перцем — неожиданно, но работает!

- BERT выучил корпоративный сленг клиента. Теперь он знает, что «полетело в краш» — это плохо, а не про авиацию.

4. Результаты: Когда цифры говорят сами за себя

Поис дублей:

Точность 92% — почти как у мамы, которая находит потерянные носки, но без нравоучений. Время анализа сократилось с 8 часов до 30 минут. Теперь эти часы можно потратить на… ну, например, на сон.

Группировка замечаний:

Система создала категории: «Срочно-срочно», «Ну можно подождать» и «Это вообще из другого проекта». Обнаружила, что 80% жалоб начинаются со слов «Почему опять…?».

Безопасность:

Секреты не утекут в сеть — мы же не Илон Маск в Twitter. Всё работает в закрытом контуре.

Гибкость:

Настроим BERT даже на ваши милые словечки вроде «это фича, а не баг».

Масштабируемость:

Обработает столько данных, сколько вы накопили за годы прокрастинации.