Как Open Search и BERT спасли от бумажного апокалипсиса
О проекте
Представьте: ваши сотрудники сидят за компьютерами, их глаза медленно закрываются, а пальцы судорожно листают сотни документов в поисках дублей.
«Где же эта проклятая повторяющаяся задача?» — шепчут они, как герои фильма ужасов.
Именно так выглядел будний день нашего клиента. Но мы пришли на помощь с двумя «супергерями»: Open Search и BERT.
1. Анализ проблемы: Когда ручной поиск стал врагом человечества
Проблемы клиента:
- Поиск дублей напоминал игру «найди 10 отличий», но без приза в конце.
- Группировка замечаний превращалась в квест: «Почему „это замечание 1“ и „замечание 999“ — это одно и то же?».
Цели:
- Заменить сотрудников-роботов (в смысле, людей, которые делают рутинную работу) на настоящих роботов.
- Научить ИИ понимать, что «отсутствие в проектной документации» и «нет в документации проекта» — это одно и то же, но с разным уровнем драмы.
2. Выбор технологий: Почему Open Search и BERT?
Open Search:
- Как Шерлок Холмс для данных: быстро, умно, и всегда находит нужную «улику».
- Умеет работать с гигабайтами информации, не жалуясь на перегрузку (в отличие от вашего ноутбука).
BERT:
- Не просто модель, а настоящий полиглот: понимает сарказм, технический жаргон и даже опечатки.
- Если бы BERT был человеком, он бы выигрывал в «Крокодила» с закрытыми глазами.
3. Интеграция: Когда технологии встречают реальность
Этапы внедрения:
- Индексация данных в Open Search: «Переваривание» документов прошло успешно, без изжоги у серверов.
- Обучение BERT на исторических данных: Модель научилась отличать «срочно!» от «ну это когда-нибудь потом».
- API-интеграция: Теперь замечания группируются быстрее, чем сотрудники успевают написать «я в отпуске».
Особенности:
- Гибридный поиск: как шоколад с перцем — неожиданно, но работает!
- BERT выучил корпоративный сленг клиента. Теперь он знает, что «полетело в краш» — это плохо, а не про авиацию.
4. Результаты: Когда цифры говорят сами за себя
Поис дублей:
Точность 92% — почти как у мамы, которая находит потерянные носки, но без нравоучений. Время анализа сократилось с 8 часов до 30 минут. Теперь эти часы можно потратить на… ну, например, на сон.
Группировка замечаний:
Система создала категории: «Срочно-срочно», «Ну можно подождать» и «Это вообще из другого проекта». Обнаружила, что 80% жалоб начинаются со слов «Почему опять…?».
Безопасность:
Секреты не утекут в сеть — мы же не Илон Маск в Twitter. Всё работает в закрытом контуре.
Гибкость:
Настроим BERT даже на ваши милые словечки вроде «это фича, а не баг».
Масштабируемость:
Обработает столько данных, сколько вы накопили за годы прокрастинации.