Data Scientist NLP / JobVK

Data Scientist NLP

СберПраво

Полная занятость
Опыт: 1-3 года

Описание: Кто мы? Мы RND команда проекта GigaLegal в СБЕР - создаем инновационные решения в правовом домене на основе LLM для автоматизации юридических процессов. Наша цель — трансформировать работу юристов, бизнеса и государственных структур через: - Автоматизацию анализа договоров и юридических документов - Интеллектуальную генерацию правовых документов - Разработку специализированных юридических чат-ботов - Создание автономных юридических ИИ-агентов Чем предстоит заниматься? Исследования и эксперименты с LLM: - Разработка и оптимизация промптов для задач классификации, NER и генерации юридических текстов - Оценка эффективности различных подходов и моделей для юридических задач - Написание агентских пайплайнов с использованием LLM - Подготовка тестовых и обучающих данных для LLM Инженерия данных: - Разработка пайплайнов обработки юридических документов в различных форматах (конвертация в структурированный текст, сегментация) - Организация процессов разметки данных и создания специализированных датасетов - Подготовка обучающих данных для ML моделей (классические модели, BERT, T5) ML/NLP разработка: - Применение классических моделей (TF-IDF, CRF) и трансформеров (BERT, T5) для: - Классификации юридических документов - Извлечения именованных сущностей - Реализации семантического поиска - Интеграция с внешними API - Работа с поисковыми технологиями - ElasticSearch, векторный поиск, матчинг, ранжирование Внедрение в продакшен: - Подготовка документации и API для передачи в production - Поддержка на этапе интеграции разработок - Участие в A/B-тестировании и анализе результатов Для этого необходимо уметь? - уверенная работа с python: pandas, numpy, sklearn, PyTorch - базовые знания SQL и NoSQL баз данных - знание классического NLP, опыт с NLP-библиотеками (spaCy, NLTK) - уверенные знания современных LLM-архитектур и понимание техник обучения LLM хотя бы в теории (претрейн, SFT, RLHF) - навыки промптинга: знание стратегий промптинга и умение оптимизировать промпты для решения бизнес-задач - практический опыт построения RAG-систем - git, Linux, docker Будет преимуществом: - умение написать простой REST API микросервис, собрать и запустить телеграм бота - умение собрать простой веб интерфейс прототипа на html/css/javascript - способность обучить LORA адаптер к LLM модели - интерес к актуальным исследованиям NLP и LLM, чтение публикаций по теме - опыт создания LLM-driven приложений (structured output, function calling, agent systems) Что мы предлагаем: - Менторство от Senior DS-специалистов и экспертов команды GigaChat - Доступ к закрытым образовательным материалам по LLM и Lega