AI-стартап сократил цикл демонстрации модели
с 3 дней до 30 минут
Небольшой AI-стартап из Москвы разрабатывал RAG-ассистента для автоматизации
юридического документооборота. Основная модель — Mistral 7B, запущенная через
Ollama на рабочей станции с RTX 3090. FastAPI-сервер предоставлял
OpenAI-совместимый API для клиентского веб-интерфейса.
Проблема возникала при подготовке демонстраций для потенциальных клиентов. Развернуть модель на облачном GPU (Yandex Cloud, VK Cloud) стоило около 6 000–8 000 ₽ за сессию и требовало 2–3 дней настройки: подбор образа, квантизация модели под доступную VRAM, настройка CORS, SSL, nginx.
Как внедрили Пробросс
Команда зарегистрировалась на тарифе «Про» (990 ₽/мес) и за 5 минут
настроила постоянный туннель ailex.probross.ru. Клиент
запускается одной командой и работает как фоновый процесс:
- Ollama поднимает модель локально на RTX 3090 (
localhost:11434) - FastAPI проксирует и оборачивает запросы (
localhost:8080) - Пробросс создаёт публичный HTTPS-адрес, не требуя открытия портов
- Демо-ссылка фиксированная — можно отправить клиенту заранее
Ключевые технические детали
- Постоянный поддомен — URL не меняется между сессиями
- TLS 1.3 «из коробки» — клиент принудительно использует WSS
- Тунель принимает до 100 ГБ/мес трафика (хватает для ~50 000 запросов к LLM)
- Автоматическое переподключение при разрыве сети — демо не прерывается
«Раньше перед каждой встречей с клиентом мы тратили 2–3 дня на инфраструктуру. Сейчас я запускаю одну команду с утра — и в 10:00 мы уже показываем живую модель прямо с нашей рабочей станции. Никаких облаков, никаких дополнительных трат.»
— технический директор, AI-стартап, Москва (тариф «Про»)