runner

Ansible role that deployes services on my runner machine
1.3 KB•J2
llm-stack-litellm.env.j2
1.3 KB • 44 lines • plaintext
1# ==============================================================================
2# LITELLM CONFIGURATION
3# ==============================================================================
4OLLAMA_API_BASE=http://ollama:11434
5MODEL_LIST={{ llm_stack_litellm_model_list }}
6COMPLETION_MODEL={{ llm_stack_litellm_completion_model }}
7STREAM={{ llm_stack_litellm_streaming_enabled | lower }}
8LOG_LEVEL={{ llm_stack_litellm_log_level }}
9
10# Required LiteLLM Configuration
11LITELLM_MASTER_KEY={{ vault_runner.lite_llm_master_key | default('sk-1234') }}
12LITELLM_SALT_KEY={{ vault_runner.lite_llm_salt_key | default('sk-{{ 9999999999999999 | random }}') }}
13STORE_MODEL_IN_DB=True
14DATABASE_URL=postgresql://litellm:{{ vault_runner.lite_llm_db_password | default('litellm123') }}@postgres:5432/litellm
15
16# Model Discovery & Provider Configuration
17LITELLM_MODEL_DISCOVERY=true
18LITELLM_MODEL_FALLBACK=true
19USE_OLLAMA_DISCOVERY=true
20OLLAMA_NUM_GPUS=1
21
22# Provider-specific settings
23OLLAMA_BASE_URL=http://ollama:11434
24
25# Model Parameters
26MAX_TOKENS=4096
27TEMPERATURE=0.7
28TOP_P=0.9
29FREQUENCY_PENALTY=0.0
30PRESENCE_PENALTY=0.0
31
32# Security & Access
33CORS_ORIGINS=*
34ALLOWED_IPS=*
35
36# Rate Limiting
37RATE_LIMIT_ENABLED=true
38RATE_LIMIT_REQUESTS_PER_MINUTE=60
39RATE_LIMIT_REQUESTS_PER_HOUR=1000
40
41# Caching
42CACHE_ENABLED=true
43CACHE_SIZE=100
44CACHE_TTL=3600