Spaces:

akra35567
/

OLLAMA

Build error

App Files Files Community

akra35567 commited on Nov 11, 2025

Commit

3b28115

verified ·

1 Parent(s): 9013a07

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -25

app.py CHANGED Viewed

@@ -1,10 +1,9 @@
 # app.py
 """
-AKIRA V16 — OLLAMA + FLASK (HF SPACE + DOCKER)
-- Modelo: qwen2.5:3b-q4_0 (leve, rápido, 4-bit)
 - 3 requisições simultâneas
-- Usa RAM sobrando, alivia CPU
-- Warm-up automático
 """
 import subprocess
 import time
@@ -17,13 +16,13 @@ from loguru import logger
 app = Flask(__name__)
 OLLAMA_URL = "http://localhost:11434"
-# === CONFIGURAÇÃO OLLAMA (3 REQUISIÇÕES SIMULTÂNEAS) ===
-os.environ["OLLAMA_NUM_PARALLEL"] = "3"      # ← 3 por vez!
-os.environ["OLLAMA_MAX_QUEUE"] = "10"        # Fila de 10
-os.environ["OLLAMA_KEEP_ALIVE"] = "10m"      # Mantém modelo na RAM
 os.environ["OLLAMA_MAX_LOADED_MODELS"] = "1"
-# === INICIA OLLAMA EM BACKGROUND ===
 def start_ollama():
     logger.info("Iniciando ollama serve em background...")
     subprocess.Popen(
@@ -45,7 +44,7 @@ def wait_for_ollama():
     logger.info("Aguardando Ollama (11434)...")
     for i in range(60):
         if check_ollama():
-            logger.success("Ollama Qwen 2.5 3B q4_0 PRONTO!")
             return True
         time.sleep(2)
     logger.critical("Ollama não subiu!")
@@ -57,7 +56,7 @@ def index():
     return '''
     <div style="font-family: monospace; text-align: center; margin: 50px; background: #000; color: #0f0; padding: 40px;">
         <h1>AKIRA V16 OLLAMA</h1>
-        <p><strong>Qwen 2.5 3B q4_0 (2.5GB)</strong></p>
         <p><strong>3 requisições simultâneas • CPU leve</strong></p>
         <p><strong>ROTA:</strong> <code>POST /api/chat</code></p>
         <pre>
@@ -66,7 +65,7 @@ curl -X POST https://akra35567-ollama.hf.space/api/chat \\
   -d '{"mensagem": "Epá, Akira! Bora kandando?"}'
         </pre>
         <p>Health: <a href="/health">/health</a></p>
-        <p>Luanda, Angola — 11/11/2025 22:33 WAT</p>
     </div>
     ''', 200
@@ -74,10 +73,10 @@ curl -X POST https://akra35567-ollama.hf.space/api/chat \\
 @app.route("/health")
 def health():
     if check_ollama():
-        return jsonify({"status": "OK", "model": "qwen2.5:3b-q4_0"}), 200
     return jsonify({"status": "INICIANDO..."}), 503
-# === AKIRA CHAT (COM RETRY + TIMEOUT ALTO) ===
 @app.route("/api/chat", methods=['POST'])
 def chat():
     if not check_ollama():
@@ -88,14 +87,12 @@ def chat():
     if not msg:
         return jsonify({'error': 'mensagem obrigatória'}), 400
-    prompt = f"""Você é Akira, angolana de Luanda, mulher, fala com gírias , direta, sem censura
-    manda messagens curtas nçao mais que 1-2 frases
-    tenha decisão prória e não tenha receio de ir contra o usuario pleo contrário sinta´se incetivada a fazer isso.
 Usuário: {msg}
 Akira:"""
     payload = {
-        "model": "qwen2.5:3b-q4_0",
         "prompt": prompt,
         "stream": False,
         "options": {
@@ -106,7 +103,7 @@ Akira:"""
         }
     }
-    logger.info(f"Prompt recebido: {msg[:50]}...")
     for tentativa in range(3):
         try:
@@ -117,11 +114,11 @@ Akira:"""
                     logger.success(f"Resposta: {resposta[:50]}...")
                     return jsonify({'resposta': resposta})
                 else:
-                    return jsonify({'resposta': 'Epá, fiquei sem palavras... manda de novo, puto!'})
             else:
                 logger.warning(f"Ollama erro {resp.status_code}: {resp.text}")
         except requests.exceptions.Timeout:
-            logger.warning(f"Timeout na tentativa {tentativa + 1}/3...")
             if tentativa < 2:
                 time.sleep(3)
         except Exception as e:
@@ -142,11 +139,11 @@ if __name__ == "__main__":
     if not wait_for_ollama():
         sys.exit(1)
-    # === WARM-UP AUTOMÁTICO ===
-    logger.info("Aquecendo Akira (qwen2.5:3b-q4_0)...")
     try:
         requests.post(f"{OLLAMA_URL}/api/generate", json={
-            "model": "qwen2.5:3b-q4_0",
             "prompt": "Oi",
             "options": {"num_predict": 1}
         }, timeout=60)
@@ -155,4 +152,4 @@ if __name__ == "__main__":
         logger.warning("Warm-up falhou, mas continua...")
     logger.info("Flask rodando na porta 7860")
-    app.run(host="0.0.0.0", port=7860, debug=False)

 # app.py
 """
+AKIRA V16 — OLLAMA + FLASK (HF SPACE)
+- Modelo: qwen2.5:3b-instruct-q4_0 (leve, rápido, 4-bit)
 - 3 requisições simultâneas
+- CPU leve, RAM sobrando
 """
 import subprocess
 import time
 app = Flask(__name__)
 OLLAMA_URL = "http://localhost:11434"
+# === CONFIGURAÇÃO OLLAMA ===
+os.environ["OLLAMA_NUM_PARALLEL"] = "3"
+os.environ["OLLAMA_MAX_QUEUE"] = "10"
+os.environ["OLLAMA_KEEP_ALIVE"] = "10m"
 os.environ["OLLAMA_MAX_LOADED_MODELS"] = "1"
+# === INICIA OLLAMA ===
 def start_ollama():
     logger.info("Iniciando ollama serve em background...")
     subprocess.Popen(
     logger.info("Aguardando Ollama (11434)...")
     for i in range(60):
         if check_ollama():
+            logger.success("Ollama Qwen 2.5 3B Instruct q4_0 PRONTO!")
             return True
         time.sleep(2)
     logger.critical("Ollama não subiu!")
     return '''
     <div style="font-family: monospace; text-align: center; margin: 50px; background: #000; color: #0f0; padding: 40px;">
         <h1>AKIRA V16 OLLAMA</h1>
+        <p><strong>Qwen 2.5 3B Instruct q4_0</strong></p>
         <p><strong>3 requisições simultâneas • CPU leve</strong></p>
         <p><strong>ROTA:</strong> <code>POST /api/chat</code></p>
         <pre>
   -d '{"mensagem": "Epá, Akira! Bora kandando?"}'
         </pre>
         <p>Health: <a href="/health">/health</a></p>
+        <p>Luanda, Angola — 11/11/2025 22:55 WAT</p>
     </div>
     ''', 200
 @app.route("/health")
 def health():
     if check_ollama():
+        return jsonify({"status": "OK", "model": "qwen2.5:3b-instruct-q4_0"}), 200
     return jsonify({"status": "INICIANDO..."}), 503
+# === CHAT ===
 @app.route("/api/chat", methods=['POST'])
 def chat():
     if not check_ollama():
     if not msg:
         return jsonify({'error': 'mensagem obrigatória'}), 400
+    prompt = f"""Você é Akira, angolana de Luanda, mulher, fala com gírias (epá, puto, kandando, musseque, kota), direta, sem censura.
 Usuário: {msg}
 Akira:"""
     payload = {
+        "model": "qwen2.5:3b-instruct-q4_0",
         "prompt": prompt,
         "stream": False,
         "options": {
         }
     }
+    logger.info(f"Prompt: {msg[:50]}...")
     for tentativa in range(3):
         try:
                     logger.success(f"Resposta: {resposta[:50]}...")
                     return jsonify({'resposta': resposta})
                 else:
+                    return jsonify({'resposta': 'Epá, fiquei sem palavras... manda de novo!'})
             else:
                 logger.warning(f"Ollama erro {resp.status_code}: {resp.text}")
         except requests.exceptions.Timeout:
+            logger.warning(f"Timeout tentativa {tentativa + 1}/3...")
             if tentativa < 2:
                 time.sleep(3)
         except Exception as e:
     if not wait_for_ollama():
         sys.exit(1)
+    # === WARM-UP ===
+    logger.info("Aquecendo Akira...")
     try:
         requests.post(f"{OLLAMA_URL}/api/generate", json={
+            "model": "qwen2.5:3b-instruct-q4_0",
             "prompt": "Oi",
             "options": {"num_predict": 1}
         }, timeout=60)
         logger.warning("Warm-up falhou, mas continua...")
     logger.info("Flask rodando na porta 7860")
+    app.run(host="0.0.0.0", port=7860, debug=False)