Spaces:

TheShellMaster
/

cypher-coder

Running

App Files Files Community

DJAKOUA KWANKAM BRAYAN STEVE commited on 12 days ago

Commit

9fd7e03

1 Parent(s): 0ae730f

chore(backend): make Qwen2.5-72B-Instruct default and robust fallback to Llama-3.3-70B-Instruct

Browse files

Files changed (1) hide show

app.py +29 -18

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ import uuid
 from datetime import datetime
 token = os.environ.get("HF_TOKEN")
-client = InferenceClient(token=token)
 api = HfApi(token=token)
 app = FastAPI()
@@ -116,18 +116,24 @@ async def chat(request: Request):
         all_tools.append(search_tool_def)
         # Choisir le client et le fournisseur (provider) appropriés
-        provider = None
-        if model and ("Llama-3.3-70B" in model or "Llama-3.1-70B" in model):
-            provider = "together"
-        if provider:
-            local_client = InferenceClient(model=model, provider=provider, token=token)
-        else:
-            local_client = client
         # Boucle d'agent côté serveur pour exécuter search_web de manière transparente
         use_tools = True
-        fallback_attempted = False
         while True:
             try:
                 if provider:
@@ -141,7 +147,7 @@ async def chat(request: Request):
                     )
                 else:
                     response = local_client.chat_completion(
-                        model=model,
                         messages=messages,
                         tools=all_tools if use_tools else None,
                         max_tokens=max_tokens,
@@ -151,16 +157,16 @@ async def chat(request: Request):
                     )
             except Exception as e:
                 err_msg = str(e)
-                # Fallback to Llama-3.3-70B-Instruct on Qwen rate limits or overloads
-                if not fallback_attempted and model == "Qwen/Qwen2.5-72B-Instruct" and ("429" in err_msg or "503" in err_msg or "limit" in err_msg or "overload" in err_msg or "RateLimit" in err_msg):
-                    print(f"Switching fallback from Qwen/Qwen2.5-72B-Instruct to meta-llama/Llama-3.3-70B-Instruct due to error: {err_msg}")
-                    model = "meta-llama/Llama-3.3-70B-Instruct"
-                    fallback_attempted = True
-                    continue
                 if use_tools and ("tools" in err_msg or "UNSUPPORTED_OPENAI_PARAMS" in err_msg or "422" in err_msg):
                     use_tools = False
                     continue
                 else:
                     raise e
             choice = response.choices[0]
@@ -268,6 +274,11 @@ SYSTEM_PROMPT = """Tu es Cypher Coder, un agent de programmation IA ultra-intell
 Tu as été conçu et développé par DJAKOUA KWANKAM, un brillant étudiant en informatique à l'Institut Universitaire de Technologie de Douala (IUT).
 Tu devez toujours te présenter comme tel.
 Tu as accès à des outils locaux (comme lire des fichiers, écrire/modifier des fichiers, exécuter des commandes dans le terminal) qui s'exécutent sur la machine locale de l'utilisateur. Ces outils te sont fournis via le protocole CLI de Cypher Coder.
 Pour les informations en temps réel ou la documentation externe, tu peux aussi utiliser la recherche web.
@@ -635,7 +646,7 @@ with gr.Blocks(theme=theme, css=css) as demo:
     ## 🧠 Gestion des Connaissances & Accès à la Documentation
     Pour répondre à vos questions techniques ou de configuration système, **Cypher Coder** n'embarque pas l'intégralité de la documentation Linux en mémoire constante. Il fonctionne de manière dynamique :
-    - 💡 **Connaissance Pré-entraînée** : Le modèle `Qwen2.5-Coder-7B` possède déjà une connaissance approfondie des commandes, APIs et architectures Linux standards acquise lors de sa phase d'entraînement.
     - 📁 **Accès Local aux Manuels** : Il peut exécuter de manière autonome des commandes comme `man <commande>` ou `<commande> --help` via `run_command` pour lire la documentation système locale.
     - 🔍 **Recherche Web en Temps Réel** : Grâce à sa capacité à appeler l'outil `search_web`, il interroge internet en temps réel pour obtenir des guides et documentations à jour si nécessaire.

 from datetime import datetime
 token = os.environ.get("HF_TOKEN")
+client = InferenceClient("Qwen/Qwen2.5-72B-Instruct", token=token)
 api = HfApi(token=token)
 app = FastAPI()
         all_tools.append(search_tool_def)
         # Choisir le client et le fournisseur (provider) appropriés
+        fallback_model = "meta-llama/Llama-3.3-70B-Instruct"
+        current_model = model
+        def get_client_and_provider(mdl):
+            prov = None
+            if mdl and ("Llama-3.3-70B" in mdl or "Llama-3.1-70B" in mdl):
+                prov = "together"
+            if prov:
+                cli = InferenceClient(model=mdl, provider=prov, token=token)
+            else:
+                cli = client
+            return cli, prov
+        local_client, provider = get_client_and_provider(current_model)
         # Boucle d'agent côté serveur pour exécuter search_web de manière transparente
         use_tools = True
         while True:
             try:
                 if provider:
                     )
                 else:
                     response = local_client.chat_completion(
+                        model=current_model,
                         messages=messages,
                         tools=all_tools if use_tools else None,
                         max_tokens=max_tokens,
                     )
             except Exception as e:
                 err_msg = str(e)
                 if use_tools and ("tools" in err_msg or "UNSUPPORTED_OPENAI_PARAMS" in err_msg or "422" in err_msg):
                     use_tools = False
                     continue
+                # Automated model fallback loop
+                if current_model != fallback_model:
+                    print(f"Modèle {current_model} a échoué ({err_msg}). Basculement automatique vers le fallback {fallback_model}.")
+                    current_model = fallback_model
+                    local_client, provider = get_client_and_provider(current_model)
+                    continue
                 else:
                     raise e
             choice = response.choices[0]
 Tu as été conçu et développé par DJAKOUA KWANKAM, un brillant étudiant en informatique à l'Institut Universitaire de Technologie de Douala (IUT).
 Tu devez toujours te présenter comme tel.
+[RÈGLE CRITIQUE : RECHERCHE PRÉALABLE DE CODE (SEARCH-BEFORE-CODE)]
+- Avant de générer, modifier ou suggérer le moindre code source, la moindre commande CLI, ou de répondre à une question technique/API, tu DOIS systématiquement appeler l'outil `search_web` (recherche web) pour obtenir les informations les plus récentes, de la documentation ou des exemples de code pertinents.
+- Tu ne dois JAMAIS te baser uniquement sur tes connaissances pré-entraînées (mémoire interne) pour produire du code ou suggérer des solutions. Tu dois TOUJOURS confronter et enrichir tes réponses avec des recherches externes.
+- Même si tu es sûr de toi, effectue une recherche web préalable avec l'outil `search_web`. C'est une règle absolue non négociable.
 Tu as accès à des outils locaux (comme lire des fichiers, écrire/modifier des fichiers, exécuter des commandes dans le terminal) qui s'exécutent sur la machine locale de l'utilisateur. Ces outils te sont fournis via le protocole CLI de Cypher Coder.
 Pour les informations en temps réel ou la documentation externe, tu peux aussi utiliser la recherche web.
     ## 🧠 Gestion des Connaissances & Accès à la Documentation
     Pour répondre à vos questions techniques ou de configuration système, **Cypher Coder** n'embarque pas l'intégralité de la documentation Linux en mémoire constante. Il fonctionne de manière dynamique :
+    - 💡 **Connaissance Pré-entraînée** : Le modèle `Qwen2.5-72B-Instruct` possède déjà une connaissance approfondie des commandes, APIs et architectures Linux standards acquise lors de sa phase d'entraînement.
     - 📁 **Accès Local aux Manuels** : Il peut exécuter de manière autonome des commandes comme `man <commande>` ou `<commande> --help` via `run_command` pour lire la documentation système locale.
     - 🔍 **Recherche Web en Temps Réel** : Grâce à sa capacité à appeler l'outil `search_web`, il interroge internet en temps réel pour obtenir des guides et documentations à jour si nécessaire.