Spaces:

curiouscurrent
/

ai-agent1

Sleeping

curiouscurrent commited on Oct 7, 2025

Commit

f08b6f0

verified ·

1 Parent(s): 38db332

Update AI_Agent/llm_adapters/hf_adapter.py

Files changed (1) hide show

AI_Agent/llm_adapters/hf_adapter.py CHANGED Viewed

@@ -4,19 +4,36 @@ import torch
 import asyncio
 class HuggingFaceAdapter:
-    def __init__(self, model_name="openai/gpt-oss-20b"):
         self.model_name = model_name
         self.tokenizer = AutoTokenizer.from_pretrained(model_name)
         self.model = AutoModelForCausalLM.from_pretrained(
             model_name,
-            dtype=torch.float32,  # CPU-friendly
-            device_map=None       # CPU only
         )
-    async def generate(self, prompt: str, max_tokens=300):
         def _sync_generate():
-            inputs = self.tokenizer(prompt, return_tensors="pt")  # no .to(self.model.device) needed
-            outputs = self.model.generate(**inputs, max_new_tokens=max_tokens)
             text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
             return text

 import asyncio
 class HuggingFaceAdapter:
+    def __init__(self, model_name="EleutherAI/gpt-neo-125M"):
         self.model_name = model_name
         self.tokenizer = AutoTokenizer.from_pretrained(model_name)
         self.model = AutoModelForCausalLM.from_pretrained(
             model_name,
+            torch_dtype=torch.float32,  # CPU-friendly
+            device_map=None              # CPU only
         )
+    async def generate(self, prompt: str, max_tokens=300, temperature=0.7, top_p=0.9, repetition_penalty=1.2):
+        """
+        Generate text from prompt asynchronously.
+        Parameters:
+            prompt (str): Input text prompt.
+            max_tokens (int): Maximum number of new tokens.
+            temperature (float): Randomness, higher = more diverse.
+            top_p (float): Nucleus sampling.
+            repetition_penalty (float): >1 penalizes repeating tokens.
+        """
         def _sync_generate():
+            inputs = self.tokenizer(prompt, return_tensors="pt")
+            outputs = self.model.generate(
+                **inputs,
+                max_new_tokens=max_tokens,
+                temperature=temperature,
+                top_p=top_p,
+                repetition_penalty=repetition_penalty,
+                do_sample=True  # enables sampling for more varied output
+            )
             text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
             return text