llama-cpp-agent

Paused

App Files Files Community

pabloce commited on May 20, 2024

Commit

246d0fd

verified ·

1 Parent(s): 3a779df

Update app.py

Browse files

Files changed (1) hide show

app.py +0 -65

app.py CHANGED Viewed

@@ -60,71 +60,6 @@ def respond(
     for output in stream:
         outputs += output
         yield outputs
-    # from llama_cpp import Llama
-    # from llama_cpp_agent import LlamaCppAgent
-    # from llama_cpp_agent import MessagesFormatterType
-    # from llama_cpp_agent.providers import LlamaCppPythonProvider
-    # llama_model = Llama(r"models/mistral-7b-instruct-v0.2.Q6_K.gguf", n_batch=1024, n_threads=0, n_gpu_layers=33, n_ctx=8192, verbose=False)
-    # provider = LlamaCppPythonProvider(llama_model)
-    # agent = LlamaCppAgent(
-    #   provider,
-    #   system_prompt=f"{system_message}",
-    #   predefined_messages_formatter_type=MessagesFormatterType.MISTRAL,
-    #   debug_output=True
-    # )
-    # settings = provider.get_provider_default_settings()
-    # settings.stream = True
-    # settings.max_tokens = max_tokens
-    # settings.temperature = temperature
-    # settings.top_p = top_p
-    # partial_message = ""
-    # for new_token in agent.get_chat_response(message, llm_sampling_settings=settings, returns_streaming_generator=True):
-    #     partial_message += new_token
-    #     if '<|im_end|>' in partial_message:
-    #         break
-    #     yield partial_message
-    # stop_tokens = ["</s>", "[INST]", "[INST] ", "<s>", "[/INST]", "[/INST] "]
-    # chat_template = '<s>[INST] ' + system_message
-    # # for human, assistant in history:
-    # #     chat_template += human + ' [/INST] ' + assistant + '</s>[INST]'
-    # chat_template += ' ' + message + ' [/INST]'
-    # print(chat_template)
-    # llm = LlamaCPP(
-    #     model_path="models/mistral-7b-instruct-v0.2.Q6_K.gguf",
-    #     temperature=temperature,
-    #     max_new_tokens=max_tokens,
-    #     context_window=2048,
-    #     generate_kwargs={
-    #         "top_k": 50,
-    #         "top_p": top_p,
-    #         "repeat_penalty": 1.3
-    #     },
-    #     model_kwargs={
-    #         "n_threads": 0,
-    #         "n_gpu_layers": 33
-    #     },
-    #     messages_to_prompt=messages_to_prompt,
-    #     completion_to_prompt=completion_to_prompt,
-    #     verbose=True,
-    # )
-    # # response = ""
-    # # for chunk in llm.stream_complete(message):
-    # #     print(chunk.delta, end="", flush=True)
-    # #     response += str(chunk.delta)
-    # #     yield response
-    # outputs = []
-    # for chunk in llm.stream_complete(message):
-    #     outputs.append(chunk.delta)
-    #     if chunk.delta in stop_tokens:
-    #         break
-    #     yield "".join(outputs)
 demo = gr.ChatInterface(
     respond,

     for output in stream:
         outputs += output
         yield outputs
 demo = gr.ChatInterface(
     respond,