Update app.py
Browse files
app.py
CHANGED
|
@@ -2,7 +2,6 @@ import streamlit as st
|
|
| 2 |
import pdfplumber
|
| 3 |
import docx
|
| 4 |
from transformers import AutoTokenizer, AutoModelForCausalLM
|
| 5 |
-
import string
|
| 6 |
|
| 7 |
st.title("JAI")
|
| 8 |
|
|
@@ -18,12 +17,6 @@ if st.checkbox("Korábbi Beszélgetések Törlése"):
|
|
| 18 |
tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
|
| 19 |
model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
|
| 20 |
|
| 21 |
-
# Karaktertisztító függvény
|
| 22 |
-
def clean_text(text):
|
| 23 |
-
cleaned_text = ''.join(filter(lambda x: x in string.printable, text))
|
| 24 |
-
return cleaned_text
|
| 25 |
-
|
| 26 |
-
|
| 27 |
# Dokumentumfeldolgozó függvény
|
| 28 |
def process_document(document_file):
|
| 29 |
document_text = ""
|
|
@@ -52,7 +45,7 @@ def process_document(document_file):
|
|
| 52 |
# Válaszgeneráló függvény
|
| 53 |
def generate_response(input_text):
|
| 54 |
# Bemeneti szöveg tisztítása
|
| 55 |
-
cleaned_input =
|
| 56 |
|
| 57 |
# Tokenizálás
|
| 58 |
inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
|
|
@@ -60,8 +53,9 @@ def generate_response(input_text):
|
|
| 60 |
# Modell használata a válasz generálásához
|
| 61 |
outputs = model(**inputs)
|
| 62 |
|
| 63 |
-
# Válasz
|
| 64 |
response = tokenizer.decode(outputs.logits.argmax(dim=1)[0])
|
|
|
|
| 65 |
return response
|
| 66 |
|
| 67 |
# Dokumentum feltöltése drag and drop segítségével
|
|
|
|
| 2 |
import pdfplumber
|
| 3 |
import docx
|
| 4 |
from transformers import AutoTokenizer, AutoModelForCausalLM
|
|
|
|
| 5 |
|
| 6 |
st.title("JAI")
|
| 7 |
|
|
|
|
| 17 |
tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
|
| 18 |
model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
|
| 19 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 20 |
# Dokumentumfeldolgozó függvény
|
| 21 |
def process_document(document_file):
|
| 22 |
document_text = ""
|
|
|
|
| 45 |
# Válaszgeneráló függvény
|
| 46 |
def generate_response(input_text):
|
| 47 |
# Bemeneti szöveg tisztítása
|
| 48 |
+
cleaned_input = input_text.strip()
|
| 49 |
|
| 50 |
# Tokenizálás
|
| 51 |
inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
|
|
|
|
| 53 |
# Modell használata a válasz generálásához
|
| 54 |
outputs = model(**inputs)
|
| 55 |
|
| 56 |
+
# Válasz dekódolása és megjelenítése
|
| 57 |
response = tokenizer.decode(outputs.logits.argmax(dim=1)[0])
|
| 58 |
+
response = response.decode('utf-8', errors='replace')
|
| 59 |
return response
|
| 60 |
|
| 61 |
# Dokumentum feltöltése drag and drop segítségével
|