SojkaTest

Running

App Files Files Community

janmariakowalski commited on Jul 26, 2025

Commit

dde831c

verified ·

1 Parent(s): b6fbae1

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -2

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ from typing import Dict, Tuple, Any
 import torch
 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import numpy as np
 try:
     from peft import PeftModel
@@ -20,9 +21,11 @@ except ImportError:
 # --- Configuration ---
 # Model path is set to sojka
-MODEL_PATH = os.getenv("MODEL_PATH", "AndromedaPL/sojka")
 TOKENIZER_PATH = os.getenv("TOKENIZER_PATH", "sdadas/mmlw-roberta-base")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 LABELS = ["self-harm", "hate", "vulgar", "sex", "crime"]
 MAX_SEQ_LENGTH = 512
@@ -43,6 +46,34 @@ THRESHOLDS = {
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 def load_model_and_tokenizer(model_path: str, tokenizer_path: str, device: str) -> Tuple[AutoModelForSequenceClassification, AutoTokenizer]:
     """Load the trained model and tokenizer"""
     logger.info(f"Loading tokenizer from {tokenizer_path}")
@@ -136,12 +167,28 @@ def gradio_predict(text: str) -> Tuple[str, Dict[str, float]]:
         label: score for label, score in predictions.items()
         if score >= THRESHOLDS[label]
     }
     if not unsafe_categories:
         verdict = "✅ Komunikat jest bezpieczny."
     else:
         highest_unsafe_category = max(unsafe_categories, key=unsafe_categories.get)
         verdict = f"⚠️ Wykryto potencjalnie szkodliwe treści:\n {highest_unsafe_category.upper()}"
     return verdict, predictions

 import torch
 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import numpy as np
+from huggingface_hub import HfApi
 try:
     from peft import PeftModel
 # --- Configuration ---
 # Model path is set to sojka
+MODEL_PATH = os.getenv("MODEL_PATH", "speakleash/sojka3")
 TOKENIZER_PATH = os.getenv("TOKENIZER_PATH", "sdadas/mmlw-roberta-base")
+REPO_ID = "speakleash/sojka-logs"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 LABELS = ["self-harm", "hate", "vulgar", "sex", "crime"]
 MAX_SEQ_LENGTH = 512
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
+# HfApi instance
+if HF_TOKEN:
+    api = HfApi()
+else:
+    api = None
+    logger.warning("HF_TOKEN environment variable not set. Logging to Hugging Face Hub will be disabled.")
+def log_prediction(log_data: dict):
+    if not api:
+        return
+    day = datetime.now().strftime("%Y-%m-%d")
+    timestamp = log_data.get('timestamp', datetime.now().timestamp())
+    try:
+        api.upload_file(
+            path_or_fileobj=json.dumps(log_data, indent=2, ensure_ascii=False).encode('utf-8'),
+            path_in_repo=f"predictions/{day}/{timestamp}.json",
+            repo_id=REPO_ID,
+            repo_type="dataset",
+            commit_message="log prediction",
+            token=HF_TOKEN,
+            run_as_future=True
+        )
+    except Exception as e:
+        logger.error(f"Failed to log prediction to hub: {e}")
 def load_model_and_tokenizer(model_path: str, tokenizer_path: str, device: str) -> Tuple[AutoModelForSequenceClassification, AutoTokenizer]:
     """Load the trained model and tokenizer"""
     logger.info(f"Loading tokenizer from {tokenizer_path}")
         label: score for label, score in predictions.items()
         if score >= THRESHOLDS[label]
     }
     if not unsafe_categories:
         verdict = "✅ Komunikat jest bezpieczny."
+        verdict_label = "SAFE"
     else:
         highest_unsafe_category = max(unsafe_categories, key=unsafe_categories.get)
         verdict = f"⚠️ Wykryto potencjalnie szkodliwe treści:\n {highest_unsafe_category.upper()}"
+        verdict_label = "UNSAFE"
+    log_data = {
+        'text': text,
+        'predictions': predictions,
+        'thresholds': THRESHOLDS,
+        'sojka_verdict': verdict_label,
+        'herbert_result': {},
+        'timestamp': datetime.now().timestamp(),
+        'model_path': MODEL_PATH,
+        'herbert_enabled': false
+    }
+    log_prediction(log_data)
     return verdict, predictions