Spaces:

ranggafermata
/

Bangorinas

Sleeping

App Files Files Community

Bangorinas / backend /app.py

ranggafermata

Update backend/app.py

eafb42b verified 4 months ago

raw

history blame contribute delete

1.82 kB

	from flask import Flask, request, jsonify
	from flask_cors import CORS
	from PIL import Image
	import torch
	from transformers import AutoProcessor, BlipForConditionalGeneration

	app = Flask(__name__)
	CORS(app, resources={r"/": {"origins": ""}})
	device = "cuda" if torch.cuda.is_available() else "cpu"
	vision_processor, vision_model = None, None

	try:
	vision_processor = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
	vision_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to(device)
	print("--- VISION SERVICE --- BLIP Vision model loaded successfully.")
	except Exception as e:
	print(f"--- VISION SERVICE --- CRITICAL ERROR loading Vision model: {e}")

	@app.route("/describe_image", methods=["POST"])
	def describe_image():
	if not vision_model:
	return jsonify({"error": "Vision model not available."}), 500

	user_prompt = request.form.get("prompt", "")
	image_file = request.files.get("image")
	if not image_file:
	return jsonify({"error": "No image file found."}), 400

	try:
	image_obj = Image.open(image_file.stream).convert("RGB")
	inputs = (vision_processor(images=image_obj, text=user_prompt, return_tensors="pt").to(device) if user_prompt else vision_processor(images=image_obj, return_tensors="pt").to(device))
	output = vision_model.generate(**inputs, max_new_tokens=50)
	caption = vision_processor.decode(output[0], skip_special_tokens=True).strip()
	return jsonify({"content": caption})
	except Exception as e:
	print(f"Error processing image: {e}")
	return jsonify({"error": "Sorry, I had trouble processing that image."}), 500

	if __name__ == "__main__":
	app.run(host="0.0.0.0", port=8081) # Use a different port for local testing