ProHeadshots

Running on Zero

App Files Files Community

Beepeen24 commited on 20 days ago

Commit

dc51fb0

verified ·

1 Parent(s): f325bb3

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -28

app.py CHANGED Viewed

@@ -630,8 +630,41 @@ def generate_image(
         if seed < 0:
             seed = random.randint(0, MAX_SEED)
         # Configure scheduler
-        print("Step 4/8: Configuring scheduler...")
         scheduler_class_name = scheduler.split("-")[0]
         add_kwargs = {}
         if len(scheduler.split("-")) > 1:
@@ -642,7 +675,7 @@ def generate_image(
         pipe.scheduler = scheduler_cls.from_config(pipe.scheduler.config, **add_kwargs)
         print(f"  ✓ Scheduler: {scheduler_class_name}")
-        # Apply style
         if not prompt:
             prompt = "a person"
@@ -654,32 +687,22 @@ def generate_image(
             print("  ⚠ Warning: Prompt contains physical feature descriptions. These may override face identity.")
             print("  💡 Tip: Focus on style/setting only (e.g., 'professional headshot, studio lighting') for better identity preservation.")
         prompt, negative_prompt = apply_style(style_name, prompt, negative_prompt)
         print(f"  ✓ Style applied: {style_name}")
-        # Load and process face image
-        print("Step 2/8: Loading and processing face image...")
-        face_image = load_image(face_image_path)
-        face_image = resize_img(face_image, max_side=1024)
-        face_image_cv2 = convert_from_image_to_cv2(face_image)
-        height, width, _ = face_image_cv2.shape
-        print(f"  ✓ Image loaded: {width}x{height}")
-        # Detect face
-        print("Step 3/8: Detecting face...")
-        face_info = app.get(face_image_cv2)
-        if len(face_info) == 0:
-            raise gr.Error(
-                "Unable to detect a face in the image. Please upload a different photo with a clear face."
-            )
-        print(f"  ✓ Face detected")
-        # Use largest detected face
-        print("Step 4/8: Processing face features...")
-        face_info = sorted(
-            face_info,
-            key=lambda x: (x["bbox"][2] - x["bbox"][0]) * (x["bbox"][3] - x["bbox"][1]),
-        )[-1]
         # Extract face embedding and ensure it's a proper tensor
         face_emb_raw = face_info["embedding"]
@@ -694,11 +717,15 @@ def generate_image(
             # Fallback: try to convert
             face_emb = torch.tensor(face_emb_raw, device=device, dtype=dtype)
-        # Ensure it has the right shape (should be [512] for InstantID)
         if len(face_emb.shape) == 1:
             face_emb = face_emb.unsqueeze(0)  # Add batch dimension: [1, 512]
         print(f"  Face embedding final shape: {face_emb.shape}, dtype: {face_emb.dtype}, device: {face_emb.device}")
         face_kps = draw_kps(convert_from_cv2_to_image(face_image_cv2), face_info["kps"])
         print(f"  Face keypoints image size: {face_kps.size}")
@@ -872,6 +899,7 @@ def generate_image(
             print("  Starting pipeline inference NOW...")
             sys.stdout.flush()
             images = pipe(
                 prompt=prompt,
                 negative_prompt=negative_prompt,
@@ -886,6 +914,7 @@ def generate_image(
                 generator=generator,
                 callback=progress_callback,
                 callback_steps=1,  # Update every step
             ).images
             print(f"  ✓ Pipeline completed, generated {len(images)} image(s)")
@@ -1257,7 +1286,7 @@ with gr.Blocks() as demo:
     # Hidden advanced settings
     negative_prompt = gr.Textbox(
-        value="(lowres, low quality, worst quality:1.2), (text:1.2), watermark, (frame:1.2), deformed, ugly, deformed eyes, blur, out of focus, blurry, deformed cat, deformed, photo, anthropomorphic cat, monochrome, pet collar, gun, weapon, blue, 3d, drones, drone, buildings in background, green",
         visible=False,
     )
     num_steps = gr.Slider(

         if seed < 0:
             seed = random.randint(0, MAX_SEED)
+        # Load and process face image
+        print("Step 2/8: Loading and processing face image...")
+        face_image = load_image(face_image_path)
+        face_image = resize_img(face_image, max_side=1024)
+        face_image_cv2 = convert_from_image_to_cv2(face_image)
+        height, width, _ = face_image_cv2.shape
+        print(f"  ✓ Image loaded: {width}x{height}")
+        # Detect face
+        print("Step 3/8: Detecting face...")
+        face_info_list = app.get(face_image_cv2)
+        if len(face_info_list) == 0:
+            raise gr.Error(
+                "Unable to detect a face in the image. Please upload a different photo with a clear face."
+            )
+        print(f"  ✓ Face detected")
+        # Use largest detected face
+        print("Step 4/8: Processing face features...")
+        face_info = sorted(
+            face_info_list,
+            key=lambda x: (x["bbox"][2] - x["bbox"][0]) * (x["bbox"][3] - x["bbox"][1]),
+        )[-1]
+        # Detect gender from face info if available (for identity preservation)
+        detected_gender = None
+        if "gender" in face_info:
+            detected_gender = face_info["gender"]
+            print(f"  Detected gender: {'Female' if detected_gender == 0 else 'Male' if detected_gender == 1 else 'Unknown'}")
+        elif hasattr(face_info, "get") and face_info.get("gender") is not None:
+            detected_gender = face_info.get("gender")
+            print(f"  Detected gender: {'Female' if detected_gender == 0 else 'Male' if detected_gender == 1 else 'Unknown'}")
         # Configure scheduler
+        print("Step 5/8: Configuring scheduler...")
         scheduler_class_name = scheduler.split("-")[0]
         add_kwargs = {}
         if len(scheduler.split("-")) > 1:
         pipe.scheduler = scheduler_cls.from_config(pipe.scheduler.config, **add_kwargs)
         print(f"  ✓ Scheduler: {scheduler_class_name}")
+        # Apply style and process prompts
         if not prompt:
             prompt = "a person"
             print("  ⚠ Warning: Prompt contains physical feature descriptions. These may override face identity.")
             print("  💡 Tip: Focus on style/setting only (e.g., 'professional headshot, studio lighting') for better identity preservation.")
+        # Add gender preservation to negative prompt if gender was detected
+        gender_negative_terms = "wrong gender, gender swap, different person, different face, face swap, identity change, different identity"
+        if detected_gender is not None:
+            # Add opposite gender terms to negative prompt
+            if detected_gender == 0:  # Female
+                gender_negative_terms += ", man, male, masculine"
+            elif detected_gender == 1:  # Male
+                gender_negative_terms += ", woman, female, feminine"
+            print(f"  ✓ Gender preservation enabled in negative prompt")
+        # Add gender preservation terms to negative prompt
+        if gender_negative_terms not in negative_prompt:
+            negative_prompt = f"{negative_prompt}, {gender_negative_terms}" if negative_prompt else gender_negative_terms
         prompt, negative_prompt = apply_style(style_name, prompt, negative_prompt)
         print(f"  ✓ Style applied: {style_name}")
         # Extract face embedding and ensure it's a proper tensor
         face_emb_raw = face_info["embedding"]
             # Fallback: try to convert
             face_emb = torch.tensor(face_emb_raw, device=device, dtype=dtype)
+        # Normalize face embedding (L2 normalization for better identity preservation)
         if len(face_emb.shape) == 1:
             face_emb = face_emb.unsqueeze(0)  # Add batch dimension: [1, 512]
+        # L2 normalize the embedding to unit length (standard for face embeddings)
+        face_emb = torch.nn.functional.normalize(face_emb, p=2, dim=1)
         print(f"  Face embedding final shape: {face_emb.shape}, dtype: {face_emb.dtype}, device: {face_emb.device}")
+        print(f"  Face embedding norm: {torch.norm(face_emb, p=2, dim=1).item():.4f} (should be ~1.0)")
         face_kps = draw_kps(convert_from_cv2_to_image(face_image_cv2), face_info["kps"])
         print(f"  Face keypoints image size: {face_kps.size}")
             print("  Starting pipeline inference NOW...")
             sys.stdout.flush()
+            # Pass IP-Adapter scale explicitly to ensure it's used
             images = pipe(
                 prompt=prompt,
                 negative_prompt=negative_prompt,
                 generator=generator,
                 callback=progress_callback,
                 callback_steps=1,  # Update every step
+                ip_adapter_scale=adapter_strength_ratio,  # Explicitly pass IP-Adapter scale
             ).images
             print(f"  ✓ Pipeline completed, generated {len(images)} image(s)")
     # Hidden advanced settings
     negative_prompt = gr.Textbox(
+        value="(lowres, low quality, worst quality:1.2), (text:1.2), watermark, (frame:1.2), deformed, ugly, deformed eyes, blur, out of focus, blurry, deformed cat, deformed, photo, anthropomorphic cat, monochrome, pet collar, gun, weapon, blue, 3d, drones, drone, buildings in background, green, wrong gender, gender swap, different person, different face, face swap, identity change, different identity",
         visible=False,
     )
     num_steps = gr.Slider(