{ "summary": { "total": 10957, "correct": 9307, "incorrect": 1650, "accuracy": 84.94, "error_categories": { "medium_hard": 370, "near_miss": 1148, "complete_miss": 132 }, "confidence_analysis": { "mean_confidence_on_errors": 0.5099, "high_confidence_errors": 838, "low_confidence_errors": 812 }, "gate_analysis": { "mean_gate_on_wrong_top1": 0.8305, "high_gate_wrong": 1650, "low_gate_wrong": 0 } }, "errors": [ { "question_id": "10100711", "image_id": 412019, "question": "những con ruồi ở phía trước một máy bay động cơ sinh đôi", "ground_truth": "con chim", "ground_truth_normalized": "con chim", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "bầu trời", "hải âu", "con chim", "diều", "núi", "ga-ra", "lá cờ", "chín" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.190114, "confidences": [ 0.190114, 0.109601, 0.068319, 0.064683, 0.037656, 0.02329, 0.021624, 0.016808, 0.01414, 0.013745 ], "gate_score_top1": 0.70166, "gate_scores": [ 0.70166, 0.717773, 0.633789, 0.682129, 0.620117, 0.669434, 0.56543, 0.580078, 0.53125, 0.577637 ] }, { "question_id": "10106781", "image_id": 304698, "question": "có bao nhiêu chiếc vali đã mở trên sàn nhà", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "hai", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.398474, "confidences": [ 0.398474, 0.36566, 0.129872, 0.052268, 0.01871, 0.013011, 0.00367, 0.002562, 0.00169, 0.001465 ], "gate_score_top1": 0.836426, "gate_scores": [ 0.836426, 0.827148, 0.752441, 0.761719, 0.733887, 0.722656, 0.609375, 0.588379, 0.593262, 0.52832 ] }, { "question_id": "10067071", "image_id": 440062, "question": "người phụ nữ cưỡi trượt xuống một bên tuyết bao phủ là gì", "ground_truth": "núi", "ground_truth_normalized": "núi", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "núi", "đồi", "trượt tuyết", "cây", "mũ", "cây sào", "áo sơ mi", "trang thiết bị", "bầu trời" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.323734, "confidences": [ 0.323734, 0.293614, 0.089198, 0.041078, 0.022641, 0.0097, 0.007322, 0.007237, 0.006436, 0.006011 ], "gate_score_top1": 0.814453, "gate_scores": [ 0.814453, 0.76416, 0.775391, 0.703125, 0.636719, 0.65918, 0.648926, 0.564453, 0.572266, 0.591309 ] }, { "question_id": "10097021", "image_id": 428975, "question": "chủ đề đầu lâu với cuốn sách ma cà rồng và đồng hồ là gì", "ground_truth": "đèn để bàn", "ground_truth_normalized": "đèn để bàn", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cái kệ", "đồng hồ", "phòng ngủ", "cây", "cửa", "đèn để bàn", "tường", "cửa sổ", "bức tượng" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.069915, "confidences": [ 0.069915, 0.059452, 0.041585, 0.040227, 0.035155, 0.03348, 0.023741, 0.023011, 0.022876, 0.019076 ], "gate_score_top1": 0.673828, "gate_scores": [ 0.673828, 0.655273, 0.703125, 0.663086, 0.598145, 0.634277, 0.456543, 0.599609, 0.646973, 0.553223 ] }, { "question_id": "10040811", "image_id": 491958, "question": "cừu nằm ở đâu trên giường rơm", "ground_truth": "rào chắn", "ground_truth_normalized": "rào chắn", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "lồng", "chuồng trại", "vườn bách thú", "rào chắn", "tòa nhà", "cửa tiệm", "kho", "hộp", "bảo tàng" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.817139, "confidences": [ 0.817139, 0.059891, 0.046826, 0.011122, 0.007764, 0.00428, 0.002363, 0.001722, 0.001491, 0.001482 ], "gate_score_top1": 0.85498, "gate_scores": [ 0.85498, 0.827148, 0.788086, 0.760254, 0.655762, 0.677246, 0.65625, 0.65625, 0.558105, 0.639648 ] }, { "question_id": "10067731", "image_id": 513260, "question": "những gì đang ngồi trên đỉnh đường ray tàu", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "đường sắt", "hàng hoá", "xe tải", "phương tiện giao thông", "xe điện ngầm", "xe đẩy", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.601199, "confidences": [ 0.601199, 0.23914, 0.073506, 0.009309, 0.006972, 0.004672, 0.003094, 0.00307, 0.002935, 0.002784 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.80957, 0.751953, 0.597168, 0.593262, 0.62793, 0.62207, 0.609863, 0.646973, 0.595703 ] }, { "question_id": "10091751", "image_id": 381368, "question": "thứ gì đang nấp sau đám cỏ trong khi thứ trông giống như một con sếu trắng đang cưỡi những con bò ", "ground_truth": "bò đực", "ground_truth_normalized": "bò đực", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "bò đực", "con bò", "bãi cỏ", "gia súc", "con voi", "đồi", "con ngựa", "con vịt", "ngựa vằn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.177029, "confidences": [ 0.177029, 0.121196, 0.084114, 0.077793, 0.03718, 0.036819, 0.026571, 0.023958, 0.020136, 0.012576 ], "gate_score_top1": 0.725098, "gate_scores": [ 0.725098, 0.721191, 0.666992, 0.694336, 0.598633, 0.601562, 0.538086, 0.726562, 0.653809, 0.57373 ] }, { "question_id": "10096971", "image_id": 397980, "question": "đứa trẻ nhỏ này bị đánh là gì", "ground_truth": "quả bóng", "ground_truth_normalized": "quả bóng", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "quả bóng", "lồng", "găng tay", "áo sơ mi", "mũ", "sân vận động", "dĩa nhựa", "mũ lưỡi trai", "nón" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.615855, "confidences": [ 0.615855, 0.196072, 0.029258, 0.022389, 0.011592, 0.009297, 0.008819, 0.004174, 0.002076, 0.002042 ], "gate_score_top1": 0.846191, "gate_scores": [ 0.846191, 0.810059, 0.69873, 0.783203, 0.651855, 0.640625, 0.69873, 0.59668, 0.530762, 0.602539 ] }, { "question_id": "10112351", "image_id": 13605, "question": "bánh sinh nhật bao nhiêu tuổi với ngựa trên đỉnh", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "ba", "bảy", "tám", "hai", "bánh", "một", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.533684, "confidences": [ 0.533684, 0.257067, 0.086107, 0.025058, 0.024005, 0.006336, 0.006274, 0.003582, 0.003192, 0.002725 ], "gate_score_top1": 0.827148, "gate_scores": [ 0.827148, 0.775391, 0.762695, 0.71875, 0.657227, 0.574219, 0.597656, 0.662109, 0.543945, 0.54834 ] }, { "question_id": "10052711", "image_id": 560256, "question": "những gì được hiển thị ở quầy trái cây bao gồm chuối, cam, táo và anh đào", "ground_truth": "rau", "ground_truth_normalized": "rau", "predicted_top1": "hoa quả", "predicted_topk": [ "hoa quả", "cửa hàng", "rau", "cà rốt", "hộp", "cửa tiệm", "thùng chứa", "táo", "cái mâm", "cái rổ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.403236, "confidences": [ 0.403236, 0.258323, 0.083213, 0.026805, 0.020352, 0.011895, 0.010174, 0.009245, 0.009191, 0.008096 ], "gate_score_top1": 0.844727, "gate_scores": [ 0.844727, 0.793457, 0.776855, 0.723633, 0.741699, 0.727051, 0.700195, 0.675293, 0.736816, 0.727051 ] }, { "question_id": "10070671", "image_id": 421955, "question": "bốn người đàn ông sử dụng gì", "ground_truth": "dao", "ground_truth_normalized": "dao", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "dao", "nến", "cupcake", "cái mâm", "dĩa", "sô cô la", "món tráng miệng", "đĩa ăn", "donut" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.900132, "confidences": [ 0.900132, 0.024653, 0.00295, 0.002629, 0.00246, 0.002028, 0.001961, 0.001793, 0.001712, 0.001684 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.702637, 0.614258, 0.638672, 0.553711, 0.529297, 0.522461, 0.496582, 0.625488, 0.572266 ] }, { "question_id": "10084081", "image_id": 535322, "question": "những gì chủ yếu là bãi đậu xe bê tông trống với các mặt phẳng khác ở xa", "ground_truth": "sân bay", "ground_truth_normalized": "sân bay", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "bầu trời", "ga-ra", "bảo tàng", "kho", "núi", "sân vận động", "bến tàu", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.866664, "confidences": [ 0.866664, 0.094614, 0.003807, 0.003577, 0.001283, 0.000837, 0.000688, 0.00063, 0.000551, 0.000548 ], "gate_score_top1": 0.85498, "gate_scores": [ 0.85498, 0.786621, 0.542969, 0.585449, 0.58252, 0.534668, 0.498535, 0.498535, 0.41333, 0.484375 ] }, { "question_id": "10053251", "image_id": 575970, "question": "những gì đứng ở trung tâm của một nhà bếp", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quầy tính tiền", "nhà ở", "phòng", "quán ăn", "bếp", "cái ghế", "tủ đá", "bát", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.344208, "confidences": [ 0.344208, 0.084682, 0.074295, 0.060875, 0.020271, 0.014687, 0.012611, 0.010714, 0.010384, 0.010104 ], "gate_score_top1": 0.767578, "gate_scores": [ 0.767578, 0.686035, 0.696777, 0.720703, 0.64209, 0.600098, 0.608398, 0.631348, 0.643555, 0.558594 ] }, { "question_id": "10116141", "image_id": 62743, "question": "có bao nhiêu người đang thưởng thức bữa ăn cùng nhau tại một nhà hàng", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "tám", "chín", "ba", "mười", "đĩa ăn", "một" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.356585, "confidences": [ 0.356585, 0.306197, 0.261904, 0.042092, 0.005341, 0.003134, 0.002384, 0.001279, 0.000468, 0.000435 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.82959, 0.827148, 0.754883, 0.658203, 0.630859, 0.572266, 0.517578, 0.596191, 0.451172 ] }, { "question_id": "10087171", "image_id": 579060, "question": "người chơi tennis sử dụng cái gì để đánh bóng", "ground_truth": "vợt", "ground_truth_normalized": "vợt", "predicted_top1": "quả bóng", "predicted_topk": [ "quả bóng", "vợt", "áo sơ mi", "nón", "dĩa nhựa", "gậy", "ván trượt", "quần short", "sân vận động", "mặt trời" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.703422, "confidences": [ 0.703422, 0.181361, 0.014685, 0.014178, 0.009593, 0.004022, 0.003328, 0.00296, 0.002852, 0.002706 ], "gate_score_top1": 0.857422, "gate_scores": [ 0.857422, 0.812012, 0.711426, 0.662598, 0.742188, 0.623047, 0.693848, 0.493408, 0.620605, 0.544434 ] }, { "question_id": "10059751", "image_id": 553912, "question": "người đàn ông mặc những gì đi bộ trên một con đường tại một cuộc đi bộ chéo", "ground_truth": "áo khoác", "ground_truth_normalized": "áo khoác", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "đường", "xe tay ga", "xe máy", "đường phố", "ván trượt", "mũ", "chim bồ câu", "xe lăn", "áo khoác" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.557676, "confidences": [ 0.557676, 0.039694, 0.032524, 0.031217, 0.029729, 0.01684, 0.012249, 0.011574, 0.009861, 0.009192 ], "gate_score_top1": 0.843262, "gate_scores": [ 0.843262, 0.723633, 0.757812, 0.646973, 0.681152, 0.69043, 0.586914, 0.604492, 0.766602, 0.514648 ] }, { "question_id": "10041651", "image_id": 540057, "question": "người phụ nữ đang ở đâu", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "phòng bếp", "phòng", "quán ăn", "con chó", "cửa sổ", "nhà ở", "quán bar", "văn phòng", "nón" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.248941, "confidences": [ 0.248941, 0.156393, 0.049694, 0.035723, 0.031098, 0.018497, 0.018246, 0.016355, 0.011263, 0.010467 ], "gate_score_top1": 0.752441, "gate_scores": [ 0.752441, 0.789551, 0.653809, 0.6875, 0.654297, 0.569824, 0.626465, 0.513672, 0.556152, 0.48877 ] }, { "question_id": "10109131", "image_id": 79021, "question": "có bao nhiêu con chó nhỏ là các giống và màu sắc khác nhau", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.821142, "confidences": [ 0.821142, 0.087911, 0.040092, 0.035105, 0.009087, 0.001449, 0.000563, 0.00045, 0.000375, 0.000221 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.843262, 0.839844, 0.787109, 0.717285, 0.524902, 0.537109, 0.519531, 0.455078, 0.457275 ] }, { "question_id": "10108851", "image_id": 552031, "question": "có bao nhiêu con ngựa vằn đang nhìn xuống một ngọn đồi nhỏ ở máy ảnh", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.540519, "confidences": [ 0.540519, 0.392374, 0.047046, 0.012662, 0.000568, 0.000501, 0.000236, 0.000235, 0.00017, 0.000134 ], "gate_score_top1": 0.870605, "gate_scores": [ 0.870605, 0.884766, 0.807617, 0.776367, 0.583984, 0.435547, 0.453857, 0.458984, 0.424805, 0.372314 ] }, { "question_id": "10040231", "image_id": 175798, "question": "hai người đàn ông và hai người phụ nữ đang uống ở đâu", "ground_truth": "quán bar", "ground_truth_normalized": "quán bar", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "quán bar", "quán ăn", "nhà ở", "gian hàng", "áo vest", "ô cửa", "phòng bếp", "hành lang", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.357641, "confidences": [ 0.357641, 0.118399, 0.066416, 0.039736, 0.032432, 0.029645, 0.02094, 0.019864, 0.017024, 0.014618 ], "gate_score_top1": 0.772461, "gate_scores": [ 0.772461, 0.686035, 0.741211, 0.715332, 0.640137, 0.614258, 0.672363, 0.686523, 0.626465, 0.706543 ] }, { "question_id": "10079241", "image_id": 399741, "question": "cô gái trẻ giữ được gì", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "đồ chơi", "màu trắng", "gấu trúc", "giường", "màu nâu", "cái ghế", "cây", "cái kệ", "chuột" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.667126, "confidences": [ 0.667126, 0.243512, 0.004985, 0.004937, 0.004557, 0.003083, 0.002502, 0.00208, 0.00203, 0.001968 ], "gate_score_top1": 0.857422, "gate_scores": [ 0.857422, 0.784668, 0.643555, 0.616211, 0.663574, 0.657715, 0.559082, 0.512207, 0.486084, 0.556152 ] }, { "question_id": "10117581", "image_id": 581218, "question": "có bao nhiêu máy bay chiến đấu màu bạc đang bay qua bầu trời", "ground_truth": "chín", "ground_truth_normalized": "chín", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bốn", "bảy", "chín", "năm", "tám", "ba", "mười", "máy bay", "sân vận động" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.299378, "confidences": [ 0.299378, 0.27688, 0.21903, 0.112747, 0.036461, 0.010611, 0.002918, 0.002053, 0.001822, 0.001568 ], "gate_score_top1": 0.828613, "gate_scores": [ 0.828613, 0.803711, 0.823242, 0.797363, 0.747559, 0.662109, 0.549316, 0.535645, 0.58252, 0.554199 ] }, { "question_id": "10098201", "image_id": 511153, "question": "những gì đang kéo xe lửa trên đường ray", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "đường sắt", "hàng hoá", "các tòa nhà", "xe điện ngầm", "xe điện", "trạm", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.71819, "confidences": [ 0.71819, 0.213128, 0.021268, 0.004075, 0.002535, 0.00222, 0.001822, 0.001637, 0.001464, 0.000953 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.813965, 0.748047, 0.54834, 0.549316, 0.637207, 0.59668, 0.592773, 0.556641, 0.626465 ] }, { "question_id": "10022381", "image_id": 200548, "question": "màu sắc của đồ đạc là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu trắng", "màu đen", "màu đỏ", "màu xám", "màu cam", "màu vàng", "màu xanh lá", "phòng tắm", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.618961, "confidences": [ 0.618961, 0.355439, 0.008392, 0.004187, 0.003471, 0.001659, 0.000866, 0.000815, 0.000304, 0.000292 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.905273, 0.782227, 0.746094, 0.79834, 0.70166, 0.714355, 0.626465, 0.62207, 0.689941 ] }, { "question_id": "10055341", "image_id": 538976, "question": "những gì được đăng trên đường sắt mỏng", "ground_truth": "chim ưng", "ground_truth_normalized": "chim ưng", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "cửa sổ", "con vẹt", "cây", "cửa", "chai", "hải âu", "chim ưng", "bức tượng", "bức ảnh" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.249216, "confidences": [ 0.249216, 0.073381, 0.058163, 0.037043, 0.01721, 0.013654, 0.013208, 0.010686, 0.010337, 0.008058 ], "gate_score_top1": 0.668945, "gate_scores": [ 0.668945, 0.647461, 0.740723, 0.647949, 0.595703, 0.64502, 0.517578, 0.332275, 0.436279, 0.41626 ] }, { "question_id": "10041421", "image_id": 437774, "question": "gấu nhồi bông nằm ở đâu", "ground_truth": "rào chắn", "ground_truth_normalized": "rào chắn", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "lồng", "cái rổ", "vườn bách thú", "rào chắn", "sân", "chuồng trại", "cái ghế", "hộp", "gấu trúc" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.262474, "confidences": [ 0.262474, 0.227153, 0.074907, 0.053429, 0.040647, 0.022186, 0.019541, 0.009579, 0.008859, 0.006988 ], "gate_score_top1": 0.821289, "gate_scores": [ 0.821289, 0.836914, 0.814941, 0.802246, 0.64502, 0.638184, 0.688965, 0.593262, 0.532227, 0.67041 ] }, { "question_id": "10118901", "image_id": 423231, "question": "có bao nhiêu máy bay phản lực bay trong không trung", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "bốn", "chín", "năm", "tám", "máy bay", "mười", "ba", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.420245, "confidences": [ 0.420245, 0.292235, 0.135902, 0.063696, 0.030088, 0.010961, 0.002734, 0.00162, 0.001331, 0.001201 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.832031, 0.771973, 0.766113, 0.728516, 0.654297, 0.619141, 0.500977, 0.522461, 0.529785 ] }, { "question_id": "10053781", "image_id": 497791, "question": "những người đang nhìn về một ngọn đồi là gì", "ground_truth": "đoạn phim giới thiệu", "ground_truth_normalized": "đoạn phim giới thiệu", "predicted_top1": "xe buýt", "predicted_topk": [ "xe buýt", "phương tiện giao thông", "đường", "xe tải", "xe cộ", "xe đẩy", "xe ô tô", "đường đi bộ", "cây", "áo vest" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.161048, "confidences": [ 0.161048, 0.108122, 0.099219, 0.091404, 0.08654, 0.040799, 0.028041, 0.011666, 0.010376, 0.010195 ], "gate_score_top1": 0.764648, "gate_scores": [ 0.764648, 0.736816, 0.737793, 0.744141, 0.756348, 0.720703, 0.700684, 0.519043, 0.546387, 0.494385 ] }, { "question_id": "10020291", "image_id": 331074, "question": "màu của vòi nước là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu xanh lá", "màu vàng", "màu nâu", "màu tía", "màu cam", "màu xám", "màu đỏ", "màu đen", "màu trắng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.691793, "confidences": [ 0.691793, 0.092172, 0.090037, 0.020647, 0.01917, 0.018873, 0.017591, 0.01088, 0.00764, 0.001007 ], "gate_score_top1": 0.854492, "gate_scores": [ 0.854492, 0.750488, 0.819336, 0.713867, 0.717773, 0.769043, 0.697754, 0.739258, 0.674805, 0.628906 ] }, { "question_id": "10057791", "image_id": 507274, "question": "những gì được treo trên một bên của một bồn tắm", "ground_truth": "khăn", "ground_truth_normalized": "khăn", "predicted_top1": "bồn tắm", "predicted_topk": [ "bồn tắm", "khăn", "quầy tính tiền", "chậu", "bàn chải", "tường", "sân khấu", "vòi hoa sen", "phòng tắm", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.345319, "confidences": [ 0.345319, 0.133132, 0.046734, 0.034058, 0.028015, 0.022467, 0.022162, 0.021355, 0.020377, 0.009578 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.678711, 0.577637, 0.648926, 0.657715, 0.540527, 0.566895, 0.591309, 0.566895, 0.591797 ] }, { "question_id": "10026761", "image_id": 525450, "question": "hai đứa trẻ đang ở đâu", "ground_truth": "sân", "ground_truth_normalized": "sân", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "sân", "xe lăn", "cái rổ", "sân vườn", "đường phố", "phòng", "băng ghế", "xe đẩy", "cái nồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.841036, "confidences": [ 0.841036, 0.055689, 0.010987, 0.006903, 0.006809, 0.00511, 0.003637, 0.002822, 0.00233, 0.002219 ], "gate_score_top1": 0.841309, "gate_scores": [ 0.841309, 0.773926, 0.685547, 0.720215, 0.728516, 0.729004, 0.595215, 0.69873, 0.695801, 0.583984 ] }, { "question_id": "10068141", "image_id": 487159, "question": "những gì tươi và được nấu trên bàn bừa bộn", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "quán ăn", "chén đĩa", "dĩa", "thịt", "bát", "rau", "đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.237914, "confidences": [ 0.237914, 0.213264, 0.068163, 0.0552, 0.053922, 0.052673, 0.031147, 0.028638, 0.02738, 0.015479 ], "gate_score_top1": 0.805176, "gate_scores": [ 0.805176, 0.775391, 0.789551, 0.766113, 0.720703, 0.708496, 0.69043, 0.700684, 0.703125, 0.583984 ] }, { "question_id": "10106841", "image_id": 71376, "question": "bao nhiêu vận động viên lướt ván trong bộ đồ bơi cố gắng đi cùng một con sóng", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.552321, "confidences": [ 0.552321, 0.23848, 0.130676, 0.030557, 0.016941, 0.004825, 0.003177, 0.002004, 0.001507, 0.000508 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.814453, 0.794434, 0.683594, 0.711914, 0.586914, 0.660156, 0.510742, 0.544922, 0.494873 ] }, { "question_id": "10060791", "image_id": 539937, "question": "người đàn ông mặc những gì đang bay một con diều", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "diều", "predicted_topk": [ "diều", "áo sơ mi", "dĩa nhựa", "máy bay", "bờ biển", "lá cờ", "chiếc ô", "cây", "mũ", "nón" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.960222, "confidences": [ 0.960222, 0.006054, 0.00349, 0.002788, 0.002171, 0.001444, 0.001026, 0.000826, 0.000571, 0.000566 ], "gate_score_top1": 0.911133, "gate_scores": [ 0.911133, 0.625977, 0.710938, 0.606445, 0.599609, 0.596191, 0.666016, 0.570312, 0.598633, 0.612305 ] }, { "question_id": "10115091", "image_id": 423231, "question": "có bao nhiêu máy bay trong đội hình bay tốc độ trên bầu trời", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "bốn", "chín", "năm", "tám", "máy bay", "mười", "ba", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.429833, "confidences": [ 0.429833, 0.281892, 0.141191, 0.068543, 0.027802, 0.010268, 0.002082, 0.001523, 0.001169, 0.0011 ], "gate_score_top1": 0.846191, "gate_scores": [ 0.846191, 0.834473, 0.774902, 0.774902, 0.72998, 0.664062, 0.618164, 0.505859, 0.524902, 0.532715 ] }, { "question_id": "10068891", "image_id": 434618, "question": "ba người trượt tuyết lấy những gì nâng núi lên", "ground_truth": "bầu trời", "ground_truth_normalized": "bầu trời", "predicted_top1": "núi", "predicted_topk": [ "núi", "bầu trời", "trượt tuyết", "đồi", "ván trượt", "mũ", "bức ảnh", "ba", "cây", "tàu hỏa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.571923, "confidences": [ 0.571923, 0.06028, 0.020034, 0.015572, 0.013011, 0.009956, 0.007664, 0.006128, 0.006104, 0.005712 ], "gate_score_top1": 0.761719, "gate_scores": [ 0.761719, 0.598145, 0.626465, 0.571777, 0.569336, 0.537109, 0.461426, 0.516602, 0.52002, 0.626953 ] }, { "question_id": "10111171", "image_id": 369256, "question": "có bao nhiêu đoàn tàu đang trên đường ray đối diện với camera trong khi một đoàn tàu khác quay mặt đi", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "năm", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.63518, "confidences": [ 0.63518, 0.20783, 0.136298, 0.011634, 0.001937, 0.001025, 0.000555, 0.000403, 0.000238, 0.000216 ], "gate_score_top1": 0.887695, "gate_scores": [ 0.887695, 0.879395, 0.845215, 0.766602, 0.67334, 0.498535, 0.504395, 0.508789, 0.462891, 0.440186 ] }, { "question_id": "10014621", "image_id": 114204, "question": "màu của xe buýt là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu đen", "màu xanh lá", "màu xám", "màu trắng", "màu vàng", "màu nâu", "màu xanh dương", "màu tía", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.988017, "confidences": [ 0.988017, 0.005412, 0.001203, 0.00071, 0.000693, 0.000577, 0.000206, 0.000154, 0.000151, 0.00012 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.775879, 0.692871, 0.687012, 0.71875, 0.683105, 0.603516, 0.527832, 0.648926, 0.704102 ] }, { "question_id": "10103551", "image_id": 85252, "question": "có bao nhiêu người lái máy trên mặt nước trong khi một người khác bị treo ở phía sau", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "mười", "bảy", "năm", "con thuyền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.807813, "confidences": [ 0.807813, 0.107631, 0.073973, 0.002038, 0.000421, 0.000276, 0.0002, 0.000197, 0.000181, 0.000118 ], "gate_score_top1": 0.878906, "gate_scores": [ 0.878906, 0.833496, 0.82959, 0.681641, 0.457764, 0.44751, 0.409668, 0.424316, 0.5, 0.523438 ] }, { "question_id": "10054401", "image_id": 414068, "question": "tàu đang được chạy trên đường tàu là gì", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "động cơ", "predicted_topk": [ "động cơ", "đường sắt", "cây", "xe ô tô", "hàng hoá", "đồi", "màu cam", "màu đỏ", "màu xanh lá", "tàu hỏa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.239984, "confidences": [ 0.239984, 0.134619, 0.073909, 0.041459, 0.027296, 0.023302, 0.01829, 0.018077, 0.017317, 0.013914 ], "gate_score_top1": 0.657227, "gate_scores": [ 0.657227, 0.6875, 0.587891, 0.68457, 0.512207, 0.489746, 0.654785, 0.544434, 0.60498, 0.654785 ] }, { "question_id": "10101801", "image_id": 560119, "question": "những gì mô tả những gì thành phố trông như trong thời gian này", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "các tòa nhà", "bức ảnh", "cửa sổ", "xe ô tô", "đồng hồ", "đường phố", "lá cờ", "cây", "vòi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.206511, "confidences": [ 0.206511, 0.182959, 0.074648, 0.048574, 0.03783, 0.027248, 0.027194, 0.025299, 0.018401, 0.017455 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.77002, 0.677734, 0.709961, 0.708008, 0.674805, 0.640625, 0.692871, 0.727051, 0.63916 ] }, { "question_id": "10097161", "image_id": 461802, "question": "người đàn ông mặc gì và đứng cạnh tàu", "ground_truth": "bộ đồ", "ground_truth_normalized": "bộ đồ", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe điện ngầm", "bộ đồ", "xe điện", "tàu hỏa", "áo vest", "xe ô tô", "xe buýt", "đường sắt", "cửa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.458508, "confidences": [ 0.458508, 0.199526, 0.026741, 0.014883, 0.014854, 0.012435, 0.00901, 0.007912, 0.007851, 0.007051 ], "gate_score_top1": 0.776855, "gate_scores": [ 0.776855, 0.736816, 0.510254, 0.632812, 0.640625, 0.63623, 0.550781, 0.577148, 0.594238, 0.546387 ] }, { "question_id": "10084221", "image_id": 370444, "question": "bồn tiểu gì với hệ thống xả trong phòng tắm", "ground_truth": "sàn nhà", "ground_truth_normalized": "sàn nhà", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "bồn tiểu", "bồn tắm", "tường", "cửa", "khăn", "phòng", "chậu", "nhà ở" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.188467, "confidences": [ 0.188467, 0.107805, 0.087304, 0.080743, 0.045648, 0.036181, 0.026626, 0.019981, 0.016958, 0.01676 ], "gate_score_top1": 0.722656, "gate_scores": [ 0.722656, 0.718262, 0.648926, 0.785645, 0.647461, 0.63916, 0.66748, 0.716797, 0.632812, 0.705566 ] }, { "question_id": "10091021", "image_id": 341118, "question": "có gì trong phòng", "ground_truth": "gấu", "ground_truth_normalized": "gấu", "predicted_top1": "gấu trúc", "predicted_topk": [ "gấu trúc", "gấu", "đồ chơi", "cây", "vườn bách thú", "móng vuốt", "con cừu", "giường", "con chó", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.77706, "confidences": [ 0.77706, 0.198787, 0.00217, 0.000609, 0.000462, 0.000441, 0.000421, 0.000388, 0.000355, 0.00032 ], "gate_score_top1": 0.84082, "gate_scores": [ 0.84082, 0.835938, 0.677246, 0.550781, 0.60791, 0.494873, 0.540527, 0.570312, 0.58252, 0.469482 ] }, { "question_id": "10044401", "image_id": 179876, "question": "hai con ngựa vằn đã chết đứng ở đâu", "ground_truth": "bảo tàng", "ground_truth_normalized": "bảo tàng", "predicted_top1": "đường", "predicted_topk": [ "đường", "vườn bách thú", "chuồng", "bãi cỏ", "bảo tàng", "đồi", "áo vest", "đường phố", "gương", "ngựa rằn" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.124433, "confidences": [ 0.124433, 0.117581, 0.060526, 0.057529, 0.036212, 0.025083, 0.024937, 0.024264, 0.023289, 0.017545 ], "gate_score_top1": 0.738281, "gate_scores": [ 0.738281, 0.741211, 0.704102, 0.617188, 0.625977, 0.553711, 0.559082, 0.682617, 0.64502, 0.484131 ] }, { "question_id": "10075481", "image_id": 539808, "question": "những gì đỗ trên một phi đạo ở phía trước của một tòa nhà", "ground_truth": "sân bay", "ground_truth_normalized": "sân bay", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "bầu trời", "ga-ra", "bảo tàng", "bến tàu", "núi", "trạm", "con thoi", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.815232, "confidences": [ 0.815232, 0.128485, 0.006447, 0.001369, 0.001149, 0.001139, 0.000993, 0.000817, 0.000781, 0.000714 ], "gate_score_top1": 0.844727, "gate_scores": [ 0.844727, 0.790039, 0.537109, 0.522461, 0.532227, 0.416016, 0.480225, 0.458008, 0.347656, 0.546387 ] }, { "question_id": "10019301", "image_id": 360178, "question": "màu mắt là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh lá", "màu xanh dương", "màu nâu", "màu trắng", "màu xám", "màu tía", "màu đỏ", "màu đen", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.664837, "confidences": [ 0.664837, 0.217534, 0.034961, 0.028534, 0.010214, 0.009977, 0.008369, 0.007924, 0.004695, 0.00186 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.821289, 0.796875, 0.786621, 0.76416, 0.734375, 0.76416, 0.74707, 0.714355, 0.772461 ] }, { "question_id": "10029691", "image_id": 499024, "question": "người đàn ông đang dựa lưng ở đâu ăn bánh rán", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "cái ghế", "lớp học", "thư viện", "phòng", "cửa tiệm", "chung cư", "cái bàn", "gian hàng", "phòng ngủ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.681404, "confidences": [ 0.681404, 0.116574, 0.030056, 0.02936, 0.020982, 0.013707, 0.007734, 0.007181, 0.003769, 0.002999 ], "gate_score_top1": 0.883301, "gate_scores": [ 0.883301, 0.737305, 0.755371, 0.743164, 0.73584, 0.772461, 0.663086, 0.620605, 0.645508, 0.600098 ] }, { "question_id": "10090711", "image_id": 527994, "question": "những gì được đặt trên giường đôi với khăn trải giường màu đỏ", "ground_truth": "khăn", "ground_truth_normalized": "khăn", "predicted_top1": "giường", "predicted_topk": [ "giường", "phòng", "phòng ngủ", "khăn", "cửa sổ", "hành lang", "gấu", "gương", "nhiều cái ghế", "vòi hoa sen" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.483659, "confidences": [ 0.483659, 0.095238, 0.085038, 0.079574, 0.009175, 0.007008, 0.006557, 0.006312, 0.006094, 0.005884 ], "gate_score_top1": 0.789551, "gate_scores": [ 0.789551, 0.765625, 0.678223, 0.699707, 0.530762, 0.440918, 0.548828, 0.675293, 0.501953, 0.499268 ] }, { "question_id": "10036311", "image_id": 382999, "question": "anh chàng đang lấp đầy bình nước ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "chậu", "gương", "vòi hoa sen", "bồn tắm", "phòng", "nhà ở", "quầy tính tiền", "phòng bếp", "khăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.657029, "confidences": [ 0.657029, 0.232448, 0.020712, 0.016707, 0.013743, 0.005066, 0.004621, 0.003394, 0.003361, 0.001957 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.850098, 0.759766, 0.724609, 0.76123, 0.739746, 0.701172, 0.529785, 0.659668, 0.595703 ] }, { "question_id": "10072571", "image_id": 405444, "question": "cô gái nhỏ mặc những gì đang làm pizza", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "cái mâm", "pizza", "áo sơ mi", "bữa ăn", "dao", "bánh", "lò vi sóng", "phô mai", "chén đĩa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.187029, "confidences": [ 0.187029, 0.124588, 0.070988, 0.041165, 0.026578, 0.02182, 0.01816, 0.017601, 0.014851, 0.011476 ], "gate_score_top1": 0.717773, "gate_scores": [ 0.717773, 0.757324, 0.730957, 0.589355, 0.649902, 0.683594, 0.615723, 0.59668, 0.518555, 0.57373 ] }, { "question_id": "10046471", "image_id": 335855, "question": "người phụ nữ giữ hộp bánh rán ở đâu", "ground_truth": "lớp học", "ground_truth_normalized": "lớp học", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "phòng", "lớp học", "văn phòng", "cửa tiệm", "tòa nhà", "thư viện", "cửa hàng", "kho", "nhà ở" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.296798, "confidences": [ 0.296798, 0.118984, 0.111775, 0.084703, 0.066225, 0.030858, 0.019462, 0.016646, 0.009653, 0.009597 ], "gate_score_top1": 0.814941, "gate_scores": [ 0.814941, 0.731934, 0.741699, 0.771973, 0.80127, 0.70166, 0.598633, 0.707031, 0.65918, 0.664551 ] }, { "question_id": "10066061", "image_id": 568150, "question": "những gì có nhà vệ sinh một số ống và một cửa sổ", "ground_truth": "bồn tắm", "ground_truth_normalized": "bồn tắm", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "bồn tắm", "vòi hoa sen", "khăn", "tường", "bồn tiểu", "nhà ở", "cửa", "phòng", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.682386, "confidences": [ 0.682386, 0.140269, 0.031791, 0.020931, 0.013834, 0.01088, 0.008794, 0.008309, 0.007434, 0.006272 ], "gate_score_top1": 0.851074, "gate_scores": [ 0.851074, 0.842285, 0.740723, 0.750977, 0.620117, 0.67041, 0.754883, 0.653809, 0.728516, 0.56543 ] }, { "question_id": "10079211", "image_id": 440508, "question": "những gì đang trên đường đua với nhiều xe đằng sau nó", "ground_truth": "tàu hỏa", "ground_truth_normalized": "tàu hỏa", "predicted_top1": "động cơ", "predicted_topk": [ "động cơ", "tàu hỏa", "xe ô tô", "đường sắt", "hàng hoá", "các tòa nhà", "màu cam", "xe điện ngầm", "trạm", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.433784, "confidences": [ 0.433784, 0.42873, 0.040665, 0.009417, 0.005767, 0.004195, 0.003623, 0.003254, 0.002889, 0.002132 ], "gate_score_top1": 0.807617, "gate_scores": [ 0.807617, 0.867188, 0.733887, 0.599609, 0.562988, 0.639648, 0.583496, 0.592285, 0.558594, 0.547363 ] }, { "question_id": "10035601", "image_id": 29161, "question": "người đàn ông đang ngồi ở đâu", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái ghế", "giường", "chung cư", "nhà ở", "laptop", "gian hàng", "phòng ngủ", "văn phòng", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.588755, "confidences": [ 0.588755, 0.348826, 0.010091, 0.007587, 0.002038, 0.001747, 0.001686, 0.001644, 0.001572, 0.001085 ], "gate_score_top1": 0.86377, "gate_scores": [ 0.86377, 0.853516, 0.747559, 0.637207, 0.668945, 0.556641, 0.549805, 0.702148, 0.619141, 0.56543 ] }, { "question_id": "10084921", "image_id": 531622, "question": "căn phòng lớn có ngăn kéo và ghế sofa màu nâu và bàn cà phê bằng gỗ có gì?", "ground_truth": "cái kệ", "ground_truth_normalized": "cái kệ", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "cái kệ", "phòng", "nhà ở", "bức ảnh", "quầy tính tiền", "cửa", "tủ đá", "cửa sổ", "nhiều cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.14284, "confidences": [ 0.14284, 0.136299, 0.056818, 0.054216, 0.02663, 0.02212, 0.021777, 0.018267, 0.017567, 0.014938 ], "gate_score_top1": 0.694824, "gate_scores": [ 0.694824, 0.725586, 0.70752, 0.747559, 0.537109, 0.553223, 0.579102, 0.666504, 0.571289, 0.569336 ] }, { "question_id": "10077691", "image_id": 562595, "question": "làm gì hai con voi nhốt nhau trong khu vực bàn chải", "ground_truth": "xe tải", "ground_truth_normalized": "xe tải", "predicted_top1": "thân cây", "predicted_topk": [ "thân cây", "con voi", "bãi cỏ", "đồi", "lá", "vườn bách thú", "đường", "xe tải", "hai", "hươu cao cổ" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.43461, "confidences": [ 0.43461, 0.388063, 0.020647, 0.007761, 0.005881, 0.005313, 0.004847, 0.0045, 0.003975, 0.003581 ], "gate_score_top1": 0.799805, "gate_scores": [ 0.799805, 0.800293, 0.669922, 0.505371, 0.537598, 0.609863, 0.554199, 0.5, 0.635254, 0.665527 ] }, { "question_id": "10091511", "image_id": 460208, "question": "những gì trên quầy bếp màu nâu", "ground_truth": "chai", "ground_truth_normalized": "chai", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "tủ đá", "tủ lạnh", "lò vi sóng", "chai", "cái kệ", "bếp", "cửa", "phòng", "nhà ở" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.642401, "confidences": [ 0.642401, 0.179087, 0.049344, 0.009491, 0.008343, 0.008055, 0.007508, 0.007349, 0.006757, 0.006485 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.840332, 0.770508, 0.617676, 0.602539, 0.67334, 0.694336, 0.616699, 0.703125, 0.718262 ] }, { "question_id": "10086131", "image_id": 500952, "question": "những gì gắn liền với tàu", "ground_truth": "xe", "ground_truth_normalized": "xe", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "hàng hoá", "các tòa nhà", "đường sắt", "xe điện ngầm", "màu đỏ", "cầu", "trạm" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.522586, "confidences": [ 0.522586, 0.230092, 0.079518, 0.01885, 0.01874, 0.014285, 0.005749, 0.00555, 0.004408, 0.003882 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.799805, 0.741699, 0.614746, 0.6875, 0.620605, 0.611328, 0.596191, 0.617676, 0.576172 ] }, { "question_id": "10112371", "image_id": 505477, "question": "có bao nhiêu chàng trai trong tuyết, đang đóng đai trên bảng tuyết của họ", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "mười", "ba", "một", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.488874, "confidences": [ 0.488874, 0.333383, 0.09971, 0.041242, 0.007337, 0.004916, 0.001488, 0.001433, 0.000974, 0.000503 ], "gate_score_top1": 0.853027, "gate_scores": [ 0.853027, 0.860352, 0.757812, 0.745117, 0.645996, 0.603516, 0.554199, 0.486572, 0.533203, 0.56543 ] }, { "question_id": "10012401", "image_id": 42705, "question": "màu của xe là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu trắng", "màu đen", "màu xám", "màu đỏ", "màu nâu", "màu xanh lá", "màu xanh dương", "màu cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.481918, "confidences": [ 0.481918, 0.378262, 0.05407, 0.040974, 0.017014, 0.004404, 0.002109, 0.001675, 0.001111, 0.000534 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.875977, 0.744629, 0.772949, 0.735352, 0.66748, 0.611816, 0.621582, 0.677734, 0.559082 ] }, { "question_id": "10003921", "image_id": 92868, "question": "màu của đường dẫn là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu đen", "màu vàng", "màu xám", "màu nâu", "màu cam", "màu xanh dương", "màu đỏ", "màu tía", "màu trắng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.723348, "confidences": [ 0.723348, 0.181468, 0.023618, 0.021589, 0.016879, 0.006089, 0.005566, 0.005229, 0.004009, 0.002793 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.855469, 0.797363, 0.777832, 0.78418, 0.813477, 0.699219, 0.761719, 0.773926, 0.772461 ] }, { "question_id": "10111441", "image_id": 104747, "question": "có bao nhiêu người cầm ly rượu vang trên bàn ăn", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "tám", "ba", "chín", "mười", "một", "đĩa ăn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.469126, "confidences": [ 0.469126, 0.295874, 0.167927, 0.037178, 0.004554, 0.004147, 0.002215, 0.001212, 0.000527, 0.000334 ], "gate_score_top1": 0.852539, "gate_scores": [ 0.852539, 0.831543, 0.79834, 0.761719, 0.63623, 0.620605, 0.621582, 0.525879, 0.474854, 0.595215 ] }, { "question_id": "10030671", "image_id": 39434, "question": "người đàn ông đang đẩy một cái tủ lạnh đang được xây dựng ở đâu", "ground_truth": "nhà", "ground_truth_normalized": "nhà", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng bếp", "nhà ở", "cửa", "hành lang", "ga-ra", "tủ lạnh", "tủ đá", "tòa nhà", "tường" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.241065, "confidences": [ 0.241065, 0.17161, 0.156864, 0.028289, 0.022999, 0.02282, 0.021775, 0.010696, 0.010246, 0.009644 ], "gate_score_top1": 0.768555, "gate_scores": [ 0.768555, 0.756348, 0.825195, 0.695312, 0.665527, 0.726562, 0.691895, 0.595703, 0.625977, 0.531738 ] }, { "question_id": "10100961", "image_id": 525542, "question": "những gì đang di chuyển dọc theo đường phố", "ground_truth": "xe cộ", "ground_truth_normalized": "xe cộ", "predicted_top1": "xe buýt", "predicted_topk": [ "xe buýt", "xe cộ", "xe đẩy", "phương tiện giao thông", "xe tải", "xe ô tô", "xe điện", "tàu hỏa", "đường", "đường đi bộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.988241, "confidences": [ 0.988241, 0.003182, 0.001155, 0.000523, 0.000373, 0.000239, 0.000163, 0.000155, 0.000145, 0.000134 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.697266, 0.709473, 0.65625, 0.637695, 0.662109, 0.555664, 0.589355, 0.501465, 0.530273 ] }, { "question_id": "10091251", "image_id": 372794, "question": "những gì ở nửa trong và nửa ra khỏi nhà kho", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "tàu hỏa", "động cơ", "hàng hoá", "các tòa nhà", "xe điện ngầm", "xe điện", "đường sắt", "phương tiện giao thông", "xe đạp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.530062, "confidences": [ 0.530062, 0.344918, 0.072866, 0.003202, 0.00314, 0.002528, 0.002205, 0.002079, 0.001871, 0.001399 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.894043, 0.774902, 0.601562, 0.695801, 0.606445, 0.595215, 0.519531, 0.575195, 0.616699 ] }, { "question_id": "10029501", "image_id": 534687, "question": "người đàn ông đang chống tay ở đâu khi cầm ván trượt", "ground_truth": "đường bộ", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "xe ô tô", "áo vest", "ga-ra", "xe tải", "ảnh chụp", "vạch kẻ đường", "phương tiện giao thông", "sân" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.505801, "confidences": [ 0.505801, 0.3104, 0.026391, 0.011109, 0.007635, 0.007343, 0.00638, 0.004722, 0.003969, 0.003137 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.845703, 0.643555, 0.625, 0.697754, 0.652344, 0.584961, 0.662109, 0.549316, 0.589355 ] }, { "question_id": "10049771", "image_id": 448076, "question": "nơi triển lãm thương mại khách và công nhân", "ground_truth": "gian hàng", "ground_truth_normalized": "gian hàng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "tòa nhà", "gian hàng", "bảo tàng", "áo vest", "kho", "cửa hàng", "điện thoại", "bộ đồ", "đồng hồ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.175933, "confidences": [ 0.175933, 0.127216, 0.065357, 0.041869, 0.019972, 0.016269, 0.013514, 0.012807, 0.012173, 0.01138 ], "gate_score_top1": 0.763672, "gate_scores": [ 0.763672, 0.766602, 0.675293, 0.696777, 0.616699, 0.634766, 0.713379, 0.645996, 0.540527, 0.592773 ] }, { "question_id": "10038261", "image_id": 343484, "question": "những bông hoa ngồi ở phía trước một cửa sổ kín ở đâu", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "cây", "lọ cắm hoa", "cái nồi", "sân vườn", "tường", "hộp", "bát", "cửa", "bông hoa" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.391192, "confidences": [ 0.391192, 0.118378, 0.097757, 0.074369, 0.064361, 0.011767, 0.011405, 0.011338, 0.011119, 0.008119 ], "gate_score_top1": 0.786621, "gate_scores": [ 0.786621, 0.776367, 0.748535, 0.692383, 0.672852, 0.573242, 0.589355, 0.686035, 0.671387, 0.68457 ] }, { "question_id": "10093021", "image_id": 335045, "question": "cái gì được phun bằng sơn kim loại màu xanh", "ground_truth": "điêu khắc", "ground_truth_normalized": "điêu khắc", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "thân cây", "điêu khắc", "bức tượng", "lá", "hươu cao cổ", "bức ảnh", "bãi cỏ", "cây", "vườn bách thú" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.721055, "confidences": [ 0.721055, 0.052233, 0.012577, 0.008695, 0.005212, 0.004816, 0.004258, 0.003667, 0.003418, 0.003061 ], "gate_score_top1": 0.842285, "gate_scores": [ 0.842285, 0.734375, 0.516602, 0.615723, 0.489502, 0.599609, 0.425537, 0.46582, 0.524414, 0.538574 ] }, { "question_id": "10092071", "image_id": 458510, "question": "những gì được hiển thị với thức ăn và đậu chưa biết như một bên", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "thịt", "chén đĩa", "dĩa", "đĩa", "quán ăn", "rau", "bữa ăn tối" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.522912, "confidences": [ 0.522912, 0.139645, 0.131184, 0.026136, 0.023984, 0.015455, 0.009301, 0.009175, 0.008823, 0.00794 ], "gate_score_top1": 0.853027, "gate_scores": [ 0.853027, 0.796387, 0.807129, 0.723633, 0.657715, 0.721191, 0.575684, 0.697754, 0.696289, 0.640625 ] }, { "question_id": "10001311", "image_id": 359131, "question": "màu của xe cảnh sát là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh dương", "màu xanh lá", "màu trắng", "màu đen", "màu tía", "màu đỏ", "màu nâu", "màu xám", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.812477, "confidences": [ 0.812477, 0.088353, 0.033535, 0.029594, 0.00775, 0.003459, 0.002526, 0.002359, 0.00142, 0.001025 ], "gate_score_top1": 0.865723, "gate_scores": [ 0.865723, 0.814453, 0.756836, 0.781738, 0.645996, 0.705078, 0.686523, 0.642578, 0.620605, 0.687012 ] }, { "question_id": "10005061", "image_id": 532509, "question": "màu của phòng tắm là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xanh dương", "màu nâu", "màu xanh lá", "màu xám", "màu tía", "màu đen", "màu vàng", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.487506, "confidences": [ 0.487506, 0.45797, 0.013196, 0.011376, 0.011112, 0.003766, 0.003766, 0.002044, 0.000877, 0.000597 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.86084, 0.794434, 0.706543, 0.804199, 0.742676, 0.708008, 0.695312, 0.706543, 0.635742 ] }, { "question_id": "10118401", "image_id": 32105, "question": "có bao nhiêu trường hợp hành lý bao gồm túi vải thô", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.534333, "confidences": [ 0.534333, 0.321567, 0.080358, 0.03622, 0.011487, 0.00657, 0.001803, 0.000742, 0.000526, 0.000493 ], "gate_score_top1": 0.880859, "gate_scores": [ 0.880859, 0.867188, 0.787109, 0.81543, 0.617188, 0.686035, 0.609375, 0.522949, 0.484619, 0.506348 ] }, { "question_id": "10052671", "image_id": 513280, "question": "điêu khắc băng của một chiếc bình lớn đang giữ gì", "ground_truth": "ngoài trời", "ground_truth_normalized": "ngoài trời", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bông hoa", "cây", "nến", "hoa hồng", "chai", "hai", "ba", "cái lọ", "bốn" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.328783, "confidences": [ 0.328783, 0.187335, 0.042376, 0.02736, 0.021984, 0.017978, 0.017527, 0.016659, 0.011185, 0.008822 ], "gate_score_top1": 0.754883, "gate_scores": [ 0.754883, 0.810059, 0.671387, 0.647461, 0.672363, 0.598633, 0.596191, 0.601562, 0.569336, 0.552246 ] }, { "question_id": "10024441", "image_id": 218982, "question": "màu của tòa nhà là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu xanh dương", "màu tía", "màu trắng", "màu nâu", "màu đen", "màu xám", "màu vàng", "màu xanh lá", "màu cam" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.611665, "confidences": [ 0.611665, 0.213044, 0.098688, 0.020207, 0.012401, 0.011203, 0.010402, 0.004991, 0.003286, 0.002656 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.833984, 0.82373, 0.763672, 0.748535, 0.729492, 0.774414, 0.726562, 0.614746, 0.733398 ] }, { "question_id": "10055261", "image_id": 501029, "question": "những gì trong máy xay bao gồm quả việt quất, dâu tây và chuối", "ground_truth": "thành phần", "ground_truth_normalized": "thành phần", "predicted_top1": "máy xay", "predicted_topk": [ "máy xay", "cái lọ", "tách", "cây kéo", "thùng chứa", "cái nồi", "nến", "chuối", "lọ cắm hoa", "rau" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.849722, "confidences": [ 0.849722, 0.029304, 0.028625, 0.003029, 0.003017, 0.002298, 0.001821, 0.001689, 0.00164, 0.001494 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.768066, 0.76709, 0.637695, 0.63916, 0.583496, 0.563965, 0.537109, 0.600098, 0.601074 ] }, { "question_id": "10070131", "image_id": 570866, "question": "cầu thủ bóng chày mặc những gì", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "quả bóng", "áo sơ mi", "găng tay", "mũ", "lồng", "sân vận động", "màu trắng", "hộp", "màu xanh lá" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.634291, "confidences": [ 0.634291, 0.056077, 0.026906, 0.022132, 0.020832, 0.012809, 0.012784, 0.011348, 0.008483, 0.003384 ], "gate_score_top1": 0.810059, "gate_scores": [ 0.810059, 0.750977, 0.567383, 0.697754, 0.658203, 0.632324, 0.57959, 0.616211, 0.524414, 0.49292 ] }, { "question_id": "10116771", "image_id": 465163, "question": "có bao nhiêu cái nhìn về một căn bếp với cửa sổ sau bồn rửa", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.895207, "confidences": [ 0.895207, 0.079454, 0.018798, 0.003021, 0.000276, 0.0002, 0.000185, 0.00012, 7.8e-05, 6.1e-05 ], "gate_score_top1": 0.907227, "gate_scores": [ 0.907227, 0.852051, 0.814941, 0.716797, 0.42749, 0.595703, 0.457031, 0.438965, 0.453613, 0.378418 ] }, { "question_id": "10079561", "image_id": 512938, "question": "những gì bò dưới len xù xì của cừu", "ground_truth": "con chó", "ground_truth_normalized": "con chó", "predicted_top1": "con cừu", "predicted_topk": [ "con cừu", "con bò", "con chó", "gia súc", "chuồng trại", "bò đực", "chuồng", "gấu", "con chim", "cái lều" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.959129, "confidences": [ 0.959129, 0.006933, 0.003199, 0.002834, 0.001055, 0.00077, 0.000729, 0.000655, 0.000632, 0.000422 ], "gate_score_top1": 0.840332, "gate_scores": [ 0.840332, 0.700195, 0.626465, 0.570801, 0.504883, 0.527344, 0.573242, 0.559082, 0.518555, 0.295898 ] }, { "question_id": "10099541", "image_id": 466939, "question": "người đàn ông đang cưỡi trên đường là gì", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "đường", "mũ", "xe cộ", "cây", "ván trượt", "động cơ", "con khỉ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.877167, "confidences": [ 0.877167, 0.086513, 0.002695, 0.002577, 0.001968, 0.001085, 0.000924, 0.000575, 0.000533, 0.000508 ], "gate_score_top1": 0.876953, "gate_scores": [ 0.876953, 0.837891, 0.62207, 0.583008, 0.529297, 0.480225, 0.489014, 0.530273, 0.481445, 0.380859 ] }, { "question_id": "10044031", "image_id": 99314, "question": "con mèo đen lông mịn nằm ở đâu", "ground_truth": "vali", "ground_truth_normalized": "vali", "predicted_top1": "cái túi", "predicted_topk": [ "cái túi", "vali", "hành lý", "balo", "cái ví", "túi", "giường", "xe đẩy", "thùng chứa", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.584804, "confidences": [ 0.584804, 0.229012, 0.051702, 0.034307, 0.026201, 0.018725, 0.003782, 0.003166, 0.003142, 0.001993 ], "gate_score_top1": 0.878906, "gate_scores": [ 0.878906, 0.82959, 0.776855, 0.73291, 0.766602, 0.75293, 0.657715, 0.644043, 0.677246, 0.657227 ] }, { "question_id": "10067111", "image_id": 477949, "question": "một sự sắp xếp của những bông hoa rực rỡ và cây xanh đánh thức những gì", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bông hoa", "bát", "cái lọ", "cái nồi", "cây", "tách", "hoa hồng", "tường", "thùng chứa" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.64664, "confidences": [ 0.64664, 0.137141, 0.041663, 0.019074, 0.018815, 0.013928, 0.0107, 0.009954, 0.007426, 0.004022 ], "gate_score_top1": 0.827148, "gate_scores": [ 0.827148, 0.845215, 0.803223, 0.734863, 0.69873, 0.780762, 0.746094, 0.6875, 0.623535, 0.656738 ] }, { "question_id": "10087051", "image_id": 561938, "question": "voi con và bố mẹ nó ăn gì", "ground_truth": "hoa quả", "ground_truth_normalized": "hoa quả", "predicted_top1": "thân cây", "predicted_topk": [ "thân cây", "bãi cỏ", "con voi", "hoa quả", "lá", "cà rốt", "những quả cam", "màu cam", "đồi", "táo" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.300215, "confidences": [ 0.300215, 0.110012, 0.060518, 0.031519, 0.028309, 0.018493, 0.016772, 0.013959, 0.013905, 0.01377 ], "gate_score_top1": 0.739258, "gate_scores": [ 0.739258, 0.683105, 0.617188, 0.546387, 0.559082, 0.601562, 0.591309, 0.518555, 0.581543, 0.515625 ] }, { "question_id": "10119261", "image_id": 4554, "question": "có bao nhiêu người đứng trên ván trượt tuyết trên đỉnh dốc tuyết", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "bảy", "tám", "mười", "chín" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.547699, "confidences": [ 0.547699, 0.329611, 0.067227, 0.043067, 0.003, 0.00242, 0.000573, 0.000372, 0.000323, 0.000254 ], "gate_score_top1": 0.890625, "gate_scores": [ 0.890625, 0.861816, 0.81543, 0.8125, 0.603516, 0.692871, 0.504395, 0.493896, 0.439697, 0.421875 ] }, { "question_id": "10102311", "image_id": 474670, "question": "có bao nhiêu máy bay phản lực đang bay trên bầu trời xanh", "ground_truth": "chín", "ground_truth_normalized": "chín", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "bốn", "chín", "năm", "tám", "máy bay", "mười", "ba", "sân vận động" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.42273, "confidences": [ 0.42273, 0.247541, 0.164898, 0.074036, 0.035109, 0.012086, 0.002218, 0.001789, 0.001413, 0.001193 ], "gate_score_top1": 0.849121, "gate_scores": [ 0.849121, 0.838867, 0.779785, 0.780273, 0.744629, 0.663574, 0.602539, 0.518555, 0.520996, 0.533691 ] }, { "question_id": "10114281", "image_id": 369296, "question": "có bao nhiêu con bò đang đứng trước một trang trại, trong khi mặt trời lặn", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.578782, "confidences": [ 0.578782, 0.356577, 0.036143, 0.01846, 0.00245, 0.002129, 0.000857, 0.000468, 0.000293, 0.000269 ], "gate_score_top1": 0.891602, "gate_scores": [ 0.891602, 0.89209, 0.772461, 0.777832, 0.551758, 0.645996, 0.563965, 0.536133, 0.451416, 0.466797 ] }, { "question_id": "10114631", "image_id": 475423, "question": "có bao nhiêu con bò đang úp mặt vào lưng một con bò khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "bảy", "mười", "bãi cỏ", "năm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.769844, "confidences": [ 0.769844, 0.220564, 0.004705, 0.00043, 0.000122, 0.000105, 9.4e-05, 8.7e-05, 8.4e-05, 7.3e-05 ], "gate_score_top1": 0.895508, "gate_scores": [ 0.895508, 0.871582, 0.759277, 0.592773, 0.392334, 0.433105, 0.389893, 0.447998, 0.461426, 0.527832 ] }, { "question_id": "10035201", "image_id": 229427, "question": "người phụ nữ và người đàn ông đứng ở đâu khi chơi trò chơi video", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "chung cư", "cái ghế", "cửa sổ", "nhiều cái ghế", "hành lang", "phòng ngủ", "ô cửa", "đi văng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.943995, "confidences": [ 0.943995, 0.020452, 0.009111, 0.003155, 0.001663, 0.001112, 0.001082, 0.00108, 0.001026, 0.000784 ], "gate_score_top1": 0.883301, "gate_scores": [ 0.883301, 0.812012, 0.702637, 0.666016, 0.665527, 0.549805, 0.654297, 0.758789, 0.520508, 0.55957 ] }, { "question_id": "10047481", "image_id": 526225, "question": "mèo ngủ ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "cái túi", "predicted_topk": [ "cái túi", "giường", "vali", "cái ví", "bát", "hành lý", "cái rổ", "con mèo", "balo", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.486456, "confidences": [ 0.486456, 0.189756, 0.031773, 0.029328, 0.023984, 0.016941, 0.016875, 0.00954, 0.009429, 0.008789 ], "gate_score_top1": 0.78418, "gate_scores": [ 0.78418, 0.750488, 0.724609, 0.652344, 0.594727, 0.583008, 0.689941, 0.643066, 0.484863, 0.550781 ] }, { "question_id": "10046781", "image_id": 248227, "question": "bồn vệ sinh được nhìn thấy ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "nhà ở", "vòi hoa sen", "bồn tắm", "hành lang", "chuồng", "ô cửa", "chậu", "gương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.813529, "confidences": [ 0.813529, 0.069439, 0.02185, 0.021595, 0.006612, 0.004122, 0.003864, 0.003709, 0.003595, 0.002917 ], "gate_score_top1": 0.866211, "gate_scores": [ 0.866211, 0.824219, 0.82373, 0.769043, 0.710449, 0.594238, 0.659668, 0.59375, 0.6875, 0.687012 ] }, { "question_id": "10062181", "image_id": 489346, "question": "ngôi nhà có gì như với một chiếc váy trắng xung quanh nó", "ground_truth": "rào chắn", "ground_truth_normalized": "rào chắn", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "nhà ở", "tường", "bức ảnh", "tòa nhà", "xe ô tô", "con chó", "bức tượng", "rào chắn", "cây" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.485508, "confidences": [ 0.485508, 0.03788, 0.020555, 0.015637, 0.013908, 0.012863, 0.012226, 0.011067, 0.01097, 0.010498 ], "gate_score_top1": 0.804688, "gate_scores": [ 0.804688, 0.708008, 0.510254, 0.468506, 0.669922, 0.54248, 0.64502, 0.438232, 0.434814, 0.575195 ] }, { "question_id": "10084511", "image_id": 434192, "question": "những gì chứa đầy những chiếc thuyền màu đỏ trôi nổi trên đó", "ground_truth": "dòng sông", "ground_truth_normalized": "dòng sông", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "bến du thuyền", "xe đẩy", "cầu", "các tòa nhà", "ca nô", "xe đạp", "thuyền buồm", "động cơ", "bến tàu" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.67152, "confidences": [ 0.67152, 0.026293, 0.023661, 0.014074, 0.012396, 0.011331, 0.008981, 0.007933, 0.004859, 0.004854 ], "gate_score_top1": 0.740234, "gate_scores": [ 0.740234, 0.626953, 0.725586, 0.654785, 0.533691, 0.54248, 0.599609, 0.499023, 0.516113, 0.463867 ] }, { "question_id": "10114801", "image_id": 15472, "question": "có bao nhiêu cầu thủ bóng chày trên sân trong một trận đấu", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.568739, "confidences": [ 0.568739, 0.250413, 0.136147, 0.019461, 0.005866, 0.003304, 0.002859, 0.002384, 0.00153, 0.000616 ], "gate_score_top1": 0.887695, "gate_scores": [ 0.887695, 0.833496, 0.803223, 0.677246, 0.676758, 0.673828, 0.625, 0.588867, 0.562012, 0.462402 ] }, { "question_id": "10100171", "image_id": 348795, "question": "anh chàng mặc cái gì cũng giơ chân lên khi đi thang máy lên đồi", "ground_truth": "bầu trời", "ground_truth_normalized": "bầu trời", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "trượt tuyết", "đồi", "núi", "băng ghế", "cây", "bầu trời", "bức ảnh", "những bức ảnh", "trang thiết bị" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.323068, "confidences": [ 0.323068, 0.163723, 0.082004, 0.067984, 0.022995, 0.01944, 0.016022, 0.007407, 0.007054, 0.006999 ], "gate_score_top1": 0.794434, "gate_scores": [ 0.794434, 0.77002, 0.765625, 0.721191, 0.684082, 0.580078, 0.578125, 0.546387, 0.553711, 0.518555 ] }, { "question_id": "10051181", "image_id": 154068, "question": "máy bay đậu ở đâu mà nó được trưng bày", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "bảo tàng", "predicted_topk": [ "bảo tàng", "ga-ra", "tòa nhà", "kho", "sân bay", "trạm", "phòng", "cửa tiệm", "sân vận động", "đường phố" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.44361, "confidences": [ 0.44361, 0.223934, 0.124152, 0.045141, 0.019415, 0.019189, 0.015692, 0.014655, 0.004842, 0.003786 ], "gate_score_top1": 0.864746, "gate_scores": [ 0.864746, 0.825195, 0.781738, 0.798828, 0.737793, 0.742676, 0.70459, 0.741699, 0.666016, 0.637695 ] }, { "question_id": "10115571", "image_id": 504635, "question": "có bao nhiêu con ngựa vằn trên cánh đồng với cây và cỏ", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.545747, "confidences": [ 0.545747, 0.411952, 0.030789, 0.003914, 0.001321, 0.000965, 0.000686, 0.000642, 0.000349, 0.000218 ], "gate_score_top1": 0.901855, "gate_scores": [ 0.901855, 0.876953, 0.773926, 0.597656, 0.685547, 0.616699, 0.572754, 0.540039, 0.536621, 0.454346 ] }, { "question_id": "10055971", "image_id": 443065, "question": "những gì lên dốc trên đường mòn phủ tuyết", "ground_truth": "trượt tuyết", "ground_truth_normalized": "trượt tuyết", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "đồi", "trượt tuyết", "núi", "cây", "trang thiết bị", "cây sào", "ba lan", "xe đạp", "bức ảnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.524825, "confidences": [ 0.524825, 0.13013, 0.120351, 0.080171, 0.009764, 0.008752, 0.003595, 0.003299, 0.003277, 0.003229 ], "gate_score_top1": 0.843262, "gate_scores": [ 0.843262, 0.80127, 0.776855, 0.727051, 0.617188, 0.568359, 0.550293, 0.529785, 0.655762, 0.509766 ] }, { "question_id": "10033991", "image_id": 22478, "question": "những thứ thiết yếu cần thiết ở đâu", "ground_truth": "chung cư", "ground_truth_normalized": "chung cư", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "chung cư", "cửa sổ", "hành lang", "tòa nhà", "cái ghế", "nhiều cái ghế", "ô cửa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.919829, "confidences": [ 0.919829, 0.025992, 0.017314, 0.007927, 0.005078, 0.001681, 0.001604, 0.001322, 0.001176, 0.00096 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.855469, 0.851562, 0.749512, 0.72998, 0.690918, 0.622559, 0.64209, 0.603516, 0.530762 ] }, { "question_id": "10077371", "image_id": 448308, "question": "những gì bên cạnh một quả cam mở", "ground_truth": "dao", "ground_truth_normalized": "dao", "predicted_top1": "quả táo", "predicted_topk": [ "quả táo", "quả cam", "dao", "màu cam", "lát cắt", "táo", "những quả cam", "chuối", "đĩa ăn", "cà rốt" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.217356, "confidences": [ 0.217356, 0.088509, 0.087649, 0.048499, 0.045918, 0.033268, 0.029763, 0.023729, 0.019788, 0.010107 ], "gate_score_top1": 0.797363, "gate_scores": [ 0.797363, 0.654785, 0.755371, 0.632324, 0.645996, 0.694336, 0.672852, 0.646484, 0.623535, 0.635742 ] }, { "question_id": "10117181", "image_id": 183603, "question": "có bao nhiêu con hươu cao cổ đang đứng yên khi gặm cỏ trên cành", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "bảy", "năm", "mười", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.70886, "confidences": [ 0.70886, 0.271163, 0.009099, 0.004504, 0.000582, 0.000336, 0.000327, 0.000253, 0.000225, 0.000123 ], "gate_score_top1": 0.900391, "gate_scores": [ 0.900391, 0.858398, 0.789551, 0.681641, 0.449463, 0.5, 0.474854, 0.571289, 0.44873, 0.415283 ] }, { "question_id": "10097891", "image_id": 428786, "question": "con ngựa trắng và đen nhìn ra cái gì", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "cửa", "predicted_topk": [ "cửa", "cửa sổ", "sân", "con ngựa", "rào chắn", "bãi cỏ", "chuồng trại", "ô cửa", "con chó", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.146043, "confidences": [ 0.146043, 0.081127, 0.036853, 0.024791, 0.02175, 0.018495, 0.017908, 0.017459, 0.014659, 0.014098 ], "gate_score_top1": 0.73584, "gate_scores": [ 0.73584, 0.65332, 0.641602, 0.667969, 0.532227, 0.650879, 0.586426, 0.558594, 0.546387, 0.465332 ] }, { "question_id": "10115171", "image_id": 206001, "question": "có bao nhiêu chiếc máy bay bay theo đội hình và để lại những vệt khói trang trí phía sau chúng", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "bốn", "chín", "năm", "tám", "máy bay", "mười", "sân vận động", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.377457, "confidences": [ 0.377457, 0.358768, 0.111576, 0.073173, 0.027882, 0.010338, 0.003128, 0.001623, 0.001276, 0.001144 ], "gate_score_top1": 0.839844, "gate_scores": [ 0.839844, 0.841309, 0.780273, 0.777344, 0.716797, 0.658691, 0.631348, 0.533691, 0.553711, 0.522461 ] }, { "question_id": "10005931", "image_id": 139702, "question": "màu của cỏ là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu xanh lá", "màu vàng", "màu xanh dương", "màu đen", "màu xám", "màu đỏ", "màu trắng", "màu cam", "màu tía" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.470083, "confidences": [ 0.470083, 0.290743, 0.138956, 0.019177, 0.017945, 0.016531, 0.008644, 0.007082, 0.006627, 0.005222 ], "gate_score_top1": 0.854492, "gate_scores": [ 0.854492, 0.83252, 0.837891, 0.74707, 0.739258, 0.764648, 0.748047, 0.778809, 0.791016, 0.733398 ] }, { "question_id": "10065161", "image_id": 377949, "question": "người phụ nữ mặc cái gì đứng gần cừu sau hàng rào", "ground_truth": "áo choàng", "ground_truth_normalized": "áo choàng", "predicted_top1": "bãi cỏ", "predicted_topk": [ "bãi cỏ", "đồi", "con cừu", "gia súc", "con ngựa", "áo vest", "con bò", "mũ", "rào chắn", "sân" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.157741, "confidences": [ 0.157741, 0.098327, 0.093459, 0.039961, 0.023909, 0.020133, 0.019362, 0.01281, 0.012685, 0.011119 ], "gate_score_top1": 0.760742, "gate_scores": [ 0.760742, 0.698242, 0.703125, 0.64502, 0.649902, 0.587402, 0.644531, 0.544434, 0.475342, 0.534668 ] }, { "question_id": "10045531", "image_id": 215600, "question": "đồng hồ đỗ xe có chữ bị lỗi ở đâu?", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "cửa sổ", "gian hàng", "ảnh chụp", "xe ô tô", "cửa hàng", "đường", "hộp", "gương", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.322245, "confidences": [ 0.322245, 0.077745, 0.035317, 0.031844, 0.030985, 0.030985, 0.029279, 0.020803, 0.018611, 0.017313 ], "gate_score_top1": 0.788086, "gate_scores": [ 0.788086, 0.73584, 0.662598, 0.502441, 0.626465, 0.721191, 0.714355, 0.626953, 0.72998, 0.695312 ] }, { "question_id": "10047311", "image_id": 438841, "question": "một người và vali ở đâu", "ground_truth": "xe tải", "ground_truth_normalized": "xe tải", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe tải", "phương tiện giao thông", "vali", "gương", "xe đẩy", "cửa sổ", "đường phố", "ga-ra", "đường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.279322, "confidences": [ 0.279322, 0.277148, 0.198844, 0.015273, 0.012687, 0.011395, 0.008754, 0.008686, 0.00808, 0.00797 ], "gate_score_top1": 0.719238, "gate_scores": [ 0.719238, 0.804199, 0.794434, 0.626465, 0.74707, 0.668945, 0.606934, 0.614258, 0.573242, 0.688477 ] }, { "question_id": "10108131", "image_id": 456045, "question": "có bao nhiêu con hươu cao cổ đang ở trên bãi cỏ bên hàng rào", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bãi cỏ", "bảy", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.598026, "confidences": [ 0.598026, 0.37717, 0.013368, 0.006002, 0.000711, 0.00028, 0.00016, 0.00012, 0.000119, 0.000104 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.88916, 0.789551, 0.738281, 0.599609, 0.406494, 0.448975, 0.48999, 0.419434, 0.364258 ] }, { "question_id": "10110981", "image_id": 88552, "question": "có bao nhiêu cậu bé đội mũ bảo hiểm, kính bảo hộ và đồ trượt tuyết", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "bảy", "mười", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.533159, "confidences": [ 0.533159, 0.331046, 0.070209, 0.049206, 0.006925, 0.002864, 0.000671, 0.000468, 0.00042, 0.000318 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.881348, 0.831543, 0.803711, 0.725586, 0.5625, 0.530273, 0.464355, 0.493896, 0.44165 ] }, { "question_id": "10098021", "image_id": 553306, "question": "tháp đồng hồ đá lớn nhìn ra những gì", "ground_truth": "đại dương", "ground_truth_normalized": "đại dương", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "tòa nhà", "bức tượng", "hồ bơi", "các tòa nhà", "đồng hồ", "sân vườn", "cây", "bức ảnh", "tường" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.119583, "confidences": [ 0.119583, 0.0959, 0.061077, 0.057377, 0.041896, 0.033337, 0.031625, 0.023228, 0.018303, 0.018232 ], "gate_score_top1": 0.73291, "gate_scores": [ 0.73291, 0.751953, 0.697266, 0.711426, 0.606934, 0.614258, 0.675781, 0.69873, 0.619629, 0.535645 ] }, { "question_id": "10109281", "image_id": 577320, "question": "có bao nhiêu con mèo thư giãn trên giường trong một căn phòng sáng", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "một", "tám", "hai", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.728907, "confidences": [ 0.728907, 0.163917, 0.059367, 0.030203, 0.004437, 0.001857, 0.001197, 0.0008, 0.00075, 0.000669 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.812988, 0.783691, 0.708984, 0.640137, 0.588379, 0.581055, 0.614258, 0.552734, 0.504395 ] }, { "question_id": "10110491", "image_id": 160602, "question": "người đàn ông cầm bao nhiêu điều khiển từ xa trò chơi điện tử", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "ba", "bốn", "năm", "sáu", "bảy", "tám", "phòng", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.686846, "confidences": [ 0.686846, 0.271083, 0.021068, 0.009683, 0.001456, 0.001329, 0.000649, 0.000366, 0.000314, 0.00031 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.874512, 0.791992, 0.714844, 0.67334, 0.503906, 0.518066, 0.473145, 0.579102, 0.484131 ] }, { "question_id": "10050311", "image_id": 22240, "question": "số lượng lớn hành lý cá nhân nằm ở đâu", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "sân bay", "predicted_topk": [ "sân bay", "trạm", "hành lý", "balo", "vali", "phòng", "tòa nhà", "xe đẩy", "xe điện ngầm", "túi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.740256, "confidences": [ 0.740256, 0.141833, 0.015244, 0.009174, 0.00765, 0.004402, 0.003765, 0.003558, 0.003415, 0.003355 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.776367, 0.697266, 0.627441, 0.659668, 0.651367, 0.646973, 0.654297, 0.605469, 0.598145 ] }, { "question_id": "10055921", "image_id": 349678, "question": "cái gì đang bay trong gió khi ở trên đồng hồ ga xe lửa", "ground_truth": "cờ", "ground_truth_normalized": "cờ", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "tòa nhà", "đồng hồ", "lá cờ", "cây", "bức tượng", "cờ", "cầu", "các tòa nhà", "bức ảnh" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.609381, "confidences": [ 0.609381, 0.108406, 0.056681, 0.026827, 0.021767, 0.017731, 0.015166, 0.010988, 0.010629, 0.006384 ], "gate_score_top1": 0.836426, "gate_scores": [ 0.836426, 0.785645, 0.71875, 0.719727, 0.745605, 0.698242, 0.64209, 0.622559, 0.691406, 0.637695 ] }, { "question_id": "10110721", "image_id": 450832, "question": "có bao nhiêu thanh niên đeo kính râm trên thuyền buồm", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "tám", "chín", "hai", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.802671, "confidences": [ 0.802671, 0.102848, 0.042044, 0.032363, 0.006298, 0.002299, 0.001773, 0.000826, 0.00077, 0.000704 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.79834, 0.76709, 0.712891, 0.708496, 0.600098, 0.611816, 0.598633, 0.541504, 0.489502 ] }, { "question_id": "10090551", "image_id": 344314, "question": "những gì đang đứng đằng sau tấm biển cảnh báo du khách không cho động vật ăn", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "hươu cao cổ", "bãi cỏ", "con ngựa", "rào chắn", "cây", "con chó", "chuồng", "con chim" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.597499, "confidences": [ 0.597499, 0.376838, 0.0057, 0.002321, 0.001682, 0.000608, 0.000443, 0.000337, 0.000337, 0.000336 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.854492, 0.722168, 0.664551, 0.657227, 0.469238, 0.605469, 0.542969, 0.476562, 0.56543 ] }, { "question_id": "10027521", "image_id": 41319, "question": "người đàn ông đã ăn mặc ở đâu", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "ô cửa", "nhà ở", "áo vest", "hành lang", "gương", "cái ghế", "gian hàng", "phòng ngủ", "quán bar" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.633693, "confidences": [ 0.633693, 0.055806, 0.048108, 0.033585, 0.018766, 0.017086, 0.012525, 0.010547, 0.007421, 0.007306 ], "gate_score_top1": 0.806152, "gate_scores": [ 0.806152, 0.726074, 0.772949, 0.620605, 0.682129, 0.769531, 0.658691, 0.635742, 0.754883, 0.625488 ] }, { "question_id": "10043371", "image_id": 202004, "question": "con ngựa kéo một người đàn ông xuống một con đường thành phố ở đâu", "ground_truth": "toa xe", "ground_truth_normalized": "toa xe", "predicted_top1": "xe đẩy", "predicted_topk": [ "xe đẩy", "đường phố", "toa xe", "xe lăn", "cửa hàng", "ảnh chụp", "đường", "cửa tiệm", "cửa sổ", "xe" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.239438, "confidences": [ 0.239438, 0.138036, 0.100989, 0.087741, 0.045787, 0.035381, 0.025835, 0.021544, 0.020318, 0.018106 ], "gate_score_top1": 0.833008, "gate_scores": [ 0.833008, 0.776367, 0.730957, 0.794434, 0.772461, 0.605469, 0.754883, 0.698242, 0.70459, 0.707031 ] }, { "question_id": "10117611", "image_id": 146701, "question": "có bao nhiêu bánh xe máy đậu ở bên đường", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "năm", "sáu", "mười", "bảy", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.804126, "confidences": [ 0.804126, 0.140832, 0.040984, 0.008197, 0.000542, 0.000416, 0.00026, 0.000243, 0.000188, 0.000118 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.849121, 0.809082, 0.747559, 0.616699, 0.414795, 0.438477, 0.448486, 0.437256, 0.36499 ] }, { "question_id": "10066541", "image_id": 397327, "question": "nhà vệ sinh là một bồn rửa và một chiếc khăn và giấy vệ sinh", "ground_truth": "buồng", "ground_truth_normalized": "buồng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "bồn tắm", "khăn", "bồn tiểu", "phòng", "nhà ở", "tường", "cửa", "bức ảnh" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.725788, "confidences": [ 0.725788, 0.065177, 0.029035, 0.019839, 0.014262, 0.012709, 0.011085, 0.010475, 0.010353, 0.00691 ], "gate_score_top1": 0.828613, "gate_scores": [ 0.828613, 0.761719, 0.751465, 0.708008, 0.650879, 0.740723, 0.741699, 0.610352, 0.614746, 0.586914 ] }, { "question_id": "10036901", "image_id": 298182, "question": "xe đạp màu cam nổi bật ở đâu", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "ảnh chụp", "xe đạp", "cửa tiệm", "xe lăn", "xe tay ga", "tòa nhà", "cửa sổ", "giá đỡ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.657219, "confidences": [ 0.657219, 0.053319, 0.039469, 0.016166, 0.012714, 0.010561, 0.010296, 0.00994, 0.009485, 0.008772 ], "gate_score_top1": 0.866211, "gate_scores": [ 0.866211, 0.806641, 0.615723, 0.687012, 0.655273, 0.771484, 0.684082, 0.645996, 0.680176, 0.580078 ] }, { "question_id": "10006491", "image_id": 445156, "question": "màu của lò sưởi là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu nâu", "màu trắng", "màu đen", "màu tía", "màu xanh lá", "màu vàng", "màu xám", "màu cam", "màu xanh dương" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.33703, "confidences": [ 0.33703, 0.277234, 0.179696, 0.068205, 0.039939, 0.028211, 0.017654, 0.007105, 0.006149, 0.00128 ], "gate_score_top1": 0.811035, "gate_scores": [ 0.811035, 0.794434, 0.830566, 0.824219, 0.781738, 0.714844, 0.725586, 0.720703, 0.722168, 0.518555 ] }, { "question_id": "10118051", "image_id": 203063, "question": "có bao nhiêu con cừu lông cừu đang gặm cỏ trên đồng cỏ có hàng rào phủ đầy tuyết trong thung lũng", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.501918, "confidences": [ 0.501918, 0.370091, 0.095419, 0.016711, 0.003586, 0.001591, 0.001518, 0.001388, 0.000654, 0.000599 ], "gate_score_top1": 0.880859, "gate_scores": [ 0.880859, 0.855469, 0.817871, 0.683105, 0.669922, 0.643555, 0.605469, 0.585449, 0.582031, 0.508301 ] }, { "question_id": "10045341", "image_id": 51052, "question": "người đàn ông ở đâu", "ground_truth": "xe lăn", "ground_truth_normalized": "xe lăn", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "xe lăn", "cái ghế", "cái rổ", "đường", "ảnh chụp", "balo", "lối đi", "xe đạp", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.427249, "confidences": [ 0.427249, 0.157791, 0.079653, 0.039201, 0.023, 0.017092, 0.012826, 0.010822, 0.01051, 0.00955 ], "gate_score_top1": 0.853027, "gate_scores": [ 0.853027, 0.828613, 0.756836, 0.789551, 0.769531, 0.583984, 0.67627, 0.630859, 0.722168, 0.633301 ] }, { "question_id": "10086881", "image_id": 521357, "question": "những gì được bao phủ bởi các loại rượu vang", "ground_truth": "cái kệ", "ground_truth_normalized": "cái kệ", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cái kệ", "tủ lạnh", "cửa", "chai", "cửa ra vào", "rau", "lò vi sóng", "tường", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.445114, "confidences": [ 0.445114, 0.158092, 0.14116, 0.112104, 0.042219, 0.003754, 0.00352, 0.002084, 0.002059, 0.002025 ], "gate_score_top1": 0.854004, "gate_scores": [ 0.854004, 0.820312, 0.80127, 0.788086, 0.743164, 0.505859, 0.694336, 0.535156, 0.625, 0.56543 ] }, { "question_id": "10058541", "image_id": 335851, "question": "những gì, bạn của họ nhìn vào", "ground_truth": "con chó", "ground_truth_normalized": "con chó", "predicted_top1": "con ngựa", "predicted_topk": [ "con ngựa", "con chó", "con bò", "màu nâu", "gia súc", "ngựa vằn", "bãi cỏ", "gấu", "con chim", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.942485, "confidences": [ 0.942485, 0.018091, 0.00775, 0.002637, 0.002287, 0.001428, 0.001166, 0.000868, 0.000848, 0.000744 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.754395, 0.72168, 0.750488, 0.647949, 0.601074, 0.624023, 0.547852, 0.540527, 0.494141 ] }, { "question_id": "10117051", "image_id": 425292, "question": "có bao nhiêu con bò trên cánh đồng cỏ xanh", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.433461, "confidences": [ 0.433461, 0.31221, 0.175134, 0.050373, 0.008652, 0.006925, 0.002374, 0.001579, 0.000862, 0.000499 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.86377, 0.819824, 0.805664, 0.615723, 0.659668, 0.605469, 0.58252, 0.480225, 0.474854 ] }, { "question_id": "10021301", "image_id": 403424, "question": "màu của chiếc bình là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xanh lá", "màu nâu", "màu vàng", "màu đỏ", "màu xanh dương", "màu đen", "màu xám", "màu cam", "màu tía" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.669529, "confidences": [ 0.669529, 0.127284, 0.103481, 0.052442, 0.010992, 0.010326, 0.009184, 0.002626, 0.002415, 0.001998 ], "gate_score_top1": 0.902344, "gate_scores": [ 0.902344, 0.816895, 0.813965, 0.797363, 0.770996, 0.742676, 0.756836, 0.760742, 0.737305, 0.746094 ] }, { "question_id": "10111081", "image_id": 498218, "question": "có bao nhiêu người đi xe tay ga trên đường thành phố", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "sáu", "một", "bảy", "mười", "tám", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.816523, "confidences": [ 0.816523, 0.094519, 0.074771, 0.006533, 0.001391, 0.001343, 0.000352, 0.000332, 0.000312, 0.000146 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.853516, 0.836426, 0.702637, 0.500977, 0.639648, 0.500488, 0.419922, 0.46582, 0.392334 ] }, { "question_id": "10006021", "image_id": 101675, "question": "màu của đồng hồ là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu trắng", "màu đen", "màu xanh lá", "màu vàng", "màu nâu", "màu xanh dương", "màu đỏ", "màu xám", "màu cam" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.872658, "confidences": [ 0.872658, 0.044651, 0.034504, 0.012743, 0.006768, 0.005926, 0.004057, 0.002911, 0.002899, 0.001745 ], "gate_score_top1": 0.900391, "gate_scores": [ 0.900391, 0.768066, 0.796387, 0.698242, 0.662598, 0.728516, 0.699219, 0.759277, 0.739258, 0.700684 ] }, { "question_id": "10051161", "image_id": 573094, "question": "cây giáng sinh sáng lên ở đâu", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "cửa sổ", "cái ghế", "chung cư", "phòng ngủ", "cây", "đi văng", "nhiều cái ghế", "tòa nhà" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.850877, "confidences": [ 0.850877, 0.037678, 0.021218, 0.01447, 0.009714, 0.005471, 0.004065, 0.00298, 0.002877, 0.002767 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.837402, 0.766113, 0.731934, 0.697266, 0.732422, 0.564453, 0.568359, 0.57666, 0.62207 ] }, { "question_id": "10105501", "image_id": 267216, "question": "có bao nhiêu người ngồi quanh chiếc bàn gỗ trong khi một người phụ nữ đứng dang rộng cánh tay", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "một", "hai", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.757717, "confidences": [ 0.757717, 0.177183, 0.044624, 0.012152, 0.001758, 0.000865, 0.000771, 0.000738, 0.00048, 0.000251 ], "gate_score_top1": 0.908203, "gate_scores": [ 0.908203, 0.846191, 0.791992, 0.684082, 0.664551, 0.614746, 0.641602, 0.589844, 0.561523, 0.467285 ] }, { "question_id": "10074771", "image_id": 565996, "question": "những gì đang di chuyển trên đường ray", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe điện ngầm", "xe ô tô", "xe điện", "trạm", "động cơ", "cửa", "các tòa nhà", "đường sắt", "xe buýt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.941788, "confidences": [ 0.941788, 0.014079, 0.009638, 0.00844, 0.003417, 0.002267, 0.001601, 0.001284, 0.001174, 0.000768 ], "gate_score_top1": 0.908691, "gate_scores": [ 0.908691, 0.744141, 0.745605, 0.765137, 0.712402, 0.70459, 0.571289, 0.669434, 0.598633, 0.638184 ] }, { "question_id": "10046241", "image_id": 439326, "question": "gấu trúc đang điều tra một vật lạ ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "gấu trúc", "lồng", "cái rổ", "cửa tiệm", "rào chắn", "sân", "cây", "cửa hàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.610136, "confidences": [ 0.610136, 0.147202, 0.075478, 0.024219, 0.004524, 0.004402, 0.004055, 0.003088, 0.002924, 0.002873 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.822266, 0.785645, 0.744629, 0.73877, 0.651855, 0.613281, 0.582031, 0.623047, 0.672852 ] }, { "question_id": "10069761", "image_id": 470032, "question": "những gì treo ngược từ dây", "ground_truth": "con chim", "ground_truth_normalized": "con chim", "predicted_top1": "con vẹt", "predicted_topk": [ "con vẹt", "con chim", "hải âu", "con vịt", "chim bồ câu", "tách", "hươu cao cổ", "con chó", "cửa sổ", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.577951, "confidences": [ 0.577951, 0.346461, 0.007506, 0.001134, 0.001052, 0.001015, 0.000963, 0.000936, 0.000929, 0.000884 ], "gate_score_top1": 0.830078, "gate_scores": [ 0.830078, 0.831055, 0.619141, 0.647949, 0.405762, 0.586914, 0.594238, 0.489258, 0.520996, 0.539062 ] }, { "question_id": "10066291", "image_id": 485288, "question": "những gì đặt với pizza trên bàn màu cam", "ground_truth": "đĩa", "ground_truth_normalized": "đĩa", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "quán ăn", "bữa ăn", "món ăn", "đĩa", "pizza", "dĩa", "bánh", "bữa ăn tối", "chén đĩa" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.34281, "confidences": [ 0.34281, 0.146293, 0.094086, 0.03277, 0.032388, 0.028305, 0.016575, 0.011776, 0.010955, 0.010722 ], "gate_score_top1": 0.797363, "gate_scores": [ 0.797363, 0.733887, 0.756836, 0.650879, 0.592285, 0.695312, 0.626953, 0.575195, 0.528809, 0.521973 ] }, { "question_id": "10042051", "image_id": 64423, "question": "con mèo đang nằm ở đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "túi", "cái ví", "balo", "xe đẩy", "thùng chứa", "toa xe", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.721087, "confidences": [ 0.721087, 0.155946, 0.054316, 0.010489, 0.010286, 0.006474, 0.004389, 0.002901, 0.002259, 0.002077 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.866211, 0.796875, 0.74707, 0.733398, 0.657227, 0.708008, 0.706055, 0.623535, 0.67334 ] }, { "question_id": "10087961", "image_id": 576827, "question": "cái gì ngoài bãi biển nơi có một chiếc ô màu cam", "ground_truth": "hồ", "ground_truth_normalized": "hồ", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "bờ biển", "cái ghế", "hồ", "băng ghế", "nhiều cái ghế", "bức ảnh", "tường", "màu cam", "rau" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.500172, "confidences": [ 0.500172, 0.094717, 0.050402, 0.012448, 0.010071, 0.010022, 0.009535, 0.00525, 0.005084, 0.004837 ], "gate_score_top1": 0.783203, "gate_scores": [ 0.783203, 0.708496, 0.697754, 0.474854, 0.604492, 0.480713, 0.554688, 0.495361, 0.559082, 0.423096 ] }, { "question_id": "10017801", "image_id": 222122, "question": "màu của gấu là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu nâu", "màu xám", "màu cam", "màu trắng", "màu vàng", "màu đỏ", "gấu", "màu xanh lá", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.743303, "confidences": [ 0.743303, 0.237574, 0.003579, 0.003134, 0.002809, 0.001327, 0.001249, 0.000606, 0.000335, 0.000267 ], "gate_score_top1": 0.895996, "gate_scores": [ 0.895996, 0.880371, 0.769043, 0.71875, 0.793945, 0.732422, 0.658203, 0.654297, 0.528809, 0.590332 ] }, { "question_id": "10003701", "image_id": 219413, "question": "màu của ghế sofa là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu trắng", "màu xanh lá", "màu nâu", "màu tía", "màu xanh dương", "màu đỏ", "màu cam", "màu vàng" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.623142, "confidences": [ 0.623142, 0.179232, 0.090123, 0.038762, 0.037569, 0.006503, 0.005875, 0.003591, 0.003354, 0.001311 ], "gate_score_top1": 0.87207, "gate_scores": [ 0.87207, 0.836914, 0.862305, 0.771484, 0.82373, 0.798828, 0.724609, 0.71875, 0.731445, 0.653809 ] }, { "question_id": "10032311", "image_id": 153123, "question": "người đàn ông đứng ở đâu bên cạnh áo sơ mi", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa tiệm", "áo vest", "cửa sổ", "cái kệ", "văn phòng", "cà vạt", "hộp", "cửa", "ảnh chụp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.14697, "confidences": [ 0.14697, 0.113127, 0.067156, 0.039634, 0.032411, 0.028827, 0.026402, 0.02539, 0.018146, 0.016329 ], "gate_score_top1": 0.813477, "gate_scores": [ 0.813477, 0.77002, 0.672363, 0.639648, 0.664551, 0.658203, 0.621582, 0.65625, 0.682129, 0.469727 ] }, { "question_id": "10051291", "image_id": 105877, "question": "người phụ nữ đang mọc tóc ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "giường", "hành lang", "gương", "chung cư", "ô cửa", "nhà ở", "cái ghế", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.498977, "confidences": [ 0.498977, 0.399376, 0.028371, 0.009103, 0.006912, 0.002876, 0.002766, 0.002686, 0.00156, 0.001551 ], "gate_score_top1": 0.900879, "gate_scores": [ 0.900879, 0.849609, 0.664551, 0.666504, 0.805176, 0.636719, 0.568848, 0.716309, 0.550293, 0.535645 ] }, { "question_id": "10026961", "image_id": 322180, "question": "nhiều cái ghế ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "hành lang", "cửa sổ", "tòa nhà", "nhiều cái ghế", "ô cửa", "chung cư", "đi văng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.475447, "confidences": [ 0.475447, 0.361701, 0.081977, 0.00909, 0.006032, 0.004319, 0.003477, 0.003216, 0.00321, 0.002353 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.880371, 0.84668, 0.691406, 0.703125, 0.59668, 0.598633, 0.577148, 0.646484, 0.556152 ] }, { "question_id": "10033031", "image_id": 298481, "question": "nơi trang trí trông rất thanh lịch", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "quán ăn", "lọ cắm hoa", "ô cửa", "nhiều cái ghế", "quán bar", "bức ảnh", "cửa sổ", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.416081, "confidences": [ 0.416081, 0.287087, 0.06687, 0.031773, 0.009843, 0.006355, 0.006196, 0.005854, 0.004949, 0.004609 ], "gate_score_top1": 0.816406, "gate_scores": [ 0.816406, 0.750488, 0.774902, 0.671875, 0.556641, 0.543945, 0.619141, 0.521973, 0.650879, 0.640625 ] }, { "question_id": "10066721", "image_id": 519703, "question": "những gì đông đúc với những chiếc thuyền buồm trên mặt nước trong xanh yên tĩnh", "ground_truth": "bến du thuyền", "ground_truth_normalized": "bến du thuyền", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "bến du thuyền", "thuyền buồm", "ca nô", "xe đạp", "hàng hoá", "cầu", "bến tàu", "cây sào", "hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.771872, "confidences": [ 0.771872, 0.164341, 0.0164, 0.004635, 0.001559, 0.001516, 0.001312, 0.001301, 0.001079, 0.000837 ], "gate_score_top1": 0.806152, "gate_scores": [ 0.806152, 0.790527, 0.686523, 0.547852, 0.577637, 0.480957, 0.545898, 0.458496, 0.482178, 0.388672 ] }, { "question_id": "10087701", "image_id": 512330, "question": "mở thứ gì có trưng bày nhiều lựa chọn thực phẩm bên trong", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "cái kệ", "chai", "cửa ra vào", "phòng bếp", "lò vi sóng", "tường", "rau" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.397087, "confidences": [ 0.397087, 0.380386, 0.075196, 0.052907, 0.011577, 0.003686, 0.002441, 0.001897, 0.001828, 0.001798 ], "gate_score_top1": 0.833496, "gate_scores": [ 0.833496, 0.817383, 0.802246, 0.786621, 0.668945, 0.486328, 0.505371, 0.552734, 0.615234, 0.645996 ] }, { "question_id": "10034971", "image_id": 42690, "question": "hai chiếc xe máy đang ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "đường", "predicted_topk": [ "đường", "đường phố", "ga-ra", "xe máy", "chuồng", "gương", "xe tay ga", "tòa nhà", "cửa tiệm", "ảnh chụp" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.694211, "confidences": [ 0.694211, 0.139394, 0.025485, 0.021629, 0.015367, 0.00746, 0.005983, 0.004144, 0.003586, 0.003572 ], "gate_score_top1": 0.876953, "gate_scores": [ 0.876953, 0.84082, 0.733398, 0.733398, 0.728027, 0.71582, 0.641602, 0.600098, 0.556641, 0.489502 ] }, { "question_id": "10078591", "image_id": 557552, "question": "những gì đỗ thành hàng bên đường", "ground_truth": "xe tay ga", "ground_truth_normalized": "xe tay ga", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "đường", "mũ", "xe cộ", "con khỉ", "ga-ra", "xe buýt", "cây" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.546751, "confidences": [ 0.546751, 0.249345, 0.158493, 0.002623, 0.002116, 0.001292, 0.000923, 0.000759, 0.000754, 0.000723 ], "gate_score_top1": 0.850098, "gate_scores": [ 0.850098, 0.841797, 0.808105, 0.647461, 0.496094, 0.539551, 0.40625, 0.559082, 0.634766, 0.477539 ] }, { "question_id": "10058461", "image_id": 559113, "question": "những gì đang đi xuống phố", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "xe đẩy", "predicted_topk": [ "xe đẩy", "xe ô tô", "xe tải", "xe buýt", "phương tiện giao thông", "xe", "xe cộ", "tàu hỏa", "động cơ", "toa xe" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.842335, "confidences": [ 0.842335, 0.040174, 0.024462, 0.012109, 0.011829, 0.008178, 0.004386, 0.002956, 0.002223, 0.001923 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.755859, 0.787109, 0.785645, 0.716309, 0.672852, 0.713379, 0.601562, 0.57373, 0.506836 ] }, { "question_id": "10078661", "image_id": 426777, "question": "những gì đứng đầu với một nửa pizza", "ground_truth": "chảo", "ground_truth_normalized": "chảo", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "đĩa ăn", "món ăn", "bữa ăn", "chảo", "hộp", "quán ăn", "đĩa", "dĩa", "cây" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.365481, "confidences": [ 0.365481, 0.272665, 0.062771, 0.0364, 0.032693, 0.008396, 0.007675, 0.006974, 0.006947, 0.00676 ], "gate_score_top1": 0.827148, "gate_scores": [ 0.827148, 0.802246, 0.723145, 0.702637, 0.69043, 0.628906, 0.584961, 0.574219, 0.61377, 0.635254 ] }, { "question_id": "10090981", "image_id": 581402, "question": "con gì nằm bên trong nôi", "ground_truth": "mèo con", "ground_truth_normalized": "mèo con", "predicted_top1": "con mèo", "predicted_topk": [ "con mèo", "bát", "chậu", "giường", "màu cam", "cái rổ", "con chó", "tách", "cái nồi", "thùng chứa" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.874546, "confidences": [ 0.874546, 0.042866, 0.01493, 0.003235, 0.002849, 0.002193, 0.001545, 0.001502, 0.001354, 0.001323 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.692871, 0.702637, 0.532227, 0.626465, 0.571289, 0.665039, 0.58252, 0.475586, 0.510742 ] }, { "question_id": "10025061", "image_id": 311488, "question": "khu vực giải trí chứa một tv nhỏ, hoa, phim, sách và chăn ở đâu", "ground_truth": "cái nồi", "ground_truth_normalized": "cái nồi", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "lọ cắm hoa", "chung cư", "văn phòng", "cửa sổ", "cái kệ", "hộp", "cái nồi" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.45216, "confidences": [ 0.45216, 0.086296, 0.060955, 0.026681, 0.025065, 0.016057, 0.015382, 0.013707, 0.012073, 0.011702 ], "gate_score_top1": 0.800293, "gate_scores": [ 0.800293, 0.796387, 0.742188, 0.658691, 0.609375, 0.586426, 0.671387, 0.621582, 0.661621, 0.536133 ] }, { "question_id": "10113641", "image_id": 205533, "question": "có bao nhiêu thân cây tre mọc trên giá treo khăn tắm", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "bốn", "ba", "năm", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.340492, "confidences": [ 0.340492, 0.286723, 0.259033, 0.053664, 0.03547, 0.009109, 0.00511, 0.001595, 0.000842, 0.000674 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.844238, 0.864746, 0.804199, 0.769531, 0.59375, 0.64209, 0.578125, 0.493164, 0.486816 ] }, { "question_id": "10100611", "image_id": 547583, "question": "những gì được mở cho hành khách", "ground_truth": "cửa ra vào", "ground_truth_normalized": "cửa ra vào", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "cửa", "xe ô tô", "xe điện ngầm", "xe buýt", "xe điện", "trạm", "xe đẩy", "phương tiện giao thông", "bộ đồ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.204225, "confidences": [ 0.204225, 0.117277, 0.102291, 0.097988, 0.081235, 0.051234, 0.030355, 0.021864, 0.018376, 0.009874 ], "gate_score_top1": 0.777344, "gate_scores": [ 0.777344, 0.685059, 0.726562, 0.703125, 0.751465, 0.708496, 0.648926, 0.691895, 0.684082, 0.510254 ] }, { "question_id": "10013641", "image_id": 73244, "question": "màu của bầu trời là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu xanh dương", "màu trắng", "màu xám", "màu vàng", "màu tía", "màu đen", "màu nâu", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.575915, "confidences": [ 0.575915, 0.405207, 0.005283, 0.002929, 0.001709, 0.001571, 0.000947, 0.000519, 0.000513, 0.000253 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.880859, 0.760254, 0.723633, 0.726074, 0.694336, 0.611816, 0.643066, 0.678223, 0.703613 ] }, { "question_id": "10059901", "image_id": 411184, "question": "những gì đang trải dài trên chiều rộng của một dòng sông", "ground_truth": "cầu", "ground_truth_normalized": "cầu", "predicted_top1": "các tòa nhà", "predicted_topk": [ "các tòa nhà", "cầu", "đồng hồ", "tàu hỏa", "tòa tháp", "bức ảnh", "xe ô tô", "con thuyền", "tòa nhà", "lá cờ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.378153, "confidences": [ 0.378153, 0.336336, 0.028764, 0.024507, 0.015669, 0.008322, 0.007972, 0.007757, 0.007174, 0.006418 ], "gate_score_top1": 0.722656, "gate_scores": [ 0.722656, 0.805664, 0.67627, 0.682617, 0.651367, 0.680176, 0.64209, 0.573242, 0.654297, 0.619629 ] }, { "question_id": "10064631", "image_id": 453093, "question": "những gì đang làm sạch trên sàn trong một phòng tắm lát gạch", "ground_truth": "trang thiết bị", "ground_truth_normalized": "trang thiết bị", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "bồn tắm", "khăn", "bồn tiểu", "vòi hoa sen", "tường", "bức ảnh", "cửa", "chậu", "phòng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.668009, "confidences": [ 0.668009, 0.051311, 0.039495, 0.02958, 0.019898, 0.016658, 0.012599, 0.007349, 0.005558, 0.00516 ], "gate_score_top1": 0.808105, "gate_scores": [ 0.808105, 0.779785, 0.740234, 0.676758, 0.638184, 0.58252, 0.568359, 0.594238, 0.59375, 0.662109 ] }, { "question_id": "10107581", "image_id": 166124, "question": "có bao nhiêu cái bánh mì tròn đang ngồi trên khay bạc", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bốn", "năm", "bảy", "tám", "chín", "ba", "donut", "mười", "một" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.357413, "confidences": [ 0.357413, 0.251471, 0.231666, 0.091077, 0.018004, 0.004447, 0.004293, 0.001935, 0.001484, 0.001107 ], "gate_score_top1": 0.80957, "gate_scores": [ 0.80957, 0.797852, 0.789551, 0.785645, 0.683594, 0.634766, 0.61377, 0.688965, 0.49707, 0.492432 ] }, { "question_id": "10073241", "image_id": 438426, "question": "những gì, với một chiếc cà vạt và áo khoác", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "cà vạt", "predicted_topk": [ "cà vạt", "đồng hồ", "bộ đồ", "áo sơ mi", "nón", "điện thoại", "áo vest", "bức tượng", "bức ảnh", "mũ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.764988, "confidences": [ 0.764988, 0.095004, 0.021448, 0.019491, 0.004487, 0.004349, 0.00277, 0.002062, 0.001993, 0.001964 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.818359, 0.652344, 0.659668, 0.700195, 0.660156, 0.611816, 0.640625, 0.594727, 0.600098 ] }, { "question_id": "10011031", "image_id": 205875, "question": "màu sắc của sơ đồ là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu xanh dương", "màu trắng", "màu xám", "màu đen", "màu tía", "màu vàng", "màu cam", "màu đỏ", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.503769, "confidences": [ 0.503769, 0.365697, 0.054356, 0.018932, 0.010703, 0.006992, 0.005729, 0.004703, 0.003839, 0.002792 ], "gate_score_top1": 0.864258, "gate_scores": [ 0.864258, 0.837891, 0.821777, 0.747559, 0.692871, 0.744141, 0.739746, 0.703125, 0.683594, 0.599609 ] }, { "question_id": "10060381", "image_id": 515226, "question": "những con chó gì ngồi trên băng ghế ở bãi biển", "ground_truth": "pug", "ground_truth_normalized": "pug", "predicted_top1": "con chó", "predicted_topk": [ "con chó", "băng ghế", "cái ghế", "con chim", "cửa sổ", "đồng hồ", "sân", "nón", "đồ chơi", "bức tượng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 1, "confidence_top1": 0.133555, "confidences": [ 0.133555, 0.124974, 0.057329, 0.047066, 0.033505, 0.026299, 0.024609, 0.015536, 0.014132, 0.013564 ], "gate_score_top1": 0.746094, "gate_scores": [ 0.746094, 0.736328, 0.653809, 0.624512, 0.662598, 0.577637, 0.621094, 0.582031, 0.599121, 0.564453 ] }, { "question_id": "10117711", "image_id": 510857, "question": "có bao nhiêu ván lướt sóng với những cánh buồm trên mặt nước", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "hai", "một", "mười" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.628949, "confidences": [ 0.628949, 0.222513, 0.062274, 0.05244, 0.01663, 0.002457, 0.002224, 0.001499, 0.001333, 0.000906 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.82666, 0.736816, 0.777344, 0.72168, 0.575684, 0.630371, 0.59668, 0.567871, 0.515137 ] }, { "question_id": "10067681", "image_id": 478553, "question": "những gì hôn nhau trong một cánh đồng đất", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "hươu cao cổ", "bãi cỏ", "con ngựa", "con chó", "con chim", "tàu hỏa", "rào chắn", "con bò" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.8772, "confidences": [ 0.8772, 0.115064, 0.001159, 0.000377, 0.000353, 0.00025, 0.00018, 0.000163, 0.00012, 0.000116 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.86377, 0.705566, 0.610352, 0.637207, 0.589844, 0.564941, 0.61377, 0.432373, 0.617188 ] }, { "question_id": "10011811", "image_id": 382356, "question": "màu của con chó là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu nâu", "màu trắng", "màu đỏ", "màu vàng", "màu tía", "màu cam", "màu xanh dương", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.511613, "confidences": [ 0.511613, 0.441038, 0.015693, 0.013687, 0.005115, 0.000978, 0.000811, 0.000469, 0.000447, 0.000331 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.883789, 0.795898, 0.800781, 0.744141, 0.661133, 0.661133, 0.648438, 0.610352, 0.45459 ] }, { "question_id": "10047701", "image_id": 268798, "question": "người đàn ông đứng ở đâu trước một chiếc máy bay nhỏ", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "sân bay", "predicted_topk": [ "sân bay", "ga-ra", "áo vest", "kho", "bảo tàng", "máy bay", "trạm", "bầu trời", "tòa nhà", "sân vận động" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.541351, "confidences": [ 0.541351, 0.156928, 0.035706, 0.031882, 0.02592, 0.021955, 0.021031, 0.011368, 0.009461, 0.008464 ], "gate_score_top1": 0.829102, "gate_scores": [ 0.829102, 0.782227, 0.682129, 0.697266, 0.75, 0.605957, 0.665039, 0.523926, 0.674316, 0.649414 ] }, { "question_id": "10037601", "image_id": 471783, "question": "người đàn ông nhìn về phía sau ở một làn sóng lớn ở đâu", "ground_truth": "ca nô", "ground_truth_normalized": "ca nô", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "ca nô", "trượt tuyết", "bảng", "áo vest", "con thuyền", "vạch kẻ đường", "bờ biển", "núi", "cái lều" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.284723, "confidences": [ 0.284723, 0.142609, 0.050158, 0.04712, 0.032575, 0.021615, 0.016703, 0.012161, 0.0107, 0.010131 ], "gate_score_top1": 0.776855, "gate_scores": [ 0.776855, 0.619141, 0.753906, 0.693848, 0.597656, 0.569336, 0.662598, 0.484619, 0.613281, 0.506836 ] }, { "question_id": "10069261", "image_id": 532463, "question": "những gì được bao phủ trong những chiếc túi kiểu dáng khác nhau", "ground_truth": "băng ghế", "ground_truth_normalized": "băng ghế", "predicted_top1": "túi", "predicted_topk": [ "túi", "cái ví", "cái túi", "balo", "hành lý", "vali", "cái ghế", "băng ghế", "thùng chứa", "xe đẩy" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.235687, "confidences": [ 0.235687, 0.193871, 0.095599, 0.065961, 0.030795, 0.02876, 0.022442, 0.013245, 0.011351, 0.009023 ], "gate_score_top1": 0.803711, "gate_scores": [ 0.803711, 0.800781, 0.767578, 0.759766, 0.707031, 0.686035, 0.61377, 0.594727, 0.640137, 0.65918 ] }, { "question_id": "10055681", "image_id": 389081, "question": "những gì được phục vụ trên đĩa", "ground_truth": "điểm tâm", "ground_truth_normalized": "điểm tâm", "predicted_top1": "bữa ăn", "predicted_topk": [ "bữa ăn", "đĩa ăn", "sandwich", "dĩa", "cái mâm", "búi tóc", "thịt", "món ăn", "bữa trưa", "cái nĩa" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.230163, "confidences": [ 0.230163, 0.213699, 0.132689, 0.057516, 0.024931, 0.019041, 0.016511, 0.014401, 0.013822, 0.012414 ], "gate_score_top1": 0.777344, "gate_scores": [ 0.777344, 0.779785, 0.804199, 0.679199, 0.661133, 0.690918, 0.612793, 0.658691, 0.490234, 0.646484 ] }, { "question_id": "10110761", "image_id": 124562, "question": "có bao nhiêu người cưỡi trên năm con ngựa dọc theo mép nước", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "tám", "chín", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.656096, "confidences": [ 0.656096, 0.219765, 0.076246, 0.031537, 0.004669, 0.002529, 0.001391, 0.001192, 0.000719, 0.000681 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.836914, 0.820801, 0.716797, 0.693848, 0.654785, 0.612305, 0.587402, 0.539551, 0.522461 ] }, { "question_id": "10022891", "image_id": 477634, "question": "màu của lông là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu đen", "màu xám", "màu xanh lá", "màu trắng", "màu vàng", "màu nâu", "màu tía", "màu cam", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.494031, "confidences": [ 0.494031, 0.264435, 0.096901, 0.050666, 0.044538, 0.016643, 0.015881, 0.004479, 0.002015, 0.001524 ], "gate_score_top1": 0.880371, "gate_scores": [ 0.880371, 0.833984, 0.834961, 0.769531, 0.844727, 0.802246, 0.794922, 0.765625, 0.760254, 0.704102 ] }, { "question_id": "10075431", "image_id": 424975, "question": "những gì xây dựng bao phủ với một người phụ nữ đi qua nó", "ground_truth": "vẽ tranh lên tường", "ground_truth_normalized": "vẽ tranh lên tường", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "vẽ tranh lên tường", "vòi", "đường phố", "bức ảnh", "cửa hàng", "tường", "ảnh chụp", "cửa tiệm", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.171881, "confidences": [ 0.171881, 0.110975, 0.044663, 0.036667, 0.030517, 0.027196, 0.026052, 0.022327, 0.01749, 0.016592 ], "gate_score_top1": 0.791992, "gate_scores": [ 0.791992, 0.614258, 0.674805, 0.658691, 0.547852, 0.666992, 0.522461, 0.599121, 0.629883, 0.666992 ] }, { "question_id": "10115751", "image_id": 566042, "question": "có bao nhiêu hươu cao cổ đang đứng nhìn cùng một hướng", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.419033, "confidences": [ 0.419033, 0.387542, 0.140908, 0.027638, 0.005153, 0.004692, 0.003089, 0.001328, 0.000843, 0.000207 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.84668, 0.813477, 0.771973, 0.654297, 0.64209, 0.691895, 0.561523, 0.550293, 0.451904 ] }, { "question_id": "10075061", "image_id": 405882, "question": "cái gì bên cạnh bánh lớn, trang trí rực rỡ", "ground_truth": "dĩa", "ground_truth_normalized": "dĩa", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "dao", "đĩa ăn", "cupcake", "nến", "món tráng miệng", "sô cô la", "dĩa", "bông hoa", "cái mâm" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.91725, "confidences": [ 0.91725, 0.007383, 0.006037, 0.004469, 0.003936, 0.003542, 0.003474, 0.001903, 0.001781, 0.001535 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.670898, 0.725586, 0.665039, 0.626953, 0.580078, 0.558594, 0.558594, 0.631836, 0.556641 ] }, { "question_id": "10095651", "image_id": 573796, "question": "những gì có con dao với một quả táo dính máu ướt đẫm", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "dao", "predicted_topk": [ "dao", "cây kéo", "quầy tính tiền", "tách", "chảo", "tường", "bát", "quả táo", "chuối", "máy xay" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.541614, "confidences": [ 0.541614, 0.051372, 0.024409, 0.016974, 0.015215, 0.012565, 0.011919, 0.011552, 0.008288, 0.007994 ], "gate_score_top1": 0.81543, "gate_scores": [ 0.81543, 0.726562, 0.720215, 0.738281, 0.633789, 0.583008, 0.662598, 0.620117, 0.581055, 0.638184 ] }, { "question_id": "10073911", "image_id": 423215, "question": "chuyến tàu chở những gì dừng lại ở một nhà ga xe lửa", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "hàng hoá", "đường sắt", "xe điện ngầm", "các tòa nhà", "cầu", "trạm", "xe điện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.4333, "confidences": [ 0.4333, 0.142887, 0.117996, 0.090825, 0.062179, 0.014972, 0.013739, 0.010032, 0.009134, 0.004077 ], "gate_score_top1": 0.859863, "gate_scores": [ 0.859863, 0.754883, 0.777344, 0.686035, 0.672363, 0.650391, 0.680664, 0.62793, 0.611816, 0.655273 ] }, { "question_id": "10113211", "image_id": 476065, "question": "có bao nhiêu người đang sử dụng máy tính xách tay trong một quán cà phê", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "sáu", "năm", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.576424, "confidences": [ 0.576424, 0.369271, 0.031642, 0.017339, 0.000619, 0.000572, 0.000176, 0.000173, 0.000141, 9e-05 ], "gate_score_top1": 0.883789, "gate_scores": [ 0.883789, 0.885254, 0.823242, 0.820312, 0.445312, 0.619141, 0.474609, 0.466797, 0.404297, 0.384277 ] }, { "question_id": "10061841", "image_id": 575624, "question": "những gì đang nằm trên cỏ bên cạnh cây và chuồng", "ground_truth": "con ngựa", "ground_truth_normalized": "con ngựa", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "con ngựa", "gia súc", "ngựa vằn", "bò đực", "con chó", "bãi cỏ", "ngựa rằn", "hươu cao cổ", "con cừu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.546873, "confidences": [ 0.546873, 0.201971, 0.078477, 0.033229, 0.012711, 0.012441, 0.007831, 0.006979, 0.006417, 0.005674 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.819824, 0.740234, 0.734375, 0.63623, 0.679199, 0.665527, 0.637207, 0.628906, 0.692871 ] }, { "question_id": "10032271", "image_id": 339639, "question": "người đang cầm xúc xích ở đâu", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "cái rổ", "predicted_topk": [ "cái rổ", "cái mâm", "giấy bạc", "thùng chứa", "hộp", "sandwich", "quán ăn", "món ăn", "sân vận động", "đĩa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.328539, "confidences": [ 0.328539, 0.174486, 0.102175, 0.060537, 0.04912, 0.019049, 0.01364, 0.00994, 0.009158, 0.008241 ], "gate_score_top1": 0.833496, "gate_scores": [ 0.833496, 0.801758, 0.777832, 0.751465, 0.724609, 0.728027, 0.706055, 0.694336, 0.629395, 0.64502 ] }, { "question_id": "10031901", "image_id": 549575, "question": "một nhà bếp không có đồ đạc ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "nhà ở", "phòng", "cửa sổ", "lò vi sóng", "phòng tắm", "tường", "quán ăn", "tòa nhà", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.474677, "confidences": [ 0.474677, 0.293584, 0.063492, 0.021942, 0.006999, 0.006864, 0.006153, 0.004886, 0.00444, 0.004075 ], "gate_score_top1": 0.839844, "gate_scores": [ 0.839844, 0.825684, 0.811035, 0.728516, 0.563477, 0.660156, 0.540039, 0.670898, 0.648438, 0.621094 ] }, { "question_id": "10051361", "image_id": 498649, "question": "những chiếc bánh rán rắc đường nằm ở đâu", "ground_truth": "cái rổ", "ground_truth_normalized": "cái rổ", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái rổ", "thùng chứa", "món ăn", "chảo", "cái nồi", "cái mâm", "giấy bạc", "hộp", "chén đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.562385, "confidences": [ 0.562385, 0.184732, 0.076111, 0.027565, 0.025295, 0.016016, 0.010121, 0.009197, 0.008325, 0.003505 ], "gate_score_top1": 0.85498, "gate_scores": [ 0.85498, 0.850098, 0.808594, 0.766602, 0.715332, 0.747559, 0.714844, 0.72168, 0.693848, 0.649414 ] }, { "question_id": "10082941", "image_id": 471737, "question": "những gì đang đi xuống một số đường ray", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "đường sắt", "các tòa nhà", "hàng hoá", "cây", "xe đẩy", "xe điện ngầm", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.551395, "confidences": [ 0.551395, 0.373092, 0.021973, 0.004072, 0.003304, 0.003298, 0.00232, 0.001024, 0.001023, 0.001014 ], "gate_score_top1": 0.898926, "gate_scores": [ 0.898926, 0.854004, 0.72998, 0.546875, 0.641602, 0.563477, 0.588379, 0.595703, 0.568848, 0.51123 ] }, { "question_id": "10069911", "image_id": 539419, "question": "những gì được trình bày trên sàn bên cạnh một chiếc vali mở", "ground_truth": "túi", "ground_truth_normalized": "túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "túi", "cái túi", "hành lý", "balo", "cái ví", "xe đẩy", "sàn nhà", "cái ghế", "toa xe" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.539265, "confidences": [ 0.539265, 0.130613, 0.101721, 0.086668, 0.017505, 0.011127, 0.005944, 0.004739, 0.003501, 0.003315 ], "gate_score_top1": 0.804688, "gate_scores": [ 0.804688, 0.787598, 0.795898, 0.744629, 0.660156, 0.69873, 0.651855, 0.55127, 0.562012, 0.588867 ] }, { "question_id": "10066771", "image_id": 513690, "question": "các vòi chữa cháy và những gì đang ngồi bên lề đường nơi xe đang lái", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "đường phố", "ảnh chụp", "tòa nhà", "cây", "bức ảnh", "đường", "tường", "nón", "lá cờ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.306034, "confidences": [ 0.306034, 0.088541, 0.034945, 0.033215, 0.028134, 0.020503, 0.020067, 0.016767, 0.01503, 0.012868 ], "gate_score_top1": 0.765137, "gate_scores": [ 0.765137, 0.688477, 0.631348, 0.768066, 0.728516, 0.558105, 0.706543, 0.579102, 0.617676, 0.566406 ] }, { "question_id": "10036631", "image_id": 260285, "question": "nắp bát nhà vệ sinh nằm ở đâu khi các thông báo nằm trên tường đằng sau nó", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "chuồng", "phòng", "tòa nhà", "vòi hoa sen", "trạm", "bồn tiểu", "ô cửa", "nhà ở", "ga-ra" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.557999, "confidences": [ 0.557999, 0.088288, 0.04527, 0.036589, 0.021468, 0.015045, 0.014413, 0.014217, 0.010062, 0.008776 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.702637, 0.744141, 0.694336, 0.651367, 0.635742, 0.560547, 0.538574, 0.723145, 0.658203 ] }, { "question_id": "10070531", "image_id": 555023, "question": "con hươu cao cổ thè cái lưỡi dài ra, có lẽ đang nếm", "ground_truth": "đường sắt", "ground_truth_normalized": "đường sắt", "predicted_top1": "cây", "predicted_topk": [ "cây", "chuồng", "bãi cỏ", "vườn bách thú", "lá", "đồi", "lồng", "rào chắn", "thân cây", "đường sắt" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.117541, "confidences": [ 0.117541, 0.107441, 0.103325, 0.083024, 0.072415, 0.063285, 0.030603, 0.026023, 0.020188, 0.017955 ], "gate_score_top1": 0.812988, "gate_scores": [ 0.812988, 0.644043, 0.740723, 0.763184, 0.658691, 0.683105, 0.683105, 0.602051, 0.632324, 0.584961 ] }, { "question_id": "10105191", "image_id": 78000, "question": "có bao nhiêu con ngựa vằn đứng trước một đống cành cây", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.608968, "confidences": [ 0.608968, 0.357994, 0.018825, 0.008354, 0.000667, 0.000473, 0.00035, 0.0003, 0.000235, 0.000123 ], "gate_score_top1": 0.910645, "gate_scores": [ 0.910645, 0.869629, 0.81543, 0.720215, 0.46582, 0.640625, 0.499268, 0.507812, 0.486084, 0.398926 ] }, { "question_id": "10104021", "image_id": 99498, "question": "có bao nhiêu loại điện thoại di động khác nhau trên bàn", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.486761, "confidences": [ 0.486761, 0.391124, 0.058591, 0.032611, 0.015284, 0.002794, 0.001742, 0.001061, 0.000823, 0.000555 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.855469, 0.71875, 0.762207, 0.731445, 0.592285, 0.631836, 0.558105, 0.566406, 0.54541 ] }, { "question_id": "10033881", "image_id": 106331, "question": "bóng chày bị bắt ở đâu", "ground_truth": "găng tay", "ground_truth_normalized": "găng tay", "predicted_top1": "sân vận động", "predicted_topk": [ "sân vận động", "găng tay", "lồng", "gậy", "quả bóng", "hộp", "chuồng", "vườn bách thú", "áo sơ mi", "rào chắn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.58813, "confidences": [ 0.58813, 0.12819, 0.072472, 0.060316, 0.018758, 0.016297, 0.012968, 0.003924, 0.002994, 0.002229 ], "gate_score_top1": 0.799805, "gate_scores": [ 0.799805, 0.803711, 0.809082, 0.728027, 0.697266, 0.560059, 0.664062, 0.636719, 0.513184, 0.533203 ] }, { "question_id": "10108191", "image_id": 552569, "question": "có bao nhiêu chỗ ngồi trong bàn phòng ăn", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.493599, "confidences": [ 0.493599, 0.350014, 0.082167, 0.047369, 0.012503, 0.003262, 0.002958, 0.001184, 0.00054, 0.000445 ], "gate_score_top1": 0.88916, "gate_scores": [ 0.88916, 0.869141, 0.808105, 0.823242, 0.629395, 0.684082, 0.650879, 0.595703, 0.483887, 0.492676 ] }, { "question_id": "10006731", "image_id": 58708, "question": "màu của áo là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu trắng", "màu đen", "màu nâu", "màu xám", "màu cam", "màu vàng", "màu xanh lá", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.53093, "confidences": [ 0.53093, 0.329662, 0.11893, 0.005006, 0.003374, 0.001896, 0.00061, 0.000506, 0.000361, 0.000335 ], "gate_score_top1": 0.871582, "gate_scores": [ 0.871582, 0.871094, 0.84375, 0.740234, 0.756348, 0.711426, 0.618164, 0.601562, 0.629883, 0.550293 ] }, { "question_id": "10101841", "image_id": 459182, "question": "hai người đang giữ gì trên bãi biển", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "trượt tuyết", "cây sào", "diều", "ca nô", "chiếc ô", "đồi", "ván trượt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.478543, "confidences": [ 0.478543, 0.246333, 0.055612, 0.018664, 0.017949, 0.010994, 0.007266, 0.006264, 0.006119, 0.005692 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.814941, 0.714844, 0.736328, 0.639648, 0.74707, 0.474365, 0.708496, 0.626953, 0.676758 ] }, { "question_id": "10118531", "image_id": 86668, "question": "có bao nhiêu người đàn ông xung quanh bàn với thức ăn trên đó", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "một", "hai", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.728159, "confidences": [ 0.728159, 0.174309, 0.049746, 0.02601, 0.008919, 0.002616, 0.001065, 0.000866, 0.000627, 0.000625 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.838379, 0.744141, 0.756836, 0.730957, 0.637207, 0.601074, 0.572266, 0.569824, 0.505859 ] }, { "question_id": "10027761", "image_id": 507249, "question": "xe đạp của người đàn ông và phụ nữ dừng ở đâu", "ground_truth": "giá đỡ", "ground_truth_normalized": "giá đỡ", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "xe đạp", "giá đỡ", "cái ghế", "ảnh chụp", "lối đi", "đường", "cửa sổ", "cái rổ", "xe lăn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.200934, "confidences": [ 0.200934, 0.048478, 0.045363, 0.04354, 0.039954, 0.039105, 0.030935, 0.02861, 0.02515, 0.025052 ], "gate_score_top1": 0.818848, "gate_scores": [ 0.818848, 0.679199, 0.597656, 0.73291, 0.566895, 0.592773, 0.73291, 0.661133, 0.765137, 0.727051 ] }, { "question_id": "10093581", "image_id": 508985, "question": "người dân cưỡi những gì đang đi trên đường", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "đường", "mũ", "xe cộ", "xe ô tô", "con khỉ", "xe", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.545247, "confidences": [ 0.545247, 0.298771, 0.07408, 0.012674, 0.006323, 0.005746, 0.001692, 0.001436, 0.001285, 0.00109 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.844238, 0.771973, 0.689941, 0.580566, 0.574219, 0.691895, 0.401123, 0.43335, 0.520996 ] }, { "question_id": "10076881", "image_id": 558107, "question": "những gì ngồi trên đỉnh của vòi chữa cháy", "ground_truth": "nón", "ground_truth_normalized": "nón", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "nón", "đồ chơi", "bánh ngọt", "donut", "con chó", "mũ", "bánh", "bức tượng", "cupcake" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.23499, "confidences": [ 0.23499, 0.164049, 0.023865, 0.013257, 0.011586, 0.011295, 0.011153, 0.009586, 0.009094, 0.008419 ], "gate_score_top1": 0.758789, "gate_scores": [ 0.758789, 0.725586, 0.61377, 0.657715, 0.600098, 0.658203, 0.494385, 0.600098, 0.617676, 0.589844 ] }, { "question_id": "10057271", "image_id": 464339, "question": "phòng khách có gì với một khuôn mặt gạch lớn", "ground_truth": "lò sưởi", "ground_truth_normalized": "lò sưởi", "predicted_top1": "cây", "predicted_topk": [ "cây", "cái kệ", "bức ảnh", "nhà ở", "tường", "lò sưởi", "đồng hồ", "cửa sổ", "cửa", "tòa nhà" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.19413, "confidences": [ 0.19413, 0.072258, 0.049372, 0.043741, 0.04223, 0.032442, 0.029597, 0.02863, 0.028297, 0.025815 ], "gate_score_top1": 0.732422, "gate_scores": [ 0.732422, 0.716309, 0.638184, 0.763672, 0.630371, 0.570312, 0.702637, 0.648438, 0.632812, 0.681641 ] }, { "question_id": "10115471", "image_id": 490647, "question": "có bao nhiêu người trượt tuyết ngồi trên tuyết bên cạnh hai người trượt tuyết đứng đối diện nhau", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "mười", "tám", "bảy", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.897125, "confidences": [ 0.897125, 0.075978, 0.021514, 0.000741, 0.000204, 0.000121, 9.3e-05, 8.4e-05, 8e-05, 7.6e-05 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.852539, 0.79834, 0.659668, 0.45459, 0.54541, 0.42627, 0.421143, 0.407959, 0.414307 ] }, { "question_id": "10119161", "image_id": 201, "question": "có bao nhiêu ván trượt tuyết được dựa trên tuyết trên một đường ray", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "ba", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.506767, "confidences": [ 0.506767, 0.30025, 0.103359, 0.054043, 0.005564, 0.00491, 0.002909, 0.002398, 0.001976, 0.001187 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.855469, 0.742676, 0.789062, 0.671387, 0.65625, 0.553711, 0.596191, 0.554688, 0.531738 ] }, { "question_id": "10073481", "image_id": 411043, "question": "và ăn những gì tại sở thú với những con voi khác đằng sau anh ta", "ground_truth": "bãi cỏ", "ground_truth_normalized": "bãi cỏ", "predicted_top1": "thân cây", "predicted_topk": [ "thân cây", "vườn bách thú", "con voi", "chuồng", "bãi cỏ", "lá", "hươu cao cổ", "lồng", "rào chắn", "đồi" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.288348, "confidences": [ 0.288348, 0.199733, 0.113804, 0.063095, 0.055899, 0.024373, 0.018112, 0.015016, 0.012793, 0.009269 ], "gate_score_top1": 0.799805, "gate_scores": [ 0.799805, 0.784668, 0.782715, 0.729004, 0.679688, 0.633301, 0.67334, 0.663086, 0.617676, 0.580078 ] }, { "question_id": "10075971", "image_id": 474095, "question": "người đàn ông trên nhà vệ sinh uống bia và hút gì", "ground_truth": "thuốc lá", "ground_truth_normalized": "thuốc lá", "predicted_top1": "bàn chải", "predicted_topk": [ "bàn chải", "máy ảnh", "thuốc lá", "phòng tắm", "điện thoại", "máy sấy khô", "bồn tiểu", "bồn tắm", "nón", "khăn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.164196, "confidences": [ 0.164196, 0.13297, 0.11285, 0.061837, 0.024453, 0.019156, 0.014688, 0.014516, 0.013373, 0.011405 ], "gate_score_top1": 0.732422, "gate_scores": [ 0.732422, 0.732422, 0.554688, 0.662598, 0.684082, 0.562988, 0.574707, 0.679688, 0.691895, 0.562988 ] }, { "question_id": "10061051", "image_id": 560119, "question": "những gì đứng cạnh nhau", "ground_truth": "các tòa nhà", "ground_truth_normalized": "các tòa nhà", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "các tòa nhà", "xe ô tô", "cửa sổ", "đường phố", "bức ảnh", "lá cờ", "đồng hồ", "vòi", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.231873, "confidences": [ 0.231873, 0.18925, 0.080762, 0.055833, 0.043144, 0.031076, 0.024392, 0.021652, 0.015779, 0.011818 ], "gate_score_top1": 0.817871, "gate_scores": [ 0.817871, 0.761719, 0.754883, 0.709961, 0.655762, 0.619629, 0.700684, 0.672363, 0.643066, 0.564453 ] }, { "question_id": "10042121", "image_id": 286521, "question": "một số con bò ở đâu", "ground_truth": "bức tranh", "ground_truth_normalized": "bức tranh", "predicted_top1": "đường", "predicted_topk": [ "đường", "bãi cỏ", "chuồng", "sân vườn", "đồi", "sân", "con cừu", "áo vest", "con ngựa", "cây" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.083263, "confidences": [ 0.083263, 0.039025, 0.025344, 0.024445, 0.021976, 0.020991, 0.020685, 0.017453, 0.016949, 0.01412 ], "gate_score_top1": 0.713867, "gate_scores": [ 0.713867, 0.629395, 0.684082, 0.641113, 0.553223, 0.625, 0.499023, 0.536133, 0.521484, 0.52832 ] }, { "question_id": "10055751", "image_id": 385196, "question": "nhóm người đi xuống vỉa hè là gì", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "bảng", "đường phố", "áo sơ mi", "chiếc ô", "điện thoại", "balo", "nón", "cây", "đường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.394186, "confidences": [ 0.394186, 0.041709, 0.028723, 0.024472, 0.020487, 0.019549, 0.012233, 0.012186, 0.012138, 0.011834 ], "gate_score_top1": 0.800293, "gate_scores": [ 0.800293, 0.62793, 0.641602, 0.512695, 0.712891, 0.681152, 0.687012, 0.628418, 0.682617, 0.697266 ] }, { "question_id": "10100971", "image_id": 442301, "question": "người cầm thứ làm từ miếng cà rốt", "ground_truth": "điêu khắc", "ground_truth_normalized": "điêu khắc", "predicted_top1": "cà rốt", "predicted_topk": [ "cà rốt", "rau", "quả táo", "điêu khắc", "những quả cam", "chuối", "táo", "bức ảnh", "bông cải xanh", "quầy tính tiền" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.608503, "confidences": [ 0.608503, 0.081711, 0.021026, 0.013925, 0.012145, 0.008765, 0.008545, 0.006149, 0.005337, 0.004874 ], "gate_score_top1": 0.837402, "gate_scores": [ 0.837402, 0.79834, 0.754395, 0.57959, 0.733887, 0.655273, 0.67041, 0.469482, 0.729492, 0.615723 ] }, { "question_id": "10069401", "image_id": 516871, "question": "những gì chứa đầy sushi, trái cây và rau trên bàn", "ground_truth": "chén đĩa", "ground_truth_normalized": "chén đĩa", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "thùng chứa", "chén đĩa", "cái mâm", "món ăn", "rau", "dĩa", "chảo", "giấy bạc", "hoa quả" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.268145, "confidences": [ 0.268145, 0.253875, 0.091232, 0.074461, 0.03376, 0.013828, 0.011198, 0.010917, 0.009767, 0.007894 ], "gate_score_top1": 0.821289, "gate_scores": [ 0.821289, 0.817871, 0.683105, 0.776367, 0.740723, 0.701172, 0.607422, 0.571289, 0.724121, 0.717285 ] }, { "question_id": "10116281", "image_id": 289894, "question": "có bao nhiêu thanh niên trang điểm đang đứng gần một người bạn đồng hành", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "bảy", "mười", "hươu cao cổ", "năm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.927476, "confidences": [ 0.927476, 0.061174, 0.007687, 0.000441, 9.9e-05, 7.1e-05, 7.1e-05, 5.4e-05, 4.3e-05, 4.1e-05 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.856934, 0.800293, 0.649414, 0.393311, 0.44165, 0.410156, 0.424072, 0.452637, 0.524414 ] }, { "question_id": "10094881", "image_id": 505240, "question": "cái gì ở trên với cái chảo đầy thức ăn", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "bát", "predicted_topk": [ "bát", "chén đĩa", "chảo", "món ăn", "quầy tính tiền", "cái nồi", "bữa ăn", "rau", "đĩa ăn", "cà rốt" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.281334, "confidences": [ 0.281334, 0.130832, 0.101099, 0.085467, 0.053276, 0.042475, 0.034063, 0.028294, 0.012828, 0.011703 ], "gate_score_top1": 0.814941, "gate_scores": [ 0.814941, 0.766602, 0.761719, 0.75293, 0.726074, 0.722656, 0.699219, 0.746094, 0.709473, 0.669434 ] }, { "question_id": "10078811", "image_id": 416745, "question": "những gì tiết lộ nhà vệ sinh, bồn rửa và tủ tường", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "cửa", "vòi hoa sen", "nhà ở", "tường", "khăn", "quầy tính tiền", "bức ảnh", "bồn tắm", "gương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.258861, "confidences": [ 0.258861, 0.251879, 0.061967, 0.034423, 0.034088, 0.030556, 0.026652, 0.024362, 0.022575, 0.015791 ], "gate_score_top1": 0.746582, "gate_scores": [ 0.746582, 0.739258, 0.716797, 0.783203, 0.694824, 0.651367, 0.625, 0.629883, 0.706055, 0.660156 ] }, { "question_id": "10044881", "image_id": 121420, "question": "người đàn ông trẻ đang ngồi xuống đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "giường", "predicted_topk": [ "giường", "phòng", "phòng ngủ", "cái ghế", "hành lang", "văn phòng", "cái túi", "gian hàng", "vali", "hành lý" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.449528, "confidences": [ 0.449528, 0.37854, 0.096085, 0.018773, 0.002006, 0.001952, 0.001809, 0.001348, 0.001266, 0.001225 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.853516, 0.838867, 0.698242, 0.532715, 0.583496, 0.535645, 0.57959, 0.522949, 0.417969 ] }, { "question_id": "10116671", "image_id": 40987, "question": "có bao nhiêu cậu bé đang xem một người bắt bóng", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.478777, "confidences": [ 0.478777, 0.281459, 0.088912, 0.08223, 0.01842, 0.014801, 0.011348, 0.005175, 0.003907, 0.002015 ], "gate_score_top1": 0.859863, "gate_scores": [ 0.859863, 0.843262, 0.750488, 0.777344, 0.696777, 0.705078, 0.695801, 0.629883, 0.614258, 0.532227 ] }, { "question_id": "10092861", "image_id": 462386, "question": "những người tốt đẹp nấu ăn nấu chín những gì", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "sandwich", "bữa ăn", "dĩa", "món ăn", "thịt", "quán ăn", "cái nĩa", "bữa ăn tối", "bữa trưa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.383106, "confidences": [ 0.383106, 0.264335, 0.13984, 0.024683, 0.016475, 0.014884, 0.011257, 0.007617, 0.007382, 0.006949 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.812012, 0.773926, 0.688965, 0.702148, 0.666992, 0.701172, 0.660645, 0.596191, 0.507324 ] }, { "question_id": "10041211", "image_id": 127558, "question": "bàn văn phòng tại nhà có hỗ trợ máy tính xách tay và máy in ở đâu", "ground_truth": "ngăn kéo", "ground_truth_normalized": "ngăn kéo", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "cái bàn", "phòng", "phòng ngủ", "cái ghế", "thư viện", "chung cư", "nhà ở", "lớp học", "máy tính" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.515982, "confidences": [ 0.515982, 0.144407, 0.064835, 0.064835, 0.03525, 0.015858, 0.01375, 0.010502, 0.006054, 0.00547 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.731445, 0.78418, 0.773438, 0.705078, 0.649414, 0.662598, 0.76416, 0.592773, 0.696289 ] }, { "question_id": "10106191", "image_id": 429116, "question": "bao nhiêu khung hình của người đánh bóng trong một trận đấu bóng chày", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "ba", "bốn", "sáu", "sân vận động", "năm", "tám", "mười", "gậy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.342918, "confidences": [ 0.342918, 0.313453, 0.293314, 0.011919, 0.001674, 0.001645, 0.001539, 0.001143, 0.00089, 0.000845 ], "gate_score_top1": 0.79834, "gate_scores": [ 0.79834, 0.852539, 0.796387, 0.675781, 0.418457, 0.383057, 0.578613, 0.433838, 0.382568, 0.499512 ] }, { "question_id": "10042471", "image_id": 150669, "question": "một chiếc đồng hồ được treo ở đâu", "ground_truth": "văn phòng", "ground_truth_normalized": "văn phòng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "văn phòng", "phòng ngủ", "nhà ở", "cái ghế", "gương", "ô cửa", "hành lang", "thư viện", "chung cư" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.547095, "confidences": [ 0.547095, 0.219326, 0.041859, 0.018039, 0.01636, 0.015857, 0.00958, 0.008405, 0.007461, 0.007078 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.795898, 0.76709, 0.757324, 0.675293, 0.746094, 0.600586, 0.651367, 0.551758, 0.625977 ] }, { "question_id": "10011691", "image_id": 229884, "question": "màu sắc của thực phẩm là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu vàng", "màu xám", "màu đỏ", "màu nâu", "màu đen", "màu xanh lá", "màu trắng", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.741786, "confidences": [ 0.741786, 0.151885, 0.039932, 0.026394, 0.013854, 0.006124, 0.004825, 0.003586, 0.001579, 0.000527 ], "gate_score_top1": 0.892578, "gate_scores": [ 0.892578, 0.854492, 0.76123, 0.824707, 0.729492, 0.731934, 0.671387, 0.750977, 0.628418, 0.62207 ] }, { "question_id": "10090841", "image_id": 442009, "question": "những gì hoàn chỉnh với bồn tắm gang", "ground_truth": "sân khấu", "ground_truth_normalized": "sân khấu", "predicted_top1": "bồn tắm", "predicted_topk": [ "bồn tắm", "khăn", "chậu", "quầy tính tiền", "phòng tắm", "sân khấu", "tường", "vòi hoa sen", "cửa", "nhà ở" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.459983, "confidences": [ 0.459983, 0.053351, 0.046807, 0.035679, 0.034648, 0.032422, 0.026462, 0.023036, 0.018152, 0.013437 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.728027, 0.711914, 0.601562, 0.662109, 0.609375, 0.54834, 0.63623, 0.586426, 0.626953 ] }, { "question_id": "10114001", "image_id": 339681, "question": "có bao nhiêu ly rượu trên tờ giấy ghi tên rượu", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "tám", "chín", "mười", "ba", "một", "đĩa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.562721, "confidences": [ 0.562721, 0.262714, 0.089734, 0.047844, 0.005692, 0.002556, 0.002029, 0.001998, 0.000575, 0.000372 ], "gate_score_top1": 0.843262, "gate_scores": [ 0.843262, 0.836426, 0.768066, 0.760742, 0.62207, 0.637695, 0.552734, 0.561035, 0.452393, 0.583496 ] }, { "question_id": "10052971", "image_id": 539067, "question": "gấu bắc cực trong nước có gì trên một cái lồng", "ground_truth": "móng vuốt", "ground_truth_normalized": "móng vuốt", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "móng vuốt", "gấu trúc", "hồ bơi", "bồn tắm", "đồ chơi", "con chó", "vườn bách thú", "con thuyền", "rào chắn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.165138, "confidences": [ 0.165138, 0.114164, 0.092634, 0.034078, 0.02426, 0.023837, 0.0125, 0.011743, 0.011139, 0.009519 ], "gate_score_top1": 0.705078, "gate_scores": [ 0.705078, 0.564941, 0.708984, 0.681152, 0.558105, 0.603516, 0.633301, 0.65918, 0.540039, 0.466064 ] }, { "question_id": "10047011", "image_id": 460139, "question": "người đang làm việc ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "cửa tiệm", "đường phố", "tòa nhà", "phòng", "đường", "xe tay ga", "cửa hàng", "kho", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.298749, "confidences": [ 0.298749, 0.211019, 0.174259, 0.055048, 0.022459, 0.021982, 0.01982, 0.017153, 0.011561, 0.00836 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.794434, 0.810547, 0.731445, 0.714355, 0.783203, 0.685059, 0.696289, 0.673828, 0.555176 ] }, { "question_id": "10075021", "image_id": 561335, "question": "những gì lật lộn ngược trên một bãi biển", "ground_truth": "áo choàng", "ground_truth_normalized": "áo choàng", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "động cơ", "phương tiện giao thông", "xe máy", "bến du thuyền", "xe đạp", "xe tải", "xe ô tô", "máy bay", "thuyền buồm" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.678099, "confidences": [ 0.678099, 0.037736, 0.014101, 0.013377, 0.011713, 0.009825, 0.00672, 0.006577, 0.005959, 0.005907 ], "gate_score_top1": 0.794434, "gate_scores": [ 0.794434, 0.666016, 0.619141, 0.69873, 0.564453, 0.609863, 0.647461, 0.598145, 0.687012, 0.562988 ] }, { "question_id": "10039871", "image_id": 344482, "question": "nhóm bò đi bộ ở đâu", "ground_truth": "đường phố", "ground_truth_normalized": "đường phố", "predicted_top1": "đường", "predicted_topk": [ "đường", "đường phố", "xe ô tô", "gương", "xe đẩy", "xe tải", "xe", "áo vest", "cửa sổ", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.384268, "confidences": [ 0.384268, 0.307564, 0.069436, 0.054077, 0.019739, 0.017728, 0.011536, 0.008776, 0.006309, 0.00595 ], "gate_score_top1": 0.836914, "gate_scores": [ 0.836914, 0.805664, 0.750977, 0.819824, 0.722168, 0.725586, 0.668945, 0.54248, 0.641113, 0.516113 ] }, { "question_id": "10028601", "image_id": 477785, "question": "tàu chở hành khách ở đâu", "ground_truth": "tàu hỏa", "ground_truth_normalized": "tàu hỏa", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "tàu hỏa", "xe ô tô", "đường sắt", "động cơ", "tòa nhà", "xe điện ngầm", "các tòa nhà", "hàng hoá", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.532184, "confidences": [ 0.532184, 0.172101, 0.056092, 0.038702, 0.018389, 0.010747, 0.010396, 0.009634, 0.007517, 0.007258 ], "gate_score_top1": 0.814453, "gate_scores": [ 0.814453, 0.788574, 0.738281, 0.744141, 0.614258, 0.701172, 0.613281, 0.60498, 0.560059, 0.556641 ] }, { "question_id": "10067171", "image_id": 441535, "question": "điều gì hiển thị các cặp cửa sổ nhỏ với rèm và không có rèm cửa", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "giường", "predicted_topk": [ "giường", "phòng ngủ", "phòng", "cửa sổ", "khăn", "cây", "cửa", "tường", "hành lang", "con mèo" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.670975, "confidences": [ 0.670975, 0.257675, 0.012829, 0.002078, 0.001866, 0.001733, 0.001663, 0.001453, 0.001344, 0.001268 ], "gate_score_top1": 0.82959, "gate_scores": [ 0.82959, 0.810547, 0.748535, 0.562988, 0.580566, 0.508789, 0.48999, 0.435059, 0.449463, 0.586426 ] }, { "question_id": "10023581", "image_id": 460903, "question": "màu tóc là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đỏ", "màu xanh lá", "màu xanh dương", "màu nâu", "màu vàng", "màu xám", "màu tía", "màu đen", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.461941, "confidences": [ 0.461941, 0.255108, 0.090607, 0.056922, 0.056479, 0.016501, 0.012602, 0.011519, 0.008729, 0.002386 ], "gate_score_top1": 0.867676, "gate_scores": [ 0.867676, 0.855469, 0.72168, 0.807617, 0.722168, 0.771484, 0.75, 0.680176, 0.710938, 0.69043 ] }, { "question_id": "10085351", "image_id": 425848, "question": "đĩa có chứa một khẩu phần bông cải xanh, nấu chín và nấm xào", "ground_truth": "thịt", "ground_truth_normalized": "thịt", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "món ăn", "thịt", "bữa ăn", "rau", "bữa ăn tối", "dĩa", "chén đĩa", "bát", "cái nĩa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.496929, "confidences": [ 0.496929, 0.113953, 0.066729, 0.057749, 0.027654, 0.018458, 0.015849, 0.015634, 0.012612, 0.008634 ], "gate_score_top1": 0.83252, "gate_scores": [ 0.83252, 0.786133, 0.719238, 0.739746, 0.721191, 0.602539, 0.673828, 0.619141, 0.671875, 0.597656 ] }, { "question_id": "10119791", "image_id": 337164, "question": "có bao nhiêu cô gái trẻ đang chải tóc cho một cô gái trẻ khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "tám", "bàn chải", "mười", "máy ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.662808, "confidences": [ 0.662808, 0.323027, 0.005712, 0.000746, 0.000241, 0.000154, 0.00015, 0.000144, 0.000111, 9.2e-05 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.855469, 0.736816, 0.620117, 0.36499, 0.416016, 0.407959, 0.491943, 0.432373, 0.394775 ] }, { "question_id": "10100491", "image_id": 458810, "question": "những gì đang ngồi trên một cái bàn được nối với trạm nối", "ground_truth": "máy ảnh", "ground_truth_normalized": "máy ảnh", "predicted_top1": "điện thoại", "predicted_topk": [ "điện thoại", "máy ảnh", "thiết bị", "nón", "máy tính", "chuột", "bàn chải", "laptop", "gian hàng", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.717335, "confidences": [ 0.717335, 0.128611, 0.024932, 0.01115, 0.004208, 0.003345, 0.002618, 0.00261, 0.002388, 0.001995 ], "gate_score_top1": 0.887207, "gate_scores": [ 0.887207, 0.779297, 0.720215, 0.70166, 0.669922, 0.645508, 0.490479, 0.700195, 0.463379, 0.530762 ] }, { "question_id": "10076731", "image_id": 577077, "question": "những gì nằm trên giường trong một ngôi nhà đồ chơi", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "đồ chơi", "cái kệ", "chuột", "màu nâu", "cái ghế", "gấu trúc", "bức tượng", "giường", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.671287, "confidences": [ 0.671287, 0.269114, 0.003764, 0.002749, 0.00231, 0.002063, 0.0017, 0.001572, 0.001305, 0.001193 ], "gate_score_top1": 0.853027, "gate_scores": [ 0.853027, 0.81543, 0.638672, 0.591797, 0.600098, 0.55127, 0.6875, 0.53125, 0.569824, 0.611328 ] }, { "question_id": "10059551", "image_id": 384651, "question": "những gì trên một phần của một chiếc giường và một tấm kính lộn ngược", "ground_truth": "đèn để bàn", "ground_truth_normalized": "đèn để bàn", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "giường", "cửa", "nhiều cái ghế", "phòng", "cái bàn", "cái kệ", "bông hoa", "tường", "cửa sổ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.168979, "confidences": [ 0.168979, 0.106991, 0.05738, 0.028461, 0.026219, 0.02247, 0.02115, 0.020499, 0.019371, 0.018738 ], "gate_score_top1": 0.65918, "gate_scores": [ 0.65918, 0.682129, 0.624512, 0.533691, 0.721191, 0.647461, 0.61084, 0.699219, 0.541504, 0.588867 ] }, { "question_id": "10058621", "image_id": 357870, "question": "cái gì nằm trên cái bàn sạch sẽ", "ground_truth": "laptop", "ground_truth_normalized": "laptop", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "laptop", "cái bàn", "bàn phím", "cái ghế", "chuột", "văn phòng", "bức tranh", "trang thiết bị", "điện thoại" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.556626, "confidences": [ 0.556626, 0.388587, 0.019575, 0.00638, 0.00232, 0.002083, 0.001664, 0.001449, 0.001146, 0.000943 ], "gate_score_top1": 0.883301, "gate_scores": [ 0.883301, 0.891602, 0.82373, 0.749023, 0.61084, 0.673828, 0.711914, 0.566895, 0.508301, 0.63623 ] }, { "question_id": "10114241", "image_id": 4319, "question": "có bao nhiêu con hươu cao cổ đi xung quanh bên cạnh những cọc gỗ lớn", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.488233, "confidences": [ 0.488233, 0.476923, 0.025079, 0.002351, 0.002217, 0.000533, 0.000491, 0.000467, 0.000247, 0.000212 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.901367, 0.765625, 0.723145, 0.572266, 0.588379, 0.597168, 0.524414, 0.51123, 0.416748 ] }, { "question_id": "10043951", "image_id": 44112, "question": "bộ sưu tập thực phẩm được trưng bày ở đâu", "ground_truth": "tủ đá", "ground_truth_normalized": "tủ đá", "predicted_top1": "tủ lạnh", "predicted_topk": [ "tủ lạnh", "tủ đá", "cửa", "phòng bếp", "cái kệ", "lò vi sóng", "chai", "phòng", "cửa sổ", "cửa ra vào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.393046, "confidences": [ 0.393046, 0.369233, 0.102934, 0.042244, 0.0095, 0.007618, 0.003816, 0.003794, 0.002252, 0.001742 ], "gate_score_top1": 0.842773, "gate_scores": [ 0.842773, 0.794434, 0.77002, 0.71875, 0.693359, 0.604492, 0.557617, 0.644531, 0.560059, 0.438965 ] }, { "question_id": "10016711", "image_id": 56784, "question": "màu sắc của các điểm là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu trắng", "màu xanh lá", "màu nâu", "màu đen", "màu xám", "màu đỏ", "màu cam", "màu xanh dương", "màu tía" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.360584, "confidences": [ 0.360584, 0.19452, 0.152681, 0.145121, 0.059558, 0.018814, 0.018741, 0.01288, 0.008784, 0.004794 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.864258, 0.822266, 0.796387, 0.782227, 0.730957, 0.74707, 0.767578, 0.691406, 0.710938 ] }, { "question_id": "10077231", "image_id": 479938, "question": "hai đứa trẻ và một người lớn cưỡi ngựa kéo cái gì", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "xe", "predicted_topk": [ "xe", "xe đẩy", "toa xe", "xe lăn", "con ngựa", "đường", "xe đạp", "xe tải", "xe cộ", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.425352, "confidences": [ 0.425352, 0.410658, 0.01267, 0.010101, 0.009945, 0.006408, 0.00602, 0.00523, 0.004261, 0.003413 ], "gate_score_top1": 0.816406, "gate_scores": [ 0.816406, 0.847168, 0.654785, 0.688965, 0.695312, 0.683594, 0.632324, 0.643555, 0.651367, 0.614258 ] }, { "question_id": "10117931", "image_id": 212429, "question": "có bao nhiêu cái cột với nhiều đèn giao thông trên đó", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "bảy", "một", "sáu", "ba", "tám", "chín", "hai", "mười" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.265956, "confidences": [ 0.265956, 0.197642, 0.173738, 0.119876, 0.111737, 0.023513, 0.021661, 0.021325, 0.010956, 0.008516 ], "gate_score_top1": 0.825195, "gate_scores": [ 0.825195, 0.771484, 0.753906, 0.744141, 0.780273, 0.69043, 0.628418, 0.6875, 0.592773, 0.590332 ] }, { "question_id": "10065141", "image_id": 561938, "question": "hai con voi trưởng thành đang vây quanh cái gì", "ground_truth": "con voi", "ground_truth_normalized": "con voi", "predicted_top1": "thân cây", "predicted_topk": [ "thân cây", "con voi", "bãi cỏ", "hoa quả", "lá", "đồi", "cà rốt", "những quả cam", "đường", "táo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.346668, "confidences": [ 0.346668, 0.113873, 0.097782, 0.026318, 0.021522, 0.014648, 0.012677, 0.012652, 0.009042, 0.008586 ], "gate_score_top1": 0.760254, "gate_scores": [ 0.760254, 0.65918, 0.690918, 0.539062, 0.568359, 0.596191, 0.575195, 0.558105, 0.593262, 0.486328 ] }, { "question_id": "10066031", "image_id": 469671, "question": "những gì cho thấy ngô, đậu hà lan, khoai tây nghiền và bánh quy tất cả trên một đĩa", "ground_truth": "bữa ăn tối", "ground_truth_normalized": "bữa ăn tối", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "thịt", "bữa ăn tối", "rau", "dĩa", "chén đĩa", "quán ăn", "đĩa" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.461172, "confidences": [ 0.461172, 0.112575, 0.075579, 0.043232, 0.028912, 0.024298, 0.023922, 0.016538, 0.015176, 0.011613 ], "gate_score_top1": 0.828613, "gate_scores": [ 0.828613, 0.775879, 0.75293, 0.695801, 0.656738, 0.698242, 0.674805, 0.620117, 0.693359, 0.538086 ] }, { "question_id": "10107481", "image_id": 527995, "question": "có bao nhiêu người tạo dáng với ván trượt trên núi tuyết", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.85548, "confidences": [ 0.85548, 0.127156, 0.010077, 0.002766, 0.001402, 0.000434, 0.000262, 0.000258, 0.000129, 0.000105 ], "gate_score_top1": 0.899414, "gate_scores": [ 0.899414, 0.893066, 0.736816, 0.751953, 0.574707, 0.604492, 0.547363, 0.516602, 0.465088, 0.419189 ] }, { "question_id": "10030451", "image_id": 333157, "question": "cô gái đang giữ một mote wii ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái ghế", "nhà ở", "chung cư", "phòng ngủ", "giường", "hành lang", "nhiều cái ghế", "văn phòng", "cửa sổ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.982474, "confidences": [ 0.982474, 0.003801, 0.002297, 0.002192, 0.001266, 0.000555, 0.000368, 0.000367, 0.000346, 0.000335 ], "gate_score_top1": 0.902344, "gate_scores": [ 0.902344, 0.76416, 0.791016, 0.682617, 0.819824, 0.667969, 0.628418, 0.552246, 0.59082, 0.611816 ] }, { "question_id": "10113941", "image_id": 471345, "question": "có bao nhiêu đĩa tôm hùm chế biến sẵn ngồi gần đồ uống trên bàn ăn tối", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.699594, "confidences": [ 0.699594, 0.213364, 0.07036, 0.007416, 0.00275, 0.001206, 0.000618, 0.000414, 0.000176, 0.00014 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.87207, 0.855469, 0.744629, 0.672852, 0.47876, 0.529297, 0.518066, 0.41748, 0.384277 ] }, { "question_id": "10105651", "image_id": 225087, "question": "có bao nhiêu phụ nữ đang đứng trên lối đi của tòa nhà trong khi một phụ nữ đang bế một đứa trẻ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "chín", "ba", "tám", "mười", "một", "đĩa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.403424, "confidences": [ 0.403424, 0.314187, 0.219338, 0.036512, 0.004752, 0.003324, 0.002761, 0.001327, 0.00102, 0.00021 ], "gate_score_top1": 0.851074, "gate_scores": [ 0.851074, 0.82959, 0.821777, 0.759277, 0.671875, 0.604004, 0.630859, 0.550781, 0.539551, 0.547363 ] }, { "question_id": "10106211", "image_id": 76937, "question": "có bao nhiêu người trên ván trượt một cô gái bị một con chó kéo", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "hai", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.534971, "confidences": [ 0.534971, 0.370563, 0.033147, 0.023231, 0.018377, 0.007396, 0.00348, 0.001547, 0.000924, 0.00088 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.867676, 0.769043, 0.787598, 0.688965, 0.697266, 0.652344, 0.598145, 0.464355, 0.568848 ] }, { "question_id": "10105861", "image_id": 504702, "question": "có bao nhiêu người nằm trên bãi biển chụp ảnh người khác đang bay diều", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "tám", "năm", "mười", "diều" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.765975, "confidences": [ 0.765975, 0.217748, 0.008056, 0.0013, 0.000637, 0.000372, 0.000184, 0.000167, 0.000162, 0.000104 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.865234, 0.74707, 0.624512, 0.450928, 0.505371, 0.421631, 0.538574, 0.492188, 0.516602 ] }, { "question_id": "10004061", "image_id": 398301, "question": "màu của ánh sáng là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu vàng", "màu đen", "màu nâu", "màu xanh lá", "màu cam", "màu trắng", "màu xám", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.518908, "confidences": [ 0.518908, 0.420225, 0.039548, 0.004437, 0.003208, 0.00265, 0.001576, 0.001337, 0.000288, 0.00025 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.861816, 0.810059, 0.671875, 0.697266, 0.812988, 0.709961, 0.672363, 0.635254, 0.540039 ] }, { "question_id": "10040701", "image_id": 546114, "question": "tủ lạnh màu đen đang ở đâu", "ground_truth": "buồng", "ground_truth_normalized": "buồng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "nhà ở", "màu đen", "tủ đá", "chậu", "phòng", "tủ lạnh", "cửa", "lò vi sóng", "phòng tắm" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.735822, "confidences": [ 0.735822, 0.0299, 0.0181, 0.016288, 0.015391, 0.014207, 0.013689, 0.009688, 0.009335, 0.008856 ], "gate_score_top1": 0.82373, "gate_scores": [ 0.82373, 0.694336, 0.629883, 0.690918, 0.686523, 0.714355, 0.680664, 0.635254, 0.623047, 0.700195 ] }, { "question_id": "10109111", "image_id": 401553, "question": "có bao nhiêu người trượt ván đang trượt trên vỉa hè thành phố", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.572466, "confidences": [ 0.572466, 0.40278, 0.012998, 0.008102, 0.000465, 0.000399, 0.000148, 0.000132, 0.000116, 8e-05 ], "gate_score_top1": 0.891602, "gate_scores": [ 0.891602, 0.884766, 0.811035, 0.77002, 0.589355, 0.472412, 0.4375, 0.458984, 0.401611, 0.375 ] }, { "question_id": "10069541", "image_id": 544597, "question": "những gì từ từ rơi vào bỏ bê và hư hỏng", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "bồn tắm", "predicted_topk": [ "bồn tắm", "nhà ở", "phòng tắm", "phòng", "tường", "vòi hoa sen", "cửa", "khăn", "quầy tính tiền", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.342473, "confidences": [ 0.342473, 0.128474, 0.104857, 0.04782, 0.047448, 0.043033, 0.042449, 0.014756, 0.010464, 0.009144 ], "gate_score_top1": 0.839844, "gate_scores": [ 0.839844, 0.8125, 0.762207, 0.785645, 0.620117, 0.745117, 0.706543, 0.722656, 0.489258, 0.647461 ] }, { "question_id": "10046761", "image_id": 250533, "question": "một lò vi sóng đang sưởi ấm cái gì đó ở đâu", "ground_truth": "tách", "ground_truth_normalized": "tách", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "cửa", "cửa sổ", "tủ lạnh", "tường", "tủ đá", "tách", "cái nồi", "máy xay", "phòng bếp" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.313524, "confidences": [ 0.313524, 0.125199, 0.053638, 0.036721, 0.02316, 0.01954, 0.018037, 0.017757, 0.013722, 0.011992 ], "gate_score_top1": 0.736816, "gate_scores": [ 0.736816, 0.765137, 0.716797, 0.661133, 0.606934, 0.671387, 0.545898, 0.624023, 0.700195, 0.630859 ] }, { "question_id": "10039361", "image_id": 400080, "question": "người đàn ông đang tận hưởng việc đọc ở đâu", "ground_truth": "thư viện", "ground_truth_normalized": "thư viện", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái ghế", "văn phòng", "chung cư", "thư viện", "nhà ở", "cửa tiệm", "gian hàng", "cái bàn", "phòng ngủ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.591209, "confidences": [ 0.591209, 0.16546, 0.069515, 0.02469, 0.022045, 0.015817, 0.012635, 0.004977, 0.004435, 0.004086 ], "gate_score_top1": 0.848145, "gate_scores": [ 0.848145, 0.784668, 0.789551, 0.684082, 0.679688, 0.751465, 0.716309, 0.625488, 0.629883, 0.695312 ] }, { "question_id": "10112871", "image_id": 77979, "question": "có bao nhiêu con voi đang đi dạo cùng nhau", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.886157, "confidences": [ 0.886157, 0.087059, 0.021004, 0.002072, 0.001558, 0.000275, 0.000128, 7.6e-05, 7e-05, 5.5e-05 ], "gate_score_top1": 0.907227, "gate_scores": [ 0.907227, 0.876953, 0.833008, 0.719238, 0.671387, 0.44458, 0.490234, 0.4375, 0.399902, 0.382324 ] }, { "question_id": "10114461", "image_id": 351477, "question": "có bao nhiêu đứa trẻ trong bộ quần áo tuyết lướt chậm trên đường trượt tuyết", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.617449, "confidences": [ 0.617449, 0.343662, 0.021461, 0.006596, 0.004534, 0.00195, 0.000713, 0.000403, 0.000332, 0.000214 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.901367, 0.770996, 0.771973, 0.632812, 0.672852, 0.582031, 0.532227, 0.506348, 0.437988 ] }, { "question_id": "10112031", "image_id": 439765, "question": "bao nhiêu người đàn ông nhìn vào máy ảnh trong khi một người khác nhìn đi chỗ khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "cà vạt", "sáu", "cái ghế", "gương", "máy ảnh", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.605578, "confidences": [ 0.605578, 0.378961, 0.005078, 0.000428, 0.000224, 0.000211, 0.000207, 0.000181, 0.000158, 0.000148 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.882324, 0.727539, 0.60498, 0.484375, 0.383545, 0.541016, 0.474854, 0.398438, 0.451416 ] }, { "question_id": "10104901", "image_id": 229067, "question": "có bao nhiêu người trên cánh đồng tuyết với thiết bị trượt tuyết", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "ba", "chín", "tám", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.44358, "confidences": [ 0.44358, 0.269045, 0.23375, 0.020505, 0.007311, 0.004739, 0.002874, 0.001926, 0.001288, 0.001029 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.848145, 0.826172, 0.714844, 0.624512, 0.644531, 0.609863, 0.609863, 0.563965, 0.549805 ] }, { "question_id": "10086831", "image_id": 427865, "question": "những gì nằm cạnh đồi verdant", "ground_truth": "bờ biển", "ground_truth_normalized": "bờ biển", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "bò đực", "con cừu", "con ngựa", "bãi cỏ", "chuồng trại", "đồi", "con chó", "màu nâu" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.783771, "confidences": [ 0.783771, 0.115591, 0.032604, 0.009732, 0.004942, 0.00335, 0.002353, 0.00233, 0.001913, 0.001728 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.765625, 0.729492, 0.704102, 0.73584, 0.661133, 0.556152, 0.626953, 0.57666, 0.621582 ] }, { "question_id": "10018151", "image_id": 361376, "question": "màu của cà rốt là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu vàng", "màu đỏ", "màu cam", "màu xám", "màu nâu", "màu xanh dương", "màu đen", "màu tía", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.530058, "confidences": [ 0.530058, 0.306774, 0.03885, 0.026597, 0.024217, 0.016322, 0.013691, 0.011262, 0.01058, 0.007243 ], "gate_score_top1": 0.830078, "gate_scores": [ 0.830078, 0.849609, 0.800293, 0.822754, 0.731445, 0.739258, 0.779297, 0.712891, 0.71582, 0.732422 ] }, { "question_id": "10087611", "image_id": 475944, "question": "những gì nằm trên nhánh cây", "ground_truth": "con chim", "ground_truth_normalized": "con chim", "predicted_top1": "con vẹt", "predicted_topk": [ "con vẹt", "con chim", "hải âu", "hươu cao cổ", "cây", "chim bồ câu", "con vịt", "diều", "con ngựa", "con cừu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.72839, "confidences": [ 0.72839, 0.218702, 0.001667, 0.001628, 0.001519, 0.001149, 0.000986, 0.000816, 0.000744, 0.000658 ], "gate_score_top1": 0.855469, "gate_scores": [ 0.855469, 0.813965, 0.542969, 0.687012, 0.581543, 0.39209, 0.650391, 0.415039, 0.493652, 0.474609 ] }, { "question_id": "10115711", "image_id": 428125, "question": "có bao nhiêu hình ảnh nghệ thuật của một đồ chơi người đàn ông nhựa màu vàng", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "một", "năm", "sáu", "bảy", "chín", "tám", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.503625, "confidences": [ 0.503625, 0.414271, 0.037202, 0.013421, 0.012031, 0.006541, 0.002478, 0.000926, 0.000841, 0.000478 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.874512, 0.804199, 0.71582, 0.702148, 0.561523, 0.628906, 0.496094, 0.51416, 0.446289 ] }, { "question_id": "10106401", "image_id": 410097, "question": "có bao nhiêu con cừu nằm xuống khi bốn con khác đứng gần", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "ba", "bảy", "một", "tám", "mười", "chín", "hai" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.633335, "confidences": [ 0.633335, 0.264013, 0.037445, 0.023709, 0.011465, 0.008825, 0.004104, 0.001894, 0.001665, 0.000854 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.823242, 0.753418, 0.729492, 0.700195, 0.671875, 0.628906, 0.564453, 0.651367, 0.510254 ] }, { "question_id": "10095031", "image_id": 515176, "question": "cái gì mà cái máy rút đá bạc trên một viên gạch rám nắng", "ground_truth": "sàn nhà", "ground_truth_normalized": "sàn nhà", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "máy xay", "tủ đá", "tường", "cái kệ", "cỗ máy", "hộp", "tủ lạnh", "cửa", "phòng bếp" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.130361, "confidences": [ 0.130361, 0.039448, 0.037937, 0.036986, 0.03226, 0.031513, 0.030543, 0.021364, 0.019605, 0.018525 ], "gate_score_top1": 0.610352, "gate_scores": [ 0.610352, 0.749512, 0.689941, 0.617188, 0.675293, 0.490234, 0.641602, 0.69873, 0.644531, 0.534668 ] }, { "question_id": "10064221", "image_id": 334746, "question": "cái gì đang ngồi trên đĩa trên bàn", "ground_truth": "rau", "ground_truth_normalized": "rau", "predicted_top1": "bữa ăn", "predicted_topk": [ "bữa ăn", "đĩa ăn", "rau", "dĩa", "rượu", "thịt", "cái nĩa", "đĩa", "bữa ăn tối", "sandwich" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.130977, "confidences": [ 0.130977, 0.117407, 0.063213, 0.047159, 0.046701, 0.041618, 0.024706, 0.022495, 0.021465, 0.015704 ], "gate_score_top1": 0.740723, "gate_scores": [ 0.740723, 0.763672, 0.744141, 0.634766, 0.702148, 0.601562, 0.663086, 0.611328, 0.586426, 0.605957 ] }, { "question_id": "10065401", "image_id": 537692, "question": "những gì chứa đầy kéo và đèn", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "cây kéo", "predicted_topk": [ "cây kéo", "cái mâm", "thùng chứa", "tách", "dao", "cái lọ", "quầy tính tiền", "tường", "mặt", "người giữ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.305241, "confidences": [ 0.305241, 0.082476, 0.049345, 0.033258, 0.027251, 0.022813, 0.019628, 0.015649, 0.011086, 0.009928 ], "gate_score_top1": 0.791016, "gate_scores": [ 0.791016, 0.746582, 0.742188, 0.775391, 0.772461, 0.748535, 0.665527, 0.661133, 0.516602, 0.501465 ] }, { "question_id": "10085711", "image_id": 418882, "question": "những gì đang được chuẩn bị trên bếp trong một nhà bếp", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "lò vi sóng", "bếp", "pizza", "bữa ăn", "quầy tính tiền", "món ăn", "phòng bếp", "chén đĩa", "gà" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.226479, "confidences": [ 0.226479, 0.152646, 0.115223, 0.064634, 0.050534, 0.037848, 0.018338, 0.012628, 0.011611, 0.011079 ], "gate_score_top1": 0.733398, "gate_scores": [ 0.733398, 0.717285, 0.696777, 0.780273, 0.688965, 0.65625, 0.678223, 0.605469, 0.631348, 0.523926 ] }, { "question_id": "10100041", "image_id": 356648, "question": "người đàn ông lấy gì từ tủ lạnh gần sân tennis", "ground_truth": "nước", "ground_truth_normalized": "nước", "predicted_top1": "áo sơ mi", "predicted_topk": [ "áo sơ mi", "lò vi sóng", "quả bóng", "pizza", "nước", "cửa hàng", "vợt", "tạp dề", "mũ", "lồng" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.045846, "confidences": [ 0.045846, 0.042401, 0.025468, 0.025024, 0.024112, 0.019243, 0.019019, 0.016915, 0.016427, 0.016395 ], "gate_score_top1": 0.6875, "gate_scores": [ 0.6875, 0.617676, 0.692383, 0.661621, 0.583496, 0.715332, 0.692871, 0.606934, 0.647949, 0.588867 ] }, { "question_id": "10057841", "image_id": 547962, "question": "hai người phụ nữ đang giữ những chiếc ô hướng dương trong khi đi trên một cơn mưa ướt sũng", "ground_truth": "đường đi bộ", "ground_truth_normalized": "đường đi bộ", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "nón", "bức ảnh", "đồng hồ", "cửa sổ", "mũ", "xe buýt", "tường", "lá cờ", "các tòa nhà" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.805611, "confidences": [ 0.805611, 0.013753, 0.012621, 0.006471, 0.004962, 0.004744, 0.003944, 0.003494, 0.00296, 0.002706 ], "gate_score_top1": 0.853516, "gate_scores": [ 0.853516, 0.668457, 0.613281, 0.662598, 0.633789, 0.614258, 0.507324, 0.582031, 0.547852, 0.570801 ] }, { "question_id": "10030351", "image_id": 501947, "question": "một số thực phẩm lành mạnh nằm ở đâu", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "bát", "predicted_topk": [ "bát", "món ăn", "đĩa ăn", "chảo", "thùng chứa", "chén đĩa", "bữa ăn", "cái rổ", "rau", "cái nồi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.38962, "confidences": [ 0.38962, 0.258531, 0.13308, 0.036667, 0.028668, 0.012598, 0.010924, 0.010818, 0.007081, 0.005928 ], "gate_score_top1": 0.834961, "gate_scores": [ 0.834961, 0.851562, 0.793945, 0.773438, 0.728516, 0.669922, 0.696777, 0.697266, 0.626465, 0.661621 ] }, { "question_id": "10070961", "image_id": 537506, "question": "người giữ gì với hai quả táo đỏ gần người đi bộ giữ ô", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "quả táo", "predicted_topk": [ "quả táo", "táo", "chuối", "hoa quả", "cà rốt", "những quả cam", "quả cam", "bức ảnh", "đĩa ăn", "cái mâm" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.732724, "confidences": [ 0.732724, 0.130348, 0.018705, 0.01019, 0.006962, 0.004693, 0.003655, 0.003188, 0.002937, 0.002502 ], "gate_score_top1": 0.852539, "gate_scores": [ 0.852539, 0.818359, 0.710938, 0.66748, 0.702148, 0.645508, 0.55957, 0.523438, 0.595703, 0.60498 ] }, { "question_id": "10075831", "image_id": 444879, "question": "chuyến tàu đi lại bị tuyết bao phủ là gì", "ground_truth": "đường ray", "ground_truth_normalized": "đường ray", "predicted_top1": "đường sắt", "predicted_topk": [ "đường sắt", "xe ô tô", "trạm", "tàu hỏa", "hàng hoá", "xe điện ngầm", "các tòa nhà", "đồi", "động cơ", "cầu" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.283812, "confidences": [ 0.283812, 0.091781, 0.082917, 0.071479, 0.050785, 0.025939, 0.019089, 0.018002, 0.017967, 0.013993 ], "gate_score_top1": 0.756836, "gate_scores": [ 0.756836, 0.677246, 0.741699, 0.767578, 0.570801, 0.643555, 0.595703, 0.527832, 0.548828, 0.599609 ] }, { "question_id": "10079031", "image_id": 460972, "question": "những gì chứa đầy những con vịt trôi nổi trên đỉnh của nó", "ground_truth": "hồ", "ground_truth_normalized": "hồ", "predicted_top1": "con vịt", "predicted_topk": [ "con vịt", "bãi cỏ", "hồ", "con chim", "hải âu", "đồi", "gấu", "băng ghế", "ca nô", "con thuyền" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.584769, "confidences": [ 0.584769, 0.02735, 0.022674, 0.021636, 0.006008, 0.005973, 0.005638, 0.005476, 0.004937, 0.00386 ], "gate_score_top1": 0.790527, "gate_scores": [ 0.790527, 0.648438, 0.476318, 0.588379, 0.504883, 0.54541, 0.560547, 0.627441, 0.39917, 0.462158 ] }, { "question_id": "10096801", "image_id": 566278, "question": "xe máy màu đỏ và đen đã dừng ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "ga-ra", "tòa nhà", "đường", "cửa tiệm", "ảnh chụp", "bảo tàng", "kho", "vạch kẻ đường", "trạm" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.608022, "confidences": [ 0.608022, 0.138885, 0.11787, 0.048563, 0.007684, 0.005343, 0.005199, 0.004186, 0.003902, 0.00368 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.850098, 0.82373, 0.845703, 0.718262, 0.616211, 0.702637, 0.664062, 0.62793, 0.698242 ] }, { "question_id": "10045871", "image_id": 171335, "question": "đồng hồ vàng được bảo vệ bởi một hộp thủy tinh ở đâu", "ground_truth": "bảo tàng", "ground_truth_normalized": "bảo tàng", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "cửa sổ", "lọ cắm hoa", "tòa nhà", "phòng", "tường", "cửa tiệm", "đồng hồ", "hành lang", "ô cửa" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.125793, "confidences": [ 0.125793, 0.113202, 0.086625, 0.066159, 0.037184, 0.021437, 0.018918, 0.018588, 0.018158, 0.017737 ], "gate_score_top1": 0.762207, "gate_scores": [ 0.762207, 0.769043, 0.738281, 0.678223, 0.716309, 0.59375, 0.72998, 0.650879, 0.576172, 0.538086 ] }, { "question_id": "10117631", "image_id": 437510, "question": "có bao nhiêu con hươu cao cổ đang ăn cùng nhau trên một bãi đất trống", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.478293, "confidences": [ 0.478293, 0.474571, 0.033713, 0.00398, 0.002569, 0.001712, 0.001018, 0.000661, 0.000297, 0.00027 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.894043, 0.785156, 0.743164, 0.566895, 0.643555, 0.632812, 0.555664, 0.538086, 0.448975 ] }, { "question_id": "10085161", "image_id": 483401, "question": "người đàn ông nấu ăn gì cho bữa tối", "ground_truth": "gà", "ground_truth_normalized": "gà", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "lò vi sóng", "quầy tính tiền", "phòng bếp", "bếp", "bữa ăn", "gà", "tạp dề", "cà rốt", "món ăn" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.414621, "confidences": [ 0.414621, 0.070933, 0.043786, 0.031049, 0.03033, 0.02206, 0.020724, 0.01993, 0.018468, 0.01804 ], "gate_score_top1": 0.787598, "gate_scores": [ 0.787598, 0.709961, 0.67334, 0.618164, 0.634277, 0.680664, 0.522461, 0.587891, 0.665527, 0.681152 ] }, { "question_id": "10075961", "image_id": 436130, "question": "khu vực nhà bếp nhỏ có những gì và tủ", "ground_truth": "bếp", "ground_truth_normalized": "bếp", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "bếp", "tủ đá", "quầy tính tiền", "cửa", "lò vi sóng", "tường", "cái kệ", "nhà ở", "tủ lạnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.429733, "confidences": [ 0.429733, 0.122163, 0.066679, 0.053369, 0.031682, 0.030888, 0.021187, 0.018698, 0.01482, 0.011187 ], "gate_score_top1": 0.793457, "gate_scores": [ 0.793457, 0.766113, 0.790527, 0.681641, 0.669434, 0.64502, 0.672852, 0.722656, 0.725098, 0.689941 ] }, { "question_id": "10103241", "image_id": 79588, "question": "một tòa nhà bằng gạch và đá cũ cao bao nhiêu tầng", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "một", "sáu", "hai", "bảy", "mười", "chín", "tám" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.366768, "confidences": [ 0.366768, 0.339205, 0.155907, 0.041311, 0.03506, 0.017698, 0.012356, 0.004397, 0.003732, 0.003391 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.858887, 0.80127, 0.744629, 0.734863, 0.667969, 0.677734, 0.603027, 0.628418, 0.592285 ] }, { "question_id": "10025441", "image_id": 53604, "question": "người đàn ông đứng ở đâu", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "vòi hoa sen", "ô cửa", "chậu", "máy ảnh", "hành lang", "quầy tính tiền", "bàn chải", "bồn tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.602841, "confidences": [ 0.602841, 0.377248, 0.00196, 0.001677, 0.001443, 0.001286, 0.000676, 0.000567, 0.000485, 0.00044 ], "gate_score_top1": 0.895996, "gate_scores": [ 0.895996, 0.869629, 0.664062, 0.655762, 0.647461, 0.594727, 0.524414, 0.537598, 0.63623, 0.687988 ] }, { "question_id": "10093491", "image_id": 430762, "question": "kéo và bút đặt trên một hình tam giác là gì", "ground_truth": "mặt", "ground_truth_normalized": "mặt", "predicted_top1": "cây kéo", "predicted_topk": [ "cây kéo", "dao", "mặt", "bàn chải", "máy bay", "quầy tính tiền", "mũ", "máy ảnh", "bức ảnh", "nước" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.5329, "confidences": [ 0.5329, 0.030182, 0.021782, 0.00792, 0.007684, 0.007003, 0.006928, 0.006144, 0.005996, 0.005688 ], "gate_score_top1": 0.754883, "gate_scores": [ 0.754883, 0.686035, 0.532227, 0.589355, 0.512207, 0.574219, 0.530762, 0.569336, 0.560547, 0.493652 ] }, { "question_id": "10107571", "image_id": 447830, "question": "có bao nhiêu con ngựa ở giữa đồng cỏ", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.577201, "confidences": [ 0.577201, 0.246319, 0.151753, 0.012026, 0.002501, 0.002002, 0.000915, 0.000881, 0.000614, 0.000486 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.833008, 0.837402, 0.679199, 0.654785, 0.674316, 0.570801, 0.57373, 0.562012, 0.489014 ] }, { "question_id": "10059841", "image_id": 350794, "question": "những gì đang thư giãn trên những tảng đá mát mẻ", "ground_truth": "gấu", "ground_truth_normalized": "gấu", "predicted_top1": "gấu trúc", "predicted_topk": [ "gấu trúc", "gấu", "đồ chơi", "con chó", "vườn bách thú", "móng vuốt", "cây", "con cừu", "màu đen", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.66943, "confidences": [ 0.66943, 0.311314, 0.000858, 0.00082, 0.00066, 0.000549, 0.000351, 0.000322, 0.000275, 0.000271 ], "gate_score_top1": 0.852051, "gate_scores": [ 0.852051, 0.847168, 0.623535, 0.654297, 0.647461, 0.481445, 0.549316, 0.561035, 0.624023, 0.561035 ] }, { "question_id": "10117531", "image_id": 203388, "question": "có bao nhiêu chiếc bánh rán trong chảo đang được nấu chín", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "tám", "bốn", "năm", "chảo", "một", "ba", "hai", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.229166, "confidences": [ 0.229166, 0.171637, 0.140635, 0.13954, 0.091513, 0.032061, 0.023594, 0.010866, 0.006539, 0.005626 ], "gate_score_top1": 0.780273, "gate_scores": [ 0.780273, 0.731445, 0.726074, 0.732422, 0.731445, 0.677246, 0.598633, 0.65918, 0.559082, 0.506348 ] }, { "question_id": "10042661", "image_id": 22411, "question": "một số sinh viên hoặc bạn bè ăn pizza ở đâu", "ground_truth": "thư viện", "ground_truth_normalized": "thư viện", "predicted_top1": "lớp học", "predicted_topk": [ "lớp học", "thư viện", "phòng", "văn phòng", "cửa tiệm", "tòa nhà", "cái ghế", "nhà ở", "quán ăn", "kho" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.410821, "confidences": [ 0.410821, 0.244356, 0.064748, 0.052846, 0.025158, 0.017359, 0.009871, 0.008576, 0.007794, 0.007466 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.751953, 0.739258, 0.83252, 0.751953, 0.688477, 0.606445, 0.692871, 0.702637, 0.609375 ] }, { "question_id": "10015771", "image_id": 557308, "question": "màu của chiếc thuyền là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu trắng", "màu đỏ", "màu đen", "màu xám", "màu nâu", "màu vàng", "màu xanh lá", "màu xanh dương", "con thuyền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.483356, "confidences": [ 0.483356, 0.42656, 0.042235, 0.008029, 0.007513, 0.006327, 0.004206, 0.002622, 0.001619, 0.000494 ], "gate_score_top1": 0.867188, "gate_scores": [ 0.867188, 0.869629, 0.803223, 0.70166, 0.729492, 0.679688, 0.72998, 0.640137, 0.661133, 0.49707 ] }, { "question_id": "10045491", "image_id": 86797, "question": "tủ lạnh cũ đang ở đâu", "ground_truth": "ga-ra", "ground_truth_normalized": "ga-ra", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng bếp", "ga-ra", "nhà ở", "tủ lạnh", "cửa tiệm", "phòng ngủ", "cái ghế", "văn phòng", "cửa hàng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.620862, "confidences": [ 0.620862, 0.07771, 0.075614, 0.014745, 0.014291, 0.01171, 0.008484, 0.00832, 0.008111, 0.005403 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.759766, 0.828613, 0.789551, 0.666504, 0.688965, 0.751953, 0.552734, 0.625977, 0.608887 ] }, { "question_id": "10105251", "image_id": 414747, "question": "có bao nhiêu người đàn ông đang sửa chiếc nơ của mình và một người đàn ông khác đang tìm kiếm", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "cà vạt", "bảy", "cái ghế", "tám", "hươu cao cổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.892038, "confidences": [ 0.892038, 0.098532, 0.003988, 0.000415, 0.000149, 0.000134, 9.3e-05, 7e-05, 6.9e-05, 6.7e-05 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.868652, 0.74707, 0.629883, 0.385254, 0.456787, 0.386963, 0.512207, 0.420166, 0.467041 ] }, { "question_id": "10093161", "image_id": 460378, "question": "cái gì một bồn rửa và lò vi sóng", "ground_truth": "công cụ", "ground_truth_normalized": "công cụ", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quầy tính tiền", "bếp", "công cụ", "chậu", "tường", "bông hoa", "nhà ở", "tủ đá", "bức ảnh" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.237562, "confidences": [ 0.237562, 0.163913, 0.072736, 0.043518, 0.031714, 0.027233, 0.026498, 0.017825, 0.017617, 0.016942 ], "gate_score_top1": 0.733398, "gate_scores": [ 0.733398, 0.686035, 0.744629, 0.584473, 0.616211, 0.604492, 0.632812, 0.654785, 0.708496, 0.553223 ] }, { "question_id": "10063371", "image_id": 474786, "question": "gương lớn phản chiếu một phòng tắm là gì", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "quầy tính tiền", "cửa", "khăn", "bàn chải", "máy ảnh", "vòi hoa sen", "chậu", "bồn tắm" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.401732, "confidences": [ 0.401732, 0.076373, 0.074604, 0.04072, 0.03744, 0.028988, 0.02624, 0.015884, 0.011827, 0.011089 ], "gate_score_top1": 0.795898, "gate_scores": [ 0.795898, 0.687012, 0.638184, 0.644531, 0.597168, 0.719238, 0.646973, 0.602051, 0.585938, 0.687012 ] }, { "question_id": "10034231", "image_id": 507444, "question": "người đàn ông trên xe đạp đang chuẩn bị đồ uống ở đâu khi phụ nữ đứng gần đó", "ground_truth": "máy xay", "ground_truth_normalized": "máy xay", "predicted_top1": "xe lăn", "predicted_topk": [ "xe lăn", "cửa tiệm", "cửa hàng", "đường phố", "xe tay ga", "xe đạp", "cửa sổ", "ảnh chụp", "máy xay", "cái rổ" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.090182, "confidences": [ 0.090182, 0.066626, 0.056988, 0.045791, 0.040887, 0.039167, 0.035041, 0.02888, 0.028544, 0.023664 ], "gate_score_top1": 0.72998, "gate_scores": [ 0.72998, 0.661133, 0.711426, 0.709473, 0.708496, 0.660156, 0.668945, 0.591309, 0.638672, 0.697266 ] }, { "question_id": "10114451", "image_id": 12459, "question": "có bao nhiêu người lớn ăn mặc kỳ lạ chuẩn bị trượt tuyết", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "tám", "hai", "chín", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.701144, "confidences": [ 0.701144, 0.162678, 0.091254, 0.031784, 0.004041, 0.001317, 0.00099, 0.000969, 0.000679, 0.000502 ], "gate_score_top1": 0.895996, "gate_scores": [ 0.895996, 0.834473, 0.810059, 0.723633, 0.697266, 0.589844, 0.62793, 0.59082, 0.567383, 0.493408 ] }, { "question_id": "10109851", "image_id": 116223, "question": "có bao nhiêu chiếc bánh quy đang nguội trên khay bên cạnh chuối", "ground_truth": "tám", "ground_truth_normalized": "tám", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "năm", "bảy", "bốn", "tám", "chín", "ba", "mười", "chảo", "lò vi sóng" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.56709, "confidences": [ 0.56709, 0.171607, 0.092214, 0.077048, 0.03288, 0.004164, 0.002368, 0.002094, 0.001249, 0.001242 ], "gate_score_top1": 0.842773, "gate_scores": [ 0.842773, 0.787109, 0.755859, 0.738281, 0.703125, 0.613281, 0.535156, 0.525879, 0.522461, 0.480225 ] }, { "question_id": "10041041", "image_id": 303937, "question": "những quả táo xanh và cam ở đâu", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa tiệm", "hộp", "cái mâm", "cái kệ", "cửa sổ", "hoa quả", "tủ lạnh", "ảnh chụp", "lớp học" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.393722, "confidences": [ 0.393722, 0.096486, 0.06169, 0.035357, 0.02517, 0.02397, 0.020264, 0.014369, 0.010209, 0.009369 ], "gate_score_top1": 0.818848, "gate_scores": [ 0.818848, 0.782227, 0.750488, 0.70752, 0.689453, 0.662598, 0.720703, 0.683105, 0.527832, 0.642578 ] }, { "question_id": "10105591", "image_id": 564232, "question": "có bao nhiêu con ngựa dự thảo đang làm việc trong một trang trại vào khoảng năm 1932", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.43466, "confidences": [ 0.43466, 0.349259, 0.120701, 0.026827, 0.025598, 0.008986, 0.006056, 0.005802, 0.003492, 0.002353 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.835938, 0.763672, 0.749023, 0.713867, 0.649902, 0.628418, 0.648926, 0.62793, 0.552246 ] }, { "question_id": "10031291", "image_id": 235429, "question": "gia đình đang chơi wii ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "cái ghế", "quán ăn", "phòng bếp", "cửa tiệm", "văn phòng", "quán bar", "chung cư", "gian hàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.445962, "confidences": [ 0.445962, 0.145918, 0.144783, 0.072801, 0.070286, 0.007452, 0.006706, 0.006202, 0.005101, 0.003554 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.787109, 0.773926, 0.775879, 0.786621, 0.63623, 0.67041, 0.585449, 0.575195, 0.589355 ] }, { "question_id": "10114311", "image_id": 58796, "question": "có bao nhiêu hình ảnh đồ ăn khác nhau", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "năm", "bảy", "tám", "ba", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.407165, "confidences": [ 0.407165, 0.37952, 0.096333, 0.058201, 0.010035, 0.006146, 0.003079, 0.002469, 0.001754, 0.00083 ], "gate_score_top1": 0.807129, "gate_scores": [ 0.807129, 0.813477, 0.753418, 0.743164, 0.62793, 0.567383, 0.596191, 0.512207, 0.466064, 0.500488 ] }, { "question_id": "10042641", "image_id": 283329, "question": "ba người đàn ông đang làm việc và thu thập chuối ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "kho", "predicted_topk": [ "kho", "cửa tiệm", "phòng bếp", "cửa hàng", "tạp dề", "ga-ra", "phòng", "tòa nhà", "quán ăn", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.18808, "confidences": [ 0.18808, 0.143083, 0.080577, 0.060349, 0.049739, 0.031065, 0.029297, 0.024574, 0.022996, 0.021309 ], "gate_score_top1": 0.762695, "gate_scores": [ 0.762695, 0.728027, 0.715332, 0.733887, 0.696777, 0.771484, 0.724121, 0.704102, 0.692383, 0.620117 ] }, { "question_id": "10061771", "image_id": 515176, "question": "một sàn bên cạnh một máy rửa chén là gì", "ground_truth": "cỗ máy", "ground_truth_normalized": "cỗ máy", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "hộp", "tường", "cỗ máy", "máy xay", "tủ đá", "cái kệ", "tủ lạnh", "ảnh chụp", "phòng bếp" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.206209, "confidences": [ 0.206209, 0.05464, 0.03327, 0.027962, 0.027049, 0.026216, 0.019635, 0.019369, 0.017227, 0.016828 ], "gate_score_top1": 0.63916, "gate_scores": [ 0.63916, 0.668945, 0.60498, 0.498291, 0.748535, 0.703125, 0.644531, 0.703613, 0.58252, 0.55957 ] }, { "question_id": "10099141", "image_id": 393277, "question": "những gì bao quanh bởi giao thông và đường phố thành phố", "ground_truth": "bức tượng", "ground_truth_normalized": "bức tượng", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "tòa nhà", "tòa tháp", "đồng hồ", "bức tượng", "cầu", "áo vest", "xe buýt", "các tòa nhà", "cửa sổ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.723318, "confidences": [ 0.723318, 0.052808, 0.048459, 0.033698, 0.009285, 0.006185, 0.005088, 0.004922, 0.004525, 0.003893 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.755371, 0.699219, 0.762207, 0.615234, 0.612305, 0.54248, 0.673828, 0.646973, 0.662598 ] }, { "question_id": "10067621", "image_id": 358884, "question": "người đàn ông với một con chó mặc quần áo và chèo xuồng là gì", "ground_truth": "áo khoác", "ground_truth_normalized": "áo khoác", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "áo khoác", "áo vest", "ca nô", "trượt tuyết", "con chó", "bảng", "ván trượt", "cái túi", "đồ chơi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.068351, "confidences": [ 0.068351, 0.066768, 0.033182, 0.030808, 0.030331, 0.029169, 0.021216, 0.021092, 0.021009, 0.020765 ], "gate_score_top1": 0.624512, "gate_scores": [ 0.624512, 0.602539, 0.577637, 0.496094, 0.726074, 0.625977, 0.60498, 0.630371, 0.616211, 0.494141 ] }, { "question_id": "10075161", "image_id": 569849, "question": "những gì đang đi bên ngoài ngôi nhà của một người đàn ông trên giường", "ground_truth": "bò đực", "ground_truth_normalized": "bò đực", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "bò đực", "gia súc", "con voi", "con ngựa", "đồi", "bức ảnh", "con chó", "bãi cỏ", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.623542, "confidences": [ 0.623542, 0.139131, 0.016232, 0.015519, 0.007973, 0.004459, 0.004455, 0.004373, 0.00412, 0.003231 ], "gate_score_top1": 0.81543, "gate_scores": [ 0.81543, 0.73584, 0.546387, 0.602051, 0.686035, 0.571777, 0.440918, 0.571289, 0.587891, 0.546875 ] }, { "question_id": "10074641", "image_id": 476300, "question": "một số con voi đang đi lên cái gì", "ground_truth": "đồi", "ground_truth_normalized": "đồi", "predicted_top1": "thân cây", "predicted_topk": [ "thân cây", "bãi cỏ", "đồi", "con voi", "đường", "chuồng", "vườn bách thú", "lá", "cây", "rào chắn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.415972, "confidences": [ 0.415972, 0.213289, 0.072003, 0.043417, 0.022046, 0.018456, 0.013267, 0.009937, 0.006555, 0.004341 ], "gate_score_top1": 0.790527, "gate_scores": [ 0.790527, 0.759766, 0.72168, 0.675781, 0.710938, 0.687988, 0.677734, 0.589355, 0.630859, 0.536133 ] }, { "question_id": "10046291", "image_id": 81431, "question": "bình hoa của hoa ở đâu", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cửa sổ", "cây", "bông hoa", "màu tía", "cái nồi", "tách", "cái lọ", "bát", "hoa hồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.759596, "confidences": [ 0.759596, 0.100027, 0.017864, 0.015581, 0.009827, 0.006357, 0.006078, 0.003871, 0.003215, 0.002911 ], "gate_score_top1": 0.848633, "gate_scores": [ 0.848633, 0.794922, 0.702637, 0.773438, 0.704102, 0.569824, 0.612793, 0.614258, 0.679688, 0.575684 ] }, { "question_id": "10070271", "image_id": 486834, "question": "những người lướt sóng đang giữ gì trên cát sau khi ra khỏi đại dương", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "cây sào", "trượt tuyết", "vạch kẻ đường", "cái lều", "năm", "diều", "ca nô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.586143, "confidences": [ 0.586143, 0.271519, 0.010778, 0.006627, 0.004654, 0.003385, 0.003246, 0.002972, 0.002699, 0.00245 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.790039, 0.603516, 0.555664, 0.625488, 0.583984, 0.453613, 0.581055, 0.635254, 0.400391 ] }, { "question_id": "10115831", "image_id": 567640, "question": "có bao nhiêu đội bóng đá đang diễn ra sau trận bóng đá", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.664375, "confidences": [ 0.664375, 0.152948, 0.107612, 0.03206, 0.010167, 0.010127, 0.006746, 0.002541, 0.002212, 0.001163 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.820312, 0.800293, 0.696289, 0.709473, 0.677734, 0.667969, 0.600098, 0.585938, 0.512207 ] }, { "question_id": "10117891", "image_id": 332405, "question": "có bao nhiêu người đang lướt ván một người đang nằm trên ván lướt sóng", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "năm", "mười", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.817322, "confidences": [ 0.817322, 0.163475, 0.014229, 0.000987, 0.000264, 0.00014, 0.000132, 0.000128, 0.000127, 6.1e-05 ], "gate_score_top1": 0.897949, "gate_scores": [ 0.897949, 0.873535, 0.790527, 0.635742, 0.441895, 0.408203, 0.547363, 0.458984, 0.43042, 0.362061 ] }, { "question_id": "10075211", "image_id": 560646, "question": "có một người đàn ông giữ những gì và điều khiển một ván lướt sóng", "ground_truth": "cây sào", "ground_truth_normalized": "cây sào", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "cây sào", "trượt tuyết", "bờ biển", "ca nô", "ván trượt", "con thuyền", "diều", "đồi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.473155, "confidences": [ 0.473155, 0.105164, 0.067634, 0.043413, 0.028694, 0.019415, 0.018818, 0.012079, 0.007073, 0.005991 ], "gate_score_top1": 0.824219, "gate_scores": [ 0.824219, 0.753418, 0.683594, 0.754883, 0.666504, 0.495605, 0.735352, 0.623047, 0.703613, 0.583496 ] }, { "question_id": "10060841", "image_id": 532994, "question": "con ngựa vẽ những gì đi trên một cánh đồng", "ground_truth": "xe tải", "ground_truth_normalized": "xe tải", "predicted_top1": "xe", "predicted_topk": [ "xe", "xe đẩy", "xe tải", "con ngựa", "xe đạp", "động cơ", "xe cộ", "toa xe", "mũ", "xe ô tô" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.358218, "confidences": [ 0.358218, 0.212237, 0.099474, 0.080242, 0.012091, 0.009271, 0.008794, 0.007025, 0.006625, 0.006472 ], "gate_score_top1": 0.76416, "gate_scores": [ 0.76416, 0.803223, 0.763184, 0.756836, 0.619629, 0.568359, 0.679688, 0.534668, 0.581543, 0.564453 ] }, { "question_id": "10020521", "image_id": 316585, "question": "màu của bảng là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu nâu", "màu trắng", "màu cam", "màu xanh lá", "màu xám", "màu vàng", "màu tía", "màu đỏ", "màu xanh dương" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.435235, "confidences": [ 0.435235, 0.17723, 0.127156, 0.083391, 0.081142, 0.030678, 0.020356, 0.017008, 0.007757, 0.006713 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.846191, 0.858398, 0.82666, 0.783691, 0.821777, 0.766602, 0.791016, 0.765625, 0.725586 ] }, { "question_id": "10116881", "image_id": 232302, "question": "có bao nhiêu điều khiển từ xa được gắn khóa dán vào một tivi", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.384744, "confidences": [ 0.384744, 0.297307, 0.18898, 0.059932, 0.044364, 0.011528, 0.003502, 0.001886, 0.000832, 0.000668 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.864258, 0.868652, 0.814941, 0.783691, 0.62207, 0.640625, 0.593262, 0.524414, 0.526855 ] }, { "question_id": "10091331", "image_id": 368038, "question": "những gì trên đường đua bên cạnh một số cỏ", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "các tòa nhà", "đường sắt", "hàng hoá", "xe đẩy", "phương tiện giao thông", "xe đạp", "xe điện ngầm" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.780166, "confidences": [ 0.780166, 0.101937, 0.079699, 0.003072, 0.00269, 0.002047, 0.001159, 0.000955, 0.00095, 0.000905 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.814941, 0.806641, 0.667969, 0.569336, 0.567383, 0.626465, 0.525391, 0.618164, 0.59668 ] }, { "question_id": "10076811", "image_id": 547102, "question": "những gì giữ một bình hoa dại", "ground_truth": "mặt", "ground_truth_normalized": "mặt", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "lọ cắm hoa", "hoa hồng", "cây", "chai", "bình hoa", "bát", "cái lọ", "đồng hồ", "tách" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.843303, "confidences": [ 0.843303, 0.069493, 0.011959, 0.003928, 0.00383, 0.002936, 0.002449, 0.002165, 0.001874, 0.001848 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.674805, 0.772461, 0.699219, 0.615234, 0.479248, 0.63623, 0.573242, 0.636719, 0.657227 ] }, { "question_id": "10081601", "image_id": 509855, "question": "bên trong bát bông cải xanh là gì", "ground_truth": "cái nĩa", "ground_truth_normalized": "cái nĩa", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái nĩa", "rau", "món ăn", "đĩa ăn", "bữa ăn", "chén đĩa", "dĩa", "bông cải xanh", "thịt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.352973, "confidences": [ 0.352973, 0.070875, 0.066581, 0.045582, 0.044526, 0.039991, 0.019002, 0.018453, 0.017711, 0.017642 ], "gate_score_top1": 0.724609, "gate_scores": [ 0.724609, 0.621582, 0.725098, 0.695312, 0.75293, 0.636719, 0.628418, 0.625488, 0.646484, 0.580566 ] }, { "question_id": "10026431", "image_id": 571535, "question": "món đồ có vẻ hấp dẫn ở đâu", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "ảnh chụp", "hộp", "cửa tiệm", "đường phố", "cái rổ", "phòng bếp", "cửa hàng", "thùng chứa", "xe ô tô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.112645, "confidences": [ 0.112645, 0.092841, 0.048259, 0.047233, 0.040008, 0.031587, 0.028426, 0.027985, 0.022752, 0.022312 ], "gate_score_top1": 0.663574, "gate_scores": [ 0.663574, 0.655762, 0.645996, 0.693848, 0.72168, 0.67627, 0.664062, 0.668945, 0.645508, 0.570312 ] }, { "question_id": "10039021", "image_id": 461404, "question": "cặp vợ chồng đang đến đâu", "ground_truth": "ca nô", "ground_truth_normalized": "ca nô", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "ca nô", "bến du thuyền", "thuyền buồm", "xe đẩy", "áo vest", "xe đạp", "bát", "bến tàu", "hồ bơi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.486273, "confidences": [ 0.486273, 0.214941, 0.041425, 0.01087, 0.008125, 0.007262, 0.006497, 0.00504, 0.004483, 0.00403 ], "gate_score_top1": 0.719238, "gate_scores": [ 0.719238, 0.691406, 0.722168, 0.524902, 0.665527, 0.513672, 0.558105, 0.456787, 0.467041, 0.62793 ] }, { "question_id": "10082071", "image_id": 437426, "question": "con gấu bắc cực đã nhúng gì trong nước", "ground_truth": "móng vuốt", "ground_truth_normalized": "móng vuốt", "predicted_top1": "hồ bơi", "predicted_topk": [ "hồ bơi", "bồn tắm", "móng vuốt", "gấu", "gấu trúc", "vườn bách thú", "đồ chơi", "khăn", "cây", "giường" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.168458, "confidences": [ 0.168458, 0.133261, 0.074316, 0.053423, 0.038933, 0.015202, 0.014128, 0.008387, 0.008201, 0.007592 ], "gate_score_top1": 0.762207, "gate_scores": [ 0.762207, 0.702148, 0.578613, 0.649414, 0.678711, 0.630371, 0.606934, 0.597656, 0.617676, 0.51123 ] }, { "question_id": "10119551", "image_id": 492382, "question": "có bao nhiêu chiếc xe đạp có gắn máy làm mát đậu dưới gốc cây", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "bảy", "mười", "tám", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.649479, "confidences": [ 0.649479, 0.279337, 0.059474, 0.003743, 0.002984, 0.000783, 0.000257, 0.000244, 0.000216, 0.000132 ], "gate_score_top1": 0.88623, "gate_scores": [ 0.88623, 0.875977, 0.845703, 0.714844, 0.668945, 0.46167, 0.497559, 0.421875, 0.461182, 0.390137 ] }, { "question_id": "10097051", "image_id": 411215, "question": "đỗ xe đang được đỗ trong đồng cỏ", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "trạm", "đường sắt", "xe điện ngầm", "động cơ", "các tòa nhà", "cầu", "hàng hoá", "xe điện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.337181, "confidences": [ 0.337181, 0.174245, 0.109895, 0.088303, 0.031179, 0.025498, 0.021304, 0.016689, 0.012573, 0.010403 ], "gate_score_top1": 0.802246, "gate_scores": [ 0.802246, 0.774414, 0.742188, 0.725586, 0.706543, 0.658691, 0.671875, 0.655762, 0.624512, 0.708496 ] }, { "question_id": "10098271", "image_id": 575356, "question": "những gì bị chặn một phần bởi cửa gấp", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "phòng bếp", "lò vi sóng", "tường", "cái kệ", "chai", "cửa sổ", "bếp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.411339, "confidences": [ 0.411339, 0.206028, 0.122067, 0.030863, 0.01883, 0.017483, 0.016012, 0.012642, 0.009487, 0.007743 ], "gate_score_top1": 0.836426, "gate_scores": [ 0.836426, 0.791016, 0.765625, 0.676758, 0.640137, 0.646484, 0.716309, 0.606934, 0.614746, 0.703125 ] }, { "question_id": "10091281", "image_id": 441203, "question": "những gì đang lái xe xuống một con đường với một người mang một số động vật", "ground_truth": "xe cộ", "ground_truth_normalized": "xe cộ", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe cộ", "xe đẩy", "con ngựa", "đường", "xe", "phương tiện giao thông", "xe ô tô", "xe máy", "xe buýt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.230262, "confidences": [ 0.230262, 0.171786, 0.090172, 0.060067, 0.055013, 0.044291, 0.040014, 0.022358, 0.018177, 0.010317 ], "gate_score_top1": 0.812012, "gate_scores": [ 0.812012, 0.765137, 0.709961, 0.789062, 0.716309, 0.651367, 0.683594, 0.694824, 0.686523, 0.612793 ] }, { "question_id": "10087401", "image_id": 461628, "question": "tàu đỏ sáng hướng xuống các đường ray qua những gì", "ground_truth": "núi", "ground_truth_normalized": "núi", "predicted_top1": "đường sắt", "predicted_topk": [ "đường sắt", "xe ô tô", "hàng hoá", "đồi", "động cơ", "các tòa nhà", "trạm", "cây", "tàu hỏa", "núi" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.223555, "confidences": [ 0.223555, 0.066212, 0.055106, 0.049785, 0.043254, 0.039383, 0.033489, 0.02728, 0.026857, 0.019649 ], "gate_score_top1": 0.76709, "gate_scores": [ 0.76709, 0.729492, 0.567871, 0.598633, 0.584961, 0.673828, 0.697754, 0.666016, 0.658203, 0.658203 ] }, { "question_id": "10116291", "image_id": 176901, "question": "người trượt tuyết trên dốc trượt tuyết; có bao nhiêu nằm trên mặt đất", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "năm", "sáu", "mười", "bảy", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.372802, "confidences": [ 0.372802, 0.299555, 0.281405, 0.020385, 0.008632, 0.003188, 0.00108, 0.000713, 0.000618, 0.000424 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.855469, 0.837891, 0.741699, 0.729004, 0.621582, 0.513672, 0.488281, 0.493408, 0.410889 ] }, { "question_id": "10098091", "image_id": 518719, "question": "cái gì nằm trên đầu gối", "ground_truth": "cái nồi", "ground_truth_normalized": "cái nồi", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cái nồi", "bát", "tách", "cái lọ", "cây", "nến", "bông hoa", "thùng chứa", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.572807, "confidences": [ 0.572807, 0.184516, 0.089926, 0.070308, 0.005704, 0.004391, 0.003225, 0.003113, 0.002458, 0.001935 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.77832, 0.822266, 0.775879, 0.680176, 0.682129, 0.508789, 0.708008, 0.621094, 0.469971 ] }, { "question_id": "10088681", "image_id": 346638, "question": "cái gì đang ngồi trên bàn cùng với màn hình máy tính, bàn phím, chuột, máy tính và loa", "ground_truth": "bia", "ground_truth_normalized": "bia", "predicted_top1": "chai", "predicted_topk": [ "chai", "bia", "rượu", "máy tính", "đồ uống", "cái bàn", "cái kệ", "một", "tủ đá", "laptop" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.205196, "confidences": [ 0.205196, 0.131968, 0.031591, 0.027021, 0.021501, 0.019731, 0.016893, 0.016712, 0.013896, 0.011375 ], "gate_score_top1": 0.718262, "gate_scores": [ 0.718262, 0.668457, 0.595215, 0.702148, 0.578613, 0.63916, 0.543945, 0.489502, 0.613281, 0.684082 ] }, { "question_id": "10082891", "image_id": 384375, "question": "phòng khách sạn có giường đôi như một loại và hoa hồng những gì", "ground_truth": "nhiều cái ghế", "ground_truth_normalized": "nhiều cái ghế", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "phòng ngủ", "nhiều cái ghế", "cửa", "bức ảnh", "cửa sổ", "đi văng", "tường", "hành lang" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.231147, "confidences": [ 0.231147, 0.157014, 0.107074, 0.075043, 0.04931, 0.030261, 0.029102, 0.014893, 0.014322, 0.01372 ], "gate_score_top1": 0.795898, "gate_scores": [ 0.795898, 0.791016, 0.763184, 0.699707, 0.703613, 0.596191, 0.643066, 0.588379, 0.515137, 0.620117 ] }, { "question_id": "10079501", "image_id": 337446, "question": "những gì đang chạy trên một cánh đồng trong một khu vực cỏ", "ground_truth": "con bò", "ground_truth_normalized": "con bò", "predicted_top1": "con ngựa", "predicted_topk": [ "con ngựa", "con chó", "con bò", "mũ", "ngựa vằn", "gia súc", "tàu hỏa", "ngựa rằn", "con chim", "màu nâu" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.959412, "confidences": [ 0.959412, 0.011039, 0.004674, 0.001275, 0.001161, 0.001159, 0.000677, 0.000646, 0.000545, 0.000506 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.739258, 0.724121, 0.549316, 0.605469, 0.647461, 0.62793, 0.647461, 0.54541, 0.683105 ] }, { "question_id": "10068341", "image_id": 561979, "question": "những gì nằm trên bãi biển giữa hai chiếc thuyền lớn", "ground_truth": "con chó", "ground_truth_normalized": "con chó", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "bến du thuyền", "con chó", "ca nô", "thuyền buồm", "bờ biển", "bảng", "ván lướt sóng", "cây sào", "hồ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.929156, "confidences": [ 0.929156, 0.008675, 0.005939, 0.005471, 0.00409, 0.002044, 0.001436, 0.001242, 0.001166, 0.000674 ], "gate_score_top1": 0.833496, "gate_scores": [ 0.833496, 0.627441, 0.582031, 0.508789, 0.624023, 0.43042, 0.492676, 0.552246, 0.449219, 0.341553 ] }, { "question_id": "10064171", "image_id": 474347, "question": "ăn những gì rải rác trên mặt đất để tiêu thụ", "ground_truth": "bãi cỏ", "ground_truth_normalized": "bãi cỏ", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "thân cây", "ba", "bãi cỏ", "hai", "một", "hươu cao cổ", "lá", "xe tải", "vườn bách thú" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.792157, "confidences": [ 0.792157, 0.032189, 0.016929, 0.01293, 0.012218, 0.010636, 0.008479, 0.003612, 0.003153, 0.002948 ], "gate_score_top1": 0.854004, "gate_scores": [ 0.854004, 0.688965, 0.675781, 0.607422, 0.688477, 0.679688, 0.680176, 0.474609, 0.510742, 0.562988 ] }, { "question_id": "10114871", "image_id": 244940, "question": "có bao nhiêu xúc xích với các lớp phủ khác nhau trên một khay với khoai tây chiên", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.643313, "confidences": [ 0.643313, 0.220593, 0.101787, 0.01269, 0.010686, 0.003978, 0.001142, 0.000816, 0.000433, 0.000228 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.869629, 0.852051, 0.746094, 0.715332, 0.544434, 0.553711, 0.577637, 0.459473, 0.44873 ] }, { "question_id": "10054061", "image_id": 416787, "question": "những cái bánh rán đầy với những rắc đường ở bên ngoài", "ground_truth": "sô cô la", "ground_truth_normalized": "sô cô la", "predicted_top1": "donut", "predicted_topk": [ "donut", "sô cô la", "bánh ngọt", "cupcake", "cái mâm", "đĩa ăn", "dao", "cửa tiệm", "bánh", "quả táo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.298309, "confidences": [ 0.298309, 0.252185, 0.069484, 0.049465, 0.022209, 0.018811, 0.009721, 0.008688, 0.008554, 0.007857 ], "gate_score_top1": 0.787109, "gate_scores": [ 0.787109, 0.67627, 0.736328, 0.657715, 0.700195, 0.618652, 0.661621, 0.565918, 0.687012, 0.609375 ] }, { "question_id": "10076531", "image_id": 427193, "question": "những gì rất tối nhưng có sự gắn kết sáng ở phía sau", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "đồi", "predicted_topk": [ "đồi", "núi", "bức ảnh", "cây", "trượt tuyết", "ván trượt", "trang thiết bị", "bầu trời", "con chim", "cầu" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.267628, "confidences": [ 0.267628, 0.255372, 0.087226, 0.026037, 0.023522, 0.014778, 0.008379, 0.006832, 0.004705, 0.004209 ], "gate_score_top1": 0.785645, "gate_scores": [ 0.785645, 0.797852, 0.688965, 0.621582, 0.690918, 0.694336, 0.607422, 0.57666, 0.477295, 0.563965 ] }, { "question_id": "10077431", "image_id": 555356, "question": "cái gì được bọc trong lá thiếc trên đầu quầy", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "cái mâm", "giấy bạc", "chén đĩa", "lò vi sóng", "món ăn", "thùng chứa", "bữa ăn", "dao", "bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.273785, "confidences": [ 0.273785, 0.236941, 0.078748, 0.028299, 0.025416, 0.024925, 0.014313, 0.012755, 0.010051, 0.008381 ], "gate_score_top1": 0.759277, "gate_scores": [ 0.759277, 0.832031, 0.777832, 0.665039, 0.605469, 0.719238, 0.711914, 0.624023, 0.687988, 0.550293 ] }, { "question_id": "10058221", "image_id": 577091, "question": "những gì mở trên bàn với loa", "ground_truth": "laptop", "ground_truth_normalized": "laptop", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "laptop", "cái bàn", "chuột", "bàn phím", "điện thoại", "trang thiết bị", "văn phòng", "cái ghế", "bức tranh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.540145, "confidences": [ 0.540145, 0.386024, 0.017027, 0.014793, 0.010614, 0.001888, 0.0014, 0.001318, 0.001268, 0.001017 ], "gate_score_top1": 0.868652, "gate_scores": [ 0.868652, 0.893555, 0.822266, 0.76416, 0.746094, 0.704102, 0.510742, 0.680176, 0.562988, 0.54834 ] }, { "question_id": "10061041", "image_id": 540093, "question": "những gì được bảo vệ để bảo vệ chúng khỏi thời tiết", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe đẩy", "phương tiện giao thông", "xe tải", "con thuyền", "toa xe", "tường", "xe cộ", "chiếc ô", "vali" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.615016, "confidences": [ 0.615016, 0.069544, 0.020638, 0.013247, 0.00847, 0.008453, 0.008129, 0.007637, 0.00659, 0.006577 ], "gate_score_top1": 0.767578, "gate_scores": [ 0.767578, 0.797363, 0.702637, 0.618164, 0.537109, 0.54541, 0.4646, 0.688965, 0.65918, 0.59082 ] }, { "question_id": "10063201", "image_id": 457254, "question": "người đi xe máy cưỡi những gì đang mỉm cười với máy ảnh", "ground_truth": "hộp số", "ground_truth_normalized": "hộp số", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "mũ", "xe đạp", "xe tay ga", "đường", "ván trượt", "cây", "nón", "xe cộ", "bầu trời" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.613073, "confidences": [ 0.613073, 0.071246, 0.045821, 0.027468, 0.013492, 0.006986, 0.005207, 0.00455, 0.00438, 0.004171 ], "gate_score_top1": 0.824707, "gate_scores": [ 0.824707, 0.637695, 0.76123, 0.712402, 0.624023, 0.578125, 0.534668, 0.551758, 0.504395, 0.529785 ] }, { "question_id": "10097821", "image_id": 459786, "question": "những gì được trang trí với dây leo và hoa", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "quầy tính tiền", "gương", "vòi hoa sen", "tường", "khăn", "chậu", "nhà ở", "bồn tắm", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.455604, "confidences": [ 0.455604, 0.072937, 0.042378, 0.030464, 0.027361, 0.023679, 0.019554, 0.015378, 0.012047, 0.011907 ], "gate_score_top1": 0.760254, "gate_scores": [ 0.760254, 0.677734, 0.616699, 0.647949, 0.593262, 0.600098, 0.616211, 0.631836, 0.68457, 0.571777 ] }, { "question_id": "10108551", "image_id": 544410, "question": "có bao nhiêu tầng bánh với bong bóng màu đỏ và trắng trên đó", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.527567, "confidences": [ 0.527567, 0.221647, 0.149974, 0.059656, 0.018771, 0.010206, 0.003052, 0.000947, 0.000902, 0.000834 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.869141, 0.827637, 0.808594, 0.793457, 0.62793, 0.615723, 0.541992, 0.50293, 0.543457 ] }, { "question_id": "10030231", "image_id": 5600, "question": "một số hành tây ở đâu", "ground_truth": "cái thìa", "ground_truth_normalized": "cái thìa", "predicted_top1": "bát", "predicted_topk": [ "bát", "chảo", "thùng chứa", "cái nồi", "cái rổ", "chậu", "món ăn", "tách", "giấy bạc", "quầy tính tiền" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.504495, "confidences": [ 0.504495, 0.105748, 0.07587, 0.052349, 0.029595, 0.027105, 0.025713, 0.023596, 0.010573, 0.008218 ], "gate_score_top1": 0.849121, "gate_scores": [ 0.849121, 0.804199, 0.769531, 0.78125, 0.768066, 0.719727, 0.71875, 0.66748, 0.676758, 0.648926 ] }, { "question_id": "10091111", "image_id": 570826, "question": "tài xế lái gì vào một đường ray", "ground_truth": "xe điện", "ground_truth_normalized": "xe điện", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe điện", "xe buýt", "xe ô tô", "xe đẩy", "trạm", "xe điện ngầm", "động cơ", "đường sắt", "các tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.463105, "confidences": [ 0.463105, 0.183492, 0.06292, 0.061223, 0.058648, 0.024069, 0.018418, 0.005841, 0.005298, 0.005006 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.795898, 0.777832, 0.746582, 0.750977, 0.733887, 0.739746, 0.660156, 0.659668, 0.616699 ] }, { "question_id": "10097141", "image_id": 413120, "question": "cái gì trong đầu của một máy xay", "ground_truth": "rau", "ground_truth_normalized": "rau", "predicted_top1": "máy xay", "predicted_topk": [ "máy xay", "rau", "cà rốt", "cái nồi", "bông cải xanh", "cái lọ", "quầy tính tiền", "cây", "tách", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.549395, "confidences": [ 0.549395, 0.136755, 0.020486, 0.014302, 0.013514, 0.011833, 0.007405, 0.00722, 0.007205, 0.00575 ], "gate_score_top1": 0.825195, "gate_scores": [ 0.825195, 0.775391, 0.733887, 0.678223, 0.705566, 0.677246, 0.547852, 0.664551, 0.683105, 0.620605 ] }, { "question_id": "10078141", "image_id": 365540, "question": "cái gì cầm ô đỏ trong ao", "ground_truth": "bức tượng", "ground_truth_normalized": "bức tượng", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "bức tượng", "sân vườn", "bức ảnh", "dĩa nhựa", "mũ", "hồ bơi", "cây", "băng ghế", "những bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.640003, "confidences": [ 0.640003, 0.080106, 0.01059, 0.009605, 0.009419, 0.009201, 0.00725, 0.006575, 0.006238, 0.005848 ], "gate_score_top1": 0.824707, "gate_scores": [ 0.824707, 0.754395, 0.608398, 0.630859, 0.609375, 0.654785, 0.631836, 0.637695, 0.588379, 0.593262 ] }, { "question_id": "10073721", "image_id": 519460, "question": "những gì có bánh sandwich chuẩn bị với một mặt súp và salad vườn", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "quán ăn", "bữa ăn", "món ăn", "dĩa", "bữa trưa", "thịt", "bữa ăn tối", "đĩa", "cái mâm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.533568, "confidences": [ 0.533568, 0.114494, 0.067571, 0.02077, 0.018874, 0.01577, 0.011493, 0.011314, 0.010202, 0.009773 ], "gate_score_top1": 0.829102, "gate_scores": [ 0.829102, 0.778809, 0.762695, 0.709961, 0.681641, 0.532715, 0.668457, 0.640137, 0.622559, 0.694824 ] }, { "question_id": "10061211", "image_id": 557884, "question": "những gì được cài đặt vào tường", "ground_truth": "lọ cắm hoa", "ground_truth_normalized": "lọ cắm hoa", "predicted_top1": "cây", "predicted_topk": [ "cây", "lọ cắm hoa", "bông hoa", "cái nồi", "hoa hồng", "chai", "tường", "sân vườn", "lá", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.458006, "confidences": [ 0.458006, 0.286613, 0.07654, 0.026973, 0.01728, 0.013616, 0.008672, 0.007668, 0.005643, 0.005249 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.76709, 0.831543, 0.67041, 0.712402, 0.671875, 0.623047, 0.67041, 0.550781, 0.623535 ] }, { "question_id": "10037141", "image_id": 165766, "question": "vòi chữa cháy màu vàng và xanh đang ngồi ở đâu", "ground_truth": "đường đi bộ", "ground_truth_normalized": "đường đi bộ", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "cửa sổ", "vòi", "ảnh chụp", "cửa hàng", "tòa nhà", "cửa tiệm", "đường", "gian hàng", "cái ghế" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.344257, "confidences": [ 0.344257, 0.16135, 0.069125, 0.042587, 0.029847, 0.027389, 0.017006, 0.012106, 0.009728, 0.009502 ], "gate_score_top1": 0.817383, "gate_scores": [ 0.817383, 0.785156, 0.725098, 0.603516, 0.72168, 0.758301, 0.717773, 0.746582, 0.629883, 0.666016 ] }, { "question_id": "10013491", "image_id": 251264, "question": "màu của cây là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu xanh lá", "màu đen", "màu xám", "màu cam", "màu trắng", "màu vàng", "màu nâu", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.519305, "confidences": [ 0.519305, 0.458285, 0.010046, 0.001978, 0.001808, 0.001116, 0.001002, 0.000723, 0.000537, 0.000449 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.882812, 0.786621, 0.746582, 0.827148, 0.744141, 0.702637, 0.631348, 0.638672, 0.683105 ] }, { "question_id": "10096171", "image_id": 577539, "question": "chuối, marshmellows, chip và cái gì được rắc trong một cái bát", "ground_truth": "sô cô la", "ground_truth_normalized": "sô cô la", "predicted_top1": "bát", "predicted_topk": [ "bát", "sô cô la", "tách", "cái mâm", "cupcake", "chuối", "cái rổ", "dĩa", "thùng chứa", "cái nĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.153021, "confidences": [ 0.153021, 0.127355, 0.04676, 0.032964, 0.025176, 0.020072, 0.018455, 0.018133, 0.018028, 0.015092 ], "gate_score_top1": 0.672852, "gate_scores": [ 0.672852, 0.652344, 0.765137, 0.662598, 0.52832, 0.609375, 0.63916, 0.567871, 0.692871, 0.541016 ] }, { "question_id": "10051441", "image_id": 90582, "question": "người đàn ông và một người phụ nữ đang đứng ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "nhà ở", "ô cửa", "phòng", "hành lang", "cửa", "phòng ngủ", "vòi hoa sen", "phòng bếp" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.468594, "confidences": [ 0.468594, 0.095201, 0.079543, 0.079233, 0.070747, 0.056404, 0.019761, 0.011617, 0.006134, 0.005055 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.742188, 0.783203, 0.71582, 0.745117, 0.68457, 0.690918, 0.808105, 0.638184, 0.671387 ] }, { "question_id": "10045961", "image_id": 333241, "question": "con mèo trắng nằm ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "cây", "hộp", "bát", "sân vườn", "thùng chứa", "giường", "lọ cắm hoa", "cái rổ", "bông cải xanh" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.313305, "confidences": [ 0.313305, 0.24116, 0.079837, 0.040539, 0.029028, 0.027005, 0.026899, 0.015327, 0.009406, 0.007936 ], "gate_score_top1": 0.747559, "gate_scores": [ 0.747559, 0.809082, 0.702148, 0.737793, 0.736328, 0.706055, 0.575195, 0.586426, 0.754883, 0.554199 ] }, { "question_id": "10116591", "image_id": 88286, "question": "có bao nhiêu người đàn ông đang đẩy một người khác trên ván trượt", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "mười", "năm", "tám", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.839126, "confidences": [ 0.839126, 0.148114, 0.007638, 0.001042, 0.000284, 0.000114, 8.3e-05, 7.4e-05, 7.3e-05, 6.1e-05 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.87793, 0.773926, 0.664551, 0.428223, 0.435791, 0.44873, 0.538086, 0.4104, 0.501953 ] }, { "question_id": "10030331", "image_id": 145538, "question": "xe tải gửi thư dừng ở đâu", "ground_truth": "đường", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "xe ô tô", "ảnh chụp", "vạch kẻ đường", "xe tải", "áo vest", "gương", "cửa sổ", "phương tiện giao thông" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.769437, "confidences": [ 0.769437, 0.168364, 0.02003, 0.005694, 0.004739, 0.002042, 0.00173, 0.001157, 0.001078, 0.001029 ], "gate_score_top1": 0.866699, "gate_scores": [ 0.866699, 0.861328, 0.780762, 0.600586, 0.684082, 0.69873, 0.578125, 0.707031, 0.638672, 0.558594 ] }, { "question_id": "10045371", "image_id": 389731, "question": "bông cải xanh, súp lơ và cà rốt ở đâu, và cà rốt chứa ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "máy xay", "predicted_topk": [ "máy xay", "cái nồi", "cái lọ", "tách", "bát", "thùng chứa", "rau", "lọ cắm hoa", "phòng bếp", "chậu" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.583996, "confidences": [ 0.583996, 0.090969, 0.054108, 0.034799, 0.034528, 0.034259, 0.007765, 0.005326, 0.005274, 0.004878 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.783691, 0.763672, 0.696289, 0.757324, 0.730469, 0.628906, 0.583496, 0.582031, 0.64502 ] }, { "question_id": "10028781", "image_id": 509764, "question": "một con mèo nằm ở đâu, và cái kia đang đứng", "ground_truth": "sàn nhà", "ground_truth_normalized": "sàn nhà", "predicted_top1": "nhà ở", "predicted_topk": [ "nhà ở", "cửa", "phòng bếp", "phòng", "hành lang", "ô cửa", "cửa sổ", "gương", "tủ đá", "tường" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.285594, "confidences": [ 0.285594, 0.183675, 0.149911, 0.058477, 0.034646, 0.027677, 0.026461, 0.011857, 0.010796, 0.008675 ], "gate_score_top1": 0.821777, "gate_scores": [ 0.821777, 0.762207, 0.778809, 0.691406, 0.671387, 0.612305, 0.71875, 0.73877, 0.65918, 0.630859 ] }, { "question_id": "10009201", "image_id": 346084, "question": "màu sắc của váy là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu đen", "màu trắng", "màu cam", "màu nâu", "màu tía", "màu xám", "màu vàng", "màu xanh dương", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.608142, "confidences": [ 0.608142, 0.3155, 0.030042, 0.016852, 0.008375, 0.003941, 0.003775, 0.002574, 0.002437, 0.001993 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.868652, 0.8125, 0.837891, 0.753906, 0.775879, 0.777832, 0.694824, 0.6875, 0.616699 ] }, { "question_id": "10057551", "image_id": 511379, "question": "đồng hồ này cũng có những gì bên cạnh nó", "ground_truth": "lá cờ", "ground_truth_normalized": "lá cờ", "predicted_top1": "đồng hồ", "predicted_topk": [ "đồng hồ", "lá cờ", "con chim", "bức tượng", "tòa tháp", "cây", "cờ", "diều", "tòa nhà", "áo sơ mi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.439001, "confidences": [ 0.439001, 0.152308, 0.060113, 0.056914, 0.031988, 0.012141, 0.008231, 0.007931, 0.007839, 0.006317 ], "gate_score_top1": 0.779785, "gate_scores": [ 0.779785, 0.76416, 0.641113, 0.726074, 0.75293, 0.666992, 0.541504, 0.577148, 0.619141, 0.581055 ] }, { "question_id": "10051261", "image_id": 118485, "question": "nải lớn của chuối được bao bọc ở đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "sân vườn", "sân", "bát", "cái túi", "cây", "hồ bơi", "chuồng", "thùng chứa", "cái rổ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.155093, "confidences": [ 0.155093, 0.132658, 0.074706, 0.052768, 0.044959, 0.036838, 0.022083, 0.019261, 0.015659, 0.015447 ], "gate_score_top1": 0.762695, "gate_scores": [ 0.762695, 0.756348, 0.719727, 0.745605, 0.654785, 0.686523, 0.604492, 0.655273, 0.626465, 0.706543 ] }, { "question_id": "10085361", "image_id": 430762, "question": "những gì đang nằm trên đỉnh của một chiếc kéo màu đỏ", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "cây kéo", "predicted_topk": [ "cây kéo", "dao", "mặt", "máy bay", "quầy tính tiền", "chuồng", "tách", "bàn chải", "mũ", "máy ảnh" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.666166, "confidences": [ 0.666166, 0.013718, 0.007986, 0.006099, 0.004891, 0.004769, 0.004334, 0.004168, 0.003687, 0.003258 ], "gate_score_top1": 0.750977, "gate_scores": [ 0.750977, 0.606934, 0.438965, 0.540039, 0.505859, 0.375244, 0.590332, 0.541016, 0.416504, 0.463135 ] }, { "question_id": "10065471", "image_id": 537506, "question": "người đang giữ cái đĩa theo loại kỷ niệm bao nhiêu", "ground_truth": "táo", "ground_truth_normalized": "táo", "predicted_top1": "ba", "predicted_topk": [ "ba", "một", "hai", "bốn", "sáu", "năm", "bảy", "táo", "tám", "chuối" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.30346, "confidences": [ 0.30346, 0.230861, 0.182626, 0.134135, 0.013623, 0.011789, 0.009473, 0.007747, 0.007067, 0.004782 ], "gate_score_top1": 0.776855, "gate_scores": [ 0.776855, 0.741699, 0.709961, 0.732422, 0.530762, 0.648926, 0.598145, 0.570801, 0.515137, 0.486816 ] }, { "question_id": "10077561", "image_id": 412878, "question": "nằm trong phòng khách", "ground_truth": "đi văng", "ground_truth_normalized": "đi văng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "đi văng", "cây", "bức ảnh", "nhà ở", "nhiều cái ghế", "cửa sổ", "băng ghế", "đồng hồ", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.116089, "confidences": [ 0.116089, 0.099296, 0.049444, 0.038207, 0.036529, 0.033652, 0.016321, 0.016084, 0.014904, 0.014333 ], "gate_score_top1": 0.751953, "gate_scores": [ 0.751953, 0.674316, 0.603027, 0.608887, 0.6875, 0.635742, 0.526367, 0.55957, 0.622559, 0.563965 ] }, { "question_id": "10114601", "image_id": 157270, "question": "có bao nhiêu quả cam giá hai mươi bao nhiêu xu một pound", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "một", "ba", "bảy", "hai", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.237145, "confidences": [ 0.237145, 0.20928, 0.166202, 0.155524, 0.07433, 0.065853, 0.043187, 0.010834, 0.004941, 0.004001 ], "gate_score_top1": 0.772461, "gate_scores": [ 0.772461, 0.82959, 0.770996, 0.766113, 0.75, 0.745605, 0.708496, 0.614258, 0.605469, 0.586914 ] }, { "question_id": "10113391", "image_id": 452772, "question": "có bao nhiêu con bò đang ngồi trên cỏ dưới gốc cây", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.652381, "confidences": [ 0.652381, 0.303385, 0.027782, 0.0103, 0.00239, 0.000484, 0.000227, 0.000186, 0.000136, 8.9e-05 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.893066, 0.823242, 0.76709, 0.681641, 0.467041, 0.498779, 0.481445, 0.423096, 0.360107 ] }, { "question_id": "10088921", "image_id": 466575, "question": "đánh bại những gì đang ngồi một mình trên vỉa hè", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "cái túi", "túi", "balo", "cái ví", "xe đẩy", "hộp", "sàn nhà", "thân cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.574261, "confidences": [ 0.574261, 0.146907, 0.043938, 0.041115, 0.012249, 0.012035, 0.009156, 0.008703, 0.008064, 0.006147 ], "gate_score_top1": 0.801758, "gate_scores": [ 0.801758, 0.770996, 0.799805, 0.769043, 0.64209, 0.681641, 0.698242, 0.692383, 0.55957, 0.586426 ] }, { "question_id": "10112911", "image_id": 504635, "question": "có bao nhiêu con ngựa vằn đứng cùng nhau trong cánh đồng cỏ", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.564365, "confidences": [ 0.564365, 0.387882, 0.035105, 0.00477, 0.001377, 0.001111, 0.000764, 0.000702, 0.000365, 0.000227 ], "gate_score_top1": 0.902344, "gate_scores": [ 0.902344, 0.875488, 0.779785, 0.611328, 0.6875, 0.621582, 0.57959, 0.547852, 0.550293, 0.45874 ] }, { "question_id": "10104791", "image_id": 490739, "question": "có bao nhiêu người đàn ông mặc vest đang đứng xung quanh bục gỗ", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "tám", "chín", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.428149, "confidences": [ 0.428149, 0.421511, 0.094052, 0.023873, 0.014255, 0.002632, 0.002586, 0.001313, 0.001258, 0.000766 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.867676, 0.76123, 0.754395, 0.724121, 0.609375, 0.63623, 0.601074, 0.574219, 0.552734 ] }, { "question_id": "10086851", "image_id": 515716, "question": "hai người phụ nữ và một người đàn ông đang cầm gì khi uống rượu", "ground_truth": "kính đeo", "ground_truth_normalized": "kính đeo", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "quán bar", "chai", "kính đeo", "nước", "đồng hồ", "cái kệ", "đồ uống", "mũ", "bia" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.466199, "confidences": [ 0.466199, 0.143859, 0.070386, 0.060914, 0.037601, 0.007448, 0.005909, 0.005892, 0.004889, 0.004851 ], "gate_score_top1": 0.80127, "gate_scores": [ 0.80127, 0.728516, 0.761719, 0.681641, 0.680176, 0.671387, 0.630859, 0.583008, 0.646973, 0.569336 ] }, { "question_id": "10080621", "image_id": 386436, "question": "hai con bò trong một cánh đồng là gì, một cái mặc", "ground_truth": "kính râm", "ground_truth_normalized": "kính râm", "predicted_top1": "bãi cỏ", "predicted_topk": [ "bãi cỏ", "đồi", "con bò", "đường", "kính râm", "bò đực", "bức ảnh", "mũ", "cây", "ván trượt" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.169895, "confidences": [ 0.169895, 0.143626, 0.067316, 0.025007, 0.024333, 0.023446, 0.0216, 0.01826, 0.017424, 0.016464 ], "gate_score_top1": 0.720703, "gate_scores": [ 0.720703, 0.780762, 0.694824, 0.664551, 0.489014, 0.65625, 0.566406, 0.630859, 0.602051, 0.559082 ] }, { "question_id": "10102041", "image_id": 474881, "question": "những gì đang ăn cỏ trên dốc", "ground_truth": "con dê", "ground_truth_normalized": "con dê", "predicted_top1": "con cừu", "predicted_topk": [ "con cừu", "gia súc", "con bò", "bò đực", "đồi", "ngựa vằn", "đồng hồ", "núi", "con chó", "cây" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.566747, "confidences": [ 0.566747, 0.034707, 0.032668, 0.018183, 0.016948, 0.011378, 0.007835, 0.007233, 0.006138, 0.00592 ], "gate_score_top1": 0.726562, "gate_scores": [ 0.726562, 0.550293, 0.666992, 0.522461, 0.582031, 0.535645, 0.550781, 0.5625, 0.57373, 0.503906 ] }, { "question_id": "10106431", "image_id": 341075, "question": "có bao nhiêu con hươu cao cổ vào một ngày nắng đẹp", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "tám", "một", "hai", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.546425, "confidences": [ 0.546425, 0.344626, 0.065261, 0.023544, 0.004188, 0.002186, 0.00126, 0.001253, 0.001214, 0.000841 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.847168, 0.781738, 0.699219, 0.694824, 0.573242, 0.587402, 0.621094, 0.595215, 0.494629 ] }, { "question_id": "10067231", "image_id": 512223, "question": "phòng khách khoe khoang gì", "ground_truth": "ghế sô pha", "ground_truth_normalized": "ghế sô pha", "predicted_top1": "đi văng", "predicted_topk": [ "đi văng", "bức ảnh", "nhà ở", "phòng", "cây", "nhiều cái ghế", "cửa sổ", "con chó", "cái kệ", "mũ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.10626, "confidences": [ 0.10626, 0.0712, 0.059374, 0.040648, 0.033176, 0.030325, 0.029392, 0.024799, 0.021212, 0.016633 ], "gate_score_top1": 0.643555, "gate_scores": [ 0.643555, 0.571777, 0.709961, 0.68457, 0.600586, 0.614258, 0.568848, 0.612305, 0.602051, 0.525391 ] }, { "question_id": "10050561", "image_id": 572689, "question": "cặp đôi đang đứng ở đâu", "ground_truth": "lối đi", "ground_truth_normalized": "lối đi", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "cửa sổ", "ảnh chụp", "áo vest", "đường", "gương", "lối đi", "gian hàng", "vạch kẻ đường", "ô cửa" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.784594, "confidences": [ 0.784594, 0.017132, 0.014175, 0.013239, 0.01222, 0.010371, 0.010013, 0.006217, 0.005628, 0.005454 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.723145, 0.630371, 0.609375, 0.779785, 0.730469, 0.608398, 0.643066, 0.67041, 0.625488 ] }, { "question_id": "10007201", "image_id": 327324, "question": "màu sắc của bông hoa là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu trắng", "màu xanh dương", "màu xanh lá", "màu vàng", "màu nâu", "màu đỏ", "màu đen", "lọ cắm hoa", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.951695, "confidences": [ 0.951695, 0.02439, 0.008834, 0.005337, 0.002313, 0.000708, 0.00046, 0.000275, 0.000197, 0.000178 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.766602, 0.746582, 0.734863, 0.668457, 0.648926, 0.699707, 0.609863, 0.510742, 0.556641 ] }, { "question_id": "10077951", "image_id": 366256, "question": "cái gì ở trên cùng của một công trình kiến ​​trúc bằng xi măng", "ground_truth": "đồng hồ", "ground_truth_normalized": "đồng hồ", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "bức tượng", "tòa nhà", "cầu", "cây", "cờ", "các tòa nhà", "lá cờ", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.506692, "confidences": [ 0.506692, 0.410331, 0.018894, 0.010599, 0.00491, 0.003764, 0.003239, 0.002711, 0.001941, 0.001606 ], "gate_score_top1": 0.853027, "gate_scores": [ 0.853027, 0.842773, 0.719238, 0.708984, 0.60791, 0.649902, 0.585449, 0.60498, 0.638184, 0.61377 ] }, { "question_id": "10063641", "image_id": 515422, "question": "những gì đã che phủ mây che phủ phía trên một khu rừng", "ground_truth": "núi", "ground_truth_normalized": "núi", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "núi", "con thuyền", "diều", "ván lướt sóng", "bầu trời", "trượt tuyết", "hải âu", "bờ biển", "bảng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.441917, "confidences": [ 0.441917, 0.164489, 0.047404, 0.031701, 0.019955, 0.018564, 0.015663, 0.012009, 0.008718, 0.005429 ], "gate_score_top1": 0.793457, "gate_scores": [ 0.793457, 0.664062, 0.730469, 0.70752, 0.728027, 0.605957, 0.597168, 0.538086, 0.424561, 0.626465 ] }, { "question_id": "10068201", "image_id": 490125, "question": "chim trắng nhận được những gì từ vũng nước", "ground_truth": "nước", "ground_truth_normalized": "nước", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vẹt", "con vịt", "nước", "xe ô tô", "màu trắng", "chim bồ câu", "cửa sổ", "gương" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.632966, "confidences": [ 0.632966, 0.028304, 0.01457, 0.009887, 0.009162, 0.007983, 0.006434, 0.00579, 0.005573, 0.00545 ], "gate_score_top1": 0.776855, "gate_scores": [ 0.776855, 0.644043, 0.628906, 0.503906, 0.390869, 0.540039, 0.472168, 0.398438, 0.615723, 0.557617 ] }, { "question_id": "10111291", "image_id": 416565, "question": "phòng tắm nhỏ có bao nhiêu bức tường gỗ giống hệt nhau", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.466351, "confidences": [ 0.466351, 0.315549, 0.126008, 0.067447, 0.010755, 0.002784, 0.001461, 0.000839, 0.000584, 0.000451 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.881836, 0.820312, 0.783203, 0.731445, 0.489014, 0.553711, 0.513672, 0.509277, 0.487061 ] }, { "question_id": "10088911", "image_id": 349437, "question": "hai người mặc gì", "ground_truth": "mũ", "ground_truth_normalized": "mũ", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "mũ", "xe tay ga", "đường", "xe đạp", "xe cộ", "vòi", "nón", "màu đỏ", "đường phố" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.20442, "confidences": [ 0.20442, 0.166192, 0.159825, 0.042184, 0.038938, 0.013043, 0.012015, 0.010739, 0.008825, 0.008242 ], "gate_score_top1": 0.73584, "gate_scores": [ 0.73584, 0.637207, 0.703613, 0.692383, 0.670898, 0.535645, 0.520508, 0.523926, 0.61084, 0.593262 ] }, { "question_id": "10006821", "image_id": 380425, "question": "màu của dơi là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu vàng", "màu xanh dương", "màu tía", "màu đen", "màu xám", "màu trắng", "màu nâu", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.927397, "confidences": [ 0.927397, 0.030757, 0.022154, 0.006757, 0.002773, 0.002272, 0.00125, 0.001107, 0.000909, 0.000273 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.795898, 0.795898, 0.785645, 0.708984, 0.674805, 0.712402, 0.700684, 0.684082, 0.726562 ] }, { "question_id": "10013111", "image_id": 240405, "question": "màu của con chó là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu xám", "màu trắng", "màu vàng", "màu đỏ", "màu cam", "màu đen", "màu tía", "màu xanh lá", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.52556, "confidences": [ 0.52556, 0.290242, 0.119581, 0.015933, 0.008868, 0.005013, 0.002774, 0.001683, 0.001088, 0.001042 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.865234, 0.866211, 0.739258, 0.730957, 0.719238, 0.680176, 0.57959, 0.505371, 0.566895 ] }, { "question_id": "10115011", "image_id": 459463, "question": "có bao nhiêu hộp nhựa đựng đầy rau củ đã cắt", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "năm", "bảy", "ba", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.389366, "confidences": [ 0.389366, 0.335654, 0.195786, 0.034289, 0.008018, 0.008018, 0.002039, 0.001399, 0.000896, 0.000858 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.806152, 0.785645, 0.73584, 0.625, 0.629395, 0.623047, 0.555664, 0.486084, 0.512207 ] }, { "question_id": "10076971", "image_id": 441203, "question": "những gì bị chiếm bởi xe nông trại", "ground_truth": "đường bộ", "ground_truth_normalized": "đường", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe cộ", "đường", "xe đẩy", "con ngựa", "xe", "xe ô tô", "xe máy", "phương tiện giao thông", "xe đạp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.241177, "confidences": [ 0.241177, 0.124633, 0.076485, 0.076485, 0.054025, 0.051752, 0.042322, 0.034474, 0.029315, 0.017573 ], "gate_score_top1": 0.824219, "gate_scores": [ 0.824219, 0.754395, 0.731934, 0.701172, 0.765137, 0.629883, 0.714355, 0.712402, 0.670898, 0.601074 ] }, { "question_id": "10098481", "image_id": 391656, "question": "căn phòng nghỉ ngơi rất đẹp với một lưu vực lớn những gì", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "bồn tắm", "vòi hoa sen", "khăn", "cửa", "tường", "quầy tính tiền", "chậu", "bức ảnh", "gương" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.223416, "confidences": [ 0.223416, 0.13498, 0.092049, 0.075128, 0.05682, 0.040608, 0.033208, 0.02439, 0.022868, 0.016862 ], "gate_score_top1": 0.738281, "gate_scores": [ 0.738281, 0.802734, 0.737793, 0.725098, 0.675293, 0.612793, 0.640625, 0.649902, 0.600098, 0.60498 ] }, { "question_id": "10101271", "image_id": 384215, "question": "những gì chứa đầy những chiếc thuyền dưới bầu trời xanh nhiều mây", "ground_truth": "bến du thuyền", "ground_truth_normalized": "bến du thuyền", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "bến du thuyền", "thuyền buồm", "ca nô", "bến tàu", "hàng hoá", "xe đạp", "cầu", "hồ", "cây sào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.463874, "confidences": [ 0.463874, 0.446103, 0.013392, 0.00946, 0.002212, 0.001699, 0.001307, 0.001198, 0.001136, 0.001096 ], "gate_score_top1": 0.775391, "gate_scores": [ 0.775391, 0.816895, 0.677246, 0.566406, 0.472656, 0.451904, 0.533203, 0.518066, 0.375244, 0.474854 ] }, { "question_id": "10045331", "image_id": 309341, "question": "ván lướt sóng đang được trưng bày ở đâu", "ground_truth": "văn phòng", "ground_truth_normalized": "văn phòng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "văn phòng", "cửa tiệm", "cửa hàng", "ga-ra", "bảo tàng", "nhà ở", "tòa nhà", "kho", "lớp học" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.236957, "confidences": [ 0.236957, 0.105974, 0.087513, 0.050648, 0.046478, 0.028411, 0.028411, 0.027004, 0.020147, 0.017199 ], "gate_score_top1": 0.772461, "gate_scores": [ 0.772461, 0.740234, 0.749512, 0.722656, 0.769043, 0.726074, 0.723633, 0.658691, 0.73584, 0.666992 ] }, { "question_id": "10046721", "image_id": 217769, "question": "hai xe đang đỗ ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "tòa nhà", "kho", "phòng", "cửa tiệm", "bảo tàng", "trạm", "cửa hàng", "chuồng", "sân bay" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.585166, "confidences": [ 0.585166, 0.149697, 0.130568, 0.025115, 0.019407, 0.01236, 0.011679, 0.002668, 0.002596, 0.002566 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.806152, 0.824707, 0.762207, 0.749512, 0.785645, 0.704102, 0.708008, 0.606445, 0.653809 ] }, { "question_id": "10069611", "image_id": 564301, "question": "cái gì được dựng lên trên cánh đồng, nơi đàn cừu đang tụ tập", "ground_truth": "cái lều", "ground_truth_normalized": "cái lều", "predicted_top1": "con cừu", "predicted_topk": [ "con cừu", "gia súc", "con bò", "chuồng trại", "cái lều", "chuồng", "con chó", "bãi cỏ", "cái ghế", "gấu" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.809277, "confidences": [ 0.809277, 0.013924, 0.013924, 0.008748, 0.00555, 0.004556, 0.004386, 0.003282, 0.003269, 0.00275 ], "gate_score_top1": 0.785645, "gate_scores": [ 0.785645, 0.62207, 0.627441, 0.57373, 0.4104, 0.579102, 0.595703, 0.652344, 0.510742, 0.516113 ] }, { "question_id": "10094741", "image_id": 432619, "question": "những gì nằm với bồn rửa và bàn chải đánh răng", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "bàn chải", "predicted_topk": [ "bàn chải", "tường", "quầy tính tiền", "tách", "bông hoa", "người giữ", "lọ cắm hoa", "phòng tắm", "chậu", "máy sấy khô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.187282, "confidences": [ 0.187282, 0.077615, 0.058587, 0.052414, 0.050014, 0.031115, 0.024185, 0.020646, 0.018652, 0.017083 ], "gate_score_top1": 0.772461, "gate_scores": [ 0.772461, 0.666992, 0.657715, 0.785156, 0.761719, 0.496826, 0.602051, 0.627441, 0.615234, 0.591309 ] }, { "question_id": "10093751", "image_id": 471814, "question": "những gì được xếp chồng lên bên cạnh hành tây và bông cải xanh", "ground_truth": "cà rốt", "ground_truth_normalized": "cà rốt", "predicted_top1": "rau", "predicted_topk": [ "rau", "cà rốt", "bông cải xanh", "hoa quả", "những quả cam", "cây", "sân vườn", "táo", "cửa hàng", "chén đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.560803, "confidences": [ 0.560803, 0.28643, 0.023882, 0.010372, 0.005784, 0.005016, 0.003801, 0.003786, 0.003529, 0.002836 ], "gate_score_top1": 0.865723, "gate_scores": [ 0.865723, 0.837402, 0.809082, 0.731934, 0.741699, 0.702637, 0.711914, 0.649902, 0.606445, 0.644043 ] }, { "question_id": "10114501", "image_id": 148516, "question": "có bao nhiêu món bìm bịp đang nấu nướng trên bếp than", "ground_truth": "tám", "ground_truth_normalized": "tám", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "năm", "tám", "ba", "hai", "bảy", "một", "mười", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.202368, "confidences": [ 0.202368, 0.188628, 0.142941, 0.123223, 0.081445, 0.059123, 0.038472, 0.032843, 0.005935, 0.004143 ], "gate_score_top1": 0.756836, "gate_scores": [ 0.756836, 0.719727, 0.745117, 0.693359, 0.691895, 0.726562, 0.64209, 0.628418, 0.520996, 0.481201 ] }, { "question_id": "10099231", "image_id": 575356, "question": "những gì đứng trước tủ lạnh với lò vi sóng", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "chai", "cái kệ", "tường", "phòng bếp", "lò vi sóng", "tủ đông", "bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.601031, "confidences": [ 0.601031, 0.149025, 0.08864, 0.012161, 0.01103, 0.007405, 0.007347, 0.005492, 0.003709, 0.003563 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.786621, 0.759766, 0.600098, 0.68457, 0.586914, 0.566406, 0.574707, 0.484619, 0.655273 ] }, { "question_id": "10042521", "image_id": 29377, "question": "nhiều bát đĩa nằm ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "nhà ở", "phòng", "chậu", "tủ đá", "quầy tính tiền", "phòng tắm", "tủ lạnh", "lò vi sóng", "cửa sổ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.886688, "confidences": [ 0.886688, 0.02555, 0.012648, 0.012307, 0.00587, 0.004423, 0.00413, 0.00354, 0.002228, 0.001722 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.765625, 0.753906, 0.722168, 0.703613, 0.572754, 0.688477, 0.674316, 0.566895, 0.600586 ] }, { "question_id": "10101251", "image_id": 358024, "question": "người đàn ông và một cậu bé kéo nhau làm gì", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "túi", "xe đẩy", "cái túi", "balo", "toa xe", "sân bay", "cái ví", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.653011, "confidences": [ 0.653011, 0.208715, 0.017815, 0.015238, 0.014399, 0.011105, 0.004851, 0.004166, 0.003427, 0.00283 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.798828, 0.769043, 0.757324, 0.777832, 0.654297, 0.655762, 0.67627, 0.679688, 0.599609 ] }, { "question_id": "10058131", "image_id": 344942, "question": "cái gì đè lên rèm cửa sổ", "ground_truth": "màn", "ground_truth_normalized": "màn", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "laptop", "điện thoại", "chuột", "bàn phím", "nón", "hộp", "đồ chơi", "máy ảnh", "màu nâu" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.37472, "confidences": [ 0.37472, 0.1855, 0.074657, 0.02419, 0.020731, 0.017942, 0.013623, 0.011998, 0.009308, 0.009299 ], "gate_score_top1": 0.776855, "gate_scores": [ 0.776855, 0.820801, 0.798828, 0.655762, 0.651855, 0.61377, 0.587402, 0.483887, 0.621582, 0.522949 ] }, { "question_id": "10058121", "image_id": 563926, "question": "cái gì đang được chuyển vào phía sau của một sơ mi rơ moóc", "ground_truth": "hàng hóa", "ground_truth_normalized": "hàng hóa", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe cộ", "phương tiện giao thông", "động cơ", "hàng hóa", "xe buýt", "xe đẩy", "đoạn phim giới thiệu", "xe máy", "những quả cam" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.922291, "confidences": [ 0.922291, 0.013627, 0.012215, 0.004811, 0.001544, 0.001505, 0.001442, 0.00141, 0.000757, 0.000719 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.688477, 0.737305, 0.602051, 0.427734, 0.581543, 0.575195, 0.503906, 0.647949, 0.503906 ] }, { "question_id": "10070081", "image_id": 532463, "question": "đang mua sắm gì khi ngồi trên một chiếc ghế dài màu xanh", "ground_truth": "túi", "ground_truth_normalized": "túi", "predicted_top1": "cái ví", "predicted_topk": [ "cái ví", "túi", "cái túi", "balo", "hành lý", "vali", "cái ghế", "thùng chứa", "xe đẩy", "băng ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.300874, "confidences": [ 0.300874, 0.209225, 0.127398, 0.054155, 0.037732, 0.036643, 0.011351, 0.010581, 0.00586, 0.004677 ], "gate_score_top1": 0.811035, "gate_scores": [ 0.811035, 0.8125, 0.791016, 0.763184, 0.724121, 0.719238, 0.599609, 0.67041, 0.634766, 0.536133 ] }, { "question_id": "10014321", "image_id": 243873, "question": "màu của áo khoác là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu đen", "màu nâu", "màu trắng", "màu xám", "màu đỏ", "màu tía", "màu vàng", "màu xanh dương", "màu cam" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.513369, "confidences": [ 0.513369, 0.297115, 0.090262, 0.063013, 0.011611, 0.00414, 0.002742, 0.002336, 0.002203, 0.000543 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.871094, 0.833496, 0.85791, 0.788574, 0.716309, 0.730957, 0.677734, 0.661133, 0.692871 ] }, { "question_id": "10053071", "image_id": 335733, "question": "điều gì làm từ rau, cà chua và gia vị", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "đĩa ăn", "món ăn", "chảo", "bữa ăn", "chén đĩa", "bát", "quán ăn", "đĩa", "dĩa" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.704654, "confidences": [ 0.704654, 0.088198, 0.050058, 0.032573, 0.031943, 0.004611, 0.003535, 0.003315, 0.00278, 0.002397 ], "gate_score_top1": 0.846191, "gate_scores": [ 0.846191, 0.795898, 0.727539, 0.74707, 0.695312, 0.54834, 0.587402, 0.549316, 0.494629, 0.558594 ] }, { "question_id": "10084231", "image_id": 505619, "question": "người phụ nữ uống gì và ăn bánh", "ground_truth": "cà phê", "ground_truth_normalized": "cà phê", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "cupcake", "sô cô la", "đồ uống", "dao", "chuối", "tách", "bánh ngọt", "món tráng miệng", "quả táo" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.169803, "confidences": [ 0.169803, 0.051084, 0.050885, 0.03994, 0.037301, 0.033963, 0.024606, 0.024225, 0.021842, 0.02024 ], "gate_score_top1": 0.709961, "gate_scores": [ 0.709961, 0.586426, 0.62207, 0.630859, 0.70166, 0.612793, 0.71582, 0.647949, 0.59375, 0.679199 ] }, { "question_id": "10030511", "image_id": 475304, "question": "hai con ngựa vằn và một con hươu cao cổ đứng ở đâu", "ground_truth": "máy bay", "ground_truth_normalized": "máy bay", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lồng", "bảo tàng", "rào chắn", "tòa nhà", "bãi cỏ", "lá", "cửa tiệm", "thân cây" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.638402, "confidences": [ 0.638402, 0.290007, 0.034233, 0.003886, 0.002219, 0.001731, 0.001642, 0.001576, 0.001073, 0.000747 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.875488, 0.854004, 0.68457, 0.639648, 0.678223, 0.536621, 0.629883, 0.646973, 0.595215 ] }, { "question_id": "10058351", "image_id": 500018, "question": "người đàn ông cầm nhạc cụ cầm cái gì", "ground_truth": "thân cây", "ground_truth_normalized": "thân cây", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "thân cây", "đồi", "bãi cỏ", "vườn bách thú", "lá", "cây", "hươu cao cổ", "điêu khắc", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.519944, "confidences": [ 0.519944, 0.33179, 0.010118, 0.008339, 0.006101, 0.004017, 0.003878, 0.003671, 0.003017, 0.002678 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.807617, 0.598145, 0.615723, 0.560547, 0.560059, 0.59668, 0.63916, 0.44458, 0.515137 ] }, { "question_id": "10110891", "image_id": 515590, "question": "có bao nhiêu chiếc xe amtrak loại cũ đang ngồi trên đường ray", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.793346, "confidences": [ 0.793346, 0.189914, 0.010065, 0.002535, 0.00081, 0.000368, 0.000165, 0.00011, 6.2e-05, 5.8e-05 ], "gate_score_top1": 0.900391, "gate_scores": [ 0.900391, 0.866211, 0.822754, 0.718262, 0.630371, 0.453857, 0.453613, 0.460205, 0.361328, 0.388672 ] }, { "question_id": "10119941", "image_id": 492171, "question": "có bao nhiêu người cố gắng chặn người khác đang ném đĩa ném", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "mười", "bảy", "cái ghế", "gương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.868777, "confidences": [ 0.868777, 0.094475, 0.028146, 0.0011, 0.000259, 0.000134, 0.000117, 0.000115, 0.00011, 8.6e-05 ], "gate_score_top1": 0.885742, "gate_scores": [ 0.885742, 0.84668, 0.793457, 0.65918, 0.400635, 0.400391, 0.388184, 0.382324, 0.545898, 0.404297 ] }, { "question_id": "10038361", "image_id": 164208, "question": "một quý ông lớn tuổi ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "giường", "cửa sổ", "gương", "hành lang", "nhà ở", "văn phòng", "cái ghế", "chung cư" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.570361, "confidences": [ 0.570361, 0.25211, 0.126769, 0.008831, 0.003681, 0.001936, 0.001618, 0.001541, 0.001344, 0.00109 ], "gate_score_top1": 0.86377, "gate_scores": [ 0.86377, 0.871582, 0.746094, 0.668945, 0.783203, 0.578613, 0.674805, 0.508789, 0.61377, 0.592285 ] }, { "question_id": "10091231", "image_id": 387833, "question": "những gì đang tỏa sáng từ một trong hai đồng hồ trên tháp", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "tòa nhà", "bức tượng", "các tòa nhà", "cây", "cờ", "lá cờ", "bức ảnh", "cầu" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.446684, "confidences": [ 0.446684, 0.432941, 0.025004, 0.01732, 0.006397, 0.005324, 0.00508, 0.004554, 0.004405, 0.004026 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.839844, 0.73584, 0.703613, 0.652344, 0.688965, 0.620117, 0.680176, 0.657227, 0.603516 ] }, { "question_id": "10056451", "image_id": 575970, "question": "những gì được làm sạch và tổ chức tốt", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "nhà ở", "quầy tính tiền", "phòng", "quán ăn", "bếp", "bức ảnh", "cái ghế", "bát", "cửa sổ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.31288, "confidences": [ 0.31288, 0.078646, 0.078493, 0.052185, 0.028484, 0.015947, 0.013936, 0.013246, 0.01122, 0.010685 ], "gate_score_top1": 0.760742, "gate_scores": [ 0.760742, 0.707031, 0.696777, 0.708496, 0.651367, 0.604004, 0.51123, 0.602051, 0.64502, 0.581543 ] }, { "question_id": "10056111", "image_id": 389206, "question": "cậu bé mặc gì, và giải trí bàn với người ồn ào của mình", "ground_truth": "nón", "ground_truth_normalized": "nón", "predicted_top1": "cà vạt", "predicted_topk": [ "cà vạt", "nón", "áo sơ mi", "mũ", "điện thoại", "máy ảnh", "bộ đồ", "bức ảnh", "đồng hồ", "kính đeo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.522883, "confidences": [ 0.522883, 0.12517, 0.028258, 0.019536, 0.015636, 0.012106, 0.011552, 0.009633, 0.007733, 0.006208 ], "gate_score_top1": 0.831055, "gate_scores": [ 0.831055, 0.76416, 0.677246, 0.674316, 0.662109, 0.721191, 0.60498, 0.608398, 0.748047, 0.465332 ] }, { "question_id": "10003861", "image_id": 307299, "question": "màu của các loại thảo mộc là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu xanh lá", "màu trắng", "màu nâu", "màu đen", "màu cam", "màu vàng", "pizza", "màu xám", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.556608, "confidences": [ 0.556608, 0.276619, 0.038625, 0.030199, 0.02707, 0.019271, 0.008585, 0.004998, 0.0042, 0.002403 ], "gate_score_top1": 0.833008, "gate_scores": [ 0.833008, 0.813477, 0.783691, 0.746094, 0.793945, 0.815918, 0.67627, 0.616211, 0.706055, 0.660156 ] }, { "question_id": "10072661", "image_id": 444390, "question": "nhà bếp là một cái bồn rửa và một bộ đếm", "ground_truth": "bếp", "ground_truth_normalized": "bếp", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "chậu", "quầy tính tiền", "bếp", "nhà ở", "tường", "bông hoa", "công cụ", "cửa sổ", "tủ đá" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.326829, "confidences": [ 0.326829, 0.225505, 0.076425, 0.059057, 0.028558, 0.018802, 0.01436, 0.013756, 0.012525, 0.009889 ], "gate_score_top1": 0.755859, "gate_scores": [ 0.755859, 0.75, 0.664551, 0.741699, 0.669434, 0.580566, 0.624512, 0.516113, 0.624023, 0.711914 ] }, { "question_id": "10087091", "image_id": 368096, "question": "cái gì đang nằm trên đầu hai quả chanh trong một cái đĩa", "ground_truth": "quả cam", "ground_truth_normalized": "quả cam", "predicted_top1": "bát", "predicted_topk": [ "bát", "táo", "hoa quả", "quả cam", "những quả cam", "quả táo", "chuối", "cái rổ", "đĩa ăn", "cà rốt" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.168246, "confidences": [ 0.168246, 0.121657, 0.082317, 0.067186, 0.065886, 0.036457, 0.026465, 0.026004, 0.024764, 0.015865 ], "gate_score_top1": 0.804688, "gate_scores": [ 0.804688, 0.765625, 0.783691, 0.647949, 0.742188, 0.72168, 0.677246, 0.750488, 0.715332, 0.67627 ] }, { "question_id": "10115391", "image_id": 22850, "question": "có bao nhiêu sĩ quan hải quân từ các quốc gia khác nhau đang cắt một chiếc bánh cùng nhau", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "chín", "hai", "mười", "một" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.475612, "confidences": [ 0.475612, 0.234527, 0.211051, 0.027148, 0.019176, 0.006524, 0.002834, 0.002358, 0.00132, 0.001195 ], "gate_score_top1": 0.853516, "gate_scores": [ 0.853516, 0.827148, 0.761719, 0.723145, 0.727051, 0.629883, 0.577148, 0.566895, 0.522461, 0.518555 ] }, { "question_id": "10048291", "image_id": 548377, "question": "bánh ở đâu trên giá kim loại", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "phòng bếp", "chảo", "quán ăn", "tạp dề", "món ăn", "cái mâm", "hộp", "bánh", "bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.505287, "confidences": [ 0.505287, 0.189551, 0.147047, 0.008987, 0.008119, 0.007733, 0.007321, 0.005325, 0.005012, 0.004493 ], "gate_score_top1": 0.807617, "gate_scores": [ 0.807617, 0.822266, 0.767578, 0.716797, 0.644531, 0.68457, 0.657227, 0.609863, 0.655762, 0.504883 ] }, { "question_id": "10043031", "image_id": 202960, "question": "nhà vệ sinh, xô và giấy ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "nhà ở", "chuồng", "hành lang", "cái ghế", "vòi hoa sen", "tòa nhà", "ga-ra", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.485344, "confidences": [ 0.485344, 0.363506, 0.033548, 0.008734, 0.006316, 0.005226, 0.005075, 0.004909, 0.004712, 0.003976 ], "gate_score_top1": 0.858398, "gate_scores": [ 0.858398, 0.867188, 0.818848, 0.691406, 0.616699, 0.624023, 0.658203, 0.603027, 0.715332, 0.693359 ] }, { "question_id": "10056861", "image_id": 541353, "question": "những gì trong bình thủy tinh trong vắt", "ground_truth": "hoa hồng", "ground_truth_normalized": "hoa hồng", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "lọ cắm hoa", "hoa hồng", "chai", "cây", "bình hoa", "nến", "cái lọ", "màu trắng", "bát" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.631022, "confidences": [ 0.631022, 0.124742, 0.101811, 0.0102, 0.006955, 0.005755, 0.005312, 0.00437, 0.003383, 0.003144 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.6875, 0.780762, 0.663086, 0.657227, 0.449219, 0.644531, 0.55957, 0.50293, 0.621582 ] }, { "question_id": "10102731", "image_id": 131107, "question": "có bao nhiêu đèn đường đang treo và hiện lên màu xanh lá cây", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "hai", "một", "năm", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.299552, "confidences": [ 0.299552, 0.268516, 0.246405, 0.130354, 0.017711, 0.01311, 0.008301, 0.003066, 0.002182, 0.00176 ], "gate_score_top1": 0.833008, "gate_scores": [ 0.833008, 0.850098, 0.848633, 0.814941, 0.762207, 0.628418, 0.663574, 0.58252, 0.565918, 0.508789 ] }, { "question_id": "10056131", "image_id": 535643, "question": "thứ gì được tách ra từ nhà vệ sinh trong phòng tắm", "ground_truth": "nước tiểu", "ground_truth_normalized": "nước tiểu", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "bồn tiểu", "khăn", "vòi hoa sen", "tường", "bức ảnh", "bồn tắm", "cửa", "chậu", "quầy tính tiền" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.335871, "confidences": [ 0.335871, 0.229044, 0.052935, 0.030398, 0.022414, 0.022327, 0.017219, 0.007241, 0.006783, 0.006632 ], "gate_score_top1": 0.728516, "gate_scores": [ 0.728516, 0.696289, 0.69043, 0.597656, 0.601074, 0.577637, 0.6875, 0.54248, 0.563477, 0.497559 ] }, { "question_id": "10091961", "image_id": 417727, "question": "những gì bên cạnh hai máy tính xách tay mở khác", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "điện thoại", "bức tranh", "cái bàn", "bàn phím", "máy ảnh", "nón", "đồ uống", "thư viện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.488611, "confidences": [ 0.488611, 0.291763, 0.059044, 0.010545, 0.008623, 0.005655, 0.0056, 0.004302, 0.003666, 0.00357 ], "gate_score_top1": 0.861328, "gate_scores": [ 0.861328, 0.846191, 0.783691, 0.555664, 0.734863, 0.696289, 0.68457, 0.707031, 0.584961, 0.647949 ] }, { "question_id": "10070901", "image_id": 384503, "question": "những gì đang đi qua trạm", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "xe đẩy", "các tòa nhà", "đường sắt", "xe điện", "trạm", "hàng hoá", "cầu" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.737758, "confidences": [ 0.737758, 0.084737, 0.053235, 0.028718, 0.007928, 0.007521, 0.005312, 0.003644, 0.00347, 0.003273 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.776367, 0.76709, 0.735352, 0.645996, 0.67041, 0.671875, 0.606934, 0.584961, 0.635742 ] }, { "question_id": "10090261", "image_id": 349590, "question": "hai người phụ nữ trong phòng tắm đánh răng một người phụ nữ cầm cái gì vậy?", "ground_truth": "máy ảnh", "ground_truth_normalized": "máy ảnh", "predicted_top1": "bàn chải", "predicted_topk": [ "bàn chải", "máy ảnh", "gương", "phòng tắm", "cây kéo", "thuốc lá", "máy sấy khô", "quầy tính tiền", "điện thoại", "thiết bị" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.424122, "confidences": [ 0.424122, 0.176111, 0.050952, 0.03735, 0.018061, 0.011891, 0.01148, 0.008941, 0.008785, 0.006936 ], "gate_score_top1": 0.833008, "gate_scores": [ 0.833008, 0.794434, 0.699707, 0.667969, 0.658691, 0.531738, 0.574707, 0.603027, 0.652344, 0.542969 ] }, { "question_id": "10111721", "image_id": 423481, "question": "có bao nhiêu quả bóng có bao nhiêu chiếc vợt tennis đang cố gắng đánh trúng", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.608073, "confidences": [ 0.608073, 0.28278, 0.051902, 0.048378, 0.003093, 0.001346, 0.00055, 0.000423, 0.000271, 0.00026 ], "gate_score_top1": 0.898926, "gate_scores": [ 0.898926, 0.889648, 0.817383, 0.84082, 0.6875, 0.518066, 0.564941, 0.529785, 0.465332, 0.482666 ] }, { "question_id": "10017711", "image_id": 555013, "question": "màu sắc của bông hoa là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu cam", "màu nâu", "màu xanh lá", "màu vàng", "màu trắng", "màu đỏ", "màu xám", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.48454, "confidences": [ 0.48454, 0.427605, 0.045601, 0.015334, 0.005383, 0.004568, 0.002859, 0.001311, 0.001306, 0.000575 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.869629, 0.820801, 0.744629, 0.701172, 0.740234, 0.651855, 0.73584, 0.621094, 0.608398 ] }, { "question_id": "10058481", "image_id": 575624, "question": "những gì đang nằm trên đồng cỏ xanh", "ground_truth": "gia súc", "ground_truth_normalized": "gia súc", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "con ngựa", "gia súc", "ngựa vằn", "bò đực", "con chó", "bãi cỏ", "ngựa rằn", "con cừu", "hươu cao cổ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.56212, "confidences": [ 0.56212, 0.174818, 0.08722, 0.034966, 0.01259, 0.010499, 0.00743, 0.007062, 0.006994, 0.006481 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.813965, 0.740234, 0.741699, 0.629883, 0.665039, 0.658691, 0.640625, 0.699707, 0.632812 ] }, { "question_id": "10033121", "image_id": 310546, "question": "khoai tây và hẹ hầm ở đâu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "bát", "predicted_topk": [ "bát", "món ăn", "chảo", "thùng chứa", "cái nồi", "đĩa ăn", "chén đĩa", "rau", "hộp", "lọ cắm hoa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.413442, "confidences": [ 0.413442, 0.321989, 0.066187, 0.052358, 0.037128, 0.016735, 0.011983, 0.003315, 0.003181, 0.002617 ], "gate_score_top1": 0.839355, "gate_scores": [ 0.839355, 0.851074, 0.786133, 0.752441, 0.744141, 0.724121, 0.670898, 0.620117, 0.578613, 0.581055 ] }, { "question_id": "10048501", "image_id": 265908, "question": "giường và ghế ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "nhà ở", "hành lang", "cửa sổ", "tòa nhà", "ô cửa", "cửa", "chung cư", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.481385, "confidences": [ 0.481385, 0.349448, 0.086645, 0.012482, 0.007873, 0.004092, 0.003507, 0.002429, 0.002364, 0.00219 ], "gate_score_top1": 0.897461, "gate_scores": [ 0.897461, 0.862305, 0.851562, 0.700684, 0.725098, 0.614746, 0.629395, 0.633789, 0.644043, 0.510254 ] }, { "question_id": "10113791", "image_id": 99913, "question": "có bao nhiêu con hươu cao cổ đứng trên cây và chải lông khi chúng kiếm ăn", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.534795, "confidences": [ 0.534795, 0.426376, 0.026316, 0.003506, 0.002211, 0.001352, 0.000849, 0.00057, 0.000311, 0.000305 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.868652, 0.768555, 0.597168, 0.702637, 0.627441, 0.604492, 0.532227, 0.463379, 0.527832 ] }, { "question_id": "10110541", "image_id": 486606, "question": "có bao nhiêu người đàn ông trao cúp qua lưới trong một sân tennis", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.624784, "confidences": [ 0.624784, 0.339689, 0.016978, 0.009303, 0.003128, 0.001064, 0.000709, 0.000608, 0.000298, 0.000244 ], "gate_score_top1": 0.89502, "gate_scores": [ 0.89502, 0.902832, 0.747559, 0.785645, 0.57959, 0.636719, 0.608398, 0.542969, 0.483398, 0.423828 ] }, { "question_id": "10037371", "image_id": 418172, "question": "cặp đôi băng ghế đã làm ở đâu", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "đường phố", "xe lăn", "balo", "cái rổ", "lối đi", "hành lý", "gian hàng", "băng ghế", "ảnh chụp" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.272002, "confidences": [ 0.272002, 0.123081, 0.070404, 0.04519, 0.036383, 0.029063, 0.028169, 0.024908, 0.017976, 0.014275 ], "gate_score_top1": 0.788086, "gate_scores": [ 0.788086, 0.769043, 0.768066, 0.719238, 0.789062, 0.619629, 0.661133, 0.633301, 0.722168, 0.569824 ] }, { "question_id": "10013251", "image_id": 46189, "question": "màu của tòa nhà là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu xám", "màu đỏ", "màu vàng", "màu trắng", "màu xanh lá", "màu tía", "màu xanh dương", "màu nâu", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.466579, "confidences": [ 0.466579, 0.202247, 0.130581, 0.087668, 0.034872, 0.022959, 0.015965, 0.015116, 0.009061, 0.003406 ], "gate_score_top1": 0.88623, "gate_scores": [ 0.88623, 0.850098, 0.857422, 0.841309, 0.814941, 0.700195, 0.750488, 0.800293, 0.685059, 0.662109 ] }, { "question_id": "10060081", "image_id": 391810, "question": "cái gì đang đỗ trên cỏ và một số người", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "động cơ", "xe ô tô", "phương tiện giao thông", "xe cộ", "xe đẩy", "tàu hỏa", "xe buýt", "xe máy", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.461008, "confidences": [ 0.461008, 0.180533, 0.086621, 0.071811, 0.029819, 0.010632, 0.008712, 0.008712, 0.006932, 0.004802 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.743164, 0.721191, 0.729492, 0.719238, 0.643066, 0.695801, 0.659668, 0.707031, 0.639648 ] }, { "question_id": "10031111", "image_id": 185166, "question": "con ngựa trắng đứng ở đâu", "ground_truth": "chuồng trại", "ground_truth_normalized": "chuồng trại", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "chuồng trại", "lồng", "tòa nhà", "ga-ra", "cửa tiệm", "kho", "rào chắn", "ô cửa", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.292624, "confidences": [ 0.292624, 0.115944, 0.082217, 0.079999, 0.047491, 0.016703, 0.015478, 0.01509, 0.014204, 0.012682 ], "gate_score_top1": 0.690918, "gate_scores": [ 0.690918, 0.732422, 0.75, 0.713867, 0.696289, 0.656738, 0.686523, 0.585449, 0.550293, 0.633789 ] }, { "question_id": "10111541", "image_id": 494622, "question": "người phụ nữ đứng gần một cái bàn với những chai rượu trên đó", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "quán bar", "chai", "kính đeo", "phòng", "đồng hồ", "quán ăn", "nước", "nhà ở", "cái ghế" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 1, "confidence_top1": 0.196578, "confidences": [ 0.196578, 0.145515, 0.043098, 0.039165, 0.037371, 0.021004, 0.018249, 0.017481, 0.016616, 0.015427 ], "gate_score_top1": 0.710938, "gate_scores": [ 0.710938, 0.657227, 0.717285, 0.545898, 0.632324, 0.697266, 0.640625, 0.568359, 0.620605, 0.626465 ] }, { "question_id": "10106101", "image_id": 235522, "question": "có bao nhiêu con hươu cao cổ đứng hoặc ăn trong môi trường sống tự nhiên của chúng", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.724325, "confidences": [ 0.724325, 0.252283, 0.010618, 0.004496, 0.00296, 0.001224, 0.000443, 0.000386, 0.000209, 0.000161 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.888184, 0.730469, 0.751953, 0.678223, 0.525879, 0.556641, 0.5, 0.424072, 0.472168 ] }, { "question_id": "10052741", "image_id": 536168, "question": "con đường nào đi bên dưới cây cầu trong ngày", "ground_truth": "đường sắt", "ground_truth_normalized": "đường sắt", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "đường sắt", "xe ô tô", "động cơ", "trạm", "hàng hoá", "các tòa nhà", "cầu", "xe điện ngầm", "xe đạp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.308141, "confidences": [ 0.308141, 0.22108, 0.167533, 0.035117, 0.031234, 0.028774, 0.018578, 0.01484, 0.0143, 0.007261 ], "gate_score_top1": 0.813965, "gate_scores": [ 0.813965, 0.76123, 0.77832, 0.677734, 0.702148, 0.624023, 0.664551, 0.682617, 0.647949, 0.617188 ] }, { "question_id": "10007691", "image_id": 110250, "question": "màu của túi là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu nâu", "màu cam", "màu vàng", "màu xanh dương", "màu xanh lá", "màu đỏ", "màu trắng", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.757387, "confidences": [ 0.757387, 0.089055, 0.038602, 0.038153, 0.025614, 0.014312, 0.013981, 0.005738, 0.005649, 0.001689 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.819336, 0.80127, 0.846191, 0.803711, 0.791016, 0.694824, 0.754883, 0.771973, 0.733887 ] }, { "question_id": "10100621", "image_id": 432619, "question": "ngồi trên đầu phòng tắm là gì", "ground_truth": "người giữ", "ground_truth_normalized": "người giữ", "predicted_top1": "bàn chải", "predicted_topk": [ "bàn chải", "bông hoa", "lọ cắm hoa", "tách", "người giữ", "tường", "quầy tính tiền", "màu tía", "cây", "hoa hồng" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.241915, "confidences": [ 0.241915, 0.155583, 0.036169, 0.034851, 0.029462, 0.024521, 0.020528, 0.016689, 0.0145, 0.013436 ], "gate_score_top1": 0.757812, "gate_scores": [ 0.757812, 0.793457, 0.600586, 0.763184, 0.495605, 0.615723, 0.578613, 0.638672, 0.597168, 0.600098 ] }, { "question_id": "10085471", "image_id": 367900, "question": "cái gì ngồi ở nhà ga", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "xe điện ngầm", "đường sắt", "các tòa nhà", "xe điện", "cầu", "cửa" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.850094, "confidences": [ 0.850094, 0.063535, 0.033612, 0.006254, 0.005205, 0.003677, 0.003394, 0.002296, 0.001551, 0.001115 ], "gate_score_top1": 0.913574, "gate_scores": [ 0.913574, 0.814941, 0.754883, 0.625977, 0.654785, 0.567871, 0.664062, 0.641113, 0.61377, 0.513184 ] }, { "question_id": "10119771", "image_id": 502508, "question": "có bao nhiêu nam thanh niên nằm dài trong phòng trên máy tính xách tay của họ", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "một", "tám", "chín", "hai", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.592588, "confidences": [ 0.592588, 0.297972, 0.054477, 0.027393, 0.010156, 0.002734, 0.001853, 0.001429, 0.000998, 0.000852 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.828613, 0.709473, 0.742188, 0.696777, 0.628906, 0.598633, 0.577637, 0.582031, 0.523438 ] }, { "question_id": "10030161", "image_id": 169634, "question": "hai con mèo nằm ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "phòng", "giường", "phòng ngủ", "văn phòng", "chung cư", "cửa sổ", "bát", "nhà ở", "hành lý" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.434564, "confidences": [ 0.434564, 0.394132, 0.099652, 0.005556, 0.004553, 0.004235, 0.002285, 0.001715, 0.000965, 0.000824 ], "gate_score_top1": 0.837402, "gate_scores": [ 0.837402, 0.835449, 0.814941, 0.633789, 0.577148, 0.574707, 0.532715, 0.587891, 0.592773, 0.337891 ] }, { "question_id": "10074981", "image_id": 392818, "question": "con chó nâu và trắng đen mặc những gì", "ground_truth": "áo khoác", "ground_truth_normalized": "áo khoác", "predicted_top1": "áo vest", "predicted_topk": [ "áo vest", "cái túi", "balo", "áo khoác", "xe đẩy", "cái ví", "nón", "toa xe", "gương", "xe" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.192213, "confidences": [ 0.192213, 0.134186, 0.062159, 0.041085, 0.030651, 0.019867, 0.019106, 0.01696, 0.016058, 0.014564 ], "gate_score_top1": 0.665527, "gate_scores": [ 0.665527, 0.775391, 0.75293, 0.603027, 0.70752, 0.687988, 0.601562, 0.566406, 0.625488, 0.658691 ] }, { "question_id": "10094911", "image_id": 547839, "question": "những gì đang lái qua đường hầm trên đường cao tốc", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "xe điện ngầm", "trạm", "xe điện", "xe buýt", "đường sắt", "động cơ", "các tòa nhà", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.47813, "confidences": [ 0.47813, 0.390238, 0.017969, 0.011761, 0.009524, 0.006794, 0.006482, 0.005523, 0.004624, 0.004121 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.834473, 0.694824, 0.692871, 0.694336, 0.692383, 0.619629, 0.648438, 0.691406, 0.657227 ] }, { "question_id": "10061571", "image_id": 540187, "question": "cái gì đang đỗ gần lề đường", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "mũ", "đường", "xe cộ", "động cơ", "ga-ra", "con khỉ", "xe buýt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.93901, "confidences": [ 0.93901, 0.042567, 0.003823, 0.0012, 0.000753, 0.000574, 0.000204, 0.000195, 0.000184, 0.000161 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.836914, 0.665039, 0.535156, 0.581543, 0.570801, 0.480957, 0.491211, 0.376465, 0.583008 ] }, { "question_id": "10114081", "image_id": 52628, "question": "có bao nhiêu người đàn ông bị bao quanh bởi một số đống chuối lớn", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.723705, "confidences": [ 0.723705, 0.128743, 0.126747, 0.009812, 0.003995, 0.002224, 0.000701, 0.000473, 0.000247, 0.000193 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.873047, 0.855469, 0.756348, 0.723633, 0.546387, 0.562988, 0.539551, 0.44873, 0.45752 ] }, { "question_id": "10071841", "image_id": 417804, "question": "những gì bên cạnh một con chuột máy tính", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "chuột", "predicted_topk": [ "chuột", "máy tính", "bàn phím", "cái bàn", "laptop", "văn phòng", "cái ghế", "trang thiết bị", "bức tranh", "bia" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.59933, "confidences": [ 0.59933, 0.145729, 0.135305, 0.026128, 0.009481, 0.003543, 0.002279, 0.002157, 0.001904, 0.001503 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.818848, 0.773926, 0.817383, 0.794434, 0.660156, 0.543457, 0.53418, 0.514648, 0.524414 ] }, { "question_id": "10071291", "image_id": 344816, "question": "đoàn tàu nào băng qua cầu vượt và chuyển đường", "ground_truth": "hàng hoá", "ground_truth_normalized": "hàng hoá", "predicted_top1": "đường sắt", "predicted_topk": [ "đường sắt", "xe ô tô", "hàng hoá", "động cơ", "trạm", "cầu", "tàu hỏa", "các tòa nhà", "đồi", "áo vest" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.314582, "confidences": [ 0.314582, 0.106614, 0.101732, 0.051555, 0.029261, 0.027381, 0.027009, 0.021408, 0.016968, 0.014372 ], "gate_score_top1": 0.757324, "gate_scores": [ 0.757324, 0.719727, 0.629395, 0.647461, 0.686035, 0.648926, 0.737305, 0.646973, 0.538086, 0.557129 ] }, { "question_id": "10100701", "image_id": 378614, "question": "cái gì đặt trước hộp thức ăn", "ground_truth": "bia", "ground_truth_normalized": "bia", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "chai", "bia", "pizza", "kính đeo", "nước", "đồ uống", "bữa ăn", "quán bar", "sandwich" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.106691, "confidences": [ 0.106691, 0.091615, 0.052713, 0.030988, 0.023483, 0.022849, 0.021633, 0.019468, 0.017917, 0.016061 ], "gate_score_top1": 0.67627, "gate_scores": [ 0.67627, 0.700684, 0.558105, 0.661133, 0.52832, 0.558594, 0.557617, 0.620117, 0.566895, 0.620605 ] }, { "question_id": "10055241", "image_id": 376856, "question": "những gì làm bằng gạch với dây leo mọc lên một bên", "ground_truth": "tòa tháp", "ground_truth_normalized": "tòa tháp", "predicted_top1": "đồng hồ", "predicted_topk": [ "đồng hồ", "tòa tháp", "tòa nhà", "bức tượng", "các tòa nhà", "bức ảnh", "cây", "cờ", "lá cờ", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.489739, "confidences": [ 0.489739, 0.379922, 0.059645, 0.007598, 0.005181, 0.00459, 0.003957, 0.003339, 0.002768, 0.002098 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.831055, 0.775879, 0.674805, 0.647949, 0.64502, 0.654785, 0.62793, 0.652344, 0.588867 ] }, { "question_id": "10092961", "image_id": 426700, "question": "chàng trai trẻ giữ những gì và về sẵn sàng để đi thử nghiệm nó", "ground_truth": "máy bay", "ground_truth_normalized": "máy bay", "predicted_top1": "diều", "predicted_topk": [ "diều", "máy bay", "bờ biển", "ván lướt sóng", "bảng", "áo sơ mi", "ga-ra", "bầu trời", "dĩa nhựa", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.747571, "confidences": [ 0.747571, 0.175495, 0.005077, 0.003489, 0.002634, 0.002192, 0.001969, 0.001789, 0.00172, 0.001684 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.787598, 0.498779, 0.754395, 0.539551, 0.478516, 0.516113, 0.562988, 0.623047, 0.570312 ] }, { "question_id": "10117491", "image_id": 386632, "question": "có bao nhiêu biển báo được kết hợp để giúp giao thông vượt ra khỏi khu vực lân cận", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "bốn", "ba", "năm", "bảy", "sáu", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.382801, "confidences": [ 0.382801, 0.359609, 0.11449, 0.085749, 0.025347, 0.008658, 0.007976, 0.001955, 0.001773, 0.001586 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.841309, 0.812988, 0.844238, 0.783203, 0.662598, 0.610352, 0.58252, 0.538086, 0.537598 ] }, { "question_id": "10086241", "image_id": 402855, "question": "những gì ngồi trên lưu trữ đứng trên một bãi đá", "ground_truth": "thuyền buồm", "ground_truth_normalized": "thuyền buồm", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "bến du thuyền", "thuyền buồm", "ca nô", "xe đạp", "cây sào", "bờ biển", "bến tàu", "cầu", "ván lướt sóng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.845517, "confidences": [ 0.845517, 0.065968, 0.033693, 0.00562, 0.002293, 0.001417, 0.001213, 0.001204, 0.000978, 0.000897 ], "gate_score_top1": 0.805664, "gate_scores": [ 0.805664, 0.751953, 0.697754, 0.520996, 0.608398, 0.481445, 0.427002, 0.453613, 0.503906, 0.61084 ] }, { "question_id": "10063611", "image_id": 408621, "question": "xe buýt metro lái qua chi nhánh hồ green của seattle, wa những gì", "ground_truth": "thư viện", "ground_truth_normalized": "thư viện", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "cây", "trạm", "đồng hồ", "đường", "đường phố", "tòa tháp", "xe buýt", "các tòa nhà", "bức ảnh" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.21637, "confidences": [ 0.21637, 0.045709, 0.0417, 0.038043, 0.03623, 0.03491, 0.023575, 0.021676, 0.019279, 0.017248 ], "gate_score_top1": 0.782715, "gate_scores": [ 0.782715, 0.713867, 0.649414, 0.598145, 0.665039, 0.659668, 0.660645, 0.675293, 0.550781, 0.505859 ] }, { "question_id": "10111781", "image_id": 76866, "question": "có bao nhiêu con ngựa vằn gặm cỏ trên cánh đồng cỏ nhỏ", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "ngựa vằn", "bãi cỏ", "tám", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.767514, "confidences": [ 0.767514, 0.209827, 0.012454, 0.002867, 0.00022, 0.000152, 0.000152, 0.000146, 0.000139, 0.000119 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.856445, 0.750977, 0.722656, 0.362305, 0.493164, 0.489258, 0.43457, 0.407227, 0.494873 ] }, { "question_id": "10080281", "image_id": 482514, "question": "những gì bao phủ trong rỉ sét trong bếp", "ground_truth": "tủ đông", "ground_truth_normalized": "tủ đông", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cửa", "cái kệ", "tủ đông", "lò vi sóng", "chai", "tường", "phòng bếp", "hộp" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.364328, "confidences": [ 0.364328, 0.165503, 0.061844, 0.030258, 0.026084, 0.01111, 0.010155, 0.008686, 0.008313, 0.007314 ], "gate_score_top1": 0.793457, "gate_scores": [ 0.793457, 0.739258, 0.718262, 0.660156, 0.560547, 0.544922, 0.569824, 0.504883, 0.448486, 0.503906 ] }, { "question_id": "10057251", "image_id": 373356, "question": "người đàn ông quay lại dùng cây vợt của mình làm gì", "ground_truth": "quả bóng", "ground_truth_normalized": "quả bóng", "predicted_top1": "vợt", "predicted_topk": [ "vợt", "quả bóng", "nón", "áo sơ mi", "dĩa nhựa", "mặt trời", "mũ lưỡi trai", "sân vận động", "gậy", "ván trượt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.42946, "confidences": [ 0.42946, 0.363057, 0.0546, 0.012375, 0.008037, 0.005567, 0.004837, 0.004097, 0.003826, 0.003763 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.823242, 0.688477, 0.693848, 0.676758, 0.543945, 0.479492, 0.612305, 0.598145, 0.687012 ] }, { "question_id": "10076191", "image_id": 449279, "question": "những gì thắp sáng trên bánh với kem sô cô la", "ground_truth": "nến", "ground_truth_normalized": "nến", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "nến", "dao", "sô cô la", "cupcake", "hộp", "donut", "con chó", "dĩa", "cái mâm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.670519, "confidences": [ 0.670519, 0.123068, 0.021723, 0.007852, 0.006997, 0.005985, 0.005119, 0.004298, 0.004265, 0.004098 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.749512, 0.67041, 0.483887, 0.623047, 0.677734, 0.551758, 0.698242, 0.458252, 0.584961 ] }, { "question_id": "10096191", "image_id": 368884, "question": "tòa nhà hai tầng màu trắng bên cạnh một tòa nhà màu nâu cái gì", "ground_truth": "khung", "ground_truth_normalized": "khung", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "đồng hồ", "ký tên", "các tòa nhà", "bức ảnh", "cây", "tường", "cửa sổ", "cửa", "bức tượng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.2126, "confidences": [ 0.2126, 0.058122, 0.051795, 0.034035, 0.022364, 0.01943, 0.017761, 0.017691, 0.017502, 0.013498 ], "gate_score_top1": 0.789551, "gate_scores": [ 0.789551, 0.693848, 0.614258, 0.638672, 0.614258, 0.680664, 0.633301, 0.595703, 0.679688, 0.527344 ] }, { "question_id": "10119671", "image_id": 458738, "question": "có bao nhiêu người đàn ông đang ngồi trên những chiếc xe tay ga có động cơ bên ngoài", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.641372, "confidences": [ 0.641372, 0.327581, 0.016437, 0.006564, 0.002313, 0.000685, 0.000642, 0.000429, 0.000286, 0.000262 ], "gate_score_top1": 0.880859, "gate_scores": [ 0.880859, 0.890137, 0.73877, 0.747559, 0.53418, 0.59082, 0.589844, 0.497559, 0.465088, 0.430908 ] }, { "question_id": "10068741", "image_id": 410924, "question": "những gì chứa đầy đồ dùng văn phòng trên đầu bàn", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "cây kéo", "predicted_topk": [ "cây kéo", "tách", "thùng chứa", "quầy tính tiền", "bông hoa", "người giữ", "cái lọ", "cái nồi", "bàn chải", "cái mâm" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.422548, "confidences": [ 0.422548, 0.172737, 0.054567, 0.016871, 0.014773, 0.010745, 0.010353, 0.009482, 0.008617, 0.008458 ], "gate_score_top1": 0.769531, "gate_scores": [ 0.769531, 0.802246, 0.737305, 0.664062, 0.709473, 0.558105, 0.67334, 0.55957, 0.686035, 0.655273 ] }, { "question_id": "10019921", "image_id": 377804, "question": "màu của con chó là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu vàng", "màu trắng", "màu xám", "màu đỏ", "màu cam", "màu đen", "màu xanh dương", "màu tía", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.936709, "confidences": [ 0.936709, 0.03307, 0.011034, 0.004582, 0.003313, 0.00254, 0.001725, 0.000451, 0.00033, 0.00019 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.840332, 0.824219, 0.759766, 0.760742, 0.743652, 0.728516, 0.64502, 0.600098, 0.602539 ] }, { "question_id": "10035181", "image_id": 212633, "question": "nhóm người tập trung ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "phòng", "tạp dề", "nhà ở", "cửa tiệm", "lò vi sóng", "chảo", "kho", "lớp học" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.798024, "confidences": [ 0.798024, 0.106326, 0.019138, 0.0126, 0.009699, 0.003499, 0.002525, 0.002093, 0.002049, 0.001722 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.848145, 0.744141, 0.700195, 0.725586, 0.649902, 0.618652, 0.564941, 0.632324, 0.625488 ] }, { "question_id": "10063081", "image_id": 357044, "question": "thứ gì đá vào cổ con ngựa bằng hai chân sau", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "con ngựa", "predicted_topk": [ "con ngựa", "ngựa rằn", "bãi cỏ", "ngựa vằn", "con bò", "con chó", "hươu cao cổ", "chuồng", "rào chắn", "lồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.625353, "confidences": [ 0.625353, 0.214434, 0.046194, 0.030892, 0.004263, 0.002873, 0.002747, 0.002571, 0.002391, 0.002247 ], "gate_score_top1": 0.837891, "gate_scores": [ 0.837891, 0.83252, 0.763184, 0.718262, 0.651855, 0.60791, 0.631348, 0.470459, 0.497559, 0.623535 ] }, { "question_id": "10110531", "image_id": 274416, "question": "bình tan đang giữ bao nhiêu bông hoa hồng lớn", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.371836, "confidences": [ 0.371836, 0.366071, 0.141133, 0.030403, 0.02736, 0.017873, 0.016988, 0.00272, 0.001887, 0.001505 ], "gate_score_top1": 0.832031, "gate_scores": [ 0.832031, 0.831055, 0.814453, 0.727051, 0.635742, 0.696777, 0.684082, 0.524902, 0.567871, 0.506836 ] }, { "question_id": "10043021", "image_id": 156029, "question": "người đàn ông đang làm bánh pizza ở đâu", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "lò vi sóng", "tạp dề", "cửa tiệm", "phòng", "chảo", "cửa hàng", "nhà ở", "quán bar" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.52248, "confidences": [ 0.52248, 0.164406, 0.118417, 0.069072, 0.030891, 0.008233, 0.004424, 0.004238, 0.002936, 0.00241 ], "gate_score_top1": 0.86377, "gate_scores": [ 0.86377, 0.842773, 0.76416, 0.757812, 0.700195, 0.652832, 0.586914, 0.655273, 0.687012, 0.538574 ] }, { "question_id": "10103121", "image_id": 218424, "question": "có bao nhiêu con ngựa vằn trên con đường đất đang nhìn theo các hướng khác nhau", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "sáu", "hai", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.607324, "confidences": [ 0.607324, 0.37125, 0.011522, 0.001994, 0.001941, 0.001653, 0.000593, 0.000465, 0.000237, 0.000177 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.896973, 0.734863, 0.558105, 0.709961, 0.637695, 0.568848, 0.537598, 0.519043, 0.438965 ] }, { "question_id": "10098901", "image_id": 570810, "question": "người phụ nữ lấy cái gì của băng chuyền", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "túi", "hành lý", "balo", "cái túi", "xe đẩy", "trạm", "sân bay", "cái ví", "máy ảnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.331651, "confidences": [ 0.331651, 0.149487, 0.142641, 0.090668, 0.036136, 0.020955, 0.018968, 0.015361, 0.01266, 0.005456 ], "gate_score_top1": 0.796387, "gate_scores": [ 0.796387, 0.797363, 0.791992, 0.717773, 0.766602, 0.679199, 0.661133, 0.702637, 0.689941, 0.496582 ] }, { "question_id": "10036501", "image_id": 37477, "question": "con mèo sử dụng nhà vệ sinh ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "nhà ở", "phòng", "vòi hoa sen", "gương", "hành lang", "cửa", "chậu", "bồn tắm", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.571003, "confidences": [ 0.571003, 0.098453, 0.069271, 0.03098, 0.027233, 0.024699, 0.019615, 0.017042, 0.012566, 0.011176 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.830566, 0.78418, 0.715332, 0.772461, 0.625, 0.665039, 0.712402, 0.715332, 0.726074 ] }, { "question_id": "10057871", "image_id": 385641, "question": "những gì đang ngồi trên bàn và được bật", "ground_truth": "laptop", "ground_truth_normalized": "laptop", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "laptop", "bàn phím", "cái bàn", "chuột", "điện thoại", "bức tranh", "trang thiết bị", "cái ghế", "bia" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.488206, "confidences": [ 0.488206, 0.488206, 0.003328, 0.002572, 0.001491, 0.000933, 0.000713, 0.000471, 0.00032, 0.000277 ], "gate_score_top1": 0.866699, "gate_scores": [ 0.866699, 0.896484, 0.736816, 0.781738, 0.699219, 0.674316, 0.519531, 0.49585, 0.489502, 0.467773 ] }, { "question_id": "10067751", "image_id": 499618, "question": "có những người đi bộ xuống những gì bên cạnh đường phố", "ground_truth": "đường đi bộ", "ground_truth_normalized": "đường đi bộ", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe đẩy", "xe cộ", "đường đi bộ", "toa xe", "đường", "phương tiện giao thông", "xe buýt", "xe ô tô", "đường phố" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.393375, "confidences": [ 0.393375, 0.145281, 0.042197, 0.039102, 0.026047, 0.014611, 0.01378, 0.012042, 0.011604, 0.010627 ], "gate_score_top1": 0.785645, "gate_scores": [ 0.785645, 0.797363, 0.715332, 0.626953, 0.637695, 0.725586, 0.660645, 0.605469, 0.633301, 0.615723 ] }, { "question_id": "10119441", "image_id": 15307, "question": "cái đĩa đựng bao nhiêu cái bánh mì xúc xích nhỏ với sốt cà chua", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.38022, "confidences": [ 0.38022, 0.303138, 0.18603, 0.075752, 0.014858, 0.010999, 0.004594, 0.004126, 0.001512, 0.001095 ], "gate_score_top1": 0.842285, "gate_scores": [ 0.842285, 0.813477, 0.83252, 0.791992, 0.743164, 0.595215, 0.585938, 0.583496, 0.51709, 0.494873 ] }, { "question_id": "10113081", "image_id": 505455, "question": "có bao nhiêu người đi bộ trong tuyết với cột trượt tuyết và ba lô", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "ba", "mười", "núi", "trượt tuyết" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.50044, "confidences": [ 0.50044, 0.303532, 0.127026, 0.02982, 0.006202, 0.004012, 0.002156, 0.001777, 0.000991, 0.000831 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.854492, 0.788574, 0.716797, 0.648438, 0.605469, 0.503906, 0.564453, 0.581055, 0.470459 ] }, { "question_id": "10085051", "image_id": 498381, "question": "những gì đang bay qua một khu rừng đầy cây", "ground_truth": "con vẹt", "ground_truth_normalized": "con vẹt", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "con vẹt", "hải âu", "con vịt", "hươu cao cổ", "chim bồ câu", "bức tượng", "con ngựa", "nước", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.634733, "confidences": [ 0.634733, 0.277295, 0.027456, 0.001795, 0.001606, 0.001177, 0.000992, 0.000824, 0.000804, 0.000695 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.841309, 0.706543, 0.652344, 0.62793, 0.403809, 0.404053, 0.513184, 0.382324, 0.475342 ] }, { "question_id": "10080211", "image_id": 377814, "question": "cái gì mà chục chiếc bánh rán ngồi trong hộp bánh rán", "ground_truth": "sô cô la", "ground_truth_normalized": "sô cô la", "predicted_top1": "donut", "predicted_topk": [ "donut", "sô cô la", "hộp", "bánh ngọt", "cái mâm", "cupcake", "sáu", "dao", "đĩa ăn", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.850991, "confidences": [ 0.850991, 0.031119, 0.029233, 0.014699, 0.00504, 0.004571, 0.002687, 0.001806, 0.001625, 0.001164 ], "gate_score_top1": 0.863281, "gate_scores": [ 0.863281, 0.640137, 0.848633, 0.69043, 0.696777, 0.608398, 0.67627, 0.567871, 0.576172, 0.564453 ] }, { "question_id": "10072461", "image_id": 369594, "question": "những gì tươi sáng và đầy nắng trước cửa sổ", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "chậu", "quầy tính tiền", "bếp", "cửa sổ", "bông hoa", "tường", "lò vi sóng", "tủ đá", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.467926, "confidences": [ 0.467926, 0.221032, 0.069551, 0.03994, 0.015012, 0.012992, 0.010834, 0.010079, 0.010039, 0.007849 ], "gate_score_top1": 0.788574, "gate_scores": [ 0.788574, 0.811035, 0.70752, 0.740234, 0.687988, 0.674316, 0.60791, 0.590332, 0.725586, 0.674805 ] }, { "question_id": "10104771", "image_id": 80974, "question": "có bao nhiêu con hươu cao cổ đứng trong vườn bách thú với cây cối", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.63148, "confidences": [ 0.63148, 0.307759, 0.048505, 0.004673, 0.001529, 0.000957, 0.000792, 0.000614, 0.000306, 0.000282 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.862793, 0.796387, 0.614258, 0.682129, 0.627441, 0.59668, 0.554199, 0.554688, 0.45459 ] }, { "question_id": "10077451", "image_id": 409331, "question": "người đàn ông với chiếc mũ ngụy trang đang lấy cái gì", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "máy ảnh", "bức ảnh", "nón", "mũ", "điện thoại", "những bức ảnh", "dĩa nhựa", "áo sơ mi", "bờ biển" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.295902, "confidences": [ 0.295902, 0.160879, 0.096065, 0.094207, 0.019327, 0.012576, 0.009094, 0.00846, 0.007159, 0.007124 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.775879, 0.677734, 0.753906, 0.60498, 0.708496, 0.569336, 0.59082, 0.634766, 0.61377 ] }, { "question_id": "10035111", "image_id": 291207, "question": "người đàn ông đứng ở đâu gần một quầy có thức ăn xếp chồng lên nhau", "ground_truth": "tạp dề", "ground_truth_normalized": "tạp dề", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "phòng bếp", "tạp dề", "quán ăn", "pizza", "chảo", "cửa tiệm", "gà", "donut", "bếp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.430197, "confidences": [ 0.430197, 0.18575, 0.127664, 0.049219, 0.042429, 0.031778, 0.006596, 0.003227, 0.003224, 0.003053 ], "gate_score_top1": 0.791504, "gate_scores": [ 0.791504, 0.80957, 0.738281, 0.751953, 0.754883, 0.662598, 0.558594, 0.423828, 0.60498, 0.5 ] }, { "question_id": "10054431", "image_id": 393421, "question": "những gì bên cạnh tủ quần áo trong phòng ngủ", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "túi", "balo", "phòng ngủ", "cửa", "sàn nhà", "cái ví", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.62725, "confidences": [ 0.62725, 0.069828, 0.062349, 0.052915, 0.012398, 0.008147, 0.007505, 0.006419, 0.006149, 0.006042 ], "gate_score_top1": 0.799316, "gate_scores": [ 0.799316, 0.77832, 0.724121, 0.724121, 0.598633, 0.658691, 0.614258, 0.544434, 0.644531, 0.644531 ] }, { "question_id": "10074261", "image_id": 473050, "question": "những gì được phản ánh trong gương chiếu hậu của một chiếc xe hơi", "ground_truth": "bầu trời", "ground_truth_normalized": "bầu trời", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "gương", "phương tiện giao thông", "cửa sổ", "xe tải", "đường", "xe buýt", "bầu trời", "bức ảnh", "áo vest" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.896911, "confidences": [ 0.896911, 0.044134, 0.0058, 0.003464, 0.002609, 0.002005, 0.00141, 0.001316, 0.001161, 0.001072 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.804199, 0.708008, 0.672363, 0.633301, 0.606934, 0.611816, 0.498291, 0.496338, 0.507324 ] }, { "question_id": "10056871", "image_id": 439658, "question": "người đàn ông đang giữ một ván trượt tuyết và đứng", "ground_truth": "ván trượt", "ground_truth_normalized": "ván trượt", "predicted_top1": "trượt tuyết", "predicted_topk": [ "trượt tuyết", "ván trượt", "núi", "đồi", "trang thiết bị", "bầu trời", "cây sào", "cây", "áo sơ mi", "bảng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.599528, "confidences": [ 0.599528, 0.153972, 0.08773, 0.035724, 0.005117, 0.004714, 0.004385, 0.003375, 0.00307, 0.002918 ], "gate_score_top1": 0.857422, "gate_scores": [ 0.857422, 0.806152, 0.754883, 0.754395, 0.609375, 0.615723, 0.619629, 0.617676, 0.557617, 0.689453 ] }, { "question_id": "10037351", "image_id": 1958, "question": "hai cô gái chơi một trò chơi điện tử sôi động ở đâu", "ground_truth": "chung cư", "ground_truth_normalized": "chung cư", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "chung cư", "cửa sổ", "phòng ngủ", "ô cửa", "nhiều cái ghế", "tòa nhà", "hành lang", "phòng bếp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.893874, "confidences": [ 0.893874, 0.034795, 0.021689, 0.005953, 0.004821, 0.002313, 0.002207, 0.002181, 0.001948, 0.001502 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.833008, 0.72168, 0.703613, 0.800781, 0.577637, 0.589844, 0.636719, 0.682129, 0.697754 ] }, { "question_id": "10074441", "image_id": 533688, "question": "những gì giữ cá và cà rốt nấu chín", "ground_truth": "dĩa", "ground_truth_normalized": "dĩa", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "dĩa", "thịt", "món ăn", "rau", "sandwich", "chén đĩa", "đĩa", "bữa ăn tối" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.253338, "confidences": [ 0.253338, 0.122506, 0.115084, 0.081607, 0.035236, 0.024407, 0.023108, 0.015697, 0.015514, 0.015274 ], "gate_score_top1": 0.800781, "gate_scores": [ 0.800781, 0.706055, 0.728516, 0.689941, 0.680664, 0.710449, 0.712891, 0.578613, 0.555176, 0.629395 ] }, { "question_id": "10008431", "image_id": 285493, "question": "màu của bản vẽ là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh lá", "màu đen", "màu đỏ", "màu xám", "màu xanh dương", "màu nâu", "màu tía", "màu trắng", "xe ô tô" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.509908, "confidences": [ 0.509908, 0.387918, 0.0347, 0.0347, 0.004185, 0.003955, 0.001513, 0.001486, 0.001178, 0.000616 ], "gate_score_top1": 0.848145, "gate_scores": [ 0.848145, 0.82959, 0.740723, 0.741211, 0.647461, 0.637695, 0.585449, 0.645996, 0.637207, 0.4729 ] }, { "question_id": "10044681", "image_id": 325310, "question": "nhà vệ sinh ngồi ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "nhà ở", "vòi hoa sen", "hành lang", "gương", "bồn tắm", "ô cửa", "phòng ngủ", "cửa" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.747998, "confidences": [ 0.747998, 0.07012, 0.069033, 0.020247, 0.008657, 0.008261, 0.006236, 0.006127, 0.005622, 0.005334 ], "gate_score_top1": 0.863281, "gate_scores": [ 0.863281, 0.825684, 0.84082, 0.721191, 0.594238, 0.757812, 0.708496, 0.558594, 0.759277, 0.630371 ] }, { "question_id": "10082091", "image_id": 347925, "question": "hai con hươu cao cổ đang ăn thứ gì từ cây cao trong môi trường sống do con người tạo ra", "ground_truth": "lá", "ground_truth_normalized": "lá", "predicted_top1": "bãi cỏ", "predicted_topk": [ "bãi cỏ", "lá", "vườn bách thú", "chuồng", "cây", "hươu cao cổ", "lồng", "đồi", "rào chắn", "ngựa rằn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.175587, "confidences": [ 0.175587, 0.141089, 0.126471, 0.086922, 0.085575, 0.042946, 0.031358, 0.023441, 0.020326, 0.012425 ], "gate_score_top1": 0.729004, "gate_scores": [ 0.729004, 0.696777, 0.8125, 0.695801, 0.769531, 0.716797, 0.762207, 0.571777, 0.614258, 0.650879 ] }, { "question_id": "10106341", "image_id": 349846, "question": "người lướt sóng có bao nhiêu dấu hiệu khi vác ván xuống nước", "ground_truth": "mười", "ground_truth_normalized": "mười", "predicted_top1": "ba", "predicted_topk": [ "ba", "một", "hai", "bốn", "năm", "sáu", "bảy", "mười", "tám", "bảng" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.386568, "confidences": [ 0.386568, 0.228141, 0.122593, 0.096979, 0.043712, 0.032357, 0.009888, 0.009109, 0.006092, 0.004328 ], "gate_score_top1": 0.773438, "gate_scores": [ 0.773438, 0.756348, 0.748047, 0.707031, 0.729492, 0.629883, 0.574219, 0.546387, 0.550293, 0.524902 ] }, { "question_id": "10042251", "image_id": 320222, "question": "hai chiếc bánh rán được trưng bày ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa tiệm", "hộp", "tủ lạnh", "tủ đá", "cái mâm", "lò vi sóng", "cái rổ", "phòng bếp", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.41482, "confidences": [ 0.41482, 0.083294, 0.07584, 0.031125, 0.026831, 0.025653, 0.023175, 0.018226, 0.01621, 0.013597 ], "gate_score_top1": 0.816406, "gate_scores": [ 0.816406, 0.734863, 0.751465, 0.685059, 0.65625, 0.718262, 0.64209, 0.748047, 0.575195, 0.705078 ] }, { "question_id": "10030151", "image_id": 537037, "question": "nhà vệ sinh có nắp đóng ở đâu", "ground_truth": "bồn tắm", "ground_truth_normalized": "bồn tắm", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "bồn tắm", "vòi hoa sen", "phòng", "nhà ở", "khăn", "gương", "chậu", "tường", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.94828, "confidences": [ 0.94828, 0.016126, 0.008699, 0.004918, 0.003891, 0.001141, 0.001102, 0.000948, 0.000887, 0.000775 ], "gate_score_top1": 0.903809, "gate_scores": [ 0.903809, 0.802246, 0.746094, 0.775879, 0.787598, 0.681152, 0.688477, 0.705566, 0.560059, 0.543945 ] }, { "question_id": "10096631", "image_id": 342060, "question": "cái gì đang ngồi bên cạnh một chiếc ghế dài bằng gỗ", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "túi", "hành lý", "cái ghế", "cái ví", "balo", "băng ghế", "con chó", "xe đẩy" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.229222, "confidences": [ 0.229222, 0.187818, 0.104945, 0.070457, 0.069909, 0.039523, 0.035846, 0.019112, 0.009591, 0.007617 ], "gate_score_top1": 0.794922, "gate_scores": [ 0.794922, 0.804199, 0.703613, 0.72998, 0.677734, 0.725098, 0.672852, 0.661133, 0.609863, 0.671387 ] }, { "question_id": "10036731", "image_id": 7367, "question": "nơi có nhiều loại trái cây trưng bày ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái rổ", "thùng chứa", "cái túi", "tách", "cái nồi", "chậu", "món ăn", "cái lọ", "hộp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.36084, "confidences": [ 0.36084, 0.242257, 0.22847, 0.031163, 0.011155, 0.010603, 0.005177, 0.004411, 0.004385, 0.003847 ], "gate_score_top1": 0.823242, "gate_scores": [ 0.823242, 0.828613, 0.821777, 0.740723, 0.649414, 0.719238, 0.59668, 0.692871, 0.644531, 0.664062 ] }, { "question_id": "10079821", "image_id": 446603, "question": "hai chiếc vali màu đen mở và là gì", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "túi", "balo", "sàn nhà", "cái ví", "toa xe", "xe đẩy", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.585004, "confidences": [ 0.585004, 0.152012, 0.075252, 0.048208, 0.008694, 0.008559, 0.007947, 0.005042, 0.00385, 0.003345 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.810059, 0.743652, 0.737305, 0.597168, 0.555664, 0.668457, 0.619629, 0.681152, 0.63916 ] }, { "question_id": "10038151", "image_id": 57859, "question": "giường lớn được đặt ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "nhà ở", "cửa sổ", "giường", "hành lang", "tòa nhà", "chung cư", "nhiều cái ghế", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.512812, "confidences": [ 0.512812, 0.421828, 0.011966, 0.008997, 0.005341, 0.003369, 0.002039, 0.002015, 0.00161, 0.001438 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.888184, 0.803711, 0.711914, 0.612793, 0.672363, 0.599609, 0.649902, 0.568359, 0.605469 ] }, { "question_id": "10107881", "image_id": 317120, "question": "có bao nhiêu biển báo đường phố trong một khu dân cư", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.606045, "confidences": [ 0.606045, 0.246785, 0.076152, 0.052956, 0.006251, 0.001921, 0.001653, 0.000834, 0.00064, 0.00042 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.87207, 0.817871, 0.79834, 0.709961, 0.521484, 0.559082, 0.528809, 0.443359, 0.44458 ] }, { "question_id": "10045671", "image_id": 176767, "question": "rất nhiều đồ vật trang trí động vật đặt ở đâu", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "cửa hàng", "cửa tiệm", "cái ghế", "đường phố", "cửa", "xe ô tô", "ảnh chụp", "văn phòng", "cây" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.902074, "confidences": [ 0.902074, 0.0233, 0.009124, 0.008588, 0.002832, 0.002645, 0.002064, 0.002036, 0.001466, 0.001316 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.75, 0.741211, 0.702148, 0.676758, 0.702148, 0.59082, 0.496582, 0.620605, 0.604492 ] }, { "question_id": "10007051", "image_id": 207686, "question": "màu của tường là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu trắng", "màu đen", "màu nâu", "màu xanh lá", "màu đỏ", "màu tía", "màu xanh dương", "màu vàng", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.626819, "confidences": [ 0.626819, 0.343468, 0.006909, 0.005277, 0.005075, 0.002034, 0.001995, 0.001191, 0.001146, 0.001005 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.89502, 0.76709, 0.765625, 0.672852, 0.742676, 0.727051, 0.706055, 0.681641, 0.677246 ] }, { "question_id": "10116251", "image_id": 239457, "question": "có bao nhiêu người đi xe đạp cùng với lời thề của một đoàn tàu", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "mười", "tám", "bảy", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.612268, "confidences": [ 0.612268, 0.368469, 0.007921, 0.007383, 0.0005, 0.000308, 0.00011, 0.000106, 0.000101, 7.8e-05 ], "gate_score_top1": 0.88623, "gate_scores": [ 0.88623, 0.876953, 0.787109, 0.757324, 0.58252, 0.411865, 0.40332, 0.436035, 0.437012, 0.357178 ] }, { "question_id": "10059511", "image_id": 526706, "question": "những gì đang cho một con bò trên đồng cỏ", "ground_truth": "bắp chân", "ground_truth_normalized": "bắp chân", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "con cừu", "bò đực", "bãi cỏ", "chuồng trại", "gấu", "con chó", "con ngựa", "đồi" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.508836, "confidences": [ 0.508836, 0.151591, 0.135885, 0.054903, 0.013693, 0.007833, 0.007358, 0.006726, 0.006233, 0.004292 ], "gate_score_top1": 0.830566, "gate_scores": [ 0.830566, 0.722656, 0.784668, 0.694336, 0.692871, 0.553223, 0.648438, 0.60498, 0.69873, 0.611816 ] }, { "question_id": "10057341", "image_id": 470032, "question": "những gì đang treo ngược trên dây", "ground_truth": "con chim", "ground_truth_normalized": "con chim", "predicted_top1": "con vẹt", "predicted_topk": [ "con vẹt", "con chim", "hải âu", "con vịt", "hươu cao cổ", "con chó", "chim bồ câu", "con mèo", "tách", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.533562, "confidences": [ 0.533562, 0.401183, 0.007449, 0.001083, 0.001027, 0.001007, 0.000924, 0.000838, 0.000798, 0.000763 ], "gate_score_top1": 0.837891, "gate_scores": [ 0.837891, 0.843262, 0.625, 0.649414, 0.60791, 0.496582, 0.401855, 0.549316, 0.563477, 0.520996 ] }, { "question_id": "10071091", "image_id": 460494, "question": "các loại những gì đang ngồi trên một đĩa với một ly sữa trắng", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "thịt", "dĩa", "chén đĩa", "rau", "bữa ăn tối", "cái nĩa", "đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.34893, "confidences": [ 0.34893, 0.256282, 0.066855, 0.039765, 0.033748, 0.022176, 0.021078, 0.02067, 0.015787, 0.008583 ], "gate_score_top1": 0.833984, "gate_scores": [ 0.833984, 0.791504, 0.768555, 0.720703, 0.698242, 0.668945, 0.734863, 0.659668, 0.666016, 0.53418 ] }, { "question_id": "10067321", "image_id": 526028, "question": "những gì được trình bày độc đáo trên tấm lớn màu trắng", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "thịt", "rau", "bữa ăn tối", "dĩa", "cái nĩa", "màu trắng", "chén đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.43138, "confidences": [ 0.43138, 0.155627, 0.059765, 0.034522, 0.033135, 0.025306, 0.024384, 0.019028, 0.013466, 0.012261 ], "gate_score_top1": 0.823242, "gate_scores": [ 0.823242, 0.75293, 0.740234, 0.649414, 0.6875, 0.633301, 0.680664, 0.640625, 0.613281, 0.587891 ] }, { "question_id": "10089151", "image_id": 398209, "question": "những gì trong phòng khách dưới tivi", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhiều cái ghế", "cái bàn", "đi văng", "cái kệ", "chung cư", "cây", "bức ảnh", "nhà ở", "cửa sổ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.184589, "confidences": [ 0.184589, 0.105176, 0.078619, 0.046763, 0.038617, 0.036704, 0.025574, 0.023884, 0.01957, 0.01882 ], "gate_score_top1": 0.769531, "gate_scores": [ 0.769531, 0.674805, 0.709961, 0.618652, 0.636719, 0.595215, 0.59375, 0.567871, 0.755859, 0.592773 ] }, { "question_id": "10076511", "image_id": 404738, "question": "những gì đang ngồi trên cây xanh", "ground_truth": "lọ cắm hoa", "ground_truth_normalized": "lọ cắm hoa", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "lọ cắm hoa", "bát", "cây", "tách", "sân vườn", "cái lọ", "bông hoa", "tường", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.562496, "confidences": [ 0.562496, 0.298739, 0.041713, 0.014, 0.008475, 0.00508, 0.004114, 0.002053, 0.001801, 0.001713 ], "gate_score_top1": 0.829102, "gate_scores": [ 0.829102, 0.806152, 0.820312, 0.734863, 0.707031, 0.657227, 0.67627, 0.659668, 0.494873, 0.60791 ] }, { "question_id": "10079221", "image_id": 459182, "question": "hai người đi dọc theo những gì giữ ván lướt sóng", "ground_truth": "bờ biển", "ground_truth_normalized": "bờ biển", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "trượt tuyết", "cây sào", "diều", "ván trượt", "đồi", "dĩa nhựa", "ca nô" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.358588, "confidences": [ 0.358588, 0.239806, 0.080012, 0.032265, 0.026644, 0.014657, 0.010133, 0.010093, 0.009537, 0.006964 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.807617, 0.719238, 0.748535, 0.651367, 0.740234, 0.687012, 0.64502, 0.710938, 0.463135 ] }, { "question_id": "10023611", "image_id": 345831, "question": "màu sắc của khăn choàng là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu xanh dương", "màu tía", "màu vàng", "màu đen", "màu cam", "màu xám", "màu trắng", "màu đỏ", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.538377, "confidences": [ 0.538377, 0.381767, 0.037948, 0.013166, 0.011941, 0.003239, 0.002333, 0.002315, 0.001194, 0.001085 ], "gate_score_top1": 0.850586, "gate_scores": [ 0.850586, 0.877441, 0.817871, 0.799316, 0.733398, 0.796875, 0.725098, 0.702637, 0.731934, 0.669434 ] }, { "question_id": "10045001", "image_id": 107138, "question": "người phụ nữ đang ở đâu", "ground_truth": "tạp dề", "ground_truth_normalized": "tạp dề", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "tạp dề", "cửa hàng", "quán ăn", "cửa tiệm", "phòng", "lò vi sóng", "thùng chứa", "quán bar", "máy xay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.614135, "confidences": [ 0.614135, 0.159582, 0.103034, 0.028723, 0.015345, 0.004744, 0.002549, 0.002069, 0.001908, 0.001808 ], "gate_score_top1": 0.837891, "gate_scores": [ 0.837891, 0.799316, 0.796387, 0.783203, 0.697754, 0.692871, 0.529297, 0.541992, 0.581055, 0.60498 ] }, { "question_id": "10075391", "image_id": 558673, "question": "ngôi nhà rất đẹp được sắp xếp rất tốt những gì", "ground_truth": "nhiều cái ghế", "ground_truth_normalized": "nhiều cái ghế", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "nhiều cái ghế", "đi văng", "bức ảnh", "chung cư", "cửa sổ", "tường", "cái ghế", "cái kệ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.323386, "confidences": [ 0.323386, 0.196911, 0.08469, 0.05798, 0.025231, 0.019804, 0.016038, 0.013192, 0.012539, 0.011825 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.836914, 0.688477, 0.645996, 0.562012, 0.614258, 0.634766, 0.591797, 0.643066, 0.646484 ] }, { "question_id": "10055071", "image_id": 366104, "question": "nhóm người đang đứng trong phòng là gì và một trong số họ đang xem", "ground_truth": "những bức ảnh", "ground_truth_normalized": "những bức ảnh", "predicted_top1": "máy ảnh", "predicted_topk": [ "máy ảnh", "điện thoại", "kính đeo", "nón", "bức ảnh", "gian hàng", "đồ uống", "những bức ảnh", "bộ đồ", "laptop" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.437676, "confidences": [ 0.437676, 0.089967, 0.023287, 0.019495, 0.017543, 0.016806, 0.012465, 0.009482, 0.00911, 0.007443 ], "gate_score_top1": 0.783691, "gate_scores": [ 0.783691, 0.773926, 0.541016, 0.740723, 0.598145, 0.591309, 0.555664, 0.496582, 0.625977, 0.679688 ] }, { "question_id": "10092331", "image_id": 434089, "question": "những gì đang ăn một số thực phẩm từ một máng gỗ", "ground_truth": "con heo", "ground_truth_normalized": "con heo", "predicted_top1": "con cừu", "predicted_topk": [ "con cừu", "con bò", "gia súc", "bò đực", "con chó", "đồi", "bãi cỏ", "con mèo", "cây", "con voi" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.750365, "confidences": [ 0.750365, 0.040394, 0.017612, 0.013478, 0.005763, 0.005596, 0.005046, 0.003434, 0.003236, 0.002806 ], "gate_score_top1": 0.796387, "gate_scores": [ 0.796387, 0.689941, 0.574219, 0.557617, 0.646973, 0.547852, 0.62793, 0.54248, 0.53125, 0.546875 ] }, { "question_id": "10047831", "image_id": 496752, "question": "nhiều voi đang đứng ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "thân cây", "bãi cỏ", "chuồng trại", "hươu cao cổ", "lá", "con voi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.643786, "confidences": [ 0.643786, 0.290177, 0.037767, 0.002993, 0.001801, 0.001759, 0.001116, 0.001012, 0.000694, 0.000622 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.869141, 0.853027, 0.625, 0.666992, 0.568848, 0.650391, 0.653809, 0.565918, 0.621582 ] }, { "question_id": "10042071", "image_id": 46298, "question": "đâu là bó hotdogs nơi nấu ăn", "ground_truth": "cái nồi", "ground_truth_normalized": "cái nồi", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "cái nồi", "món ăn", "bát", "lò vi sóng", "quầy tính tiền", "thùng chứa", "giấy bạc", "cà rốt", "chén đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.483137, "confidences": [ 0.483137, 0.359037, 0.030886, 0.01948, 0.014675, 0.006798, 0.005669, 0.002884, 0.002741, 0.002555 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.864746, 0.745605, 0.708008, 0.726074, 0.592285, 0.658691, 0.597656, 0.582031, 0.615723 ] }, { "question_id": "10105571", "image_id": 286137, "question": "có bao nhiêu người đang đứng bên ngoài một chiếc xe tải bán hàng tự động", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "ba", "mười", "một", "hai" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.431793, "confidences": [ 0.431793, 0.250881, 0.177901, 0.088067, 0.007862, 0.006595, 0.003073, 0.001789, 0.000991, 0.000739 ], "gate_score_top1": 0.827637, "gate_scores": [ 0.827637, 0.761719, 0.805176, 0.766602, 0.641113, 0.595703, 0.594727, 0.525391, 0.459717, 0.44458 ] }, { "question_id": "10036711", "image_id": 50658, "question": "thuyền nhỏ được cập cảng ở đâu", "ground_truth": "bến tàu", "ground_truth_normalized": "bến tàu", "predicted_top1": "bến du thuyền", "predicted_topk": [ "bến du thuyền", "con thuyền", "ca nô", "thuyền buồm", "bến tàu", "hồ bơi", "xe đạp", "cầu", "sân vườn", "các tòa nhà" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.340935, "confidences": [ 0.340935, 0.254353, 0.024842, 0.018425, 0.01498, 0.011089, 0.010077, 0.006792, 0.006551, 0.006551 ], "gate_score_top1": 0.787109, "gate_scores": [ 0.787109, 0.639648, 0.590332, 0.532715, 0.541992, 0.62207, 0.549316, 0.544922, 0.641602, 0.467285 ] }, { "question_id": "10041111", "image_id": 252925, "question": "người phụ nữ mặc một chiếc áo sơ mi ở đâu", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "tủ lạnh", "tủ đá", "cửa", "lò vi sóng", "phòng", "nhà ở", "chậu", "cửa sổ", "buồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.784613, "confidences": [ 0.784613, 0.091896, 0.05075, 0.009573, 0.008399, 0.005339, 0.002402, 0.001885, 0.001521, 0.001518 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.804199, 0.751465, 0.709961, 0.64209, 0.676758, 0.668945, 0.623047, 0.566895, 0.465576 ] }, { "question_id": "10094191", "image_id": 503210, "question": "chiếc ghế dài sọc mà một chiếc đồng hồ một cái gương một cây và một chiếc đèn và cái gì trong đó", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "nhà ở", "predicted_topk": [ "nhà ở", "phòng", "bức ảnh", "nhiều cái ghế", "cửa", "đi văng", "cửa sổ", "cây", "cái kệ", "chung cư" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.231973, "confidences": [ 0.231973, 0.191563, 0.076198, 0.0455, 0.043586, 0.040707, 0.02393, 0.019153, 0.018099, 0.018099 ], "gate_score_top1": 0.825195, "gate_scores": [ 0.825195, 0.773926, 0.652832, 0.68457, 0.69043, 0.675781, 0.672363, 0.590332, 0.633301, 0.581055 ] }, { "question_id": "10025921", "image_id": 55447, "question": "người đàn ông đứng ở đâu trước một con vật lông trắng", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "áo vest", "gương", "chuồng trại", "đường", "ô cửa", "con cừu", "cửa tiệm", "rào chắn", "lồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.312592, "confidences": [ 0.312592, 0.111024, 0.051631, 0.04173, 0.026319, 0.017774, 0.01417, 0.013338, 0.012877, 0.011264 ], "gate_score_top1": 0.775879, "gate_scores": [ 0.775879, 0.662109, 0.692383, 0.775391, 0.70459, 0.528809, 0.638184, 0.60498, 0.540527, 0.669434 ] }, { "question_id": "10036301", "image_id": 92288, "question": "thức ăn kèm salad phục vụ ở đâu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "bát", "predicted_topk": [ "bát", "quán ăn", "món ăn", "đĩa ăn", "cái rổ", "bữa ăn", "thùng chứa", "chảo", "cái nồi", "chén đĩa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.575723, "confidences": [ 0.575723, 0.100046, 0.084908, 0.069571, 0.031728, 0.013098, 0.00764, 0.007205, 0.005869, 0.005271 ], "gate_score_top1": 0.86084, "gate_scores": [ 0.86084, 0.821777, 0.795898, 0.751953, 0.746582, 0.723633, 0.682129, 0.699707, 0.670898, 0.641602 ] }, { "question_id": "10048561", "image_id": 277267, "question": "người đàn ông cắt tóc ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "cửa tiệm", "phòng", "nhà ở", "đường phố", "văn phòng", "bát", "cửa hàng", "phòng tắm", "cái rổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.275514, "confidences": [ 0.275514, 0.157598, 0.131164, 0.020672, 0.016258, 0.016258, 0.015006, 0.014291, 0.010767, 0.010314 ], "gate_score_top1": 0.725098, "gate_scores": [ 0.725098, 0.771484, 0.751953, 0.694336, 0.679688, 0.628906, 0.668945, 0.642578, 0.626953, 0.605957 ] }, { "question_id": "10087181", "image_id": 531334, "question": "những gì được âu yếm với nhau trên một con chó khác", "ground_truth": "con chó", "ground_truth_normalized": "con chó", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "gấu trúc", "con chó", "đồ chơi", "móng vuốt", "màu nâu", "con chim", "hươu cao cổ", "cây", "ngựa vằn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.978102, "confidences": [ 0.978102, 0.005659, 0.004029, 0.000719, 0.000517, 0.000416, 0.000413, 0.000244, 0.000217, 0.000205 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.731445, 0.745117, 0.624023, 0.489258, 0.67334, 0.551758, 0.577148, 0.547363, 0.609863 ] }, { "question_id": "10104151", "image_id": 433968, "question": "có bao nhiêu máy bay phản lực trong không khí lặn từ cùng một điểm và đang tỏa ra", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "bảy", "chín", "năm", "ba", "tám", "một", "hai", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.669123, "confidences": [ 0.669123, 0.159553, 0.080228, 0.02656, 0.014497, 0.014384, 0.00869, 0.004145, 0.002236, 0.001601 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.796875, 0.772461, 0.723633, 0.699219, 0.702637, 0.663086, 0.598145, 0.59375, 0.4729 ] }, { "question_id": "10049101", "image_id": 462057, "question": "xe buýt đỏ hai tầng ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "ga-ra", "kho", "trạm", "bảo tàng", "phòng", "cửa tiệm", "chuồng", "sân bay", "đường phố" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.315554, "confidences": [ 0.315554, 0.301104, 0.132574, 0.112076, 0.016561, 0.012748, 0.010568, 0.00601, 0.004838, 0.003776 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.855469, 0.798828, 0.803223, 0.777832, 0.708496, 0.711426, 0.584961, 0.622559, 0.649902 ] }, { "question_id": "10112271", "image_id": 477831, "question": "có bao nhiêu vòi chữa cháy màu vàng đang ngồi trên bãi cỏ gần một cây xăng cạnh biển hiệu đường phố", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.42932, "confidences": [ 0.42932, 0.422664, 0.072876, 0.04301, 0.010256, 0.00416, 0.003893, 0.001524, 0.001073, 0.000894 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.852539, 0.822754, 0.777344, 0.75, 0.571289, 0.617676, 0.565918, 0.505859, 0.517578 ] }, { "question_id": "10085831", "image_id": 512254, "question": "một số con voi và một con đang ăn gì", "ground_truth": "lá", "ground_truth_normalized": "lá", "predicted_top1": "thân cây", "predicted_topk": [ "thân cây", "con voi", "bãi cỏ", "lá", "vườn bách thú", "cây", "đồi", "hoa quả", "chuồng", "đường" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.338838, "confidences": [ 0.338838, 0.091197, 0.086344, 0.052781, 0.035091, 0.027597, 0.026905, 0.01137, 0.009859, 0.008916 ], "gate_score_top1": 0.768066, "gate_scores": [ 0.768066, 0.691406, 0.698242, 0.648438, 0.678223, 0.696289, 0.623535, 0.513672, 0.618164, 0.596191 ] }, { "question_id": "10056221", "image_id": 347819, "question": "cái gì đã sẵn sàng để ăn trong đĩa", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "thịt", "rau", "dĩa", "cái nĩa", "bữa ăn tối", "chén đĩa", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.345185, "confidences": [ 0.345185, 0.143894, 0.064354, 0.048199, 0.041146, 0.03761, 0.036382, 0.032422, 0.020448, 0.010123 ], "gate_score_top1": 0.832031, "gate_scores": [ 0.832031, 0.758301, 0.76416, 0.696289, 0.729492, 0.695312, 0.688965, 0.65625, 0.628906, 0.567871 ] }, { "question_id": "10046461", "image_id": 570834, "question": "xe đạp đang được vận chuyển ở đâu", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe điện ngầm", "ga-ra", "sân bay", "gương", "ô cửa", "tòa nhà", "phòng", "kho", "áo vest" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.409164, "confidences": [ 0.409164, 0.086101, 0.057693, 0.026987, 0.025953, 0.021307, 0.018657, 0.017561, 0.016888, 0.014759 ], "gate_score_top1": 0.769531, "gate_scores": [ 0.769531, 0.705078, 0.750977, 0.731445, 0.683105, 0.561035, 0.68457, 0.634766, 0.624512, 0.612305 ] }, { "question_id": "10073811", "image_id": 352418, "question": "thịt và bông cải xanh có gì đặc trưng với nhau", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "bát", "predicted_topk": [ "bát", "đĩa ăn", "món ăn", "bữa ăn", "rau", "chén đĩa", "cái nĩa", "thịt", "dĩa", "rau xà lách" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.202192, "confidences": [ 0.202192, 0.161832, 0.14735, 0.087987, 0.0798, 0.035273, 0.031929, 0.03125, 0.030526, 0.01535 ], "gate_score_top1": 0.757812, "gate_scores": [ 0.757812, 0.833496, 0.796387, 0.736816, 0.777344, 0.715332, 0.653809, 0.696777, 0.691895, 0.637207 ] }, { "question_id": "10053011", "image_id": 558673, "question": "những gì có chiếc ghế được sắp xếp rất tốt", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "nhiều cái ghế", "đi văng", "bức ảnh", "chung cư", "cửa sổ", "tường", "cái kệ", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.437533, "confidences": [ 0.437533, 0.196443, 0.054978, 0.050451, 0.020544, 0.019757, 0.012363, 0.00875, 0.007662, 0.007086 ], "gate_score_top1": 0.824219, "gate_scores": [ 0.824219, 0.850098, 0.703613, 0.664551, 0.570312, 0.633301, 0.650391, 0.586426, 0.633789, 0.620605 ] }, { "question_id": "10057621", "image_id": 357870, "question": "cái gì bên cạnh chiếc máy tính xách tay đang ngồi trên chiếc bàn màu trắng", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "cái bàn", "predicted_topk": [ "cái bàn", "máy tính", "laptop", "văn phòng", "cái ghế", "bàn phím", "thư viện", "trang thiết bị", "bức tranh", "phòng ngủ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.372155, "confidences": [ 0.372155, 0.203924, 0.118022, 0.08805, 0.067775, 0.025825, 0.009101, 0.006039, 0.005762, 0.004676 ], "gate_score_top1": 0.83252, "gate_scores": [ 0.83252, 0.844727, 0.827148, 0.793945, 0.722168, 0.73584, 0.647461, 0.496826, 0.590332, 0.587402 ] }, { "question_id": "10029651", "image_id": 429038, "question": "một số người đàn ông chơi game ở đâu", "ground_truth": "chung cư", "ground_truth_normalized": "chung cư", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "chung cư", "nhà ở", "cái ghế", "phòng ngủ", "cửa sổ", "nhiều cái ghế", "đi văng", "tòa nhà", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.963443, "confidences": [ 0.963443, 0.009822, 0.0078, 0.002217, 0.001557, 0.00106, 0.000887, 0.00073, 0.000573, 0.000565 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.73291, 0.824707, 0.700195, 0.793945, 0.631836, 0.598633, 0.566406, 0.599609, 0.663574 ] }, { "question_id": "10079471", "image_id": 430533, "question": "những gì đầy với con chó nóng và một mảnh dưa", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "cái mâm", "predicted_topk": [ "cái mâm", "thùng chứa", "hộp", "chén đĩa", "giấy bạc", "con chó", "dĩa", "bữa ăn", "sandwich", "cái rổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.458832, "confidences": [ 0.458832, 0.222745, 0.036504, 0.025138, 0.022446, 0.021004, 0.01269, 0.011375, 0.011264, 0.007287 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.80127, 0.73291, 0.610352, 0.77002, 0.647949, 0.629395, 0.624512, 0.754883, 0.677246 ] }, { "question_id": "10011801", "image_id": 469035, "question": "màu sắc của một cái gì đó là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu nâu", "màu cam", "màu trắng", "donut", "màu đỏ", "màu vàng", "quả táo", "bánh ngọt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.489199, "confidences": [ 0.489199, 0.235639, 0.101744, 0.025826, 0.02235, 0.01632, 0.013424, 0.009802, 0.002746, 0.002722 ], "gate_score_top1": 0.831055, "gate_scores": [ 0.831055, 0.813965, 0.760254, 0.724121, 0.768555, 0.654297, 0.697266, 0.710938, 0.491211, 0.474121 ] }, { "question_id": "10030781", "image_id": 278962, "question": "pizza đã nướng ở đâu trong lò sưởi gỗ hiện đại", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "phòng bếp", "tạp dề", "quán ăn", "cửa tiệm", "chảo", "hộp", "phòng", "pizza", "bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.603558, "confidences": [ 0.603558, 0.277411, 0.030882, 0.024912, 0.006385, 0.004546, 0.001709, 0.00165, 0.00149, 0.001482 ], "gate_score_top1": 0.836914, "gate_scores": [ 0.836914, 0.848145, 0.722168, 0.8125, 0.634766, 0.638184, 0.593262, 0.575684, 0.60791, 0.521973 ] }, { "question_id": "10067051", "image_id": 451598, "question": "cái xúc xích dài hơn cái bánh mì và có cái gì ép chặt vào nó", "ground_truth": "phô mai", "ground_truth_normalized": "phô mai", "predicted_top1": "con chó", "predicted_topk": [ "con chó", "búi tóc", "cái mâm", "phô mai", "cái rổ", "đĩa ăn", "sandwich", "bữa ăn", "sô cô la", "bức ảnh" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.439435, "confidences": [ 0.439435, 0.103563, 0.017006, 0.014209, 0.011384, 0.010446, 0.010416, 0.009997, 0.008526, 0.006952 ], "gate_score_top1": 0.760254, "gate_scores": [ 0.760254, 0.69873, 0.668457, 0.490234, 0.611816, 0.665527, 0.683594, 0.620605, 0.53418, 0.52002 ] }, { "question_id": "10026371", "image_id": 519635, "question": "người phụ nữ đang ngồi và làm việc ở đâu", "ground_truth": "gian hàng", "ground_truth_normalized": "gian hàng", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "gian hàng", "xe ô tô", "trạm", "phòng", "xe đẩy", "xe lăn", "văn phòng", "balo", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.253275, "confidences": [ 0.253275, 0.109787, 0.045766, 0.045144, 0.02978, 0.024306, 0.023058, 0.021576, 0.012451, 0.012306 ], "gate_score_top1": 0.743652, "gate_scores": [ 0.743652, 0.641602, 0.698242, 0.696289, 0.675781, 0.628906, 0.612305, 0.65625, 0.592773, 0.530273 ] }, { "question_id": "10089731", "image_id": 373075, "question": "người đàn ông không mặc áo đang nướng cái gì vậy", "ground_truth": "thịt", "ground_truth_normalized": "thịt", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "áo sơ mi", "cái mâm", "thịt", "lò vi sóng", "gà", "cà rốt", "bữa ăn", "dao", "tạp dề" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.103761, "confidences": [ 0.103761, 0.058776, 0.044977, 0.044889, 0.031707, 0.031155, 0.030612, 0.028422, 0.023517, 0.021204 ], "gate_score_top1": 0.658203, "gate_scores": [ 0.658203, 0.579102, 0.729492, 0.652344, 0.637695, 0.562988, 0.64502, 0.679688, 0.716797, 0.612793 ] }, { "question_id": "10006691", "image_id": 440885, "question": "màu của quá cảnh là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu vàng", "màu tía", "màu trắng", "màu đỏ", "màu xanh dương", "màu đen", "màu nâu", "màu cam", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.40476, "confidences": [ 0.40476, 0.291538, 0.253292, 0.009783, 0.006776, 0.005911, 0.004401, 0.003151, 0.002315, 0.002128 ], "gate_score_top1": 0.826172, "gate_scores": [ 0.826172, 0.831055, 0.859863, 0.73877, 0.752441, 0.716309, 0.660156, 0.654297, 0.716309, 0.657227 ] }, { "question_id": "10015081", "image_id": 411792, "question": "màu của dấu hiệu là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu đỏ", "màu xám", "màu đen", "màu vàng", "màu trắng", "màu xanh dương", "màu tía", "màu nâu", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.734657, "confidences": [ 0.734657, 0.202419, 0.023432, 0.00862, 0.007788, 0.005311, 0.003323, 0.0021, 0.001658, 0.001655 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.84375, 0.811035, 0.745605, 0.714844, 0.75293, 0.65918, 0.717285, 0.623047, 0.79541 ] }, { "question_id": "10074431", "image_id": 554021, "question": "người đàn ông đang dùng đòn gì trên một bộ quần áo màu xanh lam kiểm tra", "ground_truth": "máy sấy khô", "ground_truth_normalized": "máy sấy khô", "predicted_top1": "chuối", "predicted_topk": [ "chuối", "khăn", "máy sấy khô", "bàn chải", "con voi", "bức ảnh", "phòng tắm", "dao", "tường", "bồn tắm" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.30678, "confidences": [ 0.30678, 0.02973, 0.027657, 0.02484, 0.023518, 0.015022, 0.014264, 0.012539, 0.01243, 0.010736 ], "gate_score_top1": 0.749512, "gate_scores": [ 0.749512, 0.580566, 0.520996, 0.655762, 0.633789, 0.523926, 0.562988, 0.657227, 0.617676, 0.591309 ] }, { "question_id": "10026381", "image_id": 499978, "question": "người đàn ông đang làm gì đó ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "bát", "phòng", "tạp dề", "quán ăn", "cái nồi", "chảo", "nhà ở", "cửa tiệm", "chậu" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.76187, "confidences": [ 0.76187, 0.071981, 0.024111, 0.023923, 0.0182, 0.007099, 0.006801, 0.006204, 0.006013, 0.00315 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.830078, 0.740234, 0.706055, 0.761719, 0.679199, 0.67334, 0.692383, 0.637207, 0.618164 ] }, { "question_id": "10094651", "image_id": 515176, "question": "cái gì trên sàn", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "hộp", "tủ đá", "cái kệ", "tường", "cỗ máy", "nón", "máy xay", "chuột", "cái mâm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.112415, "confidences": [ 0.112415, 0.074012, 0.038397, 0.027334, 0.024791, 0.02175, 0.021623, 0.020116, 0.018971, 0.016742 ], "gate_score_top1": 0.572754, "gate_scores": [ 0.572754, 0.682129, 0.709961, 0.650391, 0.586914, 0.46875, 0.710449, 0.744629, 0.658203, 0.692871 ] }, { "question_id": "10077801", "image_id": 549390, "question": "người phụ nữ mặc những gì đang đi xe đạp", "ground_truth": "đầm", "ground_truth_normalized": "đầm", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "đường", "xe tay ga", "xe lăn", "ảnh chụp", "xe máy", "chim bồ câu", "ván trượt", "giá đỡ", "đường phố" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.766148, "confidences": [ 0.766148, 0.014365, 0.011297, 0.009626, 0.008027, 0.00754, 0.007266, 0.005759, 0.004774, 0.004677 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.696777, 0.75, 0.772949, 0.58252, 0.607422, 0.573242, 0.667969, 0.517578, 0.619141 ] }, { "question_id": "10041711", "image_id": 534954, "question": "người phụ nữ để một con diều hâu đi đâu", "ground_truth": "găng tay", "ground_truth_normalized": "găng tay", "predicted_top1": "sân", "predicted_topk": [ "sân", "chuồng", "lồng", "găng tay", "diều", "bãi cỏ", "vườn bách thú", "đường", "rào chắn", "áo vest" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.114182, "confidences": [ 0.114182, 0.080024, 0.061959, 0.056635, 0.031461, 0.029324, 0.024263, 0.023563, 0.021246, 0.019959 ], "gate_score_top1": 0.725098, "gate_scores": [ 0.725098, 0.697266, 0.754395, 0.661133, 0.634766, 0.637207, 0.733398, 0.664062, 0.581543, 0.612793 ] }, { "question_id": "10101901", "image_id": 360772, "question": "những gì cần được tái tạo bề mặt và sơn", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "nhà ở", "phòng", "bồn tắm", "tường", "bồn tiểu", "khăn", "cửa", "bức ảnh" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.862896, "confidences": [ 0.862896, 0.017223, 0.015499, 0.011699, 0.009255, 0.008626, 0.008104, 0.007687, 0.00578, 0.00469 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.72998, 0.806641, 0.762207, 0.758789, 0.65625, 0.684082, 0.671387, 0.641602, 0.580566 ] }, { "question_id": "10049581", "image_id": 208043, "question": "một chiếc đồng hồ gỗ cũ màu xanh lá cây đứng ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "tòa nhà", "nhà ở", "hành lang", "cửa tiệm", "bảo tàng", "ga-ra", "kho", "ô cửa", "phòng ngủ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.374026, "confidences": [ 0.374026, 0.246253, 0.116777, 0.029991, 0.022995, 0.019213, 0.016053, 0.013256, 0.013051, 0.008779 ], "gate_score_top1": 0.814941, "gate_scores": [ 0.814941, 0.788574, 0.835938, 0.728516, 0.742188, 0.737793, 0.776855, 0.730957, 0.615723, 0.772949 ] }, { "question_id": "10096851", "image_id": 390718, "question": "người đàn ông đang cầm một cây gậy bóng cơ bản và nổi bật trong một trò chơi là gì", "ground_truth": "quả bóng", "ground_truth_normalized": "quả bóng", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "quả bóng", "mũ", "áo sơ mi", "găng tay", "sân vận động", "dĩa nhựa", "lồng", "nón", "đồng phục" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.593875, "confidences": [ 0.593875, 0.142721, 0.030268, 0.023804, 0.016946, 0.013563, 0.005754, 0.004687, 0.003651, 0.003373 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.756836, 0.689941, 0.681641, 0.739746, 0.653809, 0.584961, 0.609375, 0.658203, 0.446777 ] }, { "question_id": "10027381", "image_id": 411362, "question": "người đàn ông đang giữ huy chương quân sự ở đâu", "ground_truth": "quán bar", "ground_truth_normalized": "quán bar", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "quán bar", "quán ăn", "nhà ở", "cửa hàng", "cửa tiệm", "gian hàng", "áo vest", "bảo tàng", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.326124, "confidences": [ 0.326124, 0.260008, 0.114928, 0.02762, 0.018327, 0.015799, 0.013753, 0.010837, 0.010669, 0.006612 ], "gate_score_top1": 0.790527, "gate_scores": [ 0.790527, 0.751953, 0.798828, 0.725586, 0.725586, 0.713867, 0.649902, 0.557129, 0.6875, 0.675293 ] }, { "question_id": "10110371", "image_id": 248496, "question": "nenon có bao nhiêu đường dừng biển báo trên một con phố", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "một", "predicted_topk": [ "một", "bốn", "hai", "ba", "năm", "bảy", "sáu", "chín", "tám", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.521228, "confidences": [ 0.521228, 0.193253, 0.092362, 0.071651, 0.03988, 0.02709, 0.020369, 0.005241, 0.004772, 0.004379 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.799805, 0.756348, 0.79541, 0.782227, 0.70752, 0.669434, 0.612305, 0.592773, 0.575684 ] }, { "question_id": "10113041", "image_id": 67117, "question": "thanh niên mặc quần jean, áo phông đi xe đạp bao nhiêu tốc độ mà không dùng tay để điều khiển", "ground_truth": "mười", "ground_truth_normalized": "mười", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "mười", "xe đạp", "bốn", "năm", "ba", "sáu", "bảy", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.348427, "confidences": [ 0.348427, 0.206436, 0.097514, 0.039092, 0.037742, 0.032094, 0.025637, 0.015071, 0.009106, 0.006351 ], "gate_score_top1": 0.69043, "gate_scores": [ 0.69043, 0.712402, 0.64209, 0.716309, 0.583008, 0.627441, 0.601562, 0.533203, 0.524414, 0.395752 ] }, { "question_id": "10000931", "image_id": 267552, "question": "màu của sàn là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu xám", "màu nâu", "màu tía", "màu trắng", "màu vàng", "màu xanh lá", "màu cam", "màu đen", "màu đỏ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.406592, "confidences": [ 0.406592, 0.271908, 0.1611, 0.083578, 0.021718, 0.01458, 0.011947, 0.006174, 0.002702, 0.002223 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.826172, 0.82666, 0.811523, 0.785645, 0.762207, 0.671875, 0.711914, 0.652832, 0.685059 ] }, { "question_id": "10092081", "image_id": 378139, "question": "cái gì đang đi xuống một con kênh", "ground_truth": "đưa đón", "ground_truth_normalized": "đưa đón", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "bến du thuyền", "thuyền buồm", "ca nô", "cầu", "động cơ", "hàng hoá", "xe đạp", "xe đẩy", "đưa đón" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.947946, "confidences": [ 0.947946, 0.006325, 0.004322, 0.002823, 0.00194, 0.001802, 0.001258, 0.001188, 0.001005, 0.000837 ], "gate_score_top1": 0.854004, "gate_scores": [ 0.854004, 0.669434, 0.595215, 0.504883, 0.586914, 0.632324, 0.484619, 0.560547, 0.641113, 0.38916 ] }, { "question_id": "10056991", "image_id": 554145, "question": "những gì được trưng bày trong một cửa hàng", "ground_truth": "bàn chải đánh răng.", "ground_truth_normalized": "bàn chải đánh răng.", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cái kệ", "cửa", "bàn chải đánh răng.", "hoa quả", "cái mâm", "bức tượng", "rau", "cà rốt", "con chó" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.597582, "confidences": [ 0.597582, 0.027249, 0.019474, 0.015315, 0.010103, 0.007984, 0.00793, 0.007611, 0.007312, 0.006803 ], "gate_score_top1": 0.827148, "gate_scores": [ 0.827148, 0.694824, 0.612305, 0.51709, 0.681641, 0.722168, 0.57666, 0.690918, 0.548828, 0.574219 ] }, { "question_id": "10091571", "image_id": 454129, "question": "cái gì và gurney bên cạnh xe máy", "ground_truth": "xe cộ", "ground_truth_normalized": "xe cộ", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe cộ", "xe tải", "xe đạp", "xe đẩy", "xe tay ga", "phương tiện giao thông", "đường", "xe ô tô", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.304213, "confidences": [ 0.304213, 0.183078, 0.079981, 0.072824, 0.036833, 0.024729, 0.019372, 0.012606, 0.011935, 0.008251 ], "gate_score_top1": 0.793457, "gate_scores": [ 0.793457, 0.744141, 0.760742, 0.718262, 0.730469, 0.669434, 0.666992, 0.657715, 0.623535, 0.532715 ] }, { "question_id": "10025131", "image_id": 18917, "question": "món thịt và mì ống với rau phục vụ ở đâu", "ground_truth": "bát", "ground_truth_normalized": "bát", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "bát", "cái nồi", "món ăn", "chén đĩa", "đĩa ăn", "lò vi sóng", "quầy tính tiền", "bữa ăn", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.58892, "confidences": [ 0.58892, 0.144321, 0.097652, 0.088567, 0.004731, 0.004703, 0.004435, 0.004224, 0.00375, 0.001648 ], "gate_score_top1": 0.880859, "gate_scores": [ 0.880859, 0.79541, 0.833984, 0.758301, 0.614258, 0.667969, 0.660156, 0.563477, 0.621094, 0.568359 ] }, { "question_id": "10118561", "image_id": 84670, "question": "có bao nhiêu người trượt tuyết nhảy ra khỏi đoạn đường dốc phủ đầy tuyết", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "năm", "bốn", "bảy", "chín", "tám", "ba", "một", "mười", "núi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.398396, "confidences": [ 0.398396, 0.266427, 0.198767, 0.058985, 0.0169, 0.005551, 0.003763, 0.003102, 0.003054, 0.002797 ], "gate_score_top1": 0.855469, "gate_scores": [ 0.855469, 0.802246, 0.762207, 0.734375, 0.688965, 0.581543, 0.480713, 0.546875, 0.552734, 0.585938 ] }, { "question_id": "10077611", "image_id": 450577, "question": "những gì đứng trong xe ngựa hạn chế nhỏ", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "con ngựa", "predicted_topk": [ "con ngựa", "con bò", "con chó", "mũ", "màu nâu", "xe", "gia súc", "bãi cỏ", "gấu", "ngựa rằn" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.974217, "confidences": [ 0.974217, 0.00672, 0.003077, 0.00079, 0.000608, 0.0005, 0.000494, 0.000492, 0.000287, 0.000269 ], "gate_score_top1": 0.905762, "gate_scores": [ 0.905762, 0.758301, 0.715332, 0.57666, 0.70752, 0.537598, 0.652344, 0.63916, 0.516113, 0.615234 ] }, { "question_id": "10077981", "image_id": 531023, "question": "những gì đang ngồi trên giá đỡ trên một nhà vệ sinh", "ground_truth": "khăn", "ground_truth_normalized": "khăn", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "khăn", "bồn tiểu", "vòi hoa sen", "bồn tắm", "tường", "phòng", "bức ảnh", "cửa", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.743419, "confidences": [ 0.743419, 0.05961, 0.040969, 0.025438, 0.017968, 0.010604, 0.008438, 0.006113, 0.004499, 0.002939 ], "gate_score_top1": 0.833984, "gate_scores": [ 0.833984, 0.748535, 0.720703, 0.675293, 0.774414, 0.583496, 0.721191, 0.576172, 0.567871, 0.540039 ] }, { "question_id": "10119191", "image_id": 73417, "question": "có bao nhiêu xúc xích đang ngồi trên lò nướng", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "tám", "ba", "hai", "bảy", "một", "mười", "chảo" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.193898, "confidences": [ 0.193898, 0.159496, 0.138573, 0.116235, 0.099421, 0.079887, 0.033432, 0.026811, 0.006519, 0.004831 ], "gate_score_top1": 0.772461, "gate_scores": [ 0.772461, 0.745605, 0.695312, 0.670898, 0.715332, 0.732422, 0.623047, 0.615234, 0.505371, 0.546875 ] }, { "question_id": "10042381", "image_id": 277653, "question": "người đàn ông đứng cạnh một chiếc máy bay ở đâu", "ground_truth": "bảo tàng", "ground_truth_normalized": "bảo tàng", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "bảo tàng", "tòa nhà", "kho", "cửa tiệm", "sân bay", "phòng", "trạm", "máy bay", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.521649, "confidences": [ 0.521649, 0.270628, 0.076334, 0.036769, 0.008993, 0.008802, 0.007829, 0.006241, 0.004861, 0.002319 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.86084, 0.782715, 0.79541, 0.726562, 0.708984, 0.707031, 0.706543, 0.54248, 0.655273 ] }, { "question_id": "10077911", "image_id": 353317, "question": "phòng bếp có nhiều khoảng thông tầng và hình dưới là phòng bếp có tủ ở giữa là gì", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "bức ảnh", "quầy tính tiền", "nhà ở", "cửa", "tủ đá", "bếp", "mũ", "tường", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.179514, "confidences": [ 0.179514, 0.113218, 0.063883, 0.053272, 0.037923, 0.029077, 0.023732, 0.015055, 0.014997, 0.014338 ], "gate_score_top1": 0.714844, "gate_scores": [ 0.714844, 0.628418, 0.626465, 0.68457, 0.615723, 0.720215, 0.634277, 0.513672, 0.594727, 0.558105 ] }, { "question_id": "10068571", "image_id": 543672, "question": "những gì được sắp xếp trên nhiều kệ khác nhau", "ground_truth": "chén đĩa", "ground_truth_normalized": "chén đĩa", "predicted_top1": "cái kệ", "predicted_topk": [ "cái kệ", "cửa", "tủ đá", "tường", "phòng bếp", "chai", "lò vi sóng", "tủ lạnh", "quầy tính tiền", "bông hoa" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.664736, "confidences": [ 0.664736, 0.048531, 0.023606, 0.017372, 0.014888, 0.013689, 0.010661, 0.01064, 0.008533, 0.008516 ], "gate_score_top1": 0.832031, "gate_scores": [ 0.832031, 0.682129, 0.755371, 0.675781, 0.647461, 0.693359, 0.541016, 0.686523, 0.637695, 0.678711 ] }, { "question_id": "10115231", "image_id": 152819, "question": "có bao nhiêu người đàn ông đang đội một chiếc mũ ô", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.677203, "confidences": [ 0.677203, 0.185137, 0.112291, 0.012022, 0.00515, 0.002651, 0.000645, 0.00046, 0.000377, 0.000238 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.875977, 0.862305, 0.771973, 0.696777, 0.54541, 0.556641, 0.552246, 0.46875, 0.453125 ] }, { "question_id": "10117131", "image_id": 549237, "question": "có bao nhiêu đứa trẻ đang cố gắng kiểm soát một quả bóng đá", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "một", "chín", "tám", "mười" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.664023, "confidences": [ 0.664023, 0.165935, 0.075086, 0.052829, 0.009361, 0.006664, 0.005439, 0.002911, 0.002767, 0.001238 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.804199, 0.77002, 0.716309, 0.67627, 0.670898, 0.632812, 0.592773, 0.586914, 0.52002 ] }, { "question_id": "10053841", "image_id": 405632, "question": "những gì đầy một số thuyền đang đỗ", "ground_truth": "bến du thuyền", "ground_truth_normalized": "bến du thuyền", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "bến du thuyền", "thuyền buồm", "ca nô", "cầu", "xe đạp", "hàng hoá", "bến tàu", "các tòa nhà", "cây sào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.579076, "confidences": [ 0.579076, 0.296921, 0.027618, 0.010752, 0.005059, 0.003594, 0.002951, 0.002719, 0.002451, 0.001858 ], "gate_score_top1": 0.791016, "gate_scores": [ 0.791016, 0.791992, 0.652344, 0.560059, 0.634766, 0.602539, 0.465088, 0.474854, 0.566895, 0.484619 ] }, { "question_id": "10103681", "image_id": 461940, "question": "có bao nhiêu máy bay chiến đấu đang bay theo đội hình khói", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bốn", "bảy", "năm", "chín", "tám", "ba", "một", "mười", "máy bay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.372628, "confidences": [ 0.372628, 0.332719, 0.173966, 0.041159, 0.039893, 0.009077, 0.004148, 0.00126, 0.001205, 0.001043 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.825684, 0.825195, 0.741211, 0.764648, 0.65918, 0.631836, 0.522949, 0.526855, 0.611328 ] }, { "question_id": "10069501", "image_id": 354174, "question": "cái gì có vẻ làm người chơi quần vợt bị chói mắt", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "vợt", "predicted_topk": [ "vợt", "quả bóng", "nón", "áo sơ mi", "mặt trời", "dĩa nhựa", "sân vận động", "mũ", "mũ lưỡi trai", "gậy" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.371228, "confidences": [ 0.371228, 0.247291, 0.089563, 0.021524, 0.011956, 0.011036, 0.008663, 0.007918, 0.007841, 0.007126 ], "gate_score_top1": 0.793945, "gate_scores": [ 0.793945, 0.794922, 0.696289, 0.687988, 0.549316, 0.625977, 0.574707, 0.620117, 0.466309, 0.601562 ] }, { "question_id": "10070171", "image_id": 512223, "question": "những gì nằm ở dưới cùng của các bước", "ground_truth": "đi văng", "ground_truth_normalized": "đi văng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "đi văng", "bức ảnh", "nhiều cái ghế", "cái ghế", "cửa sổ", "phòng bếp", "cái kệ", "chung cư" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.160444, "confidences": [ 0.160444, 0.105634, 0.095432, 0.031164, 0.029795, 0.028992, 0.026039, 0.019578, 0.013522, 0.013338 ], "gate_score_top1": 0.767578, "gate_scores": [ 0.767578, 0.749023, 0.614746, 0.500488, 0.592773, 0.669922, 0.61084, 0.56543, 0.56543, 0.55127 ] }, { "question_id": "10061481", "image_id": 403820, "question": "cái nhìn nhìn lên mặt dưới của một chiếc máy bay", "ground_truth": "bầu trời", "ground_truth_normalized": "bầu trời", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "bầu trời", "hải âu", "núi", "diều", "ga-ra", "sân bay", "bảo tàng", "động cơ", "bến tàu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.843458, "confidences": [ 0.843458, 0.036771, 0.005991, 0.005205, 0.004038, 0.003937, 0.003684, 0.003078, 0.003054, 0.00179 ], "gate_score_top1": 0.852051, "gate_scores": [ 0.852051, 0.656738, 0.539062, 0.521973, 0.689941, 0.500488, 0.601562, 0.558105, 0.560547, 0.391113 ] }, { "question_id": "10050381", "image_id": 221156, "question": "người đàn ông tạo dáng ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "gương", "nhà ở", "ô cửa", "hành lang", "phòng ngủ", "phòng tắm", "cửa", "áo vest", "văn phòng" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.412922, "confidences": [ 0.412922, 0.077283, 0.068737, 0.066104, 0.049124, 0.034563, 0.022979, 0.018356, 0.014352, 0.013093 ], "gate_score_top1": 0.792969, "gate_scores": [ 0.792969, 0.812012, 0.767578, 0.693848, 0.697266, 0.807617, 0.640137, 0.691406, 0.585938, 0.627441 ] }, { "question_id": "10047971", "image_id": 137826, "question": "xe buýt du lịch đang ở đâu", "ground_truth": "đường", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "xe buýt", "áo vest", "ảnh chụp", "xe ô tô", "cửa sổ", "vạch kẻ đường", "xe đẩy", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.56741, "confidences": [ 0.56741, 0.360668, 0.008302, 0.004307, 0.003139, 0.002897, 0.002587, 0.002522, 0.002091, 0.001842 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.867188, 0.682129, 0.623535, 0.5625, 0.629395, 0.658203, 0.634766, 0.638184, 0.676758 ] }, { "question_id": "10109231", "image_id": 97871, "question": "có bao nhiêu đèn đỏ trên một cột", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.513903, "confidences": [ 0.513903, 0.345018, 0.092138, 0.033763, 0.006833, 0.002298, 0.001187, 0.000674, 0.000427, 0.000338 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.885742, 0.845703, 0.800293, 0.753418, 0.53418, 0.576172, 0.544922, 0.470215, 0.478516 ] }, { "question_id": "10053831", "image_id": 570810, "question": "những gì đang đến xung quanh nơi nhận hành lý", "ground_truth": "túi", "ground_truth_normalized": "túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "túi", "hành lý", "balo", "sân bay", "cái túi", "trạm", "xe đẩy", "cái ví", "sàn nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.429373, "confidences": [ 0.429373, 0.14104, 0.130441, 0.067937, 0.026141, 0.02509, 0.018321, 0.016649, 0.009105, 0.00404 ], "gate_score_top1": 0.812988, "gate_scores": [ 0.812988, 0.800781, 0.796875, 0.730469, 0.722656, 0.76416, 0.675781, 0.681641, 0.693848, 0.549316 ] }, { "question_id": "10075071", "image_id": 555677, "question": "cái gì đang treo phía trên nhà vệ sinh", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "con mèo", "predicted_topk": [ "con mèo", "khăn", "phòng tắm", "bức ảnh", "chậu", "bồn tắm", "con chim", "cửa", "bồn tiểu", "con chó" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.307543, "confidences": [ 0.307543, 0.042112, 0.033772, 0.033706, 0.025048, 0.021677, 0.021383, 0.020364, 0.017797, 0.017048 ], "gate_score_top1": 0.768066, "gate_scores": [ 0.768066, 0.591797, 0.637695, 0.522461, 0.620117, 0.696777, 0.620605, 0.523926, 0.610352, 0.562988 ] }, { "question_id": "10085701", "image_id": 521879, "question": "những người mặc những gì đứng trên con đường như một cỗ xe ngựa trong một cuộc diễu hành trôi qua", "ground_truth": "đầm", "ground_truth_normalized": "đầm", "predicted_top1": "con ngựa", "predicted_topk": [ "con ngựa", "xe", "xe đẩy", "mũ", "toa xe", "chiếc ô", "bức ảnh", "xe ô tô", "xe tải", "áo vest" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.240486, "confidences": [ 0.240486, 0.209755, 0.171867, 0.054292, 0.008399, 0.00767, 0.006612, 0.006224, 0.005974, 0.004885 ], "gate_score_top1": 0.802246, "gate_scores": [ 0.802246, 0.737793, 0.751953, 0.68457, 0.54834, 0.617676, 0.462158, 0.57959, 0.598145, 0.538086 ] }, { "question_id": "10068861", "image_id": 345941, "question": "cái gì phủ trên kem và dâu tây nằm trên đĩa", "ground_truth": "món tráng miệng", "ground_truth_normalized": "món tráng miệng", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bánh", "món tráng miệng", "sô cô la", "bữa ăn", "cái nĩa", "quán ăn", "màu trắng", "dao", "cupcake" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.153764, "confidences": [ 0.153764, 0.096599, 0.077772, 0.053036, 0.038802, 0.0382, 0.030695, 0.028277, 0.021512, 0.019096 ], "gate_score_top1": 0.754883, "gate_scores": [ 0.754883, 0.71875, 0.697754, 0.666016, 0.65918, 0.605469, 0.62207, 0.643066, 0.651855, 0.61084 ] }, { "question_id": "10003541", "image_id": 566016, "question": "màu của con mèo là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu đen", "màu nâu", "màu trắng", "màu đỏ", "màu cam", "màu xanh dương", "màu xanh lá", "màu vàng", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.934922, "confidences": [ 0.934922, 0.053995, 0.002006, 0.001143, 0.001082, 0.000944, 0.000619, 0.00032, 0.00031, 0.000243 ], "gate_score_top1": 0.908203, "gate_scores": [ 0.908203, 0.831543, 0.717773, 0.751465, 0.694824, 0.703125, 0.665039, 0.457275, 0.63623, 0.618652 ] }, { "question_id": "10094751", "image_id": 514248, "question": "những gì đang ngồi trên vỉa hè bên cạnh một trụ cứu hỏa", "ground_truth": "con ngựa", "ground_truth_normalized": "con ngựa", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vẹt", "con vịt", "chim bồ câu", "cửa sổ", "con chó", "bức tượng", "màu xám", "con ngựa" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.982748, "confidences": [ 0.982748, 0.001548, 0.001521, 0.001135, 0.000633, 0.000351, 0.000292, 0.000288, 0.00027, 0.000241 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.655273, 0.73584, 0.671387, 0.503906, 0.623535, 0.590332, 0.502441, 0.555664, 0.516602 ] }, { "question_id": "10067431", "image_id": 368648, "question": "lề đường là gì", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe buýt", "xe ô tô", "xe điện", "xe điện ngầm", "trạm", "xe đẩy", "xe cộ", "phương tiện giao thông", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.363907, "confidences": [ 0.363907, 0.349965, 0.098712, 0.054942, 0.016464, 0.012069, 0.011032, 0.003911, 0.003533, 0.003261 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.836426, 0.794434, 0.729004, 0.680664, 0.68457, 0.678223, 0.597168, 0.61377, 0.547852 ] }, { "question_id": "10113501", "image_id": 199956, "question": "ridgewood và charles ave , biển báo dừng bao nhiêu đường", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "một", "năm", "hai", "bảy", "sáu", "mười", "chín", "tám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.307499, "confidences": [ 0.307499, 0.298038, 0.208879, 0.084395, 0.053019, 0.011027, 0.01004, 0.004041, 0.002956, 0.002307 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.819824, 0.800293, 0.82373, 0.745117, 0.657715, 0.622559, 0.575195, 0.583008, 0.54834 ] }, { "question_id": "10003671", "image_id": 426470, "question": "màu sắc của biển là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh dương", "màu nâu", "màu cam", "màu đỏ", "màu đen", "màu trắng", "màu xanh lá", "màu xám", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.765094, "confidences": [ 0.765094, 0.150656, 0.036206, 0.012033, 0.011572, 0.006991, 0.003656, 0.003407, 0.002454, 0.001919 ], "gate_score_top1": 0.909668, "gate_scores": [ 0.909668, 0.853516, 0.804688, 0.822266, 0.794434, 0.711914, 0.761719, 0.69043, 0.666504, 0.707031 ] }, { "question_id": "10070611", "image_id": 436551, "question": "con ngỗng với hóa đơn feb ăn gì", "ground_truth": "bãi cỏ", "ground_truth_normalized": "bãi cỏ", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "bãi cỏ", "con vịt", "hồ", "hải âu", "ngựa vằn", "đồi", "con ngựa", "hồ bơi", "rào chắn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.227421, "confidences": [ 0.227421, 0.204656, 0.182738, 0.013711, 0.011028, 0.006728, 0.005721, 0.005204, 0.004706, 0.004417 ], "gate_score_top1": 0.710449, "gate_scores": [ 0.710449, 0.702637, 0.716797, 0.358398, 0.541016, 0.512695, 0.52002, 0.548828, 0.553711, 0.431885 ] }, { "question_id": "10059671", "image_id": 348475, "question": "cái gì mà một chiếc xe mười tám bánh lăn trên đường cao tốc", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "xe cộ", "predicted_topk": [ "xe cộ", "xe tải", "đường", "phương tiện giao thông", "xe buýt", "xe ô tô", "cây", "động cơ", "bầu trời", "núi" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.146629, "confidences": [ 0.146629, 0.115091, 0.108541, 0.093203, 0.047233, 0.032974, 0.022224, 0.017684, 0.013962, 0.009757 ], "gate_score_top1": 0.74707, "gate_scores": [ 0.74707, 0.756836, 0.718262, 0.699219, 0.689941, 0.662109, 0.536621, 0.529785, 0.467529, 0.537109 ] }, { "question_id": "10019881", "image_id": 441751, "question": "màu của chiếc nắp là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu trắng", "màu xám", "màu vàng", "màu xanh dương", "màu cam", "màu đen", "màu nâu", "màu đỏ", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.720883, "confidences": [ 0.720883, 0.189529, 0.034114, 0.014672, 0.013569, 0.005191, 0.003918, 0.002981, 0.002751, 0.00225 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.868164, 0.79834, 0.767578, 0.769531, 0.762695, 0.722656, 0.715332, 0.70752, 0.682129 ] }, { "question_id": "10050281", "image_id": 402004, "question": "gấu bông hồng đang ngồi ở đâu", "ground_truth": "máy sấy khô", "ground_truth_normalized": "máy sấy khô", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "máy sấy khô", "gương", "phòng tắm", "tách", "phòng bếp", "người giữ", "quầy tính tiền", "máy xay", "bồn tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.55941, "confidences": [ 0.55941, 0.080591, 0.036539, 0.033859, 0.023362, 0.018481, 0.008185, 0.007042, 0.006456, 0.005522 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.663086, 0.734375, 0.713867, 0.626953, 0.61377, 0.438232, 0.58252, 0.654785, 0.614746 ] }, { "question_id": "10086321", "image_id": 513497, "question": "những gì được nhìn thấy ở phía bên của một nhà thờ", "ground_truth": "đồng hồ", "ground_truth_normalized": "đồng hồ", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "tòa nhà", "các tòa nhà", "bức ảnh", "cây", "bức tượng", "cầu", "cờ", "lá cờ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.40694, "confidences": [ 0.40694, 0.389824, 0.084635, 0.012954, 0.009026, 0.006526, 0.005816, 0.004784, 0.004382, 0.003493 ], "gate_score_top1": 0.805176, "gate_scores": [ 0.805176, 0.807617, 0.776367, 0.64209, 0.657227, 0.623047, 0.628906, 0.60498, 0.619629, 0.634766 ] }, { "question_id": "10090041", "image_id": 334642, "question": "những gì được hình dung trong bóng tối", "ground_truth": "dấu hiệu", "ground_truth_normalized": "dấu hiệu", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "tòa nhà", "xe ô tô", "bức ảnh", "lá cờ", "mũ", "nón", "rào chắn", "tường", "áo vest" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.079224, "confidences": [ 0.079224, 0.038012, 0.024905, 0.021828, 0.021511, 0.018928, 0.016851, 0.016048, 0.014655, 0.013929 ], "gate_score_top1": 0.629395, "gate_scores": [ 0.629395, 0.727539, 0.601562, 0.488281, 0.583008, 0.496094, 0.55127, 0.463379, 0.552246, 0.577637 ] }, { "question_id": "10066221", "image_id": 464339, "question": "những gì trong phòng khách", "ground_truth": "lò sưởi", "ground_truth_normalized": "lò sưởi", "predicted_top1": "cây", "predicted_topk": [ "cây", "bức ảnh", "đồng hồ", "cái kệ", "tường", "lò sưởi", "nhiều cái ghế", "đi văng", "phòng", "cửa sổ" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.187754, "confidences": [ 0.187754, 0.047564, 0.04701, 0.046553, 0.037627, 0.030951, 0.020942, 0.020861, 0.017913, 0.01716 ], "gate_score_top1": 0.709961, "gate_scores": [ 0.709961, 0.621094, 0.714844, 0.665527, 0.631348, 0.576172, 0.595215, 0.57373, 0.678223, 0.57373 ] }, { "question_id": "10028361", "image_id": 1237, "question": "một người phụ nữ lớn tuổi tạo dáng ở đâu với một con gấu nhồi bông lớn", "ground_truth": "xe lăn", "ground_truth_normalized": "xe lăn", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "xe lăn", "phòng", "cửa hàng", "cái rổ", "giường", "gian hàng", "toa xe", "hành lý", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.535326, "confidences": [ 0.535326, 0.140195, 0.027714, 0.023111, 0.014266, 0.014017, 0.01054, 0.009786, 0.008305, 0.007401 ], "gate_score_top1": 0.818848, "gate_scores": [ 0.818848, 0.72168, 0.696289, 0.732422, 0.714844, 0.618164, 0.598145, 0.623535, 0.55957, 0.58252 ] }, { "question_id": "10087991", "image_id": 492805, "question": "chuyến tàu kéo khoang vận chuyển gì", "ground_truth": "hàng hoá", "ground_truth_normalized": "hàng hoá", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "đường sắt", "xe ô tô", "hàng hoá", "động cơ", "các tòa nhà", "cầu", "trạm", "xe điện ngầm", "cây" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.177944, "confidences": [ 0.177944, 0.176559, 0.134845, 0.134845, 0.097505, 0.022229, 0.017757, 0.010855, 0.00862, 0.008503 ], "gate_score_top1": 0.791016, "gate_scores": [ 0.791016, 0.703125, 0.742188, 0.664062, 0.6875, 0.65625, 0.662598, 0.610352, 0.580566, 0.589355 ] }, { "question_id": "10083301", "image_id": 335119, "question": "cái gì có mái che xe buýt trong một hàng rào trong bãi đậu xe", "ground_truth": "vẽ tranh lên tường", "ground_truth_normalized": "vẽ tranh lên tường", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "đường", "xe buýt", "đường phố", "xe cộ", "phương tiện giao thông", "xe tải", "đường đi bộ", "vẽ tranh lên tường", "cây" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.381239, "confidences": [ 0.381239, 0.090907, 0.072336, 0.024277, 0.019814, 0.016718, 0.015162, 0.013779, 0.011512, 0.007974 ], "gate_score_top1": 0.781738, "gate_scores": [ 0.781738, 0.662109, 0.688965, 0.554688, 0.628906, 0.696777, 0.598633, 0.452637, 0.446533, 0.60791 ] }, { "question_id": "10035721", "image_id": 286033, "question": "hai người đàn ông trong khi một người chơi một trò chơi wii mote ở đâu", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "phòng", "thư viện", "lớp học", "cái bàn", "cửa tiệm", "tòa nhà", "chung cư", "máy tính", "nhà ở" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.683202, "confidences": [ 0.683202, 0.082237, 0.062562, 0.031705, 0.013399, 0.010354, 0.007575, 0.00574, 0.003914, 0.003606 ], "gate_score_top1": 0.880859, "gate_scores": [ 0.880859, 0.765625, 0.754883, 0.771484, 0.67627, 0.761719, 0.676758, 0.68457, 0.709473, 0.696289 ] }, { "question_id": "10117111", "image_id": 30387, "question": "có bao nhiêu người đàn ông đang mỉm cười khi họ bày thức ăn mà họ đã chuẩn bị trên bàn", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "tám", "bảy", "mười", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.946804, "confidences": [ 0.946804, 0.039695, 0.009919, 0.001175, 0.000114, 6.4e-05, 5.8e-05, 5e-05, 4.1e-05, 3.5e-05 ], "gate_score_top1": 0.908203, "gate_scores": [ 0.908203, 0.848145, 0.810547, 0.728516, 0.387451, 0.543945, 0.440674, 0.393799, 0.414795, 0.528809 ] }, { "question_id": "10008501", "image_id": 431008, "question": "màu của thùng là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đỏ", "màu vàng", "màu xanh lá", "màu đen", "màu nâu", "màu xám", "màu trắng", "màu tía", "màu xanh dương" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.67111, "confidences": [ 0.67111, 0.228334, 0.023601, 0.016605, 0.013034, 0.012485, 0.011729, 0.008448, 0.002995, 0.001454 ], "gate_score_top1": 0.905273, "gate_scores": [ 0.905273, 0.871582, 0.763672, 0.712891, 0.773438, 0.727539, 0.763184, 0.76416, 0.660156, 0.665527 ] }, { "question_id": "10080891", "image_id": 355756, "question": "những gì được hiển thị trên vỉa hè", "ground_truth": "vòi", "ground_truth_normalized": "vòi", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa sổ", "vòi", "xe ô tô", "tường", "cửa tiệm", "tòa nhà", "vẽ tranh lên tường", "bức ảnh", "ảnh chụp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.206341, "confidences": [ 0.206341, 0.132187, 0.100956, 0.071729, 0.026285, 0.019305, 0.017995, 0.016289, 0.014687, 0.01084 ], "gate_score_top1": 0.751953, "gate_scores": [ 0.751953, 0.733398, 0.718262, 0.700684, 0.562988, 0.678223, 0.746094, 0.48999, 0.467773, 0.508789 ] }, { "question_id": "10082131", "image_id": 385540, "question": "người phụ nữ trẻ cưỡi ngựa giữ những gì", "ground_truth": "lá cờ", "ground_truth_normalized": "lá cờ", "predicted_top1": "mũ", "predicted_topk": [ "mũ", "lá cờ", "nón", "con ngựa", "diều", "áo sơ mi", "ván trượt", "bức tượng", "dĩa nhựa", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.331263, "confidences": [ 0.331263, 0.167222, 0.037605, 0.024518, 0.020971, 0.016237, 0.014698, 0.014301, 0.013461, 0.012425 ], "gate_score_top1": 0.733887, "gate_scores": [ 0.733887, 0.703613, 0.661133, 0.618164, 0.671875, 0.57959, 0.599609, 0.59082, 0.618652, 0.689453 ] }, { "question_id": "10069771", "image_id": 389381, "question": "những gì đang giữ một loạt các loại rau và trái cây", "ground_truth": "chén đĩa", "ground_truth_normalized": "chén đĩa", "predicted_top1": "thùng chứa", "predicted_topk": [ "thùng chứa", "chén đĩa", "cái mâm", "rau", "món ăn", "hộp", "hoa quả", "dĩa", "vali", "đĩa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.322194, "confidences": [ 0.322194, 0.182152, 0.059136, 0.044988, 0.038331, 0.031102, 0.03086, 0.016041, 0.01109, 0.010459 ], "gate_score_top1": 0.819336, "gate_scores": [ 0.819336, 0.723145, 0.744141, 0.752441, 0.763672, 0.737305, 0.762207, 0.63623, 0.597656, 0.672363 ] }, { "question_id": "10067531", "image_id": 509588, "question": "điều gì tạo ra một sự tiếp giáp bất thường với các sọc ngựa vằn", "ground_truth": "rào chắn", "ground_truth_normalized": "rào chắn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "chuồng", "rào chắn", "lồng", "bãi cỏ", "hươu cao cổ", "vườn bách thú", "con ngựa", "tàu hỏa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.568959, "confidences": [ 0.568959, 0.088627, 0.070659, 0.04991, 0.027455, 0.026045, 0.019242, 0.012327, 0.00334, 0.003216 ], "gate_score_top1": 0.811523, "gate_scores": [ 0.811523, 0.805664, 0.685547, 0.618652, 0.76123, 0.688477, 0.665527, 0.726562, 0.596191, 0.536133 ] }, { "question_id": "10105801", "image_id": 233075, "question": "có bao nhiêu con dao rất sắc được gắn trên tường", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bảy", "bốn", "tám", "chín", "mười", "ba", "một", "đĩa ăn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.374868, "confidences": [ 0.374868, 0.339991, 0.170291, 0.058393, 0.011364, 0.005954, 0.002269, 0.000902, 0.000771, 0.000651 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.831055, 0.800293, 0.709961, 0.660645, 0.661133, 0.58252, 0.457764, 0.484131, 0.583008 ] }, { "question_id": "10096411", "image_id": 502671, "question": "một quý ông lớn tuổi cũ kiểm tra những gì", "ground_truth": "chai", "ground_truth_normalized": "chai", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "chai", "quán bar", "kính đeo", "nước", "nến", "mũ", "cái kệ", "đồng hồ", "bức tượng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.302105, "confidences": [ 0.302105, 0.26145, 0.070094, 0.058223, 0.018357, 0.015824, 0.008306, 0.007022, 0.00627, 0.005577 ], "gate_score_top1": 0.808105, "gate_scores": [ 0.808105, 0.789062, 0.714355, 0.680664, 0.661621, 0.662109, 0.660156, 0.618652, 0.671387, 0.57959 ] }, { "question_id": "10028061", "image_id": 95241, "question": "người đàn ông đang phục vụ pizza ở đâu", "ground_truth": "gian hàng", "ground_truth_normalized": "gian hàng", "predicted_top1": "quán ăn", "predicted_topk": [ "quán ăn", "cái ghế", "gian hàng", "quán bar", "phòng", "cửa tiệm", "đồ uống", "cái rổ", "nhà ở", "rượu" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.849717, "confidences": [ 0.849717, 0.022293, 0.020378, 0.015382, 0.011702, 0.003452, 0.002297, 0.001965, 0.001763, 0.001628 ], "gate_score_top1": 0.85498, "gate_scores": [ 0.85498, 0.765625, 0.670898, 0.628418, 0.705566, 0.616699, 0.411865, 0.602539, 0.617676, 0.480713 ] }, { "question_id": "10032631", "image_id": 269366, "question": "những tấm lướt ván nghệ thuật được trưng bày ở đâu", "ground_truth": "cái lều", "ground_truth_normalized": "cái lều", "predicted_top1": "bảo tàng", "predicted_topk": [ "bảo tàng", "cửa hàng", "tòa nhà", "cửa tiệm", "cái lều", "phòng", "hộp", "vườn bách thú", "ván lướt sóng", "ga-ra" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.080847, "confidences": [ 0.080847, 0.071907, 0.055025, 0.047435, 0.038115, 0.033244, 0.022102, 0.019259, 0.016554, 0.014509 ], "gate_score_top1": 0.759766, "gate_scores": [ 0.759766, 0.765625, 0.719238, 0.71582, 0.573242, 0.692383, 0.655762, 0.639648, 0.60498, 0.67627 ] }, { "question_id": "10105761", "image_id": 551575, "question": "có bao nhiêu người đàn ông châu á cầm ván lướt sóng trên bãi biển", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "ba", "mười", "ván lướt sóng", "bảng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.520732, "confidences": [ 0.520732, 0.237479, 0.161947, 0.037137, 0.005785, 0.00535, 0.00447, 0.001934, 0.000587, 0.000534 ], "gate_score_top1": 0.839844, "gate_scores": [ 0.839844, 0.818359, 0.795898, 0.758301, 0.671387, 0.621094, 0.57373, 0.553711, 0.525879, 0.468506 ] }, { "question_id": "10110461", "image_id": 322735, "question": "có bao nhiêu vòi chữa cháy đỏ trên con đường đất", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "năm", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.628677, "confidences": [ 0.628677, 0.18439, 0.100251, 0.055581, 0.008557, 0.005767, 0.003964, 0.001718, 0.000846, 0.000826 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.840332, 0.820312, 0.773926, 0.749023, 0.597656, 0.623535, 0.572266, 0.519531, 0.499512 ] }, { "question_id": "10085971", "image_id": 393768, "question": "những gì đứng đầu với đồng hồ vàng đằng sau một tấm kính", "ground_truth": "cái kệ", "ground_truth_normalized": "cái kệ", "predicted_top1": "đồng hồ", "predicted_topk": [ "đồng hồ", "tòa tháp", "bức tượng", "cái kệ", "cái ghế", "cửa", "cửa sổ", "tòa nhà", "tường", "hộp" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.410922, "confidences": [ 0.410922, 0.075274, 0.036614, 0.024106, 0.02269, 0.022208, 0.022208, 0.01937, 0.01387, 0.012385 ], "gate_score_top1": 0.811523, "gate_scores": [ 0.811523, 0.708496, 0.625, 0.636719, 0.62207, 0.615234, 0.697266, 0.597656, 0.594727, 0.681152 ] }, { "question_id": "10038741", "image_id": 441969, "question": "các tòa nhà gạch cũ được phản chiếu ở đâu", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "cửa", "nhà ở", "lọ cắm hoa", "cây", "sân vườn", "cái nồi", "phòng", "tường", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.578022, "confidences": [ 0.578022, 0.074353, 0.040742, 0.037096, 0.028111, 0.025397, 0.021096, 0.015585, 0.012646, 0.012209 ], "gate_score_top1": 0.842773, "gate_scores": [ 0.842773, 0.748047, 0.71875, 0.686035, 0.694824, 0.653809, 0.585938, 0.716309, 0.575684, 0.718262 ] }, { "question_id": "10085941", "image_id": 530383, "question": "người đàn ông mặc gì trong khi giữ điện thoại của mình", "ground_truth": "mặt nạ", "ground_truth_normalized": "mặt nạ", "predicted_top1": "điện thoại", "predicted_topk": [ "điện thoại", "nón", "máy ảnh", "bàn chải", "thiết bị", "cà vạt", "thuốc lá", "chuối", "mặt nạ", "áo sơ mi" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.711543, "confidences": [ 0.711543, 0.039675, 0.022606, 0.018741, 0.013083, 0.009332, 0.007411, 0.004408, 0.003826, 0.003723 ], "gate_score_top1": 0.837402, "gate_scores": [ 0.837402, 0.746582, 0.747559, 0.660645, 0.568359, 0.70166, 0.532227, 0.515625, 0.436279, 0.539062 ] }, { "question_id": "10000451", "image_id": 579798, "question": "màu của áo là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu đỏ", "màu cam", "màu nâu", "màu đen", "màu trắng", "màu vàng", "màu tía", "màu xanh lá", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.697906, "confidences": [ 0.697906, 0.214519, 0.047493, 0.010515, 0.009955, 0.004684, 0.00118, 0.000653, 0.000614, 0.000255 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.851562, 0.81543, 0.725098, 0.758789, 0.804199, 0.658691, 0.557617, 0.503906, 0.497559 ] }, { "question_id": "10037831", "image_id": 517603, "question": "con ngựa kéo bốn người ở đâu", "ground_truth": "đường", "ground_truth_normalized": "đường", "predicted_top1": "xe đẩy", "predicted_topk": [ "xe đẩy", "đường", "đường phố", "xe ô tô", "xe tải", "xe lăn", "xe", "xe tay ga", "toa xe", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.289619, "confidences": [ 0.289619, 0.184814, 0.17294, 0.039349, 0.039196, 0.024672, 0.02131, 0.016597, 0.016117, 0.012825 ], "gate_score_top1": 0.830078, "gate_scores": [ 0.830078, 0.819336, 0.80957, 0.736816, 0.718262, 0.741211, 0.689941, 0.648926, 0.650879, 0.60498 ] }, { "question_id": "10002521", "image_id": 214478, "question": "màu của chăn là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu vàng", "màu nâu", "màu trắng", "màu xanh lá", "màu cam", "màu đỏ", "màu xám", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.879725, "confidences": [ 0.879725, 0.07657, 0.013621, 0.006335, 0.004972, 0.00458, 0.003391, 0.002703, 0.001829, 0.000704 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.830566, 0.785645, 0.713867, 0.751953, 0.68457, 0.75, 0.765625, 0.710449, 0.640137 ] }, { "question_id": "10046531", "image_id": 291348, "question": "mẹ con ngựa vằn đang ăn ở đâu", "ground_truth": "lồng", "ground_truth_normalized": "lồng", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "lồng", "vườn bách thú", "rào chắn", "chuồng trại", "tòa nhà", "cửa tiệm", "bảo tàng", "bãi cỏ", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.498299, "confidences": [ 0.498299, 0.35473, 0.105268, 0.005835, 0.003045, 0.001672, 0.001186, 0.00112, 0.001086, 0.000681 ], "gate_score_top1": 0.874023, "gate_scores": [ 0.874023, 0.889648, 0.856934, 0.668945, 0.694824, 0.661133, 0.651855, 0.603027, 0.509277, 0.559082 ] }, { "question_id": "10081481", "image_id": 502671, "question": "có một người đàn ông mang cái gì và cầm một cái chai than vãn", "ground_truth": "kính đeo", "ground_truth_normalized": "kính đeo", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "chai", "quán bar", "kính đeo", "nước", "nến", "mũ", "cái kệ", "đồng hồ", "bức tượng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.31466, "confidences": [ 0.31466, 0.268093, 0.067257, 0.063182, 0.015125, 0.011551, 0.006837, 0.006123, 0.005027, 0.004896 ], "gate_score_top1": 0.808105, "gate_scores": [ 0.808105, 0.788086, 0.700195, 0.684082, 0.651855, 0.640137, 0.647949, 0.602539, 0.655273, 0.565918 ] }, { "question_id": "10068661", "image_id": 364919, "question": "những gì chứa đầy xe buýt màu xanh và trắng", "ground_truth": "cầu", "ground_truth_normalized": "cầu", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe buýt", "cầu", "xe ô tô", "đường", "xe điện", "xe điện ngầm", "đường phố", "tàu hỏa", "áo vest" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.266094, "confidences": [ 0.266094, 0.106259, 0.059606, 0.041127, 0.029739, 0.025787, 0.025042, 0.018646, 0.015763, 0.01475 ], "gate_score_top1": 0.76709, "gate_scores": [ 0.76709, 0.734863, 0.679688, 0.668945, 0.604492, 0.620605, 0.674805, 0.612793, 0.563477, 0.611328 ] }, { "question_id": "10080001", "image_id": 418471, "question": "những gì được bao phủ bởi pizza pepperoni và một thức uống", "ground_truth": "cái bàn", "ground_truth_normalized": "cái bàn", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "quán ăn", "cái mâm", "pizza", "cửa tiệm", "tạp dề", "donut", "bữa ăn", "bánh ngọt", "đồ uống" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.528624, "confidences": [ 0.528624, 0.05931, 0.031561, 0.023363, 0.019068, 0.018846, 0.008946, 0.00842, 0.008355, 0.008241 ], "gate_score_top1": 0.790527, "gate_scores": [ 0.790527, 0.736816, 0.756836, 0.658203, 0.644043, 0.706055, 0.547852, 0.591309, 0.548828, 0.569336 ] }, { "question_id": "10102821", "image_id": 432410, "question": "có bao nhiêu người trên bãi biển đang cưỡi ngựa", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "chín", "tám", "mười", "một", "hai" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.432712, "confidences": [ 0.432712, 0.27938, 0.224488, 0.03679, 0.005038, 0.004677, 0.003395, 0.001064, 0.000384, 0.000356 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.842773, 0.82959, 0.769043, 0.62793, 0.67627, 0.63916, 0.550293, 0.507324, 0.470947 ] }, { "question_id": "10113661", "image_id": 382287, "question": "có bao nhiêu giường trong một giường tầng nhỏ trên một chuyến tàu", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.686132, "confidences": [ 0.686132, 0.19505, 0.090001, 0.016011, 0.003356, 0.001665, 0.000726, 0.000424, 0.000266, 0.000255 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.855957, 0.838867, 0.718262, 0.661621, 0.449463, 0.520996, 0.48877, 0.410156, 0.421387 ] }, { "question_id": "10087301", "image_id": 434915, "question": "những gì dành riêng cho vải trắng với vali ra phía trước", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "vali", "predicted_topk": [ "vali", "tường", "túi", "hành lý", "phòng", "cái kệ", "cửa", "hộp", "cái túi", "sàn nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.272972, "confidences": [ 0.272972, 0.047995, 0.039019, 0.035458, 0.032793, 0.032034, 0.031723, 0.031476, 0.0274, 0.017725 ], "gate_score_top1": 0.684082, "gate_scores": [ 0.684082, 0.674316, 0.689941, 0.657227, 0.723633, 0.683594, 0.683105, 0.731445, 0.71875, 0.539551 ] }, { "question_id": "10078901", "image_id": 418533, "question": "cái gì đang đỗ tại ga tàu", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "xe điện ngầm", "hàng hoá", "đường sắt", "các tòa nhà", "xe điện", "trạm", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.773964, "confidences": [ 0.773964, 0.137147, 0.020465, 0.009011, 0.005174, 0.004918, 0.004478, 0.003929, 0.002208, 0.001693 ], "gate_score_top1": 0.904785, "gate_scores": [ 0.904785, 0.793457, 0.71875, 0.675293, 0.593262, 0.57959, 0.681152, 0.676758, 0.592773, 0.549316 ] }, { "question_id": "10101061", "image_id": 505933, "question": "những gì đang đứng đằng sau cây cầu", "ground_truth": "các tòa nhà", "ground_truth_normalized": "các tòa nhà", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "các tòa nhà", "trạm", "xe điện ngầm", "xe điện", "cầu", "động cơ", "đường sắt", "hàng hoá" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.772058, "confidences": [ 0.772058, 0.05571, 0.030407, 0.022246, 0.021394, 0.012825, 0.01243, 0.007703, 0.007525, 0.003199 ], "gate_score_top1": 0.866699, "gate_scores": [ 0.866699, 0.801758, 0.744629, 0.744141, 0.726074, 0.741699, 0.733887, 0.699707, 0.686035, 0.59082 ] }, { "question_id": "10114771", "image_id": 246084, "question": "có bao nhiêu người đàn ông đang làm khuôn mặt buồn cười trong khi một người đàn ông khác cười", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "mười", "tám", "cái ghế", "năm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.506544, "confidences": [ 0.506544, 0.479586, 0.007722, 0.001112, 0.00024, 0.000122, 0.0001, 9.6e-05, 8.6e-05, 7.7e-05 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.892578, 0.76123, 0.651367, 0.394287, 0.432129, 0.43042, 0.422852, 0.568359, 0.540039 ] }, { "question_id": "10105441", "image_id": 294431, "question": "có bao nhiêu biển báo đường và biển báo trên cột", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "một", "hai", "bốn", "năm", "bảy", "sáu", "mười", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.384126, "confidences": [ 0.384126, 0.283237, 0.159503, 0.140212, 0.009999, 0.004542, 0.004403, 0.001475, 0.001466, 0.00112 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.831055, 0.843262, 0.822266, 0.717773, 0.604492, 0.58252, 0.482666, 0.546875, 0.519043 ] }, { "question_id": "10016381", "image_id": 204919, "question": "màu tóc là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu đen", "màu đỏ", "màu xanh dương", "màu trắng", "màu xám", "màu xanh lá", "màu cam", "màu vàng", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.370975, "confidences": [ 0.370975, 0.262035, 0.102214, 0.086073, 0.063964, 0.054498, 0.018615, 0.011558, 0.011513, 0.002934 ], "gate_score_top1": 0.838379, "gate_scores": [ 0.838379, 0.827637, 0.843262, 0.810547, 0.851074, 0.828613, 0.717773, 0.790039, 0.763184, 0.713867 ] }, { "question_id": "10022411", "image_id": 38241, "question": "màu của xe là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu vàng", "màu tía", "màu đỏ", "màu xanh lá", "màu xám", "màu đen", "màu nâu", "màu trắng", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.580767, "confidences": [ 0.580767, 0.392966, 0.004813, 0.003144, 0.002373, 0.002373, 0.002225, 0.001434, 0.001157, 0.000856 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.875977, 0.728027, 0.73584, 0.702148, 0.64209, 0.590332, 0.648438, 0.691406, 0.704102 ] }, { "question_id": "10106771", "image_id": 160968, "question": "có bao nhiêu cảnh sát đang cưỡi ngựa xuyên qua một đám đông", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.707228, "confidences": [ 0.707228, 0.177424, 0.084466, 0.018196, 0.003611, 0.003446, 0.000591, 0.000566, 0.000315, 0.000305 ], "gate_score_top1": 0.894531, "gate_scores": [ 0.894531, 0.876953, 0.827637, 0.757812, 0.675781, 0.571289, 0.539551, 0.529297, 0.481689, 0.439453 ] }, { "question_id": "10113961", "image_id": 31923, "question": "có bao nhiêu người đang sử dụng ô trong một ngày mưa", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "sáu", "năm", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.573799, "confidences": [ 0.573799, 0.416534, 0.004116, 0.002238, 0.000232, 0.000221, 0.0001, 9.2e-05, 6.8e-05, 5.1e-05 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.885742, 0.788574, 0.725098, 0.434814, 0.552246, 0.442627, 0.429443, 0.371826, 0.356689 ] }, { "question_id": "10114481", "image_id": 518245, "question": "có bao nhiêu con voi đang dùng mũi đẩy khúc gỗ", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "mười", "bảy", "hươu cao cổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.820888, "confidences": [ 0.820888, 0.159136, 0.010957, 0.004015, 0.001477, 0.000263, 0.000143, 8.6e-05, 7.9e-05, 7.5e-05 ], "gate_score_top1": 0.898926, "gate_scores": [ 0.898926, 0.880859, 0.791016, 0.747559, 0.636719, 0.429199, 0.44873, 0.38916, 0.407959, 0.523438 ] }, { "question_id": "10046401", "image_id": 569887, "question": "bồn rửa trắng đang đặt ở đâu", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "nhà ở", "gương", "phòng", "bồn tắm", "ô cửa", "cửa", "tường", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.753537, "confidences": [ 0.753537, 0.071472, 0.038859, 0.026089, 0.012616, 0.011577, 0.006926, 0.006766, 0.006029, 0.005924 ], "gate_score_top1": 0.850586, "gate_scores": [ 0.850586, 0.797363, 0.802246, 0.777832, 0.775879, 0.740723, 0.629395, 0.667969, 0.628906, 0.614746 ] }, { "question_id": "10015261", "image_id": 185700, "question": "màu sắc của vật đang cầm là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu xanh lá", "màu tía", "màu vàng", "màu trắng", "màu cam", "màu nâu", "màu xám", "màu đỏ", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.468993, "confidences": [ 0.468993, 0.401151, 0.068095, 0.018983, 0.007492, 0.007347, 0.005271, 0.003093, 0.002945, 0.000813 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.85498, 0.78418, 0.753906, 0.699219, 0.768555, 0.709473, 0.691895, 0.773438, 0.603027 ] }, { "question_id": "10039521", "image_id": 490118, "question": "bông cải xanh và xúc xích ở đâu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "bát", "predicted_topk": [ "bát", "món ăn", "chảo", "cái nồi", "đĩa ăn", "chén đĩa", "thùng chứa", "bữa ăn", "thịt", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.526215, "confidences": [ 0.526215, 0.177642, 0.157382, 0.060914, 0.011535, 0.006259, 0.004679, 0.002619, 0.002544, 0.002362 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.812988, 0.861816, 0.830078, 0.727539, 0.656738, 0.662109, 0.67041, 0.564941, 0.606445 ] }, { "question_id": "10087291", "image_id": 343603, "question": "cái gì đang mở trong phòng tối", "ground_truth": "cửa ra vào", "ground_truth_normalized": "cửa ra vào", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "cái kệ", "chai", "cửa ra vào", "con chó", "lò vi sóng", "phòng bếp", "tủ đông" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.470884, "confidences": [ 0.470884, 0.266214, 0.097553, 0.04397, 0.011651, 0.005689, 0.003437, 0.002349, 0.002263, 0.002001 ], "gate_score_top1": 0.818848, "gate_scores": [ 0.818848, 0.799805, 0.774414, 0.745117, 0.660156, 0.495117, 0.593262, 0.529297, 0.467529, 0.518066 ] }, { "question_id": "10016761", "image_id": 294620, "question": "màu của xe là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu đen", "màu xanh dương", "màu cam", "màu vàng", "màu nâu", "màu trắng", "màu xanh lá", "màu đỏ", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.518302, "confidences": [ 0.518302, 0.262663, 0.144491, 0.016275, 0.011142, 0.008711, 0.008576, 0.008345, 0.005941, 0.004699 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.835938, 0.835938, 0.808105, 0.774902, 0.754395, 0.766113, 0.707031, 0.740234, 0.744141 ] }, { "question_id": "10116831", "image_id": 286482, "question": "có bao nhiêu túi du lịch đặt trên sàn nhà của nhau", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "chín", "tám", "mười", "hai", "một" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.461223, "confidences": [ 0.461223, 0.265895, 0.208703, 0.021826, 0.014147, 0.002612, 0.002006, 0.001393, 0.001148, 0.001064 ], "gate_score_top1": 0.820312, "gate_scores": [ 0.820312, 0.816406, 0.779297, 0.748535, 0.665527, 0.632324, 0.539062, 0.57959, 0.552734, 0.527344 ] }, { "question_id": "10066141", "image_id": 473121, "question": "người đó đã trượt tuyết trên tuyết bao phủ gì", "ground_truth": "ngân hàng", "ground_truth_normalized": "ngân hàng", "predicted_top1": "núi", "predicted_topk": [ "núi", "ván trượt", "trượt tuyết", "đồi", "cây", "cây sào", "áo sơ mi", "mũ", "bầu trời", "trang thiết bị" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.246202, "confidences": [ 0.246202, 0.230384, 0.127728, 0.065237, 0.033779, 0.009697, 0.008863, 0.008777, 0.008141, 0.007362 ], "gate_score_top1": 0.753906, "gate_scores": [ 0.753906, 0.788086, 0.756348, 0.745605, 0.616699, 0.614746, 0.52832, 0.616699, 0.584473, 0.555176 ] }, { "question_id": "10057641", "image_id": 395083, "question": "cánh đồng đầy gì với nhiều diều trong không khí", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "diều", "predicted_topk": [ "diều", "cây", "máy bay", "áo sơ mi", "dĩa nhựa", "bảy", "bờ biển", "núi", "lá cờ", "đồng hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.700035, "confidences": [ 0.700035, 0.022991, 0.017153, 0.013126, 0.008933, 0.00823, 0.008166, 0.007306, 0.006613, 0.006536 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.647949, 0.551758, 0.547363, 0.683594, 0.653809, 0.560547, 0.587891, 0.623535, 0.521973 ] }, { "question_id": "10062971", "image_id": 579192, "question": "người đàn ông cưỡi những gì xuống sườn đồi phủ đầy", "ground_truth": "trượt tuyết", "ground_truth_normalized": "trượt tuyết", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "dĩa nhựa", "trượt tuyết", "áo sơ mi", "diều", "bức ảnh", "những bức ảnh", "bảng", "đồi", "quả bóng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.672548, "confidences": [ 0.672548, 0.023421, 0.015786, 0.012463, 0.01208, 0.011823, 0.010475, 0.009725, 0.008583, 0.007559 ], "gate_score_top1": 0.827637, "gate_scores": [ 0.827637, 0.702148, 0.763672, 0.597656, 0.738281, 0.632324, 0.569336, 0.671387, 0.72998, 0.627441 ] }, { "question_id": "10033041", "image_id": 560726, "question": "đứa trẻ nhỏ ngủ ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "giường", "phòng", "hành lang", "gương", "cái túi", "cửa", "nhà ở", "ô cửa", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.508202, "confidences": [ 0.508202, 0.357565, 0.084598, 0.004963, 0.004895, 0.001147, 0.001116, 0.000936, 0.00092, 0.000868 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.782227, 0.811523, 0.581543, 0.797363, 0.483154, 0.535645, 0.643066, 0.50293, 0.544922 ] }, { "question_id": "10055481", "image_id": 381709, "question": "cái gì đang chiếu sáng trên máy bay ở phía xa", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "bầu trời", "núi", "hải âu", "ga-ra", "bến tàu", "con thoi", "bảo tàng", "rào chắn" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.951044, "confidences": [ 0.951044, 0.020445, 0.003963, 0.000844, 0.000831, 0.000749, 0.000455, 0.000408, 0.000395, 0.000352 ], "gate_score_top1": 0.867676, "gate_scores": [ 0.867676, 0.740234, 0.585449, 0.493164, 0.538086, 0.480225, 0.419678, 0.395996, 0.481201, 0.413086 ] }, { "question_id": "10099121", "image_id": 344928, "question": "con mèo đen trắng đặt cái gì trong cốc trên sàn lát gạch", "ground_truth": "móng vuốt", "ground_truth_normalized": "móng vuốt", "predicted_top1": "tách", "predicted_topk": [ "tách", "bát", "chậu", "nón", "máy xay", "cái lọ", "chuối", "phòng bếp", "mũ", "móng vuốt" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.18626, "confidences": [ 0.18626, 0.045201, 0.031928, 0.028397, 0.027577, 0.022159, 0.020939, 0.016775, 0.016435, 0.016355 ], "gate_score_top1": 0.740723, "gate_scores": [ 0.740723, 0.649902, 0.600586, 0.595703, 0.637695, 0.603027, 0.58252, 0.520508, 0.547363, 0.490723 ] }, { "question_id": "10099571", "image_id": 538064, "question": "những gì được thể hiện với sự phá sản của một người đàn ông", "ground_truth": "điêu khắc", "ground_truth_normalized": "điêu khắc", "predicted_top1": "bức tượng", "predicted_topk": [ "bức tượng", "gấu", "bức ảnh", "cái ghế", "mũ", "cây", "sân vườn", "vòi", "điêu khắc", "nón" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.67936, "confidences": [ 0.67936, 0.014805, 0.007779, 0.006912, 0.006745, 0.00638, 0.006118, 0.00607, 0.006011, 0.00597 ], "gate_score_top1": 0.80127, "gate_scores": [ 0.80127, 0.650879, 0.522949, 0.560547, 0.609863, 0.641602, 0.629883, 0.586914, 0.476562, 0.663574 ] }, { "question_id": "10091771", "image_id": 518197, "question": "những gì với một số người trên và ngoài tàu một tàu điện ngầm", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "xe điện ngầm", "predicted_topk": [ "xe điện ngầm", "trạm", "tàu hỏa", "xe điện", "cửa", "bộ đồ", "xe buýt", "xe ô tô", "sân bay", "đường sắt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.410504, "confidences": [ 0.410504, 0.275599, 0.083399, 0.029219, 0.015397, 0.01218, 0.008453, 0.007637, 0.00433, 0.004092 ], "gate_score_top1": 0.800293, "gate_scores": [ 0.800293, 0.802734, 0.73291, 0.709961, 0.616699, 0.520508, 0.666016, 0.618652, 0.604492, 0.591309 ] }, { "question_id": "10108681", "image_id": 459543, "question": "có bao nhiêu người trên một chiếc mô tô với một người treo trước và một người khác treo sau", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.733755, "confidences": [ 0.733755, 0.222041, 0.036675, 0.002605, 0.000312, 0.000272, 0.000143, 0.00014, 0.000119, 8.4e-05 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.871582, 0.804688, 0.737793, 0.551758, 0.423096, 0.409912, 0.41748, 0.389404, 0.371094 ] }, { "question_id": "10043451", "image_id": 47734, "question": "một người đàn ông đang làm ở đâu", "ground_truth": "lối đi", "ground_truth_normalized": "lối đi", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "lối đi", "balo", "tòa nhà", "ván trượt", "sân", "ảnh chụp", "đường", "cái rổ", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.380579, "confidences": [ 0.380579, 0.087614, 0.022545, 0.021387, 0.019171, 0.014699, 0.014585, 0.012746, 0.012622, 0.012622 ], "gate_score_top1": 0.798828, "gate_scores": [ 0.798828, 0.637695, 0.677734, 0.712891, 0.614258, 0.686523, 0.63623, 0.736328, 0.746582, 0.681152 ] }, { "question_id": "10103641", "image_id": 32115, "question": "khay nhựa trong có bao nhiêu chiếc bánh rán khác nhau", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "sáu", "hai", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.442069, "confidences": [ 0.442069, 0.366488, 0.064942, 0.053839, 0.024457, 0.017208, 0.008386, 0.006926, 0.001296, 0.001249 ], "gate_score_top1": 0.850586, "gate_scores": [ 0.850586, 0.854492, 0.755859, 0.724121, 0.741699, 0.717773, 0.678223, 0.63916, 0.525391, 0.572266 ] }, { "question_id": "10095551", "image_id": 410934, "question": "những gì được nhóm lại với nhau như cây", "ground_truth": "lá", "ground_truth_normalized": "lá", "predicted_top1": "cây", "predicted_topk": [ "cây", "bông cải xanh", "sân vườn", "lá", "rau", "cái nồi", "quả bóng", "màu xanh lá", "chai", "màu tía" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.598206, "confidences": [ 0.598206, 0.171389, 0.05146, 0.025227, 0.014657, 0.005026, 0.002847, 0.002825, 0.002365, 0.002363 ], "gate_score_top1": 0.810059, "gate_scores": [ 0.810059, 0.80957, 0.708984, 0.681641, 0.701172, 0.683105, 0.630859, 0.595215, 0.527832, 0.55957 ] }, { "question_id": "10085911", "image_id": 512330, "question": "những gì phơi bày tất cả thức ăn bên trong", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "cái kệ", "chai", "cửa ra vào", "rau", "phòng bếp", "lò vi sóng", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.415078, "confidences": [ 0.415078, 0.344111, 0.084328, 0.061696, 0.012149, 0.003734, 0.002241, 0.002157, 0.002068, 0.0017 ], "gate_score_top1": 0.837891, "gate_scores": [ 0.837891, 0.816406, 0.803711, 0.788574, 0.672363, 0.500977, 0.667969, 0.497803, 0.560547, 0.609863 ] }, { "question_id": "10090381", "image_id": 406253, "question": "có gì đỗ gần một số xe hơi", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe tay ga", "predicted_topk": [ "xe tay ga", "xe đạp", "xe máy", "đường", "xe cộ", "mũ", "ga-ra", "con khỉ", "chim bồ câu", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.34211, "confidences": [ 0.34211, 0.303093, 0.303093, 0.002532, 0.001788, 0.001572, 0.001254, 0.001192, 0.000926, 0.000872 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.858887, 0.842773, 0.640137, 0.526367, 0.493408, 0.549316, 0.418457, 0.473633, 0.458252 ] }, { "question_id": "10083181", "image_id": 347253, "question": "cái gì kéo dài đến một chiếc máy bay đang ngồi trên đường băng", "ground_truth": "con dốc", "ground_truth_normalized": "con dốc", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "ga-ra", "bầu trời", "xe đẩy", "bảo tàng", "bến tàu", "xe cộ", "kho", "áo vest" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.419284, "confidences": [ 0.419284, 0.263408, 0.032905, 0.026752, 0.009727, 0.008702, 0.00777, 0.007228, 0.006448, 0.005814 ], "gate_score_top1": 0.777832, "gate_scores": [ 0.777832, 0.789551, 0.636719, 0.571777, 0.647461, 0.619141, 0.500488, 0.670898, 0.541016, 0.544922 ] }, { "question_id": "10069591", "image_id": 448078, "question": "những gì chờ đợi để quay vào một ngã tư", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe ô tô", "phương tiện giao thông", "xe cộ", "đường", "xe buýt", "xe đẩy", "đường phố", "động cơ", "đoạn phim giới thiệu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.480513, "confidences": [ 0.480513, 0.407806, 0.039597, 0.029773, 0.003314, 0.002157, 0.002066, 0.001366, 0.001363, 0.001231 ], "gate_score_top1": 0.868652, "gate_scores": [ 0.868652, 0.831543, 0.812012, 0.787109, 0.710449, 0.692871, 0.700684, 0.568359, 0.549805, 0.49707 ] }, { "question_id": "10116391", "image_id": 39976, "question": "có bao nhiêu hình ảnh riêng biệt với các loại pizza khác nhau trong đó", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.579113, "confidences": [ 0.579113, 0.385772, 0.009964, 0.00729, 0.007038, 0.003172, 0.001424, 0.00104, 0.000403, 0.000297 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.875488, 0.734375, 0.760254, 0.621582, 0.649414, 0.62207, 0.581055, 0.501953, 0.42334 ] }, { "question_id": "10042651", "image_id": 74069, "question": "một số động vật vườn thú đang đi ở đâu", "ground_truth": "lồng", "ground_truth_normalized": "lồng", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lồng", "bảo tàng", "rào chắn", "tòa nhà", "hươu cao cổ", "chuồng trại", "cửa tiệm", "hồ bơi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.473793, "confidences": [ 0.473793, 0.414867, 0.066936, 0.003432, 0.003199, 0.002901, 0.002045, 0.001499, 0.001168, 0.001016 ], "gate_score_top1": 0.874023, "gate_scores": [ 0.874023, 0.877441, 0.859375, 0.651367, 0.633301, 0.693359, 0.640625, 0.67041, 0.60791, 0.613281 ] }, { "question_id": "10061491", "image_id": 422280, "question": "những gì lấy túi tại sân bay", "ground_truth": "đường ray", "ground_truth_normalized": "đường ray", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "túi", "sân bay", "balo", "cái túi", "trạm", "xe đẩy", "cái ví", "sàn nhà" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.50254, "confidences": [ 0.50254, 0.139006, 0.104111, 0.046199, 0.025663, 0.023688, 0.011433, 0.010636, 0.006013, 0.004583 ], "gate_score_top1": 0.8125, "gate_scores": [ 0.8125, 0.764648, 0.778809, 0.726074, 0.670898, 0.733398, 0.615234, 0.668457, 0.65918, 0.507812 ] }, { "question_id": "10051541", "image_id": 92206, "question": "đàn ông đang chụp ảnh ở đâu với điện thoại của họ", "ground_truth": "quán bar", "ground_truth_normalized": "quán bar", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "điện thoại", "gian hàng", "cửa tiệm", "gương", "máy ảnh", "đường phố", "quán ăn", "ảnh chụp", "quán bar" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.19172, "confidences": [ 0.19172, 0.140266, 0.056122, 0.035052, 0.027512, 0.026562, 0.025997, 0.01447, 0.014011, 0.013343 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.693848, 0.629883, 0.688965, 0.705566, 0.605469, 0.654297, 0.616211, 0.502441, 0.599121 ] }, { "question_id": "10004891", "image_id": 276870, "question": "màu của áo là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu trắng", "màu nâu", "màu đen", "màu vàng", "màu xám", "màu xanh lá", "màu cam", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.87007, "confidences": [ 0.87007, 0.041496, 0.029889, 0.015088, 0.013108, 0.008766, 0.002965, 0.002556, 0.001556, 0.001355 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.77832, 0.765137, 0.766113, 0.74707, 0.736816, 0.687012, 0.661621, 0.671875, 0.664062 ] }, { "question_id": "10117091", "image_id": 12120, "question": "có bao nhiêu phụ nữ chơi trong một trận đấu quần vợt chuyên nghiệp", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "hai", "năm", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.552389, "confidences": [ 0.552389, 0.232076, 0.1375, 0.03672, 0.015247, 0.009321, 0.003272, 0.001935, 0.001192, 0.00084 ], "gate_score_top1": 0.864746, "gate_scores": [ 0.864746, 0.844727, 0.822266, 0.744141, 0.62793, 0.693359, 0.632324, 0.584473, 0.49585, 0.468506 ] }, { "question_id": "10095741", "image_id": 517081, "question": "cái gì trên chiếc bàn màu cam và được mở ra", "ground_truth": "máy tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "điện thoại", "bàn phím", "chuột", "cái bàn", "trang thiết bị", "cái ghế", "bức tranh", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.622593, "confidences": [ 0.622593, 0.335864, 0.003602, 0.003111, 0.002641, 0.002559, 0.000895, 0.000772, 0.000697, 0.000616 ], "gate_score_top1": 0.887695, "gate_scores": [ 0.887695, 0.831543, 0.72168, 0.699707, 0.695801, 0.745117, 0.498535, 0.486816, 0.500977, 0.588379 ] }, { "question_id": "10115381", "image_id": 153142, "question": "có bao nhiêu ván lướt sóng đang dựa vào bức tường trắng", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "ba", "sáu", "bảy", "tám", "chín", "hai", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.504309, "confidences": [ 0.504309, 0.411605, 0.037692, 0.029126, 0.007082, 0.001262, 0.001147, 0.000746, 0.000619, 0.000589 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.875488, 0.785645, 0.727539, 0.740234, 0.566895, 0.61084, 0.606445, 0.557617, 0.52832 ] }, { "question_id": "10014381", "image_id": 217407, "question": "màu của bông hoa là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu vàng", "màu xanh lá", "màu trắng", "màu đen", "màu xám", "màu nâu", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.600437, "confidences": [ 0.600437, 0.36704, 0.011214, 0.003264, 0.0022, 0.002015, 0.002003, 0.001271, 0.00063, 0.0003 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.867188, 0.756836, 0.693359, 0.642578, 0.644531, 0.661133, 0.653809, 0.669434, 0.604492 ] }, { "question_id": "10026201", "image_id": 165172, "question": "bàn chải đánh răng ở đâu", "ground_truth": "ly", "ground_truth_normalized": "ly", "predicted_top1": "bát", "predicted_topk": [ "bát", "tách", "thùng chứa", "chậu", "cái nồi", "cái lọ", "cái rổ", "lọ cắm hoa", "người giữ", "bồn tắm" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.441499, "confidences": [ 0.441499, 0.147884, 0.065367, 0.060219, 0.050908, 0.024956, 0.015678, 0.011812, 0.007464, 0.006298 ], "gate_score_top1": 0.854004, "gate_scores": [ 0.854004, 0.762695, 0.747559, 0.690918, 0.717773, 0.69873, 0.641602, 0.658203, 0.503418, 0.662109 ] }, { "question_id": "10009561", "image_id": 218446, "question": "màu của xe buýt là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu đen", "màu xám", "màu vàng", "màu trắng", "màu đỏ", "màu cam", "màu xanh dương", "màu xanh lá", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.368577, "confidences": [ 0.368577, 0.188251, 0.182459, 0.149502, 0.035649, 0.020632, 0.013373, 0.005607, 0.005478, 0.002523 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.806641, 0.796875, 0.816895, 0.830078, 0.747559, 0.744629, 0.682129, 0.651855, 0.663086 ] }, { "question_id": "10100531", "image_id": 494751, "question": "giường, những gì, và bàn cuối trong một phòng khách sạn", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "giường", "cửa", "phòng", "nhiều cái ghế", "tường", "khăn", "cửa sổ", "bức ảnh", "cái kệ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.231865, "confidences": [ 0.231865, 0.103697, 0.073964, 0.068272, 0.042891, 0.020339, 0.017602, 0.016961, 0.015534, 0.014255 ], "gate_score_top1": 0.716797, "gate_scores": [ 0.716797, 0.678223, 0.684082, 0.734375, 0.620605, 0.556152, 0.580078, 0.568848, 0.586914, 0.634277 ] }, { "question_id": "10046651", "image_id": 213366, "question": "xe cứu hỏa đậu ở đâu", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "tòa nhà", "kho", "trạm", "phòng", "cửa tiệm", "bảo tàng", "nhà ở", "chuồng", "cửa hàng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.453741, "confidences": [ 0.453741, 0.181192, 0.125019, 0.055694, 0.039958, 0.021472, 0.011448, 0.007263, 0.006985, 0.00517 ], "gate_score_top1": 0.871094, "gate_scores": [ 0.871094, 0.808105, 0.80957, 0.770996, 0.760254, 0.723633, 0.775391, 0.711914, 0.602051, 0.702637 ] }, { "question_id": "10047281", "image_id": 555857, "question": "người phụ nữ ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "gương", "hành lang", "ô cửa", "nhà ở", "phòng tắm", "cửa", "giường", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.401801, "confidences": [ 0.401801, 0.377457, 0.091066, 0.017245, 0.012518, 0.011646, 0.006381, 0.006125, 0.004318, 0.003538 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.832031, 0.861328, 0.674316, 0.634766, 0.722168, 0.633301, 0.598633, 0.558105, 0.699219 ] }, { "question_id": "10033721", "image_id": 260733, "question": "gà tây được nướng ở đâu", "ground_truth": "chảo", "ground_truth_normalized": "chảo", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "chảo", "món ăn", "giấy bạc", "cái mâm", "cái nồi", "phòng bếp", "bếp", "cái rổ", "tạp dề" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.482938, "confidences": [ 0.482938, 0.386538, 0.022324, 0.011225, 0.010463, 0.005722, 0.004483, 0.004203, 0.002155, 0.002097 ], "gate_score_top1": 0.846191, "gate_scores": [ 0.846191, 0.842773, 0.769043, 0.668457, 0.719238, 0.739258, 0.647949, 0.582031, 0.669434, 0.563477 ] }, { "question_id": "10113481", "image_id": 309539, "question": "có bao nhiêu lát là tấm chứa pizza pepperoni", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.727133, "confidences": [ 0.727133, 0.179589, 0.053086, 0.026903, 0.003474, 0.003102, 0.000915, 0.000703, 0.000388, 0.000191 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.866699, 0.816895, 0.776855, 0.687012, 0.532227, 0.543457, 0.549316, 0.4729, 0.417236 ] }, { "question_id": "10119241", "image_id": 357113, "question": "có bao nhiêu con gấu bông nâu được xếp trên kệ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.585398, "confidences": [ 0.585398, 0.37502, 0.017956, 0.009839, 0.004383, 0.002187, 0.000795, 0.000463, 0.00026, 0.000237 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.885742, 0.751953, 0.789551, 0.582031, 0.661133, 0.603027, 0.525879, 0.498291, 0.464111 ] }, { "question_id": "10047031", "image_id": 575018, "question": "bánh donuts vẫn còn mới nằm ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "tạp dề", "cửa hàng", "cửa tiệm", "phòng", "nhà ở", "lò vi sóng", "kho", "quán bar" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.708053, "confidences": [ 0.708053, 0.1069, 0.03457, 0.030627, 0.018576, 0.017451, 0.015461, 0.00335, 0.003285, 0.002316 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.851074, 0.739258, 0.769531, 0.70459, 0.749512, 0.683105, 0.579102, 0.67334, 0.619141 ] }, { "question_id": "10079761", "image_id": 572900, "question": "người đàn ông trẻ tuổi đang mặc gì khi ném đĩa ném", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "áo sơ mi", "ga-ra", "kho", "bảo tàng", "ô cửa", "áo vest", "trạm", "dĩa nhựa", "cửa hàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.295053, "confidences": [ 0.295053, 0.051776, 0.044027, 0.031836, 0.023383, 0.02129, 0.012901, 0.01285, 0.01275, 0.012443 ], "gate_score_top1": 0.805176, "gate_scores": [ 0.805176, 0.644531, 0.675781, 0.692871, 0.712891, 0.618652, 0.663574, 0.614258, 0.62207, 0.728516 ] }, { "question_id": "10065751", "image_id": 465074, "question": "người phụ nữ mặc những gì đã có mang một túi dù che và đã mở hai chiếc", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "nón", "mũ", "bức ảnh", "diều", "dĩa nhựa", "bờ biển", "lá cờ", "mặt trời", "áo sơ mi" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.270677, "confidences": [ 0.270677, 0.174081, 0.118713, 0.023104, 0.015271, 0.01064, 0.009773, 0.009244, 0.009181, 0.009101 ], "gate_score_top1": 0.772461, "gate_scores": [ 0.772461, 0.750488, 0.715332, 0.60791, 0.66748, 0.644531, 0.633789, 0.626953, 0.595215, 0.625977 ] }, { "question_id": "10084401", "image_id": 454143, "question": "người phụ nữ mặc những gì và mang theo một ly cà phê từ starbucks đang đi bộ với hành lý", "ground_truth": "áo khoác", "ground_truth_normalized": "áo khoác", "predicted_top1": "vali", "predicted_topk": [ "vali", "balo", "hành lý", "túi", "cái túi", "cái ví", "xe đẩy", "máy ảnh", "toa xe", "sân bay" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.216316, "confidences": [ 0.216316, 0.186476, 0.135367, 0.109196, 0.054056, 0.026448, 0.018791, 0.013093, 0.008739, 0.008486 ], "gate_score_top1": 0.752441, "gate_scores": [ 0.752441, 0.758301, 0.777344, 0.750488, 0.795898, 0.733887, 0.680664, 0.558105, 0.564453, 0.621094 ] }, { "question_id": "10028051", "image_id": 52096, "question": "bánh mì sandwich nằm ở đâu", "ground_truth": "dĩa", "ground_truth_normalized": "dĩa", "predicted_top1": "thùng chứa", "predicted_topk": [ "thùng chứa", "cái rổ", "cái mâm", "hộp", "giấy bạc", "bát", "món ăn", "dĩa", "tách", "chén đĩa" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.404783, "confidences": [ 0.404783, 0.135585, 0.094285, 0.060166, 0.053304, 0.029668, 0.025476, 0.017441, 0.012735, 0.007172 ], "gate_score_top1": 0.817871, "gate_scores": [ 0.817871, 0.797363, 0.806641, 0.755859, 0.766113, 0.712891, 0.734863, 0.529297, 0.635742, 0.581543 ] }, { "question_id": "10006851", "image_id": 230109, "question": "màu của phòng ngủ là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu trắng", "màu xanh dương", "màu vàng", "màu đỏ", "màu nâu", "màu cam", "màu xanh lá", "màu đen", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.98175, "confidences": [ 0.98175, 0.007209, 0.001647, 0.001493, 0.001003, 0.000936, 0.000615, 0.000472, 0.000286, 0.000266 ], "gate_score_top1": 0.901855, "gate_scores": [ 0.901855, 0.771484, 0.708984, 0.685547, 0.736328, 0.670898, 0.657715, 0.59375, 0.658203, 0.631348 ] }, { "question_id": "10055111", "image_id": 561750, "question": "những gì cực kỳ quá tải do tải của nó", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "vali", "predicted_topk": [ "vali", "xe đẩy", "hành lý", "toa xe", "túi", "hộp", "cái túi", "sân bay", "trạm", "balo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.692845, "confidences": [ 0.692845, 0.147515, 0.027717, 0.013508, 0.008306, 0.005479, 0.005447, 0.004614, 0.003565, 0.003317 ], "gate_score_top1": 0.802246, "gate_scores": [ 0.802246, 0.811523, 0.723145, 0.672852, 0.68457, 0.683105, 0.705566, 0.687012, 0.610352, 0.553711 ] }, { "question_id": "10050581", "image_id": 70983, "question": "lọ hoa lớn được đặt ở đâu", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cửa sổ", "cây", "cái nồi", "cửa", "tường", "phòng", "nhà ở", "sân vườn", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.493405, "confidences": [ 0.493405, 0.35262, 0.044656, 0.012066, 0.006163, 0.005767, 0.004162, 0.004105, 0.003651, 0.00339 ], "gate_score_top1": 0.844238, "gate_scores": [ 0.844238, 0.842773, 0.789551, 0.62207, 0.685547, 0.608398, 0.733398, 0.611816, 0.60791, 0.723145 ] }, { "question_id": "10099611", "image_id": 490927, "question": "những gì được trang trí và tổ chức độc đáo", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "quầy tính tiền", "chậu", "vòi hoa sen", "gương", "khăn", "bồn tắm", "cửa", "tường", "máy ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.282685, "confidences": [ 0.282685, 0.180389, 0.080675, 0.068736, 0.068468, 0.05128, 0.033828, 0.017722, 0.014074, 0.011622 ], "gate_score_top1": 0.753906, "gate_scores": [ 0.753906, 0.688477, 0.747559, 0.692871, 0.717773, 0.666992, 0.749512, 0.606934, 0.617676, 0.583496 ] }, { "question_id": "10020801", "image_id": 574645, "question": "màu của áo là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đen", "màu nâu", "màu xám", "màu trắng", "màu đỏ", "màu vàng", "màu xanh dương", "màu xanh lá", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.632039, "confidences": [ 0.632039, 0.291638, 0.038105, 0.010256, 0.008772, 0.006545, 0.002916, 0.000898, 0.000887, 0.000596 ], "gate_score_top1": 0.881348, "gate_scores": [ 0.881348, 0.866211, 0.808594, 0.760254, 0.794922, 0.765137, 0.78418, 0.677246, 0.580078, 0.692383 ] }, { "question_id": "10019221", "image_id": 350506, "question": "màu của chiếc ghế dài là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu nâu", "màu đen", "màu trắng", "màu xám", "màu vàng", "màu cam", "màu xanh lá", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.414773, "confidences": [ 0.414773, 0.354774, 0.158046, 0.033782, 0.012973, 0.00438, 0.003185, 0.002714, 0.002172, 0.000622 ], "gate_score_top1": 0.840332, "gate_scores": [ 0.840332, 0.851562, 0.864258, 0.830078, 0.790039, 0.708496, 0.738281, 0.636719, 0.727051, 0.567383 ] }, { "question_id": "10040441", "image_id": 426422, "question": "cô gái giữ một quả chuối ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "cửa hàng", "cửa tiệm", "chuối", "phòng", "cái rổ", "cái ghế", "hộp", "kho", "sân bay" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.200917, "confidences": [ 0.200917, 0.104235, 0.098303, 0.075371, 0.075371, 0.020525, 0.018652, 0.017763, 0.012844, 0.011247 ], "gate_score_top1": 0.803223, "gate_scores": [ 0.803223, 0.790527, 0.786621, 0.753418, 0.742188, 0.646973, 0.580078, 0.640625, 0.611816, 0.643066 ] }, { "question_id": "10022431", "image_id": 558066, "question": "màu của quả bóng là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu vàng", "màu xanh dương", "màu xanh lá", "màu nâu", "màu đen", "màu tía", "màu xám", "màu đỏ", "quả bóng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.559738, "confidences": [ 0.559738, 0.344844, 0.029434, 0.025473, 0.010292, 0.006964, 0.004118, 0.001446, 0.001276, 0.000403 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.839355, 0.79834, 0.749023, 0.73584, 0.640625, 0.73584, 0.685547, 0.625488, 0.543945 ] }, { "question_id": "10065441", "image_id": 343706, "question": "đang là mùa đông và người phụ nữ trẻ này mặc gì cũng cầm điện thoại thông minh", "ground_truth": "áo choàng", "ground_truth_normalized": "áo choàng", "predicted_top1": "điện thoại", "predicted_topk": [ "điện thoại", "thiết bị", "nón", "máy ảnh", "bàn chải", "máy tính", "laptop", "gương", "xe ô tô", "cà vạt" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.778256, "confidences": [ 0.778256, 0.026839, 0.021778, 0.016927, 0.006501, 0.005517, 0.004601, 0.003974, 0.00319, 0.002862 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.690918, 0.693359, 0.708496, 0.559082, 0.634766, 0.685547, 0.652344, 0.575195, 0.678711 ] }, { "question_id": "10049191", "image_id": 87399, "question": "chiếc đồng hồ nằm ở đâu", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa tiệm", "cửa sổ", "hộp", "văn phòng", "ảnh chụp", "phòng bếp", "tạp dề", "tòa nhà", "gian hàng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.707779, "confidences": [ 0.707779, 0.094672, 0.060886, 0.016974, 0.005854, 0.005096, 0.004411, 0.003729, 0.003227, 0.003164 ], "gate_score_top1": 0.870117, "gate_scores": [ 0.870117, 0.828613, 0.782227, 0.743652, 0.696777, 0.521973, 0.626953, 0.671875, 0.651367, 0.643555 ] }, { "question_id": "10083691", "image_id": 527535, "question": "những gì bao phủ trên kem và kem đánh bông", "ground_truth": "chuối", "ground_truth_normalized": "chuối", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "đĩa ăn", "món tráng miệng", "chuối", "pizza", "bữa ăn", "sô cô la", "quán ăn", "cupcake", "cái nĩa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.137032, "confidences": [ 0.137032, 0.096981, 0.081189, 0.047729, 0.044401, 0.029176, 0.022589, 0.021724, 0.019857, 0.018874 ], "gate_score_top1": 0.759277, "gate_scores": [ 0.759277, 0.746582, 0.660645, 0.666016, 0.729492, 0.618164, 0.558594, 0.583496, 0.587402, 0.54541 ] }, { "question_id": "10092871", "image_id": 539079, "question": "người trên ván trượt đang đi xuống tuyết bao phủ là gì", "ground_truth": "đồi", "ground_truth_normalized": "đồi", "predicted_top1": "núi", "predicted_topk": [ "núi", "đồi", "ván trượt", "trượt tuyết", "cây", "trang thiết bị", "bầu trời", "bức ảnh", "một", "ba lan" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.615808, "confidences": [ 0.615808, 0.151501, 0.06516, 0.061212, 0.008648, 0.006452, 0.006192, 0.002897, 0.002461, 0.002172 ], "gate_score_top1": 0.831055, "gate_scores": [ 0.831055, 0.798828, 0.788574, 0.76709, 0.59375, 0.62207, 0.599609, 0.572754, 0.668945, 0.514648 ] }, { "question_id": "10003591", "image_id": 556306, "question": "màu sắc của uống là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu tía", "màu cam", "màu xám", "màu vàng", "màu đỏ", "màu xanh dương", "màu đen", "màu trắng", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.562027, "confidences": [ 0.562027, 0.280406, 0.043339, 0.027121, 0.023017, 0.020233, 0.009746, 0.006505, 0.002031, 0.001083 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.822266, 0.812988, 0.705566, 0.703125, 0.791504, 0.729492, 0.663086, 0.626465, 0.540527 ] }, { "question_id": "10059011", "image_id": 416745, "question": "những gì mở tiết lộ nhà vệ sinh, bồn rửa và tủ treo", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "cửa", "vòi hoa sen", "nhà ở", "quầy tính tiền", "khăn", "tường", "bồn tắm", "bức ảnh", "gương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.287124, "confidences": [ 0.287124, 0.262452, 0.058105, 0.028652, 0.027127, 0.025885, 0.025434, 0.020159, 0.019425, 0.018106 ], "gate_score_top1": 0.754395, "gate_scores": [ 0.754395, 0.733398, 0.709961, 0.774414, 0.621582, 0.638672, 0.682617, 0.700684, 0.617676, 0.66748 ] }, { "question_id": "10109691", "image_id": 369512, "question": "có bao nhiêu người đàn ông trên sông với ba con voi", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "một", "hai", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.448744, "confidences": [ 0.448744, 0.383831, 0.082686, 0.042563, 0.017605, 0.004399, 0.002632, 0.002536, 0.001841, 0.001409 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.849609, 0.772461, 0.746582, 0.721191, 0.625977, 0.62793, 0.615723, 0.57666, 0.551758 ] }, { "question_id": "10076621", "image_id": 510755, "question": "những gì làm cho một loạt các xe máy xếp hàng?", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "đường", "xe tay ga", "mũ", "cây", "con khỉ", "năm", "ga-ra", "ván trượt" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.834058, "confidences": [ 0.834058, 0.087566, 0.007132, 0.005787, 0.005511, 0.004209, 0.001145, 0.001123, 0.00093, 0.00081 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.82666, 0.622559, 0.640137, 0.527344, 0.58252, 0.38208, 0.669922, 0.538086, 0.52002 ] }, { "question_id": "10050401", "image_id": 397253, "question": "bàn với hai màn hình máy tính được nhìn thấy ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "văn phòng", "nhà ở", "cái bàn", "phòng bếp", "chung cư", "cái ghế", "cửa tiệm", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.37829, "confidences": [ 0.37829, 0.236728, 0.128205, 0.040658, 0.021011, 0.017082, 0.015583, 0.014754, 0.008148, 0.007247 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.830566, 0.772949, 0.812988, 0.635254, 0.73877, 0.708496, 0.645508, 0.683105, 0.660645 ] }, { "question_id": "10102561", "image_id": 157940, "question": "có bao nhiêu người trượt tuyết xuyên quốc gia trên con đường xuyên qua những tán cây", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.462624, "confidences": [ 0.462624, 0.401935, 0.093621, 0.015343, 0.012185, 0.002428, 0.002228, 0.000841, 0.000586, 0.000454 ], "gate_score_top1": 0.867676, "gate_scores": [ 0.867676, 0.85791, 0.787598, 0.714844, 0.729492, 0.605469, 0.629883, 0.519043, 0.526367, 0.529785 ] }, { "question_id": "10074371", "image_id": 448410, "question": "những gì kéo vào ga tàu nơi du khách đợi gần đó", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "hàng hoá", "đường sắt", "xe điện ngầm", "các tòa nhà", "trạm", "cầu", "xe điện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.667979, "confidences": [ 0.667979, 0.115174, 0.05814, 0.025499, 0.023768, 0.015709, 0.009927, 0.007641, 0.006613, 0.00614 ], "gate_score_top1": 0.88916, "gate_scores": [ 0.88916, 0.786621, 0.771484, 0.645996, 0.67041, 0.689941, 0.701172, 0.663574, 0.663086, 0.708496 ] }, { "question_id": "10046321", "image_id": 529860, "question": "con chó nhỏ đang được mang đến đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "balo", "predicted_topk": [ "balo", "cái túi", "cái ví", "hành lý", "túi", "đường phố", "vali", "áo vest", "xe đẩy", "xe" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.521307, "confidences": [ 0.521307, 0.203351, 0.048489, 0.02626, 0.015559, 0.012502, 0.010548, 0.009604, 0.008677, 0.004829 ], "gate_score_top1": 0.833984, "gate_scores": [ 0.833984, 0.827148, 0.807129, 0.748535, 0.77002, 0.64209, 0.668945, 0.64502, 0.655273, 0.629395 ] }, { "question_id": "10061181", "image_id": 497928, "question": "những gì cố định trên tất cả đối diện một chiếc ghế dài và phòng khách đẹp", "ground_truth": "màn", "ground_truth_normalized": "màn", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhiều cái ghế", "chung cư", "bức ảnh", "đi văng", "cái bàn", "cái kệ", "cây", "cửa", "tường" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.240749, "confidences": [ 0.240749, 0.074, 0.053823, 0.02469, 0.02356, 0.022879, 0.022613, 0.021493, 0.021326, 0.017372 ], "gate_score_top1": 0.775879, "gate_scores": [ 0.775879, 0.653809, 0.594727, 0.570312, 0.635254, 0.614746, 0.634766, 0.558105, 0.620605, 0.542969 ] }, { "question_id": "10056371", "image_id": 498994, "question": "những gì chứa đầy dấu hiệu và giấy báo cáo", "ground_truth": "thân cây", "ground_truth_normalized": "thân cây", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "cái túi", "hộp", "túi", "thân cây", "xe đẩy", "sàn nhà", "toa xe", "cái ví" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.702189, "confidences": [ 0.702189, 0.050274, 0.030196, 0.016676, 0.016226, 0.009765, 0.009373, 0.0074, 0.006817, 0.005763 ], "gate_score_top1": 0.797363, "gate_scores": [ 0.797363, 0.712891, 0.766602, 0.700195, 0.705566, 0.598145, 0.721191, 0.555664, 0.560547, 0.633789 ] }, { "question_id": "10116081", "image_id": 497801, "question": "có bao nhiêu người trong bộ đồ toàn thân và một người không đứng ngoài ván lướt sóng trên bãi biển", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.928856, "confidences": [ 0.928856, 0.058459, 0.007148, 0.003272, 0.000295, 0.000173, 8.3e-05, 5.9e-05, 4.5e-05, 4.2e-05 ], "gate_score_top1": 0.905273, "gate_scores": [ 0.905273, 0.856934, 0.817383, 0.751465, 0.583008, 0.440674, 0.426758, 0.437988, 0.367676, 0.370117 ] }, { "question_id": "10020111", "image_id": 423826, "question": "màu của con chó là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu nâu", "màu vàng", "màu đen", "màu xám", "màu tía", "màu cam", "màu đỏ", "màu xanh dương", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.704274, "confidences": [ 0.704274, 0.267312, 0.010085, 0.003058, 0.00102, 0.000701, 0.000688, 0.000472, 0.000364, 0.000352 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.836914, 0.75, 0.687988, 0.725586, 0.630371, 0.646973, 0.637207, 0.574707, 0.566895 ] }, { "question_id": "10047401", "image_id": 2240, "question": "ba gấu bông và một con búp bê ở đâu", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "giường", "predicted_topk": [ "giường", "hộp", "cái rổ", "cái túi", "vali", "hành lý", "toa xe", "cái ghế", "phòng ngủ", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.559265, "confidences": [ 0.559265, 0.154094, 0.055159, 0.037762, 0.025752, 0.014559, 0.0092, 0.008103, 0.006069, 0.005483 ], "gate_score_top1": 0.788574, "gate_scores": [ 0.788574, 0.750488, 0.728516, 0.734863, 0.746094, 0.624023, 0.638672, 0.654297, 0.641602, 0.634277 ] }, { "question_id": "10104291", "image_id": 330572, "question": "có bao nhiêu người đi xe máy trên đường trước cây xăng và một đống đất lớn", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "tám", "mười", "bảy", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.78436, "confidences": [ 0.78436, 0.198317, 0.011634, 0.002102, 0.000201, 0.000199, 0.000104, 8.4e-05, 8.2e-05, 5.4e-05 ], "gate_score_top1": 0.892578, "gate_scores": [ 0.892578, 0.867188, 0.779297, 0.750488, 0.412842, 0.553711, 0.417969, 0.39502, 0.397949, 0.348633 ] }, { "question_id": "10050331", "image_id": 549209, "question": "nhà vệ sinh đang đặt ở đâu", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "nhà ở", "phòng", "bồn tắm", "tường", "cửa", "gương", "ô cửa", "khăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.787134, "confidences": [ 0.787134, 0.060697, 0.03052, 0.020571, 0.012188, 0.01214, 0.007509, 0.005537, 0.005335, 0.003918 ], "gate_score_top1": 0.865723, "gate_scores": [ 0.865723, 0.794922, 0.823242, 0.807617, 0.76416, 0.655762, 0.68457, 0.74707, 0.618164, 0.662598 ] }, { "question_id": "10002601", "image_id": 299488, "question": "màu sắc của các chữ cái là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu xanh dương", "màu đỏ", "màu trắng", "màu vàng", "màu nâu", "màu tía", "màu cam", "màu xám", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.729943, "confidences": [ 0.729943, 0.210772, 0.01148, 0.009858, 0.008802, 0.008366, 0.006541, 0.004567, 0.001612, 0.000801 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.832031, 0.804688, 0.78125, 0.763672, 0.727539, 0.726562, 0.796875, 0.714844, 0.65332 ] }, { "question_id": "10043101", "image_id": 340419, "question": "thức ăn gần như đã sẵn sàng ở đâu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "chảo", "bát", "món ăn", "quầy tính tiền", "lò vi sóng", "máy xay", "phòng bếp", "chén đĩa", "thùng chứa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.488901, "confidences": [ 0.488901, 0.296533, 0.069885, 0.037553, 0.01253, 0.007949, 0.006641, 0.004356, 0.003446, 0.003432 ], "gate_score_top1": 0.864746, "gate_scores": [ 0.864746, 0.848633, 0.807129, 0.748047, 0.635254, 0.696777, 0.685547, 0.577637, 0.675293, 0.62793 ] }, { "question_id": "10026271", "image_id": 311228, "question": "một số thực phẩm nướng ở đâu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "món ăn", "thùng chứa", "hộp", "cái mâm", "bát", "giấy bạc", "chén đĩa", "cái rổ", "cái nồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.258388, "confidences": [ 0.258388, 0.221876, 0.181799, 0.06457, 0.058791, 0.043181, 0.017652, 0.010665, 0.008876, 0.007373 ], "gate_score_top1": 0.771484, "gate_scores": [ 0.771484, 0.82666, 0.824219, 0.755859, 0.76123, 0.736816, 0.726074, 0.665039, 0.717285, 0.695801 ] }, { "question_id": "10007181", "image_id": 41087, "question": "màu của xe tải là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu vàng", "màu đen", "màu đỏ", "màu xanh dương", "màu trắng", "màu xanh lá", "xe ô tô", "màu cam", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.794729, "confidences": [ 0.794729, 0.112717, 0.043968, 0.025052, 0.004781, 0.001627, 0.001235, 0.000637, 0.000572, 0.000559 ], "gate_score_top1": 0.853516, "gate_scores": [ 0.853516, 0.813477, 0.739258, 0.765625, 0.716309, 0.70752, 0.559082, 0.523438, 0.644043, 0.57373 ] }, { "question_id": "10059561", "image_id": 414340, "question": "những gì bên cạnh một nhà thờ nhỏ màu trắng", "ground_truth": "đồng hồ", "ground_truth_normalized": "đồng hồ", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "tòa nhà", "cây", "các tòa nhà", "bức ảnh", "bức tượng", "cầu", "cờ", "lá cờ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.493099, "confidences": [ 0.493099, 0.287622, 0.07021, 0.015184, 0.0134, 0.012539, 0.0093, 0.004453, 0.004436, 0.003907 ], "gate_score_top1": 0.803223, "gate_scores": [ 0.803223, 0.787109, 0.750977, 0.671875, 0.644043, 0.639648, 0.618164, 0.588379, 0.580078, 0.63623 ] }, { "question_id": "10115501", "image_id": 49053, "question": "có bao nhiêu chiếc bánh pizza đang ngồi trên quầy khi lớp phủ đang được thêm vào", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "hai", "chín", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.478769, "confidences": [ 0.478769, 0.347549, 0.094644, 0.035783, 0.016771, 0.007953, 0.001845, 0.001651, 0.001575, 0.00118 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.841309, 0.752441, 0.758789, 0.704102, 0.674805, 0.623047, 0.570801, 0.553711, 0.526855 ] }, { "question_id": "10065411", "image_id": 576774, "question": "cái đĩa màu xanh và trắng với trái cây và những gì", "ground_truth": "rau", "ground_truth_normalized": "rau", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "rau", "món ăn", "bữa ăn", "bát", "thịt", "bữa ăn tối", "dĩa", "chén đĩa", "cái nĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.460317, "confidences": [ 0.460317, 0.09994, 0.080934, 0.048707, 0.040222, 0.025467, 0.020028, 0.015416, 0.014942, 0.012731 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.733887, 0.768555, 0.731934, 0.727051, 0.682129, 0.608887, 0.666016, 0.651367, 0.617676 ] }, { "question_id": "10107451", "image_id": 31000, "question": "có bao nhiêu quả cam xếp chồng lên nhau trong cái bát màu trắng", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "năm", "bảy", "tám", "ba", "chín", "một", "bát", "mười" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.374807, "confidences": [ 0.374807, 0.208611, 0.1696, 0.163741, 0.012334, 0.009738, 0.005274, 0.004131, 0.002457, 0.002277 ], "gate_score_top1": 0.810059, "gate_scores": [ 0.810059, 0.771973, 0.790527, 0.785156, 0.621582, 0.630859, 0.593262, 0.566406, 0.684082, 0.507812 ] }, { "question_id": "10006111", "image_id": 233379, "question": "màu mắt là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu vàng", "màu xám", "màu xanh dương", "màu tía", "màu nâu", "màu đen", "màu đỏ", "màu trắng", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.717358, "confidences": [ 0.717358, 0.178565, 0.03408, 0.031519, 0.008583, 0.007399, 0.006378, 0.002743, 0.00091, 0.000465 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.826172, 0.734375, 0.770996, 0.716797, 0.71582, 0.6875, 0.69043, 0.654297, 0.720215 ] }, { "question_id": "10029701", "image_id": 365236, "question": "con chó đang ở đâu", "ground_truth": "cái ví", "ground_truth_normalized": "cái ví", "predicted_top1": "cái túi", "predicted_topk": [ "cái túi", "balo", "cái ví", "hành lý", "túi", "vali", "xe đẩy", "thùng chứa", "xe", "cái rổ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.254093, "confidences": [ 0.254093, 0.252116, 0.190307, 0.061064, 0.039735, 0.032116, 0.008901, 0.005399, 0.004515, 0.004004 ], "gate_score_top1": 0.823242, "gate_scores": [ 0.823242, 0.789062, 0.828613, 0.757812, 0.76709, 0.713379, 0.64209, 0.606934, 0.614746, 0.669434 ] }, { "question_id": "10103821", "image_id": 246971, "question": "có bao nhiêu người đang làm trò trượt ván trên tuyết và nhảy trong tuyết", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "bốn", "ba", "sáu", "năm", "bảy", "mười", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.513201, "confidences": [ 0.513201, 0.40916, 0.027627, 0.021685, 0.008899, 0.005071, 0.003312, 0.000929, 0.000841, 0.000755 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.87207, 0.737305, 0.768066, 0.671875, 0.743652, 0.626465, 0.548828, 0.560059, 0.512207 ] }, { "question_id": "10049791", "image_id": 317153, "question": "công nhân đẩy xe đẩy ở đâu với hành lý trên chúng", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "kho", "predicted_topk": [ "kho", "tòa nhà", "ga-ra", "sân bay", "trạm", "phòng", "cửa tiệm", "cửa hàng", "bảo tàng", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.249271, "confidences": [ 0.249271, 0.17402, 0.173341, 0.089228, 0.04776, 0.027858, 0.021277, 0.020824, 0.01468, 0.006253 ], "gate_score_top1": 0.821289, "gate_scores": [ 0.821289, 0.797852, 0.85791, 0.733398, 0.677246, 0.73584, 0.730469, 0.756348, 0.771484, 0.647949 ] }, { "question_id": "10050811", "image_id": 78359, "question": "thước và kéo ở đâu", "ground_truth": "người giữ", "ground_truth_normalized": "người giữ", "predicted_top1": "tách", "predicted_topk": [ "tách", "thùng chứa", "cái rổ", "cái lọ", "cái nồi", "người giữ", "máy xay", "máy sấy khô", "bát", "cây kéo" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.453962, "confidences": [ 0.453962, 0.10329, 0.088349, 0.037776, 0.028515, 0.020141, 0.016928, 0.00899, 0.008479, 0.008202 ], "gate_score_top1": 0.794434, "gate_scores": [ 0.794434, 0.76709, 0.780762, 0.75, 0.65918, 0.584961, 0.687012, 0.589844, 0.710449, 0.644043 ] }, { "question_id": "10080821", "image_id": 449981, "question": "hình ảnh của một động vật vườn thú là gì", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "thân cây", "bức ảnh", "bãi cỏ", "màu cam", "đồi", "chiếc ô", "cây", "quả bóng", "xe tải" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.343513, "confidences": [ 0.343513, 0.035784, 0.023059, 0.021832, 0.021036, 0.015286, 0.015152, 0.012884, 0.010598, 0.010242 ], "gate_score_top1": 0.754883, "gate_scores": [ 0.754883, 0.541992, 0.432861, 0.626465, 0.616699, 0.588867, 0.540527, 0.511719, 0.505859, 0.51709 ] }, { "question_id": "10086741", "image_id": 423215, "question": "những gì chuyến tàu đang đi xuống một số bài hát", "ground_truth": "hàng hoá", "ground_truth_normalized": "hàng hoá", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "hàng hoá", "động cơ", "đường sắt", "các tòa nhà", "trạm", "xe điện ngầm", "cầu", "cây" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.20241, "confidences": [ 0.20241, 0.195418, 0.163917, 0.139659, 0.086716, 0.011644, 0.010377, 0.00914, 0.006872, 0.006635 ], "gate_score_top1": 0.831055, "gate_scores": [ 0.831055, 0.759277, 0.668457, 0.73291, 0.637207, 0.636719, 0.623047, 0.604004, 0.597656, 0.550781 ] }, { "question_id": "10066651", "image_id": 411943, "question": "những gì chỉ có nhà vệ sinh và bể chứa cho nhà vệ sinh bị treo trên tường phía trên nhà vệ sinh", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "bồn tiểu", "vòi hoa sen", "khăn", "bồn tắm", "tường", "nhà ở", "cửa", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.711445, "confidences": [ 0.711445, 0.032504, 0.029711, 0.029023, 0.019371, 0.018849, 0.016059, 0.012051, 0.011934, 0.009533 ], "gate_score_top1": 0.812012, "gate_scores": [ 0.812012, 0.741699, 0.671875, 0.710449, 0.693848, 0.760254, 0.613281, 0.737793, 0.613281, 0.598145 ] }, { "question_id": "10029811", "image_id": 75230, "question": "dụng cụ chăm sóc răng miệng đã hiển thị ở đâu", "ground_truth": "người giữ", "ground_truth_normalized": "người giữ", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "tách", "người giữ", "phòng tắm", "thùng chứa", "gương", "máy sấy khô", "tường", "cửa hàng", "ảnh chụp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.160251, "confidences": [ 0.160251, 0.11057, 0.089193, 0.043982, 0.034454, 0.03432, 0.023132, 0.020533, 0.018659, 0.01791 ], "gate_score_top1": 0.717773, "gate_scores": [ 0.717773, 0.779785, 0.583984, 0.685547, 0.708496, 0.663574, 0.649902, 0.62793, 0.724609, 0.541504 ] }, { "question_id": "10076771", "image_id": 392476, "question": "những gì được sắp xếp rất gọn gàng với thiết bị điện tử", "ground_truth": "cái bàn", "ground_truth_normalized": "cái bàn", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "cái bàn", "laptop", "bàn phím", "văn phòng", "chuột", "trang thiết bị", "bức tranh", "phòng ngủ", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.486931, "confidences": [ 0.486931, 0.364694, 0.038139, 0.022774, 0.018807, 0.006525, 0.003405, 0.002845, 0.002845, 0.001808 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.874023, 0.820312, 0.771973, 0.757812, 0.712891, 0.518066, 0.599609, 0.614258, 0.561523 ] }, { "question_id": "10110431", "image_id": 296657, "question": "bao nhiêu người đàn ông đang đeo cà vạt đang nhảy ra ngoài", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "năm", "bảy", "chín", "tám", "ba", "mười", "một", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.392132, "confidences": [ 0.392132, 0.283548, 0.249254, 0.039903, 0.006907, 0.003837, 0.003661, 0.001706, 0.000722, 0.000502 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.834473, 0.82959, 0.769043, 0.666016, 0.605469, 0.570801, 0.517578, 0.47876, 0.506348 ] }, { "question_id": "10101551", "image_id": 477906, "question": "người đàn ông mặc những gì đang nhảy trên ván trượt của mình", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "trượt tuyết", "áo sơ mi", "núi", "đồi", "mũ", "cây", "nón", "bức ảnh", "ván lướt sóng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.736316, "confidences": [ 0.736316, 0.099261, 0.010794, 0.010421, 0.008949, 0.004526, 0.004344, 0.003308, 0.003247, 0.002221 ], "gate_score_top1": 0.811523, "gate_scores": [ 0.811523, 0.817383, 0.563965, 0.708008, 0.703125, 0.569336, 0.619141, 0.605957, 0.588379, 0.621094 ] }, { "question_id": "10102371", "image_id": 229935, "question": "có bao nhiêu người đang ném đĩa ném cho một người khác ở phía trước của một số cái cây", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "bảy", "cái ghế", "hươu cao cổ", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.862267, "confidences": [ 0.862267, 0.118533, 0.01284, 0.000657, 0.000154, 0.000102, 9.4e-05, 8.5e-05, 8.3e-05, 7.9e-05 ], "gate_score_top1": 0.883789, "gate_scores": [ 0.883789, 0.852539, 0.783691, 0.640625, 0.381836, 0.39917, 0.37793, 0.550781, 0.485596, 0.400635 ] }, { "question_id": "10038051", "image_id": 442793, "question": "những con ngựa vằn nằm ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "lồng", "predicted_topk": [ "lồng", "chuồng", "vườn bách thú", "rào chắn", "chuồng trại", "bãi cỏ", "tòa nhà", "hồ bơi", "bảo tàng", "gấu trúc" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.376251, "confidences": [ 0.376251, 0.352078, 0.229101, 0.005388, 0.002106, 0.00191, 0.001315, 0.001186, 0.001026, 0.00088 ], "gate_score_top1": 0.887207, "gate_scores": [ 0.887207, 0.866699, 0.872559, 0.655273, 0.693848, 0.574219, 0.63916, 0.654297, 0.57959, 0.655273 ] }, { "question_id": "10099971", "image_id": 475042, "question": "cái gì đỗ cùng với con đường đất", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "xe cộ", "động cơ", "xe ô tô", "xe đẩy", "xe buýt", "đoạn phim giới thiệu", "màu trắng", "đường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.753331, "confidences": [ 0.753331, 0.152452, 0.021538, 0.011894, 0.011305, 0.003441, 0.002116, 0.001704, 0.001154, 0.001107 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.794434, 0.757812, 0.629395, 0.65625, 0.629883, 0.648438, 0.456055, 0.52832, 0.572754 ] }, { "question_id": "10085101", "image_id": 460378, "question": "những gì trên bảng trên một quầy trong một nhà bếp", "ground_truth": "công cụ", "ground_truth_normalized": "công cụ", "predicted_top1": "quầy tính tiền", "predicted_topk": [ "quầy tính tiền", "phòng bếp", "bếp", "chậu", "bông hoa", "công cụ", "tường", "tủ đá", "bức ảnh", "cái kệ" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.243847, "confidences": [ 0.243847, 0.202156, 0.090764, 0.032744, 0.032489, 0.030224, 0.019514, 0.015927, 0.015558, 0.010861 ], "gate_score_top1": 0.720215, "gate_scores": [ 0.720215, 0.742188, 0.745117, 0.630371, 0.647461, 0.569824, 0.592285, 0.724609, 0.555664, 0.612793 ] }, { "question_id": "10117821", "image_id": 338242, "question": "có bao nhiêu băng ghế được căn chỉnh trong một hàng vào lúc hoàng hôn", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.394982, "confidences": [ 0.394982, 0.340496, 0.143053, 0.080245, 0.014671, 0.013782, 0.003087, 0.001386, 0.000966, 0.000813 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.870605, 0.855469, 0.800293, 0.76709, 0.655762, 0.657227, 0.605957, 0.490723, 0.539551 ] }, { "question_id": "10000591", "image_id": 80739, "question": "màu của ánh sáng là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu đỏ", "màu xanh lá", "màu đen", "màu nâu", "màu xám", "màu trắng", "màu xanh dương", "màu cam", "màu tía" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.807758, "confidences": [ 0.807758, 0.121004, 0.056492, 0.003138, 0.001508, 0.001065, 0.000895, 0.000728, 0.000604, 0.000475 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.835938, 0.82373, 0.711426, 0.640137, 0.698242, 0.695312, 0.624023, 0.773926, 0.652344 ] }, { "question_id": "10051611", "image_id": 516119, "question": "người đàn ông đang chụp ảnh mình ở đâu", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "ô cửa", "hành lang", "máy ảnh", "vòi hoa sen", "phòng", "nhà ở", "điện thoại", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.849008, "confidences": [ 0.849008, 0.131221, 0.002205, 0.00141, 0.001146, 0.000943, 0.000749, 0.000502, 0.000492, 0.000424 ], "gate_score_top1": 0.915039, "gate_scores": [ 0.915039, 0.856445, 0.670898, 0.580566, 0.566406, 0.624512, 0.658203, 0.631836, 0.537109, 0.604492 ] }, { "question_id": "10045911", "image_id": 119579, "question": "những bông hoa màu đỏ ở đâu", "ground_truth": "cái lọ", "ground_truth_normalized": "cái lọ", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cái lọ", "bông hoa", "bát", "cái nồi", "tách", "cây", "cửa sổ", "hoa hồng", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.82581, "confidences": [ 0.82581, 0.127635, 0.006582, 0.005597, 0.003133, 0.002288, 0.001429, 0.001324, 0.001239, 0.001194 ], "gate_score_top1": 0.867188, "gate_scores": [ 0.867188, 0.791992, 0.769531, 0.756836, 0.659668, 0.653809, 0.666504, 0.695312, 0.604492, 0.643555 ] }, { "question_id": "10115121", "image_id": 10733, "question": "có bao nhiêu con ngựa vằn đang gặm cỏ trong khi một con khác quan sát từ phía sau", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "bãi cỏ", "ngựa rằn", "cây", "sáu", "bảy", "máy ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.654397, "confidences": [ 0.654397, 0.321429, 0.008466, 0.001164, 0.000421, 0.000296, 0.000276, 0.000272, 0.000197, 0.00019 ], "gate_score_top1": 0.864258, "gate_scores": [ 0.864258, 0.837891, 0.728516, 0.593262, 0.480713, 0.435547, 0.393066, 0.348389, 0.369629, 0.32251 ] }, { "question_id": "10090201", "image_id": 403333, "question": "những gì bao gồm bánh sô cô la suy đồi trên đầu", "ground_truth": "món tráng miệng", "ground_truth_normalized": "món tráng miệng", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bánh", "món tráng miệng", "món ăn", "quán ăn", "sô cô la", "bữa ăn", "cái nĩa", "cái mâm", "dĩa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.57283, "confidences": [ 0.57283, 0.075728, 0.036477, 0.03367, 0.02136, 0.017952, 0.017952, 0.012194, 0.009497, 0.009009 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.71582, 0.725098, 0.716797, 0.69873, 0.592773, 0.708496, 0.560547, 0.604492, 0.642578 ] }, { "question_id": "10078581", "image_id": 486383, "question": "những gì được bao phủ bởi máy tính và các bộ phận khác nhau", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quầy tính tiền", "cái bàn", "máy tính", "chậu", "văn phòng", "phòng", "tủ đá", "nhà ở", "bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.322893, "confidences": [ 0.322893, 0.160469, 0.086567, 0.033702, 0.022189, 0.016393, 0.014897, 0.013432, 0.012447, 0.011444 ], "gate_score_top1": 0.776855, "gate_scores": [ 0.776855, 0.647949, 0.719238, 0.674316, 0.661133, 0.632324, 0.696777, 0.677246, 0.682617, 0.532227 ] }, { "question_id": "10014601", "image_id": 569349, "question": "màu của băng ghế là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu đen", "màu vàng", "màu xanh dương", "màu tía", "màu xám", "màu trắng", "màu đỏ", "màu nâu", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.657943, "confidences": [ 0.657943, 0.11982, 0.114781, 0.067213, 0.011145, 0.004197, 0.003193, 0.003156, 0.001417, 0.000512 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.78125, 0.821289, 0.783203, 0.752441, 0.656738, 0.693359, 0.681641, 0.675781, 0.404053 ] }, { "question_id": "10054731", "image_id": 383533, "question": "người đàn ông và phụ nữ kéo những gì qua nước", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "cây sào", "ca nô", "con thuyền", "trượt tuyết", "chiếc ô", "vạch kẻ đường", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.448227, "confidences": [ 0.448227, 0.389427, 0.028431, 0.009339, 0.005405, 0.004596, 0.003737, 0.003594, 0.002865, 0.002096 ], "gate_score_top1": 0.82959, "gate_scores": [ 0.82959, 0.802246, 0.68457, 0.625, 0.460205, 0.604492, 0.67627, 0.650391, 0.480957, 0.593262 ] }, { "question_id": "10018591", "image_id": 539675, "question": "màu của tường là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu xám", "màu đen", "màu xanh lá", "màu nâu", "màu trắng", "màu vàng", "màu tía", "màu xanh dương", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.747215, "confidences": [ 0.747215, 0.193406, 0.032195, 0.00538, 0.004158, 0.003447, 0.00278, 0.001442, 0.001126, 0.00072 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.864746, 0.814453, 0.666992, 0.717285, 0.802734, 0.701172, 0.708984, 0.612793, 0.700195 ] }, { "question_id": "10095501", "image_id": 497096, "question": "những gì trong quá trình hạ cánh", "ground_truth": "máy bay trực thăng", "ground_truth_normalized": "máy bay trực thăng", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "bầu trời", "động cơ", "diều", "mũ", "sân bay", "hải âu", "ga-ra", "màu xám", "xe máy" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.947821, "confidences": [ 0.947821, 0.002688, 0.002086, 0.001612, 0.001305, 0.000898, 0.000851, 0.000792, 0.000783, 0.000766 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.528809, 0.523926, 0.612793, 0.490234, 0.504395, 0.404053, 0.41748, 0.560059, 0.601562 ] }, { "question_id": "10035931", "image_id": 557239, "question": "mèo trắng cuộn tròn ở đâu", "ground_truth": "bát", "ground_truth_normalized": "bát", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "bát", "bồn tắm", "phòng tắm", "giường", "cái rổ", "cái nồi", "tách", "cái ghế", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.52676, "confidences": [ 0.52676, 0.28977, 0.025419, 0.024927, 0.014315, 0.007677, 0.006254, 0.00488, 0.003983, 0.003853 ], "gate_score_top1": 0.854004, "gate_scores": [ 0.854004, 0.793457, 0.739258, 0.764648, 0.622559, 0.608398, 0.605469, 0.572266, 0.661621, 0.500488 ] }, { "question_id": "10116231", "image_id": 387393, "question": "nấu bao nhiêu bánh rán trong một thùng mỡ sôi", "ground_truth": "tám", "ground_truth_normalized": "tám", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "năm", "tám", "bảy", "bốn", "ba", "một", "chín", "chảo", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.342996, "confidences": [ 0.342996, 0.265047, 0.107929, 0.092678, 0.079893, 0.010277, 0.006532, 0.005501, 0.003855, 0.003566 ], "gate_score_top1": 0.797852, "gate_scores": [ 0.797852, 0.778809, 0.713867, 0.76416, 0.708008, 0.597656, 0.564453, 0.597168, 0.581543, 0.508301 ] }, { "question_id": "10035291", "image_id": 302481, "question": "đâu là bến trực thăng", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "bảo tàng", "kho", "tòa nhà", "sân bay", "máy bay", "phòng", "trạm", "sân vận động", "cửa tiệm" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.744469, "confidences": [ 0.744469, 0.084843, 0.032077, 0.026697, 0.019608, 0.014859, 0.007074, 0.006279, 0.003656, 0.003543 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.819824, 0.768066, 0.742676, 0.745605, 0.607422, 0.711914, 0.678223, 0.68457, 0.655762 ] }, { "question_id": "10096421", "image_id": 418226, "question": "những gì sạch sẽ và sẵn sàng cho khách để sử dụng", "ground_truth": "nhà vệ sinh", "ground_truth_normalized": "phòng tắm", "predicted_top1": "bồn tiểu", "predicted_topk": [ "bồn tiểu", "phòng tắm", "tường", "vòi hoa sen", "phòng", "nhà ở", "bồn tắm", "khăn", "bức ảnh", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.390034, "confidences": [ 0.390034, 0.297883, 0.034617, 0.026803, 0.014041, 0.011709, 0.011371, 0.010193, 0.00683, 0.005569 ], "gate_score_top1": 0.78418, "gate_scores": [ 0.78418, 0.767578, 0.619141, 0.624023, 0.727539, 0.696777, 0.65625, 0.664551, 0.54834, 0.547852 ] }, { "question_id": "10039851", "image_id": 238887, "question": "phòng tắm có hai bồn rửa mặt ở đâu?", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "vòi hoa sen", "nhà ở", "ô cửa", "phòng", "hành lang", "cửa", "chuồng", "chậu" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.760654, "confidences": [ 0.760654, 0.140158, 0.018674, 0.012735, 0.011282, 0.009613, 0.00737, 0.00268, 0.00193, 0.001713 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.84668, 0.744629, 0.779297, 0.702637, 0.738281, 0.607422, 0.677246, 0.602539, 0.64502 ] }, { "question_id": "10031721", "image_id": 278742, "question": "những người đang làm việc trên máy tính ở đâu", "ground_truth": "thư viện", "ground_truth_normalized": "thư viện", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "thư viện", "phòng", "lớp học", "cái ghế", "cửa tiệm", "sân bay", "cửa hàng", "tòa nhà", "cái bàn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.526508, "confidences": [ 0.526508, 0.15203, 0.078565, 0.036536, 0.021187, 0.018552, 0.013441, 0.010927, 0.009077, 0.007995 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.748535, 0.763672, 0.76123, 0.61377, 0.751953, 0.671875, 0.722168, 0.645996, 0.627441 ] }, { "question_id": "10015061", "image_id": 332614, "question": "màu của bánh là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu vàng", "màu cam", "màu đen", "màu nâu", "màu xanh lá", "màu đỏ", "màu xanh dương", "màu xám", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.568952, "confidences": [ 0.568952, 0.19207, 0.126456, 0.049328, 0.019698, 0.015952, 0.011312, 0.001658, 0.001623, 0.000845 ], "gate_score_top1": 0.880371, "gate_scores": [ 0.880371, 0.856934, 0.856934, 0.785156, 0.760254, 0.766602, 0.78418, 0.656738, 0.700684, 0.668457 ] }, { "question_id": "10114621", "image_id": 402407, "question": "có bao nhiêu người trên mặt đất một người đang cầm gậy bóng chày", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "năm", "sáu", "tám", "bảy", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.591325, "confidences": [ 0.591325, 0.355865, 0.040874, 0.005797, 0.000603, 0.000417, 0.000294, 0.000162, 0.000142, 0.000134 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.879883, 0.809082, 0.76709, 0.61084, 0.421631, 0.466309, 0.450928, 0.37207, 0.381104 ] }, { "question_id": "10034151", "image_id": 474279, "question": "đâu là nhà vệ sinh cũ đã phá hủy", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "nhà ở", "tòa nhà", "chuồng", "vòi hoa sen", "cửa sổ", "ô cửa", "hành lang", "ga-ra" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.616259, "confidences": [ 0.616259, 0.190164, 0.020319, 0.014982, 0.014953, 0.012518, 0.008773, 0.007475, 0.006967, 0.006846 ], "gate_score_top1": 0.844727, "gate_scores": [ 0.844727, 0.841797, 0.774414, 0.664551, 0.619141, 0.689941, 0.67627, 0.549805, 0.592285, 0.681641 ] }, { "question_id": "10109411", "image_id": 546171, "question": "có bao nhiêu con voi với bàn chân trước trên lưng của một con voi khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "hươu cao cổ", "bãi cỏ", "bảy", "năm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.872848, "confidences": [ 0.872848, 0.091282, 0.029519, 0.000749, 0.000181, 0.000124, 0.000111, 0.000104, 9.8e-05, 9.3e-05 ], "gate_score_top1": 0.892578, "gate_scores": [ 0.892578, 0.845215, 0.816895, 0.640625, 0.376709, 0.414551, 0.489746, 0.437012, 0.36084, 0.501465 ] }, { "question_id": "10081181", "image_id": 457054, "question": "công nhân lái xe gì chở hàng", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "xe cộ", "predicted_topk": [ "xe cộ", "xe tải", "xe đẩy", "phương tiện giao thông", "xe tay ga", "xe", "xe ô tô", "xe buýt", "toa xe", "động cơ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.311647, "confidences": [ 0.311647, 0.21503, 0.12445, 0.093208, 0.00794, 0.007258, 0.007202, 0.006337, 0.006047, 0.005248 ], "gate_score_top1": 0.786133, "gate_scores": [ 0.786133, 0.755859, 0.782227, 0.768066, 0.499756, 0.495605, 0.613281, 0.628418, 0.536133, 0.531738 ] }, { "question_id": "10072011", "image_id": 376751, "question": "những gì cùng nhau xuống núi tuyết bao phủ", "ground_truth": "trượt tuyết", "ground_truth_normalized": "trượt tuyết", "predicted_top1": "núi", "predicted_topk": [ "núi", "đồi", "trượt tuyết", "ván trượt", "trang thiết bị", "cây", "bầu trời", "bức ảnh", "năm", "ba lan" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.575661, "confidences": [ 0.575661, 0.151348, 0.076103, 0.060674, 0.010985, 0.008179, 0.00523, 0.003971, 0.002353, 0.002258 ], "gate_score_top1": 0.789551, "gate_scores": [ 0.789551, 0.791016, 0.759766, 0.796387, 0.643066, 0.572266, 0.562012, 0.546875, 0.549805, 0.517578 ] }, { "question_id": "10119041", "image_id": 231088, "question": "có bao nhiêu chiếc ô lơ lửng trên không gần một tòa nhà", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "năm", "bảy", "ba", "tám", "chín", "hai", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.453439, "confidences": [ 0.453439, 0.227114, 0.18178, 0.066873, 0.031465, 0.006912, 0.005177, 0.002445, 0.002333, 0.001875 ], "gate_score_top1": 0.836426, "gate_scores": [ 0.836426, 0.77832, 0.812988, 0.778809, 0.727051, 0.632812, 0.644531, 0.585449, 0.558594, 0.51709 ] }, { "question_id": "10067011", "image_id": 542234, "question": "những gì đang bay trên mặt nước vào lúc hoàng hôn", "ground_truth": "hải âu", "ground_truth_normalized": "hải âu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vịt", "con vẹt", "con ngựa", "máy bay", "diều", "màu xám", "con chó", "bức tượng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.537667, "confidences": [ 0.537667, 0.415477, 0.005567, 0.003254, 0.001169, 0.000972, 0.000649, 0.000643, 0.00062, 0.000596 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.857422, 0.665527, 0.719727, 0.583984, 0.541016, 0.527344, 0.512207, 0.490723, 0.46875 ] }, { "question_id": "10065951", "image_id": 342060, "question": "cái gì đang ngồi trên băng ghế công viên bên cạnh một hành lý nhỏ với một chiếc ô trên đầu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "túi", "hành lý", "balo", "cái ví", "cái ghế", "băng ghế", "con chó", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.255315, "confidences": [ 0.255315, 0.19884, 0.130402, 0.07696, 0.042335, 0.038172, 0.029097, 0.011551, 0.011394, 0.00759 ], "gate_score_top1": 0.809082, "gate_scores": [ 0.809082, 0.813965, 0.725586, 0.744141, 0.682129, 0.734863, 0.639648, 0.639648, 0.629883, 0.663574 ] }, { "question_id": "10042361", "image_id": 102437, "question": "hai người khác đang chèo thuyền ở đâu trong một dòng sông", "ground_truth": "ca nô", "ground_truth_normalized": "ca nô", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "ca nô", "bến du thuyền", "thuyền buồm", "hồ", "xe đạp", "bến tàu", "hồ bơi", "áo vest", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.48083, "confidences": [ 0.48083, 0.221001, 0.026706, 0.013118, 0.007387, 0.006047, 0.005742, 0.005708, 0.005087, 0.004076 ], "gate_score_top1": 0.726562, "gate_scores": [ 0.726562, 0.700195, 0.739258, 0.588379, 0.429688, 0.543945, 0.478516, 0.608887, 0.440918, 0.483154 ] }, { "question_id": "10044711", "image_id": 504850, "question": "người giữ dấu hiệu dừng ở đâu", "ground_truth": "đường phố", "ground_truth_normalized": "đường phố", "predicted_top1": "đường", "predicted_topk": [ "đường", "đường phố", "áo vest", "gương", "xe ô tô", "vạch kẻ đường", "ảnh chụp", "phương tiện giao thông", "xe đẩy", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.512788, "confidences": [ 0.512788, 0.38406, 0.020275, 0.008305, 0.005597, 0.003862, 0.003621, 0.001682, 0.001426, 0.001308 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.833984, 0.671875, 0.732422, 0.684082, 0.688965, 0.566895, 0.544434, 0.625488, 0.574219 ] }, { "question_id": "10073841", "image_id": 571215, "question": "những gì được treo ở phía bên của một bức tường", "ground_truth": "bức tranh", "ground_truth_normalized": "bức tranh", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "tòa nhà", "ga-ra", "cây", "đường phố", "bức ảnh", "áo sơ mi", "vòi", "màu đen", "tường" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.435136, "confidences": [ 0.435136, 0.027067, 0.019044, 0.017995, 0.017995, 0.014919, 0.012429, 0.011562, 0.010527, 0.010284 ], "gate_score_top1": 0.788574, "gate_scores": [ 0.788574, 0.69873, 0.523926, 0.67041, 0.682617, 0.631348, 0.50293, 0.618652, 0.54834, 0.537109 ] }, { "question_id": "10089401", "image_id": 473754, "question": "người đàn ông và một người phụ nữ đứng bên cạnh nhau ở bãi biển", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "vạch kẻ đường", "cây sào", "ca nô", "diều", "áo vest", "cái lều", "trượt tuyết" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.623314, "confidences": [ 0.623314, 0.277676, 0.018243, 0.005146, 0.004208, 0.002333, 0.002067, 0.001899, 0.001808, 0.001348 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.813477, 0.644531, 0.57959, 0.57666, 0.488037, 0.643066, 0.531738, 0.467041, 0.638184 ] }, { "question_id": "10047121", "image_id": 333048, "question": "con hươu cao cổ nằm ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lồng", "hồ bơi", "bảo tàng", "rào chắn", "cây", "lá", "tòa nhà", "sân vườn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.728019, "confidences": [ 0.728019, 0.199029, 0.032491, 0.002895, 0.002143, 0.001801, 0.001794, 0.001739, 0.001341, 0.000846 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.851562, 0.84375, 0.679688, 0.604004, 0.632324, 0.67041, 0.623047, 0.645996, 0.663574 ] }, { "question_id": "10041541", "image_id": 361638, "question": "phòng tắm với gương lớn ở đâu", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "gương", "nhà ở", "phòng", "bồn tắm", "ô cửa", "cửa", "hành lang", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.780058, "confidences": [ 0.780058, 0.053291, 0.039758, 0.037203, 0.014915, 0.008285, 0.005991, 0.005617, 0.005124, 0.003914 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.788086, 0.782227, 0.808105, 0.771973, 0.736816, 0.62793, 0.679199, 0.574707, 0.695312 ] }, { "question_id": "10093301", "image_id": 352652, "question": "cái gì đậu so với đồng hồ đậu xe bị chìm trong tuyết", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe đạp", "vòi", "đường", "xe cộ", "phương tiện giao thông", "xe tải", "cửa sổ", "cây", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.446825, "confidences": [ 0.446825, 0.057365, 0.02448, 0.017875, 0.016339, 0.014589, 0.012119, 0.012001, 0.011013, 0.010295 ], "gate_score_top1": 0.76123, "gate_scores": [ 0.76123, 0.675781, 0.641602, 0.612793, 0.612793, 0.603516, 0.550293, 0.64502, 0.578613, 0.513672 ] }, { "question_id": "10119581", "image_id": 544825, "question": "có bao nhiêu người đang cưỡi trên con thuyền đỏ trên mặt nước", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.53406, "confidences": [ 0.53406, 0.264379, 0.142066, 0.02213, 0.010132, 0.00454, 0.004248, 0.001706, 0.000922, 0.000539 ], "gate_score_top1": 0.855469, "gate_scores": [ 0.855469, 0.811035, 0.780273, 0.734375, 0.681152, 0.621582, 0.648926, 0.535645, 0.525391, 0.503906 ] }, { "question_id": "10001941", "image_id": 364885, "question": "màu sắc của đội là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh lá", "màu trắng", "màu nâu", "màu đen", "màu đỏ", "màu cam", "màu xanh dương", "màu tía", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.491834, "confidences": [ 0.491834, 0.401423, 0.035628, 0.031197, 0.007827, 0.005193, 0.00471, 0.004565, 0.002144, 0.00166 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.858887, 0.82666, 0.773438, 0.680664, 0.688477, 0.762695, 0.698242, 0.710449, 0.685059 ] }, { "question_id": "10047851", "image_id": 285131, "question": "mũi tên chỉ nằm ở đâu", "ground_truth": "đường bộ", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "xe ô tô", "vạch kẻ đường", "ảnh chụp", "áo vest", "cửa sổ", "tòa nhà", "gương", "xe tải" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.675654, "confidences": [ 0.675654, 0.174883, 0.108587, 0.003971, 0.003135, 0.002456, 0.001818, 0.001714, 0.001708, 0.001399 ], "gate_score_top1": 0.853027, "gate_scores": [ 0.853027, 0.862305, 0.821289, 0.677734, 0.559082, 0.592285, 0.651367, 0.69873, 0.706055, 0.624512 ] }, { "question_id": "10015511", "image_id": 78572, "question": "màu của ánh sáng là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu vàng", "màu xanh lá", "màu đỏ", "màu đen", "màu xám", "màu cam", "màu nâu", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.648803, "confidences": [ 0.648803, 0.128759, 0.123343, 0.041315, 0.033458, 0.004528, 0.002443, 0.002335, 0.000524, 0.000478 ], "gate_score_top1": 0.866211, "gate_scores": [ 0.866211, 0.812012, 0.809082, 0.797852, 0.773926, 0.730957, 0.755371, 0.668945, 0.563965, 0.621094 ] }, { "question_id": "10065761", "image_id": 478155, "question": "cái gì đằng sau chúng", "ground_truth": "dĩa", "ground_truth_normalized": "dĩa", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "dĩa", "rau", "rượu", "đĩa", "thịt", "chén đĩa", "món ăn", "bữa ăn tối" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.126097, "confidences": [ 0.126097, 0.109128, 0.06697, 0.063035, 0.04852, 0.039678, 0.037787, 0.02638, 0.016933, 0.016735 ], "gate_score_top1": 0.740723, "gate_scores": [ 0.740723, 0.727051, 0.685059, 0.785645, 0.718262, 0.661133, 0.623535, 0.631836, 0.699219, 0.600586 ] }, { "question_id": "10046071", "image_id": 152389, "question": "cặp vợ chồng đang đứng ở đâu", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "bồn tắm", "phòng", "gương", "nhà ở", "chậu", "ô cửa", "bồn tiểu", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.895113, "confidences": [ 0.895113, 0.024611, 0.013806, 0.010964, 0.007107, 0.003708, 0.003184, 0.002917, 0.00263, 0.00238 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.757812, 0.756348, 0.759277, 0.717773, 0.747559, 0.664062, 0.580078, 0.582031, 0.624023 ] }, { "question_id": "10094941", "image_id": 388457, "question": "những chiếc giường được làm gọn gàng trong một phòng ngủ iwth", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "giường", "predicted_topk": [ "giường", "phòng ngủ", "cửa", "phòng", "khăn", "cửa sổ", "nhiều cái ghế", "tường", "cái kệ", "bức ảnh" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.408497, "confidences": [ 0.408497, 0.165694, 0.042554, 0.026943, 0.023181, 0.01485, 0.011656, 0.011634, 0.009293, 0.008545 ], "gate_score_top1": 0.754395, "gate_scores": [ 0.754395, 0.717285, 0.658691, 0.708008, 0.608887, 0.568359, 0.539551, 0.522949, 0.586426, 0.553711 ] }, { "question_id": "10110601", "image_id": 488243, "question": "có bao nhiêu người trên ván trượt trên một con dốc lạnh lẽo", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "chín", "tám", "một", "hai", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.54706, "confidences": [ 0.54706, 0.260439, 0.146093, 0.018429, 0.007743, 0.00319, 0.002671, 0.001592, 0.001151, 0.00109 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.837402, 0.837891, 0.73291, 0.667969, 0.65332, 0.628906, 0.601562, 0.571289, 0.564453 ] }, { "question_id": "10067351", "image_id": 371564, "question": "người đàn ông mặc gì và được che bởi một chiếc ô đang sử dụng điện thoại di động của anh ấy", "ground_truth": "nón", "ground_truth_normalized": "nón", "predicted_top1": "điện thoại", "predicted_topk": [ "điện thoại", "nón", "chiếc ô", "máy ảnh", "bức ảnh", "cà vạt", "thiết bị", "áo sơ mi", "gương", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.426242, "confidences": [ 0.426242, 0.109896, 0.082631, 0.037027, 0.017456, 0.012115, 0.010262, 0.009056, 0.00677, 0.005629 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.772461, 0.765137, 0.738281, 0.611816, 0.72168, 0.611328, 0.618164, 0.583008, 0.631836 ] }, { "question_id": "10032361", "image_id": 14677, "question": "nơi nào ba người đàn ông leo dốc bên cạnh những cái cây", "ground_truth": "trượt tuyết", "ground_truth_normalized": "trượt tuyết", "predicted_top1": "đồi", "predicted_topk": [ "đồi", "trượt tuyết", "núi", "năm", "ván trượt", "bốn", "cây", "ba", "sáu", "trang thiết bị" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.26132, "confidences": [ 0.26132, 0.180306, 0.123922, 0.04159, 0.039608, 0.027169, 0.023013, 0.01415, 0.012884, 0.009706 ], "gate_score_top1": 0.772949, "gate_scores": [ 0.772949, 0.774902, 0.70459, 0.677734, 0.700195, 0.583008, 0.664551, 0.458252, 0.754395, 0.613281 ] }, { "question_id": "10037021", "image_id": 28690, "question": "nhiều ngựa vằn đang cùng nhau ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "bảo tàng", "tòa nhà", "chuồng trại", "bãi cỏ", "cửa tiệm", "lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.514506, "confidences": [ 0.514506, 0.423221, 0.026223, 0.003487, 0.002841, 0.002002, 0.001278, 0.001015, 0.000919, 0.000639 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.872559, 0.853027, 0.645996, 0.681641, 0.673828, 0.666016, 0.51416, 0.643555, 0.583008 ] }, { "question_id": "10118331", "image_id": 88560, "question": "có bao nhiêu nhóm trái cây đặt trên ghế đá", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "chín", "một", "hai", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.50475, "confidences": [ 0.50475, 0.355136, 0.070755, 0.034215, 0.01674, 0.002328, 0.002003, 0.001104, 0.000921, 0.000877 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.843262, 0.757812, 0.791992, 0.716797, 0.603516, 0.60498, 0.581543, 0.561035, 0.554688 ] }, { "question_id": "10048751", "image_id": 189278, "question": "hai lò nướng ở đâu, và một trong số chúng đang được sử dụng", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "tạp dề", "lò vi sóng", "cửa tiệm", "phòng", "nhà ở", "chảo", "cửa hàng", "bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.832831, "confidences": [ 0.832831, 0.076863, 0.035744, 0.011247, 0.005678, 0.005251, 0.002353, 0.001598, 0.001516, 0.000871 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.849121, 0.750977, 0.708008, 0.653809, 0.699219, 0.701172, 0.57666, 0.67041, 0.568848 ] }, { "question_id": "10031371", "image_id": 51949, "question": "coupe của nhà vệ sinh ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "nhà ở", "chuồng", "hành lang", "gương", "vòi hoa sen", "tòa nhà", "ô cửa", "ga-ra" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.729485, "confidences": [ 0.729485, 0.190297, 0.00828, 0.005894, 0.004467, 0.004147, 0.003445, 0.002812, 0.002801, 0.002652 ], "gate_score_top1": 0.880371, "gate_scores": [ 0.880371, 0.837402, 0.760742, 0.664551, 0.556152, 0.682129, 0.633301, 0.5625, 0.479736, 0.649902 ] }, { "question_id": "10075121", "image_id": 531563, "question": "cái gì gắn lò nướng màu đen bên cạnh mặt quầy", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "bếp", "tủ đá", "tường", "phòng bếp", "cửa", "quầy tính tiền", "tủ lạnh", "chảo", "cái kệ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.513043, "confidences": [ 0.513043, 0.209732, 0.036304, 0.025394, 0.023902, 0.019815, 0.019815, 0.006284, 0.005535, 0.005149 ], "gate_score_top1": 0.791016, "gate_scores": [ 0.791016, 0.805664, 0.800781, 0.618652, 0.633789, 0.69043, 0.606445, 0.656738, 0.609375, 0.638184 ] }, { "question_id": "10108491", "image_id": 40455, "question": "có bao nhiêu con vịt đang đứng cạnh nhau", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.577792, "confidences": [ 0.577792, 0.30927, 0.045969, 0.042019, 0.009864, 0.003116, 0.001879, 0.000862, 0.00052, 0.000399 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.847168, 0.728516, 0.779785, 0.714844, 0.615234, 0.646973, 0.526855, 0.546875, 0.552734 ] }, { "question_id": "10014551", "image_id": 445143, "question": "màu của bàn chải là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu đen", "màu trắng", "màu xanh dương", "màu xanh lá", "màu vàng", "màu xám", "màu đỏ", "màu cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.679326, "confidences": [ 0.679326, 0.169098, 0.08536, 0.040008, 0.005289, 0.0043, 0.002955, 0.002338, 0.002306, 0.001106 ], "gate_score_top1": 0.89502, "gate_scores": [ 0.89502, 0.815918, 0.856934, 0.793945, 0.679688, 0.743164, 0.754395, 0.739258, 0.754395, 0.765625 ] }, { "question_id": "10054541", "image_id": 478407, "question": "người đàn ông đang thưởng thức gì trên một bàn bếp", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "sandwich", "predicted_topk": [ "sandwich", "bữa ăn", "pizza", "đĩa ăn", "con chó", "quán ăn", "cái mâm", "dĩa", "búi tóc", "bữa trưa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.782366, "confidences": [ 0.782366, 0.062002, 0.030574, 0.021013, 0.012695, 0.005482, 0.005109, 0.004122, 0.004097, 0.00218 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.731934, 0.776367, 0.758301, 0.769043, 0.623047, 0.65332, 0.589844, 0.634277, 0.464111 ] }, { "question_id": "10007031", "image_id": 531289, "question": "màu của bánh là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu cam", "màu nâu", "màu vàng", "màu đỏ", "màu đen", "màu xanh lá", "màu xanh dương", "màu xám", "màu tía" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.975615, "confidences": [ 0.975615, 0.00697, 0.004643, 0.004244, 0.002193, 0.001898, 0.001394, 0.000897, 0.000288, 0.000252 ], "gate_score_top1": 0.916504, "gate_scores": [ 0.916504, 0.822754, 0.773926, 0.798828, 0.796387, 0.756836, 0.739258, 0.71875, 0.74707, 0.683594 ] }, { "question_id": "10041301", "image_id": 342441, "question": "thú nhồi bông bán ở đâu", "ground_truth": "cửa hàng", "ground_truth_normalized": "cửa hàng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "ga-ra", "cửa hàng", "nhà ở", "cửa tiệm", "tòa nhà", "kho", "chậu", "cái ghế" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.410044, "confidences": [ 0.410044, 0.194449, 0.061186, 0.02673, 0.019864, 0.016308, 0.016244, 0.012825, 0.011474, 0.011385 ], "gate_score_top1": 0.806152, "gate_scores": [ 0.806152, 0.814453, 0.777344, 0.680664, 0.726562, 0.714355, 0.633301, 0.686035, 0.658203, 0.590332 ] }, { "question_id": "10032961", "image_id": 47316, "question": "gối hoa màu xanh lá cây và hồng nằm ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "giường", "cửa sổ", "lọ cắm hoa", "nhà ở", "hành lang", "cái ghế", "cửa", "gương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.706981, "confidences": [ 0.706981, 0.114067, 0.071661, 0.019822, 0.00987, 0.007494, 0.004934, 0.003058, 0.002762, 0.002486 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.822266, 0.666504, 0.701172, 0.622559, 0.711914, 0.574707, 0.603027, 0.589355, 0.745605 ] }, { "question_id": "10045031", "image_id": 552569, "question": "chuỗi hạt treo ở đâu", "ground_truth": "ô cửa", "ground_truth_normalized": "ô cửa", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "cửa sổ", "lọ cắm hoa", "ô cửa", "phòng bếp", "phòng ngủ", "quán ăn", "tường", "nhiều cái ghế" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.419129, "confidences": [ 0.419129, 0.398376, 0.020624, 0.016735, 0.012781, 0.010658, 0.008716, 0.007677, 0.006748, 0.005518 ], "gate_score_top1": 0.848145, "gate_scores": [ 0.848145, 0.838379, 0.751953, 0.660156, 0.63623, 0.740723, 0.705078, 0.688477, 0.543457, 0.563477 ] }, { "question_id": "10052961", "image_id": 419974, "question": "người đàn ông cắt gì trong bếp của mình", "ground_truth": "thịt", "ground_truth_normalized": "thịt", "predicted_top1": "con chó", "predicted_topk": [ "con chó", "đồ chơi", "mũ", "bức ảnh", "bánh", "bữa ăn", "con chim", "gấu", "thịt", "con mèo" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.797154, "confidences": [ 0.797154, 0.018349, 0.00564, 0.004939, 0.004834, 0.003891, 0.003585, 0.003335, 0.003299, 0.002869 ], "gate_score_top1": 0.813965, "gate_scores": [ 0.813965, 0.64209, 0.571289, 0.5, 0.637695, 0.51709, 0.467041, 0.648926, 0.438232, 0.566406 ] }, { "question_id": "10034491", "image_id": 376776, "question": "người đàn ông nướng bánh ở đâu", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "lò vi sóng", "bếp", "tạp dề", "chậu", "chảo", "quán ăn", "quầy tính tiền", "nhà ở", "tủ lạnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.912138, "confidences": [ 0.912138, 0.056077, 0.005796, 0.002315, 0.001771, 0.001494, 0.001283, 0.001229, 0.001074, 0.000928 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.803711, 0.67627, 0.62793, 0.679199, 0.626465, 0.65625, 0.609375, 0.665039, 0.710449 ] }, { "question_id": "10036641", "image_id": 452872, "question": "con mèo đang cuộn tròn ở đâu", "ground_truth": "quả bóng", "ground_truth_normalized": "quả bóng", "predicted_top1": "giường", "predicted_topk": [ "giường", "cái rổ", "bát", "cái ghế", "cái túi", "bồn tắm", "vali", "hành lý", "con chó", "phòng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.806635, "confidences": [ 0.806635, 0.043423, 0.031894, 0.031155, 0.009138, 0.003214, 0.002675, 0.002047, 0.001957, 0.001949 ], "gate_score_top1": 0.828613, "gate_scores": [ 0.828613, 0.744629, 0.698242, 0.763184, 0.65625, 0.567871, 0.613281, 0.492676, 0.659668, 0.567871 ] }, { "question_id": "10070911", "image_id": 384213, "question": "những gì được hiển thị với sự đa dạng của các mặt hàng trên quầy", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "phòng bếp", "quầy tính tiền", "bếp", "tủ đá", "bông hoa", "cửa sổ", "tường", "nhà ở", "công cụ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.336441, "confidences": [ 0.336441, 0.316057, 0.114916, 0.027779, 0.015583, 0.009107, 0.009089, 0.007684, 0.007134, 0.006611 ], "gate_score_top1": 0.811523, "gate_scores": [ 0.811523, 0.789551, 0.694824, 0.709961, 0.742188, 0.643555, 0.65625, 0.598145, 0.655762, 0.55127 ] }, { "question_id": "10051951", "image_id": 222686, "question": "đồng hồ gắn ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "trạm", "hành lang", "tòa tháp", "ô cửa", "phòng", "bảo tàng", "đường phố", "nhà ở", "kho" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.293883, "confidences": [ 0.293883, 0.141558, 0.053207, 0.039003, 0.02755, 0.02578, 0.021456, 0.017139, 0.01492, 0.010477 ], "gate_score_top1": 0.778809, "gate_scores": [ 0.778809, 0.762695, 0.685547, 0.658203, 0.575684, 0.662598, 0.675781, 0.703125, 0.634766, 0.655762 ] }, { "question_id": "10023251", "image_id": 426762, "question": "màu của vỉa hè là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu vàng", "màu trắng", "màu đỏ", "màu nâu", "màu xanh dương", "màu xanh lá", "màu cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.858472, "confidences": [ 0.858472, 0.089778, 0.018455, 0.01115, 0.008683, 0.004248, 0.002087, 0.000581, 0.000236, 0.000162 ], "gate_score_top1": 0.870117, "gate_scores": [ 0.870117, 0.837891, 0.791992, 0.808105, 0.73291, 0.729004, 0.694824, 0.573242, 0.652344, 0.661133 ] }, { "question_id": "10045351", "image_id": 572301, "question": "một số chanh và cam và nho ở đâu trong đĩa", "ground_truth": "lọ cắm hoa", "ground_truth_normalized": "lọ cắm hoa", "predicted_top1": "bát", "predicted_topk": [ "bát", "lọ cắm hoa", "đĩa ăn", "cái lọ", "tách", "cái nồi", "phòng", "quán ăn", "cái rổ", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.409283, "confidences": [ 0.409283, 0.351448, 0.029132, 0.02014, 0.012702, 0.008511, 0.008494, 0.007585, 0.005815, 0.005647 ], "gate_score_top1": 0.833984, "gate_scores": [ 0.833984, 0.797363, 0.68457, 0.6875, 0.680664, 0.648438, 0.712891, 0.683594, 0.667969, 0.598145 ] }, { "question_id": "10105051", "image_id": 357229, "question": "có bao nhiêu lát bánh pizza phô mai với một cái nĩa và một con dao", "ground_truth": "tám", "ground_truth_normalized": "tám", "predicted_top1": "hai", "predicted_topk": [ "hai", "bốn", "ba", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.260694, "confidences": [ 0.260694, 0.24682, 0.143969, 0.092591, 0.064136, 0.058854, 0.051134, 0.033014, 0.003668, 0.002947 ], "gate_score_top1": 0.824219, "gate_scores": [ 0.824219, 0.803711, 0.803223, 0.725586, 0.742676, 0.679199, 0.696777, 0.664062, 0.50293, 0.485352 ] }, { "question_id": "10024501", "image_id": 407751, "question": "màu của cỏ là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu nâu", "màu vàng", "màu đen", "màu xám", "màu trắng", "màu đỏ", "màu cam", "màu xanh dương", "ngựa rằn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.415226, "confidences": [ 0.415226, 0.384021, 0.102154, 0.031399, 0.020273, 0.008651, 0.007785, 0.004778, 0.004713, 0.001821 ], "gate_score_top1": 0.852051, "gate_scores": [ 0.852051, 0.853027, 0.83252, 0.771484, 0.780762, 0.798828, 0.744629, 0.770508, 0.708008, 0.526367 ] }, { "question_id": "10087881", "image_id": 487159, "question": "những gì bao gồm salad, nước, rau và đồ nhúng", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "quán ăn", "bát", "món ăn", "chén đĩa", "dĩa", "thịt", "rau", "đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.253076, "confidences": [ 0.253076, 0.17191, 0.125281, 0.067321, 0.060111, 0.036317, 0.029468, 0.019477, 0.016337, 0.013838 ], "gate_score_top1": 0.796875, "gate_scores": [ 0.796875, 0.768555, 0.79541, 0.748047, 0.747559, 0.693359, 0.659668, 0.678223, 0.669434, 0.590332 ] }, { "question_id": "10090101", "image_id": 466416, "question": "những gì được thắp sáng trong đêm", "ground_truth": "các tòa nhà", "ground_truth_normalized": "các tòa nhà", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "các tòa nhà", "tòa tháp", "đồng hồ", "lá cờ", "cầu", "bức ảnh", "bức tượng", "cây", "cờ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.388688, "confidences": [ 0.388688, 0.158276, 0.146954, 0.0571, 0.021588, 0.014494, 0.013536, 0.011222, 0.00857, 0.005971 ], "gate_score_top1": 0.790039, "gate_scores": [ 0.790039, 0.768066, 0.79248, 0.70459, 0.680176, 0.714355, 0.674805, 0.59082, 0.65625, 0.569824 ] }, { "question_id": "10109171", "image_id": 348966, "question": "có bao nhiêu chiếc bánh rán nằm bên cạnh ly trà đá trên bàn ăn ngoài trời", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.773731, "confidences": [ 0.773731, 0.191098, 0.017027, 0.01108, 0.001448, 0.000964, 0.000436, 0.000232, 0.000145, 9.8e-05 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.868164, 0.816895, 0.751465, 0.600098, 0.481934, 0.510254, 0.474609, 0.421143, 0.374512 ] }, { "question_id": "10031681", "image_id": 207740, "question": "con mèo ngồi ở đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "túi", "cái ví", "xe đẩy", "hộp", "balo", "thùng chứa", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.838977, "confidences": [ 0.838977, 0.088083, 0.025835, 0.004411, 0.003435, 0.003336, 0.00305, 0.002479, 0.00215, 0.001807 ], "gate_score_top1": 0.866211, "gate_scores": [ 0.866211, 0.848633, 0.780273, 0.711914, 0.646973, 0.681152, 0.675293, 0.584961, 0.682617, 0.664551 ] }, { "question_id": "10117011", "image_id": 168453, "question": "có bao nhiêu người đang tận hưởng thời gian của họ trên bãi biển", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "chín", "tám", "hai", "một", "mười" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.526593, "confidences": [ 0.526593, 0.241092, 0.162495, 0.0278, 0.018884, 0.004664, 0.003053, 0.002443, 0.001422, 0.001035 ], "gate_score_top1": 0.86377, "gate_scores": [ 0.86377, 0.835938, 0.802246, 0.741211, 0.709473, 0.652832, 0.637695, 0.611816, 0.584961, 0.521484 ] }, { "question_id": "10072241", "image_id": 367452, "question": "cái gì nằm trên đỉnh tòa nhà gạch", "ground_truth": "tòa tháp", "ground_truth_normalized": "tòa tháp", "predicted_top1": "đồng hồ", "predicted_topk": [ "đồng hồ", "tòa tháp", "bức tượng", "tòa nhà", "các tòa nhà", "lá cờ", "cờ", "cầu", "cây", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.638877, "confidences": [ 0.638877, 0.298268, 0.012554, 0.010206, 0.003479, 0.002715, 0.002511, 0.001805, 0.001602, 0.001581 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.852539, 0.700195, 0.684082, 0.639648, 0.672852, 0.597656, 0.584473, 0.655273, 0.625488 ] }, { "question_id": "10062121", "image_id": 372466, "question": "những gì được đặt trên bàn", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "chuột", "predicted_topk": [ "chuột", "máy tính", "bàn phím", "cái bàn", "laptop", "văn phòng", "cái ghế", "nón", "trang thiết bị", "bức tranh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.736998, "confidences": [ 0.736998, 0.100917, 0.05595, 0.024828, 0.01246, 0.004584, 0.003, 0.001981, 0.001913, 0.001362 ], "gate_score_top1": 0.864258, "gate_scores": [ 0.864258, 0.824707, 0.72998, 0.815918, 0.786621, 0.65625, 0.623535, 0.621094, 0.507812, 0.466309 ] }, { "question_id": "10049751", "image_id": 524662, "question": "nhiều trái cây và rau quả ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "thùng chứa", "cái túi", "cái rổ", "vali", "ngăn kéo", "giấy bạc", "toa xe", "cái mâm", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.56376, "confidences": [ 0.56376, 0.310124, 0.030947, 0.009625, 0.005132, 0.004083, 0.003703, 0.003125, 0.00253, 0.002148 ], "gate_score_top1": 0.851562, "gate_scores": [ 0.851562, 0.837891, 0.764648, 0.714844, 0.663086, 0.574219, 0.666992, 0.624023, 0.645996, 0.540527 ] }, { "question_id": "10087951", "image_id": 473942, "question": "cái gì đang bị treo trên móc", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "đồ chơi", "con chó", "cái kệ", "gấu trúc", "màu nâu", "cây", "chuột", "cái ghế", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.851865, "confidences": [ 0.851865, 0.121293, 0.0015, 0.001311, 0.001251, 0.000624, 0.000488, 0.000471, 0.00043, 0.000366 ], "gate_score_top1": 0.876953, "gate_scores": [ 0.876953, 0.821777, 0.687988, 0.524902, 0.683105, 0.633789, 0.585449, 0.554688, 0.537598, 0.558594 ] }, { "question_id": "10088501", "image_id": 515289, "question": "những gì chào đón ba người đi xe đạp trên một con đường công viên", "ground_truth": "chim bồ câu", "ground_truth_normalized": "chim bồ câu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "xe đạp", "chim bồ câu", "mười", "cây", "đồi", "đường", "cửa sổ", "con ngựa", "xe máy" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.193218, "confidences": [ 0.193218, 0.141362, 0.13917, 0.022279, 0.015134, 0.011592, 0.008993, 0.008022, 0.007142, 0.007107 ], "gate_score_top1": 0.688965, "gate_scores": [ 0.688965, 0.772461, 0.669922, 0.589355, 0.541016, 0.588867, 0.564453, 0.558594, 0.521484, 0.500977 ] }, { "question_id": "10045561", "image_id": 115616, "question": "người đàn ông cơ bắp bám vào dây ở đâu", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "ca nô", "ván lướt sóng", "áo vest", "thuyền buồm", "bến du thuyền", "trượt tuyết", "cây sào", "bến tàu", "bảng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.324707, "confidences": [ 0.324707, 0.247991, 0.02933, 0.026087, 0.025383, 0.022843, 0.020839, 0.011176, 0.008193, 0.006356 ], "gate_score_top1": 0.712402, "gate_scores": [ 0.712402, 0.664551, 0.692871, 0.577148, 0.640137, 0.719727, 0.748535, 0.59375, 0.507324, 0.554688 ] }, { "question_id": "10032721", "image_id": 546126, "question": "mọi người đứng và ngồi ở đâu", "ground_truth": "tàu hoả", "ground_truth_normalized": "tàu hoả", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe điện ngầm", "sân bay", "xe đẩy", "áo vest", "ảnh chụp", "xe điện", "kho", "xe ô tô", "bộ đồ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.598787, "confidences": [ 0.598787, 0.125513, 0.0304, 0.013385, 0.008166, 0.007164, 0.006796, 0.006639, 0.006335, 0.006057 ], "gate_score_top1": 0.833496, "gate_scores": [ 0.833496, 0.760742, 0.740234, 0.684082, 0.62793, 0.506836, 0.631348, 0.616211, 0.601074, 0.458252 ] }, { "question_id": "10050051", "image_id": 79887, "question": "nhà kệ máy xay và máy trộn ở đâu", "ground_truth": "cửa hàng", "ground_truth_normalized": "cửa hàng", "predicted_top1": "tủ lạnh", "predicted_topk": [ "tủ lạnh", "tủ đá", "phòng bếp", "cửa", "lò vi sóng", "cái kệ", "cửa hàng", "chai", "cửa tiệm", "cửa sổ" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.323142, "confidences": [ 0.323142, 0.276398, 0.090791, 0.053582, 0.045297, 0.044075, 0.00781, 0.005919, 0.005648, 0.005023 ], "gate_score_top1": 0.827148, "gate_scores": [ 0.827148, 0.801758, 0.720703, 0.712891, 0.702148, 0.702637, 0.689453, 0.574707, 0.628418, 0.589844 ] }, { "question_id": "10101521", "image_id": 415619, "question": "những gì bạn có thể nhìn xuyên qua cửa sổ bên cạnh giường", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "giường", "cửa sổ", "cây", "cửa", "tường", "phòng", "cái kệ", "gấu", "bức ảnh" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.219703, "confidences": [ 0.219703, 0.152184, 0.122283, 0.089464, 0.053841, 0.017651, 0.012788, 0.010561, 0.009229, 0.009157 ], "gate_score_top1": 0.71875, "gate_scores": [ 0.71875, 0.734375, 0.701172, 0.692871, 0.6875, 0.54248, 0.653809, 0.578125, 0.554688, 0.535156 ] }, { "question_id": "10114161", "image_id": 356569, "question": "người đàn ông sử dụng bao nhiêu máy tính xách tay cho mỗi máy tính trẻ em", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "năm", "sáu", "bảy", "mười", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.553275, "confidences": [ 0.553275, 0.236109, 0.195741, 0.007531, 0.000974, 0.000624, 0.000256, 0.000251, 0.000245, 0.000133 ], "gate_score_top1": 0.891602, "gate_scores": [ 0.891602, 0.868164, 0.854492, 0.763184, 0.646973, 0.420654, 0.452393, 0.468262, 0.457031, 0.391602 ] }, { "question_id": "10016621", "image_id": 299974, "question": "màu của tường là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xanh lá", "màu vàng", "màu đen", "màu nâu", "màu đỏ", "màu cam", "màu tía", "màu xanh dương", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.89373, "confidences": [ 0.89373, 0.08313, 0.011428, 0.001865, 0.001837, 0.00178, 0.001712, 0.000603, 0.000195, 0.000184 ], "gate_score_top1": 0.916016, "gate_scores": [ 0.916016, 0.852051, 0.775391, 0.736328, 0.731934, 0.758301, 0.762207, 0.69043, 0.589355, 0.689453 ] }, { "question_id": "10102691", "image_id": 340259, "question": "có bao nhiêu ly rượu trên quầy", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.437448, "confidences": [ 0.437448, 0.401425, 0.097608, 0.028853, 0.014508, 0.003711, 0.001834, 0.000997, 0.000599, 0.000515 ], "gate_score_top1": 0.841309, "gate_scores": [ 0.841309, 0.841797, 0.754395, 0.769043, 0.70166, 0.591797, 0.61084, 0.515137, 0.469238, 0.520508 ] }, { "question_id": "10056321", "image_id": 363276, "question": "nam đeo kính râm đang cầm cái gì", "ground_truth": "ngoài trời", "ground_truth_normalized": "ngoài trời", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "áo sơ mi", "chảo", "bữa ăn", "đĩa ăn", "quán ăn", "món ăn", "lò vi sóng", "mũ", "rượu" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.832523, "confidences": [ 0.832523, 0.014664, 0.007119, 0.006101, 0.005178, 0.004931, 0.003412, 0.003134, 0.002818, 0.002568 ], "gate_score_top1": 0.863281, "gate_scores": [ 0.863281, 0.57959, 0.609863, 0.651855, 0.604004, 0.538086, 0.595215, 0.58252, 0.587402, 0.489258 ] }, { "question_id": "10001301", "image_id": 427732, "question": "màu của dấu chấm là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh dương", "màu trắng", "màu cam", "màu xám", "màu đỏ", "màu nâu", "màu tía", "màu đen", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.84856, "confidences": [ 0.84856, 0.102942, 0.008483, 0.007876, 0.007284, 0.007116, 0.004316, 0.002328, 0.002141, 0.000915 ], "gate_score_top1": 0.894531, "gate_scores": [ 0.894531, 0.848633, 0.764648, 0.79248, 0.724609, 0.775391, 0.707031, 0.689453, 0.575684, 0.578613 ] }, { "question_id": "10070511", "image_id": 440123, "question": "cái gì đang trưng bày những chiếc bánh pizza tự làm với một cái ly bên cạnh nó", "ground_truth": "đĩa", "ground_truth_normalized": "đĩa", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "đĩa ăn", "bữa ăn", "đĩa", "nến", "chai", "kính đeo", "pizza", "nước", "dĩa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.304665, "confidences": [ 0.304665, 0.047923, 0.035199, 0.03513, 0.031862, 0.029181, 0.028118, 0.023265, 0.018914, 0.017699 ], "gate_score_top1": 0.74707, "gate_scores": [ 0.74707, 0.69043, 0.711426, 0.692871, 0.636719, 0.73584, 0.611816, 0.67334, 0.588379, 0.599121 ] }, { "question_id": "10073681", "image_id": 537668, "question": "những gì con tàu đến xung quanh điểm ngôi nhà ánh sáng", "ground_truth": "hàng hoá", "ground_truth_normalized": "hàng hoá", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "bến du thuyền", "cầu", "hàng hoá", "thuyền buồm", "ca nô", "động cơ", "các tòa nhà", "bến tàu", "cây" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.289151, "confidences": [ 0.289151, 0.069897, 0.042395, 0.040374, 0.015734, 0.013939, 0.013563, 0.011727, 0.010099, 0.009656 ], "gate_score_top1": 0.744141, "gate_scores": [ 0.744141, 0.680664, 0.614746, 0.556152, 0.59082, 0.48291, 0.632324, 0.53418, 0.519043, 0.585449 ] }, { "question_id": "10047471", "image_id": 212082, "question": "đi bộ ở đâu với một chiếc khăn treo trên bên đó", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "gương", "bồn tắm", "khăn", "cửa", "nhà ở", "tường", "chậu", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.438814, "confidences": [ 0.438814, 0.243285, 0.058466, 0.051395, 0.022019, 0.017521, 0.017283, 0.012995, 0.012793, 0.00909 ], "gate_score_top1": 0.808594, "gate_scores": [ 0.808594, 0.802246, 0.755859, 0.783203, 0.680664, 0.654785, 0.728516, 0.625488, 0.689941, 0.623047 ] }, { "question_id": "10044081", "image_id": 456245, "question": "bốn người ngồi ở đâu", "ground_truth": "ca nô", "ground_truth_normalized": "ca nô", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "ca nô", "bến du thuyền", "thuyền buồm", "ván lướt sóng", "áo vest", "xe đẩy", "bảng", "bốn", "bến tàu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.646876, "confidences": [ 0.646876, 0.197286, 0.01489, 0.0122, 0.004595, 0.003791, 0.00261, 0.002363, 0.002194, 0.001978 ], "gate_score_top1": 0.804688, "gate_scores": [ 0.804688, 0.697266, 0.653809, 0.603027, 0.577637, 0.471436, 0.631348, 0.507812, 0.540039, 0.428955 ] }, { "question_id": "10052421", "image_id": 505562, "question": "những gì đầy người và diều được bay", "ground_truth": "bờ biển", "ground_truth_normalized": "bờ biển", "predicted_top1": "diều", "predicted_topk": [ "diều", "bờ biển", "con chó", "đồ chơi", "dĩa nhựa", "chiếc ô", "mũ", "con bò", "nón", "con ngựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.268261, "confidences": [ 0.268261, 0.098688, 0.092347, 0.042528, 0.028496, 0.022498, 0.014162, 0.013915, 0.012078, 0.012031 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.645508, 0.726074, 0.696289, 0.65918, 0.671875, 0.640137, 0.519531, 0.598633, 0.584473 ] }, { "question_id": "10101541", "image_id": 489588, "question": "những gì đang chăn thả trên một cánh đồng mở", "ground_truth": "con bò", "ground_truth_normalized": "con bò", "predicted_top1": "con cừu", "predicted_topk": [ "con cừu", "con bò", "gia súc", "con chó", "chuồng trại", "bãi cỏ", "gấu", "cái lều", "chuồng", "bò đực" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.965508, "confidences": [ 0.965508, 0.005248, 0.00393, 0.00107, 0.000998, 0.000624, 0.000591, 0.000556, 0.000551, 0.000543 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.712891, 0.625488, 0.58252, 0.544922, 0.605469, 0.563477, 0.341797, 0.572754, 0.512695 ] }, { "question_id": "10119641", "image_id": 83257, "question": "có bao nhiêu người đàn ông tại một bữa tiệc hóa trang trong câu lạc bộ bóng tối", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.591743, "confidences": [ 0.591743, 0.212647, 0.161773, 0.025298, 0.001455, 0.001105, 0.000673, 0.00038, 0.000339, 0.000196 ], "gate_score_top1": 0.898926, "gate_scores": [ 0.898926, 0.875488, 0.864258, 0.782715, 0.511719, 0.670898, 0.543457, 0.492188, 0.487305, 0.427246 ] }, { "question_id": "10100541", "image_id": 579277, "question": "những gì đỗ ở lối đi ngoài trời", "ground_truth": "xe tay ga", "ground_truth_normalized": "xe tay ga", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "xe tay ga", "rau", "xe đạp", "hoa quả", "cửa tiệm", "cà rốt", "xe máy", "xe đẩy", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.359302, "confidences": [ 0.359302, 0.167091, 0.05096, 0.034079, 0.028253, 0.020832, 0.015787, 0.011194, 0.010153, 0.008684 ], "gate_score_top1": 0.753906, "gate_scores": [ 0.753906, 0.769043, 0.631348, 0.651367, 0.637695, 0.658203, 0.602539, 0.554199, 0.596191, 0.52832 ] }, { "question_id": "10100881", "image_id": 566687, "question": "những gì đầy màu sắc và trông ngon miệng và phong phú", "ground_truth": "rau xà lách", "ground_truth_normalized": "rau xà lách", "predicted_top1": "bát", "predicted_topk": [ "bát", "đĩa ăn", "món ăn", "rau", "bữa ăn", "rau xà lách", "chén đĩa", "thịt", "dĩa", "chảo" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.286427, "confidences": [ 0.286427, 0.19305, 0.165125, 0.084009, 0.027649, 0.027114, 0.019606, 0.015299, 0.010806, 0.008976 ], "gate_score_top1": 0.792969, "gate_scores": [ 0.792969, 0.830566, 0.807617, 0.768555, 0.72998, 0.653809, 0.686523, 0.674805, 0.628418, 0.688965 ] }, { "question_id": "10054181", "image_id": 434129, "question": "cái gì đang ngồi trên bàn", "ground_truth": "mũ lưỡi trai", "ground_truth_normalized": "mũ lưỡi trai", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "nón", "mũ", "mũ lưỡi trai", "gậy", "dao", "quả bóng", "màu trắng", "hộp", "món tráng miệng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.158207, "confidences": [ 0.158207, 0.153939, 0.044191, 0.039535, 0.027066, 0.023653, 0.015911, 0.014701, 0.009717, 0.009031 ], "gate_score_top1": 0.703125, "gate_scores": [ 0.703125, 0.712891, 0.587402, 0.530762, 0.700684, 0.573242, 0.577637, 0.576172, 0.542969, 0.41748 ] }, { "question_id": "10047951", "image_id": 537316, "question": "cậu bé ăn thức ăn ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "giường", "bồn tắm", "cái rổ", "bát", "cái túi", "xe lăn", "hành lý", "phòng tắm", "vali" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.432859, "confidences": [ 0.432859, 0.220221, 0.059504, 0.02423, 0.013407, 0.012793, 0.00979, 0.009714, 0.008132, 0.007332 ], "gate_score_top1": 0.789062, "gate_scores": [ 0.789062, 0.773926, 0.664551, 0.647949, 0.634766, 0.598633, 0.593262, 0.563477, 0.543945, 0.604492 ] }, { "question_id": "10116431", "image_id": 371134, "question": "có bao nhiêu chiếc máy bay đang cất cánh và chiếc khác đã sẵn sàng hạ cánh", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "năm", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.658328, "confidences": [ 0.658328, 0.299059, 0.033949, 0.002909, 0.000659, 0.00039, 0.000298, 0.000231, 0.000151, 0.00014 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.873535, 0.832031, 0.692383, 0.479736, 0.518555, 0.607422, 0.492432, 0.453613, 0.461182 ] }, { "question_id": "10043781", "image_id": 243825, "question": "người dân đi xe đạp và ván trượt ở đâu", "ground_truth": "đường", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "xe tay ga", "ảnh chụp", "vạch kẻ đường", "xe đạp", "xe lăn", "cửa tiệm", "áo vest", "gương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.682917, "confidences": [ 0.682917, 0.257189, 0.007498, 0.004766, 0.003741, 0.002689, 0.002327, 0.00167, 0.001563, 0.001503 ], "gate_score_top1": 0.887207, "gate_scores": [ 0.887207, 0.87793, 0.720215, 0.616211, 0.723633, 0.688965, 0.746582, 0.586914, 0.574219, 0.681641 ] }, { "question_id": "10012281", "image_id": 110735, "question": "màu của con chó là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu nâu", "màu xám", "màu đen", "màu vàng", "con chó", "màu tía", "màu xanh dương", "gấu", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.481948, "confidences": [ 0.481948, 0.399549, 0.056227, 0.015614, 0.007669, 0.00195, 0.001779, 0.001199, 0.001188, 0.001053 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.84375, 0.81543, 0.780762, 0.716797, 0.655273, 0.669434, 0.617676, 0.575684, 0.636719 ] }, { "question_id": "10112051", "image_id": 557679, "question": "có bao nhiêu người ngồi quanh bàn ăn một bữa ăn", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "bảy", "tám", "một", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.586369, "confidences": [ 0.586369, 0.313861, 0.069216, 0.013736, 0.004583, 0.002642, 0.00183, 0.001673, 0.000456, 0.000429 ], "gate_score_top1": 0.90332, "gate_scores": [ 0.90332, 0.86084, 0.804199, 0.655273, 0.714844, 0.67334, 0.611328, 0.65918, 0.533691, 0.4729 ] }, { "question_id": "10094031", "image_id": 491131, "question": "những gì cho thấy băng ghế gỗ ở phía đường phố", "ground_truth": "những bức ảnh", "ground_truth_normalized": "những bức ảnh", "predicted_top1": "băng ghế", "predicted_topk": [ "băng ghế", "vòi", "những bức ảnh", "cái ghế", "sân vườn", "bức tượng", "cửa sổ", "cây", "lối đi", "hồ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.759993, "confidences": [ 0.759993, 0.016692, 0.015288, 0.007672, 0.00748, 0.005871, 0.005181, 0.005041, 0.004792, 0.004653 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.749512, 0.550293, 0.67041, 0.697754, 0.546387, 0.617676, 0.682129, 0.575684, 0.455322 ] }, { "question_id": "10003151", "image_id": 294214, "question": "màu của móng tay là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu cam", "màu vàng", "màu đỏ", "màu đen", "màu xanh dương", "màu xám", "màu nâu", "màu xanh lá", "màu trắng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.323141, "confidences": [ 0.323141, 0.276398, 0.188487, 0.128537, 0.033926, 0.010469, 0.006399, 0.005326, 0.003725, 0.002033 ], "gate_score_top1": 0.828613, "gate_scores": [ 0.828613, 0.859863, 0.80957, 0.86377, 0.728516, 0.767578, 0.694336, 0.678223, 0.581055, 0.600098 ] }, { "question_id": "10101011", "image_id": 546649, "question": "nhà tù những gì với hai giường và sơn bong tróc từ tường", "ground_truth": "điện thoại", "ground_truth_normalized": "điện thoại", "predicted_top1": "giường", "predicted_topk": [ "giường", "phòng", "phòng ngủ", "tòa nhà", "nhà ở", "hành lang", "tường", "cửa", "khăn", "bức ảnh" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.390506, "confidences": [ 0.390506, 0.199451, 0.139239, 0.016727, 0.01376, 0.012825, 0.008395, 0.007614, 0.007097, 0.005217 ], "gate_score_top1": 0.766602, "gate_scores": [ 0.766602, 0.79248, 0.767578, 0.614746, 0.721191, 0.522461, 0.50293, 0.554688, 0.561035, 0.506348 ] }, { "question_id": "10046041", "image_id": 135149, "question": "nhà bếp kiểu phương tây trông rất đẹp ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "nhà ở", "phòng", "cửa sổ", "quán ăn", "chậu", "phòng tắm", "quầy tính tiền", "cái ghế", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.461997, "confidences": [ 0.461997, 0.361212, 0.064007, 0.007689, 0.006488, 0.005873, 0.004547, 0.003697, 0.003162, 0.003029 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.831543, 0.804199, 0.688965, 0.700195, 0.661133, 0.666504, 0.575684, 0.609863, 0.678711 ] }, { "question_id": "10002441", "image_id": 368435, "question": "màu của dĩa nhựa là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh lá", "màu xanh dương", "màu nâu", "màu xám", "màu cam", "màu tía", "màu trắng", "màu đỏ", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.37496, "confidences": [ 0.37496, 0.320721, 0.223899, 0.028577, 0.009685, 0.00961, 0.007368, 0.003921, 0.003705, 0.002296 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.836914, 0.842285, 0.773438, 0.730957, 0.773926, 0.709961, 0.751953, 0.743164, 0.621582 ] }, { "question_id": "10104641", "image_id": 120230, "question": "có bao nhiêu cô gái đang tham gia vào một môn thể thao dưới nước ở đại dương", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "tám", "bảy", "chín", "mười" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.816907, "confidences": [ 0.816907, 0.159607, 0.013256, 0.002172, 0.002057, 0.001392, 0.000375, 0.00032, 0.000186, 0.000139 ], "gate_score_top1": 0.89502, "gate_scores": [ 0.89502, 0.870605, 0.790039, 0.606445, 0.63916, 0.525391, 0.479736, 0.525391, 0.460938, 0.396729 ] }, { "question_id": "10106591", "image_id": 545268, "question": "người đàn ông trưởng thành với hai đứa trẻ, một cô gái, bao nhiêu cậu bé đều cầm bộ điều khiển", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "năm", "sáu", "phòng", "cái ghế", "bảy", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.386903, "confidences": [ 0.386903, 0.320754, 0.265914, 0.011867, 0.001313, 0.000836, 0.000664, 0.000431, 0.000394, 0.000299 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.864258, 0.867676, 0.754395, 0.589355, 0.443604, 0.567871, 0.625488, 0.475586, 0.437988 ] }, { "question_id": "10026721", "image_id": 33799, "question": "nước uống chim ở đâu treo ngoài cửa sổ", "ground_truth": "chai", "ground_truth_normalized": "chai", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "bát", "tách", "con chim", "chậu", "máy xay", "cái lọ", "chai", "cửa sổ", "phòng tắm" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.083366, "confidences": [ 0.083366, 0.066077, 0.065562, 0.055642, 0.030789, 0.027277, 0.021037, 0.018821, 0.018135, 0.014773 ], "gate_score_top1": 0.662109, "gate_scores": [ 0.662109, 0.754883, 0.629395, 0.637695, 0.69043, 0.597168, 0.632324, 0.485596, 0.616699, 0.624512 ] }, { "question_id": "10109951", "image_id": 433616, "question": "có bao nhiêu biển báo giao thông được gắn trên cùng một biển báo", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "một", "bảy", "ba", "sáu", "hai", "chín", "tám", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.328877, "confidences": [ 0.328877, 0.26323, 0.13392, 0.077205, 0.070022, 0.065268, 0.015084, 0.00873, 0.008495, 0.005474 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.836914, 0.772461, 0.765137, 0.788086, 0.729492, 0.676758, 0.659668, 0.619629, 0.567871 ] }, { "question_id": "10076061", "image_id": 533485, "question": "những gì đầy hoa hồng bên ngoài", "ground_truth": "cái nồi", "ground_truth_normalized": "cái nồi", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cái nồi", "cây", "bát", "bông hoa", "tách", "cái lọ", "sân vườn", "hoa hồng", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.750909, "confidences": [ 0.750909, 0.112928, 0.031729, 0.017251, 0.012971, 0.010774, 0.006535, 0.005149, 0.00339, 0.002176 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.751953, 0.784668, 0.78418, 0.800781, 0.698242, 0.717285, 0.704102, 0.641113, 0.615723 ] }, { "question_id": "10107621", "image_id": 54959, "question": "có bao nhiêu lò vi sóng đứng trong một hàng", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "bảy", "tám", "một", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.483959, "confidences": [ 0.483959, 0.368177, 0.124291, 0.008659, 0.003753, 0.003051, 0.001381, 0.001349, 0.000526, 0.000373 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.874512, 0.821777, 0.617188, 0.73877, 0.67041, 0.570801, 0.624512, 0.537109, 0.490234 ] }, { "question_id": "10031381", "image_id": 66708, "question": "một số bông cải xanh ở đâu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái nồi", "chảo", "món ăn", "máy xay", "chậu", "thùng chứa", "tách", "quầy tính tiền", "cái rổ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.458137, "confidences": [ 0.458137, 0.329984, 0.031668, 0.0301, 0.016429, 0.016397, 0.014135, 0.00902, 0.007507, 0.004716 ], "gate_score_top1": 0.838379, "gate_scores": [ 0.838379, 0.835938, 0.806152, 0.730469, 0.746582, 0.722168, 0.71582, 0.675781, 0.60791, 0.702148 ] }, { "question_id": "10081621", "image_id": 409856, "question": "tàu đang đến trạm là gì", "ground_truth": "theo dõi", "ground_truth_normalized": "theo dõi", "predicted_top1": "động cơ", "predicted_topk": [ "động cơ", "đường sắt", "màu đen", "cây", "hàng hoá", "xe ô tô", "màu xanh lá", "tàu hỏa", "màu đỏ", "các tòa nhà" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.134874, "confidences": [ 0.134874, 0.132265, 0.065732, 0.050399, 0.044738, 0.043531, 0.028885, 0.027029, 0.026977, 0.02461 ], "gate_score_top1": 0.647461, "gate_scores": [ 0.647461, 0.704102, 0.626465, 0.584473, 0.507324, 0.650879, 0.61377, 0.712891, 0.591309, 0.569336 ] }, { "question_id": "10110731", "image_id": 304614, "question": "có bao nhiêu người đàn ông trong những chiếc áo khoác tối đứng gần một người đàn ông", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.680452, "confidences": [ 0.680452, 0.294954, 0.01261, 0.007953, 0.000507, 0.000385, 0.000142, 0.00013, 8.9e-05, 8.3e-05 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.881348, 0.791992, 0.797363, 0.60498, 0.494141, 0.470459, 0.451416, 0.398438, 0.376221 ] }, { "question_id": "10073551", "image_id": 400367, "question": "những gì lấy ở tốc độ màn trập chậm trên đường phố vào ban đêm", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "đường", "đường phố", "xe cộ", "phương tiện giao thông", "xe buýt", "bức ảnh", "áo vest", "xe tải", "vạch kẻ đường" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.817878, "confidences": [ 0.817878, 0.081935, 0.021796, 0.003908, 0.003847, 0.00331, 0.00266, 0.002379, 0.002338, 0.00198 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.79834, 0.646484, 0.606934, 0.643066, 0.692871, 0.516113, 0.569336, 0.63916, 0.595215 ] }, { "question_id": "10115921", "image_id": 385339, "question": "có bao nhiêu cái dĩa một cái đĩa trắng và nâu và một cái xúc xích", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "ba", "bốn", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.54591, "confidences": [ 0.54591, 0.306228, 0.06173, 0.048642, 0.007666, 0.00643, 0.004542, 0.004284, 0.001201, 0.000863 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.862305, 0.800781, 0.772461, 0.708008, 0.585449, 0.612793, 0.606445, 0.520996, 0.501953 ] }, { "question_id": "10094461", "image_id": 425727, "question": "người phụ nữ bay trong ngày là gì", "ground_truth": "ngoài", "ground_truth_normalized": "ngoài", "predicted_top1": "diều", "predicted_topk": [ "diều", "áo sơ mi", "dĩa nhựa", "lá cờ", "chiếc ô", "bờ biển", "cây", "máy bay", "mũ", "ván trượt" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.945814, "confidences": [ 0.945814, 0.00748, 0.006336, 0.003371, 0.001812, 0.001805, 0.001461, 0.00126, 0.001204, 0.000899 ], "gate_score_top1": 0.90625, "gate_scores": [ 0.90625, 0.601074, 0.725098, 0.644531, 0.66748, 0.599121, 0.555176, 0.608887, 0.603027, 0.603516 ] }, { "question_id": "10025141", "image_id": 114510, "question": "nơi chụp ảnh tự sướng ở đâu", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "phòng bếp", "phòng ngủ", "hành lang", "ô cửa", "cửa", "cửa sổ", "cửa tiệm", "gương" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.483959, "confidences": [ 0.483959, 0.307623, 0.029987, 0.024666, 0.019437, 0.014671, 0.01381, 0.010465, 0.00468, 0.003949 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.859375, 0.775391, 0.821289, 0.717773, 0.657715, 0.681641, 0.734863, 0.625977, 0.729492 ] }, { "question_id": "10084561", "image_id": 516408, "question": "điều gì thu hút con mèo tò mò", "ground_truth": "truyền hình", "ground_truth_normalized": "truyền hình", "predicted_top1": "con chó", "predicted_topk": [ "con chó", "đồ chơi", "con mèo", "cửa sổ", "cửa", "truyền hình", "phòng", "cái kệ", "con chim", "giường" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.398991, "confidences": [ 0.398991, 0.054527, 0.047467, 0.039893, 0.02186, 0.014392, 0.012096, 0.011046, 0.010906, 0.00993 ], "gate_score_top1": 0.766113, "gate_scores": [ 0.766113, 0.648926, 0.689453, 0.658691, 0.650879, 0.484863, 0.587891, 0.535156, 0.530762, 0.561035 ] }, { "question_id": "10020991", "image_id": 142034, "question": "màu của nút là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu đỏ", "màu vàng", "màu đen", "màu xám", "màu trắng", "màu nâu", "màu cam", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.95287, "confidences": [ 0.95287, 0.024325, 0.005513, 0.004643, 0.002871, 0.002475, 0.001427, 0.00116, 0.000639, 0.000337 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.800781, 0.760254, 0.796387, 0.750488, 0.782715, 0.652832, 0.783203, 0.695801, 0.595215 ] }, { "question_id": "10028631", "image_id": 483272, "question": "những con vật ở đâu cùng nhau", "ground_truth": "chuồng trại", "ground_truth_normalized": "chuồng trại", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "chuồng trại", "lồng", "rào chắn", "con cừu", "con bò", "vườn bách thú", "bãi cỏ", "tòa nhà", "hay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.649725, "confidences": [ 0.649725, 0.230763, 0.012917, 0.010021, 0.007218, 0.004961, 0.004186, 0.003901, 0.003443, 0.002718 ], "gate_score_top1": 0.834961, "gate_scores": [ 0.834961, 0.821777, 0.750488, 0.616699, 0.63916, 0.656738, 0.686035, 0.60498, 0.67041, 0.454346 ] }, { "question_id": "10065551", "image_id": 463134, "question": "cái gì trên bàn gỗ", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "đĩa ăn", "cái kệ", "cây", "bát", "phòng bếp", "bức ảnh", "quầy tính tiền", "tường", "lọ cắm hoa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.133732, "confidences": [ 0.133732, 0.072709, 0.029781, 0.024259, 0.024024, 0.021201, 0.020389, 0.019079, 0.017853, 0.017542 ], "gate_score_top1": 0.723145, "gate_scores": [ 0.723145, 0.696289, 0.662598, 0.598145, 0.644531, 0.618652, 0.581055, 0.618164, 0.575195, 0.498047 ] }, { "question_id": "10080921", "image_id": 498994, "question": "chiếc vali ở đâu với những thứ trong đó", "ground_truth": "sàn nhà", "ground_truth_normalized": "sàn nhà", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hộp", "hành lý", "thùng chứa", "toa xe", "phòng", "sàn nhà", "phòng ngủ", "xe đẩy" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.520474, "confidences": [ 0.520474, 0.068539, 0.064386, 0.053587, 0.019829, 0.015085, 0.014451, 0.013979, 0.013235, 0.012098 ], "gate_score_top1": 0.770996, "gate_scores": [ 0.770996, 0.775879, 0.750977, 0.698242, 0.709473, 0.60498, 0.699219, 0.613281, 0.724609, 0.682129 ] }, { "question_id": "10039081", "image_id": 370479, "question": "đầu bếp và bồi bàn đang ở đâu", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "tạp dề", "phòng", "cửa tiệm", "lò vi sóng", "nhà ở", "cửa hàng", "chảo", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.860481, "confidences": [ 0.860481, 0.078796, 0.025984, 0.006005, 0.002528, 0.002343, 0.002129, 0.001674, 0.001011, 0.000803 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.849609, 0.75, 0.72998, 0.635254, 0.649902, 0.697266, 0.686035, 0.57959, 0.702148 ] }, { "question_id": "10083501", "image_id": 463134, "question": "cái gì có một cái bàn gỗ và một cái mũ", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "bông hoa", "cái kệ", "bức ảnh", "phòng", "đĩa ăn", "tường", "cửa sổ", "quầy tính tiền", "bếp" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.085882, "confidences": [ 0.085882, 0.083402, 0.047151, 0.033435, 0.029913, 0.029449, 0.028711, 0.027077, 0.025288, 0.023025 ], "gate_score_top1": 0.718262, "gate_scores": [ 0.718262, 0.70752, 0.704102, 0.604492, 0.647461, 0.619629, 0.620605, 0.593262, 0.647949, 0.668945 ] }, { "question_id": "10026701", "image_id": 459921, "question": "người đứng ở đâu trong khi chụp ảnh tự sướng", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "máy ảnh", "vòi hoa sen", "ô cửa", "hành lang", "nhà ở", "chậu", "bồn tắm", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.544184, "confidences": [ 0.544184, 0.401256, 0.008969, 0.003903, 0.003582, 0.003028, 0.00255, 0.001719, 0.001544, 0.00147 ], "gate_score_top1": 0.871582, "gate_scores": [ 0.871582, 0.845215, 0.599609, 0.663574, 0.650391, 0.532227, 0.671387, 0.650879, 0.684082, 0.614258 ] }, { "question_id": "10062841", "image_id": 560111, "question": "những gì đang ngồi trong một sân tàu", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "đường sắt", "các tòa nhà", "xe điện ngầm", "màu đỏ", "xe điện", "phương tiện giao thông" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.751608, "confidences": [ 0.751608, 0.11392, 0.081415, 0.005124, 0.004443, 0.003756, 0.002332, 0.001644, 0.001459, 0.001258 ], "gate_score_top1": 0.905273, "gate_scores": [ 0.905273, 0.797852, 0.79834, 0.601074, 0.556641, 0.671387, 0.622559, 0.588867, 0.600586, 0.538574 ] }, { "question_id": "10050201", "image_id": 285821, "question": "người đàn ông với một tạp dề chuẩn bị hỗn hợp ở đâu", "ground_truth": "bát", "ground_truth_normalized": "bát", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "bát", "chậu", "tạp dề", "quầy tính tiền", "lò vi sóng", "chảo", "phòng", "quán ăn", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.958708, "confidences": [ 0.958708, 0.009966, 0.004895, 0.002828, 0.001773, 0.001662, 0.001636, 0.001397, 0.001381, 0.001211 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.783203, 0.705078, 0.634766, 0.691895, 0.652344, 0.665039, 0.681152, 0.707031, 0.686035 ] }, { "question_id": "10082501", "image_id": 472598, "question": "cái gì đang đỗ trên đường lái xe râm mát", "ground_truth": "toa xe", "ground_truth_normalized": "toa xe", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "phương tiện giao thông", "xe tải", "xe cộ", "động cơ", "đường", "toa xe", "xe buýt", "xe đẩy", "đường đi bộ" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.668072, "confidences": [ 0.668072, 0.099689, 0.040753, 0.014446, 0.007494, 0.007378, 0.007321, 0.005952, 0.005905, 0.00354 ], "gate_score_top1": 0.807129, "gate_scores": [ 0.807129, 0.752441, 0.751953, 0.760742, 0.541504, 0.599609, 0.472168, 0.737793, 0.692383, 0.413818 ] }, { "question_id": "10065091", "image_id": 533281, "question": "những gì treo bên cạnh lò pizza", "ground_truth": "mái chèo", "ground_truth_normalized": "mái chèo", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "chảo", "pizza", "tạp dề", "bếp", "quán ăn", "phòng bếp", "dao", "tường", "gà" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.427442, "confidences": [ 0.427442, 0.052261, 0.049771, 0.03557, 0.032197, 0.024687, 0.016285, 0.014066, 0.011776, 0.010131 ], "gate_score_top1": 0.72998, "gate_scores": [ 0.72998, 0.648926, 0.76123, 0.688477, 0.633301, 0.695801, 0.634277, 0.688965, 0.461426, 0.498779 ] }, { "question_id": "10113141", "image_id": 432233, "question": "có bao nhiêu người đàn ông đang chơi trò chơi trên bãi cỏ", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "chín", "tám", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.495778, "confidences": [ 0.495778, 0.284702, 0.167367, 0.02103, 0.01017, 0.004029, 0.003556, 0.001417, 0.001379, 0.001193 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.856445, 0.812012, 0.743164, 0.681641, 0.649902, 0.643066, 0.541504, 0.576172, 0.585938 ] }, { "question_id": "10064241", "image_id": 523322, "question": "bảng màu nâu là một màn hình một đèn và các mặt hàng khác", "ground_truth": "bàn phím", "ground_truth_normalized": "bàn phím", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "phòng ngủ", "cái bàn", "bàn phím", "máy tính", "màu nâu", "cái ghế", "phòng", "giường", "màu trắng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.166903, "confidences": [ 0.166903, 0.15802, 0.080709, 0.067303, 0.035328, 0.035259, 0.023534, 0.017903, 0.016206, 0.014499 ], "gate_score_top1": 0.739746, "gate_scores": [ 0.739746, 0.708008, 0.676758, 0.658203, 0.71582, 0.612793, 0.608398, 0.734375, 0.596191, 0.626465 ] }, { "question_id": "10039541", "image_id": 16664, "question": "con mèo cuộn tròn ngủ ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái nồi", "chậu", "thùng chứa", "cái rổ", "tách", "giường", "món ăn", "chảo", "cái lọ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.837284, "confidences": [ 0.837284, 0.047421, 0.020158, 0.017859, 0.009229, 0.009015, 0.00378, 0.003544, 0.00291, 0.002288 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.778809, 0.738281, 0.729004, 0.73291, 0.679688, 0.444336, 0.650879, 0.730957, 0.619629 ] }, { "question_id": "10024701", "image_id": 92301, "question": "màu của quần short là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu đen", "màu vàng", "màu trắng", "màu xám", "màu xanh lá", "màu cam", "màu nâu", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.473762, "confidences": [ 0.473762, 0.411611, 0.08461, 0.007839, 0.006758, 0.002203, 0.001866, 0.001265, 0.000636, 0.000476 ], "gate_score_top1": 0.857422, "gate_scores": [ 0.857422, 0.859375, 0.811035, 0.788086, 0.730469, 0.653809, 0.761719, 0.650391, 0.602051, 0.641113 ] }, { "question_id": "10077651", "image_id": 361739, "question": "những gì chứa đầy bánh mì sandwich và lát dưa chuột", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "cái mâm", "món ăn", "bữa ăn", "chén đĩa", "dĩa", "sandwich", "chảo", "thịt", "thùng chứa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.215528, "confidences": [ 0.215528, 0.157684, 0.126702, 0.061269, 0.047717, 0.044477, 0.031416, 0.030989, 0.025441, 0.021508 ], "gate_score_top1": 0.78418, "gate_scores": [ 0.78418, 0.812012, 0.786133, 0.734863, 0.696289, 0.726562, 0.724609, 0.660645, 0.665527, 0.711914 ] }, { "question_id": "10113531", "image_id": 310240, "question": "có bao nhiêu hươu cao cổ đi bộ xung quanh cánh đồng cỏ lớn", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.537835, "confidences": [ 0.537835, 0.29935, 0.113178, 0.027953, 0.004106, 0.003638, 0.002923, 0.00132, 0.000527, 0.000215 ], "gate_score_top1": 0.864746, "gate_scores": [ 0.864746, 0.842285, 0.805664, 0.773438, 0.642578, 0.640625, 0.683105, 0.556641, 0.535645, 0.486084 ] }, { "question_id": "10114971", "image_id": 308263, "question": "có bao nhiêu con bò nâu nhạt với cỏ khô trong miệng của nó", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "bảy", "tám", "mười", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.576942, "confidences": [ 0.576942, 0.399636, 0.011337, 0.003553, 0.000707, 0.000628, 0.000432, 0.000427, 0.000275, 0.000135 ], "gate_score_top1": 0.900391, "gate_scores": [ 0.900391, 0.861816, 0.773926, 0.645996, 0.480957, 0.629395, 0.481934, 0.513184, 0.494873, 0.43457 ] }, { "question_id": "10041261", "image_id": 530743, "question": "người đó trên ván trượt đang ở đâu", "ground_truth": "bát", "ground_truth_normalized": "bát", "predicted_top1": "hồ bơi", "predicted_topk": [ "hồ bơi", "bát", "bồn tắm", "chậu", "ván trượt", "sân", "trượt tuyết", "chuồng", "cái rổ", "lối đi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.759603, "confidences": [ 0.759603, 0.035806, 0.030269, 0.01745, 0.010878, 0.009469, 0.004706, 0.004543, 0.003138, 0.003104 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.700684, 0.661621, 0.608398, 0.647461, 0.674805, 0.602539, 0.603027, 0.664551, 0.420898 ] }, { "question_id": "10056731", "image_id": 341950, "question": "hai con ngựa vằn cọ đầu vào nhau đằng sau làm gì", "ground_truth": "rào chắn", "ground_truth_normalized": "rào chắn", "predicted_top1": "lồng", "predicted_topk": [ "lồng", "chuồng", "bãi cỏ", "vườn bách thú", "rào chắn", "ngựa rằn", "lá", "ngựa vằn", "gấu trúc", "đồi" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.253305, "confidences": [ 0.253305, 0.220075, 0.143205, 0.11462, 0.089266, 0.01201, 0.0072, 0.006517, 0.005662, 0.004523 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.742676, 0.752441, 0.809082, 0.70752, 0.696777, 0.634277, 0.618652, 0.675781, 0.532715 ] }, { "question_id": "10110521", "image_id": 438091, "question": "có bao nhiêu con chim đang bay trên bầu trời quang đãng", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "hai", "chín", "tám", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.693871, "confidences": [ 0.693871, 0.241676, 0.030368, 0.016191, 0.005339, 0.002522, 0.001693, 0.001641, 0.001431, 0.000455 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.856934, 0.774902, 0.658691, 0.697754, 0.703613, 0.646973, 0.592773, 0.606934, 0.487061 ] }, { "question_id": "10037171", "image_id": 137777, "question": "đồng hồ nằm ở đâu", "ground_truth": "tòa tháp", "ground_truth_normalized": "tòa tháp", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "đường phố", "tòa tháp", "áo vest", "đường", "các tòa nhà", "trạm", "lối đi", "cây", "ảnh chụp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.382583, "confidences": [ 0.382583, 0.287663, 0.114872, 0.00898, 0.008755, 0.008602, 0.008436, 0.007401, 0.0061, 0.00495 ], "gate_score_top1": 0.826172, "gate_scores": [ 0.826172, 0.824707, 0.753906, 0.574219, 0.769531, 0.584961, 0.694824, 0.543945, 0.645508, 0.648926 ] }, { "question_id": "10073301", "image_id": 387355, "question": "chewing trên cành cây là gì", "ground_truth": "quán bar", "ground_truth_normalized": "quán bar", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "gấu trúc", "đồ chơi", "cây", "móng vuốt", "vườn bách thú", "màu nâu", "màu trắng", "đồi", "con chó" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.837838, "confidences": [ 0.837838, 0.096609, 0.005951, 0.00328, 0.003022, 0.002176, 0.002049, 0.001588, 0.00142, 0.001179 ], "gate_score_top1": 0.861328, "gate_scores": [ 0.861328, 0.787598, 0.684082, 0.597168, 0.536133, 0.644043, 0.694336, 0.532715, 0.492676, 0.650391 ] }, { "question_id": "10116461", "image_id": 157206, "question": "có bao nhiêu chiếc vali lớn xếp chồng lên tường", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "ba", "bảy", "hai", "tám", "chín", "một", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.472816, "confidences": [ 0.472816, 0.286777, 0.160868, 0.037324, 0.019063, 0.003094, 0.002349, 0.002033, 0.001565, 0.001336 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.827637, 0.776367, 0.739258, 0.763184, 0.604492, 0.565918, 0.627441, 0.555176, 0.563477 ] }, { "question_id": "10090571", "image_id": 570138, "question": "những gì ở phòng tắm gạch và được một cặp vợ chồng đang treo lên", "ground_truth": "khăn", "ground_truth_normalized": "khăn", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "khăn", "bồn tắm", "cửa", "tường", "quầy tính tiền", "bồn tiểu", "nhà ở", "bức ảnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.450723, "confidences": [ 0.450723, 0.119897, 0.069391, 0.060524, 0.031338, 0.027068, 0.025083, 0.017005, 0.016132, 0.01314 ], "gate_score_top1": 0.795898, "gate_scores": [ 0.795898, 0.76709, 0.727051, 0.80127, 0.661621, 0.640137, 0.606934, 0.664551, 0.722168, 0.607422 ] }, { "question_id": "10105011", "image_id": 288825, "question": "có bao nhiêu chiếc thuyền neo đậu trong đầm phá với bãi biển cát trắng", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.505779, "confidences": [ 0.505779, 0.393901, 0.074592, 0.009014, 0.007186, 0.001957, 0.000746, 0.000703, 0.000341, 0.000246 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.875488, 0.834473, 0.739746, 0.710938, 0.498291, 0.519531, 0.537598, 0.420654, 0.429932 ] }, { "question_id": "10063491", "image_id": 523560, "question": "những gì được tạo thành từ thịt và rau", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "món ăn", "bữa ăn", "thịt", "chén đĩa", "dĩa", "rau", "đĩa", "bát", "bữa ăn tối" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.603859, "confidences": [ 0.603859, 0.152084, 0.056387, 0.027374, 0.018522, 0.016964, 0.014063, 0.00731, 0.007211, 0.007211 ], "gate_score_top1": 0.853516, "gate_scores": [ 0.853516, 0.804688, 0.779785, 0.724609, 0.666504, 0.700195, 0.705078, 0.533203, 0.681152, 0.616211 ] }, { "question_id": "10000151", "image_id": 362278, "question": "màu của dấu là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đỏ", "màu nâu", "màu trắng", "màu xám", "màu đen", "màu vàng", "màu xanh lá", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.574666, "confidences": [ 0.574666, 0.368145, 0.022811, 0.016175, 0.002677, 0.00263, 0.002089, 0.000918, 0.000429, 0.000222 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.873535, 0.758789, 0.816895, 0.738281, 0.72998, 0.712402, 0.594238, 0.589355, 0.555664 ] }, { "question_id": "10105561", "image_id": 255176, "question": "có bao nhiêu con chim trên dây điện một mình", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "năm", "bảy", "chín", "tám", "ba", "mười", "một", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.334945, "confidences": [ 0.334945, 0.324639, 0.178584, 0.102152, 0.014545, 0.009245, 0.006354, 0.002145, 0.001585, 0.000766 ], "gate_score_top1": 0.807617, "gate_scores": [ 0.807617, 0.833008, 0.847656, 0.791016, 0.724609, 0.674805, 0.60791, 0.571289, 0.577637, 0.538574 ] }, { "question_id": "10061561", "image_id": 345027, "question": "xe tay ga và xe tải nhỏ ở bãi biển cái gì", "ground_truth": "bến tàu", "ground_truth_normalized": "bến tàu", "predicted_top1": "xe tay ga", "predicted_topk": [ "xe tay ga", "xe đạp", "xe máy", "ga-ra", "đường", "mũ", "bến tàu", "xe đẩy", "xe", "phương tiện giao thông" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.503024, "confidences": [ 0.503024, 0.086394, 0.061143, 0.019773, 0.01769, 0.017415, 0.011179, 0.006246, 0.005816, 0.005566 ], "gate_score_top1": 0.751953, "gate_scores": [ 0.751953, 0.73584, 0.696289, 0.694336, 0.678711, 0.578125, 0.450684, 0.565918, 0.509766, 0.515625 ] }, { "question_id": "10045411", "image_id": 356496, "question": "hai chiếc xe đạp và một bãi đậu mô tô ở đâu", "ground_truth": "giá đỡ", "ground_truth_normalized": "giá đỡ", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "tòa nhà", "xe đạp", "giá đỡ", "ảnh chụp", "đường", "chuồng", "ga-ra", "trạm", "lối đi" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.193931, "confidences": [ 0.193931, 0.090894, 0.04129, 0.037964, 0.037669, 0.03651, 0.031844, 0.030386, 0.024752, 0.017552 ], "gate_score_top1": 0.825195, "gate_scores": [ 0.825195, 0.735352, 0.662598, 0.62207, 0.611328, 0.783203, 0.723145, 0.748535, 0.644043, 0.57666 ] }, { "question_id": "10062471", "image_id": 335085, "question": "đầy những chai thủy tinh đủ màu", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cửa", "cái kệ", "chai", "lò vi sóng", "phòng bếp", "cửa ra vào", "cửa sổ", "tủ đông" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.533114, "confidences": [ 0.533114, 0.31218, 0.072715, 0.01803, 0.006158, 0.004479, 0.004384, 0.001878, 0.001073, 0.000953 ], "gate_score_top1": 0.855469, "gate_scores": [ 0.855469, 0.84668, 0.793945, 0.735352, 0.638672, 0.619141, 0.601074, 0.492432, 0.496582, 0.497803 ] }, { "question_id": "10102361", "image_id": 495124, "question": "có bao nhiêu người đàn ông đang ngồi trên chiếc ghế đẩu", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "cái ghế", "bảy", "phòng", "tám", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.891148, "confidences": [ 0.891148, 0.100768, 0.004063, 0.000449, 0.00012, 8.1e-05, 6.2e-05, 5.8e-05, 5.5e-05, 5.4e-05 ], "gate_score_top1": 0.895996, "gate_scores": [ 0.895996, 0.874023, 0.755371, 0.63623, 0.366699, 0.568359, 0.410645, 0.482422, 0.393799, 0.449463 ] }, { "question_id": "10027301", "image_id": 528587, "question": "một số người ngồi đang ngồi ở bàn ăn tại đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "quán ăn", "predicted_topk": [ "quán ăn", "phòng", "quán bar", "nhà ở", "phòng bếp", "gian hàng", "cửa tiệm", "cửa hàng", "áo vest", "rượu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.498056, "confidences": [ 0.498056, 0.206811, 0.110266, 0.02788, 0.018608, 0.008145, 0.007818, 0.005067, 0.003449, 0.002962 ], "gate_score_top1": 0.851074, "gate_scores": [ 0.851074, 0.802734, 0.707031, 0.730957, 0.70459, 0.592773, 0.666504, 0.660156, 0.493896, 0.588379 ] }, { "question_id": "10040321", "image_id": 232410, "question": "thủy tinh trong suốt màu xanh như vật thể tròn ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "sân bay", "predicted_topk": [ "sân bay", "kho", "trạm", "cửa hàng", "tòa nhà", "phòng", "ga-ra", "bảo tàng", "xe điện ngầm", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.321033, "confidences": [ 0.321033, 0.148712, 0.110513, 0.053441, 0.043788, 0.032287, 0.012843, 0.012183, 0.008983, 0.007325 ], "gate_score_top1": 0.760254, "gate_scores": [ 0.760254, 0.769531, 0.728516, 0.796875, 0.720703, 0.70166, 0.720703, 0.697266, 0.637695, 0.479736 ] }, { "question_id": "10115771", "image_id": 122099, "question": "trên bàn có bao nhiêu lọ đầy hoa", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "chín", "tám", "mười", "một", "lọ cắm hoa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.690175, "confidences": [ 0.690175, 0.119001, 0.107089, 0.049414, 0.007203, 0.002293, 0.002214, 0.001531, 0.000849, 0.000486 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.771484, 0.776367, 0.782227, 0.625, 0.647949, 0.54834, 0.583496, 0.538574, 0.542969 ] }, { "question_id": "10047071", "image_id": 198486, "question": "người đang chụp ảnh ở đâu", "ground_truth": "xe tải", "ground_truth_normalized": "xe tải", "predicted_top1": "gương", "predicted_topk": [ "gương", "xe ô tô", "phương tiện giao thông", "xe tải", "đường", "đường phố", "áo vest", "ô cửa", "phòng tắm", "cửa sổ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.944424, "confidences": [ 0.944424, 0.012955, 0.006048, 0.004956, 0.002818, 0.002178, 0.001795, 0.001344, 0.000963, 0.000735 ], "gate_score_top1": 0.90918, "gate_scores": [ 0.90918, 0.694824, 0.720703, 0.722656, 0.698242, 0.562012, 0.558105, 0.64209, 0.60791, 0.613281 ] }, { "question_id": "10104541", "image_id": 212877, "question": "có bao nhiêu cốc có mèo, trong khi người kia có một con chó", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.566601, "confidences": [ 0.566601, 0.298578, 0.119698, 0.005642, 0.000939, 0.000882, 0.000603, 0.000388, 0.000309, 0.000166 ], "gate_score_top1": 0.883301, "gate_scores": [ 0.883301, 0.859863, 0.841797, 0.73584, 0.502441, 0.599121, 0.475342, 0.495117, 0.481445, 0.428711 ] }, { "question_id": "10102601", "image_id": 185530, "question": "có bao nhiêu con cừu đang gặm cỏ trên sườn đồi xanh", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.572824, "confidences": [ 0.572824, 0.369843, 0.04702, 0.002425, 0.00226, 0.000809, 0.000588, 0.000526, 0.000244, 0.000206 ], "gate_score_top1": 0.878906, "gate_scores": [ 0.878906, 0.895508, 0.787109, 0.729492, 0.569336, 0.616211, 0.586914, 0.545898, 0.43457, 0.505859 ] }, { "question_id": "10018481", "image_id": 501700, "question": "màu sắc của chiếc váy là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu tía", "màu cam", "màu vàng", "màu xanh dương", "màu xám", "màu xanh lá", "màu trắng", "màu nâu", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.511247, "confidences": [ 0.511247, 0.37697, 0.067852, 0.011163, 0.005769, 0.004877, 0.002941, 0.001899, 0.001425, 0.001107 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.818359, 0.846191, 0.722168, 0.710938, 0.709961, 0.59668, 0.632812, 0.597168, 0.635254 ] }, { "question_id": "10069781", "image_id": 538236, "question": "những gì chứa đầy croissant với hotdogs ở giữa", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cái mâm", "cửa tiệm", "bánh ngọt", "hoa quả", "cái rổ", "tạp dề", "quán ăn", "hộp", "donut" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.530342, "confidences": [ 0.530342, 0.149007, 0.025692, 0.017452, 0.01444, 0.011007, 0.010815, 0.009287, 0.008949, 0.006848 ], "gate_score_top1": 0.800293, "gate_scores": [ 0.800293, 0.838867, 0.705078, 0.666504, 0.705566, 0.731445, 0.646973, 0.699219, 0.730957, 0.600098 ] }, { "question_id": "10047241", "image_id": 543803, "question": "một đám đông người đang đứng ở đâu", "ground_truth": "trang thiết bị", "ground_truth_normalized": "trang thiết bị", "predicted_top1": "sân vận động", "predicted_topk": [ "sân vận động", "găng tay", "gậy", "lồng", "chuồng", "quả bóng", "hộp", "ảnh chụp", "sân", "năm" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.483409, "confidences": [ 0.483409, 0.098981, 0.049965, 0.041993, 0.03309, 0.027973, 0.017746, 0.007715, 0.007647, 0.005717 ], "gate_score_top1": 0.823242, "gate_scores": [ 0.823242, 0.749023, 0.702637, 0.78418, 0.675293, 0.65918, 0.551758, 0.564453, 0.627441, 0.694824 ] }, { "question_id": "10077771", "image_id": 405632, "question": "neo đậu ở bến du thuyền là gì", "ground_truth": "con thuyền", "ground_truth_normalized": "con thuyền", "predicted_top1": "bến du thuyền", "predicted_topk": [ "bến du thuyền", "con thuyền", "thuyền buồm", "ca nô", "cầu", "xe đạp", "các tòa nhà", "hàng hoá", "bến tàu", "ván lướt sóng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.425064, "confidences": [ 0.425064, 0.404018, 0.029961, 0.014745, 0.008788, 0.00551, 0.004713, 0.003642, 0.003468, 0.001974 ], "gate_score_top1": 0.780273, "gate_scores": [ 0.780273, 0.774902, 0.621582, 0.563477, 0.641602, 0.601562, 0.555176, 0.449463, 0.477539, 0.59668 ] }, { "question_id": "10095721", "image_id": 505133, "question": "những gì được bao phủ bởi lò hơi đầy nước và các loại thực phẩm khác nhau", "ground_truth": "bếp", "ground_truth_normalized": "bếp", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "bếp", "quầy tính tiền", "phòng bếp", "tủ đá", "cửa", "chảo", "cái kệ", "tủ lạnh", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.407595, "confidences": [ 0.407595, 0.129261, 0.059878, 0.054947, 0.0395, 0.026831, 0.025653, 0.023085, 0.012799, 0.010046 ], "gate_score_top1": 0.791992, "gate_scores": [ 0.791992, 0.747559, 0.686035, 0.679688, 0.766113, 0.612793, 0.657715, 0.682129, 0.653809, 0.603027 ] }, { "question_id": "10065901", "image_id": 506574, "question": "cái gì được ăn qua hàng rào", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "hươu cao cổ", "predicted_topk": [ "hươu cao cổ", "cây", "ngựa rằn", "lá", "vườn bách thú", "bãi cỏ", "chuồng", "màu xanh lá", "lồng", "ngựa vằn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.58779, "confidences": [ 0.58779, 0.174431, 0.073284, 0.02696, 0.019043, 0.01613, 0.010703, 0.00845, 0.007649, 0.002978 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.75293, 0.762207, 0.65332, 0.765625, 0.691406, 0.624512, 0.622559, 0.658203, 0.638184 ] }, { "question_id": "10080451", "image_id": 426523, "question": "hai đứa trẻ đong đưa những gì", "ground_truth": "cây gậy", "ground_truth_normalized": "cây gậy", "predicted_top1": "dĩa nhựa", "predicted_topk": [ "dĩa nhựa", "gậy", "sân", "quả bóng", "mũ", "áo sơ mi", "cây gậy", "găng tay", "ván trượt", "nón" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.127983, "confidences": [ 0.127983, 0.105482, 0.099091, 0.079778, 0.044144, 0.025054, 0.01656, 0.013782, 0.010172, 0.009869 ], "gate_score_top1": 0.762207, "gate_scores": [ 0.762207, 0.744629, 0.736328, 0.719727, 0.630859, 0.59668, 0.456543, 0.661133, 0.500977, 0.58252 ] }, { "question_id": "10053171", "image_id": 537636, "question": "con chó đang thi trên một tấm thảm là gì", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "đồ chơi", "giường", "con chó", "nón", "cái ghế", "gấu trúc", "móng vuốt", "cái kệ", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.46253, "confidences": [ 0.46253, 0.408181, 0.01092, 0.004752, 0.004033, 0.003658, 0.003288, 0.002497, 0.002109, 0.001771 ], "gate_score_top1": 0.827148, "gate_scores": [ 0.827148, 0.824219, 0.626953, 0.638672, 0.588379, 0.554199, 0.617188, 0.538086, 0.525879, 0.611816 ] }, { "question_id": "10108021", "image_id": 60953, "question": "có bao nhiêu chiếc máy bay nhỏ nhả khói trên bầu trời", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "sáu", "năm", "hai", "bảy", "một", "chín", "tám", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.719998, "confidences": [ 0.719998, 0.23743, 0.013291, 0.008061, 0.006085, 0.004611, 0.001999, 0.00196, 0.001606, 0.000275 ], "gate_score_top1": 0.892578, "gate_scores": [ 0.892578, 0.862793, 0.640625, 0.700195, 0.739746, 0.708008, 0.646484, 0.630859, 0.599609, 0.447754 ] }, { "question_id": "10027341", "image_id": 535820, "question": "những người đang làm những việc khác nhau ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "nhà ở", "phòng", "quán ăn", "cái ghế", "bát", "quầy tính tiền", "cửa sổ", "tạp dề", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.65962, "confidences": [ 0.65962, 0.176153, 0.07488, 0.015819, 0.007709, 0.005992, 0.002252, 0.001796, 0.001751, 0.001588 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.812988, 0.784668, 0.745117, 0.685547, 0.692871, 0.595703, 0.628418, 0.49707, 0.426514 ] }, { "question_id": "10044291", "image_id": 15392, "question": "ngựa đang kéo con người ở đâu", "ground_truth": "đường đua", "ground_truth_normalized": "đường đua", "predicted_top1": "xe", "predicted_topk": [ "xe", "xe đẩy", "xe lăn", "đường", "con ngựa", "toa xe", "xe đạp", "đường phố", "mũ", "ván trượt" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.158079, "confidences": [ 0.158079, 0.09588, 0.084284, 0.043555, 0.035203, 0.033135, 0.026939, 0.023087, 0.016307, 0.014675 ], "gate_score_top1": 0.688965, "gate_scores": [ 0.688965, 0.74707, 0.694824, 0.72998, 0.670898, 0.632324, 0.591797, 0.691406, 0.56543, 0.540039 ] }, { "question_id": "10063031", "image_id": 560470, "question": "người phụ nữ đang cười và giữ lấy cái gì", "ground_truth": "bánh ngọt", "ground_truth_normalized": "bánh ngọt", "predicted_top1": "donut", "predicted_topk": [ "donut", "bánh ngọt", "sô cô la", "cupcake", "dao", "chuối", "quả táo", "cái mâm", "bức ảnh", "bánh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.664489, "confidences": [ 0.664489, 0.110183, 0.057162, 0.035217, 0.0083, 0.008171, 0.007904, 0.006192, 0.003598, 0.003419 ], "gate_score_top1": 0.815918, "gate_scores": [ 0.815918, 0.800781, 0.707031, 0.705078, 0.651367, 0.711914, 0.710938, 0.665039, 0.539551, 0.67334 ] }, { "question_id": "10049521", "image_id": 240615, "question": "những mặt hàng sặc sỡ được trưng bày ở đâu", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "ảnh chụp", "vòi", "đường", "xe ô tô", "áo vest", "xe tải", "vạch kẻ đường", "xe đẩy", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.419024, "confidences": [ 0.419024, 0.112779, 0.065783, 0.055179, 0.023548, 0.016247, 0.012579, 0.01236, 0.011342, 0.009893 ], "gate_score_top1": 0.79541, "gate_scores": [ 0.79541, 0.693359, 0.70166, 0.758301, 0.651367, 0.650391, 0.651367, 0.629883, 0.699707, 0.727051 ] }, { "question_id": "10058681", "image_id": 383389, "question": "xe buýt tốc hành nào có người lên xe", "ground_truth": "sân vận động", "ground_truth_normalized": "sân vận động", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe buýt", "sân vận động", "năm", "bốn", "sáu", "chín", "một", "bảy", "xe đẩy" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.105653, "confidences": [ 0.105653, 0.06742, 0.067026, 0.041536, 0.039096, 0.033506, 0.019203, 0.01898, 0.018649, 0.015843 ], "gate_score_top1": 0.59375, "gate_scores": [ 0.59375, 0.65625, 0.64209, 0.649414, 0.664551, 0.594727, 0.549805, 0.506348, 0.617188, 0.662598 ] }, { "question_id": "10099761", "image_id": 519027, "question": "những người mặc áo khoác đỏ xuống cái gì dưới nước", "ground_truth": "thuyền buồm", "ground_truth_normalized": "thuyền buồm", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "thuyền buồm", "bến du thuyền", "ca nô", "cầu", "cây sào", "xe đạp", "hàng hoá", "bờ biển", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.549937, "confidences": [ 0.549937, 0.15391, 0.090479, 0.014627, 0.006465, 0.006315, 0.005991, 0.005852, 0.004562, 0.003971 ], "gate_score_top1": 0.764648, "gate_scores": [ 0.764648, 0.70459, 0.683105, 0.483398, 0.594238, 0.521484, 0.567871, 0.510742, 0.467285, 0.478271 ] }, { "question_id": "10004181", "image_id": 520674, "question": "màu của chiếc bình là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu tía", "màu xanh lá", "màu đỏ", "màu đen", "màu vàng", "màu xám", "màu nâu", "màu cam", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.57896, "confidences": [ 0.57896, 0.30509, 0.073606, 0.014381, 0.007668, 0.004561, 0.003014, 0.001388, 0.00099, 0.000642 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.861328, 0.780762, 0.77002, 0.706543, 0.725586, 0.675781, 0.668457, 0.736816, 0.581055 ] }, { "question_id": "10052001", "image_id": 520810, "question": "nhóm đàn ông kinh doanh đang được quay ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "kho", "phòng", "ga-ra", "cửa tiệm", "bảo tàng", "nhà ở", "quán ăn", "lớp học", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.295522, "confidences": [ 0.295522, 0.19006, 0.094824, 0.089778, 0.03441, 0.026178, 0.025372, 0.012293, 0.012126, 0.009744 ], "gate_score_top1": 0.821777, "gate_scores": [ 0.821777, 0.808105, 0.743164, 0.816406, 0.723145, 0.750977, 0.756348, 0.699707, 0.662598, 0.561523 ] }, { "question_id": "10071771", "image_id": 530146, "question": "cái gì đứng về phía dưa chua và đá bào", "ground_truth": "sandwich", "ground_truth_normalized": "sandwich", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "sandwich", "dĩa", "món ăn", "thịt", "quán ăn", "cái mâm", "cái nĩa", "bữa ăn tối" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.437897, "confidences": [ 0.437897, 0.162992, 0.089662, 0.038114, 0.027452, 0.02708, 0.013069, 0.010522, 0.010218, 0.008757 ], "gate_score_top1": 0.813965, "gate_scores": [ 0.813965, 0.780762, 0.79834, 0.715332, 0.702148, 0.684082, 0.682129, 0.673828, 0.661621, 0.632324 ] }, { "question_id": "10046571", "image_id": 488232, "question": "tủ lạnh trắng ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "phòng", "nhà ở", "tủ lạnh", "tủ đá", "cửa", "phòng ngủ", "chậu", "cửa sổ", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.820329, "confidences": [ 0.820329, 0.088512, 0.032309, 0.005223, 0.002647, 0.002165, 0.002086, 0.001959, 0.00187, 0.001719 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.816895, 0.803711, 0.6875, 0.65918, 0.615723, 0.770508, 0.645996, 0.634766, 0.660156 ] }, { "question_id": "10103141", "image_id": 157204, "question": "có bao nhiêu lát bánh pizza với lớp phủ trên chảo", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.499014, "confidences": [ 0.499014, 0.23943, 0.164557, 0.038782, 0.027824, 0.013614, 0.004088, 0.003664, 0.00099, 0.000645 ], "gate_score_top1": 0.883789, "gate_scores": [ 0.883789, 0.863281, 0.840332, 0.777344, 0.768555, 0.608887, 0.632812, 0.627441, 0.507324, 0.474854 ] }, { "question_id": "10062881", "image_id": 428554, "question": "người đàn ông mặc những gì đang buộc cà vạt của mình", "ground_truth": "bộ đồ", "ground_truth_normalized": "bộ đồ", "predicted_top1": "cà vạt", "predicted_topk": [ "cà vạt", "đồng hồ", "bộ đồ", "áo sơ mi", "nón", "áo vest", "bức ảnh", "mũ", "bông hoa", "bức tượng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.88007, "confidences": [ 0.88007, 0.025161, 0.017566, 0.007629, 0.003107, 0.001948, 0.001436, 0.001321, 0.001259, 0.001164 ], "gate_score_top1": 0.864258, "gate_scores": [ 0.864258, 0.80957, 0.642578, 0.625977, 0.666992, 0.583984, 0.55127, 0.583984, 0.62207, 0.577637 ] }, { "question_id": "10102701", "image_id": 236174, "question": "có bao nhiêu mét đậu xe được hiển thị trong tuyết bên cạnh một lề đường", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.67187, "confidences": [ 0.67187, 0.241442, 0.062494, 0.011161, 0.007206, 0.001302, 0.000604, 0.000449, 0.000222, 0.00021 ], "gate_score_top1": 0.899414, "gate_scores": [ 0.899414, 0.87793, 0.84668, 0.749512, 0.73584, 0.526367, 0.552734, 0.533691, 0.459229, 0.434082 ] }, { "question_id": "10027391", "image_id": 65191, "question": "cậu bé đang ngồi ở đâu", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "sân bay", "predicted_topk": [ "sân bay", "trạm", "hành lý", "balo", "vali", "xe đẩy", "túi", "cái túi", "tòa nhà", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.504412, "confidences": [ 0.504412, 0.281846, 0.039818, 0.033011, 0.027581, 0.005725, 0.005703, 0.005658, 0.004907, 0.004573 ], "gate_score_top1": 0.846191, "gate_scores": [ 0.846191, 0.788086, 0.733398, 0.723633, 0.712402, 0.686035, 0.632812, 0.663574, 0.643555, 0.637695 ] }, { "question_id": "10076031", "image_id": 526028, "question": "những gì phục vụ với brocclie trên bàn", "ground_truth": "bữa ăn tối", "ground_truth_normalized": "bữa ăn tối", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "thịt", "bữa ăn tối", "dĩa", "rau", "cái nĩa", "chén đĩa", "đĩa" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.468557, "confidences": [ 0.468557, 0.146863, 0.052571, 0.032578, 0.030248, 0.028976, 0.027167, 0.021659, 0.011414, 0.008599 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.755859, 0.742676, 0.650391, 0.633301, 0.695312, 0.701172, 0.646973, 0.609863, 0.499268 ] }, { "question_id": "10115701", "image_id": 152273, "question": "có bao nhiêu điện thoại di động trên bàn đá cẩm thạch", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "một", "tám", "hai", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.45963, "confidences": [ 0.45963, 0.280966, 0.208796, 0.025628, 0.00597, 0.0039, 0.002407, 0.002, 0.001533, 0.00086 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.835938, 0.831543, 0.671875, 0.672852, 0.637695, 0.589355, 0.644531, 0.606445, 0.542969 ] }, { "question_id": "10106061", "image_id": 576307, "question": "có bao nhiêu con gấu đang tắm trong khi người kia chỉ cần vào", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "năm", "mười", "bảy", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.807465, "confidences": [ 0.807465, 0.178768, 0.007041, 0.00126, 0.00024, 0.000149, 0.000142, 0.000134, 0.000133, 8.1e-05 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.866211, 0.763184, 0.631836, 0.422363, 0.446045, 0.556152, 0.467529, 0.415283, 0.44043 ] }, { "question_id": "10030831", "image_id": 449859, "question": "phòng tắm sạch sẽ nằm ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "nhà ở", "vòi hoa sen", "phòng", "gương", "bồn tắm", "cửa", "hành lang", "tường", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.546468, "confidences": [ 0.546468, 0.158411, 0.058276, 0.05163, 0.024484, 0.023638, 0.013286, 0.012311, 0.011231, 0.00885 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.843262, 0.77832, 0.802734, 0.76416, 0.750977, 0.687988, 0.634766, 0.592285, 0.620605 ] }, { "question_id": "10095081", "image_id": 492905, "question": "bàn ngồi trên cưa với màn hình, bàn phím và chuột là gì", "ground_truth": "con ngựa", "ground_truth_normalized": "con ngựa", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "cái bàn", "bàn phím", "laptop", "văn phòng", "màu trắng", "cái ghế", "trang thiết bị", "màu đen", "bức tranh" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.442716, "confidences": [ 0.442716, 0.140399, 0.050454, 0.025769, 0.024928, 0.015876, 0.013213, 0.009648, 0.008888, 0.007017 ], "gate_score_top1": 0.777344, "gate_scores": [ 0.777344, 0.735352, 0.702637, 0.722168, 0.655273, 0.67627, 0.550781, 0.420898, 0.584961, 0.493896 ] }, { "question_id": "10047571", "image_id": 128607, "question": "ghế, máy tính xách tay, máy in và bàn máy tính ngồi ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "văn phòng", "phòng ngủ", "nhà ở", "cái bàn", "cái ghế", "cửa sổ", "chung cư", "cửa tiệm", "phòng bếp" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.298976, "confidences": [ 0.298976, 0.18276, 0.134759, 0.070736, 0.039835, 0.037862, 0.036985, 0.024638, 0.011192, 0.0098 ], "gate_score_top1": 0.842285, "gate_scores": [ 0.842285, 0.770996, 0.791992, 0.806641, 0.663574, 0.702148, 0.733887, 0.687012, 0.706055, 0.676758 ] }, { "question_id": "10034951", "image_id": 93553, "question": "người phụ nữ đang chụp ảnh tự sướng ở đâu", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "ô cửa", "vòi hoa sen", "nhà ở", "chậu", "hành lang", "phòng bếp", "cửa", "máy ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.575462, "confidences": [ 0.575462, 0.392431, 0.003422, 0.002403, 0.002146, 0.001765, 0.00144, 0.001435, 0.001192, 0.001128 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.858398, 0.671875, 0.655762, 0.67041, 0.643555, 0.542969, 0.67627, 0.645508, 0.525391 ] }, { "question_id": "10024661", "image_id": 178812, "question": "màu của chảo là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu nâu", "màu xanh lá", "màu vàng", "màu đen", "màu xám", "màu trắng", "màu cam", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.419378, "confidences": [ 0.419378, 0.326612, 0.102372, 0.047237, 0.025682, 0.019691, 0.01879, 0.011132, 0.009338, 0.002412 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.86084, 0.822266, 0.726074, 0.786621, 0.75, 0.759277, 0.747559, 0.750488, 0.726562 ] }, { "question_id": "10064931", "image_id": 516178, "question": "những gì bay trước một tháp pháo đồng hồ đá", "ground_truth": "cờ", "ground_truth_normalized": "cờ", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "tòa nhà", "đồng hồ", "các tòa nhà", "cờ", "bức tượng", "lá cờ", "cây", "bức ảnh", "cầu" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.498697, "confidences": [ 0.498697, 0.163812, 0.044435, 0.027216, 0.023461, 0.021072, 0.018165, 0.016443, 0.008045, 0.00744 ], "gate_score_top1": 0.809082, "gate_scores": [ 0.809082, 0.80127, 0.685059, 0.711914, 0.682129, 0.664551, 0.664551, 0.72998, 0.66748, 0.581055 ] }, { "question_id": "10000971", "image_id": 580790, "question": "màu sắc của bông hoa là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu tía", "màu vàng", "màu xám", "màu nâu", "màu cam", "màu xanh lá", "màu xanh dương", "màu đen", "màu đỏ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.395139, "confidences": [ 0.395139, 0.136557, 0.124336, 0.088168, 0.077202, 0.065011, 0.032689, 0.023545, 0.02309, 0.013627 ], "gate_score_top1": 0.86084, "gate_scores": [ 0.86084, 0.807129, 0.833008, 0.774414, 0.786621, 0.778809, 0.734375, 0.786133, 0.774414, 0.786621 ] }, { "question_id": "10098461", "image_id": 563541, "question": "thứ hai người đàn ông chơi với một số con voi là gì", "ground_truth": "quả bóng", "ground_truth_normalized": "quả bóng", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "quả bóng", "thân cây", "bãi cỏ", "đồi", "vườn bách thú", "cái lều", "gậy", "hoa quả", "điêu khắc" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.298395, "confidences": [ 0.298395, 0.166082, 0.108495, 0.026176, 0.016606, 0.008932, 0.006535, 0.006097, 0.005677, 0.00537 ], "gate_score_top1": 0.768066, "gate_scores": [ 0.768066, 0.722656, 0.694336, 0.648438, 0.621582, 0.557617, 0.482178, 0.524414, 0.436523, 0.426514 ] }, { "question_id": "10107121", "image_id": 528712, "question": "có bao nhiêu người đang đứng trên vỉa hè để chờ xe buýt", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.632628, "confidences": [ 0.632628, 0.325649, 0.016533, 0.011319, 0.004793, 0.003425, 0.001143, 0.000558, 0.000387, 0.000343 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.888184, 0.762207, 0.76709, 0.607422, 0.681641, 0.593262, 0.548828, 0.510742, 0.443115 ] }, { "question_id": "10039771", "image_id": 240301, "question": "con bò đứng hoặc ngả lưng ở đâu", "ground_truth": "chuồng trại", "ground_truth_normalized": "chuồng trại", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "chuồng trại", "lồng", "kho", "tòa nhà", "ga-ra", "cửa tiệm", "rào chắn", "con bò", "vườn bách thú" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.437594, "confidences": [ 0.437594, 0.38467, 0.02875, 0.012438, 0.01173, 0.007369, 0.006963, 0.006353, 0.006157, 0.003684 ], "gate_score_top1": 0.798828, "gate_scores": [ 0.798828, 0.817871, 0.763672, 0.67041, 0.699707, 0.730469, 0.655273, 0.615234, 0.650879, 0.714844 ] }, { "question_id": "10108111", "image_id": 178620, "question": "có bao nhiêu người đàn ông mặc áo xanh đang chơi ném đĩa bay", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "bảy", "mười", "bãi cỏ", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.837351, "confidences": [ 0.837351, 0.151306, 0.005867, 0.000569, 0.000165, 0.0001, 9.1e-05, 8.4e-05, 5.6e-05, 5.4e-05 ], "gate_score_top1": 0.893555, "gate_scores": [ 0.893555, 0.875977, 0.763672, 0.614746, 0.384521, 0.406738, 0.397217, 0.430908, 0.401855, 0.360352 ] }, { "question_id": "10054971", "image_id": 442009, "question": "những gì được hiển thị với bồn tắm và quầy", "ground_truth": "sân khấu", "ground_truth_normalized": "sân khấu", "predicted_top1": "bồn tắm", "predicted_topk": [ "bồn tắm", "phòng tắm", "khăn", "quầy tính tiền", "chậu", "vòi hoa sen", "tường", "sân khấu", "nhà ở", "cửa" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.42293, "confidences": [ 0.42293, 0.077625, 0.050413, 0.041631, 0.035818, 0.031733, 0.031609, 0.026984, 0.024569, 0.023536 ], "gate_score_top1": 0.817871, "gate_scores": [ 0.817871, 0.720215, 0.740723, 0.608398, 0.71582, 0.684082, 0.578613, 0.60498, 0.683594, 0.616699 ] }, { "question_id": "10109501", "image_id": 483199, "question": "có bao nhiêu con mòng biển đang bay trên bầu trời", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "chín", "tám", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.626211, "confidences": [ 0.626211, 0.141374, 0.13649, 0.048477, 0.015616, 0.009621, 0.004991, 0.001346, 0.001279, 0.00046 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.825684, 0.775879, 0.771973, 0.708008, 0.734375, 0.634277, 0.527832, 0.544434, 0.535645 ] }, { "question_id": "10067981", "image_id": 421703, "question": "những gì đang được chuẩn bị trong chảo bao gồm hành tây và bông cải xanh", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "món ăn", "cái nồi", "bát", "chén đĩa", "bữa ăn", "đĩa ăn", "quầy tính tiền", "thịt", "rau" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.535158, "confidences": [ 0.535158, 0.112175, 0.048815, 0.045857, 0.023977, 0.023422, 0.019004, 0.017611, 0.0095, 0.008286 ], "gate_score_top1": 0.816406, "gate_scores": [ 0.816406, 0.769531, 0.750977, 0.673828, 0.658203, 0.687988, 0.715332, 0.603516, 0.602539, 0.671387 ] }, { "question_id": "10119591", "image_id": 99066, "question": "có bao nhiêu máy bay chiến đấu bay qua bầu trời trong đội hình", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "bảy", "chín", "năm", "tám", "ba", "một", "mười", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.412189, "confidences": [ 0.412189, 0.345744, 0.135395, 0.042938, 0.021507, 0.009656, 0.005621, 0.00133, 0.00122, 0.000904 ], "gate_score_top1": 0.833984, "gate_scores": [ 0.833984, 0.811035, 0.817383, 0.760254, 0.701172, 0.648926, 0.642578, 0.544434, 0.491699, 0.486328 ] }, { "question_id": "10057831", "image_id": 545101, "question": "một nhà bếp trống với một cái bếp màu trắng", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "cửa sổ", "nhà ở", "chậu", "bếp", "tường", "lò vi sóng", "cửa", "quầy tính tiền", "phòng" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.231043, "confidences": [ 0.231043, 0.148012, 0.071854, 0.059685, 0.03945, 0.039066, 0.033875, 0.030904, 0.023373, 0.018891 ], "gate_score_top1": 0.757324, "gate_scores": [ 0.757324, 0.729004, 0.72168, 0.713867, 0.714355, 0.610352, 0.605469, 0.702637, 0.589355, 0.724121 ] }, { "question_id": "10110251", "image_id": 320428, "question": "có bao nhiêu người đàn ông chơi trong một trận đấu quần vợt đôi nam", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.619832, "confidences": [ 0.619832, 0.342304, 0.021712, 0.010791, 0.000376, 0.000348, 0.000161, 0.00014, 0.000121, 0.000107 ], "gate_score_top1": 0.88623, "gate_scores": [ 0.88623, 0.874512, 0.788574, 0.794922, 0.42749, 0.544922, 0.445801, 0.44043, 0.392822, 0.381592 ] }, { "question_id": "10058891", "image_id": 497928, "question": "tv là thứ duy nhất chiếm giữ những gì", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhiều cái ghế", "cái kệ", "tường", "cây", "bức ảnh", "đi văng", "chung cư", "cửa sổ", "cái bàn" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.166546, "confidences": [ 0.166546, 0.078058, 0.045799, 0.038341, 0.0316, 0.027508, 0.02321, 0.022452, 0.021507, 0.01836 ], "gate_score_top1": 0.742676, "gate_scores": [ 0.742676, 0.655273, 0.670898, 0.539551, 0.551758, 0.558105, 0.578613, 0.531738, 0.539551, 0.611816 ] }, { "question_id": "10060241", "image_id": 533589, "question": "những gì nằm bên cạnh kệ giữ nhiều chai khác nhau", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cửa", "cái kệ", "chai", "phòng bếp", "lò vi sóng", "tủ đông", "tường", "bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.61422, "confidences": [ 0.61422, 0.249139, 0.025651, 0.013412, 0.010861, 0.008231, 0.004405, 0.003217, 0.002704, 0.001915 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.838867, 0.751465, 0.740723, 0.658203, 0.59082, 0.597656, 0.562012, 0.603027, 0.646484 ] }, { "question_id": "10024221", "image_id": 47944, "question": "màu của cuốn sách là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh lá", "màu vàng", "màu xanh dương", "màu trắng", "màu nâu", "màu xám", "màu cam", "màu đỏ", "màu đen" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.943029, "confidences": [ 0.943029, 0.018676, 0.013987, 0.005542, 0.003428, 0.003401, 0.001664, 0.001401, 0.001135, 0.00065 ], "gate_score_top1": 0.90332, "gate_scores": [ 0.90332, 0.765137, 0.770996, 0.73584, 0.718262, 0.725098, 0.687012, 0.708008, 0.719238, 0.677246 ] }, { "question_id": "10062781", "image_id": 519460, "question": "cái gì đang trên bàn gỗ có đồ ăn", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "sandwich", "predicted_topk": [ "sandwich", "đĩa ăn", "bữa ăn", "dĩa", "món ăn", "cái nĩa", "thịt", "quán ăn", "bữa trưa", "món tráng miệng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.488662, "confidences": [ 0.488662, 0.367424, 0.03016, 0.010733, 0.009252, 0.00579, 0.005429, 0.004914, 0.004847, 0.003261 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.819824, 0.735352, 0.652832, 0.676758, 0.645996, 0.626465, 0.67334, 0.514648, 0.645508 ] }, { "question_id": "10026411", "image_id": 350075, "question": "hai con mèo con rúc vào đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "bát", "predicted_topk": [ "bát", "chậu", "tách", "cái nồi", "cái lọ", "bồn tắm", "thùng chứa", "cái rổ", "lọ cắm hoa", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.79701, "confidences": [ 0.79701, 0.152112, 0.012008, 0.005841, 0.003157, 0.001597, 0.001276, 0.00118, 0.000794, 0.000699 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.833984, 0.73584, 0.710449, 0.625977, 0.669922, 0.611816, 0.611328, 0.600098, 0.624512 ] }, { "question_id": "10079681", "image_id": 338847, "question": "người phụ nữ đeo kính và cà vạt là gì", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "nón", "predicted_topk": [ "nón", "cà vạt", "áo sơ mi", "điện thoại", "máy ảnh", "chiếc ô", "đồng hồ", "mũ", "bức ảnh", "bộ đồ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.170377, "confidences": [ 0.170377, 0.163211, 0.091911, 0.041186, 0.034278, 0.027977, 0.023697, 0.018276, 0.017748, 0.016608 ], "gate_score_top1": 0.745605, "gate_scores": [ 0.745605, 0.783691, 0.664062, 0.722656, 0.70459, 0.67627, 0.73291, 0.580566, 0.574707, 0.595215 ] }, { "question_id": "10119511", "image_id": 192702, "question": "có bao nhiêu chiếc máy bay lớn bên cạnh một vài chiếc máy bay nhỏ hơn", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.679786, "confidences": [ 0.679786, 0.246202, 0.027949, 0.018911, 0.009181, 0.008165, 0.002442, 0.001413, 0.001154, 0.000424 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.879395, 0.805176, 0.745117, 0.717285, 0.630371, 0.646484, 0.588867, 0.568848, 0.468018 ] }, { "question_id": "10044511", "image_id": 421656, "question": "đĩa rau ở đâu", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "bát", "predicted_topk": [ "bát", "món ăn", "đĩa ăn", "bữa ăn", "chảo", "cái nồi", "thùng chứa", "chén đĩa", "rau", "cái nĩa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.884773, "confidences": [ 0.884773, 0.033381, 0.029229, 0.003767, 0.00316, 0.002969, 0.001721, 0.001675, 0.001659, 0.001555 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.760254, 0.779785, 0.648926, 0.677246, 0.618164, 0.577148, 0.578613, 0.578613, 0.446533 ] }, { "question_id": "10047291", "image_id": 91411, "question": "xúc xích và khoai tây chiên được phục vụ ở đâu", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "cái rổ", "predicted_topk": [ "cái rổ", "cái mâm", "thùng chứa", "giấy bạc", "bát", "quán ăn", "con chó", "dĩa", "đĩa ăn", "tách" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.623038, "confidences": [ 0.623038, 0.170329, 0.059791, 0.032381, 0.006351, 0.006241, 0.004711, 0.00434, 0.003807, 0.003697 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.830078, 0.766113, 0.795898, 0.628906, 0.730957, 0.609863, 0.540039, 0.644043, 0.571289 ] }, { "question_id": "10091081", "image_id": 425475, "question": "người đó cầm gì để nâng ly chúc mừng", "ground_truth": "ly", "ground_truth_normalized": "ly", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "nước", "chai", "nến", "quán bar", "kính đeo", "đồ uống", "máy xay", "bức ảnh", "ly" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.164783, "confidences": [ 0.164783, 0.101322, 0.059332, 0.047211, 0.044786, 0.037129, 0.020465, 0.0124, 0.011798, 0.011763 ], "gate_score_top1": 0.728516, "gate_scores": [ 0.728516, 0.717285, 0.717773, 0.717773, 0.618652, 0.665527, 0.629883, 0.608398, 0.57959, 0.485352 ] }, { "question_id": "10114861", "image_id": 268938, "question": "có bao nhiêu con ngựa vằn đang đứng gặm cỏ trên cánh đồng", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.642685, "confidences": [ 0.642685, 0.259668, 0.038296, 0.034597, 0.010972, 0.002576, 0.001574, 0.000854, 0.000676, 0.000593 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.84668, 0.730469, 0.77832, 0.718262, 0.612305, 0.628418, 0.533691, 0.525391, 0.572754 ] }, { "question_id": "10053601", "image_id": 577077, "question": "những gì nằm trên chiếc giường nhỏ", "ground_truth": "chuột", "ground_truth_normalized": "chuột", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "đồ chơi", "cái kệ", "chuột", "màu nâu", "cái ghế", "bức tượng", "gấu trúc", "cửa sổ", "giường" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.634603, "confidences": [ 0.634603, 0.298597, 0.004789, 0.003383, 0.002446, 0.002133, 0.001793, 0.001693, 0.0012, 0.001176 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.817383, 0.648926, 0.602051, 0.599121, 0.539551, 0.547363, 0.677734, 0.57373, 0.558105 ] }, { "question_id": "10066821", "image_id": 566687, "question": "cái gì trong bát màu xanh lá cây", "ground_truth": "rau xà lách", "ground_truth_normalized": "rau xà lách", "predicted_top1": "rau", "predicted_topk": [ "rau", "đĩa ăn", "món ăn", "bát", "rau xà lách", "bữa ăn", "chén đĩa", "thịt", "bông cải xanh", "cái nĩa" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.193337, "confidences": [ 0.193337, 0.133921, 0.120046, 0.059543, 0.05908, 0.044162, 0.028126, 0.022733, 0.022468, 0.019828 ], "gate_score_top1": 0.793945, "gate_scores": [ 0.793945, 0.812988, 0.774902, 0.681152, 0.668457, 0.714844, 0.665039, 0.642578, 0.700195, 0.64209 ] }, { "question_id": "10100761", "image_id": 559483, "question": "tuyết phủ gì với nhiều núi hơn trong nền và người trên đỉnh núi", "ground_truth": "núi", "ground_truth_normalized": "núi", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "núi", "trượt tuyết", "đồi", "cây", "cây sào", "bức ảnh", "trang thiết bị", "áo sơ mi", "quần short" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.25417, "confidences": [ 0.25417, 0.202642, 0.16156, 0.159678, 0.015205, 0.007196, 0.007002, 0.006948, 0.006616, 0.006001 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.755371, 0.800781, 0.789551, 0.651367, 0.619141, 0.598633, 0.646973, 0.577637, 0.513672 ] }, { "question_id": "10005031", "image_id": 458649, "question": "màu của bầu trờilà gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu đỏ", "màu xanh dương", "màu xám", "màu cam", "màu vàng", "màu nâu", "màu tía", "màu xanh lá", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.589732, "confidences": [ 0.589732, 0.126053, 0.084959, 0.082667, 0.043563, 0.019712, 0.009569, 0.00428, 0.00402, 0.001921 ], "gate_score_top1": 0.85498, "gate_scores": [ 0.85498, 0.793945, 0.806152, 0.815918, 0.795898, 0.770508, 0.646973, 0.618164, 0.59375, 0.554688 ] }, { "question_id": "10020261", "image_id": 268739, "question": "màu của áo hoodie là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu tía", "màu nâu", "màu đen", "màu xám", "màu đỏ", "màu vàng", "màu trắng", "màu cam", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.655999, "confidences": [ 0.655999, 0.302694, 0.008859, 0.005229, 0.004152, 0.003708, 0.002944, 0.001775, 0.001486, 0.001421 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.859375, 0.748047, 0.649902, 0.676758, 0.681152, 0.72998, 0.67334, 0.683105, 0.617676 ] }, { "question_id": "10109891", "image_id": 161973, "question": "có bao nhiêu chiếc máy bay đóng thế cùng nhau bay trên không trung", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "bảy", "năm", "chín", "ba", "tám", "mười", "một", "hai" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.661024, "confidences": [ 0.661024, 0.156395, 0.073015, 0.06545, 0.01495, 0.010601, 0.005786, 0.000975, 0.00072, 0.000509 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.794434, 0.80957, 0.79541, 0.73291, 0.710449, 0.656738, 0.523926, 0.519531, 0.531738 ] }, { "question_id": "10102611", "image_id": 467142, "question": "có bao nhiêu chiếc máy bay đều được trang trí giống nhau bay đồng loạt", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bốn", "bảy", "chín", "năm", "tám", "ba", "máy bay", "mười", "sân vận động" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.311747, "confidences": [ 0.311747, 0.286075, 0.264576, 0.047436, 0.047251, 0.009525, 0.003038, 0.002052, 0.001438, 0.000853 ], "gate_score_top1": 0.825195, "gate_scores": [ 0.825195, 0.818848, 0.831543, 0.774902, 0.740723, 0.645508, 0.604492, 0.635742, 0.519531, 0.512695 ] }, { "question_id": "10094631", "image_id": 373140, "question": "cái gì đang đậu trên đường phố", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "xe cộ", "predicted_topk": [ "xe cộ", "xe tải", "xe đẩy", "xe buýt", "xe tay ga", "phương tiện giao thông", "xe máy", "xe đạp", "xe ô tô", "đường" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.251409, "confidences": [ 0.251409, 0.187562, 0.159805, 0.076376, 0.072312, 0.047238, 0.023892, 0.018391, 0.010236, 0.006967 ], "gate_score_top1": 0.782715, "gate_scores": [ 0.782715, 0.79248, 0.76416, 0.782715, 0.667969, 0.682129, 0.734863, 0.630859, 0.674805, 0.654785 ] }, { "question_id": "10029981", "image_id": 380395, "question": "con chó nhỏ ở đâu", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "cái túi", "predicted_topk": [ "cái túi", "hành lý", "vali", "balo", "cái ví", "túi", "xe đẩy", "cái ghế", "toa xe", "sân bay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.324681, "confidences": [ 0.324681, 0.171095, 0.152175, 0.127147, 0.036428, 0.03517, 0.01449, 0.011689, 0.011307, 0.007229 ], "gate_score_top1": 0.842773, "gate_scores": [ 0.842773, 0.81543, 0.78418, 0.761719, 0.754395, 0.754395, 0.716309, 0.62207, 0.680664, 0.711426 ] }, { "question_id": "10094711", "image_id": 430533, "question": "cái gì không chính xác", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "cái mâm", "predicted_topk": [ "cái mâm", "con chó", "thùng chứa", "bữa ăn", "giấy bạc", "chén đĩa", "sandwich", "dĩa", "hộp", "búi tóc" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.272979, "confidences": [ 0.272979, 0.124492, 0.074337, 0.043023, 0.035183, 0.034773, 0.03191, 0.022984, 0.022583, 0.018432 ], "gate_score_top1": 0.818848, "gate_scores": [ 0.818848, 0.705078, 0.729004, 0.647461, 0.736328, 0.582031, 0.791504, 0.628906, 0.685547, 0.71582 ] }, { "question_id": "10076831", "image_id": 502414, "question": "những gì xử lý một số bánh rán", "ground_truth": "cỗ máy", "ground_truth_normalized": "cỗ máy", "predicted_top1": "donut", "predicted_topk": [ "donut", "bánh ngọt", "phòng bếp", "cửa tiệm", "tạp dề", "cỗ máy", "cái mâm", "lò vi sóng", "cửa hàng", "sô cô la" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.728947, "confidences": [ 0.728947, 0.031164, 0.013456, 0.011577, 0.01142, 0.007388, 0.00694, 0.005913, 0.005742, 0.005479 ], "gate_score_top1": 0.834961, "gate_scores": [ 0.834961, 0.618652, 0.661133, 0.534668, 0.645996, 0.466064, 0.59375, 0.550781, 0.641602, 0.561035 ] }, { "question_id": "10009981", "image_id": 365140, "question": "màu của động cơ là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu đen", "màu đỏ", "màu cam", "màu xanh dương", "màu nâu", "màu vàng", "màu trắng", "màu xám", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.633023, "confidences": [ 0.633023, 0.125137, 0.118016, 0.069922, 0.010232, 0.009463, 0.00889, 0.008158, 0.00396, 0.002007 ], "gate_score_top1": 0.857422, "gate_scores": [ 0.857422, 0.825195, 0.832031, 0.881348, 0.740723, 0.739746, 0.765625, 0.78418, 0.717773, 0.705078 ] }, { "question_id": "10057721", "image_id": 424192, "question": "bộ đồ nội thất phòng ngủ cổ điển và rỉ sét những gì", "ground_truth": "gầu múc", "ground_truth_normalized": "gầu múc", "predicted_top1": "giường", "predicted_topk": [ "giường", "phòng ngủ", "phòng", "nhà ở", "hành lang", "cửa", "tường", "bức ảnh", "bồn tắm", "cửa sổ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.329905, "confidences": [ 0.329905, 0.252947, 0.052301, 0.019278, 0.018075, 0.015673, 0.013564, 0.009451, 0.008605, 0.007989 ], "gate_score_top1": 0.768066, "gate_scores": [ 0.768066, 0.774902, 0.757324, 0.678223, 0.55127, 0.592285, 0.516602, 0.593262, 0.669434, 0.521973 ] }, { "question_id": "10048071", "image_id": 494090, "question": "bộ sưu tập của gấu đồ chơi ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "cửa hàng", "cửa tiệm", "cái ghế", "phòng", "đường phố", "gian hàng", "xe lăn", "toa xe", "văn phòng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.31416, "confidences": [ 0.31416, 0.240875, 0.122547, 0.062347, 0.029108, 0.021716, 0.010666, 0.007989, 0.007819, 0.007203 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.806152, 0.751465, 0.741211, 0.741699, 0.762207, 0.669434, 0.669922, 0.630371, 0.619141 ] }, { "question_id": "10095401", "image_id": 502327, "question": "người đàn ông cầm ba lô đứng cạnh một người đàn ông mặc gì", "ground_truth": "bộ đồ", "ground_truth_normalized": "bộ đồ", "predicted_top1": "sân bay", "predicted_topk": [ "sân bay", "balo", "hành lý", "túi", "trạm", "bộ đồ", "vali", "cái túi", "máy ảnh", "xe điện ngầm" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.192091, "confidences": [ 0.192091, 0.166241, 0.075962, 0.059507, 0.05011, 0.044569, 0.031914, 0.018113, 0.014301, 0.011513 ], "gate_score_top1": 0.72998, "gate_scores": [ 0.72998, 0.741699, 0.720703, 0.770996, 0.623535, 0.608398, 0.634766, 0.646973, 0.616699, 0.606445 ] }, { "question_id": "10044621", "image_id": 215469, "question": "đứa trẻ đang đứng đâu", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe điện ngầm", "tòa nhà", "chiếc ô", "kho", "cửa hàng", "các tòa nhà", "ga-ra", "ô cửa", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.112298, "confidences": [ 0.112298, 0.097186, 0.06474, 0.054304, 0.037615, 0.032808, 0.021601, 0.021141, 0.020814, 0.019287 ], "gate_score_top1": 0.708008, "gate_scores": [ 0.708008, 0.648926, 0.782227, 0.664551, 0.657227, 0.717773, 0.60791, 0.679688, 0.605469, 0.527344 ] }, { "question_id": "10083391", "image_id": 399516, "question": "trên đĩa có bánh mì tròn có bánh rán nào", "ground_truth": "sô cô la", "ground_truth_normalized": "sô cô la", "predicted_top1": "donut", "predicted_topk": [ "donut", "sô cô la", "đĩa ăn", "bánh ngọt", "cái mâm", "bức ảnh", "bữa ăn", "cupcake", "búi tóc", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.244869, "confidences": [ 0.244869, 0.200639, 0.152638, 0.028736, 0.017738, 0.012239, 0.011231, 0.010759, 0.010633, 0.010028 ], "gate_score_top1": 0.762207, "gate_scores": [ 0.762207, 0.680176, 0.727051, 0.708984, 0.637695, 0.562012, 0.608398, 0.594727, 0.642578, 0.460449 ] }, { "question_id": "10013531", "image_id": 427603, "question": "màu của ô liu là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu trắng", "màu đen", "màu nâu", "màu xám", "màu đỏ", "màu cam", "màu vàng", "màu xanh dương", "màu tía" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.203503, "confidences": [ 0.203503, 0.198014, 0.131906, 0.12247, 0.11824, 0.099957, 0.059223, 0.019837, 0.010251, 0.008803 ], "gate_score_top1": 0.778809, "gate_scores": [ 0.778809, 0.850098, 0.804199, 0.794922, 0.819824, 0.798828, 0.800293, 0.759277, 0.728516, 0.702148 ] }, { "question_id": "10040971", "image_id": 428126, "question": "người quay phim đang quay ở đâu trong khi hai nhóm người ngồi ở hai bên anh ta", "ground_truth": "lối đi", "ground_truth_normalized": "lối đi", "predicted_top1": "quán ăn", "predicted_topk": [ "quán ăn", "xe lăn", "áo vest", "phòng", "tòa nhà", "lớp học", "quán bar", "lối đi", "cửa tiệm", "nhà ở" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.085077, "confidences": [ 0.085077, 0.035674, 0.031176, 0.025149, 0.024091, 0.022809, 0.020306, 0.019778, 0.016967, 0.015692 ], "gate_score_top1": 0.709961, "gate_scores": [ 0.709961, 0.617188, 0.584473, 0.609375, 0.722656, 0.622559, 0.57959, 0.404541, 0.612305, 0.64209 ] }, { "question_id": "10046901", "image_id": 330652, "question": "hai đứa trẻ đang chơi ở đâu", "ground_truth": "gian hàng", "ground_truth_normalized": "gian hàng", "predicted_top1": "quán ăn", "predicted_topk": [ "quán ăn", "cái ghế", "gian hàng", "phòng", "cửa tiệm", "xe lăn", "đường phố", "cái rổ", "quán bar", "cửa hàng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.256248, "confidences": [ 0.256248, 0.152416, 0.145436, 0.078151, 0.019491, 0.011171, 0.010392, 0.010271, 0.009038, 0.008641 ], "gate_score_top1": 0.779297, "gate_scores": [ 0.779297, 0.773926, 0.693359, 0.722168, 0.631836, 0.528809, 0.664062, 0.598633, 0.503418, 0.647949 ] }, { "question_id": "10115431", "image_id": 471332, "question": "lớn bao nhiêu tín hiệu đèn giao thông được đặt để dừng tất cả các hướng", "ground_truth": "chín", "ground_truth_normalized": "chín", "predicted_top1": "một", "predicted_topk": [ "một", "bốn", "ba", "bảy", "hai", "năm", "sáu", "chín", "tám", "mười" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.641618, "confidences": [ 0.641618, 0.131889, 0.047027, 0.041339, 0.03454, 0.023646, 0.023462, 0.014625, 0.006181, 0.005184 ], "gate_score_top1": 0.813965, "gate_scores": [ 0.813965, 0.775879, 0.75293, 0.711914, 0.68457, 0.765625, 0.70459, 0.655273, 0.580566, 0.567871 ] }, { "question_id": "10022171", "image_id": 164222, "question": "màu sắc của bức ảnh là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu trắng", "màu xanh dương", "màu xanh lá", "màu đen", "màu vàng", "màu nâu", "màu tía", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.510387, "confidences": [ 0.510387, 0.403749, 0.038295, 0.018089, 0.006526, 0.004297, 0.004132, 0.003205, 0.002807, 0.001609 ], "gate_score_top1": 0.88623, "gate_scores": [ 0.88623, 0.88916, 0.811035, 0.745605, 0.693359, 0.741699, 0.736816, 0.762695, 0.741699, 0.711914 ] }, { "question_id": "10118891", "image_id": 352093, "question": "có bao nhiêu ấm đun nước có chân đặt trên bệ cạnh một ấm đun nước khác có chân đặt trên sàn.", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "bảy", "sáu", "năm", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.658134, "confidences": [ 0.658134, 0.298971, 0.031758, 0.002153, 0.00047, 0.000463, 0.000414, 0.000406, 0.000164, 0.000126 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.858887, 0.832031, 0.690918, 0.472656, 0.435791, 0.594238, 0.5, 0.438232, 0.382568 ] }, { "question_id": "10080551", "image_id": 551170, "question": "những gì đầy trang sơ tường ở phía trước", "ground_truth": "ga-ra", "ground_truth_normalized": "ga-ra", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "ga-ra", "kho", "cửa tiệm", "vòi", "cửa hàng", "nhà ở", "vẽ tranh lên tường", "ảnh chụp", "xe ô tô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.348085, "confidences": [ 0.348085, 0.345376, 0.02332, 0.014939, 0.01379, 0.011233, 0.008817, 0.008697, 0.008629, 0.007439 ], "gate_score_top1": 0.85498, "gate_scores": [ 0.85498, 0.818359, 0.720703, 0.727539, 0.643066, 0.641113, 0.642578, 0.527344, 0.56543, 0.619141 ] }, { "question_id": "10047381", "image_id": 459598, "question": "con mèo ngồi ở đâu", "ground_truth": "tách", "ground_truth_normalized": "tách", "predicted_top1": "bát", "predicted_topk": [ "bát", "chậu", "cái nồi", "tách", "thùng chứa", "cái rổ", "món ăn", "giường", "phòng bếp", "cái lọ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.945007, "confidences": [ 0.945007, 0.016196, 0.006468, 0.004515, 0.004275, 0.003422, 0.001066, 0.000893, 0.00083, 0.000813 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.787598, 0.70752, 0.705566, 0.675293, 0.694824, 0.629883, 0.436035, 0.639648, 0.620117 ] }, { "question_id": "10034321", "image_id": 153985, "question": "hai người đàn ông sử dụng máy tính xách tay của apple ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "thư viện", "phòng", "lớp học", "cửa tiệm", "tòa nhà", "cái bàn", "chung cư", "cái ghế", "nhà ở" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.483006, "confidences": [ 0.483006, 0.126493, 0.122601, 0.070404, 0.026359, 0.012427, 0.011629, 0.009217, 0.008118, 0.007012 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.728027, 0.780273, 0.769531, 0.797363, 0.655762, 0.582031, 0.639648, 0.611816, 0.708984 ] }, { "question_id": "10051591", "image_id": 550030, "question": "mèo đen và nâu ngồi ở đâu", "ground_truth": "balo", "ground_truth_normalized": "balo", "predicted_top1": "cái túi", "predicted_topk": [ "cái túi", "balo", "vali", "cái ghế", "cái ví", "hành lý", "văn phòng", "túi", "cửa sổ", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.288655, "confidences": [ 0.288655, 0.195313, 0.06098, 0.058415, 0.04612, 0.042737, 0.016509, 0.01619, 0.014741, 0.013501 ], "gate_score_top1": 0.816895, "gate_scores": [ 0.816895, 0.745605, 0.70166, 0.665039, 0.704102, 0.70752, 0.711914, 0.679688, 0.682129, 0.655273 ] }, { "question_id": "10079231", "image_id": 495448, "question": "các tính năng đa tầng những gì", "ground_truth": "bông hoa", "ground_truth_normalized": "bông hoa", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "bông hoa", "nến", "dao", "đĩa ăn", "mũ", "lọ cắm hoa", "đồng hồ", "món tráng miệng", "bức tượng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.522902, "confidences": [ 0.522902, 0.115767, 0.036929, 0.018825, 0.014689, 0.01254, 0.011329, 0.008112, 0.005769, 0.005468 ], "gate_score_top1": 0.829102, "gate_scores": [ 0.829102, 0.791992, 0.666504, 0.657715, 0.647461, 0.619141, 0.573242, 0.696777, 0.51123, 0.626465 ] }, { "question_id": "10077761", "image_id": 524202, "question": "những gì đang nằm trên đỉnh của một chiếc máy bay", "ground_truth": "con thoi", "ground_truth_normalized": "con thoi", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "bầu trời", "hải âu", "màu trắng", "động cơ", "màu xám", "con thoi", "núi", "xe ô tô" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.835101, "confidences": [ 0.835101, 0.019185, 0.007616, 0.006515, 0.002734, 0.002687, 0.002561, 0.002316, 0.002197, 0.002034 ], "gate_score_top1": 0.843262, "gate_scores": [ 0.843262, 0.593262, 0.513184, 0.516113, 0.536621, 0.482666, 0.597656, 0.367676, 0.413818, 0.501953 ] }, { "question_id": "10046551", "image_id": 211107, "question": "nơi là một phòng khách nhỏ và thông thường", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "chung cư", "nhiều cái ghế", "cửa sổ", "đi văng", "cửa", "phòng ngủ", "tòa nhà", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.502589, "confidences": [ 0.502589, 0.169005, 0.036124, 0.028688, 0.023552, 0.017674, 0.015628, 0.013551, 0.012981, 0.011959 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.848145, 0.685059, 0.675781, 0.696777, 0.668457, 0.672363, 0.728027, 0.678711, 0.613281 ] }, { "question_id": "10062491", "image_id": 341094, "question": "những gì có thể có, xé toạc ô tô và làm tổn thương những người ngồi trong xe", "ground_truth": "gấu", "ground_truth_normalized": "gấu", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe tải", "phương tiện giao thông", "cửa sổ", "đường", "xe cộ", "con chó", "gương", "đường phố", "gấu" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.961024, "confidences": [ 0.961024, 0.00892, 0.005965, 0.001971, 0.001248, 0.001219, 0.000533, 0.000416, 0.000393, 0.000386 ], "gate_score_top1": 0.864746, "gate_scores": [ 0.864746, 0.719238, 0.754395, 0.692383, 0.631836, 0.677734, 0.650879, 0.635742, 0.487305, 0.514648 ] }, { "question_id": "10055581", "image_id": 432859, "question": "những gì nằm bên cạnh máy nghe nhạc mp3 và các mặt hàng khác", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "bàn phím", "cái bàn", "điện thoại", "chuột", "bức tranh", "trang thiết bị", "máy ảnh", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.612646, "confidences": [ 0.612646, 0.357353, 0.004807, 0.002691, 0.001424, 0.001232, 0.000869, 0.000731, 0.000394, 0.000351 ], "gate_score_top1": 0.90918, "gate_scores": [ 0.90918, 0.871582, 0.751953, 0.780273, 0.699219, 0.69043, 0.535645, 0.528809, 0.615234, 0.475098 ] }, { "question_id": "10008631", "image_id": 385844, "question": "màu của nhà vệ sinh là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu trắng", "màu nâu", "màu đen", "màu xanh dương", "màu đỏ", "màu xám", "màu vàng", "màu tía", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.62443, "confidences": [ 0.62443, 0.342159, 0.016129, 0.002454, 0.002388, 0.002083, 0.001754, 0.001733, 0.001443, 0.000696 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.888672, 0.790039, 0.759766, 0.686035, 0.730469, 0.780762, 0.697266, 0.71875, 0.715332 ] }, { "question_id": "10096981", "image_id": 569464, "question": "những gì được hiển thị trong chiếc bình trong một căn phòng", "ground_truth": "hoa hồng", "ground_truth_normalized": "hoa hồng", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "hoa hồng", "lọ cắm hoa", "cây", "chai", "bình hoa", "nến", "cái lọ", "đồng hồ", "cà vạt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.59657, "confidences": [ 0.59657, 0.181234, 0.061662, 0.011838, 0.009201, 0.007336, 0.004681, 0.003336, 0.003239, 0.002904 ], "gate_score_top1": 0.870605, "gate_scores": [ 0.870605, 0.789551, 0.616699, 0.658691, 0.643555, 0.474609, 0.69043, 0.551758, 0.685547, 0.662109 ] }, { "question_id": "10107401", "image_id": 12181, "question": "có bao nhiêu con hươu cao cổ thấp cổ trong một cánh đồng cỏ bao quanh", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.720485, "confidences": [ 0.720485, 0.169798, 0.08147, 0.013093, 0.003416, 0.002671, 0.002137, 0.001546, 0.000606, 0.000566 ], "gate_score_top1": 0.89502, "gate_scores": [ 0.89502, 0.847656, 0.806641, 0.669434, 0.699707, 0.671387, 0.62207, 0.595215, 0.587402, 0.472412 ] }, { "question_id": "10096951", "image_id": 392991, "question": "những gì đang được rót vào bánh", "ground_truth": "sô cô la", "ground_truth_normalized": "sô cô la", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "dao", "sô cô la", "cupcake", "nến", "món tráng miệng", "đĩa ăn", "cái mâm", "donut", "chảo" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.791633, "confidences": [ 0.791633, 0.050607, 0.013917, 0.010122, 0.010122, 0.006092, 0.005376, 0.003887, 0.003325, 0.003312 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.769531, 0.619629, 0.655762, 0.679688, 0.585938, 0.663574, 0.623535, 0.59668, 0.568848 ] }, { "question_id": "10110961", "image_id": 176612, "question": "có bao nhiêu bông hoa màu đỏ được cắm trong bình", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.5088, "confidences": [ 0.5088, 0.320896, 0.067263, 0.044632, 0.017342, 0.011463, 0.008619, 0.001768, 0.001242, 0.001227 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.84668, 0.779297, 0.767578, 0.601562, 0.698242, 0.65625, 0.506348, 0.490234, 0.543457 ] }, { "question_id": "10034711", "image_id": 369811, "question": "hai con bò ăn cỏ khô ở đâu", "ground_truth": "chuồng trại", "ground_truth_normalized": "chuồng trại", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "chuồng trại", "lồng", "rào chắn", "con bò", "vườn bách thú", "tòa nhà", "bãi cỏ", "hay", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.552942, "confidences": [ 0.552942, 0.320019, 0.042472, 0.005873, 0.004381, 0.003822, 0.002953, 0.002694, 0.002668, 0.002169 ], "gate_score_top1": 0.812012, "gate_scores": [ 0.812012, 0.821289, 0.778809, 0.624512, 0.680664, 0.746094, 0.62207, 0.577637, 0.434814, 0.622559 ] }, { "question_id": "10044931", "image_id": 315647, "question": "nhà vệ sinh trắng đang ngồi ở đâu", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "bồn tắm", "nhà ở", "phòng", "gương", "khăn", "chậu", "hành lang", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.948393, "confidences": [ 0.948393, 0.011436, 0.008532, 0.005256, 0.004224, 0.002153, 0.0015, 0.001401, 0.001293, 0.001246 ], "gate_score_top1": 0.901855, "gate_scores": [ 0.901855, 0.751465, 0.787598, 0.79541, 0.777344, 0.712891, 0.691406, 0.723145, 0.554199, 0.580566 ] }, { "question_id": "10024981", "image_id": 224938, "question": "người phụ nữ nhìn ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "đường", "predicted_topk": [ "đường", "gương", "xe máy", "đường phố", "ga-ra", "xe tay ga", "chuồng", "xe đạp", "áo vest", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.228687, "confidences": [ 0.228687, 0.224264, 0.107603, 0.045384, 0.030649, 0.028736, 0.012902, 0.009663, 0.008972, 0.007917 ], "gate_score_top1": 0.794922, "gate_scores": [ 0.794922, 0.760742, 0.73584, 0.701172, 0.654297, 0.598633, 0.637695, 0.557129, 0.58252, 0.449951 ] }, { "question_id": "10033921", "image_id": 578020, "question": "con mèo trắng lớn đang nằm ở đâu", "ground_truth": "ngăn kéo", "ground_truth_normalized": "ngăn kéo", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "cái túi", "vali", "giường", "thùng chứa", "ngăn kéo", "phòng ngủ", "phòng", "hành lý", "tủ lạnh" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.169466, "confidences": [ 0.169466, 0.131465, 0.123984, 0.074324, 0.062465, 0.059141, 0.041855, 0.018792, 0.01289, 0.009468 ], "gate_score_top1": 0.758301, "gate_scores": [ 0.758301, 0.757812, 0.698242, 0.672852, 0.715332, 0.651855, 0.731934, 0.668945, 0.576172, 0.568359 ] }, { "question_id": "10050341", "image_id": 292662, "question": "xe cứu hỏa màu đỏ đậu ở đâu", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "ga-ra", "phòng", "kho", "trạm", "bảo tàng", "cửa tiệm", "cửa hàng", "sân bay", "nhà ở" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.304381, "confidences": [ 0.304381, 0.194994, 0.107686, 0.103966, 0.07258, 0.061358, 0.042006, 0.007908, 0.007089, 0.005521 ], "gate_score_top1": 0.805664, "gate_scores": [ 0.805664, 0.849121, 0.788574, 0.813965, 0.769531, 0.834473, 0.776855, 0.762207, 0.67334, 0.675293 ] }, { "question_id": "10084001", "image_id": 368679, "question": "những gì được bao phủ trong bát và đĩa chứa đầy thức ăn", "ground_truth": "sàn nhà", "ground_truth_normalized": "sàn nhà", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "chén đĩa", "món ăn", "bữa ăn", "bát", "đĩa ăn", "thịt", "quầy tính tiền", "quán ăn", "cái nồi" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.186885, "confidences": [ 0.186885, 0.134608, 0.093972, 0.081326, 0.072616, 0.054175, 0.04562, 0.032794, 0.024997, 0.01531 ], "gate_score_top1": 0.734863, "gate_scores": [ 0.734863, 0.743652, 0.788574, 0.755371, 0.745117, 0.751465, 0.667969, 0.696289, 0.696777, 0.614258 ] }, { "question_id": "10051671", "image_id": 137931, "question": "con chó đang bị đẩy xung quanh đâu", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "balo", "xe đẩy", "cái ví", "túi", "toa xe", "xe", "sân bay" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.356865, "confidences": [ 0.356865, 0.173922, 0.123812, 0.093458, 0.045726, 0.032935, 0.026776, 0.018656, 0.006904, 0.006447 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.82959, 0.804199, 0.728516, 0.769043, 0.73877, 0.751953, 0.6875, 0.637695, 0.704102 ] }, { "question_id": "10114821", "image_id": 381599, "question": "có bao nhiêu máy bay phản lực đang đậu ở sân bay lớn", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "hai", "chín", "một", "tám", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.463706, "confidences": [ 0.463706, 0.238695, 0.227765, 0.032052, 0.011654, 0.005837, 0.003769, 0.003236, 0.00256, 0.000957 ], "gate_score_top1": 0.863281, "gate_scores": [ 0.863281, 0.835449, 0.832031, 0.693848, 0.723145, 0.670898, 0.62207, 0.639648, 0.592773, 0.538574 ] }, { "question_id": "10011221", "image_id": 79090, "question": "màu sắc của người đàn ông là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu đen", "màu trắng", "màu xanh dương", "màu nâu", "màu đỏ", "màu tía", "màu xanh lá", "màu vàng", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.636244, "confidences": [ 0.636244, 0.10427, 0.102254, 0.070553, 0.02354, 0.020293, 0.009851, 0.00704, 0.006797, 0.003499 ], "gate_score_top1": 0.883789, "gate_scores": [ 0.883789, 0.811035, 0.847168, 0.782227, 0.77832, 0.789062, 0.75, 0.63623, 0.710449, 0.729492 ] }, { "question_id": "10107361", "image_id": 441462, "question": "có bao nhiêu người trẻ tuổi đang chuẩn bị ăn một bữa ăn", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "một", "chín", "hai", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.767377, "confidences": [ 0.767377, 0.152291, 0.033981, 0.029871, 0.005635, 0.00145, 0.000781, 0.000716, 0.000537, 0.00045 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.828613, 0.718262, 0.773438, 0.696289, 0.629883, 0.57373, 0.57666, 0.575684, 0.493896 ] }, { "question_id": "10089681", "image_id": 531018, "question": "người cưỡi ván lướt sóng với cái gì", "ground_truth": "mái chèo", "ground_truth_normalized": "mái chèo", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "cầu", "cây sào", "trượt tuyết", "ca nô", "con thuyền", "bờ biển", "núi", "diều" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.17874, "confidences": [ 0.17874, 0.131795, 0.052424, 0.040195, 0.028614, 0.027734, 0.022198, 0.020172, 0.016304, 0.014248 ], "gate_score_top1": 0.766113, "gate_scores": [ 0.766113, 0.700684, 0.660645, 0.62793, 0.707031, 0.455566, 0.625488, 0.647461, 0.619629, 0.63623 ] }, { "question_id": "10091311", "image_id": 530220, "question": "những gì nằm trên thảm đỏ", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "mũ", "đường", "xe cộ", "ga-ra", "cây", "động cơ", "con khỉ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.904325, "confidences": [ 0.904325, 0.081846, 0.002768, 0.000799, 0.000526, 0.000336, 0.000208, 0.000183, 0.000166, 0.000154 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.861328, 0.675781, 0.513672, 0.553711, 0.578125, 0.522461, 0.439697, 0.525391, 0.398926 ] }, { "question_id": "10100891", "image_id": 398507, "question": "những gì ngồi trên mảng cỏ", "ground_truth": "xe cộ", "ground_truth_normalized": "xe cộ", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe cộ", "phương tiện giao thông", "xe buýt", "động cơ", "màu xanh lá", "xe ô tô", "xe đẩy", "đoạn phim giới thiệu", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.772111, "confidences": [ 0.772111, 0.06264, 0.039353, 0.011978, 0.006263, 0.004313, 0.003288, 0.00295, 0.00266, 0.001576 ], "gate_score_top1": 0.831543, "gate_scores": [ 0.831543, 0.718262, 0.716309, 0.671387, 0.602051, 0.647949, 0.610352, 0.567871, 0.451904, 0.570801 ] }, { "question_id": "10035011", "image_id": 3178, "question": "con hươu cao cổ trẻ đang bú mẹ của nó ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "chuồng trại", "bảo tàng", "tòa nhà", "cửa tiệm", "bãi cỏ", "lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.654715, "confidences": [ 0.654715, 0.250451, 0.068203, 0.001969, 0.001748, 0.001276, 0.001239, 0.000821, 0.000673, 0.000585 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.876465, 0.870605, 0.604004, 0.682617, 0.615234, 0.631348, 0.61377, 0.511719, 0.57666 ] }, { "question_id": "10102951", "image_id": 483971, "question": "em bé màu xanh có bao nhiêu xe đạp tốc độ dựa vào một băng ghế", "ground_truth": "mười", "ground_truth_normalized": "mười", "predicted_top1": "hai", "predicted_topk": [ "hai", "mười", "một", "bốn", "xe đạp", "ba", "năm", "sáu", "bảy", "cái nồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.278033, "confidences": [ 0.278033, 0.119114, 0.079347, 0.071824, 0.05561, 0.040369, 0.038146, 0.019559, 0.010049, 0.005544 ], "gate_score_top1": 0.694336, "gate_scores": [ 0.694336, 0.604492, 0.597656, 0.579102, 0.706543, 0.583496, 0.570312, 0.496582, 0.504395, 0.47876 ] }, { "question_id": "10075411", "image_id": 358296, "question": "trượt tuyết cái gì ở dưới đồi trượt tuyết gần tòa nhà", "ground_truth": "giá đỡ", "ground_truth_normalized": "giá đỡ", "predicted_top1": "trượt tuyết", "predicted_topk": [ "trượt tuyết", "núi", "ván trượt", "đồi", "cây", "giá đỡ", "năm", "trang thiết bị", "cây sào", "cái lều" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.506821, "confidences": [ 0.506821, 0.068057, 0.055438, 0.043599, 0.014349, 0.012938, 0.007909, 0.006615, 0.006349, 0.005855 ], "gate_score_top1": 0.791504, "gate_scores": [ 0.791504, 0.680176, 0.734375, 0.724609, 0.681641, 0.452881, 0.619629, 0.570801, 0.520508, 0.571289 ] }, { "question_id": "10096331", "image_id": 352418, "question": "điều gì bù đắp cho thịt bò teriyaki sẫm màu trong món xào", "ground_truth": "rau", "ground_truth_normalized": "rau", "predicted_top1": "bát", "predicted_topk": [ "bát", "đĩa ăn", "món ăn", "bữa ăn", "rau", "chén đĩa", "cái nĩa", "thịt", "dĩa", "rau xà lách" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.268977, "confidences": [ 0.268977, 0.149124, 0.125575, 0.08597, 0.083979, 0.029479, 0.023003, 0.021737, 0.020741, 0.012803 ], "gate_score_top1": 0.762207, "gate_scores": [ 0.762207, 0.810547, 0.799316, 0.741211, 0.75, 0.683594, 0.627441, 0.666992, 0.67627, 0.601562 ] }, { "question_id": "10111041", "image_id": 437467, "question": "có bao nhiêu con ngựa vằn rải rác khắp đồng cỏ vào một ngày nắng", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.857151, "confidences": [ 0.857151, 0.09617, 0.036932, 0.002985, 0.002624, 0.000565, 0.000234, 0.000202, 0.00015, 0.000115 ], "gate_score_top1": 0.893555, "gate_scores": [ 0.893555, 0.85791, 0.838379, 0.691895, 0.654297, 0.444824, 0.474365, 0.492188, 0.400879, 0.407715 ] }, { "question_id": "10092731", "image_id": 495357, "question": "những gì đang cưỡi xe máy xuống đường", "ground_truth": "con khỉ", "ground_truth_normalized": "con khỉ", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe tay ga", "xe đạp", "đường", "mũ", "đường phố", "xe cộ", "cây", "ga-ra", "con khỉ" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.728096, "confidences": [ 0.728096, 0.112973, 0.054844, 0.029471, 0.006785, 0.004012, 0.003064, 0.001814, 0.001659, 0.001429 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.800293, 0.802246, 0.760254, 0.550781, 0.681641, 0.571777, 0.490234, 0.537598, 0.395752 ] }, { "question_id": "10062741", "image_id": 438989, "question": "người phụ nữ ném một chiếc dĩa nhựa màu xanh trên cỏ xanh được bao phủ là gì", "ground_truth": "đồi", "ground_truth_normalized": "đồi", "predicted_top1": "dĩa nhựa", "predicted_topk": [ "dĩa nhựa", "diều", "đồi", "ván trượt", "áo sơ mi", "chiếc ô", "nón", "mũ", "cây", "những bức ảnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.133817, "confidences": [ 0.133817, 0.107525, 0.093419, 0.04219, 0.042107, 0.028827, 0.024513, 0.021845, 0.020967, 0.020282 ], "gate_score_top1": 0.727539, "gate_scores": [ 0.727539, 0.735352, 0.693848, 0.647949, 0.602539, 0.687988, 0.627441, 0.626465, 0.616699, 0.54248 ] }, { "question_id": "10069661", "image_id": 346954, "question": "cái gì đã dừng lại ở nhà ga giữa những tòa nhà cao tầng", "ground_truth": "xe điện", "ground_truth_normalized": "xe điện", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe điện", "xe ô tô", "xe điện ngầm", "trạm", "các tòa nhà", "xe buýt", "xe đẩy", "cửa", "đường sắt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.533874, "confidences": [ 0.533874, 0.123386, 0.101494, 0.037338, 0.024201, 0.01781, 0.016027, 0.012654, 0.00772, 0.007238 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.77832, 0.796875, 0.741699, 0.706055, 0.706543, 0.728516, 0.730957, 0.597168, 0.674316 ] }, { "question_id": "10047191", "image_id": 30205, "question": "hình ảnh của một người đàn ông và phụ nữ trên bãi biển và người đàn ông đang ngồi ở đâu", "ground_truth": "cái lều", "ground_truth_normalized": "cái lều", "predicted_top1": "diều", "predicted_topk": [ "diều", "cái lều", "bờ biển", "áo vest", "ca nô", "con thuyền", "ván lướt sóng", "trượt tuyết", "bảng", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.108418, "confidences": [ 0.108418, 0.085766, 0.065887, 0.041312, 0.035198, 0.027627, 0.022286, 0.021898, 0.016529, 0.014716 ], "gate_score_top1": 0.766602, "gate_scores": [ 0.766602, 0.567383, 0.525391, 0.619141, 0.549805, 0.523926, 0.70166, 0.634766, 0.585938, 0.544434 ] }, { "question_id": "10101851", "image_id": 539938, "question": "những gì đang mang xe đẩy khi một người đàn ông kiểm tra phía trước", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "đường sắt", "hàng hoá", "các tòa nhà", "xe điện ngầm", "trạm", "xe đẩy", "phương tiện giao thông" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.54831, "confidences": [ 0.54831, 0.373915, 0.029749, 0.004933, 0.002451, 0.002303, 0.00149, 0.001461, 0.001223, 0.00105 ], "gate_score_top1": 0.893555, "gate_scores": [ 0.893555, 0.840332, 0.754883, 0.604004, 0.567871, 0.640625, 0.616211, 0.575684, 0.611816, 0.560059 ] }, { "question_id": "10095861", "image_id": 464286, "question": "những con bò đang được nuôi cái gì trong khi bị bỏ vào chuồng", "ground_truth": "cỏ khô", "ground_truth_normalized": "cỏ khô", "predicted_top1": "chuồng trại", "predicted_topk": [ "chuồng trại", "con bò", "bãi cỏ", "chuồng", "đồi", "rào chắn", "hay", "bò đực", "cái lều", "lồng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.264126, "confidences": [ 0.264126, 0.201723, 0.122351, 0.097166, 0.011117, 0.010162, 0.00949, 0.008457, 0.008424, 0.007648 ], "gate_score_top1": 0.77832, "gate_scores": [ 0.77832, 0.768066, 0.737793, 0.672363, 0.654785, 0.53125, 0.461914, 0.553223, 0.501465, 0.592285 ] }, { "question_id": "10041471", "image_id": 191408, "question": "hotdog đang được đặt vào đâu", "ground_truth": "lon", "ground_truth_normalized": "lon", "predicted_top1": "bát", "predicted_topk": [ "bát", "tách", "cái nồi", "chảo", "thùng chứa", "phòng bếp", "máy xay", "cái rổ", "cái lọ", "món ăn" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.245211, "confidences": [ 0.245211, 0.120444, 0.110094, 0.04895, 0.038798, 0.030334, 0.027033, 0.026927, 0.024232, 0.02126 ], "gate_score_top1": 0.808105, "gate_scores": [ 0.808105, 0.749512, 0.778809, 0.718262, 0.736816, 0.619629, 0.707031, 0.750488, 0.725098, 0.740234 ] }, { "question_id": "10040401", "image_id": 467180, "question": "nhà vệ sinh ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "vòi hoa sen", "bồn tắm", "nhà ở", "bồn tiểu", "chậu", "chuồng", "ô cửa", "hành lang" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.936195, "confidences": [ 0.936195, 0.017554, 0.008656, 0.002882, 0.002854, 0.002564, 0.002529, 0.00238, 0.001671, 0.001144 ], "gate_score_top1": 0.890625, "gate_scores": [ 0.890625, 0.811035, 0.715332, 0.72168, 0.754395, 0.612305, 0.719238, 0.66748, 0.489502, 0.532715 ] }, { "question_id": "10058291", "image_id": 528862, "question": "đàn hươu cao cổ đang đi qua cái gì với một đám cỏ bao phủ ", "ground_truth": "đồi", "ground_truth_normalized": "đồi", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "cây", "bãi cỏ", "đồi", "lá", "lồng", "rào chắn", "tòa nhà", "ngựa rằn" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.220437, "confidences": [ 0.220437, 0.213655, 0.101715, 0.083669, 0.043747, 0.039677, 0.032131, 0.024397, 0.006761, 0.005666 ], "gate_score_top1": 0.791992, "gate_scores": [ 0.791992, 0.770996, 0.800293, 0.687988, 0.680176, 0.638184, 0.763672, 0.624023, 0.642578, 0.540527 ] }, { "question_id": "10111321", "image_id": 14543, "question": "có bao nhiêu người đang ngồi trên tuyết với ván trượt tuyết trước một ngọn núi", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "ba", "mười", "một", "núi" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.45583, "confidences": [ 0.45583, 0.267969, 0.194524, 0.041094, 0.007113, 0.005828, 0.003875, 0.001544, 0.000974, 0.000764 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.848633, 0.792969, 0.740723, 0.65625, 0.63623, 0.572266, 0.556641, 0.527832, 0.582031 ] }, { "question_id": "10100261", "image_id": 519479, "question": "người đàn ông đang nghiên cứu trên máy tính của anh ấy là gì", "ground_truth": "bức tranh", "ground_truth_normalized": "bức tranh", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "bức tranh", "laptop", "cà vạt", "đồng hồ", "văn phòng", "cái bàn", "thư viện", "bộ đồ", "áo sơ mi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.177095, "confidences": [ 0.177095, 0.155677, 0.094607, 0.035283, 0.02813, 0.022647, 0.021069, 0.020025, 0.014651, 0.01217 ], "gate_score_top1": 0.78125, "gate_scores": [ 0.78125, 0.643555, 0.782227, 0.706543, 0.711426, 0.635254, 0.754395, 0.653809, 0.581543, 0.533691 ] }, { "question_id": "10103361", "image_id": 2964, "question": "có bao nhiêu chai than vãn giữa máy nướng bánh mì và máy xay sinh tố", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "ba", "bảy", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.472635, "confidences": [ 0.472635, 0.385753, 0.073335, 0.031052, 0.019738, 0.00316, 0.001537, 0.00101, 0.000934, 0.000595 ], "gate_score_top1": 0.838379, "gate_scores": [ 0.838379, 0.855957, 0.739746, 0.731934, 0.749512, 0.59668, 0.606934, 0.499512, 0.527832, 0.526367 ] }, { "question_id": "10111461", "image_id": 437970, "question": "có bao nhiêu người trên lưng ngựa đang chạy trên mặt nước trước con tàu", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "năm", "một", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.606634, "confidences": [ 0.606634, 0.217998, 0.151003, 0.009653, 0.005008, 0.003038, 0.00078, 0.00062, 0.000403, 0.000292 ], "gate_score_top1": 0.887207, "gate_scores": [ 0.887207, 0.853027, 0.862793, 0.707031, 0.691406, 0.542969, 0.539551, 0.528809, 0.468506, 0.413574 ] }, { "question_id": "10081531", "image_id": 508996, "question": "những gì đang đến gần trên đường tàu", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "đường sắt", "hàng hoá", "các tòa nhà", "phương tiện giao thông", "xe điện ngầm", "xe điện", "xe đẩy" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.763726, "confidences": [ 0.763726, 0.10581, 0.084689, 0.005808, 0.003002, 0.001972, 0.001635, 0.001585, 0.001377, 0.001189 ], "gate_score_top1": 0.916504, "gate_scores": [ 0.916504, 0.799316, 0.811035, 0.601074, 0.595703, 0.645996, 0.57373, 0.623047, 0.633301, 0.620117 ] }, { "question_id": "10068021", "image_id": 361029, "question": "cái gì kiểm tra máy ảnh của anh ấy bên đường", "ground_truth": "kính đeo", "ground_truth_normalized": "kính đeo", "predicted_top1": "máy ảnh", "predicted_topk": [ "máy ảnh", "bức ảnh", "điện thoại", "nón", "kính đeo", "những bức ảnh", "thiết bị", "chiếc ô", "xe buýt", "cà vạt" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.560507, "confidences": [ 0.560507, 0.045651, 0.032689, 0.02959, 0.009532, 0.008019, 0.007562, 0.007139, 0.006899, 0.006879 ], "gate_score_top1": 0.797852, "gate_scores": [ 0.797852, 0.593262, 0.769043, 0.686523, 0.433105, 0.479004, 0.586426, 0.65918, 0.595703, 0.720215 ] }, { "question_id": "10097661", "image_id": 500952, "question": "những gì đang đi qua bên dưới cầu đi bộ", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "các tòa nhà", "đường sắt", "hàng hoá", "xe điện ngầm", "xe điện", "xe đẩy", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.802292, "confidences": [ 0.802292, 0.084231, 0.050691, 0.006688, 0.005209, 0.00478, 0.002088, 0.002008, 0.001939, 0.001668 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.797852, 0.780273, 0.697266, 0.592773, 0.601074, 0.630371, 0.616699, 0.681152, 0.632324 ] }, { "question_id": "10014091", "image_id": 303012, "question": "màu của bàn chân là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu đen", "màu vàng", "màu nâu", "màu trắng", "màu đỏ", "màu cam", "màu xám", "màu xanh dương", "màu tía" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.58985, "confidences": [ 0.58985, 0.16768, 0.09081, 0.086991, 0.029482, 0.014941, 0.004382, 0.002327, 0.001562, 0.001544 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.836914, 0.799316, 0.834961, 0.830078, 0.781738, 0.800781, 0.70166, 0.647949, 0.748047 ] }, { "question_id": "10058411", "image_id": 531023, "question": "cái gì trên nhà vệ sinh màu trắng giấy vệ sinh điện thoại và gạch đen", "ground_truth": "khăn", "ground_truth_normalized": "khăn", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "khăn", "bồn tắm", "vòi hoa sen", "bồn tiểu", "cửa", "tường", "phòng", "bức ảnh", "sân khấu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.514965, "confidences": [ 0.514965, 0.127685, 0.066242, 0.043273, 0.041292, 0.014326, 0.013458, 0.011877, 0.011511, 0.005995 ], "gate_score_top1": 0.800293, "gate_scores": [ 0.800293, 0.75293, 0.798828, 0.662598, 0.6875, 0.608398, 0.5625, 0.688477, 0.579102, 0.506836 ] }, { "question_id": "10051001", "image_id": 79559, "question": "gấu bông hồng đang ngồi ở đâu", "ground_truth": "máy sấy khô", "ground_truth_normalized": "máy sấy khô", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "máy sấy khô", "lò vi sóng", "tách", "cái nồi", "máy xay", "phòng bếp", "tủ đá", "tủ lạnh", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.222291, "confidences": [ 0.222291, 0.092665, 0.048736, 0.037587, 0.026086, 0.021416, 0.021249, 0.016166, 0.015853, 0.01335 ], "gate_score_top1": 0.77002, "gate_scores": [ 0.77002, 0.592773, 0.675293, 0.576172, 0.61377, 0.680176, 0.563477, 0.648926, 0.663574, 0.494385 ] }, { "question_id": "10088121", "image_id": 566502, "question": "những gì được phủ ngô, cà rốt, cà chua, hành tây, ô liu, thảo mộc và dầu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "món ăn", "bữa ăn", "rau", "thịt", "dĩa", "chén đĩa", "cái nĩa", "rau xà lách", "bữa ăn tối" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.56187, "confidences": [ 0.56187, 0.133978, 0.056509, 0.044877, 0.025272, 0.018928, 0.012008, 0.010392, 0.009425, 0.008941 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.809082, 0.750977, 0.751953, 0.6875, 0.694824, 0.635254, 0.654785, 0.57666, 0.600586 ] }, { "question_id": "10058071", "image_id": 549780, "question": "những gì nhếch nhác trong ớt ngồi trên một quầy gỗ", "ground_truth": "búi tóc", "ground_truth_normalized": "búi tóc", "predicted_top1": "con chó", "predicted_topk": [ "con chó", "búi tóc", "sandwich", "bữa ăn", "cái mâm", "dĩa", "phô mai", "đĩa ăn", "giấy bạc", "sô cô la" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.487176, "confidences": [ 0.487176, 0.252744, 0.102517, 0.009974, 0.005772, 0.003481, 0.003276, 0.002698, 0.002346, 0.002234 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.783203, 0.821289, 0.588867, 0.634277, 0.497559, 0.48584, 0.694336, 0.554199, 0.491699 ] }, { "question_id": "10017391", "image_id": 342363, "question": "màu sắc của bữa tối là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu trắng", "màu vàng", "màu nâu", "màu xanh lá", "màu đỏ", "màu đen", "màu tía", "màu xám", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.691036, "confidences": [ 0.691036, 0.147706, 0.057842, 0.046116, 0.023646, 0.013368, 0.003289, 0.002411, 0.001191, 0.000974 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.849121, 0.819824, 0.783203, 0.779297, 0.791504, 0.706055, 0.693848, 0.662598, 0.644043 ] }, { "question_id": "10034931", "image_id": 241126, "question": "người đàn ông tập dùng điện thoại di động của mình ở đâu", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe điện ngầm", "gương", "xe ô tô", "sân bay", "áo vest", "tàu hỏa", "bộ đồ", "xe đẩy", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.519486, "confidences": [ 0.519486, 0.169975, 0.025363, 0.01983, 0.017128, 0.015264, 0.01298, 0.01141, 0.010973, 0.009683 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.762695, 0.722656, 0.703125, 0.708496, 0.640137, 0.643066, 0.498047, 0.63916, 0.553223 ] }, { "question_id": "10056191", "image_id": 430677, "question": "những gì trong một ứng dụng rỗng", "ground_truth": "chai", "ground_truth_normalized": "chai", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "chai", "cái kệ", "cửa", "tủ lạnh", "rượu", "cửa ra vào", "bia", "rau", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.374636, "confidences": [ 0.374636, 0.198192, 0.104033, 0.066907, 0.057452, 0.00864, 0.006334, 0.004707, 0.004146, 0.003963 ], "gate_score_top1": 0.816406, "gate_scores": [ 0.816406, 0.754883, 0.744141, 0.70166, 0.726562, 0.660156, 0.502441, 0.547363, 0.630371, 0.59082 ] }, { "question_id": "10040301", "image_id": 73591, "question": "hai hươu cao cổ đứng ở đâu", "ground_truth": "điện thoại", "ground_truth_normalized": "điện thoại", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lồng", "tòa nhà", "đường phố", "bảo tàng", "cây", "cửa sổ", "cửa tiệm", "lá" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.453873, "confidences": [ 0.453873, 0.328192, 0.051322, 0.020335, 0.011978, 0.009166, 0.00711, 0.004774, 0.004774, 0.004044 ], "gate_score_top1": 0.844238, "gate_scores": [ 0.844238, 0.836426, 0.791504, 0.725098, 0.729492, 0.651367, 0.657227, 0.625488, 0.63916, 0.606445 ] }, { "question_id": "10046521", "image_id": 8320, "question": "ngựa vằn đi khắp nơi", "ground_truth": "lồng", "ground_truth_normalized": "lồng", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lồng", "bãi cỏ", "rào chắn", "lá", "thân cây", "gấu trúc", "bảo tàng", "ngựa rằn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.51046, "confidences": [ 0.51046, 0.316952, 0.102498, 0.016409, 0.006451, 0.004149, 0.002094, 0.001572, 0.0015, 0.001368 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.863281, 0.867188, 0.648438, 0.675781, 0.665527, 0.639648, 0.664062, 0.577637, 0.654785 ] }, { "question_id": "10053111", "image_id": 436848, "question": "những gì cho thấy phòng tắm lát gạch với một bồn rửa và nhà vệ sinh", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "cửa", "gương", "khăn", "máy ảnh", "tường", "bức ảnh", "ô cửa", "quầy tính tiền" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.213755, "confidences": [ 0.213755, 0.113524, 0.096724, 0.093748, 0.04659, 0.03278, 0.028985, 0.027017, 0.022662, 0.02154 ], "gate_score_top1": 0.696289, "gate_scores": [ 0.696289, 0.724121, 0.701172, 0.703613, 0.635254, 0.619629, 0.671875, 0.641602, 0.648926, 0.632812 ] }, { "question_id": "10047531", "image_id": 422910, "question": "con mèo đang ngủ ở đâu", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "cái ví", "túi", "xe đẩy", "hộp", "thùng chứa", "balo", "toa xe" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.775939, "confidences": [ 0.775939, 0.11853, 0.043097, 0.005437, 0.005008, 0.004267, 0.00351, 0.00333, 0.003183, 0.002043 ], "gate_score_top1": 0.854492, "gate_scores": [ 0.854492, 0.852051, 0.776855, 0.658691, 0.67627, 0.687012, 0.662598, 0.667969, 0.571777, 0.61084 ] }, { "question_id": "10044821", "image_id": 117031, "question": "người đàn ông đang giữ ván trượt tuyết ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "phòng bếp", "hành lang", "ô cửa", "gương", "cửa", "phòng tắm", "cửa tiệm", "đường phố" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.421066, "confidences": [ 0.421066, 0.275065, 0.030801, 0.02871, 0.027129, 0.015548, 0.009176, 0.009158, 0.007727, 0.006597 ], "gate_score_top1": 0.803223, "gate_scores": [ 0.803223, 0.831055, 0.765137, 0.717773, 0.633301, 0.743652, 0.659668, 0.618652, 0.658203, 0.698242 ] }, { "question_id": "10111861", "image_id": 102589, "question": "có bao nhiêu chiếc bánh rán bị mờ trong một hộp", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bốn", "năm", "ba", "bảy", "tám", "mười", "chín", "một", "hai" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.420261, "confidences": [ 0.420261, 0.324753, 0.187952, 0.021928, 0.019051, 0.004369, 0.001501, 0.001424, 0.001144, 0.00112 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.820312, 0.791504, 0.720703, 0.717773, 0.595703, 0.536621, 0.596191, 0.49292, 0.57959 ] }, { "question_id": "10001871", "image_id": 541050, "question": "màu của áo khoác nỉ là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu nâu", "màu xám", "màu trắng", "màu tía", "màu xanh dương", "màu đỏ", "màu vàng", "màu đen", "quả táo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.660674, "confidences": [ 0.660674, 0.120789, 0.11799, 0.017333, 0.016866, 0.010452, 0.005562, 0.005551, 0.003244, 0.001248 ], "gate_score_top1": 0.839844, "gate_scores": [ 0.839844, 0.739258, 0.790527, 0.715332, 0.687988, 0.681152, 0.750977, 0.689941, 0.607422, 0.55957 ] }, { "question_id": "10052891", "image_id": 469803, "question": "vòi chữa cháy này được sơn cái gì", "ground_truth": "màu sắc", "ground_truth_normalized": "màu sắc", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "xe ô tô", "đường phố", "nón", "lá cờ", "đường", "ảnh chụp", "tòa nhà", "bức ảnh", "màu đỏ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.801684, "confidences": [ 0.801684, 0.040542, 0.013343, 0.008285, 0.007662, 0.005541, 0.003906, 0.0032, 0.003069, 0.003004 ], "gate_score_top1": 0.84082, "gate_scores": [ 0.84082, 0.758789, 0.637207, 0.64209, 0.56543, 0.662109, 0.518555, 0.67041, 0.482666, 0.538086 ] }, { "question_id": "10056981", "image_id": 353320, "question": "những gì nằm trên một băng ghế trống", "ground_truth": "thùng", "ground_truth_normalized": "thùng", "predicted_top1": "túi", "predicted_topk": [ "túi", "cái túi", "balo", "hành lý", "vali", "cái ví", "ván trượt", "máy ảnh", "những bức ảnh", "băng ghế" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.21287, "confidences": [ 0.21287, 0.134781, 0.124652, 0.070472, 0.063666, 0.062924, 0.010172, 0.009271, 0.007663, 0.006285 ], "gate_score_top1": 0.809082, "gate_scores": [ 0.809082, 0.783203, 0.75293, 0.714355, 0.728027, 0.782715, 0.696289, 0.5625, 0.572266, 0.566406 ] }, { "question_id": "10093861", "image_id": 491336, "question": "xe kéo đang đậu và đang kéo những gì", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "đường", "xe ô tô", "xe cộ", "đường phố", "xe buýt", "xe đẩy", "ảnh chụp", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.251353, "confidences": [ 0.251353, 0.150677, 0.130911, 0.084193, 0.070346, 0.063304, 0.017821, 0.012129, 0.0099, 0.007695 ], "gate_score_top1": 0.784668, "gate_scores": [ 0.784668, 0.776855, 0.788086, 0.727539, 0.731445, 0.715332, 0.697754, 0.732422, 0.559082, 0.605957 ] }, { "question_id": "10013721", "image_id": 150821, "question": "màu tóc là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu xám", "màu đỏ", "màu nâu", "màu vàng", "màu đen", "màu xanh dương", "màu trắng", "màu xanh lá", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.574544, "confidences": [ 0.574544, 0.165254, 0.135404, 0.059618, 0.020523, 0.010985, 0.005291, 0.005059, 0.002777, 0.002718 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.835938, 0.851074, 0.737305, 0.77002, 0.741211, 0.695312, 0.768066, 0.587402, 0.621094 ] }, { "question_id": "10016781", "image_id": 508938, "question": "màu sắc của các tòa nhà là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu nâu", "màu vàng", "màu tía", "màu xám", "màu đỏ", "màu đen", "màu xanh lá", "màu trắng", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.85149, "confidences": [ 0.85149, 0.074402, 0.017062, 0.015116, 0.012337, 0.006867, 0.005024, 0.004116, 0.003453, 0.001072 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.830078, 0.791504, 0.78125, 0.741699, 0.745117, 0.680176, 0.710449, 0.741211, 0.700195 ] }, { "question_id": "10076951", "image_id": 364521, "question": "cái gì trên nhà vệ sinh màu vàng trong bụi bẩn", "ground_truth": "mũ", "ground_truth_normalized": "mũ", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "nón", "mũ", "máy ảnh", "lá cờ", "bức tượng", "máy sấy khô", "tường", "phòng tắm", "cây kéo" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.205871, "confidences": [ 0.205871, 0.191893, 0.156619, 0.013212, 0.010513, 0.009867, 0.008196, 0.007897, 0.006956, 0.006808 ], "gate_score_top1": 0.779297, "gate_scores": [ 0.779297, 0.775879, 0.655762, 0.549316, 0.530762, 0.517578, 0.477295, 0.571289, 0.442383, 0.521484 ] }, { "question_id": "10110291", "image_id": 490998, "question": "có bao nhiêu máy bay xếp hàng trong đội hình y", "ground_truth": "tám", "ground_truth_normalized": "tám", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "chín", "bốn", "năm", "tám", "máy bay", "mười", "sân vận động", "diều" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.411211, "confidences": [ 0.411211, 0.338253, 0.07787, 0.070902, 0.033231, 0.010873, 0.004797, 0.00177, 0.001435, 0.001006 ], "gate_score_top1": 0.848633, "gate_scores": [ 0.848633, 0.839844, 0.762207, 0.737305, 0.729004, 0.64502, 0.639648, 0.502441, 0.527832, 0.536621 ] }, { "question_id": "10093371", "image_id": 567898, "question": "những gì chứa đầy thực phẩm được trình bày nghệ thuật", "ground_truth": "dĩa", "ground_truth_normalized": "dĩa", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "chén đĩa", "món ăn", "bữa ăn", "dĩa", "cái mâm", "thùng chứa", "bát", "đĩa ăn", "thịt" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.327355, "confidences": [ 0.327355, 0.119024, 0.10141, 0.059849, 0.038717, 0.034774, 0.027616, 0.024419, 0.021215, 0.016266 ], "gate_score_top1": 0.774414, "gate_scores": [ 0.774414, 0.726074, 0.781738, 0.749512, 0.700684, 0.72998, 0.740723, 0.662598, 0.730469, 0.644043 ] }, { "question_id": "10081571", "image_id": 552073, "question": "nhóm hươu cao cổ ăn gì trong một giá đỡ trong bao vây của họ", "ground_truth": "hay", "ground_truth_normalized": "hay", "predicted_top1": "lá", "predicted_topk": [ "lá", "bãi cỏ", "cây", "vườn bách thú", "hươu cao cổ", "chuồng", "lồng", "đồi", "ngựa rằn", "màu xanh lá" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.163663, "confidences": [ 0.163663, 0.136746, 0.124509, 0.097347, 0.05303, 0.037751, 0.036093, 0.020405, 0.014217, 0.011051 ], "gate_score_top1": 0.686523, "gate_scores": [ 0.686523, 0.688477, 0.71582, 0.80127, 0.682617, 0.620605, 0.733398, 0.502441, 0.632324, 0.560059 ] }, { "question_id": "10045551", "image_id": 185276, "question": "nơi làm đồ đạc trong phòng tắm cũ, đổ nát, hai nhà vệ sinh và bồn rửa, ngồi", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "phòng tắm", "tòa nhà", "cửa", "vòi hoa sen", "tường", "hành lang", "ô cửa", "cửa tiệm" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.324146, "confidences": [ 0.324146, 0.260459, 0.118319, 0.032664, 0.01688, 0.016392, 0.014021, 0.012942, 0.011784, 0.011157 ], "gate_score_top1": 0.824219, "gate_scores": [ 0.824219, 0.865234, 0.773926, 0.705566, 0.677246, 0.681152, 0.593262, 0.635742, 0.583496, 0.673828 ] }, { "question_id": "10016331", "image_id": 157295, "question": "màu của xe tải là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu cam", "màu đỏ", "màu nâu", "màu đen", "màu vàng", "màu xám", "màu xanh lá", "màu tía", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.647092, "confidences": [ 0.647092, 0.225383, 0.072886, 0.015763, 0.014074, 0.003538, 0.003032, 0.000687, 0.000678, 0.000666 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.832031, 0.816406, 0.753906, 0.756348, 0.705078, 0.739258, 0.575195, 0.62793, 0.523438 ] }, { "question_id": "10113101", "image_id": 517936, "question": "có bao nhiêu cái kéo có một sợi dây trên đó", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "một", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.655105, "confidences": [ 0.655105, 0.268855, 0.04123, 0.012188, 0.009381, 0.004848, 0.002363, 0.0012, 0.000488, 0.000444 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.868652, 0.79248, 0.793457, 0.714355, 0.602539, 0.65332, 0.572754, 0.544922, 0.479736 ] }, { "question_id": "10074081", "image_id": 499588, "question": "những gì được trang trí với nghệ thuật và chuỗi đầy màu sắc", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "diều", "predicted_topk": [ "diều", "tường", "cây", "bức ảnh", "cửa sổ", "đồng hồ", "sân", "áo sơ mi", "tòa nhà", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.106395, "confidences": [ 0.106395, 0.072414, 0.053918, 0.030423, 0.029487, 0.027112, 0.022085, 0.018927, 0.016541, 0.015737 ], "gate_score_top1": 0.727539, "gate_scores": [ 0.727539, 0.624512, 0.700684, 0.628418, 0.595703, 0.558594, 0.569336, 0.561035, 0.70752, 0.621582 ] }, { "question_id": "10115681", "image_id": 205282, "question": "có bao nhiêu con hươu cao cổ đứng trên đồng bằng với một vài cây", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.496393, "confidences": [ 0.496393, 0.448454, 0.039647, 0.004146, 0.003345, 0.002077, 0.001036, 0.000837, 0.000359, 0.000337 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.875, 0.785156, 0.604004, 0.725586, 0.63916, 0.628418, 0.54541, 0.545898, 0.458984 ] }, { "question_id": "10047271", "image_id": 335027, "question": "người phụ nữ đang ở đâu", "ground_truth": "lối đi", "ground_truth_normalized": "lối đi", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "vạch kẻ đường", "đường phố", "bảng", "đường", "lối đi", "sân", "áo vest", "ảnh chụp", "ca nô" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.385716, "confidences": [ 0.385716, 0.105449, 0.051492, 0.031354, 0.016947, 0.016522, 0.016394, 0.013096, 0.009506, 0.007866 ], "gate_score_top1": 0.758789, "gate_scores": [ 0.758789, 0.687012, 0.750977, 0.631836, 0.733398, 0.554688, 0.557617, 0.527344, 0.462646, 0.493896 ] }, { "question_id": "10060521", "image_id": 380388, "question": "cái gì đang kéo một số toa tàu bên cạnh những cái cây", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "đường sắt", "các tòa nhà", "xe điện ngầm", "phương tiện giao thông", "cầu", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.502072, "confidences": [ 0.502072, 0.383451, 0.045976, 0.010139, 0.006043, 0.003324, 0.001916, 0.001501, 0.001417, 0.001265 ], "gate_score_top1": 0.898926, "gate_scores": [ 0.898926, 0.842773, 0.739746, 0.595703, 0.558594, 0.643066, 0.584961, 0.531738, 0.571777, 0.541504 ] }, { "question_id": "10103171", "image_id": 249180, "question": "có bao nhiêu người đàn ông đang đi lên cầu thang và một người khác đi xuống cầu thang trên điện thoại", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "mười", "tám", "cây", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.563553, "confidences": [ 0.563553, 0.425392, 0.00417, 0.000994, 0.000305, 0.00021, 0.000128, 0.000106, 0.000103, 9.7e-05 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.898438, 0.727539, 0.614746, 0.453369, 0.447754, 0.456055, 0.452393, 0.4375, 0.394043 ] }, { "question_id": "10078881", "image_id": 405444, "question": "cô bé đang thêm gì vào pizza tự chế", "ground_truth": "phô mai", "ground_truth_normalized": "phô mai", "predicted_top1": "cái mâm", "predicted_topk": [ "cái mâm", "chảo", "áo sơ mi", "bữa ăn", "dao", "phô mai", "pizza", "chén đĩa", "giấy bạc", "bánh" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.316751, "confidences": [ 0.316751, 0.123558, 0.025151, 0.02259, 0.01906, 0.017559, 0.015894, 0.014164, 0.011858, 0.011226 ], "gate_score_top1": 0.813477, "gate_scores": [ 0.813477, 0.696777, 0.596191, 0.660645, 0.70752, 0.53418, 0.637695, 0.589355, 0.673828, 0.595703 ] }, { "question_id": "10032041", "image_id": 98298, "question": "người phụ nữ lấy một bức ảnh của mình ở đâu", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "ô cửa", "chậu", "máy ảnh", "vòi hoa sen", "hành lang", "chuồng", "phòng", "điện thoại" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.590403, "confidences": [ 0.590403, 0.384183, 0.002371, 0.001369, 0.001244, 0.001167, 0.001146, 0.000612, 0.000588, 0.000522 ], "gate_score_top1": 0.89502, "gate_scores": [ 0.89502, 0.871094, 0.63916, 0.624023, 0.568359, 0.617188, 0.523438, 0.574707, 0.625977, 0.544434 ] }, { "question_id": "10082321", "image_id": 474862, "question": "những gì đang trong một bến du thuyền bị ngập lụt", "ground_truth": "băng ghế", "ground_truth_normalized": "băng ghế", "predicted_top1": "con ngựa", "predicted_topk": [ "con ngựa", "băng ghế", "con chó", "con chim", "xe", "gia súc", "con thuyền", "mũ", "hồ", "con bò" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.728919, "confidences": [ 0.728919, 0.113101, 0.01052, 0.006148, 0.004714, 0.004048, 0.00381, 0.003597, 0.003486, 0.003389 ], "gate_score_top1": 0.8125, "gate_scores": [ 0.8125, 0.731934, 0.705566, 0.598145, 0.585449, 0.591309, 0.522461, 0.549805, 0.46875, 0.547363 ] }, { "question_id": "10049061", "image_id": 135878, "question": "một con chim mũm mĩm ở đâu", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "cây", "bát", "lọ cắm hoa", "sân vườn", "hộp", "tách", "cái rổ", "giường", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.597299, "confidences": [ 0.597299, 0.138044, 0.078963, 0.032029, 0.024653, 0.008114, 0.007758, 0.006307, 0.005765, 0.004614 ], "gate_score_top1": 0.805176, "gate_scores": [ 0.805176, 0.797852, 0.819824, 0.70459, 0.754395, 0.627441, 0.616699, 0.734375, 0.510742, 0.632812 ] }, { "question_id": "10044441", "image_id": 445768, "question": "nhóm hươu cao cổ ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lồng", "bảo tàng", "rào chắn", "tòa nhà", "hồ bơi", "lá", "gấu trúc", "chuồng trại" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.479883, "confidences": [ 0.479883, 0.416929, 0.066485, 0.002629, 0.002489, 0.001965, 0.001151, 0.00105, 0.000882, 0.000855 ], "gate_score_top1": 0.868652, "gate_scores": [ 0.868652, 0.879883, 0.853516, 0.627441, 0.623535, 0.651367, 0.621582, 0.562012, 0.641113, 0.646973 ] }, { "question_id": "10119361", "image_id": 28889, "question": "có bao nhiêu người đàn ông đang dựa vào đồng hồ đỗ xe nói chuyện với một người đàn ông khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "đường phố", "bảy", "mười", "cái ghế", "tám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.731965, "confidences": [ 0.731965, 0.256944, 0.004186, 0.000433, 0.000169, 0.000112, 0.000112, 9.7e-05, 9.6e-05, 9.6e-05 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.884766, 0.737305, 0.574707, 0.378906, 0.450928, 0.404053, 0.453125, 0.550781, 0.401855 ] }, { "question_id": "10112231", "image_id": 493503, "question": "có bao nhiêu đường ở góc đường henry st. and love la", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "một", "ba", "hai", "năm", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.487953, "confidences": [ 0.487953, 0.177416, 0.16154, 0.078115, 0.027853, 0.019828, 0.017227, 0.004313, 0.004271, 0.003851 ], "gate_score_top1": 0.833496, "gate_scores": [ 0.833496, 0.794922, 0.818848, 0.783203, 0.775879, 0.651367, 0.6875, 0.604004, 0.600586, 0.531738 ] }, { "question_id": "10085281", "image_id": 500084, "question": "hai con mèo đang tận hưởng gì trong khi ngồi trong cửa sổ", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "cửa", "cây", "đồng hồ", "con mèo", "tường", "bức ảnh", "cà vạt", "con chó", "chai" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.728502, "confidences": [ 0.728502, 0.113479, 0.016638, 0.00629, 0.005423, 0.003505, 0.003481, 0.0034, 0.003042, 0.002986 ], "gate_score_top1": 0.804199, "gate_scores": [ 0.804199, 0.785156, 0.71875, 0.660156, 0.635742, 0.58252, 0.504883, 0.679688, 0.702148, 0.632812 ] }, { "question_id": "10030031", "image_id": 7931, "question": "vật liệu để đan ở đâu", "ground_truth": "người giữ", "ground_truth_normalized": "người giữ", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "gương", "người giữ", "phương tiện giao thông", "vali", "cái túi", "áo vest", "cửa sổ", "ảnh chụp", "đường" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.258278, "confidences": [ 0.258278, 0.053612, 0.047036, 0.046216, 0.037281, 0.030727, 0.020033, 0.017236, 0.016511, 0.013555 ], "gate_score_top1": 0.693359, "gate_scores": [ 0.693359, 0.751953, 0.566895, 0.623535, 0.663086, 0.645508, 0.624512, 0.662598, 0.463623, 0.573242 ] }, { "question_id": "10075281", "image_id": 480210, "question": "hai vận động viên lướt ván mang xuống bãi biển cái gì", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "diều", "bờ biển", "dĩa nhựa", "cây sào", "áo sơ mi", "cái lều", "trượt tuyết", "máy bay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.423371, "confidences": [ 0.423371, 0.222231, 0.169064, 0.063422, 0.006219, 0.004759, 0.004585, 0.004007, 0.004007, 0.003245 ], "gate_score_top1": 0.870605, "gate_scores": [ 0.870605, 0.805176, 0.848145, 0.68457, 0.739746, 0.608887, 0.520508, 0.485352, 0.640137, 0.638672 ] }, { "question_id": "10063271", "image_id": 477846, "question": "những gì bao phủ trong mưa bên cạnh một dòng sông", "ground_truth": "đường bộ", "ground_truth_normalized": "đường", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "đường", "phương tiện giao thông", "xe cộ", "vòi", "xe đạp", "bức ảnh", "áo vest", "xe buýt", "xe máy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.508113, "confidences": [ 0.508113, 0.248604, 0.010608, 0.010004, 0.009527, 0.008007, 0.007715, 0.0077, 0.005471, 0.004909 ], "gate_score_top1": 0.817871, "gate_scores": [ 0.817871, 0.777832, 0.646973, 0.622559, 0.621582, 0.599609, 0.531738, 0.602539, 0.624512, 0.571289 ] }, { "question_id": "10093901", "image_id": 542205, "question": "những gì được hiển thị gần, khi hai người đi bộ trong nền", "ground_truth": "chim bồ câu", "ground_truth_normalized": "chim bồ câu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "con vịt", "hải âu", "con vẹt", "chim bồ câu", "cửa sổ", "màu xám", "chiếc ô", "bức tượng", "con chó" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.46452, "confidences": [ 0.46452, 0.058598, 0.034854, 0.029065, 0.02688, 0.016887, 0.010384, 0.009427, 0.008303, 0.00516 ], "gate_score_top1": 0.749023, "gate_scores": [ 0.749023, 0.677734, 0.604004, 0.641602, 0.475098, 0.672852, 0.547363, 0.568848, 0.525879, 0.520508 ] }, { "question_id": "10082581", "image_id": 381254, "question": "ba con voi đang lấy gì từ một vùng nước", "ground_truth": "nước", "ground_truth_normalized": "nước", "predicted_top1": "thân cây", "predicted_topk": [ "thân cây", "bãi cỏ", "con voi", "đồi", "lá", "vườn bách thú", "đường", "ba", "chuồng", "cây" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 1, "confidence_top1": 0.455325, "confidences": [ 0.455325, 0.228952, 0.053329, 0.032536, 0.012593, 0.010379, 0.008672, 0.006559, 0.005545, 0.004289 ], "gate_score_top1": 0.76416, "gate_scores": [ 0.76416, 0.728516, 0.689453, 0.649414, 0.567871, 0.644531, 0.604492, 0.502441, 0.631836, 0.5625 ] }, { "question_id": "10055361", "image_id": 500613, "question": "những gì đỗ trong bãi đậu xe", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "động cơ", "phương tiện giao thông", "xe cộ", "xe ô tô", "xe buýt", "xe đẩy", "vòi", "màu đỏ", "tàu hỏa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.705759, "confidences": [ 0.705759, 0.06264, 0.045118, 0.034864, 0.01352, 0.010737, 0.009738, 0.003486, 0.003146, 0.003122 ], "gate_score_top1": 0.830078, "gate_scores": [ 0.830078, 0.675781, 0.739258, 0.665039, 0.643066, 0.649414, 0.623535, 0.495117, 0.587891, 0.65918 ] }, { "question_id": "10096031", "image_id": 357385, "question": "người đàn ông đang ngồi ăn gì vậy", "ground_truth": "bánh ngọt", "ground_truth_normalized": "bánh ngọt", "predicted_top1": "donut", "predicted_topk": [ "donut", "bánh ngọt", "sô cô la", "quả táo", "cupcake", "chuối", "cái mâm", "cửa tiệm", "dao", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.6014, "confidences": [ 0.6014, 0.237359, 0.02492, 0.010844, 0.009951, 0.006059, 0.003814, 0.003439, 0.003092, 0.00281 ], "gate_score_top1": 0.812012, "gate_scores": [ 0.812012, 0.811035, 0.625, 0.675293, 0.668457, 0.660156, 0.618164, 0.505859, 0.515137, 0.541504 ] }, { "question_id": "10085761", "image_id": 554340, "question": "tôi làm gì thậm chí còn không nhìn thấy cú đánh của bạn", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "donut", "predicted_topk": [ "donut", "bánh ngọt", "sô cô la", "cupcake", "đĩa ăn", "cái mâm", "dao", "búi tóc", "sandwich", "bức ảnh" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.940031, "confidences": [ 0.940031, 0.016237, 0.011973, 0.003567, 0.001408, 0.001351, 0.001, 0.000994, 0.000826, 0.00077 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.744141, 0.688965, 0.638184, 0.618164, 0.603027, 0.555176, 0.629395, 0.684082, 0.444824 ] }, { "question_id": "10053761", "image_id": 353446, "question": "cái gì mở gần ghế bãi biển", "ground_truth": "bờ biển", "ground_truth_normalized": "bờ biển", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "bờ biển", "cái ghế", "băng ghế", "nhiều cái ghế", "hồ", "hồ bơi", "bức ảnh", "ba", "con thuyền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.328536, "confidences": [ 0.328536, 0.191634, 0.109617, 0.01807, 0.013481, 0.012371, 0.006405, 0.006065, 0.005213, 0.005182 ], "gate_score_top1": 0.777344, "gate_scores": [ 0.777344, 0.697754, 0.748047, 0.685059, 0.456543, 0.463623, 0.663086, 0.550781, 0.474365, 0.5 ] }, { "question_id": "10109821", "image_id": 456184, "question": "nhóm người xem có bao nhiêu chân rô bốt", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "một", "ba", "hai", "mười", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.321738, "confidences": [ 0.321738, 0.304615, 0.173565, 0.053558, 0.044056, 0.018151, 0.011403, 0.010733, 0.008675, 0.008491 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.826172, 0.736816, 0.749023, 0.702148, 0.612305, 0.561035, 0.61377, 0.598633, 0.658203 ] }, { "question_id": "10063281", "image_id": 479912, "question": "những gì được gắn vào một bên của một máy bay bốn động cơ", "ground_truth": "bến tàu", "ground_truth_normalized": "bến tàu", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "bầu trời", "bến tàu", "ga-ra", "áo vest", "phòng", "bảo tàng", "trạm", "kho" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.413486, "confidences": [ 0.413486, 0.250792, 0.042076, 0.011961, 0.009686, 0.00742, 0.00742, 0.007177, 0.006548, 0.005165 ], "gate_score_top1": 0.756836, "gate_scores": [ 0.756836, 0.773438, 0.590332, 0.490723, 0.554688, 0.508301, 0.609863, 0.57959, 0.504883, 0.491455 ] }, { "question_id": "10002221", "image_id": 35573, "question": "màu của gối là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu đỏ", "màu cam", "màu nâu", "màu xanh dương", "màu xám", "màu đen", "màu tía", "màu xanh lá", "màu vàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.39107, "confidences": [ 0.39107, 0.309362, 0.215127, 0.050502, 0.007304, 0.004137, 0.002816, 0.001705, 0.001552, 0.001507 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.871094, 0.84668, 0.776855, 0.72168, 0.775391, 0.697266, 0.640625, 0.625, 0.65625 ] }, { "question_id": "10051831", "image_id": 298913, "question": "nơi hiển thị đầu ngựa vằn", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "bãi cỏ", "predicted_topk": [ "bãi cỏ", "cây", "ngựa rằn", "đường", "đồi", "ảnh chụp", "lá", "vườn bách thú", "thân cây", "rào chắn" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.266582, "confidences": [ 0.266582, 0.07942, 0.070088, 0.039086, 0.031839, 0.028933, 0.018717, 0.017209, 0.012049, 0.010087 ], "gate_score_top1": 0.713867, "gate_scores": [ 0.713867, 0.733398, 0.580078, 0.634766, 0.658691, 0.578125, 0.577637, 0.689941, 0.561035, 0.550293 ] }, { "question_id": "10090931", "image_id": 389684, "question": "người đàn ông đang đi xuống bên cạnh một chiếc xe buýt trên đường phố là gì", "ground_truth": "đường đi bộ", "ground_truth_normalized": "đường đi bộ", "predicted_top1": "xe buýt", "predicted_topk": [ "xe buýt", "đường", "đường đi bộ", "đường phố", "xe cộ", "xe đẩy", "áo vest", "trạm", "xe tay ga", "xe ô tô" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.288519, "confidences": [ 0.288519, 0.128531, 0.042885, 0.039276, 0.033399, 0.031559, 0.024723, 0.016893, 0.013547, 0.011122 ], "gate_score_top1": 0.765137, "gate_scores": [ 0.765137, 0.731934, 0.600098, 0.626953, 0.599609, 0.740234, 0.683105, 0.630859, 0.635254, 0.705078 ] }, { "question_id": "10040331", "image_id": 360517, "question": "bàn ủi nằm ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "hành lang", "ô cửa", "cửa sổ", "tòa nhà", "chung cư", "cửa", "phòng bếp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.731584, "confidences": [ 0.731584, 0.119895, 0.083049, 0.009428, 0.00464, 0.003692, 0.003635, 0.003146, 0.001856, 0.001813 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.881348, 0.851562, 0.713379, 0.592773, 0.706055, 0.590332, 0.691895, 0.602539, 0.726562 ] }, { "question_id": "10117831", "image_id": 543182, "question": "có bao nhiêu nhà vệ sinh vỡ thành nhiều mảnh ở giữa hai nhà vệ sinh khác trong một bãi cỏ gần vỉa hè", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "năm", "sáu", "phòng tắm", "bảy", "tám", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.338857, "confidences": [ 0.338857, 0.32334, 0.295557, 0.016098, 0.002483, 0.001483, 0.001045, 0.000908, 0.000662, 0.000593 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.825684, 0.831055, 0.70752, 0.611816, 0.439697, 0.664062, 0.456787, 0.399414, 0.526367 ] }, { "question_id": "10009541", "image_id": 32986, "question": "màu của bìa là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu vàng", "màu nâu", "màu xanh lá", "màu cam", "màu xám", "màu đen", "màu trắng", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.912355, "confidences": [ 0.912355, 0.045601, 0.009228, 0.008703, 0.007076, 0.004242, 0.002262, 0.001418, 0.000917, 0.000656 ], "gate_score_top1": 0.892578, "gate_scores": [ 0.892578, 0.824219, 0.697754, 0.718262, 0.835938, 0.730469, 0.696777, 0.726074, 0.664551, 0.65625 ] }, { "question_id": "10109051", "image_id": 300276, "question": "có bao nhiêu phụ nữ đứng sau bàn với bánh nướng nhỏ, bánh ngọt và cái ấm", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.754878, "confidences": [ 0.754878, 0.228433, 0.010559, 0.002196, 0.000418, 0.000308, 0.000164, 8.4e-05, 8.3e-05, 5.5e-05 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.875977, 0.817871, 0.712891, 0.570312, 0.434326, 0.444092, 0.419922, 0.39209, 0.349365 ] }, { "question_id": "10070091", "image_id": 348475, "question": "một chiếc xe mười tám bánh lăn xuống hàng cây thường xanh hướng về một ngọn núi tuyết phủ là gì", "ground_truth": "xa lộ", "ground_truth_normalized": "xa lộ", "predicted_top1": "đường", "predicted_topk": [ "đường", "núi", "đồi", "cây", "áo vest", "bầu trời", "bức ảnh", "xe ô tô", "phương tiện giao thông", "ván trượt" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.274332, "confidences": [ 0.274332, 0.070454, 0.062786, 0.043576, 0.038681, 0.032637, 0.029891, 0.020745, 0.011763, 0.011158 ], "gate_score_top1": 0.751953, "gate_scores": [ 0.751953, 0.683105, 0.683105, 0.64502, 0.68457, 0.54248, 0.579102, 0.669922, 0.594238, 0.591309 ] }, { "question_id": "10033501", "image_id": 72995, "question": "ba vali đang nằm ở đâu", "ground_truth": "sàn nhà", "ground_truth_normalized": "sàn nhà", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "sân bay", "hành lý", "phòng tắm", "hành lang", "sàn nhà", "ô cửa", "vali", "nhà ở", "cái túi" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.634907, "confidences": [ 0.634907, 0.036383, 0.034046, 0.025599, 0.021016, 0.020369, 0.018259, 0.017119, 0.013229, 0.012897 ], "gate_score_top1": 0.812988, "gate_scores": [ 0.812988, 0.712402, 0.639648, 0.621094, 0.67334, 0.621582, 0.572754, 0.626465, 0.711914, 0.615723 ] }, { "question_id": "10117921", "image_id": 192196, "question": "có bao nhiêu người đang đứng trong bếp chuẩn bị thức ăn", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "hai", "một", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.660065, "confidences": [ 0.660065, 0.195115, 0.059973, 0.05634, 0.010101, 0.004097, 0.001872, 0.001487, 0.001158, 0.000762 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.82666, 0.727051, 0.790039, 0.702148, 0.638184, 0.615723, 0.597168, 0.579102, 0.494629 ] }, { "question_id": "10068031", "image_id": 557552, "question": "những gì đỗ đỗ dọc theo đường phố", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "đường", "mũ", "xe cộ", "con khỉ", "ga-ra", "vòi", "đường phố" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.482548, "confidences": [ 0.482548, 0.28257, 0.183872, 0.003078, 0.002342, 0.001315, 0.001023, 0.000963, 0.000824, 0.00082 ], "gate_score_top1": 0.844238, "gate_scores": [ 0.844238, 0.841309, 0.8125, 0.651855, 0.499268, 0.54248, 0.403076, 0.570312, 0.461914, 0.609375 ] }, { "question_id": "10068251", "image_id": 382671, "question": "những gì đang đi bộ bên cạnh bãi biển", "ground_truth": "gia súc", "ground_truth_normalized": "gia súc", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "con cừu", "bò đực", "con ngựa", "bãi cỏ", "chuồng trại", "con chó", "ngựa vằn", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.608559, "confidences": [ 0.608559, 0.244921, 0.038601, 0.024441, 0.01298, 0.005978, 0.004425, 0.003661, 0.002758, 0.002536 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.788086, 0.757812, 0.700684, 0.760742, 0.668457, 0.597656, 0.591797, 0.598633, 0.61084 ] }, { "question_id": "10081441", "image_id": 356828, "question": "bàn phím máy tính đã làm gì trên gỗ", "ground_truth": "cái bàn", "ground_truth_normalized": "cái bàn", "predicted_top1": "bàn phím", "predicted_topk": [ "bàn phím", "máy tính", "chuột", "cái bàn", "laptop", "văn phòng", "bức tranh", "cái ghế", "trang thiết bị", "hộp" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.475546, "confidences": [ 0.475546, 0.142785, 0.117452, 0.103247, 0.01473, 0.010672, 0.004287, 0.004253, 0.003911, 0.003652 ], "gate_score_top1": 0.815918, "gate_scores": [ 0.815918, 0.807617, 0.800293, 0.811523, 0.818848, 0.720703, 0.53418, 0.526367, 0.532227, 0.59668 ] }, { "question_id": "10033141", "image_id": 132329, "question": "bốn chai chất lỏng nằm ở đâu", "ground_truth": "tủ đá", "ground_truth_normalized": "tủ đá", "predicted_top1": "tủ lạnh", "predicted_topk": [ "tủ lạnh", "tủ đá", "cửa", "cái kệ", "phòng bếp", "lò vi sóng", "chai", "phòng", "cửa sổ", "cửa ra vào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.396622, "confidences": [ 0.396622, 0.358318, 0.105094, 0.025554, 0.019065, 0.009201, 0.007778, 0.002924, 0.002688, 0.002652 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.818359, 0.777344, 0.732422, 0.692383, 0.617676, 0.615234, 0.64209, 0.578613, 0.451416 ] }, { "question_id": "10021841", "image_id": 215776, "question": "màu của vòi nước là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu cam", "màu đen", "màu vàng", "màu nâu", "màu xám", "màu trắng", "màu xanh lá", "màu tía", "vòi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.666782, "confidences": [ 0.666782, 0.253082, 0.024574, 0.024193, 0.007854, 0.006141, 0.000694, 0.00064, 0.000438, 0.000402 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.881836, 0.768066, 0.779297, 0.666016, 0.692383, 0.659668, 0.479492, 0.560059, 0.51709 ] }, { "question_id": "10035031", "image_id": 16009, "question": "bốn manơcanh mặc đồ nam ở đâu", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "ảnh chụp", "áo vest", "cửa tiệm", "hộp", "cái ghế", "phòng", "gương", "cái túi", "cửa hàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.120614, "confidences": [ 0.120614, 0.087215, 0.067526, 0.040957, 0.028592, 0.026651, 0.026444, 0.024745, 0.02293, 0.018751 ], "gate_score_top1": 0.717285, "gate_scores": [ 0.717285, 0.583008, 0.608887, 0.660645, 0.645996, 0.598633, 0.709961, 0.69043, 0.634766, 0.688965 ] }, { "question_id": "10054341", "image_id": 466575, "question": "những gì được thể hiện đang trên mặt đất", "ground_truth": "bao bì", "ground_truth_normalized": "bao bì", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "cái túi", "túi", "cái ví", "xe đẩy", "hộp", "balo", "sàn nhà", "thân cây" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.753563, "confidences": [ 0.753563, 0.078194, 0.024035, 0.021629, 0.009449, 0.007119, 0.006609, 0.006469, 0.003848, 0.002642 ], "gate_score_top1": 0.831543, "gate_scores": [ 0.831543, 0.77002, 0.790527, 0.75293, 0.688965, 0.694336, 0.703125, 0.608887, 0.528809, 0.560547 ] }, { "question_id": "10035651", "image_id": 542946, "question": "con mèo đen đang ngồi ở đâu", "ground_truth": "gầu múc", "ground_truth_normalized": "gầu múc", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "bát", "cây", "sân vườn", "cái rổ", "tách", "sân", "thùng chứa", "bồn tắm", "cái ghế" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.715989, "confidences": [ 0.715989, 0.090319, 0.029784, 0.018457, 0.013583, 0.012319, 0.006685, 0.005729, 0.005247, 0.004249 ], "gate_score_top1": 0.839844, "gate_scores": [ 0.839844, 0.795898, 0.757812, 0.748535, 0.76709, 0.660645, 0.631836, 0.640625, 0.673828, 0.660156 ] }, { "question_id": "10113911", "image_id": 191283, "question": "có bao nhiêu hàng với các loại bánh rán khác nhau", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bốn", "năm", "bảy", "ba", "tám", "chín", "một", "mười", "hai" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.497164, "confidences": [ 0.497164, 0.207249, 0.196987, 0.035734, 0.021505, 0.00477, 0.002702, 0.001793, 0.001617, 0.001576 ], "gate_score_top1": 0.828125, "gate_scores": [ 0.828125, 0.786133, 0.788574, 0.734375, 0.696777, 0.597656, 0.633301, 0.495361, 0.554199, 0.564453 ] }, { "question_id": "10115891", "image_id": 42696, "question": "có bao nhiêu con voi đang cùng nhau đi dạo trong vòng vây của chúng", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.934268, "confidences": [ 0.934268, 0.037669, 0.017518, 0.005891, 0.001741, 0.000491, 0.000215, 0.00013, 9.4e-05, 7.9e-05 ], "gate_score_top1": 0.907715, "gate_scores": [ 0.907715, 0.847656, 0.835449, 0.712402, 0.708984, 0.495361, 0.509766, 0.475586, 0.394775, 0.404541 ] }, { "question_id": "10031351", "image_id": 277852, "question": "mái vòm cao của vận động viên trượt ván ở đâu", "ground_truth": "đường bộ", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "ảnh chụp", "áo vest", "vạch kẻ đường", "ván trượt", "gương", "lối đi", "xe ô tô", "xe lăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.827604, "confidences": [ 0.827604, 0.14214, 0.003208, 0.001796, 0.00162, 0.000912, 0.000764, 0.000743, 0.000709, 0.00064 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.862305, 0.639648, 0.662109, 0.691406, 0.605469, 0.683594, 0.540039, 0.612305, 0.73877 ] }, { "question_id": "10025521", "image_id": 99295, "question": "táo, quả mâm xôi và hạt cà phê nổi bật ở đâu", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "thùng chứa", "predicted_topk": [ "thùng chứa", "bát", "hộp", "cái rổ", "cái túi", "ảnh chụp", "cái lọ", "cửa hàng", "hoa quả", "chậu" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.200949, "confidences": [ 0.200949, 0.148751, 0.092723, 0.080559, 0.041631, 0.029694, 0.02386, 0.019134, 0.016463, 0.011448 ], "gate_score_top1": 0.755371, "gate_scores": [ 0.755371, 0.787109, 0.736328, 0.731445, 0.624512, 0.626953, 0.687988, 0.687012, 0.665039, 0.599609 ] }, { "question_id": "10017001", "image_id": 308739, "question": "màu của con mèo là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu nâu", "màu cam", "màu trắng", "màu xanh dương", "con mèo", "màu đỏ", "màu vàng", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.424669, "confidences": [ 0.424669, 0.392755, 0.098531, 0.034588, 0.020254, 0.003211, 0.00199, 0.001444, 0.001028, 0.000876 ], "gate_score_top1": 0.86084, "gate_scores": [ 0.86084, 0.842773, 0.82373, 0.769531, 0.798828, 0.628906, 0.648926, 0.641602, 0.661621, 0.672852 ] }, { "question_id": "10021801", "image_id": 81995, "question": "màu của con ngựa là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu đen", "màu trắng", "màu xám", "màu xanh lá", "màu đỏ", "màu vàng", "con ngựa", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.49034, "confidences": [ 0.49034, 0.412908, 0.086213, 0.002289, 0.000502, 0.000494, 0.000382, 0.000303, 0.000174, 0.000171 ], "gate_score_top1": 0.89502, "gate_scores": [ 0.89502, 0.876465, 0.87793, 0.786621, 0.550293, 0.664062, 0.612793, 0.609863, 0.664062, 0.54541 ] }, { "question_id": "10117761", "image_id": 211557, "question": "có bao nhiêu con ngựa di chuyển trên vùng đất khô cằn với tải trọng", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "ba", "bảy", "hai", "tám", "một", "mười", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.478305, "confidences": [ 0.478305, 0.387343, 0.055152, 0.043971, 0.013151, 0.004203, 0.003404, 0.002457, 0.001762, 0.00133 ], "gate_score_top1": 0.867188, "gate_scores": [ 0.867188, 0.866211, 0.742676, 0.781738, 0.706055, 0.649414, 0.662109, 0.626953, 0.598145, 0.616699 ] }, { "question_id": "10000221", "image_id": 222191, "question": "màu sắc của ngọn lửa là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh dương", "màu cam", "màu trắng", "màu đỏ", "màu xám", "màu tía", "màu xanh lá", "màu nâu", "màu đen" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.868702, "confidences": [ 0.868702, 0.041109, 0.03103, 0.01155, 0.010808, 0.006816, 0.006504, 0.004703, 0.004086, 0.001054 ], "gate_score_top1": 0.894531, "gate_scores": [ 0.894531, 0.817871, 0.803223, 0.758789, 0.781738, 0.675293, 0.694336, 0.69043, 0.687012, 0.59668 ] }, { "question_id": "10078981", "image_id": 439738, "question": "những gì ngồi trong bình thủy tinh xanh", "ground_truth": "lá", "ground_truth_normalized": "lá", "predicted_top1": "cây", "predicted_topk": [ "cây", "lọ cắm hoa", "bông hoa", "lá", "cái nồi", "hoa hồng", "sân vườn", "chai", "bông cải xanh", "bình hoa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.508139, "confidences": [ 0.508139, 0.19438, 0.036809, 0.025697, 0.015435, 0.012354, 0.009472, 0.008624, 0.007122, 0.007011 ], "gate_score_top1": 0.803711, "gate_scores": [ 0.803711, 0.736816, 0.782715, 0.588867, 0.610352, 0.685059, 0.608398, 0.578613, 0.585449, 0.474121 ] }, { "question_id": "10025681", "image_id": 263178, "question": "trái cây và rau quả nằm ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái rổ", "cái nồi", "chậu", "tách", "thùng chứa", "cái lọ", "lọ cắm hoa", "chuối", "món ăn" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.97872, "confidences": [ 0.97872, 0.00582, 0.001789, 0.001429, 0.001385, 0.001244, 0.001137, 0.000633, 0.000378, 0.00037 ], "gate_score_top1": 0.912598, "gate_scores": [ 0.912598, 0.799316, 0.750488, 0.71875, 0.745605, 0.686035, 0.731445, 0.685059, 0.652832, 0.63623 ] }, { "question_id": "10097491", "image_id": 368581, "question": "cái đĩa nhựa tách rời đang giữ cái gì", "ground_truth": "bữa trưa", "ground_truth_normalized": "bữa trưa", "predicted_top1": "thùng chứa", "predicted_topk": [ "thùng chứa", "chén đĩa", "cái mâm", "rau", "hoa quả", "bữa trưa", "hộp", "dĩa", "cái túi", "món ăn" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.344647, "confidences": [ 0.344647, 0.086462, 0.077051, 0.032562, 0.022119, 0.02086, 0.020577, 0.019983, 0.014032, 0.012952 ], "gate_score_top1": 0.818359, "gate_scores": [ 0.818359, 0.641602, 0.742188, 0.74707, 0.713867, 0.548828, 0.697754, 0.619629, 0.658691, 0.72168 ] }, { "question_id": "10039691", "image_id": 226224, "question": "bộ hành lý nằm ở đâu", "ground_truth": "bánh xe", "ground_truth_normalized": "bánh xe", "predicted_top1": "sân bay", "predicted_topk": [ "sân bay", "trạm", "vali", "hành lý", "xe đẩy", "balo", "phòng", "cửa hàng", "toa xe", "gian hàng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.734847, "confidences": [ 0.734847, 0.048091, 0.029055, 0.026455, 0.016362, 0.008639, 0.00839, 0.008292, 0.007594, 0.003658 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.728516, 0.726074, 0.689941, 0.726074, 0.613281, 0.65918, 0.739746, 0.682617, 0.60498 ] }, { "question_id": "10110481", "image_id": 435807, "question": "có bao nhiêu thành viên đang chơi trò chơi điện tử", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.942352, "confidences": [ 0.942352, 0.02936, 0.022423, 0.002391, 0.001156, 0.000324, 0.000106, 7.1e-05, 5.6e-05, 4.8e-05 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.854492, 0.834961, 0.723145, 0.641602, 0.443359, 0.452637, 0.453857, 0.372559, 0.389404 ] }, { "question_id": "10063821", "image_id": 454495, "question": "người chơi tennis mặc những gì đang chơi tennis", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "quả bóng", "predicted_topk": [ "quả bóng", "vợt", "áo sơ mi", "sân vận động", "nón", "dĩa nhựa", "gậy", "mũ", "mặt trời", "quần short" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.566973, "confidences": [ 0.566973, 0.147904, 0.0607, 0.024525, 0.016594, 0.013544, 0.007207, 0.00601, 0.004881, 0.00451 ], "gate_score_top1": 0.842285, "gate_scores": [ 0.842285, 0.786133, 0.710938, 0.683105, 0.644531, 0.695312, 0.603516, 0.651855, 0.516602, 0.484131 ] }, { "question_id": "10077551", "image_id": 556183, "question": "mì ống alfredo với bông cải xanh và nấm là gì", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "rau", "thịt", "cái nĩa", "bát", "chén đĩa", "dĩa", "bữa ăn tối" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.340895, "confidences": [ 0.340895, 0.141, 0.096908, 0.060171, 0.027549, 0.025578, 0.024217, 0.023472, 0.021921, 0.016547 ], "gate_score_top1": 0.833496, "gate_scores": [ 0.833496, 0.731445, 0.735352, 0.707031, 0.630859, 0.64209, 0.65332, 0.624023, 0.643066, 0.601562 ] }, { "question_id": "10061261", "image_id": 578362, "question": "những gì được bao quanh bởi các đám mây", "ground_truth": "đồi", "ground_truth_normalized": "đồi", "predicted_top1": "núi", "predicted_topk": [ "núi", "đồi", "trượt tuyết", "cây", "bức ảnh", "bầu trời", "ván trượt", "trang thiết bị", "đường", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.593069, "confidences": [ 0.593069, 0.233158, 0.015469, 0.013026, 0.009094, 0.005473, 0.004699, 0.003603, 0.003076, 0.003016 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.800293, 0.703125, 0.585449, 0.620117, 0.583008, 0.64209, 0.579102, 0.605469, 0.59082 ] }, { "question_id": "10028081", "image_id": 292662, "question": "xe cứu hỏa mô hình cũ nằm ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "ga-ra", "phòng", "kho", "bảo tàng", "trạm", "cửa tiệm", "cửa hàng", "nhà ở", "sân bay" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.295855, "confidences": [ 0.295855, 0.182984, 0.121894, 0.109265, 0.068644, 0.053879, 0.04983, 0.008119, 0.007717, 0.006372 ], "gate_score_top1": 0.803711, "gate_scores": [ 0.803711, 0.850098, 0.791016, 0.820801, 0.835449, 0.755859, 0.78125, 0.759277, 0.693848, 0.661621 ] }, { "question_id": "10042041", "image_id": 501739, "question": "táo đỏ và xanh nằm ở đâu", "ground_truth": "cái rổ", "ground_truth_normalized": "cái rổ", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái rổ", "thùng chứa", "chậu", "món ăn", "tách", "cái nồi", "đĩa ăn", "cái lọ", "lọ cắm hoa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.956394, "confidences": [ 0.956394, 0.015825, 0.006007, 0.002446, 0.001905, 0.001846, 0.001694, 0.000777, 0.000685, 0.000601 ], "gate_score_top1": 0.907227, "gate_scores": [ 0.907227, 0.800293, 0.71582, 0.698242, 0.704102, 0.712402, 0.6875, 0.683594, 0.673828, 0.636719 ] }, { "question_id": "10021691", "image_id": 412781, "question": "màu của con mèo là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu xám", "màu nâu", "màu đen", "màu trắng", "chậu", "màu đỏ", "con mèo", "màu vàng", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.642333, "confidences": [ 0.642333, 0.294081, 0.035956, 0.010382, 0.001531, 0.001026, 0.000805, 0.000761, 0.000708, 0.000504 ], "gate_score_top1": 0.868652, "gate_scores": [ 0.868652, 0.853516, 0.801758, 0.763184, 0.720215, 0.55127, 0.685547, 0.623047, 0.66748, 0.584473 ] }, { "question_id": "10113721", "image_id": 405778, "question": "có bao nhiêu con ngựa vằn đang gặm cỏ trên một bãi cỏ rộng mở", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "bãi cỏ", "ngựa vằn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.770798, "confidences": [ 0.770798, 0.19951, 0.019754, 0.004306, 0.000587, 0.000338, 0.000173, 0.000138, 0.000126, 0.00012 ], "gate_score_top1": 0.884766, "gate_scores": [ 0.884766, 0.866211, 0.812012, 0.711426, 0.574219, 0.401855, 0.449707, 0.419189, 0.45874, 0.509766 ] }, { "question_id": "10095951", "image_id": 443450, "question": "máy bay bay gì", "ground_truth": "bầu trời", "ground_truth_normalized": "bầu trời", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "bầu trời", "màu xám", "sân bay", "màu trắng", "màu xanh dương", "núi", "ga-ra", "hải âu", "bến tàu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.374005, "confidences": [ 0.374005, 0.121897, 0.109268, 0.030521, 0.02683, 0.011119, 0.009102, 0.008287, 0.007335, 0.005371 ], "gate_score_top1": 0.751465, "gate_scores": [ 0.751465, 0.568848, 0.704102, 0.685059, 0.628418, 0.642578, 0.513672, 0.456543, 0.510254, 0.369385 ] }, { "question_id": "10004571", "image_id": 152038, "question": "màu của dấu là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu xanh dương", "màu xanh lá", "màu cam", "màu đỏ", "màu vàng", "màu đen", "màu xám", "màu tía", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.777351, "confidences": [ 0.777351, 0.123959, 0.052283, 0.010096, 0.006725, 0.005958, 0.004586, 0.003586, 0.002665, 0.001227 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.820801, 0.794434, 0.775391, 0.750488, 0.77832, 0.72168, 0.720703, 0.70166, 0.737305 ] }, { "question_id": "10024431", "image_id": 394970, "question": "màu sắc của các tòa nhà là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu đỏ", "màu cam", "màu nâu", "màu đen", "màu xám", "màu trắng", "màu xanh lá", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.89155, "confidences": [ 0.89155, 0.07975, 0.009232, 0.0058, 0.004552, 0.00195, 0.001592, 0.000543, 0.000389, 0.000375 ], "gate_score_top1": 0.905273, "gate_scores": [ 0.905273, 0.833496, 0.816895, 0.720703, 0.722168, 0.668457, 0.72998, 0.604492, 0.61377, 0.600098 ] }, { "question_id": "10086291", "image_id": 345137, "question": "cái gì nằm trong chảo phía trên cho rau cắt nhỏ", "ground_truth": "gà tây", "ground_truth_normalized": "gà tây", "predicted_top1": "cái mâm", "predicted_topk": [ "cái mâm", "cà rốt", "chảo", "món ăn", "bữa ăn", "rau", "thịt", "chén đĩa", "quầy tính tiền", "đĩa ăn" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.13633, "confidences": [ 0.13633, 0.05898, 0.054017, 0.038006, 0.035356, 0.034876, 0.028024, 0.020067, 0.017953, 0.014624 ], "gate_score_top1": 0.734375, "gate_scores": [ 0.734375, 0.657715, 0.671387, 0.677246, 0.58252, 0.686035, 0.603516, 0.599609, 0.557617, 0.623535 ] }, { "question_id": "10055141", "image_id": 571585, "question": "tủ lạnh mở và hiển thị những gì và các nhãn dán khác trên cửa", "ground_truth": "cái kệ", "ground_truth_normalized": "cái kệ", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "cái kệ", "chai", "phòng bếp", "lò vi sóng", "tường", "cửa ra vào", "tủ đông" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.631387, "confidences": [ 0.631387, 0.141433, 0.115886, 0.032433, 0.010028, 0.003784, 0.002467, 0.002405, 0.00219, 0.002118 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.794434, 0.824707, 0.754883, 0.660156, 0.562988, 0.569336, 0.625, 0.484375, 0.548828 ] }, { "question_id": "10089051", "image_id": 459487, "question": "những gì đứng trên cánh đồng với một ngọn núi phủ tuyết trong nền", "ground_truth": "con cừu", "ground_truth_normalized": "con cừu", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "con ngựa", "con cừu", "con chó", "ngựa vằn", "bò đực", "bãi cỏ", "gấu", "chuồng trại" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.271415, "confidences": [ 0.271415, 0.208101, 0.19022, 0.139712, 0.040185, 0.011855, 0.011029, 0.007404, 0.004932, 0.003879 ], "gate_score_top1": 0.812988, "gate_scores": [ 0.812988, 0.759277, 0.802246, 0.777344, 0.709961, 0.64502, 0.626465, 0.657715, 0.583008, 0.477051 ] }, { "question_id": "10094961", "image_id": 454982, "question": "cái gì đang ngồi trên bàn", "ground_truth": "máy tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "bàn phím", "điện thoại", "chuột", "cái bàn", "trang thiết bị", "bức tranh", "cái ghế", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.664471, "confidences": [ 0.664471, 0.309008, 0.002364, 0.002074, 0.001508, 0.001456, 0.000527, 0.000507, 0.000425, 0.000386 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.849121, 0.691406, 0.700684, 0.677246, 0.732422, 0.480225, 0.479492, 0.478516, 0.553223 ] }, { "question_id": "10027151", "image_id": 91656, "question": "cậu bé đang vuốt ve thú cưng của mình ở đâu", "ground_truth": "chuồng trại", "ground_truth_normalized": "chuồng trại", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "chuồng trại", "tòa nhà", "phòng", "ga-ra", "kho", "lồng", "nhà ở", "cửa tiệm", "rào chắn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.343608, "confidences": [ 0.343608, 0.339605, 0.034693, 0.02302, 0.017789, 0.016549, 0.016292, 0.012614, 0.009103, 0.008113 ], "gate_score_top1": 0.765625, "gate_scores": [ 0.765625, 0.765625, 0.691895, 0.668945, 0.766113, 0.671387, 0.6875, 0.74707, 0.65625, 0.542969 ] }, { "question_id": "10038251", "image_id": 471952, "question": "nhóm người nhỏ đã tập hợp ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "phòng bếp", "chung cư", "văn phòng", "quán ăn", "phòng ngủ", "cửa sổ", "cửa tiệm", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.696229, "confidences": [ 0.696229, 0.188857, 0.030234, 0.01587, 0.004591, 0.003143, 0.00293, 0.002731, 0.00242, 0.002304 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.865234, 0.793457, 0.686035, 0.630371, 0.668945, 0.746582, 0.694336, 0.662598, 0.57666 ] }, { "question_id": "10081171", "image_id": 374352, "question": "những gì chất đống với đống hành lý rất cao", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "vali", "predicted_topk": [ "vali", "xe đẩy", "hành lý", "sân bay", "toa xe", "trạm", "túi", "balo", "cái túi", "cửa hàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.39201, "confidences": [ 0.39201, 0.328818, 0.038814, 0.029993, 0.020494, 0.014993, 0.013705, 0.010674, 0.006011, 0.004449 ], "gate_score_top1": 0.773438, "gate_scores": [ 0.773438, 0.819824, 0.734863, 0.768066, 0.689941, 0.648438, 0.710449, 0.619629, 0.703125, 0.660156 ] }, { "question_id": "10062631", "image_id": 445048, "question": "người duy nhất trên ván trượt, trượt tuyết qua những gì", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "núi", "predicted_topk": [ "núi", "ván trượt", "trượt tuyết", "đồi", "cây", "trang thiết bị", "bầu trời", "cây sào", "bức ảnh", "mắt" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.360922, "confidences": [ 0.360922, 0.300386, 0.132258, 0.063211, 0.012159, 0.005755, 0.005374, 0.004903, 0.003841, 0.003796 ], "gate_score_top1": 0.797363, "gate_scores": [ 0.797363, 0.821777, 0.782227, 0.778809, 0.609375, 0.599609, 0.616211, 0.650879, 0.593262, 0.431885 ] }, { "question_id": "10058331", "image_id": 360600, "question": "người đó cầm gì với một số thức ăn trên đó", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "đĩa ăn", "chảo", "món ăn", "bữa ăn", "lò vi sóng", "áo sơ mi", "quán ăn", "đĩa", "sandwich" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.769618, "confidences": [ 0.769618, 0.044449, 0.02915, 0.024166, 0.018565, 0.007619, 0.005456, 0.00435, 0.002864, 0.002428 ], "gate_score_top1": 0.866211, "gate_scores": [ 0.866211, 0.728027, 0.719727, 0.722168, 0.668457, 0.635254, 0.451172, 0.543945, 0.508301, 0.669434 ] }, { "question_id": "10115911", "image_id": 123180, "question": "một số con hươu cao cổ rất dễ thương có bao nhiêu cái đứng hơn con khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "hươu cao cổ", "năm", "bãi cỏ", "sáu", "cây", "ngựa rằn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.433472, "confidences": [ 0.433472, 0.382538, 0.152758, 0.006764, 0.001007, 0.000932, 0.000816, 0.000665, 0.000619, 0.000592 ], "gate_score_top1": 0.843262, "gate_scores": [ 0.843262, 0.810547, 0.834473, 0.686523, 0.57959, 0.556641, 0.500488, 0.425781, 0.467529, 0.498779 ] }, { "question_id": "10108461", "image_id": 84670, "question": "có bao nhiêu vận động viên trượt tuyết mặc áo khoác vàng nhảy đồng thời", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "năm", "bốn", "bảy", "chín", "tám", "ba", "một", "mười", "núi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.368544, "confidences": [ 0.368544, 0.317704, 0.193452, 0.05393, 0.015512, 0.005267, 0.004191, 0.003182, 0.003084, 0.001831 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.820312, 0.771484, 0.737305, 0.69043, 0.59082, 0.507812, 0.568359, 0.565918, 0.57666 ] }, { "question_id": "10056161", "image_id": 572900, "question": "chàng trai mặc áo xanh đang ném gì", "ground_truth": "dĩa ", "ground_truth_normalized": "dĩa", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "áo sơ mi", "chiếc ô", "kho", "ga-ra", "ô cửa", "lối đi", "áo vest", "dĩa nhựa", "nón" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.279623, "confidences": [ 0.279623, 0.037917, 0.022421, 0.021689, 0.019981, 0.015622, 0.014733, 0.012602, 0.012394, 0.012048 ], "gate_score_top1": 0.770996, "gate_scores": [ 0.770996, 0.61084, 0.634277, 0.64502, 0.605957, 0.596191, 0.57373, 0.644531, 0.605957, 0.568848 ] }, { "question_id": "10118311", "image_id": 539087, "question": "có bao nhiêu bức tranh có thùng táo để bán", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "một", "tám", "mười", "chín" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.47937, "confidences": [ 0.47937, 0.224676, 0.116106, 0.103671, 0.02611, 0.014251, 0.010757, 0.004355, 0.002516, 0.002017 ], "gate_score_top1": 0.82373, "gate_scores": [ 0.82373, 0.839355, 0.793457, 0.757812, 0.737305, 0.681641, 0.664062, 0.586914, 0.578613, 0.604004 ] }, { "question_id": "10117561", "image_id": 202507, "question": "có bao nhiêu rổ táo vàng, xanh, đỏ", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "hai", "bảy", "một", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.572067, "confidences": [ 0.572067, 0.184278, 0.180009, 0.022531, 0.017754, 0.009283, 0.002192, 0.001782, 0.00095, 0.00076 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.830566, 0.834473, 0.660156, 0.754395, 0.717773, 0.634766, 0.57959, 0.516113, 0.535156 ] }, { "question_id": "10025831", "image_id": 26958, "question": "con hươu cao cổ đơn độc ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "tòa nhà", "chuồng trại", "bảo tàng", "cửa tiệm", "lá", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.51584, "confidences": [ 0.51584, 0.365785, 0.088942, 0.002288, 0.001938, 0.001871, 0.001594, 0.001033, 0.000615, 0.000471 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.878906, 0.875977, 0.64502, 0.687988, 0.71582, 0.651367, 0.644531, 0.598145, 0.51123 ] }, { "question_id": "10034221", "image_id": 365819, "question": "cậu bé đặt đồ dùng bằng bạc ở đâu", "ground_truth": "ngăn kéo", "ground_truth_normalized": "ngăn kéo", "predicted_top1": "tủ lạnh", "predicted_topk": [ "tủ lạnh", "phòng bếp", "tủ đá", "cửa", "cái kệ", "thùng chứa", "lò vi sóng", "ngăn kéo", "vali", "hộp" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.251024, "confidences": [ 0.251024, 0.183653, 0.110093, 0.057004, 0.029229, 0.025997, 0.020445, 0.01586, 0.014079, 0.011879 ], "gate_score_top1": 0.773926, "gate_scores": [ 0.773926, 0.757812, 0.729492, 0.696289, 0.631836, 0.652832, 0.589355, 0.599609, 0.575195, 0.583496 ] }, { "question_id": "10100721", "image_id": 523322, "question": "cái gì bao gồm máy tính để bàn và đèn", "ground_truth": "văn phòng", "ground_truth_normalized": "văn phòng", "predicted_top1": "cái bàn", "predicted_topk": [ "cái bàn", "văn phòng", "máy tính", "bàn phím", "phòng ngủ", "laptop", "thư viện", "cái ghế", "trang thiết bị", "bức tranh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.515104, "confidences": [ 0.515104, 0.181526, 0.058246, 0.027892, 0.022325, 0.017489, 0.007551, 0.007522, 0.007011, 0.006756 ], "gate_score_top1": 0.820312, "gate_scores": [ 0.820312, 0.805664, 0.802734, 0.708496, 0.633789, 0.76123, 0.631348, 0.597656, 0.575195, 0.595215 ] }, { "question_id": "10101181", "image_id": 570826, "question": "những gì đang chuyển động", "ground_truth": "xe điện", "ground_truth_normalized": "xe điện", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe điện", "xe đẩy", "xe ô tô", "xe buýt", "trạm", "xe điện ngầm", "động cơ", "phương tiện giao thông", "các tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.506255, "confidences": [ 0.506255, 0.147905, 0.081045, 0.060228, 0.049736, 0.021898, 0.014502, 0.005724, 0.00481, 0.004449 ], "gate_score_top1": 0.81543, "gate_scores": [ 0.81543, 0.780762, 0.753906, 0.751465, 0.766113, 0.73877, 0.721191, 0.648438, 0.598145, 0.605957 ] }, { "question_id": "10111621", "image_id": 201246, "question": "bao nhiêu máy bay phản lực bay cao để lại một vệt khói", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "sáu", "bảy", "chín", "năm", "tám", "ba", "máy bay", "mười", "một" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.347072, "confidences": [ 0.347072, 0.281068, 0.233925, 0.065724, 0.024084, 0.010158, 0.004268, 0.001804, 0.001561, 0.001146 ], "gate_score_top1": 0.824707, "gate_scores": [ 0.824707, 0.820801, 0.834473, 0.775391, 0.70459, 0.643555, 0.605469, 0.623535, 0.504883, 0.496338 ] }, { "question_id": "10057181", "image_id": 513497, "question": "phía trước nhà thờ cổ điển cũ là gì", "ground_truth": "bầu trời", "ground_truth_normalized": "bầu trời", "predicted_top1": "đồng hồ", "predicted_topk": [ "đồng hồ", "tòa tháp", "tòa nhà", "các tòa nhà", "cây", "bức ảnh", "cầu", "bức tượng", "lá cờ", "bầu trời" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.402072, "confidences": [ 0.402072, 0.307077, 0.119317, 0.024431, 0.011676, 0.011361, 0.008918, 0.006679, 0.006311, 0.004934 ], "gate_score_top1": 0.793457, "gate_scores": [ 0.793457, 0.786621, 0.780762, 0.67041, 0.637207, 0.656738, 0.631348, 0.611328, 0.670898, 0.537598 ] }, { "question_id": "10028341", "image_id": 518109, "question": "chàng trai trẻ đang sử dụng máy tính xách tay ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa tiệm", "phòng", "sân bay", "kho", "tòa nhà", "gian hàng", "văn phòng", "bảo tàng", "thư viện" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.7569, "confidences": [ 0.7569, 0.050118, 0.043544, 0.035401, 0.011743, 0.008916, 0.007479, 0.006298, 0.005303, 0.00508 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.833496, 0.766113, 0.775879, 0.777344, 0.705566, 0.674805, 0.73291, 0.768066, 0.649414 ] }, { "question_id": "10059801", "image_id": 526414, "question": "một phòng khách trên lầu được trang trí đẹp đẽ và chứa những gì", "ground_truth": "cỗ máy", "ground_truth_normalized": "cỗ máy", "predicted_top1": "cái bàn", "predicted_topk": [ "cái bàn", "phòng", "nhà ở", "cái kệ", "cửa sổ", "cửa", "bức ảnh", "chung cư", "nhiều cái ghế", "đi văng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.115604, "confidences": [ 0.115604, 0.10202, 0.067168, 0.043537, 0.041869, 0.040108, 0.039026, 0.037166, 0.033186, 0.022719 ], "gate_score_top1": 0.706055, "gate_scores": [ 0.706055, 0.712402, 0.788086, 0.65332, 0.689453, 0.638184, 0.585938, 0.578613, 0.624512, 0.591797 ] }, { "question_id": "10072541", "image_id": 577403, "question": "chàng trai trẻ với ván trượt lướt qua những gì", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "xe buýt", "đường phố", "bảng", "áo sơ mi", "màu đen", "ga-ra", "lối đi", "đường", "mặt nạ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.696025, "confidences": [ 0.696025, 0.025552, 0.019137, 0.006924, 0.006764, 0.006423, 0.004376, 0.004135, 0.004115, 0.004043 ], "gate_score_top1": 0.814453, "gate_scores": [ 0.814453, 0.636719, 0.686035, 0.571777, 0.46582, 0.538086, 0.483154, 0.531738, 0.658203, 0.45166 ] }, { "question_id": "10094361", "image_id": 468363, "question": "những gì bao gồm búp bê, gấu bông và ếch", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "đồ chơi", "cái kệ", "gấu trúc", "cây", "cái ghế", "màu nâu", "chuột", "bức tượng", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.934814, "confidences": [ 0.934814, 0.044934, 0.001414, 0.001069, 0.000535, 0.000495, 0.000478, 0.000442, 0.000338, 0.000338 ], "gate_score_top1": 0.878906, "gate_scores": [ 0.878906, 0.824219, 0.631348, 0.700195, 0.611328, 0.527832, 0.545898, 0.572754, 0.508789, 0.61084 ] }, { "question_id": "10091501", "image_id": 352027, "question": "người đàn ông đang mang một tấm ván lướt sóng trên đỉnh sóng bao phủ là gì", "ground_truth": "bờ biển", "ground_truth_normalized": "bờ biển", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "cây sào", "trượt tuyết", "vạch kẻ đường", "ca nô", "diều", "cái lều", "áo sơ mi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.81598, "confidences": [ 0.81598, 0.111297, 0.013768, 0.00429, 0.002995, 0.002265, 0.001915, 0.001703, 0.001122, 0.001105 ], "gate_score_top1": 0.871094, "gate_scores": [ 0.871094, 0.817871, 0.682617, 0.642578, 0.709961, 0.567383, 0.465332, 0.699219, 0.473877, 0.514648 ] }, { "question_id": "10033361", "image_id": 194616, "question": "cửa tủ lạnh mở ra ở đâu", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "tủ lạnh", "predicted_topk": [ "tủ lạnh", "tủ đá", "cửa", "phòng bếp", "cái kệ", "phòng", "lò vi sóng", "chai", "thùng chứa", "cửa ra vào" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.548416, "confidences": [ 0.548416, 0.173242, 0.118603, 0.029871, 0.010223, 0.005504, 0.004763, 0.003911, 0.002969, 0.00239 ], "gate_score_top1": 0.833008, "gate_scores": [ 0.833008, 0.755859, 0.774902, 0.688477, 0.637207, 0.625488, 0.555176, 0.542969, 0.563965, 0.435059 ] }, { "question_id": "10004621", "image_id": 220518, "question": "màu của chiếc bình là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu trắng", "màu đen", "màu xanh dương", "màu xanh lá", "màu vàng", "màu xám", "màu đỏ", "màu nâu", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.692668, "confidences": [ 0.692668, 0.193856, 0.040161, 0.025728, 0.021497, 0.009689, 0.003537, 0.001838, 0.001437, 0.001283 ], "gate_score_top1": 0.906738, "gate_scores": [ 0.906738, 0.835938, 0.800293, 0.783691, 0.718262, 0.73584, 0.755859, 0.731445, 0.688477, 0.70459 ] }, { "question_id": "10107631", "image_id": 394554, "question": "có bao nhiêu người đang ngồi trên ghế dài bên ngoài tòa nhà", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "ba", "mười", "sân vận động", "một" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.371999, "confidences": [ 0.371999, 0.305998, 0.231884, 0.057271, 0.005989, 0.004399, 0.002225, 0.001365, 0.000361, 0.000361 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.838867, 0.811523, 0.774902, 0.659668, 0.636719, 0.582031, 0.523926, 0.482178, 0.456543 ] }, { "question_id": "10008311", "image_id": 307371, "question": "màu của tháp là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu nâu", "màu xanh lá", "màu trắng", "màu đen", "màu xanh dương", "màu cam", "màu vàng", "màu xám", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.543062, "confidences": [ 0.543062, 0.30463, 0.097747, 0.017052, 0.009565, 0.004698, 0.003835, 0.00184, 0.001636, 0.000798 ], "gate_score_top1": 0.859863, "gate_scores": [ 0.859863, 0.804688, 0.80127, 0.80957, 0.746582, 0.689453, 0.811523, 0.681152, 0.718262, 0.676758 ] }, { "question_id": "10083591", "image_id": 394002, "question": "những gì trong nhà để xe trước khi cuộc đua bắt đầu", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "mũ", "ga-ra", "đường", "cây", "chim bồ câu", "con khỉ", "máy bay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.5795, "confidences": [ 0.5795, 0.395184, 0.003576, 0.000904, 0.000826, 0.00068, 0.000516, 0.000418, 0.000325, 0.000318 ], "gate_score_top1": 0.850098, "gate_scores": [ 0.850098, 0.889648, 0.693848, 0.507812, 0.597656, 0.543945, 0.47876, 0.511719, 0.390625, 0.565918 ] }, { "question_id": "10078351", "image_id": 387244, "question": "những gì trên mặt đất khi nước đổ lên đường", "ground_truth": "vòi nước", "ground_truth_normalized": "vòi nước", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "nón", "tường", "bức ảnh", "chậu", "lá cờ", "phòng tắm", "bồn tắm", "máy ảnh", "xe ô tô" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.484015, "confidences": [ 0.484015, 0.033196, 0.013704, 0.01323, 0.013102, 0.012899, 0.011551, 0.011327, 0.009474, 0.00797 ], "gate_score_top1": 0.815918, "gate_scores": [ 0.815918, 0.674316, 0.598145, 0.583984, 0.561523, 0.575684, 0.557129, 0.677246, 0.575684, 0.603516 ] }, { "question_id": "10038291", "image_id": 45325, "question": "nơi đã làm nhiều sản phẩm nướng", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa sổ", "cửa tiệm", "cái mâm", "bánh ngọt", "cái kệ", "cửa", "lò vi sóng", "hộp", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.471342, "confidences": [ 0.471342, 0.098413, 0.05888, 0.018636, 0.017714, 0.017439, 0.015847, 0.012127, 0.011194, 0.009878 ], "gate_score_top1": 0.806152, "gate_scores": [ 0.806152, 0.694336, 0.709473, 0.740723, 0.599121, 0.680176, 0.663574, 0.564453, 0.689941, 0.612793 ] }, { "question_id": "10067461", "image_id": 528404, "question": "những gì được thiết lập với ga tàu", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "đường sắt", "các tòa nhà", "hàng hoá", "màu đỏ", "cây", "cầu", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.687052, "confidences": [ 0.687052, 0.190788, 0.046391, 0.006977, 0.004374, 0.003898, 0.003764, 0.001622, 0.001408, 0.001395 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.799805, 0.76416, 0.594238, 0.639648, 0.527832, 0.611328, 0.546875, 0.590332, 0.537598 ] }, { "question_id": "10096841", "image_id": 566159, "question": "hai người phụ nữ hạnh phúc đang giữ gì", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "cây sào", "vạch kẻ đường", "diều", "ca nô", "trượt tuyết", "con thuyền", "bàn chải" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.614007, "confidences": [ 0.614007, 0.294604, 0.019055, 0.004145, 0.00239, 0.002193, 0.001823, 0.001683, 0.00149, 0.001478 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.816895, 0.681641, 0.596191, 0.541504, 0.70166, 0.441162, 0.668457, 0.619629, 0.574219 ] }, { "question_id": "10032381", "image_id": 300072, "question": "cặp vợ chồng đang ngồi ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "bát", "predicted_topk": [ "bát", "chậu", "tách", "cái nồi", "thùng chứa", "cái lọ", "máy xay", "phòng bếp", "cái rổ", "phòng tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.569938, "confidences": [ 0.569938, 0.277766, 0.043949, 0.021841, 0.008705, 0.006233, 0.004048, 0.003601, 0.003056, 0.002563 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.807129, 0.751953, 0.76123, 0.682617, 0.69043, 0.669922, 0.636719, 0.65918, 0.714844 ] }, { "question_id": "10045511", "image_id": 340412, "question": "cặp vợ chồng đang ngồi ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "giường", "cái ghế", "văn phòng", "chung cư", "hành lang", "nhà ở", "cửa sổ", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.570099, "confidences": [ 0.570099, 0.308749, 0.058239, 0.023439, 0.003797, 0.00263, 0.002101, 0.002072, 0.001672, 0.000773 ], "gate_score_top1": 0.865723, "gate_scores": [ 0.865723, 0.871094, 0.72998, 0.749512, 0.650879, 0.652344, 0.633789, 0.72998, 0.614746, 0.52002 ] }, { "question_id": "10057261", "image_id": 478155, "question": "những gì chứa đầy trái cây, rau và đồ nhúng nằm trên đỉnh của một cái bàn", "ground_truth": "đĩa", "ground_truth_normalized": "đĩa", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "dĩa", "rau", "thịt", "đĩa", "chén đĩa", "món ăn", "rượu", "bữa trưa" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.265605, "confidences": [ 0.265605, 0.118323, 0.062596, 0.05159, 0.049906, 0.039019, 0.036016, 0.030866, 0.016297, 0.0154 ], "gate_score_top1": 0.770996, "gate_scores": [ 0.770996, 0.766602, 0.693359, 0.765137, 0.653809, 0.636719, 0.664551, 0.723145, 0.655762, 0.510254 ] }, { "question_id": "10088621", "image_id": 507893, "question": "cái gì mở ra phòng tắm đơn giản, màu trắng", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "bồn tắm", "cửa", "vòi hoa sen", "khăn", "tường", "nhà ở", "gương", "bức ảnh", "quầy tính tiền" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.248474, "confidences": [ 0.248474, 0.194269, 0.14607, 0.097304, 0.034358, 0.03159, 0.025186, 0.013015, 0.012689, 0.011374 ], "gate_score_top1": 0.784668, "gate_scores": [ 0.784668, 0.819824, 0.75, 0.737793, 0.719238, 0.653809, 0.722168, 0.679688, 0.59375, 0.532227 ] }, { "question_id": "10035701", "image_id": 387408, "question": "người phụ nữ đang chụp ảnh mình ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "vòi hoa sen", "ô cửa", "máy ảnh", "hành lang", "bồn tắm", "cửa", "phòng", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.553389, "confidences": [ 0.553389, 0.41772, 0.003544, 0.002324, 0.001831, 0.001814, 0.001192, 0.000916, 0.000898, 0.000853 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.890625, 0.687012, 0.624512, 0.557129, 0.529297, 0.690918, 0.608887, 0.647949, 0.668945 ] }, { "question_id": "10079141", "image_id": 353830, "question": "những gì được trình bày trên đĩa trắng", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "đĩa ăn", "bữa ăn", "món ăn", "chảo", "màu xanh lá", "áo sơ mi", "hộp", "bánh", "đĩa" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.969426, "confidences": [ 0.969426, 0.003349, 0.002375, 0.002356, 0.001775, 0.000816, 0.000612, 0.000479, 0.000456, 0.000431 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.705078, 0.630371, 0.63623, 0.640625, 0.581543, 0.423584, 0.625977, 0.659668, 0.508301 ] }, { "question_id": "10087651", "image_id": 576136, "question": "những gì đang ăn từ bát kim loại", "ground_truth": "cún yêu", "ground_truth_normalized": "cún yêu", "predicted_top1": "con chó", "predicted_topk": [ "con chó", "đồ chơi", "gấu", "màu nâu", "bát", "tách", "cún yêu", "con mèo", "màu vàng", "móng vuốt" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.572592, "confidences": [ 0.572592, 0.029528, 0.026624, 0.025355, 0.01344, 0.011428, 0.010467, 0.0093, 0.008543, 0.008369 ], "gate_score_top1": 0.824707, "gate_scores": [ 0.824707, 0.571777, 0.685547, 0.690918, 0.589844, 0.587402, 0.411865, 0.615723, 0.583984, 0.410156 ] }, { "question_id": "10051211", "image_id": 388312, "question": "con mèo đáng yêu đang ngóc đầu lên ở đâu", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "cái ví", "túi", "xe đẩy", "thùng chứa", "balo", "hộp", "toa xe" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.658095, "confidences": [ 0.658095, 0.196058, 0.059098, 0.010391, 0.010032, 0.005979, 0.005851, 0.005795, 0.003556, 0.003535 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.866699, 0.79248, 0.69873, 0.703125, 0.716309, 0.714355, 0.639648, 0.673828, 0.623047 ] }, { "question_id": "10067661", "image_id": 515289, "question": "một số tay đua xe đạp mỉm cười tiếp cận những gì", "ground_truth": "chim bồ câu", "ground_truth_normalized": "chim bồ câu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "chim bồ câu", "xe đạp", "cây", "đường", "mười", "đường phố", "cửa sổ", "đồi", "ván trượt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.181072, "confidences": [ 0.181072, 0.161679, 0.12015, 0.017929, 0.017208, 0.013719, 0.011678, 0.011176, 0.010458, 0.007681 ], "gate_score_top1": 0.67041, "gate_scores": [ 0.67041, 0.661133, 0.771973, 0.553223, 0.618164, 0.567383, 0.614258, 0.591309, 0.604004, 0.627441 ] }, { "question_id": "10039101", "image_id": 494642, "question": "con chó nhỏ đang cưỡi ở đâu", "ground_truth": "xe", "ground_truth_normalized": "xe", "predicted_top1": "xe lăn", "predicted_topk": [ "xe lăn", "xe", "đường", "xe đẩy", "đường phố", "cái ghế", "toa xe", "cái túi", "xe đạp", "vali" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.079577, "confidences": [ 0.079577, 0.074029, 0.067536, 0.064192, 0.062096, 0.042594, 0.03679, 0.032531, 0.026864, 0.024652 ], "gate_score_top1": 0.719727, "gate_scores": [ 0.719727, 0.657715, 0.73877, 0.75, 0.715332, 0.698242, 0.631348, 0.716309, 0.678711, 0.691895 ] }, { "question_id": "10084301", "image_id": 545235, "question": "những gì nằm trên mặt đất", "ground_truth": "ký tên", "ground_truth_normalized": "ký tên", "predicted_top1": "quán ăn", "predicted_topk": [ "quán ăn", "pizza", "ký tên", "cái mâm", "lò vi sóng", "tường", "tạp dề", "sandwich", "bánh", "bức ảnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.152142, "confidences": [ 0.152142, 0.060755, 0.037503, 0.027707, 0.027545, 0.022925, 0.015679, 0.014947, 0.013024, 0.012797 ], "gate_score_top1": 0.720703, "gate_scores": [ 0.720703, 0.749512, 0.517578, 0.693359, 0.61084, 0.450684, 0.553223, 0.58252, 0.588379, 0.53125 ] }, { "question_id": "10056211", "image_id": 502752, "question": "con hươu cao cổ ăn gì", "ground_truth": "cỏ khô", "ground_truth_normalized": "cỏ khô", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lá", "bãi cỏ", "lồng", "cây", "rào chắn", "đồi", "cỏ khô", "tòa nhà" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.188843, "confidences": [ 0.188843, 0.101476, 0.093484, 0.089903, 0.073808, 0.071537, 0.036041, 0.016663, 0.015113, 0.011655 ], "gate_score_top1": 0.797363, "gate_scores": [ 0.797363, 0.700684, 0.722168, 0.724121, 0.789062, 0.81543, 0.633301, 0.582031, 0.519531, 0.635254 ] }, { "question_id": "10078221", "image_id": 529065, "question": "người đàn ông đang cưỡi một chiếc ván trượt xuống một tấm kim loại treo", "ground_truth": "đường sắt", "ground_truth_normalized": "đường sắt", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "tòa nhà", "ga-ra", "trượt tuyết", "áo sơ mi", "đường sắt", "hồ bơi", "cây", "đồi", "sân" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.455577, "confidences": [ 0.455577, 0.080729, 0.034317, 0.019745, 0.017088, 0.015742, 0.011054, 0.010904, 0.010006, 0.009309 ], "gate_score_top1": 0.788574, "gate_scores": [ 0.788574, 0.770508, 0.606445, 0.75, 0.588379, 0.543945, 0.674316, 0.694336, 0.67627, 0.635742 ] }, { "question_id": "10104521", "image_id": 549366, "question": "có bao nhiêu con ngựa vằn để chăn thả trên một đồng bằng cỏ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.69074, "confidences": [ 0.69074, 0.287943, 0.012262, 0.002405, 0.001686, 0.000833, 0.000457, 0.000397, 0.000189, 0.000156 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.89502, 0.726562, 0.738281, 0.544922, 0.606934, 0.57666, 0.526367, 0.494873, 0.425781 ] }, { "question_id": "10109271", "image_id": 319522, "question": "có bao nhiêu con ngựa đứng từ xa trên đồng cỏ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "ba", "bảy", "tám", "chín", "hai", "mười", "một" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.520379, "confidences": [ 0.520379, 0.389746, 0.040919, 0.029129, 0.008712, 0.001565, 0.001224, 0.000724, 0.000589, 0.000587 ], "gate_score_top1": 0.867188, "gate_scores": [ 0.867188, 0.879883, 0.742188, 0.789551, 0.710449, 0.604492, 0.627441, 0.595215, 0.542969, 0.55957 ] }, { "question_id": "10110691", "image_id": 486606, "question": "nhóm có bao nhiêu tay vợt nam bắt tay", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.856686, "confidences": [ 0.856686, 0.077233, 0.051448, 0.00538, 0.005094, 0.000892, 0.000342, 0.000328, 0.000216, 0.00017 ], "gate_score_top1": 0.909668, "gate_scores": [ 0.909668, 0.862793, 0.862305, 0.758301, 0.734375, 0.520996, 0.550781, 0.521973, 0.452148, 0.473145 ] }, { "question_id": "10091441", "image_id": 578849, "question": "tay đua trượt tuyết đeo kính bảo hộ cái gì", "ground_truth": "mắt", "ground_truth_normalized": "mắt", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "núi", "trượt tuyết", "đồi", "cây sào", "cây", "mắt", "mũ", "áo sơ mi", "quần short" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.548444, "confidences": [ 0.548444, 0.085431, 0.072788, 0.029409, 0.012873, 0.012823, 0.008592, 0.008377, 0.007931, 0.007553 ], "gate_score_top1": 0.829102, "gate_scores": [ 0.829102, 0.72168, 0.739258, 0.71582, 0.637207, 0.632812, 0.432373, 0.59668, 0.557129, 0.475342 ] }, { "question_id": "10029481", "image_id": 411208, "question": "con chó nâu đang nằm ở đâu", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái ghế", "giường", "phòng ngủ", "chung cư", "nhà ở", "cửa sổ", "văn phòng", "nhiều cái ghế", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.491239, "confidences": [ 0.491239, 0.457885, 0.006232, 0.005697, 0.004233, 0.003395, 0.002244, 0.001916, 0.001128, 0.000943 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.867188, 0.72998, 0.750488, 0.654297, 0.725586, 0.62207, 0.623535, 0.502441, 0.562012 ] }, { "question_id": "10027831", "image_id": 147520, "question": "nơi nào hai người đàn ông di chuyển bên cạnh nhau", "ground_truth": "trượt tuyết", "ground_truth_normalized": "trượt tuyết", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "đồi", "trượt tuyết", "núi", "cây", "đường", "trang thiết bị", "bầu trời", "cây sào", "bức ảnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.26208, "confidences": [ 0.26208, 0.231285, 0.207322, 0.078384, 0.012139, 0.011537, 0.010044, 0.00673, 0.00473, 0.004523 ], "gate_score_top1": 0.770996, "gate_scores": [ 0.770996, 0.823242, 0.826172, 0.723145, 0.66748, 0.688477, 0.632324, 0.575195, 0.568359, 0.544434 ] }, { "question_id": "10041251", "image_id": 162892, "question": "hai giường nằm cạnh nhau ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "hành lang", "tòa nhà", "giường", "chung cư", "ô cửa", "cửa sổ", "bảo tàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.667978, "confidences": [ 0.667978, 0.294107, 0.008086, 0.003391, 0.00197, 0.001574, 0.001367, 0.001328, 0.001154, 0.00076 ], "gate_score_top1": 0.88916, "gate_scores": [ 0.88916, 0.910156, 0.82666, 0.706055, 0.620605, 0.565918, 0.671387, 0.577148, 0.66748, 0.615723 ] }, { "question_id": "10055221", "image_id": 555597, "question": "bao phủ một khu vực với các yếu tố kiến ​​trúc dọc theo đường phố", "ground_truth": "các tòa nhà", "ground_truth_normalized": "các tòa nhà", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "các tòa nhà", "đồng hồ", "lá cờ", "tòa tháp", "xe ô tô", "bức ảnh", "cầu", "đường phố", "bầu trời" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.491711, "confidences": [ 0.491711, 0.071254, 0.025706, 0.020736, 0.018086, 0.017124, 0.016308, 0.013813, 0.010716, 0.00913 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.675293, 0.638184, 0.67041, 0.63623, 0.65918, 0.589355, 0.625, 0.498291, 0.420654 ] }, { "question_id": "10104991", "image_id": 113905, "question": "có bao nhiêu cái hotdog trên đĩa của người này", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "sáu", "một", "tám", "bảy", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.638357, "confidences": [ 0.638357, 0.294553, 0.03477, 0.015429, 0.005416, 0.004687, 0.000982, 0.000954, 0.000259, 0.000255 ], "gate_score_top1": 0.883789, "gate_scores": [ 0.883789, 0.878906, 0.803711, 0.721191, 0.561035, 0.671875, 0.539062, 0.566406, 0.450928, 0.445068 ] }, { "question_id": "10059301", "image_id": 523677, "question": "những gì có nhiều loại pizza khác nhau", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "quán ăn", "tạp dề", "cái mâm", "pizza", "cửa tiệm", "lò vi sóng", "phòng bếp", "cửa sổ", "bánh ngọt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.252238, "confidences": [ 0.252238, 0.077079, 0.067492, 0.048518, 0.038008, 0.024636, 0.021954, 0.020225, 0.016767, 0.01329 ], "gate_score_top1": 0.748535, "gate_scores": [ 0.748535, 0.726074, 0.741211, 0.737793, 0.707031, 0.691895, 0.59668, 0.606445, 0.572754, 0.550293 ] }, { "question_id": "10097981", "image_id": 524627, "question": "người phụ nữ mặc gì khi ăn bánh rán", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "áo sơ mi", "bữa ăn", "sandwich", "cái mâm", "quán ăn", "rượu", "đĩa ăn", "con chó", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.56473, "confidences": [ 0.56473, 0.050221, 0.022769, 0.014332, 0.012428, 0.01084, 0.008864, 0.0085, 0.007664, 0.006937 ], "gate_score_top1": 0.816406, "gate_scores": [ 0.816406, 0.633789, 0.681641, 0.722168, 0.664551, 0.572266, 0.484619, 0.597656, 0.640625, 0.641602 ] }, { "question_id": "10072501", "image_id": 350051, "question": "con ngựa nâu và ngựa trắng đang ăn gì", "ground_truth": "hay", "ground_truth_normalized": "hay", "predicted_top1": "bãi cỏ", "predicted_topk": [ "bãi cỏ", "chuồng", "lồng", "cái nồi", "bát", "chuồng trại", "hay", "cái rổ", "rào chắn", "chảo" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.157657, "confidences": [ 0.157657, 0.054166, 0.047802, 0.046603, 0.027882, 0.026762, 0.025837, 0.025787, 0.018977, 0.015368 ], "gate_score_top1": 0.742676, "gate_scores": [ 0.742676, 0.680176, 0.756348, 0.663574, 0.647461, 0.648926, 0.477783, 0.76416, 0.603027, 0.601562 ] }, { "question_id": "10008091", "image_id": 345797, "question": "màu của tường là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu tía", "màu cam", "màu trắng", "màu xanh lá", "màu nâu", "màu xanh dương", "màu xám", "màu vàng", "màu đen" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.402906, "confidences": [ 0.402906, 0.393572, 0.139785, 0.017841, 0.00955, 0.006798, 0.00577, 0.005172, 0.004546, 0.001888 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.854492, 0.852539, 0.740234, 0.689453, 0.678223, 0.712402, 0.736328, 0.69873, 0.708008 ] }, { "question_id": "10065871", "image_id": 434990, "question": "điều gì ở bên cạnh một con đường gần một chiếc xe cảnh sát", "ground_truth": "thân cây", "ground_truth_normalized": "thân cây", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe cộ", "xe buýt", "phương tiện giao thông", "xe tải", "động cơ", "tàu hỏa", "xe điện", "bầu trời", "xe đẩy" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.721759, "confidences": [ 0.721759, 0.036643, 0.030497, 0.029157, 0.019884, 0.010811, 0.007372, 0.004107, 0.0037, 0.003046 ], "gate_score_top1": 0.844238, "gate_scores": [ 0.844238, 0.717285, 0.754883, 0.755859, 0.689453, 0.62207, 0.671387, 0.550781, 0.491455, 0.652344 ] }, { "question_id": "10113521", "image_id": 576695, "question": "có bao nhiêu quả cam có những khuôn mặt ngộ nghĩnh được vẽ trên chúng", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "tám", "chín", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.426688, "confidences": [ 0.426688, 0.367828, 0.117565, 0.04325, 0.014318, 0.005629, 0.002765, 0.002498, 0.001182, 0.000718 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.836426, 0.758789, 0.771484, 0.697266, 0.623047, 0.616211, 0.592285, 0.558594, 0.472168 ] }, { "question_id": "10054161", "image_id": 517029, "question": "con hươu cao cổ đang ăn gì trên cây", "ground_truth": "lá", "ground_truth_normalized": "lá", "predicted_top1": "cây", "predicted_topk": [ "cây", "lá", "bãi cỏ", "vườn bách thú", "đồi", "ngựa rằn", "lồng", "chuồng", "rào chắn", "cỏ khô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.361678, "confidences": [ 0.361678, 0.257472, 0.063591, 0.046706, 0.01297, 0.012042, 0.007897, 0.007052, 0.006821, 0.005535 ], "gate_score_top1": 0.842773, "gate_scores": [ 0.842773, 0.749512, 0.713867, 0.769531, 0.587402, 0.617676, 0.678711, 0.545898, 0.595215, 0.488525 ] }, { "question_id": "10074601", "image_id": 472216, "question": "người trượt tuyết trượt những gì đang đi trên một con đường tuyết", "ground_truth": "cây sào", "ground_truth_normalized": "cây sào", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "cây", "đồi", "núi", "trượt tuyết", "cây sào", "xe đạp", "bức ảnh", "mũ", "mắt" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.591251, "confidences": [ 0.591251, 0.038393, 0.030194, 0.02842, 0.028144, 0.018349, 0.008222, 0.007861, 0.007214, 0.006744 ], "gate_score_top1": 0.82959, "gate_scores": [ 0.82959, 0.689941, 0.715332, 0.681641, 0.671387, 0.617676, 0.669922, 0.586426, 0.585449, 0.416992 ] }, { "question_id": "10104651", "image_id": 395853, "question": "có bao nhiêu người đang chụp ảnh nhóm trong trang phục công sở", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "năm", "bốn", "bảy", "tám", "chín", "ba", "mười", "đĩa ăn", "một" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.359966, "confidences": [ 0.359966, 0.350257, 0.18602, 0.062309, 0.006145, 0.004191, 0.002464, 0.001268, 0.000601, 0.000435 ], "gate_score_top1": 0.799805, "gate_scores": [ 0.799805, 0.819824, 0.803711, 0.75, 0.653809, 0.603516, 0.573242, 0.490234, 0.575195, 0.437988 ] }, { "question_id": "10031131", "image_id": 293385, "question": "bánh sandwich trên bàn ở đâu", "ground_truth": "tách", "ground_truth_normalized": "tách", "predicted_top1": "thùng chứa", "predicted_topk": [ "thùng chứa", "tách", "cái rổ", "bát", "cái mâm", "giấy bạc", "cái nồi", "cái lọ", "cái túi", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.33262, "confidences": [ 0.33262, 0.201744, 0.114951, 0.066011, 0.059869, 0.018082, 0.014932, 0.012092, 0.006613, 0.006549 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.76709, 0.807617, 0.763672, 0.768555, 0.736328, 0.648926, 0.708984, 0.685547, 0.662598 ] }, { "question_id": "10068641", "image_id": 563927, "question": "cô gái trẻ xinh đẹp đung đưa những gì", "ground_truth": "vợt", "ground_truth_normalized": "vợt", "predicted_top1": "quả bóng", "predicted_topk": [ "quả bóng", "vợt", "nón", "áo sơ mi", "dĩa nhựa", "mũ", "sân vận động", "mặt trời", "quần short", "gậy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.482762, "confidences": [ 0.482762, 0.373049, 0.012228, 0.0105, 0.007008, 0.006369, 0.00358, 0.003573, 0.002516, 0.002413 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.812988, 0.610352, 0.638184, 0.64209, 0.625977, 0.574707, 0.510254, 0.374512, 0.585449 ] }, { "question_id": "10088861", "image_id": 456377, "question": "những gì cho thấy những cái đầu bông cải xanh và mầm brussels nằm trên đỉnh", "ground_truth": "mặt", "ground_truth_normalized": "mặt", "predicted_top1": "rau", "predicted_topk": [ "rau", "bông cải xanh", "cà rốt", "cây", "bát", "hoa quả", "chén đĩa", "mặt", "đĩa ăn", "cái kệ" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.315919, "confidences": [ 0.315919, 0.269166, 0.075331, 0.031403, 0.023474, 0.01421, 0.009466, 0.009337, 0.009319, 0.009157 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.833984, 0.780762, 0.73584, 0.671387, 0.70752, 0.708496, 0.583496, 0.613281, 0.672363 ] }, { "question_id": "10118081", "image_id": 531144, "question": "có bao nhiêu đứa trẻ trong một bức ảnh đen trắng", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "chín", "tám", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.600812, "confidences": [ 0.600812, 0.233451, 0.12017, 0.017448, 0.01402, 0.00238, 0.002271, 0.000829, 0.000799, 0.000294 ], "gate_score_top1": 0.878418, "gate_scores": [ 0.878418, 0.837402, 0.800781, 0.735352, 0.737793, 0.65625, 0.629883, 0.574707, 0.52832, 0.517578 ] }, { "question_id": "10045591", "image_id": 304765, "question": "ba người đàn ông đang ngồi ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "quán ăn", "predicted_topk": [ "quán ăn", "cái ghế", "phòng", "gian hàng", "cửa tiệm", "quán bar", "nhà ở", "văn phòng", "thư viện", "lớp học" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.404241, "confidences": [ 0.404241, 0.205661, 0.149294, 0.025943, 0.022761, 0.016981, 0.014188, 0.012619, 0.009619, 0.005069 ], "gate_score_top1": 0.824707, "gate_scores": [ 0.824707, 0.765625, 0.788086, 0.658691, 0.714355, 0.62207, 0.705566, 0.736816, 0.637695, 0.711426 ] }, { "question_id": "10063721", "image_id": 474862, "question": "những gì bị ngập lụt trên bờ của nó vài inch và mọi người đang ngồi trên băng ghế", "ground_truth": "hồ", "ground_truth_normalized": "hồ", "predicted_top1": "băng ghế", "predicted_topk": [ "băng ghế", "con ngựa", "hồ", "con thuyền", "con chó", "con chim", "sân vườn", "cái ghế", "gia súc", "chiếc ô" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.589617, "confidences": [ 0.589617, 0.105712, 0.018227, 0.015379, 0.012237, 0.009129, 0.007307, 0.007, 0.004792, 0.004677 ], "gate_score_top1": 0.788574, "gate_scores": [ 0.788574, 0.710938, 0.504395, 0.572754, 0.662598, 0.599609, 0.647949, 0.638672, 0.526367, 0.544434 ] }, { "question_id": "10033001", "image_id": 477061, "question": "ghế được gấp lại ở đâu", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe ô tô", "phương tiện giao thông", "đường phố", "gương", "ga-ra", "đường", "xe cộ", "cửa sổ", "ảnh chụp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.341918, "confidences": [ 0.341918, 0.289051, 0.20577, 0.01403, 0.009681, 0.008378, 0.008152, 0.005952, 0.003561, 0.003425 ], "gate_score_top1": 0.829102, "gate_scores": [ 0.829102, 0.719238, 0.815918, 0.661133, 0.728027, 0.630371, 0.693359, 0.670898, 0.568848, 0.469482 ] }, { "question_id": "10078371", "image_id": 523660, "question": "người phụ nữ mặc tạp dề cầm cái gì bên bồn rửa bát", "ground_truth": "cái thìa", "ground_truth_normalized": "cái thìa", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "dao", "cây kéo", "quầy tính tiền", "mũ", "cà rốt", "tạp dề", "máy xay", "bếp", "bàn chải" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.105143, "confidences": [ 0.105143, 0.100133, 0.068552, 0.04383, 0.040142, 0.035564, 0.024017, 0.020826, 0.019488, 0.014624 ], "gate_score_top1": 0.657715, "gate_scores": [ 0.657715, 0.75293, 0.687988, 0.693848, 0.626953, 0.643555, 0.519043, 0.63623, 0.658203, 0.726562 ] }, { "question_id": "10065681", "image_id": 576576, "question": "những gì được chụp bằng ống kính", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "bồn tắm", "tường", "khăn", "nhà ở", "cửa", "bức ảnh", "bồn tiểu", "phòng" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.582694, "confidences": [ 0.582694, 0.074662, 0.061897, 0.034994, 0.027147, 0.024863, 0.021308, 0.016337, 0.013386, 0.012308 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.760254, 0.805176, 0.66748, 0.719727, 0.793457, 0.655762, 0.600586, 0.649902, 0.741211 ] }, { "question_id": "10075091", "image_id": 573778, "question": "những gì đang ngồi trên cỏ", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "hươu cao cổ", "predicted_topk": [ "hươu cao cổ", "ngựa rằn", "ngựa vằn", "cây", "màu xanh lá", "lá", "con chim", "vườn bách thú", "con ngựa", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.928215, "confidences": [ 0.928215, 0.058877, 0.00203, 0.001871, 0.000592, 0.00052, 0.000357, 0.000242, 0.000221, 0.000204 ], "gate_score_top1": 0.90918, "gate_scores": [ 0.90918, 0.831543, 0.720215, 0.64502, 0.599609, 0.508789, 0.592773, 0.616699, 0.578613, 0.637207 ] }, { "question_id": "10017831", "image_id": 45543, "question": "màu của cam là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu vàng", "màu cam", "màu đen", "màu nâu", "màu xanh lá", "màu xám", "màu trắng", "màu tía", "màu xanh dương" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.699235, "confidences": [ 0.699235, 0.251275, 0.030011, 0.004711, 0.001885, 0.001696, 0.00136, 0.00067, 0.00059, 0.000574 ], "gate_score_top1": 0.878418, "gate_scores": [ 0.878418, 0.848633, 0.845215, 0.688477, 0.657715, 0.607422, 0.645508, 0.628906, 0.637207, 0.658691 ] }, { "question_id": "10116381", "image_id": 525180, "question": "có bao nhiêu người đàn ông đang chuẩn bị thức ăn trong nhà bếp kim loại chuyên nghiệp", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "tám", "bảy", "cái ghế", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.711415, "confidences": [ 0.711415, 0.247787, 0.024921, 0.009459, 0.000496, 0.000346, 0.000189, 0.000185, 0.00012, 0.000111 ], "gate_score_top1": 0.891602, "gate_scores": [ 0.891602, 0.866211, 0.777344, 0.778809, 0.410156, 0.575195, 0.446777, 0.430908, 0.516113, 0.401367 ] }, { "question_id": "10075671", "image_id": 416326, "question": "những gì trong giỏ lưới", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "rau", "predicted_topk": [ "rau", "bông cải xanh", "cà rốt", "cây", "hoa quả", "táo", "những quả cam", "giỏ", "cái túi", "chuối" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.438216, "confidences": [ 0.438216, 0.161211, 0.095514, 0.03288, 0.029647, 0.021064, 0.007423, 0.004969, 0.004428, 0.004402 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.821289, 0.803223, 0.754395, 0.713867, 0.716797, 0.695312, 0.504883, 0.563477, 0.559082 ] }, { "question_id": "10026741", "image_id": 329011, "question": "một con chó đang tắm ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "bồn tắm", "predicted_topk": [ "bồn tắm", "chậu", "phòng tắm", "gương", "vòi hoa sen", "bát", "bàn chải", "hồ bơi", "quầy tính tiền", "khăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.534479, "confidences": [ 0.534479, 0.416252, 0.014411, 0.004762, 0.002184, 0.001564, 0.00151, 0.0011, 0.000971, 0.000717 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.864258, 0.762695, 0.724609, 0.626465, 0.554688, 0.602539, 0.572754, 0.563965, 0.618164 ] }, { "question_id": "10078781", "image_id": 494584, "question": "những gì bay lên trên đại dương với những ngọn núi trong nền", "ground_truth": "hải âu", "ground_truth_normalized": "hải âu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vẹt", "con vịt", "diều", "máy bay", "con ngựa", "bức tượng", "con chó", "dĩa nhựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.60422, "confidences": [ 0.60422, 0.322155, 0.005279, 0.00381, 0.003014, 0.002771, 0.002096, 0.001349, 0.001329, 0.000966 ], "gate_score_top1": 0.850586, "gate_scores": [ 0.850586, 0.821777, 0.689453, 0.614258, 0.611816, 0.567871, 0.523926, 0.476807, 0.507324, 0.489258 ] }, { "question_id": "10111031", "image_id": 248645, "question": "có bao nhiêu lát bánh pizza nằm trên khay kim loại tròn", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.407519, "confidences": [ 0.407519, 0.359634, 0.138111, 0.030103, 0.027841, 0.016431, 0.005011, 0.004992, 0.001149, 0.000898 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.86084, 0.844238, 0.743652, 0.748535, 0.623047, 0.628906, 0.620605, 0.494141, 0.507812 ] }, { "question_id": "10036371", "image_id": 311167, "question": "con mèo đang nằm ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "bồn tắm", "giường", "bát", "cái rổ", "hồ bơi", "phòng tắm", "con mèo", "màu trắng", "cái túi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.760992, "confidences": [ 0.760992, 0.133799, 0.032789, 0.027828, 0.002352, 0.002293, 0.001239, 0.001182, 0.000854, 0.000755 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.811523, 0.756348, 0.647949, 0.59668, 0.600098, 0.570312, 0.635254, 0.641602, 0.449219 ] }, { "question_id": "10045841", "image_id": 62292, "question": "một giường phụ được thiết lập ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "hành lang", "ô cửa", "tòa nhà", "cửa sổ", "giường", "gương", "chung cư" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.550509, "confidences": [ 0.550509, 0.39037, 0.01605, 0.005418, 0.002362, 0.002285, 0.00213, 0.001917, 0.001481, 0.001436 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.905273, 0.839844, 0.693848, 0.612793, 0.62207, 0.672852, 0.563965, 0.742676, 0.652832 ] }, { "question_id": "10114841", "image_id": 290192, "question": "có bao nhiêu điểm tương phản đánh dấu sự đi qua của các máy bay phản lực này trong sự hình thành", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "bảy", "sáu", "chín", "năm", "tám", "ba", "một", "mười", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.325023, "confidences": [ 0.325023, 0.287954, 0.261163, 0.058046, 0.022731, 0.010126, 0.003005, 0.001994, 0.001612, 0.000816 ], "gate_score_top1": 0.813965, "gate_scores": [ 0.813965, 0.83252, 0.820801, 0.768555, 0.717773, 0.668945, 0.59082, 0.538086, 0.517578, 0.501953 ] }, { "question_id": "10110901", "image_id": 97099, "question": "có bao nhiêu con diều sặc sỡ tất cả đều được xâu chuỗi theo cùng một đường", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "bốn", "năm", "chín", "tám", "ba", "một", "mười", "diều" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.380679, "confidences": [ 0.380679, 0.217753, 0.195957, 0.138413, 0.013598, 0.009605, 0.007293, 0.00607, 0.002964, 0.00164 ], "gate_score_top1": 0.830566, "gate_scores": [ 0.830566, 0.799805, 0.779297, 0.801758, 0.730469, 0.64502, 0.622559, 0.600586, 0.583496, 0.592773 ] }, { "question_id": "10037471", "image_id": 570951, "question": "hai đầu bếp bắt đầu công việc chuẩn bị ở đâu", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "nhà ở", "phòng", "tạp dề", "lò vi sóng", "cửa tiệm", "bếp", "cửa sổ", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.936536, "confidences": [ 0.936536, 0.02037, 0.008491, 0.006435, 0.005859, 0.00409, 0.001209, 0.000613, 0.000599, 0.000492 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.813965, 0.756348, 0.725586, 0.68457, 0.680664, 0.599121, 0.570801, 0.596191, 0.577637 ] }, { "question_id": "10015391", "image_id": 479720, "question": "màu sắc của chất liệu là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu nâu", "màu xám", "màu xanh lá", "màu cam", "màu đen", "màu vàng", "màu đỏ", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.698587, "confidences": [ 0.698587, 0.243319, 0.019434, 0.009144, 0.0077, 0.00509, 0.003609, 0.003273, 0.002969, 0.001016 ], "gate_score_top1": 0.90918, "gate_scores": [ 0.90918, 0.864746, 0.84082, 0.709961, 0.770996, 0.773926, 0.749512, 0.732422, 0.720703, 0.708984 ] }, { "question_id": "10099481", "image_id": 348469, "question": "người đàn ông cầm một con dơi và mặc những gì", "ground_truth": "mũ", "ground_truth_normalized": "mũ", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "mũ", "áo sơ mi", "quả bóng", "nón", "găng tay", "sân vận động", "lá cờ", "hộp", "cà vạt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.545731, "confidences": [ 0.545731, 0.109153, 0.03649, 0.033682, 0.017543, 0.008483, 0.008254, 0.005957, 0.004479, 0.004418 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.741211, 0.66748, 0.701172, 0.724121, 0.641113, 0.612305, 0.560547, 0.516602, 0.649414 ] }, { "question_id": "10043411", "image_id": 533784, "question": "nhiều ván trượt tuyết nằm ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa tiệm", "tòa nhà", "cửa sổ", "bảo tàng", "phòng", "hộp", "kho", "văn phòng", "lớp học" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.408666, "confidences": [ 0.408666, 0.236518, 0.065679, 0.033155, 0.031822, 0.02664, 0.015002, 0.008449, 0.007723, 0.006909 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.837891, 0.757324, 0.72998, 0.78418, 0.768066, 0.73584, 0.769043, 0.653809, 0.699219 ] }, { "question_id": "10030531", "image_id": 240967, "question": "xe bán tải có tủ đông và 4 bánh ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "đường", "predicted_topk": [ "đường", "đường phố", "ga-ra", "phương tiện giao thông", "xe tải", "áo vest", "phòng", "ảnh chụp", "cửa tiệm", "xe đẩy" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.199128, "confidences": [ 0.199128, 0.185608, 0.05124, 0.043402, 0.035841, 0.032762, 0.019035, 0.018022, 0.016897, 0.016441 ], "gate_score_top1": 0.830566, "gate_scores": [ 0.830566, 0.806152, 0.756348, 0.589355, 0.703125, 0.604492, 0.678223, 0.543457, 0.56543, 0.687988 ] }, { "question_id": "10110131", "image_id": 577403, "question": "có bao nhiêu người cưỡi ván trượt, trong khi một người khác đi cùng với nhau, mang theo một chiếc ván trượt", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "tám", "mười", "đường phố", "năm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.66713, "confidences": [ 0.66713, 0.305434, 0.020704, 0.000664, 0.000287, 0.000143, 0.000138, 0.00012, 8.8e-05, 8.6e-05 ], "gate_score_top1": 0.885742, "gate_scores": [ 0.885742, 0.880859, 0.805664, 0.636719, 0.44458, 0.41333, 0.413574, 0.397217, 0.435303, 0.483398 ] }, { "question_id": "10090151", "image_id": 393840, "question": "những gì đang ở trên sông", "ground_truth": "ngân hàng", "ground_truth_normalized": "ngân hàng", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "con cừu", "bến du thuyền", "gia súc", "ca nô", "con bò", "thuyền buồm", "con chó", "cầu", "hàng hoá" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.466054, "confidences": [ 0.466054, 0.0305, 0.029218, 0.019387, 0.019274, 0.015916, 0.010623, 0.009663, 0.00956, 0.008998 ], "gate_score_top1": 0.737793, "gate_scores": [ 0.737793, 0.606445, 0.63916, 0.54541, 0.427979, 0.575195, 0.505859, 0.504395, 0.512695, 0.437988 ] }, { "question_id": "10062851", "image_id": 497661, "question": "những gì đang ngồi bên cạnh một quả chuối trên một quầy", "ground_truth": "những quả cam", "ground_truth_normalized": "những quả cam", "predicted_top1": "chuối", "predicted_topk": [ "chuối", "táo", "những quả cam", "hoa quả", "cà rốt", "quả táo", "bát", "rau", "quả cam", "lát cắt" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.604384, "confidences": [ 0.604384, 0.097133, 0.054487, 0.046062, 0.025788, 0.013669, 0.011993, 0.010298, 0.006407, 0.005501 ], "gate_score_top1": 0.837402, "gate_scores": [ 0.837402, 0.762207, 0.71582, 0.733398, 0.760254, 0.726562, 0.668457, 0.691406, 0.592773, 0.620117 ] }, { "question_id": "10036191", "image_id": 526793, "question": "hai giường đơn đặt ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "gương", "hành lang", "phòng tắm", "ô cửa", "cửa sổ", "giường", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.491147, "confidences": [ 0.491147, 0.379529, 0.021579, 0.019193, 0.011065, 0.009861, 0.005156, 0.0042, 0.003743, 0.002498 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.882812, 0.772461, 0.824219, 0.67041, 0.706543, 0.608887, 0.645508, 0.60498, 0.558105 ] }, { "question_id": "10117451", "image_id": 28039, "question": "có bao nhiêu con ngựa vằn đang uống nước cùng nhau", "ground_truth": "tám", "ground_truth_normalized": "tám", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "tám", "chín", "ba", "mười", "một", "bãi cỏ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.301169, "confidences": [ 0.301169, 0.295344, 0.246769, 0.076147, 0.012901, 0.00613, 0.005647, 0.003828, 0.002045, 0.000843 ], "gate_score_top1": 0.797363, "gate_scores": [ 0.797363, 0.814941, 0.819336, 0.744141, 0.629883, 0.681641, 0.57666, 0.555664, 0.509766, 0.485596 ] }, { "question_id": "10030021", "image_id": 263687, "question": "người đàn ông trẻ mỉm cười ở đâu", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "cái ghế", "phòng", "thư viện", "cái bàn", "lớp học", "cửa tiệm", "phòng ngủ", "chung cư", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.762384, "confidences": [ 0.762384, 0.076975, 0.051276, 0.019769, 0.008081, 0.00723, 0.006172, 0.004596, 0.003862, 0.003643 ], "gate_score_top1": 0.883789, "gate_scores": [ 0.883789, 0.733398, 0.806152, 0.697266, 0.662598, 0.696289, 0.744141, 0.678223, 0.649414, 0.71582 ] }, { "question_id": "10062331", "image_id": 459898, "question": "những gì đi dọc theo con trâu thông qua địa hình khô", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "bãi cỏ", "con ngựa", "hươu cao cổ", "ba", "đồi", "gia súc", "bò đực", "lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.629795, "confidences": [ 0.629795, 0.329296, 0.01034, 0.001284, 0.00106, 0.000911, 0.000835, 0.000749, 0.000636, 0.00059 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.8125, 0.684082, 0.63623, 0.624512, 0.65918, 0.427002, 0.537109, 0.47583, 0.424316 ] }, { "question_id": "10056741", "image_id": 445662, "question": "những gì được thắp sáng trong chiếc cốc thủy tinh lớn với những ngọn nến khác xung quanh nó", "ground_truth": "nến", "ground_truth_normalized": "nến", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "nến", "bông hoa", "chai", "cây", "hoa hồng", "bình hoa", "cái lọ", "tách", "cái nồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.429525, "confidences": [ 0.429525, 0.16113, 0.088292, 0.037826, 0.031728, 0.018435, 0.01447, 0.010753, 0.010241, 0.008523 ], "gate_score_top1": 0.759277, "gate_scores": [ 0.759277, 0.760254, 0.848633, 0.722656, 0.737305, 0.682617, 0.587891, 0.643555, 0.744141, 0.566406 ] }, { "question_id": "10001781", "image_id": 458960, "question": "màu của áo là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xanh dương", "màu xám", "màu nâu", "màu trắng", "màu tía", "màu cam", "màu xanh lá", "màu đỏ", "màu vàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.478963, "confidences": [ 0.478963, 0.378891, 0.069271, 0.028877, 0.019387, 0.00496, 0.002315, 0.001542, 0.00148, 0.000417 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.862305, 0.825684, 0.80957, 0.794434, 0.782227, 0.706055, 0.616699, 0.687988, 0.631836 ] }, { "question_id": "10067541", "image_id": 431746, "question": "người đàn ông đang giữ một điện thoại thông minh là gì", "ground_truth": "trường hợp", "ground_truth_normalized": "trường hợp", "predicted_top1": "điện thoại", "predicted_topk": [ "điện thoại", "chuối", "nón", "máy ảnh", "xe buýt", "thiết bị", "bàn chải", "mặt nạ", "áo sơ mi", "mũ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.379433, "confidences": [ 0.379433, 0.051753, 0.049383, 0.025321, 0.019415, 0.016769, 0.016285, 0.010161, 0.008548, 0.008253 ], "gate_score_top1": 0.794434, "gate_scores": [ 0.794434, 0.667969, 0.706543, 0.59668, 0.516113, 0.606445, 0.567871, 0.508789, 0.550781, 0.510254 ] }, { "question_id": "10102331", "image_id": 62029, "question": "có bao nhiêu cô gái mười mấy tuổi đang tạo dáng trên cánh đồng với những cây vợt tennis", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bảy", "bốn", "chín", "tám", "mười", "ba", "sân vận động", "đồng hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.393707, "confidences": [ 0.393707, 0.380106, 0.088537, 0.087164, 0.009703, 0.005133, 0.002318, 0.000798, 0.000611, 0.000514 ], "gate_score_top1": 0.824707, "gate_scores": [ 0.824707, 0.835938, 0.777832, 0.761719, 0.65625, 0.63623, 0.53418, 0.456787, 0.564453, 0.521973 ] }, { "question_id": "10088301", "image_id": 423189, "question": "những gì ngồi trên bàn trong một văn phòng", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "cái bàn", "predicted_topk": [ "cái bàn", "máy tính", "văn phòng", "laptop", "bàn phím", "thư viện", "cái ghế", "bức tranh", "đồng hồ", "trang thiết bị" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.454892, "confidences": [ 0.454892, 0.327646, 0.062046, 0.015384, 0.011016, 0.00806, 0.007706, 0.006119, 0.004637, 0.003228 ], "gate_score_top1": 0.849121, "gate_scores": [ 0.849121, 0.838867, 0.78125, 0.749512, 0.711426, 0.699219, 0.585449, 0.602051, 0.665527, 0.520508 ] }, { "question_id": "10117061", "image_id": 64348, "question": "có bao nhiêu con cừu đứng trên đồng cỏ với nền biển", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "năm", "sáu", "tám", "bảy", "mười", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.858268, "confidences": [ 0.858268, 0.126577, 0.009685, 0.002111, 0.000183, 0.000146, 7.7e-05, 6.5e-05, 5.8e-05, 5.2e-05 ], "gate_score_top1": 0.900391, "gate_scores": [ 0.900391, 0.861816, 0.785156, 0.740723, 0.558594, 0.374756, 0.42749, 0.390869, 0.395752, 0.412354 ] }, { "question_id": "10042411", "image_id": 290174, "question": "người đàn ông đứng ở đâu", "ground_truth": "vạch kẻ đường", "ground_truth_normalized": "vạch kẻ đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "xe ô tô", "đường", "áo vest", "vạch kẻ đường", "ảnh chụp", "gương", "phương tiện giao thông", "cửa sổ", "xe buýt" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.372987, "confidences": [ 0.372987, 0.233409, 0.089987, 0.045248, 0.037659, 0.020676, 0.009319, 0.007606, 0.006088, 0.005878 ], "gate_score_top1": 0.754883, "gate_scores": [ 0.754883, 0.817871, 0.786621, 0.68457, 0.670898, 0.562988, 0.664551, 0.647949, 0.635254, 0.635742 ] }, { "question_id": "10064641", "image_id": 416326, "question": "những gì được tải với rau và trái cây tươi", "ground_truth": "giỏ", "ground_truth_normalized": "giỏ", "predicted_top1": "rau", "predicted_topk": [ "rau", "cà rốt", "hoa quả", "bông cải xanh", "cây", "táo", "cái rổ", "những quả cam", "cái túi", "thùng chứa" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.34612, "confidences": [ 0.34612, 0.138757, 0.091355, 0.069771, 0.01813, 0.018059, 0.017032, 0.016125, 0.013447, 0.012831 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.803711, 0.747559, 0.78125, 0.731445, 0.699707, 0.729492, 0.742188, 0.651367, 0.703613 ] }, { "question_id": "10082301", "image_id": 461838, "question": "người lướt sóng đang giữ một ván lướt sóng trắng mang gì", "ground_truth": "áo ba lỗ", "ground_truth_normalized": "áo ba lỗ", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "cây sào", "vạch kẻ đường", "diều", "áo ba lỗ", "dĩa nhựa", "áo sơ mi", "ca nô" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.773547, "confidences": [ 0.773547, 0.131822, 0.014532, 0.003791, 0.003034, 0.002757, 0.002077, 0.001794, 0.001777, 0.00176 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.768555, 0.689941, 0.619141, 0.564453, 0.687988, 0.500488, 0.680176, 0.506348, 0.436035 ] }, { "question_id": "10052391", "image_id": 372070, "question": "chuyến tàu đi xuống đường ray xe lửa là gì", "ground_truth": "các tòa nhà", "ground_truth_normalized": "các tòa nhà", "predicted_top1": "đường sắt", "predicted_topk": [ "đường sắt", "xe ô tô", "động cơ", "hàng hoá", "các tòa nhà", "cây", "trạm", "tàu hỏa", "cầu", "đồi" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.203532, "confidences": [ 0.203532, 0.09282, 0.076352, 0.066077, 0.065819, 0.042083, 0.035299, 0.027545, 0.024214, 0.022176 ], "gate_score_top1": 0.756348, "gate_scores": [ 0.756348, 0.720215, 0.637207, 0.61084, 0.679688, 0.648926, 0.67041, 0.677734, 0.646973, 0.520508 ] }, { "question_id": "10052361", "image_id": 528866, "question": "những gì chứa nhiều rau", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "rau", "predicted_topk": [ "rau", "bát", "cà rốt", "chén đĩa", "món ăn", "bông cải xanh", "hoa quả", "thùng chứa", "đĩa ăn", "quầy tính tiền" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.38666, "confidences": [ 0.38666, 0.130531, 0.060702, 0.053779, 0.043213, 0.022683, 0.017155, 0.015169, 0.014992, 0.013413 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.735352, 0.796875, 0.766602, 0.751953, 0.72998, 0.694336, 0.700195, 0.742188, 0.633789 ] }, { "question_id": "10037031", "image_id": 363146, "question": "đứa trẻ đang kiểm tra bột pizza ở đâu", "ground_truth": "tạp dề", "ground_truth_normalized": "tạp dề", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "tạp dề", "phòng", "lò vi sóng", "cái ghế", "chảo", "cửa tiệm", "nhà ở", "bát" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.451575, "confidences": [ 0.451575, 0.350316, 0.052478, 0.017373, 0.013504, 0.008451, 0.007342, 0.006517, 0.006379, 0.005888 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.877441, 0.717773, 0.717773, 0.69873, 0.640625, 0.677246, 0.652832, 0.711426, 0.720703 ] }, { "question_id": "10062251", "image_id": 526371, "question": "người mặc những gì trong tuyết trên ván trượt", "ground_truth": "nón", "ground_truth_normalized": "nón", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "trượt tuyết", "đồi", "núi", "cây", "cây sào", "mũ", "áo sơ mi", "nón", "quần short" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.658493, "confidences": [ 0.658493, 0.032276, 0.025632, 0.021417, 0.014183, 0.012965, 0.011089, 0.008876, 0.00842, 0.005918 ], "gate_score_top1": 0.842285, "gate_scores": [ 0.842285, 0.693359, 0.721191, 0.678711, 0.65332, 0.649414, 0.629883, 0.587891, 0.635254, 0.450195 ] }, { "question_id": "10089161", "image_id": 402639, "question": "những gì chứa đầy đồ nội thất và một cửa sổ được bao phủ trong rèm cửa", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "giường", "phòng", "cái kệ", "cây", "nhiều cái ghế", "cửa sổ", "nhà ở", "cửa", "chung cư" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.745754, "confidences": [ 0.745754, 0.086327, 0.056174, 0.006618, 0.005391, 0.004566, 0.004109, 0.003727, 0.003698, 0.003467 ], "gate_score_top1": 0.851562, "gate_scores": [ 0.851562, 0.730957, 0.790527, 0.599609, 0.565918, 0.521973, 0.616211, 0.720215, 0.532227, 0.621582 ] }, { "question_id": "10043231", "image_id": 553051, "question": "người đàn ông tóc vàng đang chụp ảnh ở đâu", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "áo vest", "gương", "cà vạt", "quán bar", "gian hàng", "điện thoại", "ô cửa", "quán ăn", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.164953, "confidences": [ 0.164953, 0.153154, 0.087606, 0.057678, 0.041788, 0.04082, 0.032355, 0.025445, 0.021219, 0.012845 ], "gate_score_top1": 0.73877, "gate_scores": [ 0.73877, 0.691895, 0.756836, 0.631348, 0.678711, 0.62793, 0.65625, 0.677734, 0.688477, 0.54248 ] }, { "question_id": "10102851", "image_id": 581218, "question": "có bao nhiêu máy bay chiến đấu đang bay về bên phải trong đội hình", "ground_truth": "chín", "ground_truth_normalized": "chín", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "bốn", "chín", "năm", "tám", "máy bay", "ba", "mười", "sân vận động" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.322873, "confidences": [ 0.322873, 0.247556, 0.211745, 0.12843, 0.029336, 0.010001, 0.002718, 0.002227, 0.002088, 0.001623 ], "gate_score_top1": 0.833984, "gate_scores": [ 0.833984, 0.824219, 0.789062, 0.789062, 0.733398, 0.657227, 0.600586, 0.520508, 0.525879, 0.558594 ] }, { "question_id": "10006241", "image_id": 198561, "question": "màu của con mèo là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu nâu", "màu vàng", "màu xám", "màu trắng", "màu đen", "màu đỏ", "màu xanh dương", "chậu", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.661799, "confidences": [ 0.661799, 0.322535, 0.002823, 0.002443, 0.001298, 0.001212, 0.001049, 0.000191, 0.000133, 0.000133 ], "gate_score_top1": 0.880371, "gate_scores": [ 0.880371, 0.858887, 0.782227, 0.700195, 0.752441, 0.681152, 0.72168, 0.597168, 0.490234, 0.525391 ] }, { "question_id": "10042671", "image_id": 342812, "question": "mọi người đang đi đâu", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe điện ngầm", "tàu hỏa", "sân bay", "tòa nhà", "kho", "xe điện", "bộ đồ", "ga-ra", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.80284, "confidences": [ 0.80284, 0.121685, 0.010447, 0.005233, 0.004467, 0.002652, 0.002152, 0.001823, 0.00165, 0.00118 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.79541, 0.704102, 0.654785, 0.716797, 0.609863, 0.63623, 0.473877, 0.629883, 0.565918 ] }, { "question_id": "10116631", "image_id": 541301, "question": "phòng tắm có bao nhiêu bồn tiểu trên tường", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.511684, "confidences": [ 0.511684, 0.265458, 0.132442, 0.049878, 0.023377, 0.004497, 0.002706, 0.001263, 0.000684, 0.000655 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.853516, 0.838867, 0.787109, 0.739258, 0.551758, 0.62207, 0.568359, 0.53418, 0.508789 ] }, { "question_id": "10003181", "image_id": 110761, "question": "màu của quần là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu đen", "màu trắng", "màu nâu", "màu xám", "màu xanh dương", "màu đỏ", "màu vàng", "màu cam", "màu tía" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.383068, "confidences": [ 0.383068, 0.359859, 0.084809, 0.059904, 0.054971, 0.013791, 0.013471, 0.010952, 0.008496, 0.001971 ], "gate_score_top1": 0.852539, "gate_scores": [ 0.852539, 0.858398, 0.870117, 0.810547, 0.82959, 0.732422, 0.793945, 0.751953, 0.814453, 0.748535 ] }, { "question_id": "10039941", "image_id": 469658, "question": "xe bán tải đang chở một chiếc xe tải nhỏ hơn ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "kho", "tòa nhà", "chuồng", "đường phố", "xe tải", "phòng", "trạm", "cửa tiệm", "đường" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.394144, "confidences": [ 0.394144, 0.058584, 0.051802, 0.047074, 0.042611, 0.039102, 0.027244, 0.026874, 0.02241, 0.020726 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.718262, 0.745117, 0.682129, 0.713867, 0.689453, 0.718262, 0.67041, 0.652832, 0.741699 ] }, { "question_id": "10093621", "image_id": 373170, "question": "cái gì ngồi ở phía trước của một lớp học trống", "ground_truth": "màn", "ground_truth_normalized": "màn", "predicted_top1": "lớp học", "predicted_topk": [ "lớp học", "thư viện", "văn phòng", "cái bàn", "máy tính", "phòng", "laptop", "tòa nhà", "nhà ở", "bức tranh" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.592302, "confidences": [ 0.592302, 0.134767, 0.035019, 0.01256, 0.01068, 0.010515, 0.007678, 0.00516, 0.00502, 0.004947 ], "gate_score_top1": 0.807617, "gate_scores": [ 0.807617, 0.717285, 0.811035, 0.685547, 0.720703, 0.630859, 0.64209, 0.65332, 0.668945, 0.518066 ] }, { "question_id": "10044161", "image_id": 7559, "question": "nhóm bàn chải đánh răng đầy màu sắc ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "tách", "predicted_topk": [ "tách", "thùng chứa", "cái rổ", "bát", "cái lọ", "lọ cắm hoa", "cái nồi", "người giữ", "chậu", "cái mâm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.586045, "confidences": [ 0.586045, 0.183688, 0.02795, 0.017321, 0.017153, 0.014137, 0.011583, 0.010734, 0.004992, 0.004689 ], "gate_score_top1": 0.814941, "gate_scores": [ 0.814941, 0.795898, 0.713867, 0.754883, 0.736328, 0.674316, 0.601074, 0.558105, 0.606934, 0.666992 ] }, { "question_id": "10064371", "image_id": 579970, "question": "một số cầu thang là một cái bàn và một chiếc tivi được gọi là gì", "ground_truth": "đi văng", "ground_truth_normalized": "đi văng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "đi văng", "nhiều cái ghế", "bức ảnh", "cửa sổ", "phòng ngủ", "cửa", "cây", "tường" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.234395, "confidences": [ 0.234395, 0.135128, 0.073182, 0.063086, 0.054597, 0.048087, 0.041051, 0.040179, 0.018039, 0.016619 ], "gate_score_top1": 0.802246, "gate_scores": [ 0.802246, 0.819336, 0.686035, 0.69873, 0.639648, 0.697266, 0.727539, 0.666504, 0.573242, 0.609863 ] }, { "question_id": "10109101", "image_id": 530629, "question": "có bao nhiêu phụ nữ đang cùng nhau cưỡi ngựa", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.618691, "confidences": [ 0.618691, 0.308677, 0.049415, 0.012941, 0.003159, 0.001879, 0.000514, 0.000493, 0.000297, 0.000264 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.888184, 0.820801, 0.728027, 0.560059, 0.626953, 0.55957, 0.533691, 0.423584, 0.480225 ] }, { "question_id": "10033951", "image_id": 362319, "question": "nơi nhồi bông gấu bông nằm", "ground_truth": "khung", "ground_truth_normalized": "khung", "predicted_top1": "gương", "predicted_topk": [ "gương", "cửa sổ", "cửa", "nón", "bức ảnh", "phòng ngủ", "hành lang", "cái ghế", "ô cửa", "đồ chơi" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.225374, "confidences": [ 0.225374, 0.080046, 0.04169, 0.026812, 0.023159, 0.023023, 0.01954, 0.017687, 0.016599, 0.011979 ], "gate_score_top1": 0.746582, "gate_scores": [ 0.746582, 0.70752, 0.700195, 0.653809, 0.530762, 0.619629, 0.47168, 0.572754, 0.577637, 0.581055 ] }, { "question_id": "10030981", "image_id": 120061, "question": "người đàn ông ở đâu", "ground_truth": "xe lăn", "ground_truth_normalized": "xe lăn", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "phòng bếp", "xe lăn", "phòng", "lò vi sóng", "cửa tiệm", "gian hàng", "cửa hàng", "tủ lạnh", "văn phòng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.386627, "confidences": [ 0.386627, 0.126999, 0.086606, 0.040275, 0.019099, 0.01357, 0.01163, 0.011032, 0.010183, 0.009736 ], "gate_score_top1": 0.766113, "gate_scores": [ 0.766113, 0.70752, 0.665039, 0.660645, 0.63916, 0.57373, 0.591309, 0.541504, 0.574219, 0.606934 ] }, { "question_id": "10060551", "image_id": 568337, "question": "những trường hợp mở có kích thước, một cái đầy đủ", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "vali", "predicted_topk": [ "vali", "hộp", "hành lý", "đồ chơi", "túi", "toa xe", "thân cây", "tường", "xe đẩy", "cái túi" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.567151, "confidences": [ 0.567151, 0.063014, 0.01816, 0.014171, 0.010108, 0.009607, 0.008972, 0.008322, 0.007918, 0.007431 ], "gate_score_top1": 0.73584, "gate_scores": [ 0.73584, 0.699219, 0.620117, 0.591309, 0.651855, 0.54541, 0.54248, 0.512695, 0.656738, 0.640625 ] }, { "question_id": "10094021", "image_id": 400554, "question": "có gì để xây dựng", "ground_truth": "xe cộ", "ground_truth_normalized": "xe cộ", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe cộ", "phương tiện giao thông", "xe ô tô", "động cơ", "xe buýt", "đường", "xe đẩy", "đoạn phim giới thiệu", "đường đi bộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.584884, "confidences": [ 0.584884, 0.117902, 0.109041, 0.063355, 0.012021, 0.008458, 0.006523, 0.004011, 0.003616, 0.00263 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.754883, 0.794434, 0.744629, 0.627441, 0.676758, 0.655273, 0.631836, 0.472656, 0.4646 ] }, { "question_id": "10048011", "image_id": 144817, "question": "cặp vợ chồng cầm ly rượu ở đâu", "ground_truth": "bảo tàng", "ground_truth_normalized": "bảo tàng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "bảo tàng", "tòa nhà", "cửa tiệm", "quán bar", "kho", "quán ăn", "nhà ở", "cửa hàng", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.277861, "confidences": [ 0.277861, 0.120444, 0.078069, 0.052209, 0.042946, 0.030993, 0.027405, 0.024185, 0.018149, 0.017763 ], "gate_score_top1": 0.754395, "gate_scores": [ 0.754395, 0.796875, 0.755859, 0.759766, 0.724609, 0.75293, 0.695801, 0.700684, 0.742676, 0.612305 ] }, { "question_id": "10034131", "image_id": 407809, "question": "con chó bắt một cái dĩa hàng không", "ground_truth": "sân", "ground_truth_normalized": "sân", "predicted_top1": "dĩa nhựa", "predicted_topk": [ "dĩa nhựa", "sân", "đồ chơi", "con chó", "quả bóng", "ván trượt", "mũ", "nón", "áo sơ mi", "hồ bơi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.516809, "confidences": [ 0.516809, 0.18071, 0.030023, 0.021499, 0.020315, 0.009824, 0.008669, 0.008602, 0.005952, 0.005826 ], "gate_score_top1": 0.814941, "gate_scores": [ 0.814941, 0.720215, 0.693848, 0.695312, 0.736328, 0.616699, 0.621582, 0.645996, 0.583984, 0.68457 ] }, { "question_id": "10022231", "image_id": 579224, "question": "màu của tường là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu đỏ", "màu xám", "màu xanh lá", "màu xanh dương", "màu nâu", "màu đen", "màu cam", "màu tía", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.713077, "confidences": [ 0.713077, 0.191922, 0.040387, 0.013528, 0.01087, 0.0075, 0.005617, 0.003742, 0.003461, 0.002183 ], "gate_score_top1": 0.89502, "gate_scores": [ 0.89502, 0.844727, 0.788574, 0.73291, 0.786621, 0.70459, 0.712891, 0.757812, 0.72168, 0.744629 ] }, { "question_id": "10083371", "image_id": 397322, "question": "cái gì đang mở và có rất nhiều trứng", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "cái kệ", "lò vi sóng", "chai", "phòng bếp", "tường", "tủ đông", "cỗ máy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.398556, "confidences": [ 0.398556, 0.248438, 0.171417, 0.037362, 0.010518, 0.007314, 0.006911, 0.005499, 0.005096, 0.003055 ], "gate_score_top1": 0.819336, "gate_scores": [ 0.819336, 0.811035, 0.817871, 0.729004, 0.620117, 0.609375, 0.575195, 0.578613, 0.557129, 0.48877 ] }, { "question_id": "10019101", "image_id": 495797, "question": "màu của cây là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu tía", "màu trắng", "màu xanh dương", "màu xanh lá", "màu vàng", "màu xám", "màu nâu", "màu cam", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.404727, "confidences": [ 0.404727, 0.305504, 0.155428, 0.054988, 0.052675, 0.004383, 0.002623, 0.00186, 0.001171, 0.000928 ], "gate_score_top1": 0.841309, "gate_scores": [ 0.841309, 0.890625, 0.812988, 0.788086, 0.763184, 0.672852, 0.688965, 0.70459, 0.696777, 0.677246 ] }, { "question_id": "10001521", "image_id": 281713, "question": "màu của phòng tắm là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu đen", "màu trắng", "màu nâu", "màu cam", "màu xanh lá", "màu đỏ", "màu xanh dương", "màu tía", "màu vàng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.417402, "confidences": [ 0.417402, 0.357022, 0.200271, 0.010697, 0.001873, 0.001268, 0.000927, 0.000882, 0.000758, 0.000722 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.862793, 0.885254, 0.805176, 0.665039, 0.564453, 0.683105, 0.669922, 0.711426, 0.686523 ] }, { "question_id": "10077581", "image_id": 561393, "question": "con mèo kiểm tra những gì", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "túi", "balo", "cái ví", "xe đẩy", "toa xe", "hộp", "sàn nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.452869, "confidences": [ 0.452869, 0.306426, 0.091647, 0.029292, 0.01669, 0.009436, 0.008087, 0.004122, 0.003624, 0.00273 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.865723, 0.768066, 0.751465, 0.69043, 0.706543, 0.659668, 0.571777, 0.665527, 0.533203 ] }, { "question_id": "10060861", "image_id": 436559, "question": "những gì đỗ sau chiếc xe trên sân cỏ", "ground_truth": "xe máy", "ground_truth_normalized": "xe máy", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "xe máy", "xe tay ga", "đường", "chim bồ câu", "cây", "xe cộ", "ván trượt", "mũ", "con khỉ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.672109, "confidences": [ 0.672109, 0.300586, 0.002806, 0.00089, 0.000739, 0.00067, 0.000639, 0.000593, 0.000591, 0.000369 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.834473, 0.671875, 0.509766, 0.510254, 0.495361, 0.507812, 0.564941, 0.523438, 0.416016 ] }, { "question_id": "10041321", "image_id": 127744, "question": "con mèo đang đẩy đầu ở đâu", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "cửa", "cây", "gương", "tường", "ô cửa", "phòng", "sân", "nhà ở", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.688323, "confidences": [ 0.688323, 0.245429, 0.00346, 0.002983, 0.002522, 0.002252, 0.001638, 0.001541, 0.001482, 0.00144 ], "gate_score_top1": 0.839355, "gate_scores": [ 0.839355, 0.837402, 0.685547, 0.751953, 0.644043, 0.528809, 0.637207, 0.516113, 0.597168, 0.609375 ] }, { "question_id": "10015271", "image_id": 377177, "question": "màu của lớp phủ là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu trắng", "màu đen", "màu đỏ", "màu cam", "màu xanh dương", "màu vàng", "màu xám", "màu xanh lá", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.837577, "confidences": [ 0.837577, 0.109438, 0.010544, 0.006222, 0.003978, 0.003594, 0.003184, 0.002843, 0.001356, 0.000956 ], "gate_score_top1": 0.852539, "gate_scores": [ 0.852539, 0.848145, 0.751953, 0.65625, 0.679688, 0.655273, 0.6875, 0.724121, 0.611328, 0.684082 ] }, { "question_id": "10026631", "image_id": 215315, "question": "hai con voi trưởng thành và một con voi nhỏ ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "thân cây", "rào chắn", "bãi cỏ", "bảo tàng", "lá", "chuồng trại", "hồ bơi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.548336, "confidences": [ 0.548336, 0.401171, 0.020367, 0.00251, 0.001921, 0.001528, 0.001252, 0.001092, 0.001042, 0.000893 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.880859, 0.840332, 0.676758, 0.624023, 0.540039, 0.625, 0.604004, 0.661621, 0.618652 ] }, { "question_id": "10106451", "image_id": 437632, "question": "người đàn ông đeo bao nhiêu chiếc cà vạt khác nhau, ngồi trên một chiếc ghế dài", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "bảy", "mười", "tám", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.741192, "confidences": [ 0.741192, 0.199489, 0.050636, 0.003583, 0.000446, 0.000368, 0.000227, 0.000145, 0.000144, 0.000109 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.883789, 0.82666, 0.757812, 0.458496, 0.623535, 0.488037, 0.449707, 0.462891, 0.40918 ] }, { "question_id": "10084621", "image_id": 507575, "question": "cái gì màu trắng có hai máy tính xách tay và một máy in", "ground_truth": "bàn phím", "ground_truth_normalized": "bàn phím", "predicted_top1": "cái bàn", "predicted_topk": [ "cái bàn", "bàn phím", "máy tính", "văn phòng", "chuột", "laptop", "trang thiết bị", "cái kệ", "phòng ngủ", "bức tranh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.383525, "confidences": [ 0.383525, 0.163668, 0.137823, 0.043453, 0.011718, 0.010649, 0.008708, 0.007655, 0.007255, 0.006835 ], "gate_score_top1": 0.805176, "gate_scores": [ 0.805176, 0.777344, 0.809082, 0.704102, 0.623047, 0.77002, 0.488037, 0.555664, 0.580566, 0.553223 ] }, { "question_id": "10023421", "image_id": 39272, "question": "màu của lá là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu vàng", "màu đỏ", "màu xám", "màu xanh dương", "màu cam", "màu đen", "màu tía", "màu trắng", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.652152, "confidences": [ 0.652152, 0.330495, 0.002446, 0.002158, 0.001875, 0.001846, 0.001361, 0.001054, 0.000675, 0.000605 ], "gate_score_top1": 0.883301, "gate_scores": [ 0.883301, 0.878418, 0.735352, 0.669434, 0.707031, 0.759277, 0.660645, 0.696777, 0.704102, 0.600586 ] }, { "question_id": "10107721", "image_id": 528275, "question": "có bao nhiêu con ngựa đang nghỉ ngơi trên đồng cỏ trên núi", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.808025, "confidences": [ 0.808025, 0.128851, 0.041995, 0.012908, 0.003102, 0.001043, 0.000317, 0.000234, 0.000196, 0.000129 ], "gate_score_top1": 0.890625, "gate_scores": [ 0.890625, 0.863281, 0.834473, 0.722168, 0.694336, 0.508789, 0.521484, 0.49707, 0.402588, 0.412109 ] }, { "question_id": "10082651", "image_id": 468022, "question": "người phụ nữ cầm những gì chứa với một chiếc bánh lớn", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "đĩa ăn", "cái mâm", "sô cô la", "món tráng miệng", "cupcake", "dao", "dĩa", "bữa ăn", "cái nĩa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.459571, "confidences": [ 0.459571, 0.17718, 0.032457, 0.025927, 0.023792, 0.015726, 0.015035, 0.014041, 0.012223, 0.009281 ], "gate_score_top1": 0.800293, "gate_scores": [ 0.800293, 0.775391, 0.694824, 0.648926, 0.655762, 0.632324, 0.727051, 0.664062, 0.697754, 0.602051 ] }, { "question_id": "10082241", "image_id": 440508, "question": "những gì chuyến tàu đi qua vùng nông thôn xanh nông thôn", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "động cơ", "predicted_topk": [ "động cơ", "xe ô tô", "tàu hỏa", "đường sắt", "màu cam", "hàng hoá", "cây", "các tòa nhà", "cầu", "trạm" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.349805, "confidences": [ 0.349805, 0.117629, 0.11401, 0.060787, 0.044647, 0.032095, 0.011444, 0.009904, 0.007974, 0.006252 ], "gate_score_top1": 0.726074, "gate_scores": [ 0.726074, 0.72998, 0.816406, 0.648438, 0.687012, 0.556152, 0.558105, 0.587891, 0.630371, 0.558594 ] }, { "question_id": "10113851", "image_id": 575595, "question": "có bao nhiêu giường được bao phủ bởi rèm cửa màu đỏ và màu xanh lá cây phía sau một người đàn ông", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "bảy", "mười", "tám", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.615753, "confidences": [ 0.615753, 0.337405, 0.02369, 0.013926, 0.001476, 0.00117, 0.000633, 0.000306, 0.000298, 0.000161 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.849609, 0.797363, 0.739746, 0.494873, 0.670898, 0.521973, 0.487793, 0.477539, 0.416748 ] }, { "question_id": "10051251", "image_id": 282889, "question": "người đàn ông đứng ở đâu gần bồn rửa chén", "ground_truth": "tạp dề", "ground_truth_normalized": "tạp dề", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "tạp dề", "quán ăn", "phòng", "cửa tiệm", "lò vi sóng", "cửa hàng", "nhà ở", "chảo", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.828574, "confidences": [ 0.828574, 0.083007, 0.042562, 0.003807, 0.003563, 0.002323, 0.002161, 0.002107, 0.001503, 0.00115 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.774414, 0.813477, 0.689453, 0.625, 0.624023, 0.673828, 0.724121, 0.587402, 0.694824 ] }, { "question_id": "10063731", "image_id": 346138, "question": "cái gì chia ra cho thấy những bát thức ăn khác nhau", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "món ăn", "chén đĩa", "bữa ăn", "chảo", "bát", "thịt", "dĩa", "rau", "đĩa" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.14923, "confidences": [ 0.14923, 0.132728, 0.128644, 0.111768, 0.075331, 0.042257, 0.04048, 0.021042, 0.019805, 0.016776 ], "gate_score_top1": 0.791016, "gate_scores": [ 0.791016, 0.771973, 0.728027, 0.759277, 0.71875, 0.729492, 0.67334, 0.660156, 0.728516, 0.54248 ] }, { "question_id": "10040551", "image_id": 13921, "question": "người đang chụp ảnh tự sướng ở đâu", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "ô cửa", "vòi hoa sen", "hành lang", "máy ảnh", "chậu", "chuồng", "cửa", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.586171, "confidences": [ 0.586171, 0.390474, 0.003112, 0.002611, 0.00147, 0.001231, 0.000723, 0.000545, 0.000435, 0.000432 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.87207, 0.68457, 0.681641, 0.54541, 0.537109, 0.632812, 0.587402, 0.626465, 0.629395 ] }, { "question_id": "10081901", "image_id": 405032, "question": "những gì ngồi trong cây không có cành nào gần một cụm đá và một tòa nhà", "ground_truth": "gấu", "ground_truth_normalized": "gấu", "predicted_top1": "gấu trúc", "predicted_topk": [ "gấu trúc", "gấu", "đồ chơi", "vườn bách thú", "móng vuốt", "cây", "con chó", "con cừu", "con chim", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.89124, "confidences": [ 0.89124, 0.093936, 0.000585, 0.000513, 0.000418, 0.000361, 0.000351, 0.000282, 0.000262, 0.000237 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.819824, 0.613281, 0.65625, 0.481934, 0.571777, 0.617188, 0.567383, 0.488037, 0.637695 ] }, { "question_id": "10104751", "image_id": 265023, "question": "có bao nhiêu người mặc đồ tuyết cầm ván trượt vào ban đêm", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.569953, "confidences": [ 0.569953, 0.307466, 0.067806, 0.035592, 0.006927, 0.002188, 0.001665, 0.000857, 0.000796, 0.00056 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.851074, 0.78418, 0.749512, 0.715332, 0.618652, 0.61084, 0.572266, 0.522461, 0.554199 ] }, { "question_id": "10084761", "image_id": 373075, "question": "người đàn ông mặc cái gì đang nướng thịt", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "áo sơ mi", "cái mâm", "thịt", "lò vi sóng", "gà", "cà rốt", "bữa ăn", "tạp dề", "dao" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.099112, "confidences": [ 0.099112, 0.057138, 0.052844, 0.047462, 0.030584, 0.029298, 0.027847, 0.027793, 0.025207, 0.022463 ], "gate_score_top1": 0.647461, "gate_scores": [ 0.647461, 0.566406, 0.726074, 0.65332, 0.637207, 0.552734, 0.635742, 0.669922, 0.624512, 0.712891 ] }, { "question_id": "10051231", "image_id": 221794, "question": "hai người đứng ở đâu trong tuyết", "ground_truth": "trang thiết bị", "ground_truth_normalized": "trang thiết bị", "predicted_top1": "trượt tuyết", "predicted_topk": [ "trượt tuyết", "núi", "đồi", "ván trượt", "trang thiết bị", "cây", "bầu trời", "đường", "áo vest", "giá đỡ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.509296, "confidences": [ 0.509296, 0.181595, 0.093843, 0.047557, 0.01331, 0.005192, 0.004973, 0.004036, 0.003596, 0.0026 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.754395, 0.748535, 0.709473, 0.599609, 0.52832, 0.540039, 0.679199, 0.580078, 0.448975 ] }, { "question_id": "10061021", "image_id": 498274, "question": "xe buýt hai tầng hiện đại để lại những gì", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "xe buýt", "predicted_topk": [ "xe buýt", "đường", "trạm", "đường phố", "áo vest", "cây", "một", "sân vận động", "tòa nhà", "xe cộ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.214373, "confidences": [ 0.214373, 0.083296, 0.068786, 0.028618, 0.017358, 0.016482, 0.016038, 0.014489, 0.012625, 0.012012 ], "gate_score_top1": 0.715332, "gate_scores": [ 0.715332, 0.662598, 0.645996, 0.600098, 0.636719, 0.633789, 0.568848, 0.577637, 0.683594, 0.438232 ] }, { "question_id": "10104731", "image_id": 197437, "question": "có bao nhiêu con ngựa vằn trên cánh đồng cỏ dưới gốc cây", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "tám", "bảy", "bãi cỏ", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.718393, "confidences": [ 0.718393, 0.264282, 0.006363, 0.005771, 0.000287, 0.000233, 0.00012, 9.4e-05, 9e-05, 8.8e-05 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.869629, 0.777344, 0.738281, 0.544434, 0.384766, 0.419678, 0.396484, 0.438477, 0.530762 ] }, { "question_id": "10058871", "image_id": 476119, "question": "người mặc những gì đang cưỡi một ván trượt", "ground_truth": "mũ", "ground_truth_normalized": "mũ", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "đường phố", "mũ", "đường", "sân", "áo sơ mi", "vòi", "dĩa nhựa", "cây", "bức ảnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.514853, "confidences": [ 0.514853, 0.073022, 0.067271, 0.041769, 0.016009, 0.010316, 0.00994, 0.008998, 0.008893, 0.008704 ], "gate_score_top1": 0.803223, "gate_scores": [ 0.803223, 0.667969, 0.646973, 0.742188, 0.660645, 0.487061, 0.64209, 0.582031, 0.571777, 0.609375 ] }, { "question_id": "10035691", "image_id": 159974, "question": "giường tầng gỗ được đặt ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "nhà ở", "hành lang", "ô cửa", "tòa nhà", "cửa", "cửa sổ", "phòng tắm", "tường" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.506387, "confidences": [ 0.506387, 0.265807, 0.057936, 0.043562, 0.009275, 0.008027, 0.006475, 0.00645, 0.006251, 0.003874 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.835449, 0.838379, 0.720215, 0.620605, 0.609375, 0.633301, 0.687012, 0.62793, 0.529297 ] }, { "question_id": "10050571", "image_id": 488693, "question": "người cầm xẻng xúc cát ở đâu", "ground_truth": "gầu múc", "ground_truth_normalized": "gầu múc", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "bát", "thùng chứa", "cái rổ", "lồng", "gầu múc", "chuồng", "cửa tiệm", "sân", "tách" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.098968, "confidences": [ 0.098968, 0.070591, 0.054336, 0.047764, 0.034336, 0.030302, 0.026689, 0.024301, 0.019186, 0.016669 ], "gate_score_top1": 0.711914, "gate_scores": [ 0.711914, 0.74707, 0.687012, 0.732422, 0.722656, 0.588867, 0.677246, 0.688965, 0.685059, 0.581055 ] }, { "question_id": "10044361", "image_id": 196473, "question": "cây kế tím ở đâu", "ground_truth": "cái nồi", "ground_truth_normalized": "cái nồi", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bát", "cái nồi", "cái lọ", "cây", "tách", "bông hoa", "cửa sổ", "thùng chứa", "phòng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.85606, "confidences": [ 0.85606, 0.072784, 0.02419, 0.00515, 0.00354, 0.003167, 0.002237, 0.001416, 0.00137, 0.001277 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.851074, 0.749023, 0.713867, 0.706543, 0.680664, 0.721191, 0.641113, 0.62793, 0.731934 ] }, { "question_id": "10105141", "image_id": 436438, "question": "có bao nhiêu con ngựa vằn trong một khu vực kín - một con đứng, con kia nằm trên mặt đất", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "ba", "bốn", "sáu", "bảy", "bãi cỏ", "tám", "mười", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.666316, "confidences": [ 0.666316, 0.319702, 0.006161, 0.001343, 0.000253, 0.000176, 0.000171, 0.000159, 0.000145, 0.000127 ], "gate_score_top1": 0.881348, "gate_scores": [ 0.881348, 0.885254, 0.756836, 0.617676, 0.384033, 0.410645, 0.469482, 0.432861, 0.416748, 0.402344 ] }, { "question_id": "10110401", "image_id": 197068, "question": "có bao nhiêu loại điện thoại di động khác nhau và một bộ sạc", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.624093, "confidences": [ 0.624093, 0.292506, 0.044162, 0.030471, 0.002611, 0.001132, 0.000553, 0.000379, 0.000209, 0.000194 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.880859, 0.818359, 0.818359, 0.677246, 0.460938, 0.516113, 0.522461, 0.455078, 0.428467 ] }, { "question_id": "10100011", "image_id": 434786, "question": "người đàn ông có râu hút những gì", "ground_truth": "thuốc lá", "ground_truth_normalized": "thuốc lá", "predicted_top1": "cà vạt", "predicted_topk": [ "cà vạt", "bàn chải", "thuốc lá", "nón", "cây kéo", "máy ảnh", "áo sơ mi", "điện thoại", "thiết bị", "bộ đồ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.348819, "confidences": [ 0.348819, 0.093517, 0.044174, 0.029141, 0.028134, 0.022962, 0.017675, 0.016669, 0.012931, 0.010932 ], "gate_score_top1": 0.775391, "gate_scores": [ 0.775391, 0.736328, 0.622559, 0.712891, 0.678223, 0.78418, 0.649414, 0.700684, 0.56543, 0.591797 ] }, { "question_id": "10099031", "image_id": 476279, "question": "cái gì kéo vào ga tàu điện ngầm nơi mọi người đứng", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe điện ngầm", "tàu hỏa", "đường sắt", "xe ô tô", "xe điện", "hàng hoá", "tòa nhà", "cầu", "các tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.357302, "confidences": [ 0.357302, 0.202791, 0.152478, 0.039007, 0.038703, 0.022664, 0.015395, 0.008569, 0.00824, 0.008129 ], "gate_score_top1": 0.815918, "gate_scores": [ 0.815918, 0.777832, 0.818359, 0.697266, 0.694336, 0.72168, 0.618652, 0.680664, 0.621094, 0.635254 ] }, { "question_id": "10079001", "image_id": 518006, "question": "cái gì ngồi như cái giá đỡ ở phía trước", "ground_truth": "thân cây", "ground_truth_normalized": "thân cây", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "thân cây", "hộp", "vali", "lọ cắm hoa", "tường", "cái kệ", "bức tượng", "nhiều cái ghế", "chai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.076598, "confidences": [ 0.076598, 0.058501, 0.046824, 0.038516, 0.032056, 0.03035, 0.019011, 0.017142, 0.014719, 0.014633 ], "gate_score_top1": 0.725586, "gate_scores": [ 0.725586, 0.589355, 0.721191, 0.583984, 0.637695, 0.582031, 0.675293, 0.581543, 0.437988, 0.564941 ] }, { "question_id": "10051701", "image_id": 456309, "question": "người đàn ông mặc cà vạt ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng", "ô cửa", "nhà ở", "văn phòng", "áo vest", "hành lang", "cửa sổ", "phòng ngủ", "phòng tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.321913, "confidences": [ 0.321913, 0.314456, 0.054431, 0.030653, 0.025018, 0.022824, 0.021232, 0.014089, 0.011934, 0.011726 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.808105, 0.720703, 0.730957, 0.710938, 0.603027, 0.648926, 0.700195, 0.744629, 0.638672 ] }, { "question_id": "10074461", "image_id": 566920, "question": "cái gì trên tấm trắng trên bàn với thìa bạc và dĩa rải rác ngẫu nhiên xung quanh nó", "ground_truth": "bánh", "ground_truth_normalized": "bánh", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "đĩa ăn", "bữa ăn", "món ăn", "chảo", "bánh", "quán ăn", "áo sơ mi", "đĩa", "món tráng miệng" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.96669, "confidences": [ 0.96669, 0.005133, 0.002684, 0.002195, 0.002123, 0.001059, 0.000607, 0.000596, 0.000558, 0.00054 ], "gate_score_top1": 0.902344, "gate_scores": [ 0.902344, 0.727539, 0.62207, 0.630371, 0.640137, 0.704102, 0.500488, 0.452148, 0.505371, 0.485596 ] }, { "question_id": "10070241", "image_id": 458168, "question": "cái gì đang băng qua con suối nhỏ trong một trang trại", "ground_truth": "con ngựa", "ground_truth_normalized": "con ngựa", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "con ngựa", "gia súc", "bò đực", "bãi cỏ", "con cừu", "chuồng trại", "đồi", "con chó", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.761084, "confidences": [ 0.761084, 0.123759, 0.035458, 0.01617, 0.011114, 0.003909, 0.003672, 0.002253, 0.002044, 0.00126 ], "gate_score_top1": 0.868652, "gate_scores": [ 0.868652, 0.848633, 0.749512, 0.732422, 0.746094, 0.686035, 0.604492, 0.629883, 0.646484, 0.62207 ] }, { "question_id": "10068011", "image_id": 368218, "question": "những gì được chuẩn bị trên món ăn đã sẵn sàng để ăn", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "dĩa", "món ăn", "thịt", "cái mâm", "chén đĩa", "rau", "sandwich", "bữa ăn tối" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.401941, "confidences": [ 0.401941, 0.192102, 0.069033, 0.033908, 0.030693, 0.028553, 0.019548, 0.019058, 0.011095, 0.010923 ], "gate_score_top1": 0.829102, "gate_scores": [ 0.829102, 0.786621, 0.73584, 0.737305, 0.713867, 0.701172, 0.650879, 0.724609, 0.759277, 0.635254 ] }, { "question_id": "10051121", "image_id": 266029, "question": "con mèo đang nằm ở đâu", "ground_truth": "ngăn kéo", "ground_truth_normalized": "ngăn kéo", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "giường", "vali", "cái túi", "ngăn kéo", "phòng ngủ", "thùng chứa", "phòng", "tủ lạnh", "hành lý" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.1574, "confidences": [ 0.1574, 0.130489, 0.110313, 0.068763, 0.052108, 0.040582, 0.036165, 0.016079, 0.014218, 0.014162 ], "gate_score_top1": 0.756836, "gate_scores": [ 0.756836, 0.697266, 0.706543, 0.717285, 0.625977, 0.712402, 0.674805, 0.64209, 0.584473, 0.544922 ] }, { "question_id": "10015301", "image_id": 227484, "question": "màu của xe là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu đỏ", "màu trắng", "màu xám", "màu xanh lá", "màu nâu", "màu xanh dương", "màu vàng", "màu cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.49037, "confidences": [ 0.49037, 0.482767, 0.013588, 0.003587, 0.002092, 0.001183, 0.000998, 0.000633, 0.000573, 0.00046 ], "gate_score_top1": 0.885742, "gate_scores": [ 0.885742, 0.868164, 0.821289, 0.773438, 0.680664, 0.720703, 0.638184, 0.665039, 0.753906, 0.739746 ] }, { "question_id": "10099771", "image_id": 487295, "question": "đĩa giữ những gì với cà chua và hành tây", "ground_truth": "bánh hamburger", "ground_truth_normalized": "bánh hamburger", "predicted_top1": "sandwich", "predicted_topk": [ "sandwich", "đĩa ăn", "bữa ăn", "cái mâm", "cái rổ", "dĩa", "búi tóc", "bữa trưa", "con chó", "thịt" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.456826, "confidences": [ 0.456826, 0.137164, 0.077546, 0.032389, 0.020588, 0.016478, 0.015121, 0.010312, 0.009744, 0.008565 ], "gate_score_top1": 0.834961, "gate_scores": [ 0.834961, 0.773438, 0.720703, 0.71582, 0.662598, 0.625488, 0.730469, 0.49292, 0.668457, 0.595703 ] }, { "question_id": "10012181", "image_id": 468626, "question": "màu của áo là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đỏ", "màu xanh lá", "màu trắng", "màu đen", "màu nâu", "màu xám", "màu vàng", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.51579, "confidences": [ 0.51579, 0.424278, 0.018496, 0.011849, 0.008304, 0.005383, 0.003671, 0.002996, 0.000286, 0.000176 ], "gate_score_top1": 0.899414, "gate_scores": [ 0.899414, 0.870117, 0.754883, 0.808594, 0.757812, 0.696777, 0.740723, 0.709473, 0.605957, 0.571289 ] }, { "question_id": "10055251", "image_id": 551170, "question": "những gì nguệch ngoạc với tranh sơn tường trong một khu vực đô thị", "ground_truth": "cửa ra vào", "ground_truth_normalized": "cửa ra vào", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "ga-ra", "vòi", "kho", "nhà ở", "vẽ tranh lên tường", "xe ô tô", "cửa tiệm", "ảnh chụp", "cửa hàng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.401355, "confidences": [ 0.401355, 0.162797, 0.0209, 0.017293, 0.01395, 0.013627, 0.011275, 0.010571, 0.009016, 0.008738 ], "gate_score_top1": 0.852539, "gate_scores": [ 0.852539, 0.762207, 0.634766, 0.694824, 0.641113, 0.538086, 0.617188, 0.697266, 0.52832, 0.592285 ] }, { "question_id": "10108431", "image_id": 333371, "question": "máy bay phản lực jumbo khổng lồ có bao nhiêu động cơ trên mỗi cánh khi nó bay", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "bốn", "ba", "sáu", "năm", "bảy", "chín", "tám", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.306162, "confidences": [ 0.306162, 0.22052, 0.177193, 0.147473, 0.044627, 0.031154, 0.02523, 0.008191, 0.00533, 0.003757 ], "gate_score_top1": 0.812988, "gate_scores": [ 0.812988, 0.800293, 0.783691, 0.806152, 0.681641, 0.731445, 0.67627, 0.618652, 0.59082, 0.587891 ] }, { "question_id": "10108261", "image_id": 90891, "question": "có bao nhiêu người ngồi trong căn phòng đầy chuối", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "hai", "tám", "một", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.660508, "confidences": [ 0.660508, 0.164414, 0.145094, 0.016994, 0.003359, 0.001884, 0.001205, 0.000683, 0.000606, 0.000436 ], "gate_score_top1": 0.899414, "gate_scores": [ 0.899414, 0.830566, 0.832031, 0.687012, 0.699707, 0.65625, 0.593262, 0.600586, 0.552246, 0.476074 ] }, { "question_id": "10057671", "image_id": 561967, "question": "những gì đang di chuyển trên đường ray xe lửa", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "đường sắt", "các tòa nhà", "xe điện ngầm", "cầu", "phương tiện giao thông", "xe điện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.726498, "confidences": [ 0.726498, 0.199391, 0.035057, 0.005634, 0.004726, 0.002206, 0.001728, 0.000888, 0.000763, 0.000725 ], "gate_score_top1": 0.909668, "gate_scores": [ 0.909668, 0.847168, 0.768555, 0.621582, 0.572754, 0.664551, 0.617188, 0.601562, 0.55127, 0.605469 ] }, { "question_id": "10039721", "image_id": 32074, "question": "một số nhân viên đứng xung quanh đâu", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "tạp dề", "cửa tiệm", "cửa hàng", "phòng", "lò vi sóng", "chảo", "nhà ở", "quán bar" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.703372, "confidences": [ 0.703372, 0.173721, 0.056841, 0.008582, 0.008548, 0.004366, 0.00312, 0.00182, 0.001743, 0.001131 ], "gate_score_top1": 0.864258, "gate_scores": [ 0.864258, 0.869141, 0.774414, 0.660645, 0.746094, 0.704102, 0.615723, 0.544434, 0.65918, 0.61084 ] }, { "question_id": "10100871", "image_id": 561923, "question": "một trong những con diều là gì", "ground_truth": "lá cờ", "ground_truth_normalized": "lá cờ", "predicted_top1": "diều", "predicted_topk": [ "diều", "lá cờ", "áo sơ mi", "cây", "mũ", "dĩa nhựa", "bờ biển", "nón", "máy bay", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.555488, "confidences": [ 0.555488, 0.101558, 0.026649, 0.01407, 0.00952, 0.008839, 0.008385, 0.008009, 0.007458, 0.005865 ], "gate_score_top1": 0.867188, "gate_scores": [ 0.867188, 0.657227, 0.577637, 0.596191, 0.570801, 0.685059, 0.577148, 0.588867, 0.592285, 0.596191 ] }, { "question_id": "10108561", "image_id": 553894, "question": "có bao nhiêu người trên một cánh đồng cỏ với một con diều", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.474293, "confidences": [ 0.474293, 0.449051, 0.03531, 0.014893, 0.012788, 0.003375, 0.003171, 0.001153, 0.000881, 0.000403 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.894531, 0.789062, 0.778809, 0.658203, 0.645996, 0.65332, 0.563965, 0.562012, 0.472656 ] }, { "question_id": "10035851", "image_id": 173166, "question": "hai con hươu cao cổ ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lồng", "tòa nhà", "bảo tàng", "rào chắn", "lá", "hồ bơi", "cây", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.69425, "confidences": [ 0.69425, 0.236207, 0.022935, 0.004499, 0.004369, 0.001927, 0.001886, 0.001674, 0.001416, 0.001162 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.864258, 0.831543, 0.711914, 0.67627, 0.630371, 0.615723, 0.64209, 0.675293, 0.602539 ] }, { "question_id": "10111661", "image_id": 394460, "question": "có bao nhiêu đứa trẻ đứng trước tv chơi wii", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "hai", "tám", "chín", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.776446, "confidences": [ 0.776446, 0.106735, 0.092733, 0.01502, 0.001851, 0.000646, 0.00064, 0.00055, 0.000463, 0.000287 ], "gate_score_top1": 0.900391, "gate_scores": [ 0.900391, 0.828613, 0.808105, 0.647949, 0.650879, 0.617188, 0.52832, 0.543457, 0.564941, 0.473389 ] }, { "question_id": "10088651", "image_id": 459825, "question": "ba chiếc máy tính trên một cái bàn rất lộn xộn trong bức tường gạch của gì", "ground_truth": "văn phòng", "ground_truth_normalized": "văn phòng", "predicted_top1": "cái bàn", "predicted_topk": [ "cái bàn", "máy tính", "văn phòng", "bàn phím", "laptop", "bức tranh", "thư viện", "cái kệ", "phòng ngủ", "trang thiết bị" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.601457, "confidences": [ 0.601457, 0.116598, 0.104927, 0.019146, 0.01045, 0.007919, 0.004664, 0.004442, 0.004339, 0.004045 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.825195, 0.796875, 0.717773, 0.763672, 0.601074, 0.649902, 0.567383, 0.585938, 0.533691 ] }, { "question_id": "10056811", "image_id": 415334, "question": "người đàn ông cưỡi những gì xuống dốc tuyết phủ", "ground_truth": "ván trượt", "ground_truth_normalized": "ván trượt", "predicted_top1": "núi", "predicted_topk": [ "núi", "ván trượt", "trượt tuyết", "đồi", "cây", "trang thiết bị", "bầu trời", "ba lan", "bức ảnh", "cây sào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.438738, "confidences": [ 0.438738, 0.249011, 0.18218, 0.053225, 0.00627, 0.004624, 0.002979, 0.001834, 0.001689, 0.001576 ], "gate_score_top1": 0.821777, "gate_scores": [ 0.821777, 0.82666, 0.826172, 0.788574, 0.567871, 0.608398, 0.606934, 0.556641, 0.556641, 0.575195 ] }, { "question_id": "10023861", "image_id": 335249, "question": "màu của các tấm là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu trắng", "màu nâu", "màu cam", "màu xám", "màu đỏ", "màu xanh lá", "màu vàng", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.503571, "confidences": [ 0.503571, 0.458506, 0.015567, 0.00566, 0.004602, 0.002296, 0.002026, 0.001964, 0.000728, 0.00053 ], "gate_score_top1": 0.870605, "gate_scores": [ 0.870605, 0.899414, 0.829102, 0.783203, 0.783691, 0.763672, 0.696289, 0.707031, 0.695801, 0.74707 ] }, { "question_id": "10098851", "image_id": 452931, "question": "đĩa giữ được bao phủ bằng nước thịt, bí đao, khoai tây nghiền và bông cải xanh", "ground_truth": "thịt", "ground_truth_normalized": "thịt", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "thịt", "chén đĩa", "dĩa", "bát", "rau", "cái nĩa", "quán ăn" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.367319, "confidences": [ 0.367319, 0.135658, 0.102801, 0.089315, 0.028996, 0.02574, 0.015102, 0.014132, 0.013697, 0.012842 ], "gate_score_top1": 0.813965, "gate_scores": [ 0.813965, 0.765625, 0.782715, 0.755859, 0.651367, 0.680664, 0.63916, 0.6875, 0.642578, 0.664062 ] }, { "question_id": "10046601", "image_id": 477468, "question": "hai người đàn ông sử dụng máy tính xách tay ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa tiệm", "quán ăn", "phòng", "văn phòng", "gian hàng", "cái ghế", "quán bar", "tạp dề", "thư viện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.433327, "confidences": [ 0.433327, 0.163192, 0.141784, 0.02633, 0.019002, 0.017677, 0.013984, 0.012078, 0.009225, 0.009207 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.819336, 0.818359, 0.734863, 0.776855, 0.668457, 0.635742, 0.658691, 0.675293, 0.665039 ] }, { "question_id": "10059921", "image_id": 551952, "question": "những gì được hiển thị vận chuyển lô hàng xe đạp", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "xe cộ", "xe đẩy", "xe tay ga", "xe ô tô", "xe buýt", "toa xe", "ga-ra", "xe đạp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.444442, "confidences": [ 0.444442, 0.262296, 0.093891, 0.023879, 0.010111, 0.008172, 0.005716, 0.005391, 0.0045, 0.00426 ], "gate_score_top1": 0.831543, "gate_scores": [ 0.831543, 0.802734, 0.750977, 0.751465, 0.588867, 0.601562, 0.645996, 0.534668, 0.64502, 0.572266 ] }, { "question_id": "10118451", "image_id": 283070, "question": "có bao nhiêu quả cam ghép lại với một quả cam cắt lát trên bề mặt gỗ", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "một", "bảy", "hai", "tám", "chín", "mười" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.500201, "confidences": [ 0.500201, 0.163665, 0.117884, 0.072626, 0.061397, 0.034039, 0.012043, 0.008473, 0.003397, 0.002559 ], "gate_score_top1": 0.821289, "gate_scores": [ 0.821289, 0.793457, 0.792969, 0.705566, 0.744141, 0.731445, 0.655762, 0.629883, 0.601074, 0.537109 ] }, { "question_id": "10026341", "image_id": 94791, "question": "pizza rau đã sẵn sàng để đi đâu", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "lò vi sóng", "chảo", "tạp dề", "quán ăn", "bếp", "cái nồi", "bát", "món ăn", "pizza" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.309532, "confidences": [ 0.309532, 0.309532, 0.233647, 0.019711, 0.010048, 0.00781, 0.007629, 0.006374, 0.005441, 0.004887 ], "gate_score_top1": 0.802246, "gate_scores": [ 0.802246, 0.831055, 0.821777, 0.673828, 0.687988, 0.611328, 0.715332, 0.710938, 0.652832, 0.615723 ] }, { "question_id": "10003841", "image_id": 157176, "question": "màu của đồng hồ là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu trắng", "màu xám", "màu đen", "màu vàng", "màu xanh lá", "màu đỏ", "màu cam", "màu xanh dương", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.445081, "confidences": [ 0.445081, 0.438181, 0.049548, 0.04044, 0.004663, 0.003957, 0.00258, 0.000962, 0.000524, 0.000392 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.902832, 0.833984, 0.767578, 0.744629, 0.664551, 0.682129, 0.698242, 0.57373, 0.539551 ] }, { "question_id": "10101661", "image_id": 566038, "question": "những gì đỗ ở phía trước một tòa nhà trong một bãi đỗ xe", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "cửa sổ", "xe ô tô", "con vịt", "hải âu", "gương", "cửa", "cái ghế", "màu xám", "đường phố" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.406094, "confidences": [ 0.406094, 0.330152, 0.050433, 0.006879, 0.00672, 0.006641, 0.005077, 0.004854, 0.004728, 0.003977 ], "gate_score_top1": 0.749512, "gate_scores": [ 0.749512, 0.783203, 0.648926, 0.61377, 0.522949, 0.680176, 0.623535, 0.619141, 0.571289, 0.505371 ] }, { "question_id": "10040261", "image_id": 29041, "question": "đâu là người đàn ông và phụ nữ gương với máy ảnh", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "ô cửa", "máy ảnh", "vòi hoa sen", "hành lang", "chậu", "nhà ở", "cửa", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.941225, "confidences": [ 0.941225, 0.049883, 0.000845, 0.000649, 0.000535, 0.000433, 0.000185, 0.000176, 0.000175, 0.000159 ], "gate_score_top1": 0.92041, "gate_scores": [ 0.92041, 0.830078, 0.683105, 0.569824, 0.617676, 0.522461, 0.568848, 0.572266, 0.59375, 0.608887 ] }, { "question_id": "10102211", "image_id": 430760, "question": "tháp brown với đồng hồ và gác chuông và bên cạnh nó là gì", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "cây", "đồng hồ", "cầu", "tòa nhà", "bức tượng", "lá cờ", "các tòa nhà", "cờ", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.567621, "confidences": [ 0.567621, 0.171767, 0.039698, 0.033823, 0.017479, 0.010895, 0.008619, 0.008585, 0.006029, 0.005027 ], "gate_score_top1": 0.833984, "gate_scores": [ 0.833984, 0.78125, 0.672852, 0.65332, 0.717285, 0.650391, 0.67627, 0.626465, 0.610352, 0.607422 ] }, { "question_id": "10118551", "image_id": 312, "question": "đàn voi có bao nhiêu con đang chạy cùng con", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "một", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.728941, "confidences": [ 0.728941, 0.112664, 0.098267, 0.022272, 0.01935, 0.004687, 0.001984, 0.00146, 0.000877, 0.000697 ], "gate_score_top1": 0.876953, "gate_scores": [ 0.876953, 0.822754, 0.807129, 0.750488, 0.73291, 0.612793, 0.587402, 0.568359, 0.530762, 0.52002 ] }, { "question_id": "10064961", "image_id": 429366, "question": "những gì được hình dung trong hình ảnh này", "ground_truth": "sân khấu", "ground_truth_normalized": "sân khấu", "predicted_top1": "quầy tính tiền", "predicted_topk": [ "quầy tính tiền", "phòng bếp", "bông hoa", "bếp", "tách", "bát", "cây kéo", "dao", "cà rốt", "cái kệ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.379045, "confidences": [ 0.379045, 0.05623, 0.038196, 0.030157, 0.023077, 0.021806, 0.018652, 0.017385, 0.015768, 0.011833 ], "gate_score_top1": 0.757324, "gate_scores": [ 0.757324, 0.666992, 0.714355, 0.716797, 0.697754, 0.682617, 0.663574, 0.699219, 0.645508, 0.62793 ] }, { "question_id": "10118881", "image_id": 510293, "question": "có bao nhiêu thuyền trên sông với mái chèo ở bên và cây ở phía sau", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.466406, "confidences": [ 0.466406, 0.438148, 0.059996, 0.018155, 0.006499, 0.002326, 0.000719, 0.000693, 0.000512, 0.000268 ], "gate_score_top1": 0.870605, "gate_scores": [ 0.870605, 0.894043, 0.823242, 0.75, 0.688477, 0.520996, 0.527344, 0.529785, 0.445557, 0.430664 ] }, { "question_id": "10065191", "image_id": 418062, "question": "hai người bạn chia sẻ những gì tại một bữa tiệc", "ground_truth": "nước", "ground_truth_normalized": "nước", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "quán bar", "chai", "kính đeo", "nước", "nến", "mũ", "đồng hồ", "đồ uống", "cà vạt" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.511497, "confidences": [ 0.511497, 0.082205, 0.070865, 0.03447, 0.032381, 0.015236, 0.010574, 0.007587, 0.006351, 0.005682 ], "gate_score_top1": 0.789551, "gate_scores": [ 0.789551, 0.649902, 0.739258, 0.657715, 0.67627, 0.631836, 0.681152, 0.656738, 0.57666, 0.593262 ] }, { "question_id": "10063321", "image_id": 370123, "question": "những gì được chụp qua camera điện thoại khi điện thoại đang rung", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "các tòa nhà", "tòa nhà", "bức ảnh", "con ngựa", "cầu", "bức tượng", "tàu hỏa", "cờ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.208778, "confidences": [ 0.208778, 0.193088, 0.117572, 0.056082, 0.032905, 0.029095, 0.026699, 0.023242, 0.01734, 0.011941 ], "gate_score_top1": 0.744141, "gate_scores": [ 0.744141, 0.705566, 0.688965, 0.726074, 0.674805, 0.615234, 0.688477, 0.651855, 0.615234, 0.587891 ] }, { "question_id": "10061281", "image_id": 531735, "question": "có gì xếp hàng gần tường", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "mũ", "đường", "ga-ra", "xe cộ", "con khỉ", "cây", "chim bồ câu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.588457, "confidences": [ 0.588457, 0.275804, 0.075107, 0.00482, 0.002331, 0.001798, 0.00156, 0.001234, 0.001152, 0.000962 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.837402, 0.77832, 0.525879, 0.629395, 0.572754, 0.537109, 0.399902, 0.529297, 0.45166 ] }, { "question_id": "10044901", "image_id": 65773, "question": "người đàn ông ngồi xem tivi ở đâu", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái ghế", "nhà ở", "chung cư", "cửa sổ", "ô cửa", "phòng ngủ", "hành lang", "nhiều cái ghế", "đi văng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.548159, "confidences": [ 0.548159, 0.388703, 0.023435, 0.006161, 0.002629, 0.00161, 0.001582, 0.001546, 0.001028, 0.001006 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.865723, 0.817871, 0.670898, 0.693359, 0.526855, 0.743164, 0.679688, 0.541504, 0.541504 ] }, { "question_id": "10101221", "image_id": 472648, "question": "cái gì đang nhìn khá có ý nghĩa với máy ảnh", "ground_truth": "bò đực", "ground_truth_normalized": "bò đực", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "bò đực", "gia súc", "con ngựa", "bãi cỏ", "màu nâu", "con chó", "đồi", "chuồng trại", "con cừu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.909582, "confidences": [ 0.909582, 0.039808, 0.008813, 0.003398, 0.002241, 0.001392, 0.00124, 0.001134, 0.000874, 0.000819 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.776367, 0.649902, 0.733398, 0.675293, 0.637207, 0.57959, 0.603516, 0.484619, 0.632324 ] }, { "question_id": "10093871", "image_id": 494970, "question": "những gì chứa đầy hoa và nước ngồi trên bàn", "ground_truth": "bình hoa", "ground_truth_normalized": "bình hoa", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bông hoa", "hoa hồng", "cái lọ", "bình hoa", "chai", "cây", "nến", "tách", "cửa sổ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.643884, "confidences": [ 0.643884, 0.18304, 0.031808, 0.010928, 0.010571, 0.007467, 0.006082, 0.005316, 0.003733, 0.003412 ], "gate_score_top1": 0.796875, "gate_scores": [ 0.796875, 0.848633, 0.738281, 0.690918, 0.566406, 0.670898, 0.708008, 0.666504, 0.713867, 0.665527 ] }, { "question_id": "10005581", "image_id": 300047, "question": "màu sắc của những con chim là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu xám", "màu trắng", "màu xanh lá", "màu cam", "màu đen", "màu vàng", "màu đỏ", "con voi", "màu xanh dương" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.901482, "confidences": [ 0.901482, 0.054138, 0.013904, 0.00534, 0.004768, 0.002261, 0.001845, 0.001512, 0.001483, 0.000519 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.825195, 0.835938, 0.686035, 0.759277, 0.702637, 0.680176, 0.685547, 0.662109, 0.587891 ] }, { "question_id": "10093731", "image_id": 560466, "question": "tàu nào đang ngồi trên đường ray của nó", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "đồ chơi", "màu đen", "cây", "màu xanh lá", "màu trắng", "xe ô tô", "đường sắt", "tàu hỏa", "động cơ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.1348, "confidences": [ 0.1348, 0.074589, 0.0493, 0.036709, 0.031033, 0.029728, 0.022396, 0.021664, 0.021121, 0.016021 ], "gate_score_top1": 0.699219, "gate_scores": [ 0.699219, 0.48999, 0.606445, 0.588867, 0.529785, 0.682129, 0.562012, 0.604004, 0.662109, 0.522461 ] }, { "question_id": "10035901", "image_id": 480712, "question": "giường được đặt ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "cửa sổ", "nhà ở", "giường", "chung cư", "hành lang", "cái ghế", "văn phòng", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.583074, "confidences": [ 0.583074, 0.344113, 0.007692, 0.00717, 0.006145, 0.00472, 0.0038, 0.003771, 0.003691, 0.002383 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.881836, 0.708496, 0.806152, 0.590332, 0.712402, 0.678711, 0.640137, 0.657715, 0.648438 ] }, { "question_id": "10065861", "image_id": 530500, "question": "những gì mang lại những kỷ niệm tuyệt vời khi chúng ta hẹn hò", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "bức ảnh", "đồng hồ", "cây", "phòng", "tường", "cái kệ", "máy ảnh", "cửa", "cà vạt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.053026, "confidences": [ 0.053026, 0.03797, 0.032924, 0.028942, 0.028162, 0.025048, 0.02294, 0.015103, 0.015089, 0.014768 ], "gate_score_top1": 0.680664, "gate_scores": [ 0.680664, 0.608887, 0.679688, 0.680664, 0.69043, 0.632812, 0.682617, 0.63916, 0.625, 0.662109 ] }, { "question_id": "10060931", "image_id": 560111, "question": "những gì nằm trên đường ray", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "đường sắt", "các tòa nhà", "xe điện ngầm", "xe điện", "màu đỏ", "phương tiện giao thông" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.870042, "confidences": [ 0.870042, 0.06452, 0.035216, 0.002152, 0.002136, 0.002018, 0.001547, 0.001043, 0.000741, 0.000659 ], "gate_score_top1": 0.913574, "gate_scores": [ 0.913574, 0.808105, 0.789062, 0.59668, 0.533203, 0.668945, 0.628418, 0.602051, 0.564941, 0.524414 ] }, { "question_id": "10080931", "image_id": 417653, "question": "những gì trên đường tuyết ngồi trên một chiếc ghế lớn", "ground_truth": "bức tượng", "ground_truth_normalized": "bức tượng", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "bức tượng", "băng ghế", "cây", "gấu", "cửa sổ", "đồng hồ", "con ngựa", "bức ảnh", "tòa tháp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.444188, "confidences": [ 0.444188, 0.23683, 0.024005, 0.011495, 0.010611, 0.009255, 0.009023, 0.006505, 0.006461, 0.005446 ], "gate_score_top1": 0.762695, "gate_scores": [ 0.762695, 0.715332, 0.674805, 0.606445, 0.581543, 0.581055, 0.651367, 0.61084, 0.447021, 0.56543 ] }, { "question_id": "10034501", "image_id": 126674, "question": "con thú nhồi bông trong trang phục thủy thủ ở đâu", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "phương tiện giao thông", "cửa sổ", "gương", "xe tải", "đường phố", "đường", "áo vest", "ảnh chụp", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.899102, "confidences": [ 0.899102, 0.025208, 0.017124, 0.006487, 0.006106, 0.004115, 0.003155, 0.001627, 0.001188, 0.001014 ], "gate_score_top1": 0.850098, "gate_scores": [ 0.850098, 0.739258, 0.739258, 0.766602, 0.696777, 0.625, 0.636719, 0.441162, 0.436768, 0.528809 ] }, { "question_id": "10050781", "image_id": 343009, "question": "hai người phụ nữ ngồi với nhau ở đâu", "ground_truth": "bát", "ground_truth_normalized": "bát", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "bát", "cái ghế", "phòng", "nhà ở", "quán ăn", "tạp dề", "chậu", "cái nồi", "lò vi sóng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.718816, "confidences": [ 0.718816, 0.076059, 0.07286, 0.017647, 0.013557, 0.010979, 0.004453, 0.003824, 0.00355, 0.003226 ], "gate_score_top1": 0.854492, "gate_scores": [ 0.854492, 0.785156, 0.771484, 0.709961, 0.682617, 0.688477, 0.508789, 0.623535, 0.587891, 0.609863 ] }, { "question_id": "10050871", "image_id": 275353, "question": "máy tính xách tay ở đâu", "ground_truth": "cỗ máy", "ground_truth_normalized": "cỗ máy", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng bếp", "văn phòng", "tủ lạnh", "phòng ngủ", "cái bàn", "cái ghế", "chung cư", "nhà ở", "lò vi sóng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.334815, "confidences": [ 0.334815, 0.167699, 0.037419, 0.031387, 0.028356, 0.025122, 0.02217, 0.021072, 0.020344, 0.014972 ], "gate_score_top1": 0.819336, "gate_scores": [ 0.819336, 0.78125, 0.688965, 0.666016, 0.729004, 0.59668, 0.598145, 0.677734, 0.769531, 0.571777 ] }, { "question_id": "10116151", "image_id": 175867, "question": "có bao nhiêu chiếc ô tô đang đậu trên đường này", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.643969, "confidences": [ 0.643969, 0.178824, 0.080288, 0.077818, 0.00795, 0.002684, 0.001584, 0.000887, 0.000669, 0.000512 ], "gate_score_top1": 0.88623, "gate_scores": [ 0.88623, 0.869141, 0.821777, 0.810059, 0.746582, 0.547852, 0.578613, 0.546875, 0.493408, 0.477051 ] }, { "question_id": "10042911", "image_id": 281701, "question": "người đàn ông đang giữ điện thoại di động ở đâu", "ground_truth": "tạp dề", "ground_truth_normalized": "tạp dề", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "tạp dề", "cửa hàng", "quán ăn", "cửa tiệm", "phòng", "kho", "lò vi sóng", "máy xay", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.3344, "confidences": [ 0.3344, 0.240859, 0.171463, 0.044554, 0.038109, 0.007773, 0.005395, 0.005097, 0.004826, 0.004386 ], "gate_score_top1": 0.790039, "gate_scores": [ 0.790039, 0.784668, 0.814941, 0.795898, 0.741211, 0.692383, 0.654785, 0.535645, 0.651855, 0.547363 ] }, { "question_id": "10014951", "image_id": 13274, "question": "màu của tòa nhà là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu đỏ", "màu đen", "màu xám", "màu nâu", "màu xanh lá", "màu trắng", "màu xanh dương", "màu cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.944273, "confidences": [ 0.944273, 0.042805, 0.004673, 0.00191, 0.001132, 0.000942, 0.000838, 0.000417, 0.0004, 0.000285 ], "gate_score_top1": 0.911621, "gate_scores": [ 0.911621, 0.827148, 0.724609, 0.702637, 0.671875, 0.666504, 0.750977, 0.677246, 0.756348, 0.655762 ] }, { "question_id": "10021941", "image_id": 68764, "question": "màu của đồng hồ là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu đỏ", "màu trắng", "màu nâu", "màu vàng", "màu xanh lá", "màu xanh dương", "màu cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.661094, "confidences": [ 0.661094, 0.160747, 0.121813, 0.032786, 0.004542, 0.003469, 0.002523, 0.002398, 0.001404, 0.000452 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.861328, 0.829102, 0.848633, 0.727051, 0.730469, 0.593262, 0.669922, 0.716309, 0.668457 ] }, { "question_id": "10100441", "image_id": 525908, "question": "những gì rơi ra khi anh ấy chơi tennis", "ground_truth": "nón", "ground_truth_normalized": "nón", "predicted_top1": "quả bóng", "predicted_topk": [ "quả bóng", "nón", "vợt", "dĩa nhựa", "áo sơ mi", "ván trượt", "mũ lưỡi trai", "mặt trời", "mũ", "quần short" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.315602, "confidences": [ 0.315602, 0.192923, 0.156234, 0.039968, 0.028732, 0.019479, 0.011012, 0.009756, 0.008232, 0.006621 ], "gate_score_top1": 0.772949, "gate_scores": [ 0.772949, 0.736328, 0.748535, 0.712402, 0.687012, 0.696289, 0.524902, 0.547852, 0.637695, 0.487305 ] }, { "question_id": "10083781", "image_id": 549399, "question": "những gì đỗ ở bên đường", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "đường", "mũ", "xe cộ", "ga-ra", "động cơ", "cây", "con khỉ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.932087, "confidences": [ 0.932087, 0.05238, 0.0042, 0.000842, 0.000682, 0.000301, 0.000271, 0.000147, 0.000143, 0.000133 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.852051, 0.679688, 0.580078, 0.505859, 0.566406, 0.536133, 0.477783, 0.419189, 0.378662 ] }, { "question_id": "10034831", "image_id": 555778, "question": "mọi người đang mang gì để leo lên đồi tuyết", "ground_truth": "trang thiết bị", "ground_truth_normalized": "trang thiết bị", "predicted_top1": "núi", "predicted_topk": [ "núi", "đồi", "trượt tuyết", "ván trượt", "trang thiết bị", "cây", "bầu trời", "bức ảnh", "balo", "bảng" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.393626, "confidences": [ 0.393626, 0.280215, 0.086807, 0.083481, 0.012628, 0.006866, 0.004297, 0.003629, 0.003466, 0.002526 ], "gate_score_top1": 0.79541, "gate_scores": [ 0.79541, 0.814453, 0.779785, 0.771973, 0.62793, 0.589355, 0.593262, 0.534668, 0.614258, 0.651855 ] }, { "question_id": "10103441", "image_id": 357943, "question": "chó collie nhìn về bao nhiêu con cừu hướng về mảnh đất nuôi gia súc", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "ba", "hai", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.372502, "confidences": [ 0.372502, 0.304027, 0.242392, 0.02595, 0.016624, 0.015925, 0.004563, 0.002912, 0.001769, 0.001419 ], "gate_score_top1": 0.857422, "gate_scores": [ 0.857422, 0.838867, 0.833496, 0.714355, 0.693359, 0.659668, 0.632324, 0.597656, 0.562012, 0.562012 ] }, { "question_id": "10039651", "image_id": 204345, "question": "gấu teddy nhét ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "giường", "predicted_topk": [ "giường", "phòng ngủ", "phòng", "màu trắng", "hành lang", "màu nâu", "cái ghế", "cửa sổ", "nhiều cái ghế", "khăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.619817, "confidences": [ 0.619817, 0.285998, 0.056537, 0.007742, 0.001324, 0.001264, 0.000767, 0.000625, 0.0006, 0.000553 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.840332, 0.830566, 0.713867, 0.498779, 0.587891, 0.57959, 0.532715, 0.416016, 0.520508 ] }, { "question_id": "10117161", "image_id": 186753, "question": "có bao nhiêu nam giới trong một căn phòng và một số người đang chơi trò chơi điện tử", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "bảy", "tám", "chín", "một", "hai", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.726899, "confidences": [ 0.726899, 0.175373, 0.044341, 0.034668, 0.007675, 0.001757, 0.001293, 0.00089, 0.000801, 0.000497 ], "gate_score_top1": 0.893555, "gate_scores": [ 0.893555, 0.845215, 0.733398, 0.77002, 0.70166, 0.604492, 0.586426, 0.572754, 0.599121, 0.515137 ] }, { "question_id": "10109811", "image_id": 186888, "question": "có bao nhiêu cậu bé đang ngồi bên ngoài bậc thềm", "ground_truth": "chín", "ground_truth_normalized": "chín", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "năm", "bảy", "bốn", "chín", "tám", "mười", "sân vận động", "một", "gậy" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.507262, "confidences": [ 0.507262, 0.263164, 0.12431, 0.037034, 0.015804, 0.005657, 0.002929, 0.001316, 0.001216, 0.001066 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.828613, 0.766113, 0.67627, 0.678711, 0.632324, 0.56543, 0.616699, 0.549805, 0.494629 ] }, { "question_id": "10080171", "image_id": 356827, "question": "người đang cưỡi ván trượt trên tuyết phủ đang cầm cái gì", "ground_truth": "ba lan", "ground_truth_normalized": "ba lan", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "đồi", "núi", "trượt tuyết", "cây", "trang thiết bị", "cây sào", "bức ảnh", "ba lan", "bầu trời" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.51889, "confidences": [ 0.51889, 0.136956, 0.119923, 0.085038, 0.008097, 0.006739, 0.005067, 0.004769, 0.004184, 0.00311 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.800293, 0.763672, 0.776367, 0.638184, 0.605469, 0.634766, 0.606445, 0.571777, 0.600586 ] }, { "question_id": "10089221", "image_id": 431481, "question": "những gì bao gồm bánh mì kẹp thịt rau và bông cải xanh", "ground_truth": "bữa trưa", "ground_truth_normalized": "bữa trưa", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "sandwich", "bữa ăn", "dĩa", "thịt", "bữa trưa", "món ăn", "quán ăn", "đĩa", "cái nĩa" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.703093, "confidences": [ 0.703093, 0.058394, 0.047104, 0.014822, 0.014006, 0.010388, 0.009721, 0.006227, 0.006012, 0.004485 ], "gate_score_top1": 0.820312, "gate_scores": [ 0.820312, 0.733887, 0.716797, 0.65625, 0.635254, 0.484131, 0.644043, 0.675293, 0.518066, 0.580566 ] }, { "question_id": "10118181", "image_id": 521752, "question": "có bao nhiêu thanh thiếu niên đang học với máy tính xách tay của họ trong phòng khách", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "chín", "tám", "ba", "mười", "một", "đồng hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.360758, "confidences": [ 0.360758, 0.31589, 0.258831, 0.032907, 0.004071, 0.003656, 0.003523, 0.001102, 0.000632, 0.000308 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.829102, 0.817871, 0.733887, 0.60791, 0.629395, 0.602051, 0.544922, 0.505859, 0.514648 ] }, { "question_id": "10035951", "image_id": 421400, "question": "người phụ nữ vuốt ve ở đâu", "ground_truth": "lồng", "ground_truth_normalized": "lồng", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "lồng", "chuồng trại", "vườn bách thú", "rào chắn", "con ngựa", "xe tải", "bãi cỏ", "cửa tiệm", "đường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.543909, "confidences": [ 0.543909, 0.283281, 0.020641, 0.012326, 0.006482, 0.005188, 0.00478, 0.003608, 0.003497, 0.003175 ], "gate_score_top1": 0.827637, "gate_scores": [ 0.827637, 0.835449, 0.700684, 0.754883, 0.550293, 0.692383, 0.586914, 0.552246, 0.554688, 0.592285 ] }, { "question_id": "10096721", "image_id": 373793, "question": "quang cảnh nào với nhà vệ sinh, vòi hoa sen và bồn rửa", "ground_truth": "ô cửa", "ground_truth_normalized": "ô cửa", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "cửa", "tường", "nhà ở", "ô cửa", "bồn tắm", "khăn", "bức ảnh", "gương" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.334887, "confidences": [ 0.334887, 0.175785, 0.070747, 0.049197, 0.03869, 0.030786, 0.025523, 0.02145, 0.019761, 0.019266 ], "gate_score_top1": 0.744629, "gate_scores": [ 0.744629, 0.787598, 0.70752, 0.679688, 0.753418, 0.66748, 0.72998, 0.654297, 0.624512, 0.650391 ] }, { "question_id": "10048121", "image_id": 323583, "question": "gấu bắc cực đang đi lang thang ở đâu", "ground_truth": "bồn tắm", "ground_truth_normalized": "bồn tắm", "predicted_top1": "hồ bơi", "predicted_topk": [ "hồ bơi", "bồn tắm", "bát", "chậu", "chuồng", "vườn bách thú", "cái nồi", "cái rổ", "sân vườn", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.574783, "confidences": [ 0.574783, 0.301708, 0.015109, 0.007568, 0.006034, 0.004644, 0.003596, 0.003149, 0.003058, 0.002912 ], "gate_score_top1": 0.836914, "gate_scores": [ 0.836914, 0.824219, 0.640625, 0.662598, 0.700195, 0.718262, 0.675781, 0.681641, 0.685547, 0.56543 ] }, { "question_id": "10047051", "image_id": 245857, "question": "nhà bếp sạch sẽ và ánh sáng đến từ đâu", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "nhà ở", "phòng", "cửa sổ", "phòng tắm", "tường", "chậu", "lò vi sóng", "cửa", "quầy tính tiền" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.590798, "confidences": [ 0.590798, 0.167294, 0.044502, 0.019748, 0.01442, 0.011164, 0.010529, 0.009475, 0.007394, 0.005826 ], "gate_score_top1": 0.830566, "gate_scores": [ 0.830566, 0.822754, 0.790039, 0.732422, 0.687988, 0.608887, 0.688477, 0.587402, 0.672852, 0.577148 ] }, { "question_id": "10118701", "image_id": 382670, "question": "có bao nhiêu con bò đứng trên thuyền trên hồ", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.570898, "confidences": [ 0.570898, 0.383283, 0.025182, 0.011711, 0.004192, 0.00074, 0.000322, 0.000235, 0.000217, 0.000105 ], "gate_score_top1": 0.891602, "gate_scores": [ 0.891602, 0.89209, 0.808594, 0.752441, 0.706055, 0.462891, 0.510254, 0.471924, 0.463623, 0.390625 ] }, { "question_id": "10100641", "image_id": 342377, "question": "cái gì đựng cà rốt và các loại rau khác", "ground_truth": "rau quả", "ground_truth_normalized": "rau quả", "predicted_top1": "rau", "predicted_topk": [ "rau", "cà rốt", "hoa quả", "cửa hàng", "bông cải xanh", "rau quả", "táo", "cây", "những quả cam", "cái mâm" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.568507, "confidences": [ 0.568507, 0.111509, 0.081582, 0.075746, 0.013163, 0.005875, 0.005339, 0.004409, 0.004174, 0.003478 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.8125, 0.796875, 0.738281, 0.769043, 0.570312, 0.650879, 0.671875, 0.72168, 0.710449 ] }, { "question_id": "10111301", "image_id": 296693, "question": "xe buýt bao nhiêu sao '' có wifi miễn phí trên tàu", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.400675, "confidences": [ 0.400675, 0.231893, 0.158756, 0.094428, 0.07707, 0.010229, 0.005715, 0.002668, 0.002359, 0.002111 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.803711, 0.810059, 0.771973, 0.804199, 0.599121, 0.622559, 0.553711, 0.560547, 0.546387 ] }, { "question_id": "10111501", "image_id": 327183, "question": "có bao nhiêu phần tráng miệng trên đĩa với một cái nĩa", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.454468, "confidences": [ 0.454468, 0.417043, 0.05139, 0.041454, 0.01592, 0.005459, 0.00311, 0.002609, 0.000617, 0.000551 ], "gate_score_top1": 0.876953, "gate_scores": [ 0.876953, 0.87793, 0.81543, 0.777344, 0.603027, 0.649902, 0.62207, 0.587402, 0.458252, 0.490234 ] }, { "question_id": "10037741", "image_id": 370170, "question": "một số mì và rau ở đâu", "ground_truth": "bát", "ground_truth_normalized": "bát", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "bát", "món ăn", "cái nồi", "lò vi sóng", "chén đĩa", "đĩa ăn", "quầy tính tiền", "bữa ăn", "pizza" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.668953, "confidences": [ 0.668953, 0.117158, 0.073316, 0.070232, 0.006246, 0.004912, 0.004343, 0.003298, 0.003014, 0.001691 ], "gate_score_top1": 0.881348, "gate_scores": [ 0.881348, 0.793457, 0.757812, 0.821777, 0.689941, 0.618652, 0.67041, 0.578125, 0.611328, 0.566406 ] }, { "question_id": "10025891", "image_id": 578964, "question": "thứ bắt được ở đâu", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "bàn phím", "predicted_topk": [ "bàn phím", "ảnh chụp", "chuột", "hộp", "máy tính", "màu đen", "laptop", "cái ghế", "xe ô tô", "điện thoại" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.145765, "confidences": [ 0.145765, 0.090507, 0.089278, 0.059822, 0.047046, 0.01927, 0.018173, 0.014847, 0.014016, 0.012345 ], "gate_score_top1": 0.683105, "gate_scores": [ 0.683105, 0.597656, 0.701172, 0.658203, 0.701172, 0.541992, 0.774902, 0.515137, 0.544922, 0.645996 ] }, { "question_id": "10050301", "image_id": 126958, "question": "ngưỡng cửa ở đâu", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "nhà ở", "phòng", "phòng ngủ", "gương", "hành lang", "tường", "vòi hoa sen", "cửa", "ô cửa" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.268986, "confidences": [ 0.268986, 0.128056, 0.119362, 0.092597, 0.086986, 0.035352, 0.024584, 0.024014, 0.02111, 0.019221 ], "gate_score_top1": 0.787598, "gate_scores": [ 0.787598, 0.791504, 0.777832, 0.83252, 0.821289, 0.638672, 0.613281, 0.725098, 0.672363, 0.648926 ] }, { "question_id": "10066881", "image_id": 448114, "question": "những gì đang kéo hai chiếc xe tải nhỏ hơn", "ground_truth": "đoạn phim giới thiệu", "ground_truth_normalized": "đoạn phim giới thiệu", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "xe cộ", "động cơ", "xe ô tô", "đoạn phim giới thiệu", "xe đẩy", "con thuyền", "xe buýt", "ga-ra" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.951718, "confidences": [ 0.951718, 0.013523, 0.008495, 0.00271, 0.001837, 0.001713, 0.000763, 0.000737, 0.000721, 0.000548 ], "gate_score_top1": 0.893555, "gate_scores": [ 0.893555, 0.774414, 0.713867, 0.615723, 0.574707, 0.543457, 0.595215, 0.63916, 0.618164, 0.438965 ] }, { "question_id": "10031451", "image_id": 452441, "question": "những hộp đầy màu sắc được xếp chồng lên nhau ở đâu", "ground_truth": "gian hàng", "ground_truth_normalized": "gian hàng", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "cửa sổ", "cửa tiệm", "phòng", "cái ghế", "gian hàng", "hộp", "ảnh chụp", "xe lăn", "cái rổ" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.378134, "confidences": [ 0.378134, 0.129662, 0.129157, 0.041931, 0.038629, 0.027823, 0.017445, 0.014378, 0.010561, 0.008687 ], "gate_score_top1": 0.821289, "gate_scores": [ 0.821289, 0.775879, 0.787598, 0.756348, 0.702637, 0.710938, 0.711914, 0.544434, 0.691895, 0.708984 ] }, { "question_id": "10049571", "image_id": 527691, "question": "người phụ nữ đóng gói quần áo ở đâu", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "phòng ngủ", "cái túi", "phòng", "hành lý", "giường", "túi", "sàn nhà", "balo", "hành lang" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.276883, "confidences": [ 0.276883, 0.183725, 0.134942, 0.076888, 0.060823, 0.057586, 0.016791, 0.009794, 0.009237, 0.007916 ], "gate_score_top1": 0.773438, "gate_scores": [ 0.773438, 0.811035, 0.769531, 0.774414, 0.693359, 0.723633, 0.567383, 0.587891, 0.553223, 0.5625 ] }, { "question_id": "10078051", "image_id": 474095, "question": "anh chàng ngồi trên nhà vệ sinh hút gì", "ground_truth": "thuốc lá", "ground_truth_normalized": "thuốc lá", "predicted_top1": "bàn chải", "predicted_topk": [ "bàn chải", "máy ảnh", "thuốc lá", "điện thoại", "phòng tắm", "nón", "máy sấy khô", "chuối", "đồ uống", "cây kéo" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.176601, "confidences": [ 0.176601, 0.112693, 0.105866, 0.034236, 0.022673, 0.021133, 0.01993, 0.018006, 0.016588, 0.011808 ], "gate_score_top1": 0.729492, "gate_scores": [ 0.729492, 0.734863, 0.566406, 0.710449, 0.601074, 0.70166, 0.580566, 0.567871, 0.514648, 0.62207 ] }, { "question_id": "10050431", "image_id": 511148, "question": "con mèo nhỏ, đen ngủ trưa ở đâu", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "hộp", "thùng chứa", "xe đẩy", "túi", "cái ví", "toa xe", "ngăn kéo" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.889887, "confidences": [ 0.889887, 0.038946, 0.015431, 0.010523, 0.005417, 0.003948, 0.00347, 0.002307, 0.00213, 0.001876 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.836426, 0.76416, 0.735352, 0.737305, 0.719727, 0.705078, 0.641602, 0.61377, 0.542969 ] }, { "question_id": "10111641", "image_id": 90985, "question": "có bao nhiêu quả cam được xếp vào vòng tròn với một quả cà chua nhỏ ở trên", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "bốn", "năm", "tám", "một", "ba", "chín", "bát", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.272344, "confidences": [ 0.272344, 0.218835, 0.217132, 0.183559, 0.013271, 0.007401, 0.005187, 0.004595, 0.004095, 0.003565 ], "gate_score_top1": 0.803711, "gate_scores": [ 0.803711, 0.786621, 0.743164, 0.800781, 0.62793, 0.597656, 0.564941, 0.585449, 0.716309, 0.561523 ] }, { "question_id": "10063871", "image_id": 364580, "question": "cái gì đang hướng về phía hai chiếc ghế", "ground_truth": "đi văng", "ground_truth_normalized": "đi văng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhiều cái ghế", "đi văng", "nhà ở", "cửa sổ", "chung cư", "bức ảnh", "cái ghế", "tường", "cái kệ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.495229, "confidences": [ 0.495229, 0.073322, 0.072752, 0.049226, 0.023117, 0.021131, 0.017314, 0.013912, 0.009304, 0.006444 ], "gate_score_top1": 0.834961, "gate_scores": [ 0.834961, 0.696289, 0.654297, 0.777832, 0.652832, 0.618164, 0.572754, 0.695801, 0.53125, 0.571289 ] }, { "question_id": "10100181", "image_id": 395575, "question": "những gì nằm giữa ao và đường cây", "ground_truth": "băng ghế", "ground_truth_normalized": "băng ghế", "predicted_top1": "hồ bơi", "predicted_topk": [ "hồ bơi", "sân vườn", "băng ghế", "bồn tắm", "tường", "sân", "chiếc ô", "hồ", "bức tượng", "phòng tắm" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.861937, "confidences": [ 0.861937, 0.045503, 0.013878, 0.00375, 0.002393, 0.00236, 0.002265, 0.002025, 0.001966, 0.001847 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.803711, 0.713867, 0.712402, 0.499268, 0.65918, 0.64502, 0.376221, 0.655762, 0.55127 ] }, { "question_id": "10085851", "image_id": 407286, "question": "ba chú chó nhỏ nhìn ra những gì trong khi ngồi trên lòng một người phụ nữ", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "cửa sổ", "con chó", "gương", "đường phố", "áo vest", "đường", "cà vạt", "cửa", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.304384, "confidences": [ 0.304384, 0.201186, 0.077262, 0.020273, 0.01082, 0.010683, 0.010631, 0.009282, 0.007763, 0.007229 ], "gate_score_top1": 0.728516, "gate_scores": [ 0.728516, 0.736328, 0.727539, 0.611328, 0.442871, 0.492188, 0.61084, 0.564453, 0.56543, 0.512695 ] }, { "question_id": "10104281", "image_id": 532753, "question": "bao nhiêu máy bay phản lực màu đỏ bay trong không khí và để lại một vệt khói", "ground_truth": "chín", "ground_truth_normalized": "chín", "predicted_top1": "bảy", "predicted_topk": [ "bảy", "sáu", "chín", "bốn", "năm", "tám", "máy bay", "mười", "sân vận động", "bầu trời" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.365212, "confidences": [ 0.365212, 0.352596, 0.131755, 0.050995, 0.01302, 0.011558, 0.00394, 0.001881, 0.001731, 0.001399 ], "gate_score_top1": 0.826172, "gate_scores": [ 0.826172, 0.850586, 0.77832, 0.705566, 0.681641, 0.650391, 0.588867, 0.524902, 0.552734, 0.45459 ] }, { "question_id": "10111941", "image_id": 389418, "question": "có bao nhiêu nhà vệ sinh xếp hàng trên bàn bên ngoài cạnh bức vẽ graffiti trên một tòa nhà", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "ba", "chín", "tám", "một", "mười", "phòng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.476747, "confidences": [ 0.476747, 0.173342, 0.172666, 0.115471, 0.006814, 0.005931, 0.005194, 0.003353, 0.002148, 0.000979 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.766602, 0.777344, 0.806641, 0.64502, 0.65625, 0.572266, 0.560547, 0.571777, 0.655273 ] }, { "question_id": "10097131", "image_id": 434930, "question": "cô gái tóc vàng nhỏ bé đang ăn gì với sô cô la phủ sương", "ground_truth": "cupcake", "ground_truth_normalized": "cupcake", "predicted_top1": "donut", "predicted_topk": [ "donut", "cupcake", "sô cô la", "bánh ngọt", "sandwich", "cái mâm", "bánh", "búi tóc", "dao", "đĩa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.295362, "confidences": [ 0.295362, 0.274234, 0.120744, 0.076749, 0.021775, 0.020617, 0.016056, 0.008611, 0.007111, 0.006059 ], "gate_score_top1": 0.766602, "gate_scores": [ 0.766602, 0.756348, 0.71582, 0.770996, 0.766602, 0.720215, 0.71582, 0.661621, 0.581543, 0.629883 ] }, { "question_id": "10048161", "image_id": 361888, "question": "một con hươu cao cổ và một con đà điểu sống ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "bảo tàng", "bãi cỏ", "chuồng trại", "lá", "cây", "gấu trúc" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.481457, "confidences": [ 0.481457, 0.466644, 0.025716, 0.002663, 0.0012, 0.001106, 0.000999, 0.000963, 0.000846, 0.000631 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.886719, 0.852051, 0.668457, 0.623535, 0.579102, 0.695312, 0.598145, 0.666016, 0.683594 ] }, { "question_id": "10117971", "image_id": 268124, "question": "có bao nhiêu người đàn ông trên lưng ngựa đàn một số con ngựa qua suối", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "một", "ba", "tám", "mười", "hai", "chín" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.506899, "confidences": [ 0.506899, 0.212134, 0.173816, 0.039241, 0.007926, 0.007788, 0.00674, 0.005765, 0.004411, 0.004056 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.828613, 0.775879, 0.727539, 0.641113, 0.593262, 0.643066, 0.605957, 0.551758, 0.645508 ] }, { "question_id": "10042221", "image_id": 71507, "question": "điện thoại di động nằm ở đâu", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "điện thoại", "gian hàng", "cửa hàng", "trạm", "tòa nhà", "cửa tiệm", "hộp", "ảnh chụp", "gương" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.068302, "confidences": [ 0.068302, 0.063913, 0.044099, 0.042993, 0.035434, 0.032453, 0.027435, 0.026852, 0.026026, 0.024931 ], "gate_score_top1": 0.733887, "gate_scores": [ 0.733887, 0.668945, 0.623535, 0.776855, 0.601562, 0.69043, 0.750977, 0.652832, 0.500977, 0.655762 ] }, { "question_id": "10072861", "image_id": 578553, "question": "những gì đang ở trong túi hành lý", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "giường", "bàn phím", "cái bàn", "hộp", "chuột", "con mèo", "cái ghế", "trang thiết bị" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.711227, "confidences": [ 0.711227, 0.233624, 0.005357, 0.004296, 0.003137, 0.002259, 0.001722, 0.001013, 0.000984, 0.000954 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.844727, 0.743164, 0.692383, 0.725586, 0.625488, 0.635742, 0.650879, 0.505371, 0.491699 ] }, { "question_id": "10088451", "image_id": 447842, "question": "cửa sổ của tòa nhà thành phố phản ánh trong nền; đèn giao thông nằm ở phía trước", "ground_truth": "các tòa nhà", "ground_truth_normalized": "các tòa nhà", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "các tòa nhà", "lá cờ", "đường phố", "xe ô tô", "bức ảnh", "áo vest", "cây", "ảnh chụp", "đồng hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.340019, "confidences": [ 0.340019, 0.105333, 0.03936, 0.039207, 0.030475, 0.01907, 0.016569, 0.01141, 0.01045, 0.009923 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.740234, 0.694336, 0.644043, 0.669434, 0.575684, 0.70752, 0.724609, 0.608398, 0.602051 ] }, { "question_id": "10094721", "image_id": 519338, "question": "cái gì đang trên đầu đường ray", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "đường sắt", "các tòa nhà", "hàng hoá", "xe điện", "xe đẩy", "phương tiện giao thông", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.766933, "confidences": [ 0.766933, 0.138582, 0.055124, 0.003227, 0.002553, 0.002455, 0.001206, 0.001169, 0.001075, 0.000943 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.828613, 0.789062, 0.577148, 0.652832, 0.564453, 0.581543, 0.615234, 0.547363, 0.617188 ] }, { "question_id": "10092251", "image_id": 382671, "question": "những gì đang diễn ra dọc theo bờ sông", "ground_truth": "gia súc", "ground_truth_normalized": "gia súc", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "con cừu", "bò đực", "con ngựa", "bãi cỏ", "chuồng trại", "con chó", "đồi", "ngựa vằn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.519771, "confidences": [ 0.519771, 0.296156, 0.058545, 0.025377, 0.012836, 0.007546, 0.0049, 0.003677, 0.003482, 0.003085 ], "gate_score_top1": 0.855469, "gate_scores": [ 0.855469, 0.789062, 0.756348, 0.699707, 0.745605, 0.680664, 0.603516, 0.567383, 0.612793, 0.584473 ] }, { "question_id": "10094201", "image_id": 459487, "question": "những gì gặm cỏ trong thung lũng gần một thị trấn nhỏ", "ground_truth": "con cừu", "ground_truth_normalized": "con cừu", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "con ngựa", "con cừu", "con chó", "bò đực", "bãi cỏ", "ngựa vằn", "gấu", "chuồng trại" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.323203, "confidences": [ 0.323203, 0.18926, 0.159373, 0.138466, 0.036262, 0.011981, 0.009741, 0.009313, 0.005063, 0.003936 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.759766, 0.787598, 0.78125, 0.702148, 0.646973, 0.67334, 0.626953, 0.584961, 0.486572 ] }, { "question_id": "10028741", "image_id": 559682, "question": "cái muỗng ở đâu", "ground_truth": "cái lọ", "ground_truth_normalized": "cái lọ", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái lọ", "tách", "thùng chứa", "chậu", "cái rổ", "lọ cắm hoa", "màu cam", "quả cam", "cái nồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.428359, "confidences": [ 0.428359, 0.152141, 0.055317, 0.04325, 0.027171, 0.02356, 0.011151, 0.009263, 0.006316, 0.005695 ], "gate_score_top1": 0.80957, "gate_scores": [ 0.80957, 0.756348, 0.716797, 0.709961, 0.612793, 0.649902, 0.617188, 0.527344, 0.435547, 0.583984 ] }, { "question_id": "10104201", "image_id": 577796, "question": "có bao nhiêu bồn tiểu được gắn vào tường với những người chia nhỏ màu trắng", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.693088, "confidences": [ 0.693088, 0.18365, 0.089854, 0.011972, 0.006091, 0.003994, 0.002529, 0.001829, 0.001124, 0.000513 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.860352, 0.816895, 0.642578, 0.716309, 0.702637, 0.644043, 0.60498, 0.602539, 0.516113 ] }, { "question_id": "10081291", "image_id": 480345, "question": "ngựa vằn ăn gì từ đỉnh cây", "ground_truth": "lá", "ground_truth_normalized": "lá", "predicted_top1": "cây", "predicted_topk": [ "cây", "lá", "vườn bách thú", "bãi cỏ", "chuồng", "lồng", "hươu cao cổ", "đường", "màu xanh lá", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.212103, "confidences": [ 0.212103, 0.18718, 0.144078, 0.106652, 0.045159, 0.017107, 0.015607, 0.014805, 0.014575, 0.011919 ], "gate_score_top1": 0.766113, "gate_scores": [ 0.766113, 0.740234, 0.811523, 0.697266, 0.695312, 0.742188, 0.669434, 0.634766, 0.561035, 0.51416 ] }, { "question_id": "10075401", "image_id": 447948, "question": "những gì dừng lại với cửa mở và núi trong nền", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "xe cộ", "xe buýt", "động cơ", "xe đẩy", "đoạn phim giới thiệu", "xe ô tô", "hàng hóa", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.930394, "confidences": [ 0.930394, 0.023292, 0.01931, 0.00267, 0.001377, 0.001374, 0.000755, 0.000644, 0.000444, 0.000429 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.774902, 0.727539, 0.657715, 0.556641, 0.604004, 0.491699, 0.560059, 0.398438, 0.47998 ] }, { "question_id": "10033101", "image_id": 403424, "question": "bàn chải đánh răng và kem đánh răng ở đâu", "ground_truth": "cái lọ", "ground_truth_normalized": "cái lọ", "predicted_top1": "tách", "predicted_topk": [ "tách", "bát", "thùng chứa", "cái nồi", "lọ cắm hoa", "cái lọ", "chậu", "người giữ", "cái rổ", "tường" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.376782, "confidences": [ 0.376782, 0.11313, 0.101014, 0.066766, 0.050006, 0.048847, 0.030928, 0.018577, 0.015983, 0.010239 ], "gate_score_top1": 0.794922, "gate_scores": [ 0.794922, 0.805176, 0.755371, 0.719727, 0.745117, 0.753906, 0.70459, 0.548828, 0.686035, 0.549316 ] }, { "question_id": "10103781", "image_id": 381254, "question": "có bao nhiêu con voi ở gần mặt nước", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "tám", "bảy", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.732294, "confidences": [ 0.732294, 0.200198, 0.049639, 0.005526, 0.002923, 0.001349, 0.000915, 0.000902, 0.000296, 0.000293 ], "gate_score_top1": 0.880371, "gate_scores": [ 0.880371, 0.868652, 0.762695, 0.733887, 0.5625, 0.619141, 0.560059, 0.564453, 0.45166, 0.47168 ] }, { "question_id": "10098571", "image_id": 568687, "question": "những gì chứa đầy những chiếc xe đang được thúc đẩy", "ground_truth": "xa lộ", "ground_truth_normalized": "xa lộ", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe tải", "đường", "xe cộ", "phương tiện giao thông", "xe buýt", "đường phố", "động cơ", "gương", "bầu trời" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.945246, "confidences": [ 0.945246, 0.008843, 0.007446, 0.005913, 0.005058, 0.001769, 0.00138, 0.000888, 0.000788, 0.000675 ], "gate_score_top1": 0.870117, "gate_scores": [ 0.870117, 0.731934, 0.717285, 0.717285, 0.741211, 0.741211, 0.528809, 0.521973, 0.645996, 0.472412 ] }, { "question_id": "10075171", "image_id": 347254, "question": "người đàn ông có râu mũm mĩm đang cầm cái gì", "ground_truth": "đồ uống", "ground_truth_normalized": "đồ uống", "predicted_top1": "nước", "predicted_topk": [ "nước", "đồ uống", "rượu", "kính đeo", "quán bar", "máy xay", "nến", "chai", "quả táo", "bia" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.358345, "confidences": [ 0.358345, 0.128272, 0.051423, 0.017564, 0.013652, 0.010981, 0.010245, 0.009901, 0.008543, 0.008264 ], "gate_score_top1": 0.746582, "gate_scores": [ 0.746582, 0.695801, 0.679688, 0.613281, 0.64502, 0.60791, 0.681641, 0.646484, 0.643555, 0.546875 ] }, { "question_id": "10047151", "image_id": 34689, "question": "bàn chải đánh răng duy nhất nằm ở đâu", "ground_truth": "người giữ", "ground_truth_normalized": "người giữ", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "hộp", "thùng chứa", "tách", "cái nồi", "cái rổ", "bát", "tường", "cái lọ", "ảnh chụp" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.206385, "confidences": [ 0.206385, 0.178611, 0.160733, 0.073016, 0.026496, 0.025135, 0.018175, 0.013586, 0.013428, 0.012516 ], "gate_score_top1": 0.779297, "gate_scores": [ 0.779297, 0.754883, 0.803223, 0.731934, 0.654297, 0.692383, 0.736328, 0.530273, 0.675293, 0.553223 ] }, { "question_id": "10114981", "image_id": 571405, "question": "có bao nhiêu người đang đánh răng cùng một lúc", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "tám", "chín", "ba", "mười", "một", "sân vận động" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.335888, "confidences": [ 0.335888, 0.32302, 0.254534, 0.049731, 0.009057, 0.004414, 0.003261, 0.001633, 0.000833, 0.000314 ], "gate_score_top1": 0.826172, "gate_scores": [ 0.826172, 0.831543, 0.816406, 0.768555, 0.652344, 0.642578, 0.581055, 0.52832, 0.507812, 0.499268 ] }, { "question_id": "10106331", "image_id": 414680, "question": "có bao nhiêu bông hoa thủy tiên vàng trong một cái bát thủy tinh trong suốt", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "một", "hai", "tám", "chín", "mười" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.421303, "confidences": [ 0.421303, 0.174259, 0.114729, 0.106107, 0.053772, 0.03287, 0.026828, 0.006021, 0.003702, 0.003299 ], "gate_score_top1": 0.825195, "gate_scores": [ 0.825195, 0.772461, 0.729492, 0.686523, 0.693848, 0.66748, 0.661621, 0.549805, 0.567383, 0.485596 ] }, { "question_id": "10052901", "image_id": 364470, "question": "điều gì thu nhận ánh sáng vào phòng khách", "ground_truth": "cửa sổ", "ground_truth_normalized": "cửa sổ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "nhiều cái ghế", "đi văng", "cửa sổ", "bức ảnh", "chung cư", "cây", "tường", "phòng ngủ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.368657, "confidences": [ 0.368657, 0.092125, 0.076374, 0.062579, 0.060891, 0.027661, 0.01779, 0.014183, 0.012298, 0.010727 ], "gate_score_top1": 0.828125, "gate_scores": [ 0.828125, 0.807129, 0.710449, 0.666992, 0.689941, 0.603516, 0.610352, 0.539062, 0.519531, 0.633301 ] }, { "question_id": "10087571", "image_id": 445658, "question": "những gì lộn xộn với vật tư nấu ăn", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quầy tính tiền", "bếp", "tủ đá", "chậu", "lò vi sóng", "tường", "tủ lạnh", "nhà ở", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.626939, "confidences": [ 0.626939, 0.073716, 0.065054, 0.052477, 0.043167, 0.011438, 0.00683, 0.005105, 0.005046, 0.005036 ], "gate_score_top1": 0.800781, "gate_scores": [ 0.800781, 0.707031, 0.744629, 0.817383, 0.728516, 0.598633, 0.620117, 0.645996, 0.666992, 0.569336 ] }, { "question_id": "10028231", "image_id": 348639, "question": "hai tàu màu vàng ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "tòa nhà", "xe điện ngầm", "tàu hỏa", "kho", "sân bay", "ga-ra", "các tòa nhà", "bảo tàng", "đường sắt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.911278, "confidences": [ 0.911278, 0.025851, 0.019666, 0.00804, 0.003451, 0.002491, 0.002344, 0.001134, 0.001032, 0.00103 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.785645, 0.714844, 0.740723, 0.68457, 0.646973, 0.731934, 0.568359, 0.624512, 0.652344 ] }, { "question_id": "10050211", "image_id": 535253, "question": "sự đa dạng của các mặt hàng được trưng bày ở đâu", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "tủ lạnh", "predicted_topk": [ "tủ lạnh", "tủ đá", "xe đẩy", "cái rổ", "cửa", "cửa hàng", "phòng bếp", "toa xe", "thùng chứa", "cái kệ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.170944, "confidences": [ 0.170944, 0.095891, 0.082825, 0.058846, 0.049845, 0.030589, 0.028456, 0.023591, 0.022687, 0.0201 ], "gate_score_top1": 0.723145, "gate_scores": [ 0.723145, 0.679688, 0.769531, 0.730957, 0.666504, 0.645996, 0.574707, 0.634277, 0.61377, 0.55127 ] }, { "question_id": "10009401", "image_id": 252868, "question": "màu của thân cây là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu xanh dương", "màu đen", "màu vàng", "màu trắng", "màu tía", "màu xám", "màu đỏ", "màu nâu", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.694059, "confidences": [ 0.694059, 0.227095, 0.026186, 0.024503, 0.00765, 0.005341, 0.004095, 0.001585, 0.001539, 0.000857 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.854004, 0.752441, 0.791992, 0.759277, 0.756348, 0.694336, 0.662109, 0.705078, 0.740234 ] }, { "question_id": "10002991", "image_id": 395627, "question": "màu của bếp là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu trắng", "màu xám", "màu nâu", "màu đen", "màu tía", "màu vàng", "màu xanh lá", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.857318, "confidences": [ 0.857318, 0.091426, 0.020884, 0.006007, 0.004259, 0.00397, 0.002676, 0.002529, 0.00112, 0.001094 ], "gate_score_top1": 0.887695, "gate_scores": [ 0.887695, 0.841309, 0.798828, 0.767578, 0.663574, 0.76123, 0.725098, 0.637695, 0.680664, 0.654297 ] }, { "question_id": "10017931", "image_id": 182960, "question": "màu của chiếc ô là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu vàng", "màu đen", "màu xanh dương", "màu trắng", "màu đỏ", "màu tía", "màu xanh lá", "màu cam", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.514242, "confidences": [ 0.514242, 0.357599, 0.048019, 0.014362, 0.011229, 0.00543, 0.003667, 0.002037, 0.001523, 0.001369 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.808594, 0.686523, 0.715332, 0.740234, 0.655273, 0.616211, 0.500977, 0.626465, 0.483643 ] }, { "question_id": "10104131", "image_id": 517430, "question": "có bao nhiêu người đàn ông đang làm việc trên máy bay bên ngoài", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.617911, "confidences": [ 0.617911, 0.296477, 0.067722, 0.008476, 0.003281, 0.001805, 0.000516, 0.000367, 0.0002, 0.00018 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.880859, 0.86084, 0.744141, 0.70459, 0.51709, 0.527344, 0.508789, 0.440674, 0.438965 ] }, { "question_id": "10110121", "image_id": 356159, "question": "có bao nhiêu người trong bộ môn thể thao lướt sóng trên một làn sóng", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.845766, "confidences": [ 0.845766, 0.097905, 0.04553, 0.00588, 0.001257, 0.000771, 0.000226, 0.000195, 0.000138, 8.1e-05 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.865723, 0.856934, 0.759277, 0.652344, 0.538086, 0.47583, 0.477051, 0.407471, 0.390869 ] }, { "question_id": "10073891", "image_id": 352080, "question": "những gì chứa đầy những mảnh quần áo màu sắc khác nhau", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "túi", "xe đẩy", "cái ví", "balo", "toa xe", "hộp", "sàn nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.854166, "confidences": [ 0.854166, 0.061155, 0.028775, 0.012669, 0.003477, 0.002635, 0.00263, 0.002267, 0.001832, 0.001715 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.838379, 0.770996, 0.728027, 0.712402, 0.681641, 0.583496, 0.604492, 0.655762, 0.546387 ] }, { "question_id": "10072931", "image_id": 400336, "question": "có gì đứng một mình trong tự nhiên", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "hươu cao cổ", "predicted_topk": [ "hươu cao cổ", "ngựa rằn", "ngựa vằn", "cây", "lá", "hai", "con ngựa", "con chim", "bãi cỏ", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.896229, "confidences": [ 0.896229, 0.085006, 0.004505, 0.00231, 0.000756, 0.000507, 0.000443, 0.00042, 0.000323, 0.000304 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.834473, 0.710449, 0.655762, 0.516113, 0.59082, 0.598145, 0.594727, 0.552734, 0.586426 ] }, { "question_id": "10031941", "image_id": 511802, "question": "người đàn ông đang giữ một ván trượt đang đứng ở đâu", "ground_truth": "ô cửa", "ground_truth_normalized": "ô cửa", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "ô cửa", "kho", "trạm", "phòng", "ga-ra", "bảo tàng", "nhà ở", "cửa tiệm", "văn phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.498965, "confidences": [ 0.498965, 0.082093, 0.051978, 0.04377, 0.042093, 0.039388, 0.017998, 0.016388, 0.013014, 0.010747 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.690918, 0.766113, 0.722656, 0.719727, 0.740723, 0.768066, 0.698242, 0.747559, 0.706055 ] }, { "question_id": "10032561", "image_id": 261144, "question": "phòng tắm lát gạch trắng sạch sẽ ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "nhà ở", "vòi hoa sen", "gương", "cửa sổ", "cửa", "bồn tắm", "tường", "phòng", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.363072, "confidences": [ 0.363072, 0.20208, 0.077909, 0.068219, 0.034979, 0.03286, 0.031233, 0.024135, 0.019242, 0.014078 ], "gate_score_top1": 0.818848, "gate_scores": [ 0.818848, 0.826172, 0.785645, 0.800293, 0.741699, 0.76416, 0.764648, 0.647461, 0.744141, 0.652344 ] }, { "question_id": "10037401", "image_id": 242378, "question": "người đàn ông đang đánh răng ở đâu", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "vòi hoa sen", "ô cửa", "máy ảnh", "hành lang", "cửa", "bồn tắm", "chậu", "khăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.548704, "confidences": [ 0.548704, 0.392141, 0.011433, 0.004965, 0.00471, 0.002345, 0.00201, 0.001979, 0.00167, 0.001355 ], "gate_score_top1": 0.878418, "gate_scores": [ 0.878418, 0.849121, 0.710449, 0.692383, 0.615234, 0.525879, 0.626465, 0.699219, 0.647949, 0.552246 ] }, { "question_id": "10055461", "image_id": 495088, "question": "những gì bay trên bãi cỏ và bãi đá", "ground_truth": "hải âu", "ground_truth_normalized": "hải âu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vịt", "con vẹt", "con ngựa", "bãi cỏ", "hồ", "hươu cao cổ", "diều", "máy bay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.828552, "confidences": [ 0.828552, 0.116145, 0.0142, 0.001941, 0.001599, 0.000729, 0.000729, 0.000718, 0.000697, 0.000648 ], "gate_score_top1": 0.857422, "gate_scores": [ 0.857422, 0.799805, 0.731445, 0.695312, 0.55957, 0.518555, 0.381592, 0.62207, 0.561523, 0.531738 ] }, { "question_id": "10051601", "image_id": 157397, "question": "con mèo bên cửa, cố gắng nhìn dưới cửa đang ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "cửa", "predicted_topk": [ "cửa", "tủ đá", "phòng bếp", "nhà ở", "phòng", "hành lang", "tủ lạnh", "cửa sổ", "chậu", "phòng tắm" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.350887, "confidences": [ 0.350887, 0.062665, 0.057057, 0.053183, 0.044872, 0.040223, 0.037492, 0.020424, 0.018272, 0.017266 ], "gate_score_top1": 0.761719, "gate_scores": [ 0.761719, 0.711426, 0.776855, 0.805176, 0.699707, 0.628906, 0.717285, 0.683105, 0.681152, 0.628906 ] }, { "question_id": "10026131", "image_id": 400487, "question": "ô dù đang nằm ở đâu", "ground_truth": "bồn tắm", "ground_truth_normalized": "bồn tắm", "predicted_top1": "cái rổ", "predicted_topk": [ "cái rổ", "bát", "cái nồi", "bồn tắm", "cái túi", "hồ bơi", "thùng chứa", "giường", "sân", "tách" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.108726, "confidences": [ 0.108726, 0.085674, 0.081115, 0.077551, 0.070888, 0.051359, 0.050661, 0.022924, 0.02023, 0.018134 ], "gate_score_top1": 0.781738, "gate_scores": [ 0.781738, 0.671387, 0.743164, 0.667969, 0.697266, 0.681152, 0.702148, 0.476562, 0.654785, 0.556641 ] }, { "question_id": "10088491", "image_id": 376365, "question": "cái gì trong cái bình tròn", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cây", "bông hoa", "chai", "nến", "hoa hồng", "tách", "màu tía", "cái lọ", "cái nồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.366934, "confidences": [ 0.366934, 0.237838, 0.132377, 0.021358, 0.017985, 0.014395, 0.014172, 0.011749, 0.009422, 0.008463 ], "gate_score_top1": 0.759277, "gate_scores": [ 0.759277, 0.789062, 0.819824, 0.634766, 0.638672, 0.665039, 0.755371, 0.661621, 0.620117, 0.572754 ] }, { "question_id": "10057851", "image_id": 483328, "question": "những gì gắn vào tường bên cạnh một ô cửa", "ground_truth": "truyền hình", "ground_truth_normalized": "truyền hình", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "cửa", "phòng", "nhiều cái ghế", "cái kệ", "tường", "cái bàn", "cửa sổ", "giường", "chung cư" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.187784, "confidences": [ 0.187784, 0.095537, 0.082842, 0.053801, 0.05174, 0.033211, 0.027857, 0.026221, 0.020987, 0.017129 ], "gate_score_top1": 0.730469, "gate_scores": [ 0.730469, 0.659668, 0.72998, 0.647949, 0.718262, 0.619629, 0.641602, 0.617676, 0.583496, 0.538574 ] }, { "question_id": "10115371", "image_id": 454162, "question": "có bao nhiêu người trên ván trượt tuyết đang đứng trong tuyết", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "sáu", "hai", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.531608, "confidences": [ 0.531608, 0.407598, 0.045731, 0.006311, 0.00304, 0.000871, 0.000864, 0.000594, 0.000336, 0.000209 ], "gate_score_top1": 0.880859, "gate_scores": [ 0.880859, 0.903809, 0.795898, 0.646973, 0.733887, 0.62207, 0.611816, 0.548828, 0.516113, 0.439697 ] }, { "question_id": "10109881", "image_id": 302168, "question": "có bao nhiêu cậu bé đang chơi bóng đá trên sân", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.721741, "confidences": [ 0.721741, 0.230682, 0.018936, 0.014182, 0.005468, 0.003214, 0.000908, 0.00065, 0.000373, 0.000282 ], "gate_score_top1": 0.892578, "gate_scores": [ 0.892578, 0.883301, 0.798828, 0.749023, 0.709473, 0.588867, 0.576172, 0.54248, 0.496582, 0.438477 ] }, { "question_id": "10070281", "image_id": 549300, "question": "những gì đặt giữa hai bánh xe wagon", "ground_truth": "cái nồi", "ground_truth_normalized": "cái nồi", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cái nồi", "cây", "bát", "sân vườn", "bông hoa", "tách", "cái lọ", "hoa hồng", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.603895, "confidences": [ 0.603895, 0.243996, 0.023599, 0.01329, 0.011412, 0.01031, 0.005594, 0.005174, 0.003367, 0.002802 ], "gate_score_top1": 0.836426, "gate_scores": [ 0.836426, 0.783203, 0.775879, 0.777832, 0.744141, 0.791016, 0.694336, 0.717773, 0.604492, 0.532715 ] }, { "question_id": "10005411", "image_id": 376972, "question": "màu của áo khoác là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu vàng", "màu xanh lá", "màu nâu", "màu đen", "màu xanh dương", "màu xám", "màu tía", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.645123, "confidences": [ 0.645123, 0.17775, 0.117945, 0.011542, 0.010067, 0.007933, 0.006759, 0.002313, 0.001749, 0.001336 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.814941, 0.796387, 0.739258, 0.713379, 0.714355, 0.72998, 0.666504, 0.689941, 0.702148 ] }, { "question_id": "10031851", "image_id": 506534, "question": "máy bay mèo con diều hâu đậu ở đâu", "ground_truth": "ga-ra", "ground_truth_normalized": "ga-ra", "predicted_top1": "sân bay", "predicted_topk": [ "sân bay", "ga-ra", "tòa nhà", "trạm", "bảo tàng", "kho", "sân vận động", "đường phố", "máy bay", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.454375, "confidences": [ 0.454375, 0.222312, 0.038331, 0.037737, 0.037443, 0.028934, 0.018791, 0.014351, 0.009104, 0.00879 ], "gate_score_top1": 0.823242, "gate_scores": [ 0.823242, 0.83252, 0.75, 0.712891, 0.757324, 0.722168, 0.688477, 0.677246, 0.519043, 0.632812 ] }, { "question_id": "10107791", "image_id": 545749, "question": "có bao nhiêu xe tải đang đậu trong tòa nhà", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.767808, "confidences": [ 0.767808, 0.176759, 0.02775, 0.018703, 0.002216, 0.001622, 0.000685, 0.000485, 0.000265, 0.000194 ], "gate_score_top1": 0.893555, "gate_scores": [ 0.893555, 0.874023, 0.767578, 0.792969, 0.550293, 0.652344, 0.577637, 0.499268, 0.476074, 0.435303 ] }, { "question_id": "10080631", "image_id": 361472, "question": "cậu bé mặc gì xách xe đạp lên dốc ở công viên trượt băng", "ground_truth": "mũ bảo hiểm", "ground_truth_normalized": "mũ bảo hiểm", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "xe đạp", "mũ", "cây", "sân", "trượt tuyết", "xe máy", "mũ bảo hiểm", "ga-ra", "hồ bơi" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.367592, "confidences": [ 0.367592, 0.107814, 0.025558, 0.021564, 0.016729, 0.016341, 0.014253, 0.011375, 0.011364, 0.010928 ], "gate_score_top1": 0.759277, "gate_scores": [ 0.759277, 0.765625, 0.610352, 0.64502, 0.663086, 0.706543, 0.631348, 0.430664, 0.51123, 0.662598 ] }, { "question_id": "10063591", "image_id": 580757, "question": "những gì vòi chữa cháy sơn với dây xích treo ở bên dưới", "ground_truth": "lá cờ", "ground_truth_normalized": "lá cờ", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "lá cờ", "nón", "tường", "mũ", "bức tượng", "rào chắn", "ảnh chụp", "bức ảnh", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.946844, "confidences": [ 0.946844, 0.005608, 0.0043, 0.001358, 0.001202, 0.001151, 0.001035, 0.001005, 0.000767, 0.000736 ], "gate_score_top1": 0.867676, "gate_scores": [ 0.867676, 0.619629, 0.696289, 0.561035, 0.52832, 0.586914, 0.40625, 0.575195, 0.494385, 0.71875 ] }, { "question_id": "10066551", "image_id": 549427, "question": "chàng trai trẻ đang ăn gì vậy", "ground_truth": "cà rốt", "ground_truth_normalized": "cà rốt", "predicted_top1": "quả táo", "predicted_topk": [ "quả táo", "táo", "cà rốt", "những quả cam", "chuối", "rau", "quả cam", "màu cam", "hoa quả", "bát" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.211034, "confidences": [ 0.211034, 0.197475, 0.180507, 0.058602, 0.044844, 0.027574, 0.024381, 0.013334, 0.012453, 0.009093 ], "gate_score_top1": 0.826172, "gate_scores": [ 0.826172, 0.797363, 0.812988, 0.782715, 0.710938, 0.728027, 0.65332, 0.530762, 0.681641, 0.663574 ] }, { "question_id": "10089801", "image_id": 483389, "question": "nướng những gì với rau và khoai tây trên đĩa", "ground_truth": "thịt", "ground_truth_normalized": "thịt", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "món ăn", "bữa ăn", "thịt", "chén đĩa", "dĩa", "rau", "bữa ăn tối", "đĩa", "cái mâm" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.253821, "confidences": [ 0.253821, 0.127629, 0.124187, 0.094846, 0.046952, 0.046044, 0.038622, 0.019232, 0.013269, 0.012911 ], "gate_score_top1": 0.80127, "gate_scores": [ 0.80127, 0.806152, 0.766602, 0.727539, 0.683105, 0.711914, 0.739258, 0.648926, 0.554199, 0.623535 ] }, { "question_id": "10100681", "image_id": 494427, "question": "những gì được bật tại bàn", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "bàn phím", "điện thoại", "chuột", "cái bàn", "bức tranh", "trang thiết bị", "hộp", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.538641, "confidences": [ 0.538641, 0.419494, 0.005687, 0.002708, 0.002559, 0.001954, 0.000753, 0.000644, 0.000636, 0.00062 ], "gate_score_top1": 0.904785, "gate_scores": [ 0.904785, 0.854492, 0.730469, 0.715332, 0.697266, 0.74707, 0.447266, 0.485352, 0.572266, 0.559082 ] }, { "question_id": "10048441", "image_id": 62531, "question": "chàng trai trẻ chụp ảnh tự sướng của chính mình ở đâu", "ground_truth": "nhà vệ sinh", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "máy ảnh", "ô cửa", "vòi hoa sen", "hành lang", "điện thoại", "chậu", "nhà ở", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.721102, "confidences": [ 0.721102, 0.244386, 0.003313, 0.002516, 0.001574, 0.001485, 0.000883, 0.00088, 0.000766, 0.00071 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.82959, 0.583496, 0.649414, 0.634277, 0.491455, 0.547852, 0.618164, 0.617676, 0.559082 ] }, { "question_id": "10106051", "image_id": 90891, "question": "có bao nhiêu người trong kho chuối", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "tám", "chín", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.556991, "confidences": [ 0.556991, 0.243331, 0.154671, 0.027408, 0.005503, 0.002395, 0.001773, 0.000774, 0.000757, 0.000593 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.845215, 0.828125, 0.709473, 0.713867, 0.660156, 0.60791, 0.572266, 0.603516, 0.495117 ] }, { "question_id": "10043551", "image_id": 54354, "question": "người chơi tennis bị bắt ở đâu", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "sân vận động", "predicted_topk": [ "sân vận động", "quả bóng", "xe lăn", "vợt", "lồng", "ảnh chụp", "găng tay", "nón", "nước", "gậy" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.406569, "confidences": [ 0.406569, 0.178312, 0.042353, 0.034298, 0.025439, 0.024512, 0.015429, 0.010238, 0.008178, 0.007796 ], "gate_score_top1": 0.819336, "gate_scores": [ 0.819336, 0.786621, 0.766602, 0.736816, 0.709961, 0.626953, 0.655762, 0.530273, 0.510254, 0.618164 ] }, { "question_id": "10081581", "image_id": 407520, "question": "những gì ngồi đóng cửa trong phòng trung tính", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cửa", "cái kệ", "chai", "phòng bếp", "lò vi sóng", "tủ đông", "tường", "cửa ra vào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.760797, "confidences": [ 0.760797, 0.12764, 0.037878, 0.006208, 0.006159, 0.002915, 0.002333, 0.0021, 0.001969, 0.001209 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.804688, 0.771484, 0.675781, 0.602051, 0.512207, 0.583008, 0.521484, 0.569336, 0.436523 ] }, { "question_id": "10074881", "image_id": 459117, "question": "một số con ngựa rất lớn kéo những gì tải với thùng", "ground_truth": "toa xe", "ground_truth_normalized": "toa xe", "predicted_top1": "xe đẩy", "predicted_topk": [ "xe đẩy", "toa xe", "xe", "đường", "xe tải", "đường phố", "xe lăn", "xe đạp", "áo vest", "xe buýt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.226884, "confidences": [ 0.226884, 0.086284, 0.074672, 0.044328, 0.025705, 0.016403, 0.015349, 0.014279, 0.011552, 0.011132 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.637207, 0.728027, 0.723145, 0.69043, 0.660156, 0.588379, 0.523926, 0.546387, 0.536133 ] }, { "question_id": "10013901", "image_id": 9069, "question": "màu của bàn phím là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu trắng", "màu xám", "màu đen", "màu cam", "màu xanh lá", "màu vàng", "màu đỏ", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.535805, "confidences": [ 0.535805, 0.398176, 0.035897, 0.013732, 0.002041, 0.001586, 0.001386, 0.00103, 0.000441, 0.000377 ], "gate_score_top1": 0.851562, "gate_scores": [ 0.851562, 0.908691, 0.859863, 0.773926, 0.679199, 0.600098, 0.728027, 0.670898, 0.628418, 0.67627 ] }, { "question_id": "10110811", "image_id": 42860, "question": "có bao nhiêu người đang thả diều trên bãi biển", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.777177, "confidences": [ 0.777177, 0.140433, 0.069519, 0.006027, 0.002157, 0.001011, 0.000241, 0.000205, 0.000171, 0.000148 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.870605, 0.851562, 0.73584, 0.671875, 0.515625, 0.482422, 0.484619, 0.416016, 0.421143 ] }, { "question_id": "10033591", "image_id": 44170, "question": "người phụ nữ ăn bánh rán ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "quán ăn", "predicted_topk": [ "quán ăn", "cửa tiệm", "cửa hàng", "cửa sổ", "cái ghế", "phòng", "nhà ở", "gian hàng", "văn phòng", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.317984, "confidences": [ 0.317984, 0.179772, 0.067176, 0.06562, 0.055257, 0.023766, 0.015556, 0.012067, 0.01195, 0.009753 ], "gate_score_top1": 0.822266, "gate_scores": [ 0.822266, 0.774902, 0.741699, 0.680664, 0.725586, 0.723145, 0.637207, 0.642578, 0.686035, 0.663086 ] }, { "question_id": "10117651", "image_id": 326475, "question": "có bao nhiêu con hươu cao cổ đang đi dạo với thảm thực vật thưa thớt xung quanh", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "hươu cao cổ", "tám", "cái ghế", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.800246, "confidences": [ 0.800246, 0.170382, 0.020751, 0.002841, 0.000181, 0.000141, 0.000132, 0.000107, 9.4e-05, 8.9e-05 ], "gate_score_top1": 0.880859, "gate_scores": [ 0.880859, 0.850098, 0.775391, 0.723633, 0.360107, 0.499023, 0.485596, 0.388184, 0.505371, 0.364014 ] }, { "question_id": "10102051", "image_id": 505890, "question": "hình ảnh của xe buýt phản chiếu gương chiếu hậu của trường học là gì", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "gương", "predicted_topk": [ "gương", "xe buýt", "phương tiện giao thông", "xe ô tô", "màu vàng", "xe tải", "đường", "áo vest", "nón", "cà vạt" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.603158, "confidences": [ 0.603158, 0.048363, 0.046511, 0.024462, 0.024082, 0.017077, 0.007697, 0.00676, 0.005588, 0.005469 ], "gate_score_top1": 0.787598, "gate_scores": [ 0.787598, 0.696777, 0.686035, 0.61377, 0.583496, 0.640137, 0.523926, 0.59668, 0.519531, 0.515625 ] }, { "question_id": "10092541", "image_id": 562735, "question": "cái gì đầy ở trên bàn", "ground_truth": "tách", "ground_truth_normalized": "tách", "predicted_top1": "con mèo", "predicted_topk": [ "con mèo", "tách", "bát", "chậu", "cái nồi", "bông hoa", "giường", "màu trắng", "thùng chứa", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.756729, "confidences": [ 0.756729, 0.107747, 0.009072, 0.007506, 0.004026, 0.003331, 0.002977, 0.002931, 0.002821, 0.002413 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.787598, 0.63623, 0.602539, 0.470703, 0.65332, 0.488525, 0.564941, 0.513672, 0.651855 ] }, { "question_id": "10064651", "image_id": 545564, "question": "không gian phòng khách hiện đại, và những gì", "ground_truth": "nhiều cái ghế", "ground_truth_normalized": "nhiều cái ghế", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhiều cái ghế", "nhà ở", "đi văng", "bức ảnh", "cửa sổ", "tường", "cây", "cái kệ", "chung cư" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.149176, "confidences": [ 0.149176, 0.144586, 0.091546, 0.07649, 0.064789, 0.036916, 0.024448, 0.022655, 0.022478, 0.019993 ], "gate_score_top1": 0.790039, "gate_scores": [ 0.790039, 0.736816, 0.79541, 0.68457, 0.654297, 0.634766, 0.572754, 0.592773, 0.649902, 0.587402 ] }, { "question_id": "10112801", "image_id": 238748, "question": "có bao nhiêu con cừu trên đồi đang ăn cỏ, nhìn ra đại dương", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.494173, "confidences": [ 0.494173, 0.260411, 0.222741, 0.009597, 0.002343, 0.00192, 0.001495, 0.001227, 0.000606, 0.000598 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.850586, 0.847656, 0.647461, 0.653809, 0.67627, 0.623047, 0.594238, 0.580566, 0.504395 ] }, { "question_id": "10025391", "image_id": 17890, "question": "hai con cừu đang ở đâu", "ground_truth": "ô cửa", "ground_truth_normalized": "ô cửa", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "chuồng trại", "lồng", "ô cửa", "kho", "tòa nhà", "nhà ở", "rào chắn", "ga-ra", "cửa tiệm" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.466858, "confidences": [ 0.466858, 0.288749, 0.018786, 0.011988, 0.010767, 0.009939, 0.008255, 0.00808, 0.005911, 0.005865 ], "gate_score_top1": 0.746582, "gate_scores": [ 0.746582, 0.777832, 0.660645, 0.549316, 0.634277, 0.67334, 0.69873, 0.550293, 0.665527, 0.624512 ] }, { "question_id": "10091071", "image_id": 509766, "question": "một số người một thị trường ngoài trời và một con ngựa nâu kéo những gì", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "xe", "predicted_topk": [ "xe", "xe đẩy", "đường", "toa xe", "đường phố", "xe lăn", "áo vest", "cửa hàng", "xe đạp", "cái lều" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.21496, "confidences": [ 0.21496, 0.210802, 0.039686, 0.03839, 0.022349, 0.019994, 0.016415, 0.015941, 0.012439, 0.012127 ], "gate_score_top1": 0.751465, "gate_scores": [ 0.751465, 0.76709, 0.741699, 0.643066, 0.644043, 0.685547, 0.574707, 0.696777, 0.545898, 0.546387 ] }, { "question_id": "10105791", "image_id": 576122, "question": "có bao nhiêu xe buýt đậu trong hàng trong một bãi đậu xe", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "tám", "một", "chín", "mười" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.392865, "confidences": [ 0.392865, 0.336035, 0.213597, 0.033142, 0.008027, 0.002496, 0.002144, 0.001903, 0.001795, 0.000924 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.846191, 0.845215, 0.705078, 0.697266, 0.661133, 0.570801, 0.604004, 0.621582, 0.52832 ] }, { "question_id": "10077201", "image_id": 533688, "question": "những gì ở đầu với bữa ăn trên bàn", "ground_truth": "dĩa", "ground_truth_normalized": "dĩa", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "dĩa", "thịt", "món ăn", "rau", "chén đĩa", "bữa ăn tối", "đĩa", "sandwich" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.292493, "confidences": [ 0.292493, 0.164716, 0.117717, 0.069745, 0.040921, 0.027527, 0.020982, 0.016893, 0.015411, 0.012851 ], "gate_score_top1": 0.817871, "gate_scores": [ 0.817871, 0.734375, 0.74707, 0.702637, 0.721191, 0.712891, 0.61377, 0.637695, 0.561035, 0.706055 ] }, { "question_id": "10070181", "image_id": 514018, "question": "nhà bếp có gì với hai ngọn truy cập sáng bóng bên cạnh một giá treo tường", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "quầy tính tiền", "bếp", "phòng bếp", "tường", "tủ đá", "cái kệ", "cửa", "bức ảnh", "chậu" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.264742, "confidences": [ 0.264742, 0.112099, 0.097393, 0.078871, 0.029587, 0.024054, 0.022334, 0.020575, 0.014675, 0.013626 ], "gate_score_top1": 0.791504, "gate_scores": [ 0.791504, 0.69873, 0.759766, 0.652832, 0.575195, 0.739258, 0.681641, 0.61377, 0.596191, 0.597168 ] }, { "question_id": "10037501", "image_id": 455333, "question": "xe buýt hai tầng đang đậu ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "tòa nhà", "kho", "bảo tàng", "phòng", "cửa tiệm", "trạm", "nhà ở", "chuồng", "lớp học" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.515133, "confidences": [ 0.515133, 0.280073, 0.087785, 0.015678, 0.015495, 0.012597, 0.010775, 0.002651, 0.002456, 0.002376 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.839355, 0.810547, 0.791992, 0.749023, 0.740234, 0.713867, 0.697266, 0.61084, 0.618164 ] }, { "question_id": "10022121", "image_id": 275168, "question": "màu của xe buýt là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu cam", "màu đỏ", "màu đen", "màu xám", "màu trắng", "màu nâu", "màu xanh lá", "màu xanh dương", "xe buýt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.805218, "confidences": [ 0.805218, 0.109829, 0.030738, 0.023567, 0.003233, 0.003128, 0.002192, 0.001977, 0.001031, 0.000759 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.824707, 0.767578, 0.687988, 0.614258, 0.669434, 0.61377, 0.600586, 0.617676, 0.574219 ] }, { "question_id": "10066431", "image_id": 463876, "question": "những gì hiển thị trên bề mặt gỗ nhỏ", "ground_truth": "trang thiết bị", "ground_truth_normalized": "trang thiết bị", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "laptop", "cái bàn", "bàn phím", "chuột", "văn phòng", "trang thiết bị", "bức tranh", "cái ghế", "điện thoại" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.709532, "confidences": [ 0.709532, 0.186544, 0.058015, 0.012996, 0.004697, 0.001822, 0.001748, 0.001016, 0.00085, 0.000804 ], "gate_score_top1": 0.883789, "gate_scores": [ 0.883789, 0.890137, 0.845215, 0.76123, 0.739258, 0.703125, 0.506348, 0.535645, 0.541992, 0.663574 ] }, { "question_id": "10107981", "image_id": 218237, "question": "có bao nhiêu anh chàng đang ngồi trên chân của anh chàng và giữ cổ tay của anh ta", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "bảy", "mười", "cái ghế", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.792266, "confidences": [ 0.792266, 0.198757, 0.004093, 0.000454, 0.000152, 8.7e-05, 8.5e-05, 6.6e-05, 6.1e-05, 5.3e-05 ], "gate_score_top1": 0.900391, "gate_scores": [ 0.900391, 0.87793, 0.741699, 0.627441, 0.371826, 0.410156, 0.405273, 0.432617, 0.530273, 0.366211 ] }, { "question_id": "10067711", "image_id": 347648, "question": "cái bình nào bên cạnh những người khác", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cái nồi", "cây", "tách", "bông hoa", "bát", "cái lọ", "nến", "sân vườn", "tường" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.716453, "confidences": [ 0.716453, 0.108168, 0.02682, 0.014869, 0.008879, 0.00839, 0.00642, 0.004482, 0.004327, 0.00312 ], "gate_score_top1": 0.810059, "gate_scores": [ 0.810059, 0.75, 0.743164, 0.711426, 0.723633, 0.748535, 0.675781, 0.527832, 0.62793, 0.535156 ] }, { "question_id": "10032151", "image_id": 354409, "question": "người đàn ông đang chụp ảnh tự sướng ở đâu", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "ô cửa", "vòi hoa sen", "hành lang", "máy ảnh", "cửa", "nhà ở", "phòng", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.828316, "confidences": [ 0.828316, 0.150848, 0.002363, 0.002336, 0.001663, 0.001129, 0.000792, 0.000637, 0.000464, 0.000452 ], "gate_score_top1": 0.916504, "gate_scores": [ 0.916504, 0.840332, 0.674316, 0.666504, 0.591797, 0.530273, 0.630859, 0.648926, 0.635742, 0.606934 ] }, { "question_id": "10043271", "image_id": 239365, "question": "người phụ nữ với chiếc cặp và ô đứng ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "ô cửa", "hành lang", "gương", "phòng tắm", "áo vest", "trạm", "gian hàng", "cửa tiệm", "nhà ở" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.130954, "confidences": [ 0.130954, 0.086894, 0.073315, 0.068739, 0.046785, 0.035453, 0.028655, 0.024558, 0.020161, 0.018143 ], "gate_score_top1": 0.693359, "gate_scores": [ 0.693359, 0.708984, 0.656738, 0.740234, 0.611328, 0.661133, 0.657227, 0.641602, 0.699219, 0.641113 ] }, { "question_id": "10061171", "image_id": 569674, "question": "những gì đang đứng trong đám cỏ cao và bụi rậm", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "hươu cao cổ", "bãi cỏ", "con ngựa", "tàu hỏa", "ba", "con chim", "con chó", "rào chắn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.855424, "confidences": [ 0.855424, 0.136409, 0.000814, 0.000484, 0.000204, 0.000194, 0.000189, 0.000159, 0.000131, 0.000126 ], "gate_score_top1": 0.893555, "gate_scores": [ 0.893555, 0.859375, 0.672852, 0.591797, 0.583496, 0.603027, 0.713867, 0.534668, 0.534668, 0.424805 ] }, { "question_id": "10094491", "image_id": 575406, "question": "phương tiện cho chuyến tham quan ở thành phố là gì", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "xe đẩy", "predicted_topk": [ "xe đẩy", "xe buýt", "xe ô tô", "xe cộ", "phương tiện giao thông", "xe tải", "đường", "đường đi bộ", "xe điện", "xe" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.475844, "confidences": [ 0.475844, 0.413421, 0.020264, 0.012533, 0.011323, 0.008631, 0.004566, 0.002434, 0.001802, 0.001402 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.879883, 0.763672, 0.738281, 0.722168, 0.734863, 0.668457, 0.566406, 0.563477, 0.595703 ] }, { "question_id": "10093291", "image_id": 353320, "question": "những gì nằm trong số hành lý trên một băng ghế kim loại", "ground_truth": "thùng", "ground_truth_normalized": "thùng", "predicted_top1": "túi", "predicted_topk": [ "túi", "cái túi", "balo", "vali", "hành lý", "cái ví", "ván trượt", "máy ảnh", "những bức ảnh", "băng ghế" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.215347, "confidences": [ 0.215347, 0.126103, 0.114818, 0.070324, 0.068829, 0.063161, 0.013085, 0.010617, 0.007936, 0.006465 ], "gate_score_top1": 0.806152, "gate_scores": [ 0.806152, 0.785156, 0.751465, 0.725098, 0.710449, 0.777344, 0.69873, 0.56543, 0.568359, 0.563965 ] }, { "question_id": "10109921", "image_id": 493601, "question": "có bao nhiêu lát bánh mì được đặt trên một bề mặt", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.422058, "confidences": [ 0.422058, 0.266189, 0.225911, 0.044311, 0.009734, 0.008794, 0.002185, 0.001708, 0.001561, 0.000973 ], "gate_score_top1": 0.839844, "gate_scores": [ 0.839844, 0.832031, 0.802734, 0.755371, 0.692871, 0.670898, 0.621094, 0.535645, 0.543945, 0.577148 ] }, { "question_id": "10092421", "image_id": 420929, "question": "những gì đang bay qua bầu trời xanh", "ground_truth": "hải âu", "ground_truth_normalized": "hải âu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vịt", "con vẹt", "con chó", "con ngựa", "máy bay", "màu xám", "màu trắng", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.517968, "confidences": [ 0.517968, 0.389458, 0.00893, 0.005512, 0.002309, 0.001795, 0.001681, 0.001421, 0.00129, 0.001283 ], "gate_score_top1": 0.848633, "gate_scores": [ 0.848633, 0.83252, 0.611328, 0.638672, 0.541016, 0.596191, 0.544434, 0.539062, 0.457031, 0.537598 ] }, { "question_id": "10105181", "image_id": 212877, "question": "có bao nhiêu cốc có con chó trên đó và người kia có một con mèo", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.524077, "confidences": [ 0.524077, 0.411353, 0.052094, 0.003658, 0.000736, 0.00051, 0.000497, 0.000303, 0.000266, 0.000136 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.867188, 0.816895, 0.705078, 0.488281, 0.569824, 0.458008, 0.490723, 0.488281, 0.414062 ] }, { "question_id": "10037751", "image_id": 474026, "question": "người đàn ông và một con chó nằm ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "giường", "predicted_topk": [ "giường", "phòng ngủ", "phòng", "cửa sổ", "hành lang", "gương", "cái ghế", "chung cư", "văn phòng", "cái túi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.525578, "confidences": [ 0.525578, 0.446053, 0.015686, 0.000691, 0.000521, 0.000462, 0.000407, 0.000349, 0.000259, 0.000252 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.883789, 0.807129, 0.583008, 0.570312, 0.740723, 0.596191, 0.560059, 0.485107, 0.45752 ] }, { "question_id": "10099281", "image_id": 521995, "question": "cái gì đang ngồi trên bàn gỗ", "ground_truth": "laptop", "ground_truth_normalized": "laptop", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "laptop", "bàn phím", "cái bàn", "chuột", "điện thoại", "cái ghế", "bức tranh", "trang thiết bị", "văn phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.652714, "confidences": [ 0.652714, 0.318107, 0.003268, 0.002953, 0.002148, 0.001565, 0.000918, 0.000734, 0.000588, 0.000469 ], "gate_score_top1": 0.874023, "gate_scores": [ 0.874023, 0.887207, 0.72168, 0.792969, 0.688965, 0.699707, 0.535156, 0.533691, 0.510742, 0.657227 ] }, { "question_id": "10116751", "image_id": 242744, "question": "có bao nhiêu thanh niên với hành lý trên tàu", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "tám", "chín", "hai", "một", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.633976, "confidences": [ 0.633976, 0.235056, 0.089917, 0.02721, 0.004339, 0.001339, 0.001041, 0.000959, 0.000606, 0.000523 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.839355, 0.811523, 0.705078, 0.70166, 0.578613, 0.597168, 0.623535, 0.563965, 0.495361 ] }, { "question_id": "10113621", "image_id": 197388, "question": "bao nhiêu người đàn ông trượt tuyết xuống một vách đá tuyết trong trang phục đồng đội", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "ba", "mười", "một", "ván trượt" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.426025, "confidences": [ 0.426025, 0.287139, 0.218444, 0.026192, 0.008146, 0.00387, 0.003104, 0.001707, 0.00161, 0.000751 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.835938, 0.801758, 0.709961, 0.658691, 0.605469, 0.555176, 0.538574, 0.560547, 0.501465 ] }, { "question_id": "10062291", "image_id": 412240, "question": "những gì đang ngồi đằng sau đôi giày", "ground_truth": "cún yêu", "ground_truth_normalized": "cún yêu", "predicted_top1": "con chó", "predicted_topk": [ "con chó", "con mèo", "cửa sổ", "gấu", "đồ chơi", "cún yêu", "cái ghế", "giường", "đồng hồ", "cửa" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.80956, "confidences": [ 0.80956, 0.02562, 0.01358, 0.010638, 0.006749, 0.005455, 0.00537, 0.004712, 0.004657, 0.004567 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.722168, 0.652832, 0.657227, 0.60498, 0.472656, 0.557617, 0.623535, 0.615723, 0.581543 ] }, { "question_id": "10105211", "image_id": 320957, "question": "có bao nhiêu người đang mỉm cười đứng gần một cái bàn được chuẩn bị sẵn thức ăn cho bữa tiệc", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "tám", "bảy", "mười", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.554996, "confidences": [ 0.554996, 0.42553, 0.009292, 0.006238, 0.000321, 0.000317, 0.000129, 9.8e-05, 7.2e-05, 6.5e-05 ], "gate_score_top1": 0.893555, "gate_scores": [ 0.893555, 0.88623, 0.787109, 0.791504, 0.435547, 0.594238, 0.462158, 0.422852, 0.399658, 0.529297 ] }, { "question_id": "10053811", "image_id": 520503, "question": "cái gì vượt qua cái khác khi nó di chuyển qua một thành phố", "ground_truth": "xe điện", "ground_truth_normalized": "xe điện", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe điện", "xe điện ngầm", "trạm", "xe ô tô", "xe buýt", "xe đẩy", "cửa", "các tòa nhà", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.650719, "confidences": [ 0.650719, 0.130661, 0.043088, 0.026754, 0.024647, 0.020674, 0.012737, 0.006582, 0.00448, 0.004436 ], "gate_score_top1": 0.828125, "gate_scores": [ 0.828125, 0.79541, 0.755371, 0.742188, 0.745605, 0.763184, 0.727539, 0.59082, 0.629883, 0.617188 ] }, { "question_id": "10102261", "image_id": 475485, "question": "có bao nhiêu đồng hồ xếp trên tường hiển thị thời gian ở các nơi khác nhau trên thế giới", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "một", "hai", "chín", "tám", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.415151, "confidences": [ 0.415151, 0.405534, 0.090841, 0.024545, 0.022349, 0.013036, 0.007256, 0.004558, 0.003127, 0.00227 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.858398, 0.76123, 0.760254, 0.761719, 0.70752, 0.647461, 0.678223, 0.644531, 0.602051 ] }, { "question_id": "10057741", "image_id": 350000, "question": "những gì cát và ô dù cam và ngày nắng", "ground_truth": "nhiều cái ghế", "ground_truth_normalized": "nhiều cái ghế", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "bờ biển", "cái ghế", "nhiều cái ghế", "hồ", "bức ảnh", "tường", "băng ghế", "cái lều", "bến du thuyền" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.331613, "confidences": [ 0.331613, 0.202711, 0.025621, 0.020668, 0.017336, 0.010546, 0.009435, 0.00937, 0.007678, 0.007596 ], "gate_score_top1": 0.783203, "gate_scores": [ 0.783203, 0.702148, 0.687012, 0.475342, 0.470947, 0.605469, 0.499023, 0.609863, 0.487061, 0.462402 ] }, { "question_id": "10059471", "image_id": 374782, "question": "máy tính, bàn phím, màn hình và đang ngồi trên bàn làm việc gì", "ground_truth": "trang thiết bị", "ground_truth_normalized": "trang thiết bị", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "cái bàn", "văn phòng", "laptop", "bàn phím", "chuột", "trang thiết bị", "bức tranh", "phòng ngủ", "cái ghế" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.433905, "confidences": [ 0.433905, 0.343247, 0.049837, 0.041967, 0.03359, 0.007583, 0.005284, 0.003836, 0.002924, 0.002801 ], "gate_score_top1": 0.858398, "gate_scores": [ 0.858398, 0.860352, 0.79248, 0.84668, 0.747559, 0.669922, 0.555664, 0.595215, 0.606445, 0.548828 ] }, { "question_id": "10064851", "image_id": 419379, "question": "những gì trông giống như donut trên màn hình", "ground_truth": "bánh", "ground_truth_normalized": "bánh", "predicted_top1": "donut", "predicted_topk": [ "donut", "bánh ngọt", "bánh", "cái mâm", "sô cô la", "cupcake", "cửa tiệm", "cửa hàng", "dao", "sandwich" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.307072, "confidences": [ 0.307072, 0.140588, 0.083296, 0.07764, 0.026989, 0.022331, 0.016148, 0.014112, 0.013361, 0.009076 ], "gate_score_top1": 0.772461, "gate_scores": [ 0.772461, 0.75, 0.759277, 0.787598, 0.617188, 0.665527, 0.589844, 0.643066, 0.669434, 0.648438 ] }, { "question_id": "10091181", "image_id": 405972, "question": "những gì bên cạnh một con voi nhỏ", "ground_truth": "hươu cao cổ", "ground_truth_normalized": "hươu cao cổ", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "thân cây", "hươu cao cổ", "vườn bách thú", "chuồng", "bãi cỏ", "xe tải", "lồng", "lá", "ngựa vằn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.880686, "confidences": [ 0.880686, 0.027654, 0.022307, 0.008127, 0.007285, 0.002898, 0.001603, 0.001521, 0.001421, 0.001272 ], "gate_score_top1": 0.880371, "gate_scores": [ 0.880371, 0.729492, 0.763672, 0.674805, 0.696777, 0.584473, 0.472656, 0.543457, 0.474854, 0.539062 ] }, { "question_id": "10036891", "image_id": 182968, "question": "những chiếc lò nướng nằm ở đâu", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "lò vi sóng", "quán ăn", "tạp dề", "cửa tiệm", "chảo", "phòng", "tường", "bếp", "cửa sổ" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.535986, "confidences": [ 0.535986, 0.29141, 0.050442, 0.029194, 0.007454, 0.005851, 0.004468, 0.002879, 0.00278, 0.002764 ], "gate_score_top1": 0.853516, "gate_scores": [ 0.853516, 0.808594, 0.816895, 0.703125, 0.574707, 0.637695, 0.654297, 0.462891, 0.564941, 0.573242 ] }, { "question_id": "10070261", "image_id": 344795, "question": "những gì được bao phủ trong lá nhôm là nướng trong lò", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "món ăn", "lò vi sóng", "giấy bạc", "cái mâm", "pizza", "bữa ăn", "chén đĩa", "thịt", "cái nồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.160139, "confidences": [ 0.160139, 0.13328, 0.093591, 0.044469, 0.038036, 0.030984, 0.026658, 0.015949, 0.015519, 0.011634 ], "gate_score_top1": 0.745117, "gate_scores": [ 0.745117, 0.734863, 0.688477, 0.623535, 0.718262, 0.714844, 0.584473, 0.543945, 0.554199, 0.586914 ] }, { "question_id": "10030641", "image_id": 553378, "question": "con mèo đang nằm ở đâu", "ground_truth": "cái ví", "ground_truth_normalized": "cái ví", "predicted_top1": "cái túi", "predicted_topk": [ "cái túi", "cái ví", "vali", "balo", "hành lý", "túi", "thùng chứa", "cái rổ", "xe đẩy", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.681879, "confidences": [ 0.681879, 0.129631, 0.033292, 0.03152, 0.027817, 0.021748, 0.007531, 0.004135, 0.003139, 0.001687 ], "gate_score_top1": 0.880371, "gate_scores": [ 0.880371, 0.806152, 0.774414, 0.737793, 0.748535, 0.762695, 0.699707, 0.722656, 0.644531, 0.552734 ] }, { "question_id": "10041231", "image_id": 17582, "question": "hai người đàn ông và một người phụ nữ nói chuyện ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "kho", "cửa tiệm", "ga-ra", "tòa nhà", "phòng bếp", "nhà ở", "cửa hàng", "văn phòng", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.223845, "confidences": [ 0.223845, 0.206215, 0.129046, 0.090795, 0.073528, 0.026371, 0.022207, 0.021777, 0.015503, 0.014422 ], "gate_score_top1": 0.777344, "gate_scores": [ 0.777344, 0.838867, 0.811035, 0.819824, 0.775879, 0.668457, 0.720215, 0.768066, 0.733398, 0.703125 ] }, { "question_id": "10087321", "image_id": 579192, "question": "cái gì cho thấy một người đàn ông đi bộ đến ván trượt tuyết và đứng trên đó", "ground_truth": "những bức ảnh", "ground_truth_normalized": "những bức ảnh", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "dĩa nhựa", "bức ảnh", "áo sơ mi", "những bức ảnh", "quả bóng", "trượt tuyết", "bảng", "đồi", "áo vest" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.440408, "confidences": [ 0.440408, 0.037664, 0.028209, 0.025041, 0.020398, 0.017791, 0.015979, 0.013482, 0.013299, 0.012493 ], "gate_score_top1": 0.790527, "gate_scores": [ 0.790527, 0.697266, 0.635742, 0.609863, 0.571777, 0.651855, 0.74707, 0.657715, 0.724121, 0.67334 ] }, { "question_id": "10053591", "image_id": 511662, "question": "những gì trên bãi biển bởi một tàu du lịch", "ground_truth": "thuyền buồm", "ground_truth_normalized": "thuyền buồm", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "thuyền buồm", "bến du thuyền", "ván lướt sóng", "bờ biển", "diều", "bảng", "ca nô", "cây sào", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.428959, "confidences": [ 0.428959, 0.092047, 0.057265, 0.038072, 0.02902, 0.026683, 0.024678, 0.018196, 0.013055, 0.011298 ], "gate_score_top1": 0.741699, "gate_scores": [ 0.741699, 0.687012, 0.608398, 0.75, 0.577637, 0.708008, 0.633301, 0.479004, 0.574219, 0.583496 ] }, { "question_id": "10021961", "image_id": 555906, "question": "màu của cà vạt là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu đen", "màu trắng", "màu đỏ", "màu nâu", "màu vàng", "màu xanh lá", "màu xám", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.939903, "confidences": [ 0.939903, 0.032036, 0.007318, 0.005502, 0.003123, 0.002888, 0.002048, 0.001498, 0.000994, 0.000369 ], "gate_score_top1": 0.909668, "gate_scores": [ 0.909668, 0.808105, 0.754883, 0.73584, 0.771973, 0.727539, 0.692871, 0.65332, 0.696777, 0.695312 ] }, { "question_id": "10000261", "image_id": 513214, "question": "màu của thân cây là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xanh lá", "màu đen", "màu xám", "màu cam", "màu vàng", "màu xanh dương", "màu đỏ", "màu nâu", "màu tía" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.640491, "confidences": [ 0.640491, 0.176474, 0.155738, 0.012103, 0.002411, 0.001404, 0.001224, 0.000954, 0.000812, 0.000668 ], "gate_score_top1": 0.890625, "gate_scores": [ 0.890625, 0.82959, 0.832031, 0.795898, 0.760742, 0.682617, 0.665039, 0.699707, 0.699707, 0.717773 ] }, { "question_id": "10049341", "image_id": 428486, "question": "cô gái trẻ đang đứng ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "chậu", "vòi hoa sen", "bồn tắm", "phòng", "phòng bếp", "gương", "nhà ở", "hành lang", "bàn chải" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.744211, "confidences": [ 0.744211, 0.072544, 0.024779, 0.020784, 0.016187, 0.011478, 0.011103, 0.006854, 0.004504, 0.004348 ], "gate_score_top1": 0.854492, "gate_scores": [ 0.854492, 0.818848, 0.687012, 0.72168, 0.753906, 0.723633, 0.740234, 0.714844, 0.510742, 0.603516 ] }, { "question_id": "10033831", "image_id": 36544, "question": "nơi nào làm bánh sô cô la ba tầng", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "cửa tiệm", "cửa hàng", "phòng bếp", "quán ăn", "cái mâm", "dao", "bánh ngọt", "donut", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.212364, "confidences": [ 0.212364, 0.132894, 0.043483, 0.042475, 0.037338, 0.026374, 0.021442, 0.01922, 0.017296, 0.016634 ], "gate_score_top1": 0.773926, "gate_scores": [ 0.773926, 0.682129, 0.660645, 0.706055, 0.67041, 0.674805, 0.648438, 0.563965, 0.580566, 0.713867 ] }, { "question_id": "10085731", "image_id": 380388, "question": "những gì đang đi xuống đường ray kéo một số chiếc xe phía sau", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "đường sắt", "các tòa nhà", "xe điện ngầm", "cây", "cầu", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.589243, "confidences": [ 0.589243, 0.316634, 0.031107, 0.010835, 0.007564, 0.003203, 0.002072, 0.001629, 0.001629, 0.000968 ], "gate_score_top1": 0.894531, "gate_scores": [ 0.894531, 0.851562, 0.745117, 0.629395, 0.597168, 0.663574, 0.614746, 0.575684, 0.611328, 0.543945 ] }, { "question_id": "10040631", "image_id": 129995, "question": "nhiều bồn trắng đã xếp hàng", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "gương", "nhà ở", "vòi hoa sen", "ô cửa", "chậu", "tòa nhà", "bồn tiểu", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.477111, "confidences": [ 0.477111, 0.22892, 0.059022, 0.025385, 0.015307, 0.011375, 0.009467, 0.008241, 0.007504, 0.005742 ], "gate_score_top1": 0.821777, "gate_scores": [ 0.821777, 0.83252, 0.708008, 0.734375, 0.64502, 0.572266, 0.631836, 0.611816, 0.611328, 0.605957 ] }, { "question_id": "10002781", "image_id": 324870, "question": "màu của chiếc tàu là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xanh dương", "màu xám", "màu xanh lá", "màu đỏ", "màu cam", "màu nâu", "màu vàng", "màu tía", "màu trắng" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.662286, "confidences": [ 0.662286, 0.18391, 0.06331, 0.028094, 0.017857, 0.013427, 0.007048, 0.005425, 0.003817, 0.003303 ], "gate_score_top1": 0.840332, "gate_scores": [ 0.840332, 0.841309, 0.802734, 0.744141, 0.777344, 0.833984, 0.759277, 0.751465, 0.751953, 0.750977 ] }, { "question_id": "10038171", "image_id": 251132, "question": "cây xanh ở đâu", "ground_truth": "cái nồi", "ground_truth_normalized": "cái nồi", "predicted_top1": "sân vườn", "predicted_topk": [ "sân vườn", "cái nồi", "cây", "hộp", "bông cải xanh", "thùng chứa", "sân", "bát", "lọ cắm hoa", "cái túi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.38031, "confidences": [ 0.38031, 0.151869, 0.144914, 0.031709, 0.017512, 0.016483, 0.016038, 0.009978, 0.008618, 0.007502 ], "gate_score_top1": 0.81543, "gate_scores": [ 0.81543, 0.772461, 0.794922, 0.689453, 0.617188, 0.668457, 0.630859, 0.717285, 0.573242, 0.623047 ] }, { "question_id": "10062661", "image_id": 549649, "question": "những gì đang nằm trên bàn với kính râm trên", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "con mèo", "predicted_topk": [ "con mèo", "cà vạt", "đồng hồ", "con chó", "xe đẩy", "màu xám", "bức ảnh", "nón", "chậu", "con chim" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.968352, "confidences": [ 0.968352, 0.002168, 0.001163, 0.001028, 0.001016, 0.000944, 0.000597, 0.000559, 0.000518, 0.00046 ], "gate_score_top1": 0.871582, "gate_scores": [ 0.871582, 0.714844, 0.625, 0.678223, 0.435059, 0.613281, 0.459717, 0.543945, 0.550293, 0.524902 ] }, { "question_id": "10021271", "image_id": 41233, "question": "màu của dòng kẻ là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu xanh dương", "màu trắng", "màu xám", "màu vàng", "màu xanh lá", "màu tía", "màu nâu", "màu đỏ", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.572664, "confidences": [ 0.572664, 0.355575, 0.028623, 0.009042, 0.008561, 0.005274, 0.004547, 0.002982, 0.002268, 0.000396 ], "gate_score_top1": 0.881348, "gate_scores": [ 0.881348, 0.865723, 0.781738, 0.734863, 0.790527, 0.708008, 0.714355, 0.682129, 0.776855, 0.549805 ] }, { "question_id": "10016701", "image_id": 169732, "question": "màu của con dao là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xanh lá", "màu vàng", "màu đen", "màu nâu", "màu đỏ", "bánh", "màu cam", "màu tía", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.88808, "confidences": [ 0.88808, 0.052712, 0.024899, 0.00615, 0.00571, 0.001589, 0.001531, 0.000979, 0.000805, 0.000529 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.824219, 0.731445, 0.703613, 0.745605, 0.690918, 0.656738, 0.708496, 0.570312, 0.639648 ] }, { "question_id": "10035121", "image_id": 46009, "question": "hai con ngựa vằn vây quanh đi dạo ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "tòa nhà", "bảo tàng", "cửa tiệm", "kho", "ga-ra", "chuồng trại", "rào chắn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.412509, "confidences": [ 0.412509, 0.176037, 0.108031, 0.100303, 0.027636, 0.017843, 0.01631, 0.01488, 0.01431, 0.009421 ], "gate_score_top1": 0.821289, "gate_scores": [ 0.821289, 0.822266, 0.836914, 0.775879, 0.756836, 0.727539, 0.76709, 0.732422, 0.70459, 0.638672 ] }, { "question_id": "10097521", "image_id": 397109, "question": "băng ghế đơn nhìn ra gì", "ground_truth": "hồ", "ground_truth_normalized": "hồ", "predicted_top1": "băng ghế", "predicted_topk": [ "băng ghế", "sân vườn", "hồ bơi", "hồ", "lối đi", "cây", "các tòa nhà", "những bức ảnh", "sân", "vòi" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.223722, "confidences": [ 0.223722, 0.18913, 0.064348, 0.061162, 0.016365, 0.015284, 0.012438, 0.011903, 0.011548, 0.011303 ], "gate_score_top1": 0.779785, "gate_scores": [ 0.779785, 0.797363, 0.736816, 0.473877, 0.524414, 0.631348, 0.515137, 0.547852, 0.661621, 0.617188 ] }, { "question_id": "10071071", "image_id": 498759, "question": "những gì có một ván trượt ở tốc độ cao", "ground_truth": "máy ảnh", "ground_truth_normalized": "máy ảnh", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "đường phố", "đường", "sân", "ga-ra", "trượt tuyết", "xe ô tô", "máy ảnh", "mũ", "cây" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.632686, "confidences": [ 0.632686, 0.101286, 0.032436, 0.012702, 0.011588, 0.005269, 0.004984, 0.004926, 0.004765, 0.004668 ], "gate_score_top1": 0.811523, "gate_scores": [ 0.811523, 0.776855, 0.768555, 0.600098, 0.581543, 0.700195, 0.666016, 0.45459, 0.521484, 0.536621 ] }, { "question_id": "10105061", "image_id": 253477, "question": "có bao nhiêu người đàn ông dưới nước cầm một tấm ván lướt sóng", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "tám", "bảy", "mười", "năm", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.934833, "confidences": [ 0.934833, 0.051922, 0.009382, 0.000439, 0.000149, 8.6e-05, 7.6e-05, 6.6e-05, 5.6e-05, 3.9e-05 ], "gate_score_top1": 0.897461, "gate_scores": [ 0.897461, 0.85498, 0.785645, 0.623535, 0.415771, 0.418457, 0.372803, 0.440186, 0.515137, 0.385254 ] }, { "question_id": "10063141", "image_id": 413709, "question": "những gì được dán vào tòa nhà cao tầng", "ground_truth": "đồng hồ", "ground_truth_normalized": "đồng hồ", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "tòa nhà", "bức tượng", "các tòa nhà", "lá cờ", "cờ", "cây", "bức ảnh", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.438086, "confidences": [ 0.438086, 0.405164, 0.060458, 0.018583, 0.007193, 0.005974, 0.004829, 0.003918, 0.00301, 0.002735 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.834473, 0.756348, 0.711914, 0.663086, 0.694824, 0.643066, 0.677246, 0.638184, 0.590332 ] }, { "question_id": "10036061", "image_id": 457638, "question": "lò vi sóng gắn ở đâu", "ground_truth": "buồng", "ground_truth_normalized": "buồng", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "lò vi sóng", "bếp", "chậu", "quầy tính tiền", "tường", "buồng", "tủ đá", "chảo", "cửa sổ" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.686441, "confidences": [ 0.686441, 0.163682, 0.040903, 0.013971, 0.00849, 0.004716, 0.00379, 0.003673, 0.00328, 0.00294 ], "gate_score_top1": 0.828613, "gate_scores": [ 0.828613, 0.790039, 0.716797, 0.727539, 0.620605, 0.571777, 0.519043, 0.689453, 0.641113, 0.604492 ] }, { "question_id": "10017051", "image_id": 252420, "question": "màu của con mèo là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu nâu", "màu cam", "màu đỏ", "màu xanh dương", "màu trắng", "màu vàng", "màu tía", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.596342, "confidences": [ 0.596342, 0.373181, 0.013753, 0.002928, 0.002189, 0.001209, 0.000867, 0.000693, 0.000343, 0.000282 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.866699, 0.783203, 0.750977, 0.716309, 0.634766, 0.715332, 0.65332, 0.643555, 0.473145 ] }, { "question_id": "10113001", "image_id": 310757, "question": "có bao nhiêu con chó đang nằm xuống trong khi người kia cố gắng chơi với anh ta", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "tám", "màu vàng", "bàn chải", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.5062, "confidences": [ 0.5062, 0.479261, 0.004608, 0.000601, 0.000265, 0.000218, 0.000175, 0.00013, 0.000124, 0.000121 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.875977, 0.732422, 0.583496, 0.400391, 0.420166, 0.41626, 0.505859, 0.421631, 0.435059 ] }, { "question_id": "10111211", "image_id": 435990, "question": "có bao nhiêu người đứng trên một chiếc thuyền gần bến cảng", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.743059, "confidences": [ 0.743059, 0.233814, 0.010114, 0.005227, 0.002537, 0.001153, 0.000517, 0.000495, 0.000248, 0.000177 ], "gate_score_top1": 0.88916, "gate_scores": [ 0.88916, 0.897461, 0.732422, 0.766113, 0.583008, 0.654297, 0.574707, 0.52832, 0.488037, 0.427246 ] }, { "question_id": "10062651", "image_id": 466838, "question": "hai người phụ nữ đang ăn pizza pepperoni đang mặc gì", "ground_truth": "kính đeo", "ground_truth_normalized": "kính đeo", "predicted_top1": "bữa ăn", "predicted_topk": [ "bữa ăn", "quán ăn", "kính đeo", "rượu", "áo sơ mi", "pizza", "bức ảnh", "đồ uống", "mũ", "đĩa ăn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.099729, "confidences": [ 0.099729, 0.076764, 0.063268, 0.05401, 0.047757, 0.044864, 0.033275, 0.026426, 0.022691, 0.021317 ], "gate_score_top1": 0.730469, "gate_scores": [ 0.730469, 0.661621, 0.627441, 0.64209, 0.605957, 0.701172, 0.648438, 0.531738, 0.640137, 0.619629 ] }, { "question_id": "10080011", "image_id": 525908, "question": "những gì đang rơi ra khỏi người chơi đang cầm một cây vợt tennis", "ground_truth": "mũ lưỡi trai", "ground_truth_normalized": "mũ lưỡi trai", "predicted_top1": "quả bóng", "predicted_topk": [ "quả bóng", "vợt", "nón", "dĩa nhựa", "áo sơ mi", "ván trượt", "mũ lưỡi trai", "mặt trời", "mũ", "quần short" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.347663, "confidences": [ 0.347663, 0.176187, 0.149528, 0.047051, 0.024457, 0.018862, 0.010959, 0.009411, 0.008002, 0.006798 ], "gate_score_top1": 0.780273, "gate_scores": [ 0.780273, 0.754395, 0.723633, 0.722168, 0.69873, 0.691895, 0.523438, 0.538086, 0.638672, 0.495117 ] }, { "question_id": "10065851", "image_id": 521838, "question": "những gì đang đi xuống các đường ray gần một khu rừng", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "đường sắt", "các tòa nhà", "xe điện ngầm", "cây", "cầu", "xe điện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.708267, "confidences": [ 0.708267, 0.202922, 0.039185, 0.005568, 0.00422, 0.002471, 0.001167, 0.001147, 0.001114, 0.00099 ], "gate_score_top1": 0.895508, "gate_scores": [ 0.895508, 0.834473, 0.750488, 0.61084, 0.558105, 0.665527, 0.598633, 0.593262, 0.590332, 0.606445 ] }, { "question_id": "10034621", "image_id": 259366, "question": "người đàn ông trẻ đang đeo cà vạt ở đâu", "ground_truth": "ô cửa", "ground_truth_normalized": "ô cửa", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng ngủ", "phòng", "ô cửa", "hành lang", "nhà ở", "phòng tắm", "cửa", "cửa sổ", "áo vest" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.481605, "confidences": [ 0.481605, 0.160062, 0.145738, 0.065947, 0.021243, 0.017888, 0.012635, 0.008787, 0.005477, 0.004062 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.874023, 0.789551, 0.740234, 0.688965, 0.729492, 0.645996, 0.63916, 0.650879, 0.536621 ] }, { "question_id": "10074531", "image_id": 437412, "question": "hai người bạn thưởng thức những gì tại một nhà hàng pizza", "ground_truth": "bữa trưa", "ground_truth_normalized": "bữa trưa", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "quán ăn", "pizza", "rượu", "đĩa", "bữa trưa", "kính đeo", "bức ảnh", "món ăn" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.135911, "confidences": [ 0.135911, 0.105435, 0.073605, 0.059259, 0.045881, 0.045347, 0.021631, 0.019239, 0.018215, 0.016978 ], "gate_score_top1": 0.749023, "gate_scores": [ 0.749023, 0.771973, 0.697754, 0.745117, 0.618164, 0.675781, 0.495361, 0.577148, 0.65625, 0.630371 ] }, { "question_id": "10117251", "image_id": 369331, "question": "có bao nhiêu loại bánh mì sandwich trên đĩa sứ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.43984, "confidences": [ 0.43984, 0.429651, 0.104471, 0.011676, 0.005624, 0.002585, 0.000813, 0.000775, 0.000256, 0.000219 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.882812, 0.851562, 0.753906, 0.714355, 0.519043, 0.547363, 0.549316, 0.445801, 0.422852 ] }, { "question_id": "10052151", "image_id": 96463, "question": "công nhân đứng ở đâu bên cạnh đào tạo", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "tàu hỏa", "xe điện ngầm", "áo vest", "xe ô tô", "đường sắt", "xe điện", "cầu", "tòa nhà", "hàng hoá" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.661558, "confidences": [ 0.661558, 0.116317, 0.05826, 0.025551, 0.019363, 0.01336, 0.00432, 0.003941, 0.00379, 0.003568 ], "gate_score_top1": 0.837402, "gate_scores": [ 0.837402, 0.796875, 0.703125, 0.665527, 0.709473, 0.674805, 0.658203, 0.600098, 0.694824, 0.589844 ] }, { "question_id": "10020381", "image_id": 167431, "question": "màu của băng ghế là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu xám", "màu tía", "màu đen", "màu xanh lá", "màu vàng", "màu nâu", "màu đỏ", "màu trắng", "màu cam" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.306343, "confidences": [ 0.306343, 0.287782, 0.195485, 0.08985, 0.052205, 0.014668, 0.009925, 0.00502, 0.002821, 0.001089 ], "gate_score_top1": 0.824219, "gate_scores": [ 0.824219, 0.78418, 0.835449, 0.768066, 0.758301, 0.724121, 0.736328, 0.649902, 0.669434, 0.644043 ] }, { "question_id": "10086341", "image_id": 375078, "question": "cái gì trên bàn dựa vào tường", "ground_truth": "chai", "ground_truth_normalized": "chai", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bông hoa", "chai", "cây", "hoa hồng", "nến", "bình hoa", "cái nồi", "tách", "cái kệ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.357356, "confidences": [ 0.357356, 0.172806, 0.134581, 0.106879, 0.037372, 0.01711, 0.01455, 0.009883, 0.006431, 0.005544 ], "gate_score_top1": 0.759277, "gate_scores": [ 0.759277, 0.854004, 0.765137, 0.793945, 0.724609, 0.675781, 0.512207, 0.591309, 0.712891, 0.644043 ] }, { "question_id": "10048901", "image_id": 486595, "question": "cặp vợ chồng xe tay ga đang ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "tòa nhà", "kho", "phòng", "cửa tiệm", "bảo tàng", "nhà ở", "trạm", "lớp học", "quán ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.501764, "confidences": [ 0.501764, 0.299617, 0.051059, 0.036776, 0.020791, 0.013582, 0.006122, 0.003387, 0.002722, 0.002577 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.838379, 0.822754, 0.775391, 0.754395, 0.808594, 0.754883, 0.633301, 0.64209, 0.657227 ] }, { "question_id": "10091171", "image_id": 523100, "question": "những gì thể hiện một bát lớn trái cây nêm", "ground_truth": "những quả cam", "ground_truth_normalized": "những quả cam", "predicted_top1": "bát", "predicted_topk": [ "bát", "những quả cam", "chảo", "đĩa ăn", "cái lọ", "quả cam", "táo", "cà rốt", "chuối", "quả táo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.535759, "confidences": [ 0.535759, 0.075987, 0.026056, 0.020174, 0.01963, 0.015681, 0.013757, 0.011676, 0.011585, 0.010045 ], "gate_score_top1": 0.802246, "gate_scores": [ 0.802246, 0.731934, 0.625, 0.71582, 0.694336, 0.571777, 0.65625, 0.678223, 0.598145, 0.638184 ] }, { "question_id": "10063311", "image_id": 341128, "question": "làm gì, những con cừu này ăn", "ground_truth": "hay", "ground_truth_normalized": "hay", "predicted_top1": "con cừu", "predicted_topk": [ "con cừu", "chuồng", "chuồng trại", "con bò", "lồng", "rào chắn", "bãi cỏ", "hay", "cái lều", "gấu trúc" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.205581, "confidences": [ 0.205581, 0.20478, 0.180013, 0.034423, 0.025382, 0.023156, 0.021584, 0.017377, 0.007474, 0.006046 ], "gate_score_top1": 0.741699, "gate_scores": [ 0.741699, 0.708984, 0.694336, 0.6875, 0.603027, 0.509766, 0.629395, 0.478516, 0.401855, 0.531738 ] }, { "question_id": "10115791", "image_id": 334080, "question": "có bao nhiêu con hươu cao cổ đứng trong lùm cây nhỏ", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "tám", "bảy", "mười", "hươu cao cổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.925752, "confidences": [ 0.925752, 0.055163, 0.014222, 0.001902, 0.000115, 9.6e-05, 6.5e-05, 5.9e-05, 5.7e-05, 4.5e-05 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.836914, 0.786133, 0.728027, 0.381348, 0.530273, 0.408936, 0.389648, 0.385986, 0.467773 ] }, { "question_id": "10048301", "image_id": 52611, "question": "người đàn ông phản chiếu ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "vòi hoa sen", "ô cửa", "hành lang", "nhà ở", "phòng", "chậu", "cửa", "máy ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.605497, "confidences": [ 0.605497, 0.364394, 0.007049, 0.002997, 0.001828, 0.001495, 0.001058, 0.000939, 0.000746, 0.000743 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.881348, 0.727051, 0.66748, 0.542969, 0.695312, 0.689453, 0.659668, 0.656738, 0.525879 ] }, { "question_id": "10098511", "image_id": 378831, "question": "người phụ nữ đang mang cái gì kế một vòi chữa cháy rất cao", "ground_truth": "túi", "ground_truth_normalized": "túi", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "balo", "nón", "túi", "mũ", "ván trượt", "chiếc ô", "cái túi", "lá cờ", "máy ảnh" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.304309, "confidences": [ 0.304309, 0.048337, 0.041103, 0.028305, 0.026332, 0.02365, 0.021449, 0.014771, 0.012659, 0.012426 ], "gate_score_top1": 0.751465, "gate_scores": [ 0.751465, 0.717285, 0.69873, 0.722656, 0.560059, 0.69043, 0.730469, 0.679199, 0.562988, 0.570801 ] }, { "question_id": "10056701", "image_id": 550055, "question": "những gì bận rộn với các máy bay và phương tiện khác nhau", "ground_truth": "sân bay", "ground_truth_normalized": "sân bay", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "bầu trời", "ga-ra", "bảo tàng", "bến tàu", "kho", "xe đẩy", "trạm", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.564974, "confidences": [ 0.564974, 0.273203, 0.018628, 0.006264, 0.004247, 0.003453, 0.00333, 0.003098, 0.002782, 0.002684 ], "gate_score_top1": 0.794922, "gate_scores": [ 0.794922, 0.790527, 0.577148, 0.578613, 0.585938, 0.463623, 0.504883, 0.58252, 0.490723, 0.595703 ] }, { "question_id": "10020711", "image_id": 11222, "question": "màu của ghế là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu xám", "màu nâu", "màu vàng", "màu đỏ", "màu cam", "màu đen", "màu tía", "màu trắng", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.843604, "confidences": [ 0.843604, 0.09502, 0.023468, 0.010619, 0.007299, 0.003434, 0.002765, 0.001466, 0.001089, 0.000847 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.79834, 0.724609, 0.752441, 0.733398, 0.791504, 0.717285, 0.648926, 0.709473, 0.647949 ] }, { "question_id": "10043511", "image_id": 523890, "question": "bột bánh quy ở đâu", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "sân vận động", "predicted_topk": [ "sân vận động", "lồng", "găng tay", "gậy", "chuồng", "hộp", "quả bóng", "vườn bách thú", "rào chắn", "áo sơ mi" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.550901, "confidences": [ 0.550901, 0.158453, 0.071142, 0.049472, 0.023006, 0.01911, 0.012631, 0.005204, 0.003132, 0.002919 ], "gate_score_top1": 0.833008, "gate_scores": [ 0.833008, 0.825684, 0.799805, 0.753906, 0.685059, 0.555664, 0.657715, 0.654785, 0.575684, 0.53125 ] }, { "question_id": "10100251", "image_id": 524742, "question": "những gì được bao phủ trong graffiti bên cạnh một vỉa hè", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "xe buýt", "predicted_topk": [ "xe buýt", "xe điện", "xe đẩy", "tàu hỏa", "trạm", "xe điện ngầm", "xe ô tô", "cửa", "phương tiện giao thông", "xe cộ" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.879421, "confidences": [ 0.879421, 0.013198, 0.012792, 0.011738, 0.010099, 0.007594, 0.006968, 0.002761, 0.002574, 0.002499 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.716309, 0.742188, 0.693848, 0.734375, 0.649902, 0.707031, 0.604492, 0.629883, 0.59375 ] }, { "question_id": "10082431", "image_id": 523955, "question": "hai người đàn ông mặc trang phục trượt tuyết đứng trên cái gì phủ đầy tuyết", "ground_truth": "đồi", "ground_truth_normalized": "đồi", "predicted_top1": "núi", "predicted_topk": [ "núi", "trượt tuyết", "đồi", "ván trượt", "cây", "bầu trời", "trang thiết bị", "áo sơ mi", "bức ảnh", "ba lan" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.362453, "confidences": [ 0.362453, 0.304026, 0.112722, 0.112283, 0.00983, 0.005813, 0.003995, 0.002654, 0.002457, 0.002294 ], "gate_score_top1": 0.800781, "gate_scores": [ 0.800781, 0.833496, 0.808594, 0.790527, 0.652832, 0.625, 0.640625, 0.571777, 0.615234, 0.561035 ] }, { "question_id": "10056501", "image_id": 465664, "question": "những gì nằm xung quanh máy bay trên đường băng", "ground_truth": "rào chắn", "ground_truth_normalized": "rào chắn", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "bầu trời", "con thoi", "hải âu", "núi", "bến tàu", "rào chắn", "bảo tàng", "ga-ra" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.962936, "confidences": [ 0.962936, 0.012409, 0.002282, 0.000513, 0.000501, 0.000428, 0.000406, 0.0004, 0.000379, 0.000358 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.708496, 0.556641, 0.390381, 0.498779, 0.464844, 0.418701, 0.405029, 0.456055, 0.430176 ] }, { "question_id": "10099101", "image_id": 457566, "question": "bánh sandwich đóng gói hào phóng làm gì", "ground_truth": "bữa trưa", "ground_truth_normalized": "bữa trưa", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "dĩa", "bữa trưa", "rau", "quả táo", "đồ uống", "cái nĩa", "thịt", "nước" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.257299, "confidences": [ 0.257299, 0.112406, 0.035026, 0.031397, 0.028199, 0.027385, 0.020551, 0.018785, 0.017855, 0.016806 ], "gate_score_top1": 0.766602, "gate_scores": [ 0.766602, 0.76416, 0.672852, 0.500977, 0.733398, 0.70752, 0.57373, 0.63916, 0.65332, 0.537598 ] }, { "question_id": "10063711", "image_id": 478766, "question": "những gì được phục vụ với khoai tây nướng và bông cải xanh", "ground_truth": "cá", "ground_truth_normalized": "cá", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "món ăn", "thịt", "quán ăn", "dĩa", "bữa ăn tối", "chén đĩa", "sandwich", "đĩa" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.650139, "confidences": [ 0.650139, 0.100484, 0.043898, 0.026111, 0.02098, 0.020256, 0.011954, 0.010027, 0.008427, 0.007365 ], "gate_score_top1": 0.848145, "gate_scores": [ 0.848145, 0.795898, 0.758789, 0.729004, 0.763672, 0.722168, 0.682129, 0.652832, 0.732422, 0.621582 ] }, { "question_id": "10016771", "image_id": 288131, "question": "màu của tòa nhà là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu nâu", "màu trắng", "màu vàng", "màu cam", "màu xanh lá", "màu xám", "màu đen", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.497655, "confidences": [ 0.497655, 0.311424, 0.115917, 0.019754, 0.017029, 0.015505, 0.007239, 0.004173, 0.002653, 0.000623 ], "gate_score_top1": 0.858887, "gate_scores": [ 0.858887, 0.825195, 0.873535, 0.808105, 0.818359, 0.756348, 0.786133, 0.73877, 0.700684, 0.668457 ] }, { "question_id": "10061871", "image_id": 334746, "question": "cái gì đã bày ra trên bàn với một ly rượu trong nền", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "bữa ăn", "dĩa", "rau", "rượu", "thịt", "đĩa", "cái nĩa", "bữa ăn tối", "món ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.250704, "confidences": [ 0.250704, 0.165059, 0.047198, 0.038148, 0.030473, 0.030295, 0.025964, 0.018555, 0.016407, 0.014593 ], "gate_score_top1": 0.787598, "gate_scores": [ 0.787598, 0.771973, 0.671387, 0.755371, 0.694336, 0.621582, 0.665527, 0.662598, 0.593262, 0.674805 ] }, { "question_id": "10104921", "image_id": 337185, "question": "có bao nhiêu con ngựa vằn đang đứng trong một đám mây", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.62375, "confidences": [ 0.62375, 0.316101, 0.038347, 0.00761, 0.003148, 0.002385, 0.001978, 0.001026, 0.000666, 0.000352 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.868164, 0.778809, 0.612793, 0.705078, 0.63623, 0.610352, 0.561523, 0.563477, 0.48584 ] }, { "question_id": "10034581", "image_id": 521339, "question": "người trượt ván trẻ đang nhảy vào đâu", "ground_truth": "đường ống", "ground_truth_normalized": "đường ống", "predicted_top1": "hồ bơi", "predicted_topk": [ "hồ bơi", "ga-ra", "tòa nhà", "ván trượt", "bát", "trượt tuyết", "chậu", "chuồng", "đường ống", "phòng tắm" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.160911, "confidences": [ 0.160911, 0.085292, 0.070434, 0.040924, 0.033597, 0.030831, 0.024247, 0.016632, 0.015855, 0.015839 ], "gate_score_top1": 0.751953, "gate_scores": [ 0.751953, 0.649902, 0.713379, 0.655273, 0.648926, 0.680664, 0.539062, 0.57373, 0.520508, 0.55957 ] }, { "question_id": "10004841", "image_id": 545088, "question": "màu của quần short là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu đen", "màu vàng", "màu xanh dương", "màu xanh lá", "màu xám", "màu nâu", "màu tía", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.394473, "confidences": [ 0.394473, 0.283021, 0.114798, 0.114798, 0.027267, 0.016733, 0.015843, 0.008818, 0.002913, 0.001238 ], "gate_score_top1": 0.870117, "gate_scores": [ 0.870117, 0.790039, 0.826172, 0.836914, 0.723633, 0.757812, 0.759277, 0.762695, 0.655273, 0.681641 ] }, { "question_id": "10008891", "image_id": 319295, "question": "màu sắc của hành tây là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu xanh dương", "màu trắng", "màu tía", "màu nâu", "màu xám", "màu đen", "màu vàng", "màu cam", "màu đỏ" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.6369, "confidences": [ 0.6369, 0.259349, 0.035236, 0.016007, 0.012762, 0.011306, 0.006621, 0.005958, 0.005156, 0.003743 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.861328, 0.815918, 0.783203, 0.785156, 0.786133, 0.741699, 0.75, 0.779785, 0.755371 ] }, { "question_id": "10068461", "image_id": 383606, "question": "người đàn ông cầm những gì phản chiếu trong một tấm gương phòng tắm ", "ground_truth": "máy ảnh", "ground_truth_normalized": "máy ảnh", "predicted_top1": "gương", "predicted_topk": [ "gương", "phòng tắm", "máy ảnh", "vòi hoa sen", "cửa", "ô cửa", "bức ảnh", "bàn chải", "khăn", "tường" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.400195, "confidences": [ 0.400195, 0.14665, 0.117836, 0.029562, 0.02619, 0.019236, 0.015639, 0.01218, 0.010097, 0.009748 ], "gate_score_top1": 0.794434, "gate_scores": [ 0.794434, 0.699707, 0.729492, 0.650391, 0.68457, 0.692871, 0.625977, 0.677734, 0.580566, 0.620117 ] }, { "question_id": "10095421", "image_id": 534827, "question": "năm người đàn ông cưỡi những gì trên đường phố", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "mũ", "xe cộ", "đường", "con khỉ", "cây", "ga-ra", "chim bồ câu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.875371, "confidences": [ 0.875371, 0.077998, 0.018671, 0.002454, 0.001152, 0.001083, 0.000486, 0.00043, 0.000383, 0.000349 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.830078, 0.738281, 0.525879, 0.51123, 0.61084, 0.371582, 0.463623, 0.456543, 0.424072 ] }, { "question_id": "10112641", "image_id": 170173, "question": "có bao nhiêu người cưỡi ngựa trên con đường mòn bên sông", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.539156, "confidences": [ 0.539156, 0.406976, 0.043401, 0.004117, 0.002062, 0.000566, 0.000192, 0.000156, 0.00015, 9.4e-05 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.880859, 0.841797, 0.704102, 0.647461, 0.485352, 0.477295, 0.457275, 0.4021, 0.38623 ] }, { "question_id": "10067261", "image_id": 364884, "question": "người đang cưỡi ván trượt tuyết trên tuyết bao phủ là gì", "ground_truth": "con dốc", "ground_truth_normalized": "con dốc", "predicted_top1": "trượt tuyết", "predicted_topk": [ "trượt tuyết", "núi", "ván trượt", "đồi", "cây", "áo sơ mi", "bầu trời", "trang thiết bị", "bức ảnh", "hồ bơi" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.332312, "confidences": [ 0.332312, 0.229288, 0.109585, 0.063176, 0.016225, 0.009822, 0.006051, 0.004648, 0.004626, 0.004423 ], "gate_score_top1": 0.758301, "gate_scores": [ 0.758301, 0.753906, 0.746582, 0.73584, 0.637695, 0.553223, 0.571289, 0.5625, 0.601562, 0.642578 ] }, { "question_id": "10013631", "image_id": 438315, "question": "màu của nút là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xanh dương", "màu xanh lá", "màu tía", "màu đen", "màu nâu", "màu đỏ", "màu vàng", "màu xám", "màu cam" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.570128, "confidences": [ 0.570128, 0.216396, 0.154651, 0.018043, 0.008759, 0.006612, 0.006484, 0.003902, 0.003609, 0.003364 ], "gate_score_top1": 0.876953, "gate_scores": [ 0.876953, 0.837402, 0.82959, 0.791016, 0.72998, 0.750977, 0.78418, 0.710449, 0.77832, 0.745117 ] }, { "question_id": "10041121", "image_id": 188534, "question": "bữa trưa mang đi nằm ở đâu", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "thùng chứa", "predicted_topk": [ "thùng chứa", "hộp", "cái mâm", "giấy bạc", "chén đĩa", "món ăn", "cái túi", "cái rổ", "vali", "ngăn kéo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.46392, "confidences": [ 0.46392, 0.451407, 0.016062, 0.006168, 0.005572, 0.005508, 0.00303, 0.002643, 0.002566, 0.001785 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.854004, 0.756836, 0.72168, 0.59082, 0.73291, 0.691895, 0.685547, 0.618164, 0.553711 ] }, { "question_id": "10035251", "image_id": 236375, "question": "người đàn ông đốt lò ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "lò vi sóng", "quán ăn", "tạp dề", "cửa tiệm", "phòng", "chảo", "cửa hàng", "nhà ở", "quán bar" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.339912, "confidences": [ 0.339912, 0.215219, 0.159313, 0.081369, 0.060705, 0.011317, 0.007733, 0.005483, 0.003836, 0.00361 ], "gate_score_top1": 0.831543, "gate_scores": [ 0.831543, 0.765625, 0.842773, 0.754395, 0.729492, 0.657715, 0.605469, 0.643555, 0.708008, 0.565918 ] }, { "question_id": "10118771", "image_id": 274585, "question": "có bao nhiêu ô tô dừng lại vào ban đêm", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.439712, "confidences": [ 0.439712, 0.3217, 0.169524, 0.040109, 0.015892, 0.003987, 0.002052, 0.000994, 0.000643, 0.00061 ], "gate_score_top1": 0.86377, "gate_scores": [ 0.86377, 0.879883, 0.847168, 0.791992, 0.771973, 0.555176, 0.599121, 0.567383, 0.486572, 0.496582 ] }, { "question_id": "10052241", "image_id": 168173, "question": "người đàn ông chuẩn bị bánh sandwich ở đâu", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "cửa hàng", "quán ăn", "tạp dề", "cửa tiệm", "phòng", "nhà ở", "lò vi sóng", "quán bar", "tủ lạnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.694543, "confidences": [ 0.694543, 0.079773, 0.072635, 0.059515, 0.017592, 0.007234, 0.004457, 0.003995, 0.002495, 0.001947 ], "gate_score_top1": 0.841797, "gate_scores": [ 0.841797, 0.791504, 0.832031, 0.78418, 0.734375, 0.714844, 0.672852, 0.608887, 0.659668, 0.716309 ] }, { "question_id": "10043931", "image_id": 456755, "question": "một con voi và một mô hình thị trấn thu nhỏ hiển thị", "ground_truth": "cái lều", "ground_truth_normalized": "cái lều", "predicted_top1": "thân cây", "predicted_topk": [ "thân cây", "cái lều", "vườn bách thú", "kho", "bảo tàng", "cây", "cửa tiệm", "bãi cỏ", "tòa nhà", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.072819, "confidences": [ 0.072819, 0.046287, 0.032124, 0.027965, 0.022802, 0.021212, 0.02115, 0.020701, 0.018977, 0.018448 ], "gate_score_top1": 0.666504, "gate_scores": [ 0.666504, 0.591309, 0.674805, 0.685547, 0.723633, 0.717773, 0.605957, 0.520996, 0.685059, 0.612793 ] }, { "question_id": "10060151", "image_id": 346638, "question": "cái gì đang ngồi bên cạnh máy tính", "ground_truth": "bia", "ground_truth_normalized": "bia", "predicted_top1": "chai", "predicted_topk": [ "chai", "bia", "rượu", "máy tính", "đồ uống", "cái bàn", "cái kệ", "một", "tủ đá", "nước" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.190042, "confidences": [ 0.190042, 0.132153, 0.030364, 0.02542, 0.022389, 0.016332, 0.016095, 0.015448, 0.014204, 0.011435 ], "gate_score_top1": 0.69873, "gate_scores": [ 0.69873, 0.657715, 0.582031, 0.683105, 0.55957, 0.61084, 0.535645, 0.484863, 0.611816, 0.493408 ] }, { "question_id": "10038221", "image_id": 39040, "question": "nhóm người có ô có ở đâu", "ground_truth": "đường bộ", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "xe tải", "xe ô tô", "vạch kẻ đường", "xe đẩy", "xe tay ga", "áo vest", "xe cộ", "phương tiện giao thông" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.347228, "confidences": [ 0.347228, 0.28674, 0.075387, 0.038354, 0.019437, 0.013543, 0.013177, 0.012872, 0.012379, 0.011538 ], "gate_score_top1": 0.75, "gate_scores": [ 0.75, 0.829102, 0.747559, 0.726562, 0.649414, 0.702637, 0.626465, 0.589355, 0.591309, 0.622559 ] }, { "question_id": "10034611", "image_id": 153985, "question": "đàn ông sử dụng máy tính xách tay ở đâu", "ground_truth": "thư viện", "ground_truth_normalized": "thư viện", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "thư viện", "phòng", "lớp học", "cửa tiệm", "cái bàn", "tòa nhà", "cái ghế", "chung cư", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.487696, "confidences": [ 0.487696, 0.127223, 0.119983, 0.065745, 0.027407, 0.014163, 0.012138, 0.009453, 0.008624, 0.007405 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.72998, 0.783691, 0.766113, 0.794922, 0.600098, 0.65918, 0.615723, 0.650391, 0.729004 ] }, { "question_id": "10057801", "image_id": 356648, "question": "nhóm đàn ông đang điều tra cái gì", "ground_truth": "hộp đựng", "ground_truth_normalized": "hộp đựng", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "quả bóng", "pizza", "áo sơ mi", "vợt", "nước", "gậy", "mũ", "lồng", "sân vận động" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.03614, "confidences": [ 0.03614, 0.035929, 0.033294, 0.032777, 0.02518, 0.021538, 0.017544, 0.016433, 0.015711, 0.013892 ], "gate_score_top1": 0.599121, "gate_scores": [ 0.599121, 0.707031, 0.670898, 0.67334, 0.70459, 0.579102, 0.629883, 0.639648, 0.593262, 0.584961 ] }, { "question_id": "10074541", "image_id": 444565, "question": "những gì ngồi trong phòng khách", "ground_truth": "cái bàn", "ground_truth_normalized": "cái bàn", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhiều cái ghế", "cây", "cái kệ", "bức ảnh", "đi văng", "cái bàn", "nhà ở", "cửa sổ", "bông hoa" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.06942, "confidences": [ 0.06942, 0.06888, 0.067022, 0.050988, 0.044559, 0.043188, 0.041859, 0.02138, 0.01924, 0.018978 ], "gate_score_top1": 0.727051, "gate_scores": [ 0.727051, 0.653809, 0.645508, 0.643555, 0.595215, 0.620605, 0.662598, 0.704102, 0.59668, 0.658691 ] }, { "question_id": "10074551", "image_id": 461007, "question": "băng ghế đã làm gì trước một cây nho", "ground_truth": "rào chắn", "ground_truth_normalized": "rào chắn", "predicted_top1": "băng ghế", "predicted_topk": [ "băng ghế", "sân vườn", "cây", "rào chắn", "hồ", "vòi", "những bức ảnh", "lối đi", "sân", "lá" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.552189, "confidences": [ 0.552189, 0.083368, 0.031092, 0.024595, 0.012961, 0.012319, 0.010957, 0.00777, 0.007627, 0.006555 ], "gate_score_top1": 0.820312, "gate_scores": [ 0.820312, 0.801758, 0.731934, 0.567871, 0.404297, 0.631348, 0.590332, 0.536133, 0.612793, 0.535645 ] }, { "question_id": "10115601", "image_id": 341241, "question": "có bao nhiêu người trên lưng ngựa xếp hàng thành một hàng", "ground_truth": "mười", "ground_truth_normalized": "mười", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "tám", "mười", "ba", "sân vận động", "đồng hồ" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.617397, "confidences": [ 0.617397, 0.239895, 0.059714, 0.048358, 0.004614, 0.003409, 0.001391, 0.000791, 0.000574, 0.000481 ], "gate_score_top1": 0.86084, "gate_scores": [ 0.86084, 0.84082, 0.760742, 0.774902, 0.655273, 0.633301, 0.552246, 0.543457, 0.524414, 0.518066 ] }, { "question_id": "10112851", "image_id": 140352, "question": "có bao nhiêu cái bình được bày trên bệ", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "ba", "chín", "tám", "mười", "một", "hai" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.302919, "confidences": [ 0.302919, 0.244355, 0.235913, 0.156539, 0.010778, 0.004935, 0.004519, 0.002013, 0.001511, 0.000696 ], "gate_score_top1": 0.833496, "gate_scores": [ 0.833496, 0.791992, 0.773438, 0.807617, 0.624512, 0.617188, 0.58252, 0.55127, 0.545898, 0.496094 ] }, { "question_id": "10098141", "image_id": 480657, "question": "những gì bên cạnh xe buýt bên ngoài", "ground_truth": "cây sào", "ground_truth_normalized": "cây sào", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "con thuyền", "bảng", "cây sào", "bờ biển", "thuyền buồm", "bến du thuyền", "cái lều", "ca nô", "máy bay" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.164732, "confidences": [ 0.164732, 0.107823, 0.102885, 0.058508, 0.027262, 0.016665, 0.015625, 0.014535, 0.014296, 0.009523 ], "gate_score_top1": 0.751953, "gate_scores": [ 0.751953, 0.65918, 0.637695, 0.60498, 0.54541, 0.577148, 0.567383, 0.449707, 0.46167, 0.585938 ] }, { "question_id": "10057781", "image_id": 517386, "question": "cái gì trên bàn đáng yêu được chuẩn bị cho bữa sáng", "ground_truth": "tách", "ground_truth_normalized": "tách", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "lọ cắm hoa", "cây", "chai", "tách", "bảy", "năm", "ba", "một", "sáu" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.194076, "confidences": [ 0.194076, 0.137084, 0.105517, 0.039816, 0.035, 0.032307, 0.028289, 0.025959, 0.02359, 0.017192 ], "gate_score_top1": 0.8125, "gate_scores": [ 0.8125, 0.708496, 0.75293, 0.672363, 0.704102, 0.604492, 0.705078, 0.574219, 0.574219, 0.625 ] }, { "question_id": "10109251", "image_id": 392015, "question": "có bao nhiêu con hươu cao cổ ăn cỏ khô trong vườn thú", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "ba", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.464703, "confidences": [ 0.464703, 0.337338, 0.132104, 0.026013, 0.00899, 0.007964, 0.002506, 0.002057, 0.00187, 0.000626 ], "gate_score_top1": 0.834473, "gate_scores": [ 0.834473, 0.837402, 0.798828, 0.755859, 0.669434, 0.644531, 0.663574, 0.516602, 0.562988, 0.512207 ] }, { "question_id": "10114941", "image_id": 36598, "question": "có bao nhiêu cặp đôi đang đi bộ dưới mưa, cầm ô che mưa", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "sáu", "năm", "tám", "bảy", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.546305, "confidences": [ 0.546305, 0.438968, 0.005569, 0.005232, 0.00027, 0.000241, 0.000119, 0.000102, 8.5e-05, 5.9e-05 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.874512, 0.786621, 0.740723, 0.408936, 0.552734, 0.424072, 0.429443, 0.364746, 0.348877 ] }, { "question_id": "10093081", "image_id": 449402, "question": "người đàn ông mặc những gì đang sử dụng điện thoại di động", "ground_truth": "nón", "ground_truth_normalized": "nón", "predicted_top1": "điện thoại", "predicted_topk": [ "điện thoại", "nón", "cà vạt", "máy ảnh", "áo sơ mi", "chiếc ô", "bức ảnh", "đồng hồ", "thuốc lá", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.564709, "confidences": [ 0.564709, 0.169557, 0.026723, 0.024715, 0.013255, 0.007263, 0.006152, 0.005419, 0.005288, 0.00509 ], "gate_score_top1": 0.848145, "gate_scores": [ 0.848145, 0.795898, 0.778809, 0.758301, 0.638184, 0.686523, 0.623047, 0.746094, 0.525391, 0.657227 ] }, { "question_id": "10031641", "image_id": 425179, "question": "giường được làm bằng khăn trải giường màu trắng ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "nhà ở", "hành lang", "cửa sổ", "ô cửa", "tòa nhà", "cửa", "giường", "chung cư" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.462634, "confidences": [ 0.462634, 0.431222, 0.044571, 0.009868, 0.005471, 0.003093, 0.002176, 0.002126, 0.001869, 0.001742 ], "gate_score_top1": 0.903809, "gate_scores": [ 0.903809, 0.865234, 0.830566, 0.706543, 0.719238, 0.609863, 0.592773, 0.62793, 0.529785, 0.648926 ] }, { "question_id": "10084611", "image_id": 377595, "question": "cái gì được giữ với nhau bởi cái túi và cái xiên", "ground_truth": "bánh ngọt", "ground_truth_normalized": "bánh ngọt", "predicted_top1": "cái mâm", "predicted_topk": [ "cái mâm", "sandwich", "chảo", "bánh ngọt", "bánh", "đĩa ăn", "dao", "cupcake", "sô cô la", "món ăn" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.114837, "confidences": [ 0.114837, 0.100948, 0.090137, 0.080169, 0.076051, 0.036776, 0.028142, 0.025079, 0.023977, 0.022175 ], "gate_score_top1": 0.774414, "gate_scores": [ 0.774414, 0.753906, 0.688477, 0.675781, 0.706055, 0.736328, 0.740723, 0.615234, 0.632812, 0.657227 ] }, { "question_id": "10076651", "image_id": 437218, "question": "những gì đang ngồi trên giá đỡ trong một căn phòng", "ground_truth": "vô tuyến", "ground_truth_normalized": "vô tuyến", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái bàn", "nhiều cái ghế", "bức ảnh", "máy tính", "tường", "cái kệ", "chung cư", "cây", "xe ô tô" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.052028, "confidences": [ 0.052028, 0.049549, 0.033922, 0.030706, 0.030112, 0.027204, 0.025159, 0.02273, 0.022246, 0.020899 ], "gate_score_top1": 0.697266, "gate_scores": [ 0.697266, 0.680176, 0.598145, 0.539551, 0.739258, 0.597168, 0.595215, 0.510742, 0.626465, 0.640137 ] }, { "question_id": "10002081", "image_id": 391046, "question": "màu của cát là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đỏ", "màu nâu", "màu đen", "màu xám", "màu xanh dương", "màu xanh lá", "màu tía", "màu vàng", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.707424, "confidences": [ 0.707424, 0.081571, 0.070594, 0.043322, 0.041016, 0.029199, 0.005401, 0.004014, 0.003522, 0.002954 ], "gate_score_top1": 0.902344, "gate_scores": [ 0.902344, 0.839844, 0.794434, 0.790039, 0.796387, 0.805176, 0.67041, 0.713379, 0.730957, 0.729004 ] }, { "question_id": "10067271", "image_id": 554021, "question": "người đàn ông đang xông hơi trong phòng tắm là gì", "ground_truth": "quần áo", "ground_truth_normalized": "quần áo", "predicted_top1": "chuối", "predicted_topk": [ "chuối", "con voi", "khăn", "bàn chải", "máy sấy khô", "bức ảnh", "dao", "phòng tắm", "tường", "thuốc lá" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.264544, "confidences": [ 0.264544, 0.042185, 0.029565, 0.02645, 0.02223, 0.017932, 0.013158, 0.011703, 0.011454, 0.010178 ], "gate_score_top1": 0.756348, "gate_scores": [ 0.756348, 0.665527, 0.577148, 0.666504, 0.509766, 0.537109, 0.661133, 0.540039, 0.620605, 0.537109 ] }, { "question_id": "10061511", "image_id": 574110, "question": "những gì nằm ở đầu một tòa nhà mới", "ground_truth": "tòa tháp", "ground_truth_normalized": "tòa tháp", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "tòa tháp", "đồng hồ", "các tòa nhà", "lá cờ", "cờ", "bức tượng", "cây", "bức ảnh", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.620823, "confidences": [ 0.620823, 0.277649, 0.02035, 0.007969, 0.003846, 0.003048, 0.002517, 0.002116, 0.002051, 0.001976 ], "gate_score_top1": 0.846191, "gate_scores": [ 0.846191, 0.854004, 0.711914, 0.69873, 0.651367, 0.591797, 0.582031, 0.668945, 0.583984, 0.572754 ] }, { "question_id": "10038901", "image_id": 111194, "question": "trẻ mới biết đi đang đánh răng ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "hành lang", "gương", "ô cửa", "nhà ở", "phòng ngủ", "cửa", "bàn chải", "vòi hoa sen" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.187779, "confidences": [ 0.187779, 0.184147, 0.110821, 0.084308, 0.07951, 0.064895, 0.017263, 0.016122, 0.010069, 0.008938 ], "gate_score_top1": 0.734375, "gate_scores": [ 0.734375, 0.77002, 0.666992, 0.78418, 0.681152, 0.733887, 0.760742, 0.587891, 0.616699, 0.60498 ] }, { "question_id": "10080301", "image_id": 485916, "question": "những gì tỏa sáng qua cửa sổ trên phòng tắm sạch sẽ", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "khăn", "cửa", "vòi hoa sen", "bồn tắm", "tường", "quầy tính tiền", "bức ảnh", "gương", "bồn tiểu" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.118083, "confidences": [ 0.118083, 0.086055, 0.074039, 0.073319, 0.056216, 0.053432, 0.048841, 0.044557, 0.026658, 0.021463 ], "gate_score_top1": 0.663574, "gate_scores": [ 0.663574, 0.680176, 0.658203, 0.674316, 0.756836, 0.645996, 0.634766, 0.613281, 0.668457, 0.643066 ] }, { "question_id": "10060371", "image_id": 454731, "question": "những gì đang giữ một thức uống lành mạnh nằm bên cạnh một quả chuối và một bát granola", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "chuối", "predicted_topk": [ "chuối", "bát", "hộp", "thùng chứa", "hoa quả", "cà rốt", "những quả cam", "cái mâm", "cái rổ", "chén đĩa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.234063, "confidences": [ 0.234063, 0.132327, 0.109275, 0.0402, 0.036176, 0.022418, 0.021856, 0.020372, 0.012551, 0.012284 ], "gate_score_top1": 0.770508, "gate_scores": [ 0.770508, 0.72168, 0.758301, 0.654785, 0.693848, 0.697754, 0.634766, 0.667969, 0.641602, 0.658691 ] }, { "question_id": "10047261", "image_id": 182903, "question": "con mèo đang nằm ở đâu", "ground_truth": "ô cửa", "ground_truth_normalized": "ô cửa", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái túi", "vali", "hành lý", "cái ghế", "phòng ngủ", "túi", "balo", "sàn nhà", "giường" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.292944, "confidences": [ 0.292944, 0.173563, 0.117439, 0.061165, 0.03783, 0.025697, 0.020368, 0.01794, 0.012475, 0.011974 ], "gate_score_top1": 0.793457, "gate_scores": [ 0.793457, 0.768555, 0.703613, 0.668457, 0.652344, 0.753906, 0.584961, 0.644043, 0.584473, 0.643555 ] }, { "question_id": "10062731", "image_id": 454731, "question": "cái hộp đựng thứ nằm bên cạnh một quả chuối và một bát granola", "ground_truth": "nước", "ground_truth_normalized": "nước", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "bát", "thùng chứa", "chuối", "cái lọ", "cái mâm", "hoa quả", "chén đĩa", "cà rốt", "những quả cam" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.165157, "confidences": [ 0.165157, 0.086186, 0.078473, 0.060758, 0.031768, 0.030491, 0.025979, 0.0237, 0.023333, 0.015912 ], "gate_score_top1": 0.771484, "gate_scores": [ 0.771484, 0.702637, 0.699219, 0.708984, 0.699219, 0.710938, 0.695312, 0.669434, 0.692383, 0.645508 ] }, { "question_id": "10112841", "image_id": 414067, "question": "có bao nhiêu con cừu đang đứng trên bãi cỏ bên cạnh một cái bia đá với một chiếc đèn lồng", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "ba", "bảy", "một", "tám", "chín", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.49619, "confidences": [ 0.49619, 0.395597, 0.041049, 0.039169, 0.01006, 0.003504, 0.002783, 0.002271, 0.001271, 0.001235 ], "gate_score_top1": 0.874023, "gate_scores": [ 0.874023, 0.866211, 0.76123, 0.783203, 0.71875, 0.667969, 0.658203, 0.658203, 0.566406, 0.57959 ] }, { "question_id": "10008211", "image_id": 579534, "question": "màu sắc của bông hoa là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đỏ", "màu nâu", "màu xanh lá", "màu trắng", "màu đen", "màu vàng", "màu tía", "màu xám", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.775761, "confidences": [ 0.775761, 0.101758, 0.038024, 0.021921, 0.020999, 0.012887, 0.004192, 0.00317, 0.00314, 0.000872 ], "gate_score_top1": 0.878418, "gate_scores": [ 0.878418, 0.844238, 0.76416, 0.774902, 0.782715, 0.777832, 0.696289, 0.653809, 0.655762, 0.606934 ] }, { "question_id": "10082481", "image_id": 387150, "question": "những gì đỗ lề đường bên cạnh đồng hồ đậu xe", "ground_truth": "xe cộ", "ground_truth_normalized": "xe cộ", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe tải", "phương tiện giao thông", "xe cộ", "đường", "đường phố", "xe buýt", "động cơ", "đoạn phim giới thiệu", "xe đẩy" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.816232, "confidences": [ 0.816232, 0.113527, 0.014603, 0.011241, 0.002613, 0.001882, 0.00146, 0.001319, 0.000853, 0.000853 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.777344, 0.793945, 0.751953, 0.651367, 0.498291, 0.67041, 0.532227, 0.455322, 0.683105 ] }, { "question_id": "10039881", "image_id": 233970, "question": "con mèo đang nằm ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "phòng", "giường", "nhà ở", "cửa sổ", "hành lang", "cửa", "ô cửa", "cái ghế", "chung cư" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.389973, "confidences": [ 0.389973, 0.320783, 0.15512, 0.013768, 0.011753, 0.011459, 0.009426, 0.00424, 0.003868, 0.003251 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.828125, 0.719238, 0.726074, 0.660156, 0.634277, 0.617188, 0.488037, 0.61377, 0.595215 ] }, { "question_id": "10008341", "image_id": 90290, "question": "màu của tường là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xanh dương", "màu tía", "màu xanh lá", "màu xám", "màu nâu", "màu vàng", "màu đen", "màu cam", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.475187, "confidences": [ 0.475187, 0.42264, 0.027876, 0.026187, 0.016388, 0.011175, 0.005197, 0.00464, 0.002306, 0.001424 ], "gate_score_top1": 0.890625, "gate_scores": [ 0.890625, 0.869629, 0.813965, 0.734375, 0.825684, 0.768066, 0.72998, 0.733398, 0.702148, 0.740723 ] }, { "question_id": "10112251", "image_id": 453906, "question": "có bao nhiêu con ngựa vằn theo sau con khác trên một cảnh quan khô khan", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bãi cỏ", "tám", "bảy", "ngựa rằn", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.770302, "confidences": [ 0.770302, 0.200945, 0.020052, 0.001338, 0.000197, 0.000184, 0.00015, 0.000145, 0.000134, 0.000101 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.839844, 0.794434, 0.649414, 0.362061, 0.459961, 0.421875, 0.383301, 0.457764, 0.410156 ] }, { "question_id": "10119541", "image_id": 54295, "question": "có bao nhiêu cậu bé đang đá quả bóng trong khi một cậu bé khác đang bảo vệ cậu ấy", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "một", "hai", "bốn", "năm", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.56611, "confidences": [ 0.56611, 0.247315, 0.160931, 0.015997, 0.001334, 0.000742, 0.00036, 0.000324, 0.000227, 0.000225 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.856445, 0.858887, 0.770508, 0.611816, 0.463379, 0.456543, 0.455566, 0.400146, 0.40625 ] }, { "question_id": "10101591", "image_id": 436174, "question": "những gì tất cả đậu sau bên cạnh nhau xếp hàng trên đường", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "mũ", "đường", "cây", "xe cộ", "ga-ra", "con khỉ", "chim bồ câu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.892076, "confidences": [ 0.892076, 0.087983, 0.003319, 0.001553, 0.000818, 0.000384, 0.000353, 0.0003, 0.000281, 0.000173 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.85498, 0.685547, 0.562988, 0.565918, 0.512695, 0.560547, 0.563965, 0.393311, 0.436035 ] }, { "question_id": "10038211", "image_id": 236370, "question": "khách của đám cưới tập trung ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "lớp học", "tòa nhà", "quán ăn", "thư viện", "cửa tiệm", "ô cửa", "văn phòng", "kho" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.488777, "confidences": [ 0.488777, 0.217743, 0.063367, 0.039192, 0.017391, 0.013465, 0.012699, 0.012023, 0.009909, 0.00866 ], "gate_score_top1": 0.80957, "gate_scores": [ 0.80957, 0.828613, 0.763184, 0.748047, 0.743652, 0.625, 0.711426, 0.557129, 0.773438, 0.656738 ] }, { "question_id": "10098281", "image_id": 480210, "question": "hai người đàn ông mang về bãi biển cái gì", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "diều", "bảng", "bờ biển", "dĩa nhựa", "áo sơ mi", "chiếc ô", "cái lều", "cây sào", "vạch kẻ đường" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.364991, "confidences": [ 0.364991, 0.279848, 0.178578, 0.065695, 0.006219, 0.004308, 0.003846, 0.003613, 0.003401, 0.00317 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.862793, 0.798828, 0.691406, 0.737793, 0.515137, 0.667969, 0.485596, 0.609375, 0.544434 ] }, { "question_id": "10047751", "image_id": 324943, "question": "vận động viên ném bóng chày đang tập ném bóng ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "sân vận động", "predicted_topk": [ "sân vận động", "lồng", "găng tay", "chuồng", "gậy", "quả bóng", "vườn bách thú", "hộp", "bảo tàng", "rào chắn" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.660836, "confidences": [ 0.660836, 0.13584, 0.061708, 0.029035, 0.016936, 0.011846, 0.007157, 0.006619, 0.00212, 0.002077 ], "gate_score_top1": 0.854492, "gate_scores": [ 0.854492, 0.86084, 0.795898, 0.733887, 0.70752, 0.679688, 0.727539, 0.545898, 0.61377, 0.583984 ] }, { "question_id": "10108651", "image_id": 376342, "question": "có bao nhiêu đồng đội lấy được cây gậy trong khi chờ đợi cùng các đồng đội khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.726316, "confidences": [ 0.726316, 0.101021, 0.087086, 0.065736, 0.006186, 0.002289, 0.001211, 0.000785, 0.000563, 0.000547 ], "gate_score_top1": 0.878906, "gate_scores": [ 0.878906, 0.848145, 0.803711, 0.828125, 0.703613, 0.513672, 0.526367, 0.537598, 0.419678, 0.45874 ] }, { "question_id": "10002421", "image_id": 520091, "question": "màu của ghế là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu nâu", "màu cam", "màu vàng", "màu xanh lá", "màu trắng", "màu đỏ", "màu đen", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.408999, "confidences": [ 0.408999, 0.250016, 0.124251, 0.103816, 0.01797, 0.015015, 0.012472, 0.010279, 0.007729, 0.001575 ], "gate_score_top1": 0.808594, "gate_scores": [ 0.808594, 0.798828, 0.820312, 0.805176, 0.722656, 0.76709, 0.712402, 0.698242, 0.693848, 0.577148 ] }, { "question_id": "10028541", "image_id": 109357, "question": "hình ảnh cuộc diễu hành trên đường phố trong thành phố ở đâu", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "ảnh chụp", "vạch kẻ đường", "áo vest", "tòa nhà", "các tòa nhà", "trạm", "xe ô tô", "cửa sổ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.791937, "confidences": [ 0.791937, 0.040363, 0.02186, 0.014197, 0.007871, 0.007194, 0.006628, 0.005964, 0.005326, 0.005264 ], "gate_score_top1": 0.804199, "gate_scores": [ 0.804199, 0.790039, 0.67627, 0.70752, 0.657227, 0.739746, 0.63916, 0.733887, 0.663086, 0.649414 ] }, { "question_id": "10060181", "image_id": 533129, "question": "cái gì nằm ở mỗi bên của ngăn kéo", "ground_truth": "nhiều cái ghế", "ground_truth_normalized": "nhiều cái ghế", "predicted_top1": "cái bàn", "predicted_topk": [ "cái bàn", "cái ghế", "phòng", "nhiều cái ghế", "phòng ngủ", "văn phòng", "lọ cắm hoa", "cái kệ", "máy tính", "laptop" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.15365, "confidences": [ 0.15365, 0.09901, 0.058319, 0.049883, 0.033885, 0.030079, 0.017926, 0.017005, 0.016514, 0.016514 ], "gate_score_top1": 0.739746, "gate_scores": [ 0.739746, 0.714355, 0.742188, 0.575195, 0.599609, 0.618164, 0.569336, 0.507812, 0.733398, 0.617188 ] }, { "question_id": "10110771", "image_id": 498938, "question": "có bao nhiêu đôi chân với tất, một đôi chân trần khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "bảy", "năm", "tám", "mười", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.863967, "confidences": [ 0.863967, 0.113328, 0.016199, 0.002218, 0.000278, 0.000151, 0.000107, 9.3e-05, 8.3e-05, 5.4e-05 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.845215, 0.785156, 0.718262, 0.421387, 0.450195, 0.554688, 0.427734, 0.423828, 0.485107 ] }, { "question_id": "10037361", "image_id": 51095, "question": "con mèo đen nhỏ đang ngồi ở đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "xe đẩy", "túi", "hộp", "thùng chứa", "cái ví", "toa xe", "balo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.909136, "confidences": [ 0.909136, 0.039634, 0.019851, 0.00311, 0.002713, 0.00195, 0.00195, 0.001735, 0.00134, 0.001309 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.847656, 0.783691, 0.73877, 0.703125, 0.655273, 0.694336, 0.660156, 0.595215, 0.599121 ] }, { "question_id": "10093041", "image_id": 371243, "question": "những gì đang đi bộ trên đồng cỏ", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "hươu cao cổ", "con ngựa", "bãi cỏ", "con chó", "con chim", "tàu hỏa", "gấu", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.629815, "confidences": [ 0.629815, 0.356065, 0.002719, 0.000818, 0.000581, 0.000385, 0.000373, 0.000246, 0.000221, 0.000184 ], "gate_score_top1": 0.874023, "gate_scores": [ 0.874023, 0.870117, 0.724609, 0.638184, 0.603027, 0.584473, 0.564941, 0.610352, 0.529785, 0.716797 ] }, { "question_id": "10015541", "image_id": 19151, "question": "màu của con chim là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xám", "màu nâu", "màu xanh lá", "màu tía", "màu đen", "màu trắng", "màu cam", "màu đỏ", "màu xanh dương" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.300005, "confidences": [ 0.300005, 0.226456, 0.136284, 0.117944, 0.062152, 0.048784, 0.04655, 0.011542, 0.004459, 0.00395 ], "gate_score_top1": 0.799805, "gate_scores": [ 0.799805, 0.804688, 0.768066, 0.744629, 0.75, 0.773438, 0.791504, 0.6875, 0.650879, 0.652344 ] }, { "question_id": "10075531", "image_id": 499266, "question": "những gì đang được giữ lại khi nó hiển thị một thông báo và một hình ảnh", "ground_truth": "thiết bị", "ground_truth_normalized": "thiết bị", "predicted_top1": "điện thoại", "predicted_topk": [ "điện thoại", "máy ảnh", "thiết bị", "laptop", "nón", "máy tính", "bàn chải", "cà vạt", "bức ảnh", "một" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.899117, "confidences": [ 0.899117, 0.022774, 0.018443, 0.002652, 0.002429, 0.001914, 0.001619, 0.001422, 0.00141, 0.001027 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.78125, 0.725098, 0.708008, 0.672852, 0.675781, 0.544922, 0.733887, 0.588867, 0.568359 ] }, { "question_id": "10051151", "image_id": 175651, "question": "người đàn ông đang giữ một hộp các tông ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "phòng", "tòa nhà", "phòng ngủ", "ảnh chụp", "gian hàng", "cửa tiệm", "trạm", "văn phòng", "áo vest" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.334473, "confidences": [ 0.334473, 0.185436, 0.034437, 0.019621, 0.017181, 0.015133, 0.013512, 0.011901, 0.0109, 0.009866 ], "gate_score_top1": 0.753906, "gate_scores": [ 0.753906, 0.777344, 0.65918, 0.738281, 0.565918, 0.619141, 0.696289, 0.536133, 0.625, 0.549316 ] }, { "question_id": "10069301", "image_id": 540093, "question": "những gì được bao phủ trong túi nhựa trên một bên đi bộ", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe đẩy", "con thuyền", "xe tải", "phương tiện giao thông", "vali", "toa xe", "xe", "xe cộ", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.289739, "confidences": [ 0.289739, 0.165088, 0.023691, 0.020543, 0.019602, 0.01625, 0.014146, 0.010996, 0.010857, 0.010299 ], "gate_score_top1": 0.710449, "gate_scores": [ 0.710449, 0.804199, 0.557129, 0.602539, 0.664062, 0.619629, 0.553223, 0.513672, 0.649902, 0.635742 ] }, { "question_id": "10037591", "image_id": 482798, "question": "máy bay đang ở đâu", "ground_truth": "sân vận động", "ground_truth_normalized": "sân vận động", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "bảo tàng", "sân vận động", "máy bay", "chuồng", "kho", "sân bay", "tòa nhà", "lồng", "sân" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.465838, "confidences": [ 0.465838, 0.117323, 0.056292, 0.029204, 0.028528, 0.019454, 0.01824, 0.012294, 0.009574, 0.008334 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.743164, 0.73584, 0.592773, 0.692871, 0.669922, 0.694336, 0.657227, 0.635254, 0.629395 ] }, { "question_id": "10109731", "image_id": 557987, "question": "có bao nhiêu bình chứa hoa trắng và tím", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.559056, "confidences": [ 0.559056, 0.208904, 0.167859, 0.031051, 0.009695, 0.004856, 0.004615, 0.00104, 0.0007, 0.000603 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.860352, 0.827637, 0.772461, 0.581055, 0.672363, 0.626465, 0.499023, 0.454834, 0.467773 ] }, { "question_id": "10091041", "image_id": 394517, "question": "gương đánh bóng và một ổ cắm", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "phòng tắm", "quầy tính tiền", "vòi hoa sen", "bàn chải", "bồn tắm", "máy ảnh", "khăn", "tường", "gương" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.150925, "confidences": [ 0.150925, 0.112158, 0.107022, 0.049867, 0.048998, 0.038384, 0.034542, 0.023327, 0.021999, 0.019301 ], "gate_score_top1": 0.733887, "gate_scores": [ 0.733887, 0.699219, 0.674316, 0.694824, 0.724609, 0.724609, 0.630371, 0.591309, 0.651855, 0.618164 ] }, { "question_id": "10029731", "image_id": 345411, "question": "bánh sandwich với rau xắt nhỏ ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "thùng chứa", "giấy bạc", "cái rổ", "cái mâm", "cái túi", "dĩa", "món ăn", "ảnh chụp", "tách" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.590509, "confidences": [ 0.590509, 0.204075, 0.056228, 0.042278, 0.02656, 0.005109, 0.00239, 0.002298, 0.002026, 0.001792 ], "gate_score_top1": 0.853516, "gate_scores": [ 0.853516, 0.836426, 0.777344, 0.76123, 0.790527, 0.665039, 0.470947, 0.671387, 0.526855, 0.541016 ] }, { "question_id": "10001281", "image_id": 139105, "question": "màu của lá là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu nâu", "màu trắng", "màu vàng", "màu cam", "màu đen", "màu đỏ", "màu tía", "màu xám", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.780127, "confidences": [ 0.780127, 0.194189, 0.010053, 0.004531, 0.002323, 0.001266, 0.000817, 0.000659, 0.0006, 0.000524 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.84375, 0.83252, 0.768066, 0.774902, 0.700684, 0.690918, 0.72998, 0.69873, 0.624512 ] }, { "question_id": "10112951", "image_id": 86754, "question": "có bao nhiêu người đang đứng trên ghế công viên với một con chó bị xích", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "hai", "năm", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.512049, "confidences": [ 0.512049, 0.303379, 0.113364, 0.027244, 0.01685, 0.013226, 0.002289, 0.001399, 0.0009, 0.000819 ], "gate_score_top1": 0.871582, "gate_scores": [ 0.871582, 0.85791, 0.836426, 0.754883, 0.671387, 0.73291, 0.602539, 0.579102, 0.489502, 0.527832 ] }, { "question_id": "10106351", "image_id": 492382, "question": "có bao nhiêu chiếc xe đạp có giỏ đậu dưới gốc cây", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "năm", "một", "sáu", "bảy", "tám", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.699824, "confidences": [ 0.699824, 0.221936, 0.066637, 0.004161, 0.002446, 0.000793, 0.000257, 0.000234, 0.000228, 0.000126 ], "gate_score_top1": 0.88916, "gate_scores": [ 0.88916, 0.872559, 0.852539, 0.685547, 0.690918, 0.46582, 0.5, 0.462891, 0.421387, 0.396973 ] }, { "question_id": "10030101", "image_id": 39065, "question": "người đàn ông đang giữ điện thoại di động ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "phòng", "văn phòng", "gương", "chung cư", "gian hàng", "phòng ngủ", "nhà ở", "thư viện", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.417774, "confidences": [ 0.417774, 0.275056, 0.160438, 0.035244, 0.011622, 0.006886, 0.006635, 0.006431, 0.004892, 0.004201 ], "gate_score_top1": 0.817871, "gate_scores": [ 0.817871, 0.82959, 0.804688, 0.811035, 0.625977, 0.616699, 0.738281, 0.685547, 0.602539, 0.520996 ] }, { "question_id": "10005731", "image_id": 534791, "question": "màu của đèn dừng là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu vàng", "màu cam", "màu xanh lá", "màu xám", "màu đen", "màu nâu", "màu trắng", "màu tía", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.535787, "confidences": [ 0.535787, 0.395065, 0.038812, 0.005724, 0.003934, 0.002255, 0.002228, 0.001967, 0.00061, 0.000547 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.85498, 0.850098, 0.639648, 0.69043, 0.645508, 0.583496, 0.685547, 0.571777, 0.562988 ] }, { "question_id": "10118371", "image_id": 367763, "question": "có bao nhiêu người đứng trên đầu một ô tô trong khi hai người đứng cạnh ô tô cùng nhìn lên người đó", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "năm", "sáu", "bảy", "tám", "chín", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.441882, "confidences": [ 0.441882, 0.328379, 0.21368, 0.006279, 0.000539, 0.000522, 0.000364, 0.000271, 0.000213, 0.000196 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.865723, 0.826172, 0.75, 0.563965, 0.457275, 0.422607, 0.435791, 0.375, 0.412354 ] }, { "question_id": "10024951", "image_id": 338059, "question": "màu của chất thải là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu trắng", "màu xanh dương", "màu vàng", "màu đen", "màu xám", "màu đỏ", "màu xanh lá", "màu tía", "màu cam" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.924667, "confidences": [ 0.924667, 0.058423, 0.003691, 0.002711, 0.001198, 0.001021, 0.000827, 0.000688, 0.000581, 0.000379 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.868164, 0.719727, 0.737793, 0.689453, 0.731934, 0.638184, 0.601562, 0.708984, 0.657227 ] }, { "question_id": "10110201", "image_id": 79355, "question": "có bao nhiêu chiếc vali được xếp chồng lên nhau", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "bảy", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.398102, "confidences": [ 0.398102, 0.379872, 0.134393, 0.044666, 0.023172, 0.005482, 0.003198, 0.001496, 0.001287, 0.00104 ], "gate_score_top1": 0.866211, "gate_scores": [ 0.866211, 0.847168, 0.815918, 0.70752, 0.763184, 0.688965, 0.645508, 0.564453, 0.592773, 0.519043 ] }, { "question_id": "10074111", "image_id": 472376, "question": "nhóm tập hợp xung quanh cái gì tại một chiếc máy bay", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "sân bay", "túi", "hành lý", "balo", "trạm", "cái túi", "xe đẩy", "bộ đồ", "xe điện ngầm" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.173752, "confidences": [ 0.173752, 0.15575, 0.127617, 0.118027, 0.07473, 0.044536, 0.02063, 0.013294, 0.011987, 0.007582 ], "gate_score_top1": 0.742676, "gate_scores": [ 0.742676, 0.749023, 0.787598, 0.75, 0.716797, 0.639648, 0.666992, 0.625977, 0.582031, 0.552734 ] }, { "question_id": "10011751", "image_id": 435803, "question": "màu của lá là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu vàng", "màu xám", "màu nâu", "màu xanh dương", "màu đỏ", "màu đen", "màu cam", "màu trắng", "màu tía" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.5136, "confidences": [ 0.5136, 0.425789, 0.021702, 0.007156, 0.006697, 0.004938, 0.004478, 0.002926, 0.002532, 0.001761 ], "gate_score_top1": 0.866211, "gate_scores": [ 0.866211, 0.884766, 0.75293, 0.699707, 0.765625, 0.744629, 0.696289, 0.751465, 0.751465, 0.710449 ] }, { "question_id": "10100821", "image_id": 423810, "question": "chăn thả trên cỏ trong cánh đồng này là gì", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "bãi cỏ", "hươu cao cổ", "rào chắn", "cây", "bốn", "con chim", "đồi", "lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.879916, "confidences": [ 0.879916, 0.099498, 0.002372, 0.000647, 0.000442, 0.000406, 0.00037, 0.000326, 0.000307, 0.0003 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.818359, 0.636719, 0.599121, 0.456543, 0.572266, 0.55127, 0.526367, 0.375, 0.41333 ] }, { "question_id": "10099441", "image_id": 574796, "question": "cái gì được đặt trên đĩa với một cái bánh quy giòn", "ground_truth": "cam", "ground_truth_normalized": "cam", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "chén đĩa", "món ăn", "rau", "bữa ăn", "cái mâm", "thịt", "hoa quả", "dĩa", "bát" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.269863, "confidences": [ 0.269863, 0.069442, 0.055581, 0.047171, 0.04019, 0.026877, 0.022721, 0.019473, 0.01869, 0.017695 ], "gate_score_top1": 0.777344, "gate_scores": [ 0.777344, 0.685547, 0.750977, 0.769531, 0.688477, 0.700195, 0.674805, 0.720703, 0.663574, 0.60498 ] }, { "question_id": "10098191", "image_id": 395124, "question": "những gì phù hợp với gạch ốp tường", "ground_truth": "bức màn", "ground_truth_normalized": "bức màn", "predicted_top1": "tường", "predicted_topk": [ "tường", "bồn tắm", "cửa", "vòi hoa sen", "phòng tắm", "khăn", "bức ảnh", "quầy tính tiền", "bồn tiểu", "máy ảnh" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.159238, "confidences": [ 0.159238, 0.107326, 0.079758, 0.062848, 0.047905, 0.041459, 0.037822, 0.030332, 0.017727, 0.016751 ], "gate_score_top1": 0.725586, "gate_scores": [ 0.725586, 0.78418, 0.704102, 0.705566, 0.623047, 0.680664, 0.65625, 0.592773, 0.609863, 0.568359 ] }, { "question_id": "10074011", "image_id": 386210, "question": "tất cả trong container trong cửa sổ là gì", "ground_truth": "trái cây", "ground_truth_normalized": "trái cây", "predicted_top1": "rau", "predicted_topk": [ "rau", "cây", "bông cải xanh", "cà rốt", "hoa quả", "táo", "những quả cam", "trái cây", "lá", "chai" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.15709, "confidences": [ 0.15709, 0.108389, 0.094538, 0.075815, 0.041301, 0.031054, 0.020606, 0.017694, 0.017522, 0.011672 ], "gate_score_top1": 0.774902, "gate_scores": [ 0.774902, 0.727051, 0.759277, 0.774902, 0.705078, 0.646484, 0.700684, 0.50293, 0.577637, 0.630859 ] }, { "question_id": "10075321", "image_id": 477623, "question": "đoàn tàu nào gắn các toa tàu và đậu trên một bộ đường ray", "ground_truth": "đầu máy", "ground_truth_normalized": "đầu máy", "predicted_top1": "đường sắt", "predicted_topk": [ "đường sắt", "động cơ", "xe ô tô", "trạm", "màu cam", "hàng hoá", "tàu hỏa", "đồi", "các tòa nhà", "xe điện ngầm" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.184454, "confidences": [ 0.184454, 0.094764, 0.08478, 0.075848, 0.031742, 0.031189, 0.023589, 0.020534, 0.016597, 0.01414 ], "gate_score_top1": 0.713379, "gate_scores": [ 0.713379, 0.605957, 0.700684, 0.70459, 0.657227, 0.53125, 0.669922, 0.540527, 0.62207, 0.616699 ] }, { "question_id": "10077751", "image_id": 500062, "question": "người mặc những gì đang chơi tennis trong nhà", "ground_truth": "quần short", "ground_truth_normalized": "quần short", "predicted_top1": "quả bóng", "predicted_topk": [ "quả bóng", "áo sơ mi", "dĩa nhựa", "nón", "vợt", "quần short", "mũ", "gậy", "lá cờ", "ván trượt" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.209056, "confidences": [ 0.209056, 0.130824, 0.061077, 0.047474, 0.038221, 0.023182, 0.022778, 0.012629, 0.011623, 0.011555 ], "gate_score_top1": 0.803711, "gate_scores": [ 0.803711, 0.680176, 0.717773, 0.671875, 0.692383, 0.519531, 0.609375, 0.585449, 0.60791, 0.624512 ] }, { "question_id": "10095631", "image_id": 559483, "question": "người mặc gì khi kiểm tra ván trượt", "ground_truth": "quần short", "ground_truth_normalized": "quần short", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "đồi", "núi", "trượt tuyết", "cây", "bức ảnh", "áo sơ mi", "cây sào", "quần short", "nón" ], "gt_rank": 9, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.267192, "confidences": [ 0.267192, 0.148135, 0.146409, 0.096018, 0.016948, 0.012793, 0.011995, 0.010985, 0.009924, 0.008775 ], "gate_score_top1": 0.814941, "gate_scores": [ 0.814941, 0.771973, 0.73877, 0.774414, 0.664551, 0.602051, 0.585449, 0.62793, 0.498779, 0.635742 ] }, { "question_id": "10086571", "image_id": 458721, "question": "những gì đang nằm trên mặt đất bên cạnh một chai nước thể thao", "ground_truth": "đĩa ném", "ground_truth_normalized": "đĩa ném", "predicted_top1": "dĩa nhựa", "predicted_topk": [ "dĩa nhựa", "quả bóng", "nón", "con chó", "mũ", "đồ chơi", "gậy", "đĩa ném", "cây kéo", "ván trượt" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.217612, "confidences": [ 0.217612, 0.080212, 0.079743, 0.037594, 0.035943, 0.017483, 0.015309, 0.014297, 0.013736, 0.013197 ], "gate_score_top1": 0.77832, "gate_scores": [ 0.77832, 0.712402, 0.69873, 0.678223, 0.61377, 0.720703, 0.647461, 0.478516, 0.588867, 0.631836 ] }, { "question_id": "10095181", "image_id": 457616, "question": "cậu bé mặc cái gì vung gậy", "ground_truth": "đồng phục", "ground_truth_normalized": "đồng phục", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "quả bóng", "mũ", "áo sơ mi", "lồng", "găng tay", "sân vận động", "đồng phục", "mũ lưỡi trai", "hộp" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.694062, "confidences": [ 0.694062, 0.049305, 0.021414, 0.019121, 0.018245, 0.017512, 0.007621, 0.006183, 0.0042, 0.003747 ], "gate_score_top1": 0.859863, "gate_scores": [ 0.859863, 0.73584, 0.665527, 0.621582, 0.675293, 0.720215, 0.605469, 0.503418, 0.526855, 0.476807 ] }, { "question_id": "10068711", "image_id": 487050, "question": "những gì cho thấy các cầu thủ bóng chày cầm gậy", "ground_truth": "tượng đài", "ground_truth_normalized": "tượng đài", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "bức tượng", "tượng đài", "quả bóng", "mũ", "áo sơ mi", "sân vận động", "nón", "găng tay", "rào chắn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.21556, "confidences": [ 0.21556, 0.114931, 0.029402, 0.028001, 0.022943, 0.019057, 0.014135, 0.013943, 0.012449, 0.010321 ], "gate_score_top1": 0.785645, "gate_scores": [ 0.785645, 0.713379, 0.483398, 0.659668, 0.629395, 0.631836, 0.563965, 0.673828, 0.654785, 0.481445 ] }, { "question_id": "10027691", "image_id": 237064, "question": "người đàn ông đang đi bộ bên ngoài gần xe buýt và tòa nhà ở đâu", "ground_truth": "đường", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "balo", "áo vest", "trạm", "ảnh chụp", "gian hàng", "tòa nhà", "vạch kẻ đường", "lối đi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.646634, "confidences": [ 0.646634, 0.070318, 0.039754, 0.026586, 0.02337, 0.013526, 0.013058, 0.008564, 0.007558, 0.00699 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.823242, 0.780273, 0.687988, 0.76416, 0.664062, 0.69043, 0.741699, 0.683105, 0.617676 ] }, { "question_id": "10043311", "image_id": 233543, "question": "điện thoại thông minh mới nằm ở đâu", "ground_truth": "hộp", "ground_truth_normalized": "hộp", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "cái ghế", "phòng", "máy tính", "thư viện", "laptop", "gian hàng", "cửa tiệm", "gương", "hộp" ], "gt_rank": 10, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.484221, "confidences": [ 0.484221, 0.086478, 0.068946, 0.030835, 0.029595, 0.025117, 0.017466, 0.012361, 0.011189, 0.010148 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.691895, 0.763184, 0.733398, 0.662109, 0.755859, 0.665527, 0.729004, 0.730957, 0.616699 ] }, { "question_id": "10013881", "image_id": 53975, "question": "màu của giỏ hàng là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu đen", "màu xám", "màu trắng", "màu đỏ", "màu vàng", "màu xanh lá", "màu xanh dương", "màu cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.701983, "confidences": [ 0.701983, 0.233305, 0.016509, 0.01509, 0.011661, 0.005074, 0.004223, 0.001774, 0.000617, 0.000516 ], "gate_score_top1": 0.874512, "gate_scores": [ 0.874512, 0.857422, 0.805664, 0.852539, 0.747559, 0.74707, 0.666504, 0.657715, 0.694824, 0.70752 ] }, { "question_id": "10098341", "image_id": 509811, "question": "thư viện có bàn và đóng cái gì với một người đang học", "ground_truth": "laptop", "ground_truth_normalized": "laptop", "predicted_top1": "thư viện", "predicted_topk": [ "thư viện", "lớp học", "laptop", "máy tính", "văn phòng", "cái bàn", "phòng", "bức tranh", "cửa tiệm", "tòa nhà" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.410607, "confidences": [ 0.410607, 0.219782, 0.06127, 0.051595, 0.044477, 0.023165, 0.013147, 0.008227, 0.007275, 0.00466 ], "gate_score_top1": 0.782227, "gate_scores": [ 0.782227, 0.812012, 0.76709, 0.784668, 0.827148, 0.719727, 0.673828, 0.563477, 0.657715, 0.634277 ] }, { "question_id": "10050541", "image_id": 163239, "question": "người phụ nữ trẻ trượt ván ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "hồ bơi", "predicted_topk": [ "hồ bơi", "bát", "bồn tắm", "chậu", "ván trượt", "phòng tắm", "ga-ra", "chuồng", "tòa nhà", "sân" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.561154, "confidences": [ 0.561154, 0.084391, 0.075353, 0.037375, 0.008706, 0.008655, 0.008471, 0.007819, 0.007819, 0.007288 ], "gate_score_top1": 0.807617, "gate_scores": [ 0.807617, 0.735352, 0.679199, 0.637695, 0.58252, 0.595215, 0.574707, 0.606934, 0.604492, 0.641602 ] }, { "question_id": "10072171", "image_id": 531784, "question": "cái gì trên một chồng hộp", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "bàn phím", "cái bàn", "hộp", "chuột", "điện thoại", "bức tranh", "văn phòng", "thư viện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.507435, "confidences": [ 0.507435, 0.43234, 0.008396, 0.005704, 0.002359, 0.002225, 0.001618, 0.001523, 0.001051, 0.000982 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.862305, 0.746094, 0.747559, 0.639648, 0.661621, 0.671875, 0.505859, 0.669434, 0.626953 ] }, { "question_id": "10065671", "image_id": 503412, "question": "những gì làm sáng lên phòng khách được trang bị đầy đủ", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhiều cái ghế", "nhà ở", "cửa sổ", "cây", "đi văng", "bức ảnh", "cái kệ", "chung cư", "cửa" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.206679, "confidences": [ 0.206679, 0.066447, 0.060501, 0.058069, 0.052257, 0.047026, 0.037201, 0.035359, 0.027323, 0.026021 ], "gate_score_top1": 0.789062, "gate_scores": [ 0.789062, 0.680176, 0.787598, 0.665039, 0.60791, 0.669922, 0.600586, 0.672852, 0.616699, 0.640137 ] }, { "question_id": "10053791", "image_id": 343229, "question": "cái gì trên sàn trong một căn phòng", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "túi", "predicted_topk": [ "túi", "cái túi", "vali", "hành lý", "cái ví", "balo", "hộp", "sàn nhà", "xe đẩy", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.468361, "confidences": [ 0.468361, 0.244888, 0.054217, 0.025912, 0.021906, 0.019069, 0.014707, 0.003893, 0.00325, 0.002947 ], "gate_score_top1": 0.833496, "gate_scores": [ 0.833496, 0.817871, 0.730469, 0.714844, 0.746094, 0.662109, 0.766113, 0.504883, 0.574219, 0.648926 ] }, { "question_id": "10114901", "image_id": 352061, "question": "có bao nhiêu con bò đang đẻ", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "năm", "tám", "bảy", "mười", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.94018, "confidences": [ 0.94018, 0.042954, 0.012998, 0.001059, 0.000119, 0.000106, 6.2e-05, 6e-05, 5.9e-05, 4.5e-05 ], "gate_score_top1": 0.90918, "gate_scores": [ 0.90918, 0.834473, 0.810547, 0.677246, 0.387695, 0.5625, 0.426025, 0.395996, 0.428711, 0.523926 ] }, { "question_id": "10027651", "image_id": 110979, "question": "con mèo đang ngồi ở đâu", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "cái túi", "predicted_topk": [ "cái túi", "vali", "hành lý", "balo", "cái ví", "túi", "giường", "xe đẩy", "thùng chứa", "hộp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.418972, "confidences": [ 0.418972, 0.415711, 0.060595, 0.020376, 0.014004, 0.010206, 0.006118, 0.004172, 0.003326, 0.001712 ], "gate_score_top1": 0.875, "gate_scores": [ 0.875, 0.852051, 0.777832, 0.675293, 0.718262, 0.71582, 0.686035, 0.636719, 0.668457, 0.637695 ] }, { "question_id": "10038021", "image_id": 150211, "question": "con chó nhỏ đang ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "phòng", "nhà ở", "cửa", "hành lang", "tủ đá", "tủ lạnh", "ô cửa", "sàn nhà", "cái kệ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.297877, "confidences": [ 0.297877, 0.146312, 0.134789, 0.101348, 0.045325, 0.022133, 0.016871, 0.011505, 0.008566, 0.00855 ], "gate_score_top1": 0.804688, "gate_scores": [ 0.804688, 0.756836, 0.830078, 0.697754, 0.719238, 0.714355, 0.686035, 0.541992, 0.468506, 0.624512 ] }, { "question_id": "10006881", "image_id": 291321, "question": "màu của thùng rác là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu tía", "màu xanh dương", "màu vàng", "màu nâu", "màu đỏ", "màu xám", "màu đen", "màu trắng", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.371516, "confidences": [ 0.371516, 0.340923, 0.165505, 0.034154, 0.032336, 0.012663, 0.005511, 0.003158, 0.00246, 0.001973 ], "gate_score_top1": 0.839844, "gate_scores": [ 0.839844, 0.80127, 0.84375, 0.785156, 0.711426, 0.783691, 0.647949, 0.613281, 0.629395, 0.554199 ] }, { "question_id": "10075601", "image_id": 374333, "question": "hai người ngồi trên bàn gỗ cạnh nhau làm gì", "ground_truth": "máy tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "điện thoại", "bàn phím", "cái bàn", "chuột", "máy ảnh", "bức tranh", "trang thiết bị", "nón" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.711241, "confidences": [ 0.711241, 0.254593, 0.004188, 0.002491, 0.002045, 0.001093, 0.000811, 0.000633, 0.000627, 0.000568 ], "gate_score_top1": 0.902344, "gate_scores": [ 0.902344, 0.852051, 0.728516, 0.700684, 0.733398, 0.660156, 0.664062, 0.513184, 0.51123, 0.596191 ] }, { "question_id": "10023771", "image_id": 105110, "question": "màu của dĩa nhựa là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu tía", "màu vàng", "màu trắng", "màu xanh dương", "màu cam", "màu xanh lá", "màu đỏ", "màu nâu", "màu đen" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.485386, "confidences": [ 0.485386, 0.441949, 0.029264, 0.008384, 0.005695, 0.003764, 0.003309, 0.002577, 0.0016, 0.001506 ], "gate_score_top1": 0.864746, "gate_scores": [ 0.864746, 0.838379, 0.753906, 0.741211, 0.73291, 0.667969, 0.576172, 0.733887, 0.629883, 0.629883 ] }, { "question_id": "10018201", "image_id": 403525, "question": "màu của tòa nhà là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xám", "màu nâu", "màu đỏ", "màu trắng", "màu xanh dương", "màu xanh lá", "màu đen", "màu cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.561359, "confidences": [ 0.561359, 0.241438, 0.085752, 0.038651, 0.022023, 0.019435, 0.007761, 0.007094, 0.001436, 0.000943 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.846191, 0.789062, 0.796875, 0.842285, 0.785156, 0.681641, 0.65918, 0.736816, 0.652344 ] }, { "question_id": "10028861", "image_id": 309087, "question": "thức uống được chứa ở đâu", "ground_truth": "tủ đá", "ground_truth_normalized": "tủ đá", "predicted_top1": "tủ lạnh", "predicted_topk": [ "tủ lạnh", "tủ đá", "cửa", "phòng bếp", "cái kệ", "lò vi sóng", "chai", "phòng", "cửa sổ", "cửa ra vào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.459045, "confidences": [ 0.459045, 0.401953, 0.042531, 0.017799, 0.015165, 0.006472, 0.004544, 0.002081, 0.001454, 0.001389 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.835938, 0.768555, 0.717773, 0.731445, 0.631836, 0.608398, 0.649902, 0.552734, 0.466064 ] }, { "question_id": "10107511", "image_id": 107753, "question": "có bao nhiêu chàng trai mang theo ván lướt sóng khi họ cùng nhau đi bộ xuống bãi biển", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "sáu", "năm", "mười", "tám", "bảy", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.594103, "confidences": [ 0.594103, 0.374696, 0.021981, 0.003805, 0.000369, 0.000323, 0.000156, 0.000149, 0.000122, 9.3e-05 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.871094, 0.797852, 0.733398, 0.433838, 0.577637, 0.422852, 0.407471, 0.382812, 0.35791 ] }, { "question_id": "10090131", "image_id": 439827, "question": "những gì sơn màu cam với một máy nướng bánh mì", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "tường", "cửa hàng", "vòi", "ảnh chụp", "cửa sổ", "máy xay", "phòng bếp", "tủ đá", "đường phố" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.129549, "confidences": [ 0.129549, 0.071964, 0.03951, 0.038071, 0.036399, 0.033532, 0.01716, 0.017076, 0.016326, 0.01601 ], "gate_score_top1": 0.660156, "gate_scores": [ 0.660156, 0.605469, 0.625, 0.663086, 0.584961, 0.684082, 0.685547, 0.589355, 0.640625, 0.644043 ] }, { "question_id": "10107521", "image_id": 552927, "question": "có bao nhiêu vali được xếp chồng lên nhau trên hai kệ", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.442076, "confidences": [ 0.442076, 0.285426, 0.18573, 0.060063, 0.007401, 0.004741, 0.002266, 0.001533, 0.001358, 0.000914 ], "gate_score_top1": 0.86084, "gate_scores": [ 0.86084, 0.833008, 0.822754, 0.727539, 0.712402, 0.687988, 0.622559, 0.557129, 0.62207, 0.544434 ] }, { "question_id": "10118341", "image_id": 113905, "question": "trên bàn có bao nhiêu cái hotdog trên đĩa", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "sáu", "một", "bảy", "tám", "chín", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.522557, "confidences": [ 0.522557, 0.367665, 0.053383, 0.026017, 0.012099, 0.007057, 0.002392, 0.001834, 0.00062, 0.00055 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.882324, 0.787598, 0.783691, 0.633301, 0.683105, 0.634766, 0.578125, 0.549316, 0.5 ] }, { "question_id": "10093671", "image_id": 417590, "question": "cậu bé xem gì", "ground_truth": "quả bóng", "ground_truth_normalized": "quả bóng", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "quả bóng", "găng tay", "sân vận động", "áo sơ mi", "mũ", "lồng", "nón", "dĩa nhựa", "đồng phục" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.404224, "confidences": [ 0.404224, 0.319767, 0.069697, 0.028772, 0.018869, 0.010814, 0.00869, 0.003353, 0.002965, 0.002788 ], "gate_score_top1": 0.812012, "gate_scores": [ 0.812012, 0.816406, 0.770996, 0.638184, 0.637695, 0.632324, 0.703613, 0.589355, 0.59668, 0.424805 ] }, { "question_id": "10090271", "image_id": 515303, "question": "một số người và ký hiệu gì hai con ngựa đang kéo người trong xe", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe", "predicted_topk": [ "xe", "xe đẩy", "xe đạp", "con ngựa", "xe tải", "đường", "toa xe", "mũ", "bãi cỏ", "xe lăn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.576878, "confidences": [ 0.576878, 0.071923, 0.071364, 0.051804, 0.012281, 0.011313, 0.00864, 0.007685, 0.006729, 0.005939 ], "gate_score_top1": 0.780762, "gate_scores": [ 0.780762, 0.787109, 0.706543, 0.726562, 0.683594, 0.656738, 0.563477, 0.605957, 0.647461, 0.611328 ] }, { "question_id": "10100341", "image_id": 542792, "question": "những gì dựa vào tòa nhà", "ground_truth": "bức tượng", "ground_truth_normalized": "bức tượng", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "bức tượng", "quả bóng", "màu trắng", "sân vận động", "găng tay", "tượng đài", "mũ", "nón", "áo sơ mi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.349998, "confidences": [ 0.349998, 0.081843, 0.029642, 0.013452, 0.013244, 0.012649, 0.012248, 0.010926, 0.010538, 0.009727 ], "gate_score_top1": 0.798828, "gate_scores": [ 0.798828, 0.622559, 0.679688, 0.562012, 0.575195, 0.641602, 0.449707, 0.588379, 0.611328, 0.553711 ] }, { "question_id": "10047941", "image_id": 499779, "question": "muffins sô cô la nướng nằm ở đâu", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "chảo", "lò vi sóng", "cái mâm", "thùng chứa", "phòng bếp", "giấy bạc", "món ăn", "bánh", "dao" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.28385, "confidences": [ 0.28385, 0.200495, 0.142172, 0.116038, 0.020482, 0.020243, 0.019129, 0.013805, 0.010119, 0.005766 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.697266, 0.74707, 0.782715, 0.73877, 0.674316, 0.685059, 0.710938, 0.61377, 0.641113 ] }, { "question_id": "10098721", "image_id": 488522, "question": "có gì để cắt thành một chiếc bánh", "ground_truth": "dao", "ground_truth_normalized": "dao", "predicted_top1": "bánh", "predicted_topk": [ "bánh", "dao", "cupcake", "sô cô la", "nến", "món tráng miệng", "đĩa ăn", "donut", "chảo", "cái mâm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.858713, "confidences": [ 0.858713, 0.035721, 0.012662, 0.008033, 0.004968, 0.004071, 0.003678, 0.003103, 0.002926, 0.002904 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.72998, 0.685547, 0.611816, 0.656738, 0.543457, 0.680176, 0.639648, 0.572266, 0.644043 ] }, { "question_id": "10114431", "image_id": 433676, "question": "có bao nhiêu người đứng trên sườn núi trên ván trượt tuyết", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "chín", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.476125, "confidences": [ 0.476125, 0.322162, 0.157009, 0.017824, 0.010195, 0.002691, 0.002538, 0.001025, 0.00087, 0.000794 ], "gate_score_top1": 0.864258, "gate_scores": [ 0.864258, 0.845215, 0.80957, 0.727539, 0.689453, 0.626465, 0.626465, 0.533203, 0.544922, 0.543945 ] }, { "question_id": "10100151", "image_id": 521542, "question": "cái gì đang ngồi trên quầy bếp màu trắng", "ground_truth": "cái lọ", "ground_truth_normalized": "cái lọ", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "bánh", "tách", "dao", "cái lọ", "cây kéo", "máy xay", "cái mâm", "lò vi sóng", "chảo" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.254707, "confidences": [ 0.254707, 0.090112, 0.056833, 0.046386, 0.046025, 0.034069, 0.027698, 0.016702, 0.015416, 0.014971 ], "gate_score_top1": 0.750977, "gate_scores": [ 0.750977, 0.711426, 0.779297, 0.729492, 0.691406, 0.649414, 0.65332, 0.615723, 0.559082, 0.546875 ] }, { "question_id": "10014591", "image_id": 10222, "question": "màu của dấu hiệu là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu xám", "màu đen", "màu xanh lá", "màu trắng", "màu xanh dương", "màu vàng", "màu nâu", "màu cam", "màu tía" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.842878, "confidences": [ 0.842878, 0.10716, 0.010528, 0.010364, 0.007978, 0.005814, 0.003696, 0.002233, 0.00109, 0.001032 ], "gate_score_top1": 0.876953, "gate_scores": [ 0.876953, 0.845703, 0.742676, 0.693848, 0.797363, 0.682129, 0.724121, 0.663574, 0.773926, 0.681641 ] }, { "question_id": "10117571", "image_id": 150037, "question": "có bao nhiêu đứa trẻ đang ăn trong khi đứa khác đang nhìn thẳng", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "sáu", "cái ghế", "tám", "bảy", "phòng", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.705097, "confidences": [ 0.705097, 0.271839, 0.010256, 0.000947, 0.000324, 0.000302, 0.000179, 0.000157, 0.000151, 0.000145 ], "gate_score_top1": 0.876953, "gate_scores": [ 0.876953, 0.859863, 0.734863, 0.614258, 0.344482, 0.533203, 0.421387, 0.38623, 0.468506, 0.523438 ] }, { "question_id": "10038061", "image_id": 259029, "question": "những con thú bị nhốt ở đâu", "ground_truth": "lồng", "ground_truth_normalized": "lồng", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "lồng", "vườn bách thú", "tòa nhà", "rào chắn", "cửa tiệm", "bảo tàng", "chuồng trại", "hươu cao cổ", "kho" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.451305, "confidences": [ 0.451305, 0.284634, 0.146517, 0.018339, 0.007841, 0.006893, 0.006215, 0.005604, 0.003047, 0.002673 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.855469, 0.820312, 0.711914, 0.641602, 0.663574, 0.640137, 0.687988, 0.580566, 0.688965 ] }, { "question_id": "10009961", "image_id": 446783, "question": "màu của ngôi nhà là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu vàng", "màu đen", "màu xanh lá", "màu xám", "màu trắng", "màu đỏ", "màu cam", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.441591, "confidences": [ 0.441591, 0.251611, 0.149658, 0.056804, 0.043046, 0.021061, 0.010757, 0.006398, 0.002535, 0.001547 ], "gate_score_top1": 0.878418, "gate_scores": [ 0.878418, 0.842285, 0.854004, 0.766113, 0.711426, 0.777832, 0.71582, 0.766113, 0.742188, 0.64502 ] }, { "question_id": "10029471", "image_id": 294426, "question": "lưng của một người đứng đầu ở đâu", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "xe buýt", "predicted_topk": [ "xe buýt", "xe đẩy", "xe ô tô", "trạm", "phương tiện giao thông", "xe tải", "cửa sổ", "gương", "áo vest", "cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.314343, "confidences": [ 0.314343, 0.20059, 0.074082, 0.033851, 0.029873, 0.028841, 0.023494, 0.017188, 0.011953, 0.011294 ], "gate_score_top1": 0.805664, "gate_scores": [ 0.805664, 0.764648, 0.681152, 0.689453, 0.67041, 0.708496, 0.657227, 0.730957, 0.540039, 0.601074 ] }, { "question_id": "10069431", "image_id": 351351, "question": "con chó giữ cái gì trong khi bị trói trên đường phố", "ground_truth": "móng vuốt", "ground_truth_normalized": "móng vuốt", "predicted_top1": "con chó", "predicted_topk": [ "con chó", "cửa sổ", "bức ảnh", "nón", "mũ", "đồ chơi", "ván trượt", "đồng hồ", "áo khoác", "vòi" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.096878, "confidences": [ 0.096878, 0.042489, 0.037938, 0.035849, 0.02847, 0.02685, 0.022876, 0.020667, 0.016542, 0.014988 ], "gate_score_top1": 0.759277, "gate_scores": [ 0.759277, 0.65918, 0.601074, 0.65332, 0.591797, 0.594238, 0.651855, 0.597168, 0.47876, 0.557617 ] }, { "question_id": "10001811", "image_id": 105580, "question": "màu của bề mặt là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đỏ", "màu trắng", "màu vàng", "màu nâu", "màu xám", "màu đen", "màu xanh lá", "màu tía", "màu xanh dương" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.776228, "confidences": [ 0.776228, 0.077763, 0.07746, 0.037166, 0.014162, 0.002138, 0.001546, 0.001478, 0.000466, 0.000457 ], "gate_score_top1": 0.87207, "gate_scores": [ 0.87207, 0.827637, 0.841309, 0.819336, 0.713867, 0.690918, 0.660156, 0.655762, 0.584473, 0.626953 ] }, { "question_id": "10007371", "image_id": 342342, "question": "màu của tủ lạnh là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu đen", "màu trắng", "màu xám", "màu cam", "màu đỏ", "màu vàng", "màu xanh lá", "màu xanh dương", "màu tía" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 2, "confidence_top1": 0.556115, "confidences": [ 0.556115, 0.156859, 0.122162, 0.107808, 0.023498, 0.013285, 0.003326, 0.002918, 0.001653, 0.001055 ], "gate_score_top1": 0.864258, "gate_scores": [ 0.864258, 0.837402, 0.863281, 0.859863, 0.81543, 0.787598, 0.736816, 0.609375, 0.691895, 0.714355 ] }, { "question_id": "10035741", "image_id": 40901, "question": "người đàn ông rửa tay ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "chậu", "gương", "bồn tắm", "vòi hoa sen", "phòng", "bát", "quầy tính tiền", "phòng bếp", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.64036, "confidences": [ 0.64036, 0.309658, 0.009648, 0.004861, 0.003868, 0.002132, 0.0017, 0.001268, 0.001236, 0.001085 ], "gate_score_top1": 0.884766, "gate_scores": [ 0.884766, 0.859863, 0.748047, 0.687012, 0.65332, 0.711426, 0.614746, 0.544922, 0.63623, 0.63916 ] }, { "question_id": "10034701", "image_id": 8332, "question": "một chiếc giường cổ nhìn ở đâu", "ground_truth": "bảo tàng", "ground_truth_normalized": "bảo tàng", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "tòa nhà", "bảo tàng", "hành lang", "cửa sổ", "ô cửa", "cửa tiệm", "phòng tắm" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.461606, "confidences": [ 0.461606, 0.163949, 0.091967, 0.062716, 0.028714, 0.023527, 0.014186, 0.01197, 0.00785, 0.00528 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.848145, 0.814941, 0.739258, 0.743164, 0.672363, 0.726562, 0.606445, 0.666504, 0.581055 ] }, { "question_id": "10097461", "image_id": 437789, "question": "một quả táo một quả quýt đồ uống gì và các mặt hàng thực phẩm khác", "ground_truth": "cà rốt", "ground_truth_normalized": "cà rốt", "predicted_top1": "rau", "predicted_topk": [ "rau", "cà rốt", "hoa quả", "chén đĩa", "thùng chứa", "cái mâm", "bông cải xanh", "táo", "những quả cam", "cái kệ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.300251, "confidences": [ 0.300251, 0.155768, 0.081445, 0.055976, 0.039384, 0.015975, 0.015666, 0.015333, 0.013637, 0.013505 ], "gate_score_top1": 0.858398, "gate_scores": [ 0.858398, 0.824707, 0.789062, 0.723145, 0.766113, 0.748047, 0.77002, 0.720215, 0.736816, 0.695801 ] }, { "question_id": "10092291", "image_id": 558633, "question": "mọi người đang tận hưởng những gì cùng nhau", "ground_truth": "bữa ăn", "ground_truth_normalized": "bữa ăn", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "bữa ăn", "quán ăn", "đĩa ăn", "bánh", "đĩa", "rượu", "sandwich", "dĩa", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.208684, "confidences": [ 0.208684, 0.191499, 0.068817, 0.068682, 0.033343, 0.017605, 0.01703, 0.013899, 0.01273, 0.011704 ], "gate_score_top1": 0.782227, "gate_scores": [ 0.782227, 0.743652, 0.671875, 0.719727, 0.633301, 0.602539, 0.585938, 0.699219, 0.576172, 0.634766 ] }, { "question_id": "10073011", "image_id": 413948, "question": "người trượt tuyết ở đâu bên cạnh một đường màu xanh trong tuyết", "ground_truth": "núi", "ground_truth_normalized": "núi", "predicted_top1": "trượt tuyết", "predicted_topk": [ "trượt tuyết", "ván trượt", "núi", "đồi", "sân vận động", "cây", "đường", "hồ bơi", "áo vest", "ảnh chụp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.346361, "confidences": [ 0.346361, 0.112887, 0.097696, 0.027664, 0.01279, 0.010802, 0.008877, 0.007043, 0.00694, 0.00694 ], "gate_score_top1": 0.788086, "gate_scores": [ 0.788086, 0.701172, 0.706055, 0.69043, 0.686035, 0.605957, 0.617676, 0.586914, 0.593262, 0.507812 ] }, { "question_id": "10093781", "image_id": 406119, "question": "những gì prop máy bay lướt trên mặt nước", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "ga-ra", "bầu trời", "động cơ", "con thuyền", "bến tàu", "bảo tàng", "xe đẩy", "núi", "diều" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.539529, "confidences": [ 0.539529, 0.039313, 0.036715, 0.031221, 0.024553, 0.009211, 0.007591, 0.007547, 0.006615, 0.005976 ], "gate_score_top1": 0.799316, "gate_scores": [ 0.799316, 0.562012, 0.567383, 0.666016, 0.662598, 0.462402, 0.585938, 0.646973, 0.520508, 0.606445 ] }, { "question_id": "10108241", "image_id": 545305, "question": "có bao nhiêu con bò với bộ lông dài dũng cảm đi tuyết mùa đông", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "ba", "bảy", "tám", "chín", "một", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.583758, "confidences": [ 0.583758, 0.30285, 0.072497, 0.015137, 0.012021, 0.00252, 0.001869, 0.001207, 0.000898, 0.000801 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.862793, 0.786133, 0.731445, 0.716797, 0.654297, 0.664062, 0.59668, 0.550781, 0.591309 ] }, { "question_id": "10039071", "image_id": 455405, "question": "những con chim đứng ở đâu", "ground_truth": "lồng", "ground_truth_normalized": "lồng", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "lồng", "vườn bách thú", "rào chắn", "tòa nhà", "chuồng trại", "hồ bơi", "bảo tàng", "kho", "sân" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.517586, "confidences": [ 0.517586, 0.286957, 0.115489, 0.010617, 0.004158, 0.003868, 0.003584, 0.001956, 0.001308, 0.001266 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.86377, 0.828613, 0.640625, 0.661621, 0.685059, 0.660156, 0.625488, 0.67041, 0.626465 ] }, { "question_id": "10040411", "image_id": 566174, "question": "gấu bông ngồi ở đâu", "ground_truth": "sàn nhà", "ground_truth_normalized": "sàn nhà", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái túi", "hành lang", "hộp", "sàn nhà", "cửa sổ", "hành lý", "vali", "gương", "phòng ngủ" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.139397, "confidences": [ 0.139397, 0.076383, 0.055557, 0.046692, 0.044554, 0.030324, 0.029506, 0.026449, 0.022535, 0.021629 ], "gate_score_top1": 0.751953, "gate_scores": [ 0.751953, 0.689941, 0.653809, 0.702637, 0.589844, 0.680176, 0.616699, 0.626953, 0.75293, 0.756348 ] }, { "question_id": "10037311", "image_id": 543734, "question": "một bể cá ở đâu", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "tường", "bồn tắm", "cây", "nhà ở", "phòng", "bát", "cửa sổ", "bông cải xanh", "vòi hoa sen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.303209, "confidences": [ 0.303209, 0.095037, 0.039928, 0.032588, 0.022662, 0.021372, 0.020077, 0.019046, 0.017139, 0.015882 ], "gate_score_top1": 0.754883, "gate_scores": [ 0.754883, 0.644531, 0.73584, 0.594727, 0.668945, 0.670898, 0.68457, 0.582031, 0.564453, 0.645508 ] }, { "question_id": "10115341", "image_id": 340528, "question": "có bao nhiêu chế độ xem toàn bộ mặt trước", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "bảy", "hai", "một", "tám", "chín", "mười" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.761161, "confidences": [ 0.761161, 0.115819, 0.06625, 0.021847, 0.00869, 0.007404, 0.006663, 0.002097, 0.002088, 0.001325 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.823242, 0.807617, 0.70752, 0.726074, 0.716797, 0.700195, 0.600098, 0.606934, 0.486328 ] }, { "question_id": "10056311", "image_id": 449768, "question": "những gì đỗ bên ngoài với chuỗi gắn liền với nó", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "mũ", "đường", "xe cộ", "ga-ra", "cây", "máy bay", "con khỉ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.949081, "confidences": [ 0.949081, 0.037526, 0.002334, 0.000604, 0.000419, 0.000289, 0.000267, 0.000235, 0.000189, 0.000156 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.853516, 0.681641, 0.523926, 0.549316, 0.495117, 0.490723, 0.513184, 0.600098, 0.375 ] }, { "question_id": "10108831", "image_id": 111002, "question": "có bao nhiêu chú cừu lông cừu được vẽ bằng những chữ cái nhỏ màu xanh", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "chín", "một", "mười", "hai" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.557615, "confidences": [ 0.557615, 0.269645, 0.113286, 0.022482, 0.012465, 0.007619, 0.002091, 0.001886, 0.001569, 0.000814 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.831055, 0.79248, 0.767578, 0.72168, 0.67334, 0.660156, 0.609375, 0.556641, 0.566406 ] }, { "question_id": "10080181", "image_id": 374707, "question": "phòng tắm với nhà vệ sinh và đứng lên cái gì", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "bồn tắm", "khăn", "cửa", "tường", "bồn tiểu", "bức ảnh", "máy ảnh", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.243005, "confidences": [ 0.243005, 0.237376, 0.077366, 0.068009, 0.058399, 0.044082, 0.030594, 0.019947, 0.010491, 0.009079 ], "gate_score_top1": 0.75, "gate_scores": [ 0.75, 0.771484, 0.804688, 0.738281, 0.717285, 0.667969, 0.662598, 0.643066, 0.55957, 0.687988 ] }, { "question_id": "10068691", "image_id": 572408, "question": "những gì đang đứng cạnh một con cừu trên một cánh đồng cỏ", "ground_truth": "bò đực", "ground_truth_normalized": "bò đực", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "bò đực", "con cừu", "đồi", "bãi cỏ", "con ngựa", "gấu", "màu nâu", "con voi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.292938, "confidences": [ 0.292938, 0.215999, 0.175606, 0.073203, 0.024234, 0.023812, 0.011605, 0.008261, 0.007362, 0.005381 ], "gate_score_top1": 0.817871, "gate_scores": [ 0.817871, 0.728516, 0.737305, 0.755859, 0.643066, 0.696289, 0.712402, 0.631836, 0.598633, 0.550293 ] }, { "question_id": "10097311", "image_id": 393838, "question": "những gì đầy cần tây, hành tây và cà rốt", "ground_truth": "chảo", "ground_truth_normalized": "chảo", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "chảo", "món ăn", "bát", "quầy tính tiền", "cà rốt", "máy xay", "chén đĩa", "rau", "lò vi sóng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.479125, "confidences": [ 0.479125, 0.183282, 0.037675, 0.037236, 0.035531, 0.030096, 0.028886, 0.011971, 0.011763, 0.00401 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.816895, 0.721191, 0.737305, 0.66748, 0.722656, 0.745117, 0.701172, 0.689941, 0.63916 ] }, { "question_id": "10072341", "image_id": 444982, "question": "những gì chăn thả cỏ trong bao vây của họ", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "bãi cỏ", "hươu cao cổ", "ba", "con ngựa", "màu xanh lá", "con chim", "màu nâu", "tàu hỏa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.719057, "confidences": [ 0.719057, 0.268692, 0.001239, 0.001085, 0.000296, 0.000287, 0.000228, 0.000228, 0.000215, 0.000214 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.853027, 0.62207, 0.671875, 0.71582, 0.587402, 0.568848, 0.537598, 0.740723, 0.587402 ] }, { "question_id": "10079371", "image_id": 343603, "question": "cái gì đang mở và gần như trống rỗng", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "cái kệ", "chai", "cửa ra vào", "phòng bếp", "con chó", "lò vi sóng", "rau" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.496246, "confidences": [ 0.496246, 0.250505, 0.101213, 0.042856, 0.010259, 0.004706, 0.002245, 0.002191, 0.002058, 0.002026 ], "gate_score_top1": 0.827637, "gate_scores": [ 0.827637, 0.810547, 0.793945, 0.751465, 0.651855, 0.496338, 0.48877, 0.563477, 0.52002, 0.64502 ] }, { "question_id": "10084191", "image_id": 499480, "question": "cái gì đang bên cạnh một máy rửa chén", "ground_truth": "tủ đông", "ground_truth_normalized": "tủ đông", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cửa", "phòng bếp", "cái kệ", "bếp", "lò vi sóng", "chai", "quầy tính tiền", "tường" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.722257, "confidences": [ 0.722257, 0.066139, 0.051108, 0.01101, 0.009641, 0.008508, 0.008425, 0.008246, 0.007067, 0.006152 ], "gate_score_top1": 0.858398, "gate_scores": [ 0.858398, 0.759277, 0.751953, 0.583984, 0.688965, 0.706543, 0.603027, 0.578613, 0.569336, 0.626953 ] }, { "question_id": "10086101", "image_id": 517861, "question": "cái gì mắc vào bánh mì thịt kéo", "ground_truth": "cái nĩa", "ground_truth_normalized": "cái nĩa", "predicted_top1": "sandwich", "predicted_topk": [ "sandwich", "đĩa ăn", "bữa ăn", "cái nĩa", "dĩa", "búi tóc", "cái rổ", "cái mâm", "bữa trưa", "món ăn" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.623549, "confidences": [ 0.623549, 0.047709, 0.039168, 0.021378, 0.019503, 0.017689, 0.009035, 0.008655, 0.007316, 0.006927 ], "gate_score_top1": 0.805664, "gate_scores": [ 0.805664, 0.739746, 0.682617, 0.64209, 0.594727, 0.685059, 0.593262, 0.648438, 0.474365, 0.602051 ] }, { "question_id": "10052061", "image_id": 429207, "question": "người đàn ông đang giữ một dấu hiệu dừng lại ở đâu", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "áo vest", "xe ô tô", "xe tải", "ảnh chụp", "vạch kẻ đường", "phương tiện giao thông", "gương", "xe cộ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.389118, "confidences": [ 0.389118, 0.342057, 0.081246, 0.027859, 0.012195, 0.00978, 0.008698, 0.007767, 0.007339, 0.004348 ], "gate_score_top1": 0.79248, "gate_scores": [ 0.79248, 0.832031, 0.700195, 0.727539, 0.661621, 0.589844, 0.675781, 0.61377, 0.726074, 0.566406 ] }, { "question_id": "10025381", "image_id": 462129, "question": "những người phụ nữ mặc một chiếc áo khoác màu đỏ ở đâu", "ground_truth": "vạch kẻ đường", "ground_truth_normalized": "vạch kẻ đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "chiếc ô", "vạch kẻ đường", "áo vest", "xe ô tô", "ảnh chụp", "gương", "cửa sổ", "xe tay ga" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.543042, "confidences": [ 0.543042, 0.122119, 0.098895, 0.045101, 0.015136, 0.01328, 0.012549, 0.010242, 0.009417, 0.003434 ], "gate_score_top1": 0.794434, "gate_scores": [ 0.794434, 0.830566, 0.780273, 0.724121, 0.598145, 0.69873, 0.612305, 0.719238, 0.712402, 0.614258 ] }, { "question_id": "10045131", "image_id": 300882, "question": "phòng ngủ nằm ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "nhà ở", "hành lang", "tòa nhà", "cửa sổ", "ô cửa", "bảo tàng", "lọ cắm hoa", "cửa" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.440594, "confidences": [ 0.440594, 0.365265, 0.056234, 0.012946, 0.010587, 0.009583, 0.005612, 0.00506, 0.004943, 0.003659 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.879883, 0.80957, 0.668945, 0.614258, 0.71582, 0.579102, 0.604492, 0.603516, 0.59668 ] }, { "question_id": "10115671", "image_id": 296763, "question": "có bao nhiêu lát bánh mì với phô mai kem và cà chua và một lát bánh mì khác với một ít thịt", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "năm", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.411622, "confidences": [ 0.411622, 0.2086, 0.174292, 0.150249, 0.015349, 0.013077, 0.005494, 0.004983, 0.001181, 0.000746 ], "gate_score_top1": 0.854004, "gate_scores": [ 0.854004, 0.832031, 0.800781, 0.826172, 0.712891, 0.598633, 0.624512, 0.598145, 0.466797, 0.482178 ] }, { "question_id": "10112881", "image_id": 229896, "question": "có bao nhiêu người đàn ông mặc quân phục cùng với hai người đàn ông khác đang cắt bánh", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "tám", "bảy", "mười", "chín" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.838103, "confidences": [ 0.838103, 0.074096, 0.061188, 0.011497, 0.003912, 0.003346, 0.000751, 0.000583, 0.000241, 0.000233 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.847168, 0.820801, 0.725586, 0.67627, 0.528809, 0.519531, 0.503418, 0.421143, 0.391602 ] }, { "question_id": "10072051", "image_id": 373075, "question": "người đàn ông không mặc áo nướng là gì", "ground_truth": "gà", "ground_truth_normalized": "gà", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "áo sơ mi", "lò vi sóng", "cái mâm", "thịt", "gà", "dao", "bữa ăn", "cà rốt", "tạp dề" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.124812, "confidences": [ 0.124812, 0.0659, 0.040284, 0.03997, 0.038364, 0.034999, 0.028454, 0.024818, 0.024055, 0.024055 ], "gate_score_top1": 0.669434, "gate_scores": [ 0.669434, 0.566406, 0.654785, 0.716309, 0.637695, 0.572754, 0.713867, 0.664551, 0.628906, 0.623047 ] }, { "question_id": "10066011", "image_id": 403065, "question": "những gì nó thực hiện nhiệm vụ của mình trên bãi biển", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "xe cộ", "xe ô tô", "xe đẩy", "đoạn phim giới thiệu", "động cơ", "xe buýt", "đường", "đường đi bộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.757188, "confidences": [ 0.757188, 0.103682, 0.041081, 0.027047, 0.004494, 0.003653, 0.003632, 0.002652, 0.002511, 0.001147 ], "gate_score_top1": 0.84668, "gate_scores": [ 0.84668, 0.807129, 0.777832, 0.731934, 0.640625, 0.500488, 0.525391, 0.644531, 0.609375, 0.44165 ] }, { "question_id": "10025581", "image_id": 185945, "question": "đứa trẻ với chiếc găng tay chạy ở đâu", "ground_truth": "đường bộ", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "găng tay", "sân vận động", "quả bóng", "lồng", "hộp", "xe lăn", "đường", "cái rổ", "ảnh chụp" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.179084, "confidences": [ 0.179084, 0.112506, 0.074507, 0.051409, 0.031734, 0.022635, 0.019859, 0.017019, 0.015436, 0.014557 ], "gate_score_top1": 0.692383, "gate_scores": [ 0.692383, 0.733887, 0.668457, 0.606934, 0.737793, 0.534668, 0.682129, 0.712402, 0.605469, 0.518555 ] }, { "question_id": "10105881", "image_id": 29473, "question": "có bao nhiêu món ăn để chọn cho bữa tối", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "sáu", "một", "bảy", "tám", "mười", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.658005, "confidences": [ 0.658005, 0.301257, 0.015235, 0.014312, 0.00359, 0.002094, 0.000841, 0.00064, 0.000215, 0.000189 ], "gate_score_top1": 0.890625, "gate_scores": [ 0.890625, 0.888672, 0.802246, 0.733887, 0.549316, 0.660156, 0.593262, 0.543945, 0.426514, 0.451172 ] }, { "question_id": "10070891", "image_id": 499134, "question": "những gì nằm bên cạnh máy tính trên bàn", "ground_truth": "laptop", "ground_truth_normalized": "laptop", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "laptop", "cái bàn", "bàn phím", "văn phòng", "bức tranh", "thư viện", "chuột", "điện thoại", "trang thiết bị" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.512331, "confidences": [ 0.512331, 0.424737, 0.026112, 0.005182, 0.001975, 0.001447, 0.001408, 0.001315, 0.001282, 0.001226 ], "gate_score_top1": 0.885742, "gate_scores": [ 0.885742, 0.89502, 0.821777, 0.728516, 0.723633, 0.560059, 0.66748, 0.655762, 0.674805, 0.513672 ] }, { "question_id": "10057951", "image_id": 400152, "question": "xe lửa nào rời trạm", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "xe điện ngầm", "tàu hỏa", "đường sắt", "xe điện", "các tòa nhà", "tòa nhà", "xe ô tô", "cầu", "động cơ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.465586, "confidences": [ 0.465586, 0.163436, 0.129795, 0.02591, 0.015532, 0.01395, 0.012978, 0.012902, 0.011166, 0.006615 ], "gate_score_top1": 0.800293, "gate_scores": [ 0.800293, 0.750977, 0.766113, 0.708984, 0.724609, 0.668457, 0.708984, 0.648926, 0.663574, 0.658203 ] }, { "question_id": "10076691", "image_id": 572303, "question": "những gì đỗ bên cạnh cây trên đường ray", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "đường sắt", "xe tải", "phương tiện giao thông", "xe đẩy", "hàng hoá", "các tòa nhà", "xe đạp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.727037, "confidences": [ 0.727037, 0.162224, 0.058525, 0.004215, 0.00364, 0.002841, 0.002643, 0.001896, 0.001889, 0.00117 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.8125, 0.780762, 0.581055, 0.706055, 0.624512, 0.660645, 0.57959, 0.637207, 0.617188 ] }, { "question_id": "10079741", "image_id": 337561, "question": "cái gì đã thiết lập với chiếc xe đạp", "ground_truth": "cái lều", "ground_truth_normalized": "cái lều", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "xe lăn", "xe tay ga", "cái lều", "xe đẩy", "cái rổ", "toa xe", "cửa hàng", "giá đỡ", "ảnh chụp" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.547227, "confidences": [ 0.547227, 0.036023, 0.03142, 0.018184, 0.013226, 0.009781, 0.008716, 0.008309, 0.008101, 0.007867 ], "gate_score_top1": 0.809082, "gate_scores": [ 0.809082, 0.766602, 0.724121, 0.600098, 0.705566, 0.719238, 0.615723, 0.669434, 0.500977, 0.568359 ] }, { "question_id": "10094271", "image_id": 521605, "question": "những gì bao gồm khoai tây và rau xanh", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "món ăn", "bữa ăn", "thịt", "bát", "chén đĩa", "dĩa", "quán ăn", "bữa ăn tối", "rau" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.690825, "confidences": [ 0.690825, 0.109732, 0.052856, 0.01612, 0.012003, 0.011476, 0.00944, 0.006988, 0.006313, 0.005626 ], "gate_score_top1": 0.86084, "gate_scores": [ 0.86084, 0.812012, 0.78125, 0.704102, 0.699707, 0.658203, 0.673828, 0.687988, 0.591309, 0.689453 ] }, { "question_id": "10033491", "image_id": 298141, "question": "đâu là nơi băng ghế nép mình", "ground_truth": "lối đi", "ground_truth_normalized": "lối đi", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "sân vườn", "cây", "lối đi", "sân", "chuồng", "băng ghế", "vườn bách thú", "ảnh chụp" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.111323, "confidences": [ 0.111323, 0.10336, 0.102156, 0.059239, 0.052998, 0.029211, 0.028702, 0.021329, 0.017891, 0.015758 ], "gate_score_top1": 0.780762, "gate_scores": [ 0.780762, 0.775391, 0.718262, 0.67041, 0.600098, 0.70752, 0.706055, 0.633301, 0.648926, 0.590332 ] }, { "question_id": "10080101", "image_id": 539439, "question": "cái nhìn rất gọn gàng và có trật tự", "ground_truth": "chung cư", "ground_truth_normalized": "chung cư", "predicted_top1": "cái bàn", "predicted_topk": [ "cái bàn", "máy tính", "văn phòng", "chung cư", "phòng", "laptop", "phòng ngủ", "cái kệ", "nhiều cái ghế", "bàn phím" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.533611, "confidences": [ 0.533611, 0.080563, 0.051813, 0.030698, 0.029638, 0.02065, 0.018366, 0.013281, 0.012022, 0.010861 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.79834, 0.725098, 0.649902, 0.740234, 0.705566, 0.67041, 0.597656, 0.569336, 0.658203 ] }, { "question_id": "10101231", "image_id": 506748, "question": "những gì trong giá đỡ thủy tinh", "ground_truth": "hoa hồng", "ground_truth_normalized": "hoa hồng", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "lọ cắm hoa", "hoa hồng", "cây", "chai", "cái lọ", "cái nồi", "bình hoa", "bát", "tách" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.466043, "confidences": [ 0.466043, 0.291642, 0.122528, 0.018141, 0.005047, 0.004377, 0.004104, 0.003061, 0.002938, 0.00256 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.733398, 0.772461, 0.727051, 0.616699, 0.613281, 0.554199, 0.468262, 0.603516, 0.627441 ] }, { "question_id": "10116951", "image_id": 41908, "question": "có bao nhiêu con ngựa vằn đang nhìn vào con ngựa vằn khác", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "bốn", "bãi cỏ", "sáu", "cây", "ngựa rằn", "bảy", "tám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.54619, "confidences": [ 0.54619, 0.442318, 0.002155, 0.000582, 0.000213, 0.000176, 0.000163, 0.000148, 0.000145, 0.000125 ], "gate_score_top1": 0.871094, "gate_scores": [ 0.871094, 0.865234, 0.710938, 0.559082, 0.474121, 0.355713, 0.405273, 0.450195, 0.366699, 0.405273 ] }, { "question_id": "10000251", "image_id": 360165, "question": "màu của con chó là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu trắng", "màu vàng", "màu cam", "màu đen", "màu xám", "màu đỏ", "màu xanh dương", "màu tía", "tách" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.831282, "confidences": [ 0.831282, 0.112063, 0.026617, 0.006783, 0.006224, 0.002778, 0.001255, 0.000462, 0.000455, 0.0003 ], "gate_score_top1": 0.861328, "gate_scores": [ 0.861328, 0.862793, 0.823242, 0.721191, 0.724609, 0.772461, 0.691895, 0.578613, 0.600098, 0.444336 ] }, { "question_id": "10059351", "image_id": 560466, "question": "những gì được bao quanh bởi những ngôi nhà đồ chơi", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "các tòa nhà", "trạm", "đường sắt", "đồ chơi", "hàng hoá", "cầu", "xe điện" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.739215, "confidences": [ 0.739215, 0.053549, 0.043027, 0.014024, 0.013381, 0.01032, 0.008423, 0.006309, 0.005386, 0.003909 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.734375, 0.726562, 0.651855, 0.676758, 0.65918, 0.527344, 0.575684, 0.650879, 0.633789 ] }, { "question_id": "10081831", "image_id": 344633, "question": "hai người mặc những gì đang cưỡi ngựa nâu", "ground_truth": "mũ bảo hiểm", "ground_truth_normalized": "mũ bảo hiểm", "predicted_top1": "mũ", "predicted_topk": [ "mũ", "con ngựa", "bãi cỏ", "chuồng", "lồng", "chuồng trại", "mũ bảo hiểm", "xe", "đồi", "con bò" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.247438, "confidences": [ 0.247438, 0.108098, 0.085847, 0.022926, 0.020114, 0.017578, 0.016036, 0.012034, 0.011393, 0.010323 ], "gate_score_top1": 0.693848, "gate_scores": [ 0.693848, 0.709473, 0.725586, 0.545898, 0.581543, 0.580078, 0.425781, 0.49707, 0.572754, 0.635742 ] }, { "question_id": "10093511", "image_id": 480345, "question": "những gì ăn lá từ trên đỉnh của cây", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "hươu cao cổ", "predicted_topk": [ "hươu cao cổ", "ngựa rằn", "cây", "ngựa vằn", "lá", "màu xanh lá", "vườn bách thú", "chuồng", "con chim", "lồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.978558, "confidences": [ 0.978558, 0.014289, 0.001137, 0.000653, 0.000467, 0.000385, 0.000208, 0.000135, 0.000127, 0.0001 ], "gate_score_top1": 0.918945, "gate_scores": [ 0.918945, 0.819336, 0.606934, 0.683105, 0.521484, 0.634277, 0.632812, 0.518066, 0.551758, 0.490723 ] }, { "question_id": "10086211", "image_id": 365626, "question": "bốn người đàn ông đang lập văn phòng và ăn gì vậy", "ground_truth": "bữa trưa", "ground_truth_normalized": "bữa trưa", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "văn phòng", "laptop", "thư viện", "lớp học", "cái bàn", "điện thoại", "bức tranh", "bàn phím", "phòng" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.322981, "confidences": [ 0.322981, 0.173556, 0.071506, 0.062613, 0.055907, 0.039489, 0.016819, 0.016494, 0.013331, 0.010043 ], "gate_score_top1": 0.811523, "gate_scores": [ 0.811523, 0.817383, 0.798828, 0.741699, 0.741211, 0.731445, 0.703613, 0.586426, 0.70459, 0.645996 ] }, { "question_id": "10049901", "image_id": 480376, "question": "hai đứa trẻ ngồi ở đâu", "ground_truth": "cái lều", "ground_truth_normalized": "cái lều", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "giường", "cái lều", "cái túi", "phòng", "hành lang", "sân", "áo vest", "lồng", "balo" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.131712, "confidences": [ 0.131712, 0.116691, 0.061492, 0.056649, 0.045519, 0.01726, 0.013614, 0.013156, 0.011839, 0.010918 ], "gate_score_top1": 0.681641, "gate_scores": [ 0.681641, 0.621094, 0.553711, 0.644043, 0.694824, 0.488525, 0.563477, 0.525391, 0.540039, 0.507812 ] }, { "question_id": "10034851", "image_id": 528541, "question": "bàn chải đánh răng điện ở đâu", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "trạm", "máy xay", "gương", "ảnh chụp", "văn phòng", "máy sấy khô", "hộp", "cửa hàng", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.07112, "confidences": [ 0.07112, 0.065391, 0.05485, 0.039662, 0.031253, 0.029131, 0.024771, 0.022032, 0.020657, 0.017361 ], "gate_score_top1": 0.746094, "gate_scores": [ 0.746094, 0.620117, 0.681152, 0.671387, 0.496826, 0.649414, 0.612305, 0.621094, 0.727539, 0.567383 ] }, { "question_id": "10089081", "image_id": 479762, "question": "những gì đang đi qua con đường đất", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "hươu cao cổ", "bãi cỏ", "chuồng", "rào chắn", "lồng", "con ngựa", "vườn bách thú", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.912661, "confidences": [ 0.912661, 0.067681, 0.001832, 0.001804, 0.001688, 0.000938, 0.000815, 0.000432, 0.000406, 0.000273 ], "gate_score_top1": 0.88916, "gate_scores": [ 0.88916, 0.851562, 0.683105, 0.635742, 0.618164, 0.530762, 0.661621, 0.625488, 0.646973, 0.661621 ] }, { "question_id": "10108371", "image_id": 472900, "question": "có bao nhiêu đồ uống đang ngồi trên một khay đồ uống lớn", "ground_truth": "mười", "ground_truth_normalized": "mười", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "tám", "chín", "ba", "mười", "một", "chai" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.508162, "confidences": [ 0.508162, 0.291813, 0.083933, 0.066917, 0.007822, 0.004689, 0.0029, 0.002495, 0.000837, 0.000373 ], "gate_score_top1": 0.820801, "gate_scores": [ 0.820801, 0.816406, 0.754395, 0.776855, 0.620605, 0.683105, 0.52002, 0.574707, 0.474121, 0.457275 ] }, { "question_id": "10032141", "image_id": 77903, "question": "anh chàng ăn pizza ở đâu", "ground_truth": "chung cư", "ground_truth_normalized": "chung cư", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "phòng", "cái bàn", "chung cư", "cái ghế", "phòng bếp", "phòng ngủ", "thư viện", "lớp học", "giường" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.448656, "confidences": [ 0.448656, 0.15146, 0.071544, 0.046737, 0.041895, 0.030058, 0.020618, 0.01706, 0.008314, 0.006071 ], "gate_score_top1": 0.793945, "gate_scores": [ 0.793945, 0.794922, 0.669434, 0.700684, 0.67334, 0.712402, 0.671387, 0.642578, 0.600586, 0.59668 ] }, { "question_id": "10096691", "image_id": 514180, "question": "những gì trên cùng với rất nhiều bánh pizza phô mai", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "lò vi sóng", "pizza", "món ăn", "bữa ăn", "bếp", "quầy tính tiền", "cái nồi", "đĩa ăn", "cái mâm" ], "gt_rank": 7, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.637595, "confidences": [ 0.637595, 0.073233, 0.06095, 0.023134, 0.016119, 0.012262, 0.01143, 0.007139, 0.006987, 0.006879 ], "gate_score_top1": 0.796387, "gate_scores": [ 0.796387, 0.718262, 0.789551, 0.691895, 0.63916, 0.602539, 0.586426, 0.617676, 0.660156, 0.649902 ] }, { "question_id": "10036541", "image_id": 380827, "question": "một người đàn ông lớn tuổi đang đặt một cái gì đó vào đâu", "ground_truth": "gầu múc", "ground_truth_normalized": "gầu múc", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "tòa nhà", "kho", "cửa tiệm", "lớp học", "ga-ra", "văn phòng", "thư viện", "gian hàng", "trạm" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.203398, "confidences": [ 0.203398, 0.097973, 0.074534, 0.041081, 0.039124, 0.036183, 0.027689, 0.025162, 0.020061, 0.018808 ], "gate_score_top1": 0.755859, "gate_scores": [ 0.755859, 0.725586, 0.733398, 0.759277, 0.743652, 0.663574, 0.757324, 0.602051, 0.57666, 0.627441 ] }, { "question_id": "10059531", "image_id": 402334, "question": "những gì được hiển thị trên bầu trời xanh", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "tòa nhà", "bức tượng", "bức ảnh", "các tòa nhà", "cây", "cờ", "lá cờ", "diều" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.458295, "confidences": [ 0.458295, 0.241504, 0.153509, 0.014674, 0.010365, 0.010066, 0.009643, 0.007264, 0.00725, 0.003452 ], "gate_score_top1": 0.827148, "gate_scores": [ 0.827148, 0.799316, 0.788574, 0.700195, 0.664062, 0.666504, 0.691406, 0.645508, 0.691406, 0.51123 ] }, { "question_id": "10089791", "image_id": 569729, "question": "chó nâu ngớ ngẩn mặc gì", "ground_truth": "kính râm", "ground_truth_normalized": "kính râm", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "xe ô tô", "nón", "gương", "cà vạt", "mũ", "con chó", "bức ảnh", "áo vest", "chiếc ô" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 0, "confidence_top1": 0.16253, "confidences": [ 0.16253, 0.12958, 0.055732, 0.051443, 0.034002, 0.029311, 0.019487, 0.017164, 0.016282, 0.015118 ], "gate_score_top1": 0.731445, "gate_scores": [ 0.731445, 0.689941, 0.653809, 0.699707, 0.666504, 0.592285, 0.642578, 0.51123, 0.60498, 0.701172 ] }, { "question_id": "10083721", "image_id": 340209, "question": "người đàn ông đang chụp gì với một chiếc máy ảnh nhỏ", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "máy ảnh", "predicted_topk": [ "máy ảnh", "bức ảnh", "điện thoại", "nón", "cà vạt", "mũ", "gương", "thiết bị", "những bức ảnh", "bàn chải" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.612885, "confidences": [ 0.612885, 0.053553, 0.046619, 0.027459, 0.008085, 0.007898, 0.007852, 0.006644, 0.006272, 0.005498 ], "gate_score_top1": 0.822754, "gate_scores": [ 0.822754, 0.616699, 0.78125, 0.730957, 0.726562, 0.581543, 0.593262, 0.637695, 0.471924, 0.568359 ] }, { "question_id": "10008651", "image_id": 343999, "question": "màu sắc của tủ quần áo là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu vàng", "màu cam", "màu nâu", "màu đỏ", "màu tía", "màu đen", "màu xanh lá", "màu xanh dương", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.515572, "confidences": [ 0.515572, 0.354347, 0.048902, 0.028082, 0.023555, 0.005035, 0.004823, 0.003487, 0.0032, 0.001733 ], "gate_score_top1": 0.869141, "gate_scores": [ 0.869141, 0.871582, 0.815918, 0.780273, 0.817383, 0.737305, 0.713379, 0.688477, 0.717285, 0.716797 ] }, { "question_id": "10098781", "image_id": 395644, "question": "vài con mèo ngủ trưa trên giường, một cái gì", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "giường", "predicted_topk": [ "giường", "cái ghế", "cửa sổ", "cái túi", "con mèo", "đồ chơi", "nón", "phòng", "màu xám", "núi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.256, "confidences": [ 0.256, 0.113378, 0.030575, 0.024568, 0.022766, 0.015662, 0.011303, 0.010546, 0.009715, 0.008641 ], "gate_score_top1": 0.730469, "gate_scores": [ 0.730469, 0.641602, 0.611328, 0.609863, 0.634766, 0.556152, 0.484131, 0.507812, 0.517578, 0.519531 ] }, { "question_id": "10045461", "image_id": 134650, "question": "mắt cá nhìn ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "nhà ở", "gương", "bồn tắm", "phòng", "chậu", "cửa", "tường", "ô cửa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.769287, "confidences": [ 0.769287, 0.052968, 0.032888, 0.032379, 0.019948, 0.008446, 0.008348, 0.007253, 0.005627, 0.00461 ], "gate_score_top1": 0.872559, "gate_scores": [ 0.872559, 0.771484, 0.766602, 0.772461, 0.762207, 0.766113, 0.743164, 0.65918, 0.582031, 0.599609 ] }, { "question_id": "10106071", "image_id": 319594, "question": "có bao nhiêu con cá trên bàn với một con dao phi lê", "ground_truth": "tám", "ground_truth_normalized": "tám", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "tám", "ba", "một", "chín", "mười", "hai" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.403195, "confidences": [ 0.403195, 0.229734, 0.211641, 0.091025, 0.019918, 0.010374, 0.003329, 0.003158, 0.002248, 0.000588 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.810059, 0.789551, 0.774414, 0.668945, 0.64209, 0.583008, 0.666992, 0.580078, 0.503906 ] }, { "question_id": "10023101", "image_id": 517395, "question": "màu của chiếc tàu là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu vàng", "màu nâu", "màu xanh lá", "màu xám", "màu trắng", "màu đỏ", "màu cam", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.742723, "confidences": [ 0.742723, 0.243018, 0.003577, 0.001132, 0.001089, 0.001059, 0.001053, 0.001037, 0.000494, 0.000414 ], "gate_score_top1": 0.897461, "gate_scores": [ 0.897461, 0.885742, 0.734863, 0.671387, 0.620117, 0.675781, 0.663574, 0.708008, 0.647461, 0.562988 ] }, { "question_id": "10035731", "image_id": 26538, "question": "hai con hươu cao cổ đang ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "tòa nhà", "bảo tàng", "chuồng trại", "lá", "hồ bơi", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.440416, "confidences": [ 0.440416, 0.433587, 0.094505, 0.002793, 0.001988, 0.001835, 0.001026, 0.000947, 0.000794, 0.000767 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.881348, 0.877441, 0.647949, 0.659668, 0.636719, 0.675781, 0.603516, 0.607422, 0.617188 ] }, { "question_id": "10004281", "image_id": 454887, "question": "màu tóc là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu đỏ", "màu cam", "màu nâu", "màu xám", "màu xanh lá", "màu đen", "màu tía", "màu xanh dương", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.460841, "confidences": [ 0.460841, 0.353339, 0.13255, 0.012971, 0.010754, 0.007362, 0.006548, 0.001595, 0.000713, 0.000615 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.868164, 0.869141, 0.672852, 0.711914, 0.654297, 0.683105, 0.603516, 0.617676, 0.679199 ] } ], "confusion_pairs": [ [ "hai", "một", 51 ], [ "bốn", "năm", 42 ], [ "ba", "bốn", 37 ], [ "ba", "hai", 29 ], [ "hai", "ba", 23 ], [ "bốn", "ba", 22 ], [ "năm", "sáu", 17 ], [ "bốn", "sáu", 14 ], [ "năm", "bốn", 12 ], [ "ba", "một", 12 ], [ "tàu hỏa", "xe ô tô", 11 ], [ "xe máy", "xe đạp", 11 ], [ "phòng", "nhà ở", 11 ], [ "phòng ngủ", "phòng", 11 ], [ "tàu hỏa", "động cơ", 10 ], [ "gương", "phòng tắm", 10 ], [ "đĩa ăn", "bữa ăn", 9 ], [ "đường phố", "đường", 9 ], [ "sáu", "bảy", 8 ], [ "ngựa vằn", "ngựa rằn", 8 ], [ "vali", "cái túi", 8 ], [ "laptop", "máy tính", 8 ], [ "màu tía", "màu xanh dương", 8 ], [ "chuồng", "vườn bách thú", 8 ], [ "ba", "năm", 7 ], [ "phòng tắm", "phòng", 7 ], [ "màu đen", "màu xám", 7 ], [ "ván lướt sóng", "bảng", 7 ], [ "vali", "hành lý", 7 ], [ "phòng tắm", "vòi hoa sen", 7 ], [ "màu trắng", "màu vàng", 7 ], [ "một", "hai", 6 ], [ "phòng", "phòng ngủ", 6 ], [ "năm", "bảy", 6 ], [ "màu nâu", "màu đen", 6 ], [ "xe tải", "phương tiện giao thông", 6 ], [ "gấu", "đồ chơi", 5 ], [ "màu vàng", "màu xanh lá", 5 ], [ "đĩa ăn", "món ăn", 5 ], [ "màu cam", "màu đỏ", 5 ], [ "máy tính", "laptop", 5 ], [ "màu xanh lá", "màu vàng", 5 ], [ "tủ đá", "tủ lạnh", 5 ], [ "phòng bếp", "phòng", 5 ], [ "bát", "món ăn", 5 ], [ "chuồng", "chuồng trại", 5 ], [ "phòng bếp", "quán ăn", 5 ], [ "trạm", "xe điện ngầm", 5 ], [ "sáu", "chín", 4 ], [ "màu nâu", "màu trắng", 4 ] ], "type_breakdown": { "0": { "total": 4513, "correct": 3786, "errors": 727 }, "1": { "total": 1752, "correct": 1396, "errors": 356 }, "2": { "total": 2187, "correct": 2024, "errors": 163 }, "3": { "total": 2505, "correct": 2101, "errors": 404 } } }