code-maker-code
diff --git a/‎config/__init__.py‎
Lines changed: 4 additions & 0 deletions b/‎config/__init__.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎config/fcos_config.py‎
Lines changed: 10 additions & 83 deletions b/‎config/fcos_config.py‎
Lines changed: 10 additions & 83 deletions
diff --git a/‎config/plain_detr_config.py‎
Lines changed: 79 additions & 0 deletions b/‎config/plain_detr_config.py‎
Lines changed: 79 additions & 0 deletions
diff --git a/‎config/retinanet_config.py‎
Lines changed: 6 additions & 0 deletions b/‎config/retinanet_config.py‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎config/yolof_config.py‎
Lines changed: 9 additions & 0 deletions b/‎config/yolof_config.py‎
Lines changed: 9 additions & 0 deletions
@@ -2,6 +2,7 @@
 from .retinanet_config import retinanet_cfg
 from .fcos_config import fcos_cfg
 from .yolof_config import yolof_cfg
+from .plain_detr_config import plain_detr_cfg
 
 
 def build_config(args):
@@ -14,6 +15,9 @@ def build_config(args):
     # YOLOF
     elif args.model in yolof_cfg.keys():
         return yolof_cfg[args.model]
+    # PlainDETR
+    elif args.model in plain_detr_cfg.keys():
+        return plain_detr_cfg[args.model]
 
     else:
         print('Unknown Model: {}'.format(args.model))
 
@@ -10,6 +10,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -88,6 +89,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -166,6 +168,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -244,6 +247,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -322,6 +326,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -400,6 +405,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -479,6 +485,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v2',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -557,6 +564,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v2',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -635,6 +643,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v2',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -713,6 +722,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v2',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -784,87 +794,4 @@
         'normalize_coords': False,
     },
 
-    # Real-time FCOS
-    'fcos_rt_r50_4x':{
-        # ----------------- Model-----------------
-        ## Backbone
-        'backbone': 'resnet50',
-        'backbone_norm': 'FrozeBN',
-        'res5_dilation': False,
-        'pretrained': True,
-        'pretrained_weight': 'imagenet1k_v1',
-        'max_stride': 32,
-        'out_stride': [8, 16, 32],
-        ## Neck
-        'neck': 'fcos_rt_pafpn',
-        'use_spp': True,
-        'spp_pooling_size': 5,
-        'spp_act': 'silu',
-        'spp_norm': 'GN',
-        'depth': 3,
-        'fpn_act': 'silu',
-        'fpn_norm': 'GN',
-        'fpn_depthwise': False,
-        ## Head
-        'head': 'fcos_head',
-        'head_dim': 256,
-        'num_cls_head': 4,
-        'num_reg_head': 4,
-        'head_act': 'silu',
-        'head_norm': 'GN',
-        ## Post-process
-        'train_topk': 1000,
-        'train_conf_thresh': 0.05,
-        'train_nms_thresh': 0.65,
-        'test_topk': 100,
-        'test_conf_thresh': 0.5,
-        'test_nms_thresh': 0.45,
-        'nms_class_agnostic': True,  # We prefer to use class-agnostic NMS in the demo.
-        # ----------------- Label Assignment -----------------
-        'matcher': 'simota',
-        'matcher_hpy':{'soft_center_radius': 2.5,
-                       'topk_candidates': 13,
-                       },
-        # ----------------- Loss weight -----------------
-        ## Loss hyper-parameters
-        'focal_loss_alpha': 0.25,
-        'focal_loss_gamma': 2.0,
-        'loss_cls_weight': 1.0,
-        'loss_reg_weight': 2.0,
-        'loss_ctn_weight': 0.5,
-        # ----------------- Training -----------------
-        ## Training scheduler
-        'scheduler': '4x',
-        ## Optimizer
-        'optimizer': 'sgd',
-        'base_lr': 0.01 / 16,
-        'backbone_lr_ratio': 1.0 / 1.0,
-        'momentum': 0.9,
-        'weight_decay': 1e-4,
-        'clip_max_norm': -1.0,
-        ## LR Scheduler
-        'lr_scheduler': 'step',
-        'warmup': 'linear',
-        'warmup_iters': 500,
-        'warmup_factor': 0.00066667,
-        ## Epoch
-        'max_epoch': 48,       # 4x
-        'lr_epoch': [32, 44],  # 4x
-        # ----------------- Input -----------------
-        ## Transforms
-        'train_min_size': [320, 352, 384, 416, 448, 480, 512, 544, 576, 608, 640],   # short edge of image
-        'train_min_size2': [400, 500, 600],
-        'train_max_size': 900,
-        'test_min_size': 512,
-        'test_max_size': 736,
-        'random_crop_size': [320, 608],
-        ## Pixel mean & std
-        'pixel_mean': [0.485, 0.456, 0.406],
-        'pixel_std':  [0.229, 0.224, 0.225],
-        ## Transforms
-        'detr_style': True,
-        'trans_config': None,
-        'normalize_coords': False,
-    },
-
 }
@@ -0,0 +1,79 @@
+# Plain DETR
+
+plain_detr_cfg = {
+    'rtpdetr_r50':{
+        # ---------------- Model config ----------------
+        ## Model scale
+        # Backbone
+        'backbone': 'resnet50',
+        'backbone_norm': 'FrozeBN',
+        'pretrained': True,
+        'mae_pretrained': True,
+        'max_stride': 32,
+        'out_stride': 16,
+        # Transformer Ecndoer
+        'hidden_dim': 256,
+        'en_num_heads': 8,
+        'en_num_layers': 6,
+        'en_ffn_dim': 2048,
+        'en_dropout': 0.1,
+        'en_act': 'gelu',
+        # Transformer Decoder
+        'transformer': 'plain_detr_transformer',
+        'de_num_heads': 8,
+        'de_num_layers': 6,
+        'de_ffn_dim': 2048,
+        'de_dropout': 0.0,
+        'de_act': 'gelu',
+        'de_pre_norm': True,
+        'rpe_hidden_dim': 512,
+        'use_checkpoint': False,
+        'proposal_feature_levels': 3,
+        'proposal_tgt_strides': [8, 16, 32],
+        'num_queries_one2one': 300,
+        'num_queries_one2many': 1500,
+        # ---------------- Assignment config ----------------
+        'matcher_hpy': {'cost_class': 2.0,
+                        'cost_bbox': 1.0,
+                        'cost_giou': 2.0,},
+        # ---------------- Loss config ----------------
+        'k_one2many': 6,
+        'lambda_one2many': 1.0,
+        'loss_coeff': {'class': 2,
+                       'bbox': 1,
+                       'giou': 2,},
+        # ----------------- Training -----------------
+        ## Optimizer
+        'optimizer': 'adamw',
+        'base_lr': 0.0002 / 16,
+        'backbone_lr_ratio': 0.1,
+        'momentum': None,
+        'weight_decay': 0.05,
+        'clip_max_norm': 0.1,
+        ## LR Scheduler
+        'lr_scheduler': 'step',
+        'warmup': 'linear',
+        'warmup_iters': 1000,
+        'warmup_factor': 0.00066667,
+        ## Training scheduler
+        'scheduler': '1x',
+        'max_epoch': 12,      # 1x
+        'lr_epoch': [11],     # 1x
+        # ----------------- Input -----------------
+        ## Transforms
+        'train_min_size': [800],   # short edge of image
+        'train_min_size2': [400, 500, 600],
+        'train_max_size': 1333,
+        'test_min_size': 800,
+        'test_max_size': 1333,
+        'random_crop_size': [320, 600],
+        ## Pixel mean & std
+        'pixel_mean': [0.485, 0.456, 0.406],
+        'pixel_std':  [0.229, 0.224, 0.225],
+        ## Transforms
+        'detr_style': True,
+        'trans_config': None,
+        'normalize_coords': False,
+    },
+
+}
@@ -10,6 +10,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -92,6 +93,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -174,6 +176,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -256,6 +259,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -338,6 +342,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
@@ -420,6 +425,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 128,
         'out_stride': [8, 16, 32, 64, 128],
 
@@ -11,6 +11,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 32,
         'out_stride': 32,
@@ -93,6 +94,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 32,
         'out_stride': 32,
@@ -175,6 +177,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 32,
         'out_stride': 32,
@@ -258,6 +261,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': True,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 16,
         'out_stride': 16,
@@ -340,6 +344,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': True,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v1',
         'max_stride': 16,
         'out_stride': 16,
@@ -425,6 +430,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v2',
         'max_stride': 32,
         'out_stride': 32,
@@ -507,6 +513,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': False,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v2',
         'max_stride': 32,
         'out_stride': 32,
@@ -590,6 +597,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': True,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v2',
         'max_stride': 16,
         'out_stride': 16,
@@ -672,6 +680,7 @@
         'backbone_norm': 'FrozeBN',
         'res5_dilation': True,
         'pretrained': True,
+        'mae_pretrained': False,
         'pretrained_weight': 'imagenet1k_v2',
         'max_stride': 16,
         'out_stride': 16,