用 Python 实现隐身,我可以

作者 | 李秋键
头图 | 下载于视觉中国
出品 | AI 科技大本营(ID:rgznai100)
视频和图像的隐身术是指在视频或者图像中中,在没有任何输入遮罩的情况下,通过框选目标体,使得程序实现自动去除视频中的文本叠加和修复被遮挡部分的问题。并且最近的基于深度学习的修复方法只处理单个图像,并且大多假设损坏像素的位置是已知的,故我们的目标是在没有蒙皮信息的视频序列中自动去除文本。
今天,我们通过搭建一个简单而有效的快速视频解码器框架去实现视频中物体的去除。流程是构建一个编码器-解码器模型,其中编码器采用多个源帧,可以提供从场景动态显示的可见像素。这些提示被聚合并输入到解码器中。然后通过应用循环反馈进一步改进加强模型。循环反馈不仅加强了时间相干性,而且提供了强大的线索。
实现效果如下可见:
import argparse
from mask import mask
from inpaint import inpaint
parser = argparse.ArgumentParser(description='Demo')
parser.add_argument('--resume', default='cp/SiamMask_DAVIS.pth', type=str,
metavar='PATH', help='path to latest checkpoint (default: none)')
parser.add_argument('--data', default='data/Human6', help='videos or image files')
parser.add_argument('--mask-dilation', default=32, type=int, help='mask dilation when inpainting')
args = parser.parse_args()
mask(args)
inpaint(args)
1.3 算法概述
try:
assert(opt.model == 'vinet_final')
model = vinet.VINet_final(opt=opt)
except:
print('Model name should be: vinet_final')
assert(opt.no_cuda is False)
model = model.cuda()
model = nn.DataParallel(model)
loaded, empty = 0,0
if opt.pretrain_path:
print('Loading pretrained model {}'.format(opt.pretrain_path))
pretrain = torch.load(opt.pretrain_path)
child_dict = model.state_dict()
parent_list = pretrain['state_dict'].keys()
parent_dict = {}
for chi,_ in child_dict.items():
if chi in parent_list:
parent_dict[chi] = pretrain['state_dict'][chi]
#print('Loaded: ',chi)
loaded += 1
else:
#print('Empty:',chi)
empty += 1
print('Loaded: %d/%d params'%(loaded, loaded+empty))
child_dict.update(parent_dict)
model.load_state_dict(child_dict)
opt = Object()
opt.crop_size = 512
opt.double_size = True if opt.crop_size == 512 else False
########## DAVIS
DAVIS_ROOT =os.path.join('results', args.data)
DTset = DAVIS(DAVIS_ROOT, mask_dilation=args.mask_dilation, size=(opt.crop_size, opt.crop_size))
DTloader = data.DataLoader(DTset, batch_size=1, shuffle=False, num_workers=1)
opt.search_range = 4 # fixed as 4: search range for flow subnetworks
opt.pretrain_path = 'cp/save_agg_rec_512.pth'
opt.result_path = 'results/inpainting'
opt.model = 'vinet_final'
opt.batch_norm = False
opt.no_cuda = False # use GPU
opt.no_train = True
opt.test = True
opt.t_stride = 3
opt.loss_on_raw = False
opt.prev_warp = True
opt.save_image = False
opt.save_video = True
2.2 视频处理
with torch.no_grad():
for seq, (inputs, masks, info) in enumerate(DTloader):
idx = torch.LongTensor([i for i in range(pre - 1, -1, -1)])
pre_inputs = inputs[:, :, :pre].index_select(2, idx)
pre_masks = masks[:, :, :pre].index_select(2, idx)
inputs = torch.cat((pre_inputs, inputs), 2)
masks = torch.cat((pre_masks, masks), 2)
bs = inputs.size(0)
num_frames = inputs.size(2)
seq_name = info['name'][0]
save_path = os.path.join(opt.result_path, seq_name)
if not os.path.exists(save_path) and opt.save_image:
os.makedirs(save_path)
inputs = 2. * inputs - 1
inverse_masks = 1 - masks
masked_inputs = inputs.clone() * inverse_masks
masks = to_var(masks)
masked_inputs = to_var(masked_inputs)
inputs = to_var(inputs)
total_time = 0.
in_frames = []
out_frames = []
lstm_state = None
for t in range(num_frames):
masked_inputs_ = []
masks_ = []
if t < 2 * ts:
masked_inputs_.append(masked_inputs[0, :, abs(t - 2 * ts)])
masked_inputs_.append(masked_inputs[0, :, abs(t - 1 * ts)])
masked_inputs_.append(masked_inputs[0, :, t])
masked_inputs_.append(masked_inputs[0, :, t + 1 * ts])
masked_inputs_.append(masked_inputs[0, :, t + 2 * ts])
masks_.append(masks[0, :, abs(t - 2 * ts)])
masks_.append(masks[0, :, abs(t - 1 * ts)])
masks_.append(masks[0, :, t])
masks_.append(masks[0, :, t + 1 * ts])
masks_.append(masks[0, :, t + 2 * ts])
elif t > num_frames - 2 * ts - 1:
masked_inputs_.append(masked_inputs[0, :, t - 2 * ts])
masked_inputs_.append(masked_inputs[0, :, t - 1 * ts])
masked_inputs_.append(masked_inputs[0, :, t])
masked_inputs_.append(masked_inputs[0, :, -1 - abs(num_frames - 1 - t - 1 * ts)])
masked_inputs_.append(masked_inputs[0, :, -1 - abs(num_frames - 1 - t - 2 * ts)])
masks_.append(masks[0, :, t - 2 * ts])
masks_.append(masks[0, :, t - 1 * ts])
masks_.append(masks[0, :, t])
masks_.append(masks[0, :, -1 - abs(num_frames - 1 - t - 1 * ts)])
masks_.append(masks[0, :, -1 - abs(num_frames - 1 - t - 2 * ts)])
else:
masked_inputs_.append(masked_inputs[0, :, t - 2 * ts])
masked_inputs_.append(masked_inputs[0, :, t - 1 * ts])
masked_inputs_.append(masked_inputs[0, :, t])
masked_inputs_.append(masked_inputs[0, :, t + 1 * ts])
masked_inputs_.append(masked_inputs[0, :, t + 2 * ts])
masks_.append(masks[0, :, t - 2 * ts])
masks_.append(masks[0, :, t - 1 * ts])
masks_.append(masks[0, :, t])
masks_.append(masks[0, :, t + 1 * ts])
masks_.append(masks[0, :, t + 2 * ts])
masked_inputs_ = torch.stack(masked_inputs_).permute(1, 0, 2, 3).unsqueeze(0)
masks_ = torch.stack(masks_).permute(1, 0, 2, 3).unsqueeze(0)
start = time.time()最终完成效果如下:
☞寒门问题少年到计算机博士,硅谷穷小子是如何成为“创业之神”
☞这个Wi-Fi安全漏洞偷跑了24年,可能危及全球所有设备!
☞继小米之后,360 也官宣造车!互联网企业造车到底哪家强?
-
WaterCrawl开源爬虫神器碾压传统工具
WaterCrawl横空出世,这个开源项目已经获得28个Fork,集成了Python、Django、Scrapy、Celery等主流技术栈。一个平台解决所有数据采集需求。核心功能突破高度可定制的网络爬
-
WeRSS高效的开源微信公众号订阅工具
WeRSS 是一个用于订阅和管理微信公众号内容的工具,提供了 RSS 订阅功能。该项目采用前后端分离架构,后端使用 Python + FastAPI 搭建,前端基于 Vue 3 + Vite 开发,数
-
VeighNa基于Python的开源量化交易系统开发框架
VeighNa是一款基于 Python 的开源量化交易系统开发框架,该项目定位于为交易员和金融机构提供一站式量化交易解决方案,既支持策略研发、回测,又具备实盘交易功能。VeighNa汇集了众多国内外交
[广告]赞助链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- iPhone 问世 | 历史上的今天
- 教师节 | 看见 微光
- 【今天 14 点】又拍云联合腾讯云、Flyfish、轻流,带你走进低代码
- AI场景下从GPU资源池到GPU双资源池
- OPPO K10 Pro:旗舰实力,硬核不止性能
- 译文 | 虚拟机威胁检测(VMTD)
- 还在纠结数据仓库和数据湖的二选一?滴普科技FastData教你两手兼得
- 苹果注定要输给欧盟,USB-C成为标准接口已是大势所趋
- Python的底气,是从哪儿来的?
- 供不应求,《0day安全 软件漏洞分析技术》第三次再版印刷啦!
- 第二届用友·华为云杯开发者大赛落幕 低代码开发平台将爆发?
- 为什么EV SSL证书那么贵?Geotrust的EV SSL证书怎么样