论文研读:SPP-net

论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks 摘要 问题引入 我们先回顾一下 R-CNN 的基本步骤: 1. 使用 seletive search 从输入图片中提取大约 2k 个候选区域。 2. 对所有候选区域进行 warp 到固定尺度(227 × 227),也就是使得不同尺度和长宽比的区域被变换到相同大小,然后将其送入 CNN 网络,提取出 feature maps 。 3. 使用 SVM 进行分类,并做边框回归。 我们再来看一张时间复杂度上的统计分析图 由图可看,除了CNN网络提取特征耗时(需要对每一张图片的2000个窗口进行卷积网络计算),其中的warp操作(Cropping & resizing )也是挺费时间的。 另外我们从下图进行分析warp这种操作对信息可能造成的影响:…

美签申请经验谈

由于计划去趟美国,拜访一下boss,然后一起参加1月初在拉斯维加斯举办的CES(全球消费电子展),所以去办理了美国商务旅游签证(B1/B2),办理过程也不是一帆风顺,面签过程中一签被拒,还好在二签幸运地通过了。由于一些朋友在微信和微博上咨询,所以本文记录整理一下笔者办理签证的过程,只是一些个人经验之谈,希望大家能吸取笔者的教训,如果办签,争取能一次通过,不要浪费没必要的时间和金钱。 办理流程 1.上大使馆官网填写DS160表格,交款,然后预约面签时间 2.去大使馆面签。 3.如果面签通过,则面签过程中会收走护照,并给一张黄色的纸,几天后邮政会把加了美国签证的护照送给你。如果没通过,面签官会给一张白色的纸条。 下面主要谈一谈填写DS160表格和面签这两个部分。 核心:无论是填写DS160,还是面签,首先最重要的是诚实,不要撒谎,毕竟每年申请的人那么多,面签官还是能从这些样本中总结出撒谎人的一些特征的。其次,要表现出不会呆在美国不回的坚决,要拿出一切能证明你只是短期待在美国,国内对你有很大的约束力使你不能长久离开。 以下为一些细节和tips: 填表: 填写DS160表格,会要求你上传美国签证标准照片,然后填写你的护照、身份证、居住地、学历、工作、家庭、旅行计划等信息。确认后,最好先把材料都准备好,然后一次性填好,这样比较节约时间。官网体验效果太差,有时候经常掉线,因此填好一部分后,可以先保存,这样即使暂时访问不来了,以后也可以随时调出来。如果是调出原来填好的表格,在登录安全问题中,有一个要求填姓氏的前5个字符,如果不足可以在后面用空格填充。填好信息并确认之后,下载DS160确认表,就进行付费,大概一千多RMB, 不能支付宝或微信支付,只能通过中信银行,网银或者柜台均可。缴费之后就是选择预约时间,确认之后需要下载预约时间表。 面签: 面签要带的材料除了护照、DS160确认表和预约时间表之外,最好带上其它辅助性材料,比如:身份证、户口簿、毕业证与学位证、加盖公司印章的工作证明、邀请函、工资流水、房产证和车证、结婚证,当然没有的也不用强行带。 由于我在深圳,所以面签选的地址是离得最近的美驻广州大使馆。面签过程主要有排队等进场->检查护照->安检->护照背面贴预约号->采集指纹->签证面谈。各个环节排队时间都挺长的。由于大家对面签官所问的问题比较好奇,所以下面复盘一下笔者一签和二签的面签对话过程。 一签 面签官:“你为什么来美国?” 我:商务出差,拜访一些美国的商业伙伴,然后参加CES展会。(其实这里就应该主动递交boss的美国护照和保证信以及CES的邀请函,然而我没有….) 面签官: “你结婚了吗?” 我: “没有” 面签官:“你工作多久了?” 我:“工作一年多了” (备注:感觉从这里面签官开始质疑我了,为啥你毕业一年就能出差去海外拜访商业伙伴。) 面签官:“你有出过国吗?” 我:“没有” (备注:我是白本护照,也就是没有从没出过国的,从以往来看,大概率会被拒。) 面签官:“你身份证上的地址和你的居住地址不一样啊,你有带居住证吗?”(备注:笔者户籍在湖南,居住地填写的是深圳) 我:“额,抱歉,我没有带,但是我带了身份证”。将身份证递给了面签官。 面签官:“对不起,根据美国法律,你不能进入美国。” 然后递给了一个白纸给我。 我:“……..”.。(感觉有点蒙) 回来的时候,问了很多同样被拒的,都是因为居住地和身份证地址不一样,又没有带居住证,所以被拒了的。笔者再去办理了深圳特区居住证后,又去二签了。 二签 排队等面签,看到被安排的面签官好像比较严肃,在我排队最前面的几个都对话了很长时间,而且都被拒了,由于等了太长时间,看旁边窗口比较快并且通过率高,于是悄悄换了个窗口。 面签官:“你为什么来美国?” 我:出差,拜访一下在美国的boss,然后参加CES展会。这是保证信以及CES的邀请函,你要看吗?“ 面签官:“你出过国吗?” 我:“没有,这是第一次出国。” 面签官:“你们公司是做什么的?”…

论文研读:R-CNN

R-CNN属于两阶段目标检测器,也就是会首先生成可能包含物体的候选区域(region proposal),然后再对候选区域进一步分类和校准,最终得到检测结果。R-CNN是首次把CNN引入目标检测领域,极大地提高了目标检测的精度,后续的Fast R-CNN以及Faster R-CNN都继承于它,算是开山鼻祖吧。 Rich feature hierarchies for accurate object detection and semantic segmentation 我们先看一下论文的摘要: Object detection performance, as measured on the canonical PASCAL VOC dataset, has plateaued in the last few years. The best-performing methods are complex en- semble…

安装Gym-TORCS

[TOC] 关于Gym-TORCS Gym-TORCS是TORCS领域的强化学习(RL)环境,具有OpenAI-gym-like接口。 TORCS是最近在几项AI研究中用作RL基准任务的开源现实赛车模拟器。 安装xautomation: sudo apt-get install xautomation 安装mujoco-py: git clone https://github.com/openai/mujoco-py cd mujoco-py pip3 install -e . –no-cache –user 安装OpenAI-Gym:https://github.com/openai/gym sudo apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig sudo pip…

小试牛刀Keras之MNIST数据集识别

前言 在全世界中目前比较流行的深度学习框架主要有:Theano 、Torch 、PyTorch、Caffe、Tensorflow、MXNet、Keras。由于在笔者的工作中大部分是使用Tensorflow 和 Caffe,此外还有MXNet,但是对其他框架没有上过手,因此笔者有一个想法,就是把这些框架都体验一遍,并用这些框架都去实现一遍经典的深度学习网络模型。 关于Keras Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端,并将其函数统一封装,使得用户可以以同一个接口调用不同后端引擎的函数。Keras默认使用Tensorflow作为其后端。 – Theano是一个开源的符号主义张量操作框架,由蒙特利尔大学LISA/MILA实验室开发。 – TensorFlow是一个符号yo的商业级工具包。 时间就是金钱,Keras具有网络层、损失函数、优化器、初始化策略、激活函数和正则化方法等独立模块,能简易快速地实现原型设计,可以大大提高我们动手实现网络模型的效率。 安装Keras 建议使用PyPI的方法安装: sudo pip install keras MNIST数据集识别 talk is cheap,show me the code. from __future__ import print_function import keras import tensorflow as tf from keras.datasets import mnist…

论文研读:A GPS and Laser-based Localization for Urban and Non-Urban Outdoor Environments

众所周知,在城市环境里,由于高楼大厦,会有多径效应的影响,以至于GPS测量出现较大的误差。在自动驾驶中,视觉定位、激光雷达定位以及GPS定位中,只有GPS是属于绝对定位的,其它定位方式都需要在结构化的环境下提取相应的环境特征,一旦到达特征比较稀疏的环境,很容易出现系统失效的问题,比如激光雷达定位,如果是在十字路口,可能环境特征比较少,就会定位出错。再比如如果自动驾驶车被周围的高大巴士挡住,那也容易出现问题。因此,可以预见,GPS是必不可少的,对应自动驾驶来说。如何从数据源去解决多径效应,也许也是值得研究的问题。最近,笔者阅读了一篇关于融合定位的文章,与大家一起分享。 Abstract— This paper introduces a localization based on GPS and laser measurements for urban and non-urban outdoor environments. In this approach, the GPS pose is Kalman filtered using wheel odometry and inertial data and tightly integrated into a Monte…