科学研究

学术讲座:面向视觉文字分析的深度模型研究及其应用

发布时间:2016-06-14

报告题目:面向视觉文字分析的深度模型研究及其应用

主讲嘉宾:张树业博士,格林深瞳算法工程师

邀请人:李斌 副教授

时间:2016年6月15日(周三)下午3:00 -- 4:00

地点:深圳大学南区基础实验楼北座信息工程学院N710会议室

报告摘要:报告将概述当前视觉文字分析领域(如场景文字检测与识别、联机手写汉字识别等)的主流方法及发展趋势。此外,将重点介绍一种适用于字符定位的字符区域候选网络。在此工作中,我们调研了若干种通用物体区域候选方法,研究了最大稳定极值区域和笔画宽度变换等两种常见的字符区域候选方法,并吸收滑动窗口方法抗干扰能力强的优点,推导出网络前向和后向映射的对应关系,利用全卷积网络共享卷积运算的特性构建了字符区域候选网络。该方法融入了多任务协同学习的算法,使得字符区域候选网络能够同时输出字符得分响应图和位置响应图。并且字符区域候选网络结合了一种多宽高比模板的策略,以更好应对字符宽高比不一的问题。

嘉宾简介:张树业博士于2011年获中山大学本科学位,2016获华南理工大学博士学位,将就职于格林深瞳任算法工程师。研究兴趣包括计算机视觉、图像处理与模式识别、机器学习等。在相关领域发表机器学习方面论文10余篇,如IJDAR、Neurocomputing等国际期刊, 及ICASSP、ICDAR等主流会议,担任多个国际期刊和国际会议论文审稿人。

最新动态