期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
恶意PDF文档检测技术研究进展 预览 被引量:1
1
作者 林杨东 杜学绘 孙奕 《计算机应用研究》 CSCD 北大核心 2018年第8期2251-2255,共5页
针对PDF的漏洞及相应攻击手段日新月异,传统的恶意PDF文档检测技术难以应对各种新型威胁。目前针对恶意PDF文档检测的研究已取得一定成果,为了更深入地解决该技术存在的不足,采用文献分析方法,首先讨论了必要性、简述了其相关概念... 针对PDF的漏洞及相应攻击手段日新月异,传统的恶意PDF文档检测技术难以应对各种新型威胁。目前针对恶意PDF文档检测的研究已取得一定成果,为了更深入地解决该技术存在的不足,采用文献分析方法,首先讨论了必要性、简述了其相关概念和检测基本框架;其次针对其分析技术的不同将现有方案进行分类,从适用范围、检测效果、检测效率等多个方面进行对比分析。最后归纳了该领域当前的热点和发展前景。 展开更多
关键词 PDF 文档检测 静态分析 动态分析
在线阅读 下载PDF
RTF数组溢出漏洞挖掘技术研究 预览 被引量:2
2
作者 乐德广 龚声蓉 +2 位作者 吴少刚 徐锋 刘文生 《通信学报》 CSCD 北大核心 2017年第5期96-107,共12页
在虚函数执行中,由于错误操作C++对象的虚函数表而引起数组溢出漏洞。通过攻击虚函数造成系统崩溃,甚至导致攻击者可直接控制程序执行,严重威胁用户安全。为尽早发现并修复此类安全漏洞,对该安全漏洞的挖掘技术进行深入研究,结合MS W... 在虚函数执行中,由于错误操作C++对象的虚函数表而引起数组溢出漏洞。通过攻击虚函数造成系统崩溃,甚至导致攻击者可直接控制程序执行,严重威胁用户安全。为尽早发现并修复此类安全漏洞,对该安全漏洞的挖掘技术进行深入研究,结合MS Word解析RTF文件和虚函数调用之间的联系,发现MS Word在解析异常的RTF文件时存在数组溢出漏洞,并进一步提出基于文件结构解析的Fuzzing测试方法来挖掘RTF数组溢出漏洞。在此基础上,设计了RTF数组溢出漏洞挖掘工具(RAVD,RTF array vulnerability detector)。通过RAVD对RTF文件进行测试,能够正确挖掘出数组溢出漏洞。实际的模糊测试表明,设计的工具相比传统的漏洞挖掘工具具有更高的挖掘效率。 展开更多
关键词 RTF文件 漏洞挖掘 FUZZING测试 数组溢出
在线阅读 下载PDF
基于文本行基线的倾斜角检测算法 预览
3
作者 巨志勇 何晓蕾 王超男 《电子科技》 2016年第10期39-42,共4页
针对文本图像倾斜检测问题,提出了一种新的基于文本行基线的倾斜角检测算法。该算法用边界标记自动机对一组同行的字符进行轮廓(外边界)跟踪,并标记出字符的最小外接矩形(MER)和字符的边框。在此基础上通过相邻字符间的行高差和字... 针对文本图像倾斜检测问题,提出了一种新的基于文本行基线的倾斜角检测算法。该算法用边界标记自动机对一组同行的字符进行轮廓(外边界)跟踪,并标记出字符的最小外接矩形(MER)和字符的边框。在此基础上通过相邻字符间的行高差和字符区域的面积来剔除字符的冗余部分,最后用剩余部分的字符边框底边中点来拟合一条直线,即行文本的基线,并确定文本的倾斜角度。实验结果表明,该方法有效,同时倾斜角检测的精确性得到了优化。 展开更多
关键词 文本图像 倾斜检测 边界标定 直线拟合
在线阅读 免费下载
基于关联语义链网络的文本聚类方法 预览 被引量:2
4
作者 何祥 骆祥峰 《上海大学学报:自然科学版》 CAS CSCD 北大核心 2014年第2期190-198,共9页
基于关联语义链网络提出了一种自适应分裂的文本聚类方法.该方法通过从关联语义链网络中检测出各个社团结构作为文本集中的类别,以避免对聚类数目的预先确定.同时,针对高维稀疏的词向量导致的文本之间或文本与类之间相似性低的问题,将... 基于关联语义链网络提出了一种自适应分裂的文本聚类方法.该方法通过从关联语义链网络中检测出各个社团结构作为文本集中的类别,以避免对聚类数目的预先确定.同时,针对高维稀疏的词向量导致的文本之间或文本与类之间相似性低的问题,将关联语义链网络中词与词之间的关联关系映射到文本与类之间的关联关系中去,以增强文本与类之间关系的强度.通过与其他主要聚类方法进行实验对比,发现该聚类方法不仅能够对文本集合进行准确的聚类,而且能够较准确地确定聚类中心数目和识别出文本集中的话题信息. 展开更多
关键词 文本聚类 关联语义链网络 社区检测
在线阅读 下载PDF
基于Gabor-统计特征与SVM的文档图像文本检测方法 预览
5
作者 刘权 苏海 苗敏婧 《包装工程》 CAS CSCD 北大核心 2014年第23期100-103,114共5页
目的对文档图像中的文本进行精确检测,深入研究统计特征对于文字纹理特征分类的影响。方法首先结合Gabor-统计特征获得文档图像的特征图像,再应用SCA算法提取文本样本和非文本样本,最后采用SVM实现文本检测,而统计特征的选择使用Fisher... 目的对文档图像中的文本进行精确检测,深入研究统计特征对于文字纹理特征分类的影响。方法首先结合Gabor-统计特征获得文档图像的特征图像,再应用SCA算法提取文本样本和非文本样本,最后采用SVM实现文本检测,而统计特征的选择使用Fisher准则实现。结果依据Fisher准则,逆差距特征对于Gabor特征分类的类间离散度最大,效果最佳。结论针对不同类型的文档图像,使用Gabor-逆差距特征能够获得较好的检测效果。 展开更多
关键词 文档图像 Gabor-统计特征 SVM 文本检测
在线阅读 下载PDF
基于文档平滑和查询扩展的文档敏感信息检测方法 预览 被引量:7
6
作者 苏赢彬 杜学绘 +1 位作者 夏春涛 李海华 《计算机应用》 CSCD 北大核心 2014年第9期2639-2644,共6页
由于办公终端可能出现敏感信息泄露的风险,对终端上的文档进行敏感信息检测就显得十分重要,但现有敏感信息检测方法中存在上下文信息无关的索引导致文档建模不准确、查询语义扩展不充分的问题。为此,首先提出基于上下文的文档索引平滑算... 由于办公终端可能出现敏感信息泄露的风险,对终端上的文档进行敏感信息检测就显得十分重要,但现有敏感信息检测方法中存在上下文信息无关的索引导致文档建模不准确、查询语义扩展不充分的问题。为此,首先提出基于上下文的文档索引平滑算法,构建尽可能保留文档信息的索引;然后改进查询语义扩展算法,结合领域本体中概念敏感度适当扩大敏感信息检测范围;最后将文档平滑和查询扩展融合于语言模型,在其基础上提出了文档敏感信息检测方法。将采用不同索引机制、查询关键字扩展算法及检测模型的四种方法进行比较,所提出的算法在文档敏感信息检测中的查全率、准确率和F值分别为0.798,0.786和0.792,各项性能指标均明显优于对比算法。结果表明该算法是一种能更有效检测敏感信息的方法。 展开更多
关键词 敏感信息 文档平滑 语义扩展 语言模型 检测方法
在线阅读 下载PDF
面向文本图像的地纹数字水印研究 预览
7
作者 褚勇俊 张云华 《工业控制计算机》 2013年第3期65-66,共2页
提出了一种利用文本背景嵌入水印的文本数字水印新方法。设计了2种不同的地纹模式代表不同的水印信息,同时地纹模式也代表背景图像的灰度,能再现完整的背景图像。接着介绍了水印嵌入和检出的过程。通过从多次复印的文本中提取水印的... 提出了一种利用文本背景嵌入水印的文本数字水印新方法。设计了2种不同的地纹模式代表不同的水印信息,同时地纹模式也代表背景图像的灰度,能再现完整的背景图像。接着介绍了水印嵌入和检出的过程。通过从多次复印的文本中提取水印的实验测定了水印的提取率,验证了该水印对复印操作的高鲁棒性。 展开更多
关键词 文本数字水印 地纹模式 检出率
在线阅读 下载PDF
基于几何约束的文本图像倾斜角检测算法 预览 被引量:2
8
作者 巨志勇 王平殿 《计算机应用研究》 CSCD 北大核心 2013年第3期950-952,960共4页
针对文本图像倾斜检测的问题,提出了一种新的基于几何约束的文本图像倾斜角自动检测算法。该算法采用边界标记自动机的方法对一组同行字符轮廓进行检测从而得到该组字符轮廓的最低点信息,再用矩的方法剔除噪声字符,并确定页面的倾斜... 针对文本图像倾斜检测的问题,提出了一种新的基于几何约束的文本图像倾斜角自动检测算法。该算法采用边界标记自动机的方法对一组同行字符轮廓进行检测从而得到该组字符轮廓的最低点信息,再用矩的方法剔除噪声字符,并确定页面的倾斜角度。实验结果表明,该算法在检测效率与准确率上都有了明显的提高,同时在处理较大倾斜角和较少字符数目的倾斜检测中也有较好的执行效率。因此,该算法可广泛应用于包括英文、中文、日文在内的多种语言文本图像的倾斜检测中。 展开更多
关键词 文本图像 倾斜检测 字符顶点 几何约束
在线阅读 下载PDF
通过自聚类的软件说明文档来挖掘标注SaaS服务的标签
9
作者 秦丽 李兵 《小型微型计算机系统》 CSCD 北大核心 2013年第12期2686-2690,共5页
基于SaaS的在线服务数量日益宠大,使得如何有效的查找特定的服务成为突出问题.目前普遍采用用户自定义的服务标签来标识服务,并通过标签来搜索服务,但这些标签存在随意性,容易产生歧义.有鉴于此,本文提出一种从软件说明文档中挖... 基于SaaS的在线服务数量日益宠大,使得如何有效的查找特定的服务成为突出问题.目前普遍采用用户自定义的服务标签来标识服务,并通过标签来搜索服务,但这些标签存在随意性,容易产生歧义.有鉴于此,本文提出一种从软件说明文档中挖掘用以标注服务标签的方法,为了验证该方法,本文收集了多特软件平台上的软件说明文档,通过文本挖掘技术从中提取特征词汇,并对特征词汇进行相似度计算,利用特征词;12的相似度来计算软件说明文档之间的相似度,并以此来构建软件网络,其中节点为软件,边为软件间的相似关系,边上权值为相关说明文档之间的相似程度,再通过复杂网络社区发现算法对软件网络进行自动聚类,最后将聚类后的软件说明文档中的常用特征词汇进行统计,将之定义为该类别服务的推荐标签. 展开更多
关键词 服务标签 特征词 文档相似度 软件网络 社区发现
最大投影栅缝法检测文档图像倾斜角 预览
10
作者 赵飞 谢里阳 李佳 《计算机应用》 CSCD 北大核心 2011年第6期 1631-1633,共3页
针对由照相机扫描仪等文档获取设备拍摄的文档图像可能存在倾斜,进而导致光学字符识别(OCR)软件不能正确识别的情况,采用了一种以文档图像投影栅缝宽为目标函数的优化方法,栅缝宽最大值对应的投影角度的相反数即为文档图像的倾斜角。... 针对由照相机扫描仪等文档获取设备拍摄的文档图像可能存在倾斜,进而导致光学字符识别(OCR)软件不能正确识别的情况,采用了一种以文档图像投影栅缝宽为目标函数的优化方法,栅缝宽最大值对应的投影角度的相反数即为文档图像的倾斜角。利用栅线宽函数扩大了检测范围,并提高了检测速度;利用反投影法和均布列预投影等方法,减少了计算量;利用二分法提高了算法的检测精度。通过一些包含少量插图的文档图像的倾斜角检测实验,验证了该方法的有效性。 展开更多
关键词 文档图像 倾斜检测 投影 栅缝 优化
在线阅读 下载PDF
一种用于抄袭识别的文档距离度量 预览 被引量:4
11
作者 胡明晓 DING Leon X 《计算机工程与应用》 CSCD 北大核心 2010年第7期 148-152,177,共6页
广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在... 广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在第二文档中的近似匹配子串(即原象串),然后根据这些原象串得到回退数和前跳数,最后将三者求和作为文档距离。该文档距离是一种广义编辑距离的近似值,能够在O(n^2)时间内计算,并能充分反映抄袭方向。针对人工文档和实际文档的两组实验表明该距离具有较低的漏检率、误检率。 展开更多
关键词 文档距离 广义编辑距离 近似串匹配 抄袭识别 电子文档管理
在线阅读 下载PDF
关于中文文档复制检测算法的改进 预览 被引量:2
12
作者 孙伟 邢长征 《计算机工程与科学》 CSCD 北大核心 2010年第8期 101-103,共3页
文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多,基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点,在抓住了文档的... 文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多,基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点,在抓住了文档的全局特征的同时又能兼顾文档的结构信息,是一种很好的算法。本文在该算法的基础上对相似度算法进行了改进,提出了一种新的面向中文文档的基于句子相似度的文档复制检测算法。本算法充分考虑了中文文档的特点,选择句子作为文档的特征单元,并解决了需要人工设定阂值的问题,提高了检测精度。实验证明,无论是在效率上,还是在准确性上,该算法都是可行的。 展开更多
关键词 中文文档 复制检测 中文分词 句子相似度
在线阅读 下载PDF
一种文本图像倾斜校正的方法 预览 被引量:5
13
作者 王辉 牟宏鑫 +1 位作者 王嘉梅 梁志茂 《云南民族大学学报:自然科学版》 CAS 2010年第3期 232-234,共3页
文档图像倾斜检测与校正是文档分析的预处理的重要环节.提出了一种基于像素点的方法来检测文档图像的倾斜问题,并通过迭代运算来准确的实现倾斜文档图像的校正.实验结果表明,本算法速度快,精确度高,具有较强的实用性.
关键词 文本倾斜 倾斜检测 倾斜校正
在线阅读 免费下载
毕业设计文档管理技术探索及实践 预览 被引量:3
14
作者 张卫丰 周国强 《教育与教学研究》 2009年第11期 58-60,67,共4页
文章提出了一种基于文档自动生成和格式自动检测的毕业设计文档管理技术。这种技术利用文档内容和格式共享模板,实现了大量文档的自动生成和格式的自动检测,解决了大量重复文档内容的手工填写和格式检测的低效和易出错的问题,提高了毕... 文章提出了一种基于文档自动生成和格式自动检测的毕业设计文档管理技术。这种技术利用文档内容和格式共享模板,实现了大量文档的自动生成和格式的自动检测,解决了大量重复文档内容的手工填写和格式检测的低效和易出错的问题,提高了毕业设计文档的管理效率;同时便于进行版本控制从而保证文档一致性。利用该技术的毕业设计文档管理系统自投入到应用以来取得了满意的效果。 展开更多
关键词 毕业设计 文档生成 文档管理 格式检测
在线阅读 下载PDF
表格型票据中框线检测与去除算法 预览 被引量:4
15
作者 张艳 郁生阳 +1 位作者 张重阳 杨静宇 《计算机研究与发展》 EI CSCD 北大核心 2008年第5期 909-914,共6页
字符笔画与表格线的粘连或交叠是表格型票据中普遍存在的现象,严重影响了后期票据自动识别处理的性能.现有方法大多基于二值图像,未能充分利用灰度图中的框线特征.基于票据图像中的框线特征,提出一种表格型票据预处理中的框线检测与去... 字符笔画与表格线的粘连或交叠是表格型票据中普遍存在的现象,严重影响了后期票据自动识别处理的性能.现有方法大多基于二值图像,未能充分利用灰度图中的框线特征.基于票据图像中的框线特征,提出一种表格型票据预处理中的框线检测与去除算法,首先充分利用票据灰度图像的特点准确地检测出框线,再采用一种连通链结构描述叠加后的框线区域,然后对交叠进行判断和标记,根据标记保留字符笔划去除框线干扰.经过实际银行支票图像测试证明了算法的有效性和鲁棒性. 展开更多
关键词 文档分析 表格识别 直线检测 连通链结构 框线去除
在线阅读 下载PDF
一种面向文档复制检测的特征提取方法 预览 被引量:3
16
作者 李旭 刘国华 +1 位作者 余靖 王蕾 《小型微型计算机系统》 CSCD 北大核心 2008年第5期 813-816,共4页
介绍一种文档复制检测中基于窗口的特征提取方法,并从理论上分析了性能.采用重叠的文本块分割文档,利用滚动的HASH函数把文本块映射成散列值,再从定义的散列值窗口中选择文本特征.实验验证了方法的特性并与具有代表性的文档复制检... 介绍一种文档复制检测中基于窗口的特征提取方法,并从理论上分析了性能.采用重叠的文本块分割文档,利用滚动的HASH函数把文本块映射成散列值,再从定义的散列值窗口中选择文本特征.实验验证了方法的特性并与具有代表性的文档复制检测系统进行了对比,结果表明该方法能够确保发现文本长度大于保证阈值的复制内容,有效地提高了检测结果的准确性. 展开更多
关键词 数字文档 复制检测 特征提取 相似度
在线阅读 下载PDF
基于粒子群优化的文本图像倾斜检测 预览 被引量:1
17
作者 李树涛 沈庆华 《湖南大学学报:自然科学版》 EI CAS CSCD 北大核心 2007年第11期 47-50,共4页
提出一种基于粒子群优化算法和小波变换的无限制文本倾斜检查方法.首先对扫描的文本图像进行小波变换,然后利用小波变换的水平细节子带提取反映图像倾斜的特征,作为粒子群优化算法的适应度函数.最后利用粒子群优化算法在一90°... 提出一种基于粒子群优化算法和小波变换的无限制文本倾斜检查方法.首先对扫描的文本图像进行小波变换,然后利用小波变换的水平细节子带提取反映图像倾斜的特征,作为粒子群优化算法的适应度函数.最后利用粒子群优化算法在一90°到90°区间进行搜索,得到准确的倾斜角度.由于采用了小波变换,一方面降低了PSO搜索的计算量,又能更好地反映倾斜特征.实验结果表明,该方法能快速准确地检测出各类文本图像的倾斜角度,并具有很好的适应性,不受语言、字体、字号和非文本图形等因素的影响.最后还讨论了粒子数目、迭代次数和适应度函数对算法性能的影响. 展开更多
关键词 文本分析 倾斜检测 小波变换 粒子群算法
在线阅读 下载PDF
一种改进的中文文档图像倾斜检测方法 预览 被引量:8
18
作者 孙楠 刘志文 《计算机仿真》 CSCD 2006年第9期 184-187,共4页
图像获取设备将纸质文档转换为文档图像时,经常会使文档图像出现某种程度的倾斜,从而可能使后续的文档版面理解和OCR识别算法失败。文中提出一种基于近邻法的中文图像的倾斜角度检测方法,并采用最小二乘法减小倾斜估计的误差,从而... 图像获取设备将纸质文档转换为文档图像时,经常会使文档图像出现某种程度的倾斜,从而可能使后续的文档版面理解和OCR识别算法失败。文中提出一种基于近邻法的中文图像的倾斜角度检测方法,并采用最小二乘法减小倾斜估计的误差,从而大大优化了运算速度,增强了算法的鲁棒性,与现有方法相比,具有运算速度快,检测精度高的优势。算法在Visual C++下编程加以实现,通过对检测库中100幅倾斜中文文档图像的检测证明,该方法具有精度高和适应性强的特点。 展开更多
关键词 文档图像 倾侧检测 近邻法 最小二乘法
在线阅读 下载PDF
基于灰度图像的表格框线去除算法 预览 被引量:9
19
作者 张重阳 陈强 +1 位作者 娄震 杨静宇 《计算机研究与发展》 EI CSCD 北大核心 2005年第4期 635-639,共5页
笔画与表格框线的交叠的现象在表格型文档中普遍存在,严重影响了文档自动处理系统的性能.现有的去线算法大部分都是基于二值图像的,许多有用的局部信息已经丢失.提出了直接利用图像灰度信息的灰值线检测与去除算法.首先利用图像的边缘... 笔画与表格框线的交叠的现象在表格型文档中普遍存在,严重影响了文档自动处理系统的性能.现有的去线算法大部分都是基于二值图像的,许多有用的局部信息已经丢失.提出了直接利用图像灰度信息的灰值线检测与去除算法.首先利用图像的边缘特征检测直线以及字线的相交位置;然后通过对直线上相交点对的分析确定字线的交叠方式,并将这些方式归纳为穿透和未穿透两类简单的形式;最后将直线划分为保护区和擦除区两部分,保护区内的像素在去线过程中被保留,而擦除区内的像素则利用灰度形态学算法来擦除.在我国现行支票上的实验表明算法是有效的. 展开更多
关键词 文档处理 表格处理 直线检测 直线去除
在线阅读 下载PDF
文档图象中特定信息的智能识别 预览 被引量:1
20
作者 肖道举 姜沙沙 陈晓苏 《计算机工程与科学》 CSCD 2004年第6期 40-42,61,共4页
本文讨论了一种基于光学标记识别技术的文档图象识别系统,重点阐述了该系统的设计思想和实现技术.系统以标记识别为例,对图象数字化、图象预处理、获取图象信息以及信息特征提取等几个关键部分进行了详细描述.在图象预处理过程中给出了... 本文讨论了一种基于光学标记识别技术的文档图象识别系统,重点阐述了该系统的设计思想和实现技术.系统以标记识别为例,对图象数字化、图象预处理、获取图象信息以及信息特征提取等几个关键部分进行了详细描述.在图象预处理过程中给出了一种高效实用的边缘检测算法,在标记信息特征提取中采用了统计分析的方法,其结果可以大大提高标记识别系统的准确率. 展开更多
关键词 文档图象 特定信息 智能识别 文档图象识别系统 图象数字化
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部 意见反馈