期刊文献+
共找到65篇文章
< 1 2 4 >
每页显示 20 50 100
共通语义空间下的跨文献类型文本自动分类研究
1
作者 湘东 高凡 悠海 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第9期66-73,共8页
【目的】解决不同文献类型文本之间因写作风格和用词习惯不同而产生的语义差异问题。【方法】选取同时出现在两个不同文献类型文本集合中的领域无关特征和只在其中某一个集合中出现的领域相关特征,利用领域无关特征,对分属两个集合的领... 【目的】解决不同文献类型文本之间因写作风格和用词习惯不同而产生的语义差异问题。【方法】选取同时出现在两个不同文献类型文本集合中的领域无关特征和只在其中某一个集合中出现的领域相关特征,利用领域无关特征,对分属两个集合的领域相关特征构建双向图并进行谱聚类,关联表达类似语义的领域相关特征,产生由聚类特征定义的共通语义空间。【结果】实验结果表明,与传统的文本自动分类方法相比,本文方法的分类性能提高了3.0%-6.9%。【局限】构建共通语义空间时,需要大量与待分类文本属于同领域的语料。【结论】共通语义空间能够对不同文献类型的数字资源进行有效整合。 展开更多
关键词 共通语义空间 文本自动分类 谱聚类 跨领域分类
融合去噪技术和动态主题数的新闻话题分析框架研究
2
作者 湘东 阮涛 潘练 《情报科学》 CSSCI 北大核心 2018年第4期14-21,共8页
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本集进行话题抽取,通过计算相... 【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】将本方法应用于2014年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较,证明本方法的准确性。 展开更多
关键词 话题跟踪与分析 LDA模型 DBSCAN 噪声文本
互信息特征选择法在《中图法》内容相似类目中的运用及改进——以E271和E712.51为例 预览
3
作者 湘东 阮涛 《数字图书馆论坛》 CSSCI 2018年第1期46-52,共7页
针对内容相似的两个类目间存在大量共同特征而难以自动区分的特点,提出一种改进的互信息特征选择法,以提高两类文本自动分类的效果。以《中国图书馆分类法》中E271(中国陆军)和E712.51(美国陆军)两个类别的书目信息作为文本分类的对... 针对内容相似的两个类目间存在大量共同特征而难以自动区分的特点,提出一种改进的互信息特征选择法,以提高两类文本自动分类的效果。以《中国图书馆分类法》中E271(中国陆军)和E712.51(美国陆军)两个类别的书目信息作为文本分类的对象,首先针对传统互信息特征选择法未考虑负相关特征、类间集中度和类内分散度等问题,引入改进的互信息特征选择法DNCF_MI;其次,针对DNCF_MI未区分不同特征对类别的贡献程度等不足,引入领域无关特征和领域相关特征,提出一种改进的互信息特征选择法DNCF_DI_MI;最后,使用knn分类器进行分类,并采用宏平均F1值和微平均F1值对分类结果进行评价。实验结果表明,本文提出方法的宏平均F1值和微平均F1值比传统互信息特征选择法分别提升24.1%和28.5%,比DNCF_MI均提升4.5%,证明本文方法对内容相似类目的分类更有效。 展开更多
关键词 内容相似类目 中国图书馆分类法 两类分类 互信息 特征选择
在线阅读 下载PDF
基于主题语义扩展的混合类型数字资源分类研究
4
作者 巴志超 湘东 +1 位作者 马亚雪 徐健 《情报理论与实践》 CSSCI 北大核心 2018年第5期143-149,136共8页
为满足数字图书馆各种类型数字化资源统一分类组织的需要,文章着重对数字图书馆中多种类型文献混合分类的可行性进行探索与分析。引入语义主题模型构建方法,结合外部知识库Wikipedia进行语义扩展,构建一种基于主题语义扩展的混合类型文... 为满足数字图书馆各种类型数字化资源统一分类组织的需要,文章着重对数字图书馆中多种类型文献混合分类的可行性进行探索与分析。引入语义主题模型构建方法,结合外部知识库Wikipedia进行语义扩展,构建一种基于主题语义扩展的混合类型文献自动分类方法。研究发现:在多类型文献混合分类中,网页与非学术性期刊文献、图书与学术性期刊文献之间具有较高的亲和力,可互相作为分类材料中的训练集并达到较高分类性能;不同分类算法针对多种类型文献混合分类具有不同的可学习能力和适应性,贝叶斯算法、最大熵模型比支持向量机更能适应多种类型文献的混合分类;引入主题语义扩展方法能够有效减弱不同类型文献之间的文本特征差异,增强不同类型文献混合分类时的亲和力,提高文献的混合分类性能。 展开更多
关键词 主题模型 语义扩展 数字资源 混合分类
内容相近类目实现自动分类时相关分类技术的比较研究——以《中图法》E271和E712.51为例
5
作者 湘东 阮涛 《图书馆杂志》 CSSCI 北大核心 2018年第6期11-21,30共12页
对《中图法》中内容极为相似的两个类别,开展基于机器学习的自动分类(两类分类)研究。以《中图法》中E271和E712.51两个类别的书目信息作为两类分类的对象,对涉及的CHI、IG和MI等特征选择法,TF和TF*IDF等加权方式,KNN、NB和SVM等分... 对《中图法》中内容极为相似的两个类别,开展基于机器学习的自动分类(两类分类)研究。以《中图法》中E271和E712.51两个类别的书目信息作为两类分类的对象,对涉及的CHI、IG和MI等特征选择法,TF和TF*IDF等加权方式,KNN、NB和SVM等分类算法等主要分类环节中的各种代表性技术的分类性能进行比较研究,为今后对《中图法》中极为相似类目开展针对性的自动分类研究提供基础数据。实验结果表明,关于特征选择法,CHI和IG的效果较佳,MI的表现稍弱,但是MI在特征数为4000以上时,性能明显提高;关于分类算法,NB在采取MI特征选择法时表现较佳,但SVM在采取CHI和IG两种特征选择法下表现更佳,而KNN比前两者均差;关于特征加权方式,大多数情况下TF优于TF*IDF,但易受到分类算法、特征数目或特征选择法的影响。各个分类环节中的相关技术组合在一起能够适应对相似类目的自动分类,但性能上优劣不一,需要针对相似类目分类改进相关技术,以进一步提高对相似类目开展自动分类时的分类性能。 展开更多
关键词 两类分类 《中国图书馆分类法》 特征选择 特征加权 文本分类
ABSL-3实验室猕猴实验中的生物安全管理 被引量:1
6
作者 王勇 鲜巧阳 +4 位作者 霍文哲 唐志佼 黄智翔 赵旎 湘东 《医学动物防制》 2017年第3期300-303,共4页
艾滋病、结核病、SARS等重大传染病严重危害人类健康,研发预防和治疗这些传染病的疫苗、药物是战胜疾病的重要手段。研发疫苗和药物离不开动物实验,由于与人类亲缘关系近,猕猴是研究人类重大传染病的重要模型动物。由于猕猴体型较大、... 艾滋病、结核病、SARS等重大传染病严重危害人类健康,研发预防和治疗这些传染病的疫苗、药物是战胜疾病的重要手段。研发疫苗和药物离不开动物实验,由于与人类亲缘关系近,猕猴是研究人类重大传染病的重要模型动物。由于猕猴体型较大、动作敏捷、难以驯养、爱攻击、喜抓咬,因此重大传染病的猕猴动物实验有较大的生物安全风险。探讨此类动物实验中的生物安全问题,对确保生物安全意义重大,十分必要。本文分析了动物生物安全三级实验室(Animal Biosafety Level 3 Laboratory,ABSL-3)猕猴动物实验中可能存在的生物安全风险,提出了风险防控对策和系统化的生物安全管理思路。 展开更多
关键词 生物安全 管理 猕猴 生物安全三级实验室
维基百科在多种类型数字文本资源自动分类中的应用 被引量:2
7
作者 湘东 刘康 高凡 《情报科学》 CSSCI 北大核心 2017年第2期75-79,111共6页
【目的/意义】书目信息和网页等不同类型文献之间存在特征词不匹配等语义差异问题,使得将书目信息作为训练集来对网络信息资源进行自动分类时,现有分类方法的分类性能不佳。【方法/过程】文章提出使用维基百科开展语义特征扩展,解决语... 【目的/意义】书目信息和网页等不同类型文献之间存在特征词不匹配等语义差异问题,使得将书目信息作为训练集来对网络信息资源进行自动分类时,现有分类方法的分类性能不佳。【方法/过程】文章提出使用维基百科开展语义特征扩展,解决语义差异问题的自动文本分类方法。使用数字图书馆中容易获取类别标识及摘要等文本内容的书目信息作为训练集,引入第三方资源的维基百科对其进行语义特征扩展,缩小作为训练集的书目信息与作为待分类文本的网页之间的语义差异,对属于不同文献类型的网页进行分类。【结果/结论】实验表明与未经过扩展的分类方法相比,分类准确率分别提高5.5%至8.4%,证明该方法能够有效提高文本自动分类的分类效果。 展开更多
关键词 书目信息 新闻网页 自动分类 维基百科 特征扩展
基于知网语义特征扩展的题名信息分类
8
作者 湘东 刘康 +1 位作者 丁丛 廖香鹏 《图书馆杂志》 CSSCI 北大核心 2017年第2期11-19,共9页
本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的... 本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的待分类文本中,最后用SVM算法进行分类。实验结果表明,在训练集与测试集仅为题名的情况下,当训练集为每类200篇时,提升效果最好,达到3.1%,但提升效果随训练集文本数的增加而下降;在训练集为题名加摘要,测试集为题名时,本文提出的分类算法在复旦语料和自建的期刊语料上的MacroF1分别平均提高1.5%和3.1%,在MicroF1上分别平均提高2.3%和5.3%。本文通过对特征稀疏的题名信息进行特征扩展,以期提高期刊论文题名的分类效果。 展开更多
关键词 期刊论文题名 短文本分类 知网 LDA
浅谈ABSL-3实验室档案管理的内容、问题及对策 预览
9
作者 胡琼 陈秋艳 +1 位作者 王芬 湘东 《人力资源管理》 2017年第11期340-342,共3页
高致病性病原微生物实验室档案是实验活动和管理工作的重要记录和见证材料。做好实验室档案管理既是国家相关法规的要求,也是规范实验室生物安全管理的重要抓手。本文以武汉大学ABSL-3实验室为例,探讨了此类实验室档案管理工作重要性,... 高致病性病原微生物实验室档案是实验活动和管理工作的重要记录和见证材料。做好实验室档案管理既是国家相关法规的要求,也是规范实验室生物安全管理的重要抓手。本文以武汉大学ABSL-3实验室为例,探讨了此类实验室档案管理工作重要性,档案管理的内容,存在的问题及解决问题的对策及建议。 展开更多
关键词 ABSL-3实验室 档案 管理
在线阅读 下载PDF
基于维基百科的多种类型文献自动分类研究 被引量:2
10
作者 湘东 阮涛 刘康 《数据分析与知识发现》 CSSCI CSCD 2017年第10期43-52,共10页
【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题,以提高文本分类效果。【方法】在特征扩展之前,对TF-IDF加以改进,提出并使用一种新的特征选择方法 CDFmax-IDF获得候选词集;在使用维基百科进行特征... 【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题,以提高文本分类效果。【方法】在特征扩展之前,对TF-IDF加以改进,提出并使用一种新的特征选择方法 CDFmax-IDF获得候选词集;在使用维基百科进行特征扩展时,通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关系并进行融合得到词语间的语义相关度实现特征扩展;针对扩展得到的特征,提出一种改进的LDA概率主题模型w LDA模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN和SVM三种分类器上实现分类,其marco-F1和micro-F1分别提升1.6%-2.8%和1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互联系,比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性,提高了多种类型文献的自动分类效果。 展开更多
关键词 多种类型文献 文本分类 特征选择 特征扩展 维基百科
LDA模型下不同分词方法对文本分类性能的影响研究 预览 被引量:7
11
作者 湘东 高凡 丁丛 《计算机应用研究》 CSCD 北大核心 2017年第1期62-66,共5页
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上... 通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。 展开更多
关键词 文本分类 LDA主题模型 语料度量 分词方法
在线阅读 下载PDF
基于复合加权LDA模型的书目信息分类方法研究 预览 被引量:4
12
作者 湘东 丁丛 高凡 《情报学报》 CSSCI CSCD 北大核心 2017年第4期352-360,共9页
以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征... 以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加权策略,在此基础上构建复合加权策略,使获取的特征词集既不向高频词倾斜,也更能代表书目信息的所属类别。将复合加权策略融合于LDA、提出一种基于复合加权LDA的书目信息分类方法。使用公开和自建的书目信息语料进行对比实验,验证和分析复合加权策略的有效性,实验显示本文提出的复合加权LDA分类方法的分类性能优于仅考虑其中一种特征加权策略的LDA分类方法。 展开更多
关键词 文本分类 LDA模型 特征加权 书目信息 文本体例结构
在线阅读 下载PDF
与时俱进 品尝阅读之美 预览
13
作者 湘东 《中国地市报人》 2017年第10期25-26,共2页
书籍是人类进步的阶梯,阅读是改造一个民族的伟大工程。中央倡导全民阅读,党报既要做好全民阅读的舆论引导。承担舆论引导的媒体人更要多读书读好书。本期推出“书香媒体·全国地市报媒体人阅读报告”专题,约请湛江日报社、襄阳... 书籍是人类进步的阶梯,阅读是改造一个民族的伟大工程。中央倡导全民阅读,党报既要做好全民阅读的舆论引导。承担舆论引导的媒体人更要多读书读好书。本期推出“书香媒体·全国地市报媒体人阅读报告”专题,约请湛江日报社、襄阳日报传媒集团、曲靖日报社、蚌埠报业传媒集团、东营日报社、揭阳日报社、铜仁日报社、锡林郭勒日报社、滨州日报社、银川新闻传媒集团、平凉日报社等11家新闻单位的作者撰稿,有的是媒体领导、有的是部室主任、有的是一线记者编辑,他们从不同的侧面不同的角度,分享自己坚持阅读的体会与经验,探讨读书方法与技巧等,读后颇受益。本专栏综述文章通过对全国地市级媒体62名从业者阅读状况进行调查,对其阅读量、阅读时长、阅读方式、阅读偏好等进行统计,分析后提出了自己的观点。 展开更多
关键词 全民阅读 与时俱进 新闻传媒集团 日报社 舆论引导 读书方法 人类进步 伟大工程
在线阅读 下载PDF
基于多进制检测的可见光多层成像通信系统 预览
14
作者 湘东 刘洛琨 《太赫兹科学与电子信息学报》 2017年第4期607-612,共6页
为适应多用户需求,提出了一种基于多进制检测的可见光多层成像通信系统。依不同优先权将发送信息加载在分集程度不同的各层发送单元上。优先权越高,分集程度越高,信息的鲁棒性相对较高但传输速率较低;相反的,优先权越低,复用程度... 为适应多用户需求,提出了一种基于多进制检测的可见光多层成像通信系统。依不同优先权将发送信息加载在分集程度不同的各层发送单元上。优先权越高,分集程度越高,信息的鲁棒性相对较高但传输速率较低;相反的,优先权越低,复用程度越高,信息的传输速率相对较高但鲁棒性较低。结合系统模型,利用基于最大似然检测的多进制检测算法实现了信息提取。最后,通过仿真实验验证了系统的可行性。在保证系统检测性能和算法复杂度相对较低的同时,实现了多层成像通信系统的稳定传输。 展开更多
关键词 光成像通信 信息叠加 多进制检测 最大似然检测
在线阅读 下载PDF
精品资源共享课录制过程中摄像机机位的设置与技术选择
15
作者 姚德财 湘东 《潍坊高等职业教育》 2016年第3期18-20,共3页
以'花卉栽培'课程国家级精品资源共享课教学录像的拍摄为例,分析了拍摄教学录像过程中摄像机机位的设置以及拍摄角度的把握、景别的选择、镜头切换等技术问题。
关键词 精品资源共享课 摄像机 机位设置
非人灵长类动物感染性实验中的福利问题 预览
16
作者 鲜巧阳 王勇 +1 位作者 黄智翔 湘东 《实验动物与比较医学》 CAS 2016年第4期314-316,共3页
良好的动物福利有利于实验动物的“身心健康”,使之处于更接近其生物学特性的“自然状态”[1].利用拥有良好动物福利的实验动物进行的科学实验,获得的实验数据更加可靠,重复性更好.非人灵长类动物(猴)是传染病研究中不可替代或最好的... 良好的动物福利有利于实验动物的“身心健康”,使之处于更接近其生物学特性的“自然状态”[1].利用拥有良好动物福利的实验动物进行的科学实验,获得的实验数据更加可靠,重复性更好.非人灵长类动物(猴)是传染病研究中不可替代或最好的模型动物,其智力发达,聪明好动,不易驯化,这一特点使工作人员在实验中容易被其抓、咬伤,增加了工作人员在感染性动物实验中的生物安全风险.关注感染性动物实验中非人灵长类动物(猴)的福利问题,保证实验动物享有良好的动物福利,使之身心处于更舒适的状态,建立工作人员和动物之间的和谐关系,有助于减少动物的攻击性,更好地保障实验中工作人员的安全.本文将结合生物安全实验室的工作情况,从动物实验项目审核、动物采购和运输、动物饲养、动物使用等方面探讨非人灵长类动物(猴)在感染性动物实验中的福利问题. 展开更多
关键词 非人灵长类动物 实验动物 福利问题 感染性 生物安全实验室 生物学特性 工作人员 动物福利
在线阅读 下载PDF
图书情报类期刊中电子商务相关研究的评价与分析——基于CNKI2006-2013年文献数据 预览 被引量:1
17
作者 湘东 蔡义 张娇 《信息资源管理学报》 2016年第1期88-96,共9页
针对电子商务领域学术期刊体系不完善,研究成果分散等现状,提出一种结合文献计量学和概率主题模型LDA评价分析电子商务在其他学科领域产出成果的方法。以CNKI2006~2013年期间主要发表在7种图书情报类期刊中的电子商务相关研究为例,通过... 针对电子商务领域学术期刊体系不完善,研究成果分散等现状,提出一种结合文献计量学和概率主题模型LDA评价分析电子商务在其他学科领域产出成果的方法。以CNKI2006~2013年期间主要发表在7种图书情报类期刊中的电子商务相关研究为例,通过对比载文率、web下载量、总被引频次以及期刊他引率等指标,研究各期刊在电子商务领域的学术贡献力和影响力;其次,采用LDA主题建模,提取各期刊的研究主题,以把握图书情报领域电子商务相关研究的主题现状。实验结果揭示了近八年我国图书情报学对电子商务研究的发展状况。 展开更多
关键词 图书情报学 期刊 电子商务 文献计量 LDA模型
在线阅读 免费下载
数字文本自动分类中特征语义关联及加权策略研究综述与展望 被引量:3
18
作者 湘东 巴志超 高凡 《现代图书情报技术》 CSSCI 2016年第9期17-26,共10页
【目的】探讨目前针对书目、题录信息以及新闻网页、博客等新兴媒体开展的数字文本自动分类研究中存在的主要问题和可能的解决方向。【文献范围】基于机器学习方法的自动分类研究领域中,关于特征语义转换、特征扩展和加权策略等方面的... 【目的】探讨目前针对书目、题录信息以及新闻网页、博客等新兴媒体开展的数字文本自动分类研究中存在的主要问题和可能的解决方向。【文献范围】基于机器学习方法的自动分类研究领域中,关于特征语义转换、特征扩展和加权策略等方面的主要研究成果及相关文献。【方法】按照主要研究、关键技术、现有成果水平和今后发展方向等方面进行分析归纳。【结果】针对特征语义转换、特征扩展和加权策略等研究领域,分析问题的现象和原因,指出当前研究在文本语义表示、各种知识库的利用等方面存在的不足。【局限】没有涉及分类过程中分类算法等其他比较成熟的研究领域。【结论】今后可以从向量空间模型与概率主题模型相结合、利用各种外部知识库并提高概念相似度计算能力、结合多种加权策略构建复合加权表示模型等方向开展分类研究,以提高数字文本自动分类的性能。 展开更多
关键词 自动分类 特征语义关联 特征语义转换 特征扩展 加权策略
基于LDA主题模型的图书网页书目信息提取研究 被引量:5
19
作者 湘东 霍亚勇 张娇 《情报科学》 CSSCI 北大核心 2016年第1期34-37,43共5页
以图书网页为对象,主要研究书目信息提取方法。该方法首先利用LDA对书名与各描述性段落组合的混合文本进行建模,然后分别计算书名与各段落之间的相似度提取书目信息,有效地避免传统方法不能很好反映文档间相似性的不足。实验证明,该模... 以图书网页为对象,主要研究书目信息提取方法。该方法首先利用LDA对书名与各描述性段落组合的混合文本进行建模,然后分别计算书名与各段落之间的相似度提取书目信息,有效地避免传统方法不能很好反映文档间相似性的不足。实验证明,该模型针对图书网页书目信息的提取准确率达到87.4%,较传统方法有了显著提高,同时也为图书网页信息组织管理和自动分类研究奠定了基础。 展开更多
关键词 图书网页 书目信息 LDA 信息提取
基于《知网》的多种类型文献混合自动分类研究 被引量:2
20
作者 湘东 刘康 +1 位作者 丁丛 高凡 《现代图书情报技术》 CSSCI 2016年第2期59-66,共8页
【目的】解决由于不同类型文献而产生的特征不匹配等问题,提高待分类文本的分类效果。【方法】使用与待分类文本属于不同文献类型的文本作为语料库的训练集,引入第三方资源《知网》进行语义特征扩展。【结果】利用该方法在网页、图书、... 【目的】解决由于不同类型文献而产生的特征不匹配等问题,提高待分类文本的分类效果。【方法】使用与待分类文本属于不同文献类型的文本作为语料库的训练集,引入第三方资源《知网》进行语义特征扩展。【结果】利用该方法在网页、图书、非学术性期刊、学术性期刊4种类型文献上进行分类实验,与未经过扩展的分类方法相比,分类准确率提高1.2%至11.0%。【局限】未对每一种文献类型都使用公开语料进行测试,因此本文方法的通用性和实验结果的客观性有待进一步检验。【结论】实验结果表明,该方法具有一定的可行性和实用性,在不同程度上可以消除不同类型文献之间的语义差异,从语料库构建和特征扩展两个途径提高文本自动分类的分类效果。 展开更多
关键词 第三方资源 知网 特征扩展 语义差异
上一页 1 2 4 下一页 到第
使用帮助 返回顶部 意见反馈