期刊文献+
共找到313篇文章
< 1 2 16 >
每页显示 20 50 100
互联网环境下失真健康信息可信度判断的影响因素研究 预览
1
作者 宋士杰 赵宇翔 +1 位作者 宋小康 朱庆华 《中国图书馆学报》 CSSCI 北大核心 2019年第4期72-85,共14页
伴随着Web2.0时代网络健康信息体量的激增,人们普遍对互联网环境下健康信息质量产生忧虑,其主要原因是大量失真健康信息存在于互联网中,对信息接受者主观感知造成误导,并对消费者的健康知情决策带来潜在威胁。消费者在失真健康信息误导... 伴随着Web2.0时代网络健康信息体量的激增,人们普遍对互联网环境下健康信息质量产生忧虑,其主要原因是大量失真健康信息存在于互联网中,对信息接受者主观感知造成误导,并对消费者的健康知情决策带来潜在威胁。消费者在失真健康信息误导下所作出的健康决策可能会引发严重的健康后果,因此理解消费者对网络失真健康信息可信度判断的相关影响因素,对公民健康教育与全民健康促进都将具有积极意义。本文通过系统的文献回顾,分别从信息特征与个体特征视角归纳出消费者对失真健康信息可信度判断的若干影响因素,并提出相应研究问题。研究采用问卷调查法探索各研究问题,问卷设计利用信息话题与信息表征框架两个维度,选取八则失真健康信息作为问卷阅读素材,在对健康素养的测量上借鉴并汉化了国际通用的最新关键指标。研究结果发现:在信息特征方面,失真信息的表征框架与信息话题对消费者可信度判断有显著影响,且二者存在交互效应;在个体特征方面,年龄、性别、健康素养等因素对消费者失真信息可信度判断具有显著影响。 展开更多
关键词 失真健康信息 可信度 互联网 信息表征框架 健康素养 健康信息学
在线阅读 下载PDF
Altmetrics的译名分歧:困扰、影响及其辨析 预览 被引量:3
2
作者 余厚强 任全娥 +1 位作者 张洋 刘春丽 《中国图书馆学报》 CSSCI 北大核心 2019年第1期47-59,共13页
目前Altmetrics研究面临诸多难题亟待解决,而国内Altmetrics译名分歧,更是给非相关研究人员带来理解上的困难,妨碍社会各界的利用;造成检索结果不全,妨碍科学共同体的深入研究;造成人为的学术交流障碍,分散了有限的研究力量,这极大地阻... 目前Altmetrics研究面临诸多难题亟待解决,而国内Altmetrics译名分歧,更是给非相关研究人员带来理解上的困难,妨碍社会各界的利用;造成检索结果不全,妨碍科学共同体的深入研究;造成人为的学术交流障碍,分散了有限的研究力量,这极大地阻碍了该领域在我国的深入发展和应用。本研究从英文原词、词典释义、提出者本意、循例借鉴、定义阐释、背景溯源、发展前景和实践考虑八个角度,对Altmetrics的译名做了全面而深入的辨析,发现目前英文原词的检全率和使用学者数居首位,综合各方面因素考虑,在我国大力推进汉化科技术语的政策背景下,“替代计量学”是最合适的中文译名,应得到推广和统一使用,以促进该领域健康可持续发展。 展开更多
关键词 Altmetrics 替代计量学 补充计量学 选择性计量学 科技术语 中文翻译
在线阅读 下载PDF
社交媒体视角下图书情报领域的跨学科性研究
3
作者 吴小兰 章成志 《图书情报工作》 CSSCI 北大核心 2019年第13期66-74,共9页
[目的/意义]社交媒体下非正式学术交流逐渐成为学者们学术交流的又一新天地,探索社交媒体下具有综合交叉学科性质的图书情报领域的跨学科特性,可以作为传统学术交流研究的一个补充与参考。[方法/过程]以科学网博客为代表,从用户好友关... [目的/意义]社交媒体下非正式学术交流逐渐成为学者们学术交流的又一新天地,探索社交媒体下具有综合交叉学科性质的图书情报领域的跨学科特性,可以作为传统学术交流研究的一个补充与参考。[方法/过程]以科学网博客为代表,从用户好友关系、评论关系及推荐关系三个角度构造学科亲缘树,然后借用亲缘树的多样性指标分析了图书情报的跨学科特性。[结果/结论]通过本文研究,发现图情领域用户学科亲缘树与好友学科亲缘树之间存在强相关性,推荐对象的学科亲缘树与评论对象的亲缘树存在极强相关性;此外,本文还发现"计算机科学""管理科学与工程""宏观管理与政策"是社交媒体上图情领域用户最亲缘学科。 展开更多
关键词 学科亲缘树 跨学科距离 物种多样性 科学网博客
国外新兴研究话题发现研究综述 预览
4
作者 卢超 侯海燕 +1 位作者 DingYing 章成志 《情报学报》 CSSCI CSCD 北大核心 2019年第1期97-110,共14页
新兴研究话题发现一直以来都是学者们广泛关注的研究问题。对于新兴研究话题动向的把握,不仅可从宏观层面为管理部门制定科技政策提供决策支持、以提高科研资金投入的效益、加速科学进步和发展,还可为科研工作者投身富有前景的研究领域... 新兴研究话题发现一直以来都是学者们广泛关注的研究问题。对于新兴研究话题动向的把握,不仅可从宏观层面为管理部门制定科技政策提供决策支持、以提高科研资金投入的效益、加速科学进步和发展,还可为科研工作者投身富有前景的研究领域提供具体的研究方向建议。对国际核心期刊上关于新兴研究话题发现的研究现状进行梳理发现,目前学术界对新兴研究话题及其相关概念尚无清晰的界定;相应地,新兴研究话题的探测方法也存在诸多的不足;探测新兴研究话题中所依据的指标繁杂多样。综述现有研究,本文给出新兴研究话题的概念及其特征的界定,比较新兴研究话题及其相关概念的联系与区别,并指出在新兴研究话题发现中应注意的具体问题并提出四个方面的工作展望。 展开更多
关键词 新兴研究话题发现 研究前沿 共被引分析 文献耦合分析 直接引用分析
在线阅读 下载PDF
用户饮食偏好挖掘及应用研究 预览
5
作者 岳子静 张颖怡 章成志 《图书情报知识》 CSSCI 北大核心 2019年第3期81-90,共10页
[目的/意义]饮食是人类生存和发展的基本条件之一。挖掘用户的饮食偏好,能够解释不同用户在饮食习惯上的差异。用户饮食偏好挖掘方法的提出,能够拓宽饮食研究的路线。[研究设计/方法]以'大众点评'网站上的用户评论为数据源,结... [目的/意义]饮食是人类生存和发展的基本条件之一。挖掘用户的饮食偏好,能够解释不同用户在饮食习惯上的差异。用户饮食偏好挖掘方法的提出,能够拓宽饮食研究的路线。[研究设计/方法]以'大众点评'网站上的用户评论为数据源,结合情感分析,利用基于关键词的向量空间模型方法构建用户饮食偏好模型,在此基础上为网络用户推荐餐馆信息;并提出一种用户饮食偏好模型的评价方法以评估模型构建的效果。[结论/发现]基于用户近期评论内容构建的饮食兴趣模型能够预测用户未来的饮食偏好。根据用户饮食偏好进行餐馆推荐,可在一定程度上为用户提供感兴趣、高质量的餐馆信息,满足用户个性化的饮食需求。[创新/价值]从情感分析的角度,基于用户生成内容挖掘用户饮食偏好,以满足用户的个性化饮食需求;提出的用户兴趣模型评价方法能够有效分析模型的有效性。 展开更多
关键词 饮食偏好挖掘 评论挖掘 情感分析 用户兴趣建模 信息推荐
在线阅读 免费下载
基于案例分析的替代计量数据之科学使用方式研究 预览
6
作者 余厚强 尹梓涵 +1 位作者 李龙飞 常梦里 《农业图书情报》 2019年第5期21-27,共7页
以Altmetric.com公司的用户案例为分析对象,总结了科研机构、出版社、图书馆、基金会和企业这些不同主体在替代计量数据运用方面的成功经验,识别了当前替代计量数据的3种科学使用方式,即用于加强宣传推广、论证影响价值和促进科学合作... 以Altmetric.com公司的用户案例为分析对象,总结了科研机构、出版社、图书馆、基金会和企业这些不同主体在替代计量数据运用方面的成功经验,识别了当前替代计量数据的3种科学使用方式,即用于加强宣传推广、论证影响价值和促进科学合作。在加强宣传推广方面,替代计量数据可以提升用户体验、扩大受众范围和迎合读者兴趣。在论证影响价值方面,替代计量数据可以扩大影响力的范围、提高影响力及时性、提供资助效率反馈和用于科技考核评价。这些成功的使用方式,可以为国内研究机构、资助机构等对替代计量数据的合理使用提供参考。 展开更多
关键词 替代计量学 案例分析 科学使用 替代计量指标 最佳实践
在线阅读 下载PDF
我国情报学研究方法研究综述 被引量:1
7
作者 李博闻 章成志 《情报理论与实践》 CSSCI 北大核心 2019年第2期1-6,37共7页
[目的/意义]对国内情报学研究方法的研究现状进行梳理和综述,为相关领域的未来研究提供指导。[方法/过程]利用CNKI检索情报学研究方法相关文献,最终得到498篇。采用文献调研法,并按研究主题进行梳理总结,形成综述。[结果/结论]指出当前... [目的/意义]对国内情报学研究方法的研究现状进行梳理和综述,为相关领域的未来研究提供指导。[方法/过程]利用CNKI检索情报学研究方法相关文献,最终得到498篇。采用文献调研法,并按研究主题进行梳理总结,形成综述。[结果/结论]指出当前传统方法论体系研究难有进展、研究方法使用情况统计调查亟待突破等问题,进一步提出基于'相似度'的方法体系构建新思路等。研究有助于全面把握和深入了解情报学研究方法的现状,为其他学者开展新的研究提供借鉴和参考。[局限]仅将研究方法相关研究本身作为探讨的核心,对各研究方法的应用情况关注不足。 展开更多
关键词 研究方法 方法论 情报学 方法相似度
基于引文内容的图书被引动机研究 预览
8
作者 李卓 赵梦圆 +2 位作者 柳嘉昊 周清清 章成志 《图书与情报》 CSSCI 北大核心 2019年第3期96-104,共9页
文章针对目前图书影响力评价研究的不全面性,从引文内容的角度对图书在其施引文献中的被引用动机情况进行探究分析。首先,基于现有研究归纳出三种图书被引动机分类标准——使用、比较和背景引用;其次,以五个学科领域中文图书为例,获取... 文章针对目前图书影响力评价研究的不全面性,从引文内容的角度对图书在其施引文献中的被引用动机情况进行探究分析。首先,基于现有研究归纳出三种图书被引动机分类标准——使用、比较和背景引用;其次,以五个学科领域中文图书为例,获取其在施引文献中的引文内容信息,并标注引文的动机标签;最后,探究图书的被引动机分布及其与引用位置、引用长度的关系。实证分析结果显示,图书被引动机中"使用"占比较大。同时,引用动机与引用位置存在显著相关性,而与引用长度无明显相关性。此外,不同学科领域图书在施引文献中的引用动机存在差异。 展开更多
关键词 引文内容 引用动机 图书被引行为 学科差异
在线阅读 下载PDF
基于时序主题关联演化的科学领域前沿探测研究
9
作者 颜端武 苏琼 张馨月 《情报理论与实践》 CSSCI 北大核心 2019年第7期144-150,共7页
[目的/意义]从时序主题演化的角度,构建探测科学领域研究前沿的途径与方法,为科技创新和科研决策提供有效支撑。[方法/过程]提出基于时序主题关联演化的前沿探测三阶段模型。首先将领域文本集合按照时间窗进行划分,利用LDA主题模型生成... [目的/意义]从时序主题演化的角度,构建探测科学领域研究前沿的途径与方法,为科技创新和科研决策提供有效支撑。[方法/过程]提出基于时序主题关联演化的前沿探测三阶段模型。首先将领域文本集合按照时间窗进行划分,利用LDA主题模型生成各个时间窗的研究主题;再通过相邻时间窗主题之间的相似度建立主题关联,设置主题关联过滤规则并对无效主题关联进行剔除;最后,按主题之间的关联关系构建主题演化路径,根据主题路径变化探测科学领域研究前沿。[结果/结论]以石墨烯领域中文科技文献为研究案例,进行时序主题关联演化分析,探测出石墨烯纳米复合材料及其应用、石墨烯电极材料研究以及石墨烯光电性能和应用三大研究前沿,验证了方法模型的有效性。 展开更多
关键词 时序主题演化 科学前沿 相似度 LDA主题模型
替代计量数据质量评估体系构建研究 预览
10
作者 余厚强 曹雪婷 《图书情报知识》 CSSCI 北大核心 2019年第2期19-27,50共10页
[目的/意义]旨在构建具有通用意义的替代计量数据质量评估体系,为后续替代计量数据质量评估实证研究提供参考。[研究设计/方法]梳理了替代计量数据生产流程,识别了与数据质量相关的主体要素,据此归纳总结出评估维度。[结论/发现]构建了... [目的/意义]旨在构建具有通用意义的替代计量数据质量评估体系,为后续替代计量数据质量评估实证研究提供参考。[研究设计/方法]梳理了替代计量数据生产流程,识别了与数据质量相关的主体要素,据此归纳总结出评估维度。[结论/发现]构建了以准确性、及时性、复现性、透明性和一致性为评估维度的一级数据质量评估体系,以实现从数值、流程和政策三个方面全面评估替代计量数据质量;构建了每个一级维度评估指标下的二级评估体系,归纳出具体的终端评估维度,并结合已有研究做深入剖析。[创新/价值]构建的替代计量数据评估体系对于替代计量数据质量的管理和提升具有参考价值。 展开更多
关键词 替代计量学 数据质量 数据质量评估 评估体系
在线阅读 免费下载
基于社团结构动态演化的主题突变实时监测研究
11
作者 张金柱 刘菁婕 吕品 《情报理论与实践》 CSSCI 北大核心 2019年第7期151-157,共7页
[目的/意义]实时跟踪特定领域主题演化过程中的主题突变,提高主题突变监测时效性,从而更及时准确地发现潜在新兴主题、揭示主题关系和未来发展趋势。[方法/过程]文章应用和改进社团结构动态演化方法,跟踪主题演化过程,形成基于社团结构... [目的/意义]实时跟踪特定领域主题演化过程中的主题突变,提高主题突变监测时效性,从而更及时准确地发现潜在新兴主题、揭示主题关系和未来发展趋势。[方法/过程]文章应用和改进社团结构动态演化方法,跟踪主题演化过程,形成基于社团结构动态演化的主题突变实时监测方法。首先基于社团结构发现算法得到初始主题结构;然后根据新增连边的不同类型,实时跟踪并判别社团结构发生了何种临界变化;最后把社团结构临界变化对应到主题突变,实现主题突变监测,进而探索主题突变形成机理。[结果/结论]在“云计算”领域的实验验证了该方法能实时监测主题演变过程中的主题突变,并能发掘导致主题突变发生的成因。该方法可扩展应用到其他领域和类型的复杂网络中。 展开更多
关键词 主题演化 主题突变 社团结构 动态演化 云计算
基于手势行为的社交网络用户兴趣画像构建及应用 预览
12
作者 汪强兵 章成志 《图书与情报》 CSSCI 北大核心 2019年第2期114-119,132共7页
文章主要通过收集用户的手势行为数据及手势对应的内容挖掘用户兴趣,根据数据构建用户兴趣画像。最后,基于用户兴趣画像对用户进行推荐实验。实验结果表明,基于用户手势行为的兴趣画像构建取得较好的效果。文章研究成果在个性化推荐系... 文章主要通过收集用户的手势行为数据及手势对应的内容挖掘用户兴趣,根据数据构建用户兴趣画像。最后,基于用户兴趣画像对用户进行推荐实验。实验结果表明,基于用户手势行为的兴趣画像构建取得较好的效果。文章研究成果在个性化推荐系统和市场营销领域中具有重要价值,一方面可以为用户提供感兴趣的内容;另一方面提高用户体验,增加用户忠诚度。 展开更多
关键词 手势行为 兴趣建模 个性化推荐 社交网络
在线阅读 下载PDF
基于学术论文的学者研究兴趣标签发现研究 预览
13
作者 池雪花 刘丽帆 章成志 《情报工程》 2019年第2期28-39,共12页
标签构建对信息检索和个性化推荐有重要的辅助作用,学者的研究兴趣标签体现了一定时期内学者和某一个领域的研究热点与发展方向。以学者为研究对象,对学者的研究兴趣标签进行发现研究,有助于学者兴趣标签自动构建与推荐,对加强学术交流... 标签构建对信息检索和个性化推荐有重要的辅助作用,学者的研究兴趣标签体现了一定时期内学者和某一个领域的研究热点与发展方向。以学者为研究对象,对学者的研究兴趣标签进行发现研究,有助于学者兴趣标签自动构建与推荐,对加强学术交流合作有重要作用。本文基于学术论文信息,采用LDA与Doc2Vec两种文本表示方法,对学者和兴趣标签分别进行表示,然后计算两种方法得到的学者与研究兴趣标签的余弦相似度,最终采用集成方法对兴趣标签进行融合,得到学者的研究兴趣标签。结果证明,集成方法能够获得更好地标注效果。 展开更多
关键词 兴趣标签 LDA Doc2Vec 余弦相似度 集成方法
在线阅读 下载PDF
基于关键词的学术文本聚类集成研究 预览
14
作者 张颖怡 章成志 陈果 《情报学报》 CSSCI CSCD 北大核心 2019年第8期860-871,共12页
文本聚类是一种无监督且高效的文本类别划分方法。从文本中抽取的关键词代表了文本主旨内容,基于关键词的文本聚类是当下主流方式之一。在学术文本聚类研究中,主要使用单一的聚类方法。目前,一部分提升聚类性能的方法被提出,聚类集成是... 文本聚类是一种无监督且高效的文本类别划分方法。从文本中抽取的关键词代表了文本主旨内容,基于关键词的文本聚类是当下主流方式之一。在学术文本聚类研究中,主要使用单一的聚类方法。目前,一部分提升聚类性能的方法被提出,聚类集成是其中之一。因此,根据聚类集成思想,本文开展了基于关键词的学术文本聚类研究。为分析聚类集成在学术文本聚类中的有效性,本文比较了非集成聚类算法与聚类集成算法的性能。同时,为分析关键词对聚类集成性能的影响,本文分析了不同关键词抽取方法和不同关键词个数下学术文本的聚类结果。实验结果表明,聚类集成算法能够提升学术文本聚类的性能。其中,当使用TextRank作为关键词抽取方法时,学术文本聚类结果较佳;随着关键词个数的增加,学术文本类别划分性能随之提升。 展开更多
关键词 抽取 文本聚类 主题划分 聚类集成
在线阅读 下载PDF
基于科学推文视角的非正式科学交流语言分布研究 预览
15
作者 余厚强 董克 +1 位作者 王曰芬 章成志 《中国图书馆学报》 CSSCI 北大核心 2018年第2期86-96,共11页
语言是科学交流的载体,科学交流的语言分布反映了全球科技话语权的格局.本文基于科学推文视角揭示了非正式科学交流中的语言分布,并与基于科技文献的正式科学交流语言分布做了对比分析。研究发现:①科学推文语言集中分布在英语(91... 语言是科学交流的载体,科学交流的语言分布反映了全球科技话语权的格局.本文基于科学推文视角揭示了非正式科学交流中的语言分布,并与基于科技文献的正式科学交流语言分布做了对比分析。研究发现:①科学推文语言集中分布在英语(91%)、日语(2.4%)和西班牙语(1.7%),而科技文献语言集中分布在英语(94.2%)、中文(4.3%)和土耳其语(0.4%):②科学推文和科技文献的语言分布均存在学科差异,体现出不同语言作者对特定学科关注度的不同;③除了沙特阿拉伯之外,世界各国即使母语不是英语.均以英语科学推文占主导地位,母语科学推文屈居第二;④英语、德语、日语、法语等语种的科技文献获得科学推文最多,而科技文献量和质量名列前茅的中文和土耳其语文献获得的科学推文很少。结果表明,英语俨然已经成为非正式科学交流中的通用语,提高中文在科学交流中的国际影响力任重道远。图3。表3。参考文献15。 展开更多
关键词 替代计量学 科学推文 语言分布 非正式科学交流 推特
在线阅读 下载PDF
中英文图片标签质量差异比较研究——以Flickr为例 被引量:1
16
作者 章成志 赵华 +1 位作者 李蕾 肖璐 《情报理论与实践》 CSSCI 北大核心 2018年第4期123-127,共5页
[目的/意义]探索Flickr中英文图片标签存在的质量差异,有利于更好地利用社会化标签进行信息的组织与检索。[方法/过程]文章以“广义知网知识本体架构线上浏览系统”词库中动物和植物两个大类的中英文词语为基础,在Flickr网站上分别采集... [目的/意义]探索Flickr中英文图片标签存在的质量差异,有利于更好地利用社会化标签进行信息的组织与检索。[方法/过程]文章以“广义知网知识本体架构线上浏览系统”词库中动物和植物两个大类的中英文词语为基础,在Flickr网站上分别采集中文与英文的图片信息,开发了标签质量测评网站,邀请志愿者对图片网站Flickr的中英文标签进行标签质量打分和标签类型选择,对图片标签类型分布及质量得分进行了统计分析。[结果/结论]调研结果显示中文标签质量略高于英文标签质量,但是中文标签质量分布比较分散,英文标签质量分布相对比较集中。 展开更多
关键词 图片标签 标签质量 质量评估 比较研究
知识共聚:领域分析视角下的知识聚合模式 被引量:1
17
作者 陈果 吴微 肖璐 《图书情报工作》 CSSCI 北大核心 2018年第8期115-122,共8页
[目的/意义]当前知识聚合模式研究侧重“依据何种知识关联开展知识聚合”,本文补充性地探索“利用知识关联将知识单元聚合成何种形式”这一后续问题,以完善知识聚合模式研究和引导实践的深入。[方法/过程]借鉴化学领域中对聚合反应... [目的/意义]当前知识聚合模式研究侧重“依据何种知识关联开展知识聚合”,本文补充性地探索“利用知识关联将知识单元聚合成何种形式”这一后续问题,以完善知识聚合模式研究和引导实践的深入。[方法/过程]借鉴化学领域中对聚合反应两大类型划分的方法,提出以“是否保留知识单元间及其关联间的差异性”为根据,将知识聚合划分为知识类聚和知识共聚,并探讨知识共聚的基本实现形式。[结果/结论]领域知识是知识共聚开展的基础;以文档、词语为基本知识单元粒度,以用户需求入口和聚合目标资源为维度,知识共聚可通过四种基本形式实现:基于分面导航、基于多维概念关联推荐、基于知识元链接、基于资源潜在关联发现。 展开更多
关键词 知识组织 知识聚合模式 知识共聚 领域知识分析 领域概念关联
基于学术论文全文内容的算法使用行为及其影响力研究 预览 被引量:1
18
作者 章成志 丁睿祎 王玉琢 《情报学报》 CSSCI CSCD 北大核心 2018年第12期1175-1187,共13页
数据挖掘算法已被广泛应用于科学研究与实践中。考察数据挖掘算法在学术论文中的使用情况、进而评估其影响力,能辅助研究者全面了解其所在领域的常用算法,并根据研究任务类型选择相应算法。本文利用学术论文全文内容,对算法的使用行为... 数据挖掘算法已被广泛应用于科学研究与实践中。考察数据挖掘算法在学术论文中的使用情况、进而评估其影响力,能辅助研究者全面了解其所在领域的常用算法,并根据研究任务类型选择相应算法。本文利用学术论文全文内容,对算法的使用行为进行分析,从而考察算法的影响力。具体来说,本文以自然语言处理领域为例,收集整理全国计算语言学会议(CCL)1993—2016年收录的学术论文全文数据,从使用频次、使用位置、使用年代以及使用动机等四个方面全面考察十大经典数据挖掘算法在该领域的使用情况,并在此基础上对算法的影响力进行评估。实验结果显示,十大算法的使用行为存在明显差异,且SVM算法影响力最高,CART与Apriori算法影响力较低。本文研究可为基于数据驱动的相关研究者,尤其是为初学者在算法选择时提供参考。 展开更多
关键词 算法影响力评估 使用行为 全文内容分析
在线阅读 下载PDF
基于双语URL匹配模式可信度的平行网页识别研究 预览
19
作者 章成志 马舒天 +1 位作者 揭春雨 姚旭晨 《中文信息学报》 CSCD 北大核心 2018年第3期91-100,共10页
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信... 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。 展开更多
关键词 平行网页获取 平行语料库 双语URL匹配模式 双语文本挖掘
在线阅读 下载PDF
基于双语词典和歧义消解的中英双语专利信息检索研究 被引量:1
20
作者 颜端武 任婷 陶志恒 《情报理论与实践》 CSSCI 北大核心 2018年第2期138-142,154共6页
[目的/意义]为了增进知识交流、知识共享,避免专利侵权,研究了基于双语词典和歧义消解的中英双语专利信息检索方案,并将其应用到实际系统开发中。[方法/过程]通过基于双语词典的提问式翻译实现双语专利检索,利用基于潜语义分析的提问式... [目的/意义]为了增进知识交流、知识共享,避免专利侵权,研究了基于双语词典和歧义消解的中英双语专利信息检索方案,并将其应用到实际系统开发中。[方法/过程]通过基于双语词典的提问式翻译实现双语专利检索,利用基于潜语义分析的提问式消歧策略进行歧义消解,结合布尔检索模型与向量空间模型构建检索表达式,与专利索引库进行匹配,生成检索结果。[结果/结论]选取“3D打印”领域中英双语专利语料为样本,通过检索实验证明方案的有效性。 展开更多
关键词 专利信息 信息检索 双语词典 歧义消解
上一页 1 2 16 下一页 到第
使用帮助 返回顶部 意见反馈