留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于爬虫和深度学习的计量信息数据推送系统

姜海洋 田锋 智峰 杨一凡

姜海洋,田锋,智峰,等. 基于爬虫和深度学习的计量信息数据推送系统[J]. 计量科学与技术,2021, 65(9): 35-39 doi: 10.12338/j.issn.2096-9015.2020.9030
引用本文: 姜海洋,田锋,智峰,等. 基于爬虫和深度学习的计量信息数据推送系统[J]. 计量科学与技术,2021, 65(9): 35-39 doi: 10.12338/j.issn.2096-9015.2020.9030
JIANG Haiyang, TIAN Feng, ZHI Feng, YANG Yifan. Metrology Information Data Push System Based on Crawler and Deep Learning[J]. Metrology Science and Technology, 2021, 65(9): 35-39. doi: 10.12338/j.issn.2096-9015.2020.9030
Citation: JIANG Haiyang, TIAN Feng, ZHI Feng, YANG Yifan. Metrology Information Data Push System Based on Crawler and Deep Learning[J]. Metrology Science and Technology, 2021, 65(9): 35-39. doi: 10.12338/j.issn.2096-9015.2020.9030

基于爬虫和深度学习的计量信息数据推送系统

doi: 10.12338/j.issn.2096-9015.2020.9030
基金项目: 国家科技基础条件平台项目(APT2001-16);中国计量科学研究院基本科研业务费项目(AKYZZ2032)
详细信息
    作者简介:

    姜海洋(1987-),中国计量科学研究院工程师,研究方向:数据科学、数字证书,邮箱:jianghy@nim.ac.cn

Metrology Information Data Push System Based on Crawler and Deep Learning

  • 摘要: 国家计量科学数据中心开发了计量信息数据推送系统。该系统利用爬虫技术从国内外计量权威网站抓取最新计量信息数据,经AI预处理及人工审核后构建到三个维度的主题地图,再发布到网站,推送给相应主题词订阅用户。科研人员可按三个维度的主题地图或自定义主题词进行信息订阅,实时获取最新领域的计量信息数据。该系统已在国家计量科学数据中心网站上线,实际运行效果较好,验证了方案的可行性和发展潜力。
  • 图  1  计量信息数据推送系统体系架构

    Figure  1.  Architecture of metrology information data push system

    图  2  系统核心业务流程

    Figure  2.  Core business processes of the system

    图  3  初审文章列表页面

    Figure  3.  Article list page for preliminary review

    图  4  初审文章审核页面

    Figure  4.  Article review page for preliminary review

    图  5  用户订阅页面

    Figure  5.  User subscription page

    图  6  网站首页

    Figure  6.  Homepage of the website

  • [1] 李晓萌, 田方, 阳彩军, 等. 我国计量科研领域近20年科研产出对比分析[J]. 计量技术, 2019(9): 62-66.
    [2] 郭丽蓉. 基于Python的网络爬虫程序设计[J]. 电子技术与软件工程, 2017(23): 248-249.
    [3] Kevin. 网络爬虫技术原理[J]. 计算机与网络, 2018, 44(10): 38-40.
    [4] 徐远超, 刘江华, 刘丽珍, 等. 基于Web的网络爬虫的设计与实现[J]. 微计算机信息, 2007(21): 119-121.
    [5] Chakrabarti S, Berg M V D, Dom B. Focused crawling: a new approach to topic-specific Web resource discovery[J]. Computer Networks, 1999, 31(11-16): 1623-1640. doi: 10.1016/S1389-1286(99)00052-3
    [6] Aggarwal C C, GARAWI A F, YU P S. Intelligent Crawling on the World Wide Web with Arbitrary Predicates[C]. 10th International Conference on World Wide Web. New York: ACM, 2001: 96-105.
    [7] EHRIG M, MAEDCHE A. Ontology-focused Crawling of Web Documents[C]. 2003 ACM Symposium on Applied Computing. New York: ACM, 2003: 1174-1178.
    [8] 张环, 刘乃文, 段会川. 基于T-Graph算法的主题爬虫研究[J]. 计算机工程与设计, 2014, 35(9): 3014-3017.
    [9] Manku G S, Jain A, Das S A. Detecting near-duplicates for web crawling[C]. International Conference on World Wide Web. New York: ACM, 2007: 141-149.
    [10] Biezunski M, Bryan M, Steven R. ISO/IEC Standard 13250: Topic Maps[S]. International Organization for Standardization, 1999.
    [11] 田海燕. 基于主题地图的文献组织方法研究[D]. 大连: 大连理工大学, 2006.
    [12] Salton G, Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5): 513-523.
  • 加载中
图(6)
计量
  • 文章访问数:  440
  • HTML全文浏览量:  206
  • PDF下载量:  54
  • 被引次数: 0
出版历程
  • 网络出版日期:  2021-04-21
  • 刊出日期:  2021-09-01

目录

    /

    返回文章
    返回