4月2日消息,据国家知识产权局中国专利公布公告网显示,DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利于4月1日正式公布。
专利摘要揭示了此项发明的显著优势:它能够智能地发现更多网页链接,同时有效减轻对网站的流量压力;通过对已下载内容进行深入分析,并结合未下载链接的质量推断,采用优化的下载分配策略,既减少了低质量及重复下载,又提升了数据的整体质量和下载效率,从而大幅降低了数据采集过程中的网络资源消耗。此外,该发明还采用了独立的信息回灌队列机制,确保了网页元信息库修改操作的原子性和稳定性。
背景技术中提到,近年来,随着人工智能技术的飞速发展,NLP(自然语言处理)领域取得了显著进步。众多大型语言模型(Large Language Models, LLMs)被广泛应用于自然语言处理领域,旨在探索实现人机自然语言有效通信的多种理论与方法。
为了训练这些大语言模型,构建一个高质量、多样化的数据集至关重要。这需要从网络上采集大量网页数据,并经过处理以获得高质量的文本信息作为模型输入。然而,现有的数据采集技术存在诸多挑战,如在采集复杂站点时难以获取完整的链接、容易因过量下载导致目标网站崩溃、以及对下载页面缺乏内容质量分析和推断,从而造成重复下载或低质量下载,严重影响了数据采集的效率。
因此,在大规模网页数据采集过程中,如何实现快速、精准、安全且高效的互联网数据获取已成为当务之急。