DeepSeek 公布新专利技术，有效降低数据采集过程中的网络资源消耗

发布者：admin发表于：257天前阅读数：248评论:0

4月2日消息，据国家知识产权局中国专利公布公告网显示，DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利于4月1日正式公布。

专利摘要揭示了此项发明的显著优势：它能够智能地发现更多网页链接，同时有效减轻对网站的流量压力；通过对已下载内容进行深入分析，并结合未下载链接的质量推断，采用优化的下载分配策略，既减少了低质量及重复下载，又提升了数据的整体质量和下载效率，从而大幅降低了数据采集过程中的网络资源消耗。此外，该发明还采用了独立的信息回灌队列机制，确保了网页元信息库修改操作的原子性和稳定性。

背景技术中提到，近年来，随着人工智能技术的飞速发展，NLP（自然语言处理）领域取得了显著进步。众多大型语言模型（Large Language Models, LLMs）被广泛应用于自然语言处理领域，旨在探索实现人机自然语言有效通信的多种理论与方法。

为了训练这些大语言模型，构建一个高质量、多样化的数据集至关重要。这需要从网络上采集大量网页数据，并经过处理以获得高质量的文本信息作为模型输入。然而，现有的数据采集技术存在诸多挑战，如在采集复杂站点时难以获取完整的链接、容易因过量下载导致目标网站崩溃、以及对下载页面缺乏内容质量分析和推断，从而造成重复下载或低质量下载，严重影响了数据采集的效率。

因此，在大规模网页数据采集过程中，如何实现快速、精准、安全且高效的互联网数据获取已成为当务之急。