音讯 什么是网络爬虫? -技术百科的定义

什么是网络爬虫? -技术百科的定义

目录:

Anonim

定义-Web爬网程序是什么意思?

Web爬网程序是一种Internet僵尸程序,可帮助进行Web索引编制。 他们一次在网站上爬行一页,直到所有页面都被索引。 Web爬网程序有助于收集有关网站及其相关链接的信息,还有助于验证HTML代码和超链接。

Web搜寻器也称为Web蜘蛛,自动索引器或简称为“搜寻器”。

技术百科解释了网络爬虫

Web搜寻器收集以下信息:网站的URL,元标记信息,网页内容,网页中的链接以及从这些链接引出的目的地,网页标题和任何其他相关信息。 它们会跟踪已下载的URL,以避免再次下载同一页面。 策略(例如重新访问策略,选择策略,并行化策略和礼貌策略)的组合决定了Web爬网程序的行为。 网络爬虫面临许多挑战,即庞大且不断发展的万维网,内容选择权衡,社会义务以及与对手打交道。

Web爬网程序是调查网页的Web搜索引擎和系统的关键组件。 它们有助于为Web条目建立索引,并允许用户针对索引发送查询,并提供与查询匹配的网页。 Web搜寻器的另一个用途是Web归档,它涉及要定期收集和存档的大量网页。 Web搜寻器还用于数据挖掘,其中分析页面的不同属性(如统计信息),然后对其进行数据分析。

什么是网络爬虫? -技术百科的定义