游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

软件推荐丨GoldDataSpider网页数据抽取工具

  点击右上方,关注开源中国OSC头条号,获取最新技术资讯
  GoldDataSpider是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。
  该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报头、Cookie里的数据。
  该项目定义了一种简洁、灵活、敏捷的结构或者说是规则语法。极尽其所能将网页内容、HTTP报头、Cookie、甚至关联其它网页、其它网站数据,抽取出有意义有价值数据字段,组成一条数据记录。除此之外,还能内嵌http请求,以补充数据字段,比如某些字段需要向词典提供翻译这样的字段等等。
  该项目还可支持从各种类型文档抽取数据,比如htmlxmljsonjavascripttext等。
  我们还提供了规则可视化配制,请下载采集数量不受限、爬虫数量不受限、导出数据数量不受限的完全免费金色数据平台社区版。以及详尽的文档
  使用入门
  首先,我们需要将依赖加入项目当中,如下:
  1、对于maven项目lt;dependencygt;
  lt;groupIdgt;com。100shouhou。golddatalt;groupIdgt;
  lt;artifactIdgt;golddataspiderlt;artifactIdgt;
  lt;versiongt;1。1。3lt;versiongt;
  lt;dependencygt;
  2、对于gradle项目compilegroup:com。100shouhou。golddata,name:golddataspider,version:1。1。3
  然后你将可以使用该依赖所提供的简洁清晰的API,如下:Test
  publicvoidtestGoldSpider(){
  StringruleContent
  {n
  node:li。sky。skyidn
  date:n
  {n
  expr:h1n
  label:日期n
  }n
  sn:n
  {n
  n
  js:md5(baseUriitem。dateheaders〔ContentType〕);n
  }n
  weather:n
  {n
  expr:p。wean
  }n
  temprature:n
  {n
  expr:p。temgt;in
  }n
  }n;
  GoldSpiderspidercom。xst。golddata。GoldSpider。newSpider()
  。setUrl(http:www。weather。com。cnweather101020100。shtml)
  。setRule(ruleContent)
  。request();
  Listlistspider。extractList();
  Listlt;Weathergt;weathersspider。extractList(Weather。class);
  Weatherweathersspider。extractFirst(Weather。class);
  list。forEach(System。out::println);
  }
  运行上面的测试,你将可以看类似下面的输出:{date19日(今天),weather阴转小雨,temprature10,sn8bc265cb2bf23b6764b75144b255d81d}
  {date20日(明天),weather小雨转多云,temprature11,sn9efd7e7bbbfb9bb06e04c0c990568bfd}
  {date21日(后天),weather多云转中雨,temprature11,sn728539ac882721187741708860324afa}
  {date22日(周六),weather小雨,temprature9,sna23fa2233e750a3bdd11b2e200ed06c3}
  {date23日(周日),weather小雨转多云,temprature8,snb27e1b8a8e92a7bed384ceb3e4fdfb5f}
  {date24日(周一),weather多云转小雨,temprature8,snc142b7fd12330ca031dd96b307c0d50d}
  {date25日(周二),weather小雨转中雨,temprature6,sn16f71d3c8f09394588532a3ed1a8bacf}
  当作Service或者API使用
  你可以在项目中,可以当作调用服务和API使用。例如如下:Service
  publicclassWeatherServiceImplimplementsWeatherService{
  publicListlt;Weathergt;listByCityId(LongcityId){
  Stringurlhttp:www。weather。com。cnweathercityId。shtml
  Stringrulelt;同上gt;
  GoldSpiderspidercom。xst。golddata。GoldSpider。newSpider()
  。setUrl(url)
  。setRule(ruleContent)
  。request();
  returnspider。extractList(Weather。class);
  }
  }
  对于可视化配制,可以参考免费社区版文档。以下就免费社区版做简单介绍,详情见官网!
  免费社区版:
  开源免费
  让用户更好理解和使用产品
  我们针对数据采集免费,还开放和维护核心的开源代码项目。让用户可以更好的使用、理解采集,用好采集。让用户在各种场景应用金色数据采集带来的便利,我们有信心让客户见到一个开放的数据平台,让用户放心省心省力。
  自由灵活
  透出一股强大的采集核心
  我们的采集器,将向用户暴露一切目标数据,除了常规网页内容,还有如URL、HTTP报头、Cookie等。还提供了各种解析工具和函数,让用户不仅能得到网页内容里的数据,还能得到URL、HTTP报头、Cookie里隐藏的核心数据,还能灵活做到智能防封。
  分布式采集
  私有云,更灵活,更安全,更放心
  可以根据自身需求,随意部署采集器数量,724小时不间断运行,采集后端集中灵活控制。可自由指挥数据在哪个采集器采集。可定义定时采集,无需人员值守。
  数据可关联可追踪
  恢复重建数据内在与外在价值
  可以让每条数据随着目标网站目标内容更新(如商品价格)、而更新用户应用表该条数据相关字段内容。
  非侵入式融合
  融合从未如此现实和简单
  完全可以在不改变用户应用表结构(增删改表列),而将采集数据融入到应用表中。
  自动化一体化
  无需人力操作,即抓即用
  不只是采集可以自动化抓取,融合也提供了手动化和强大自动化功能。还将采集与融合操作无缝对接,可将目标数据抓一条融合一条,实时流向应用表,做到即抓即用!
  点击下方链接,获取软件下载地址
  GoldDataSpider首页、文档和下载网页数据抽取工具开源中国

阿里巴巴Lazada年度活跃消费者增至1。3亿齐金钊中国证券报中证网中证网讯(记者齐金钊)日前,阿里巴巴2021年投资者日在线上举行。据阿里巴巴东南亚旗舰电商平台Lazada最新数据显示,Lazada年度活跃消费者(……别墅设计用钢结构做支撑,用石材做装饰外墙的900超豪华住宅今天小谍为大家带来的是一个石材别墅,石材大面积的应用了石材做装饰,灰色的建筑外墙颇具低调气质。整个建筑占地900平方米。这种体积处理创建了5个立面,由混凝土元素、该地区的……Windows11有更新?这次推送了MicrosoftTea就在几天前,微软更新了Windows11新版本22000。100,这次的更新向Windows11用户推送了MicrosoftTeams通话功能,添加好友后可与家人朋友进行聊天。……高通骁龙778G5GSoC,为智能手机提供了高达16GB的L文章来源:高通骁龙778G5GSoC,为高端智能手机提供了高达16GB的LPDDR5电源CNXSoftware中文站过去有高端中档智能手机,但高通最近宣布了让骁龙778G……6年前被盗的12万枚比特币被找到当时价值0。7亿如今超45亿美国司法部8日宣布,起获价值约36亿美元的失窃比特币,并以涉嫌洗钱罪名逮捕了一对夫妇。美国司法部副部长莉萨莫纳科说,这是美国司法部查获的最大一笔赃款。失窃时市值7100万……哪个品牌的电脑好?必须的、华为!哪个品牌的电脑好?我认为需要从你的用途来做选择:01办公选择联想电脑联想产品系列包括Think品牌商用个人电脑、Idea品牌的消费个人电脑、服务……GalaxyS7加拿大版跑分出炉,惨遭小米5碾压!今天,据某科技自媒体爆料,GalaxyS7加拿大版跑分出现在国外某跑分网站,性能与小米5相比稍稍落后。GalaxyS7加拿大版型号为SMG920W8,这和之前的惯例保持一……传爱德万宣布收购美国测试设备供应商RDAltanova11月1日消息,据媒体报道,半导体测试设备供应商爱德万宣布,它已签署一项协议,收购美国的RDAltanova公司。RDAltanova是高端应用耗材测试接口板、基板和互连接体的……一万毫安的充电宝漏电能把人电死吗?首先要搞清楚一万毫安的充电宝是什么?毫安本身是一个非标准的电流单位,因为电流的基本单位是安培,当电流较小不方便读写才用到毫安。这个一万毫安实际上只是10安培而已。非要说成一万毫……ipadAir4不开机维修常见故障分析解答年份:2020年,容量有64g,256g型号(位于后盖上):机型上是A2316属于wifi版本,无线局域网蜂窝网络机型上是A2324、A2325、A2072ipad……小米红米K50realmeGT大师探索版参数大全参数大全小米红米K50Pro价格:暂无价格产品特性:快速充电,VoLTE高清语音,双扬声器,USBTypeC接口出品地区:中国realmeGT大师探索版价格:暂……现货不用抢!屏下镜头8GB128GB,友商冷门高素质手机定价我们在选购手机的时候,大多数人会更加青睐于选择大品牌的产品。比如同样预算6000元,消费者选择iPhone13的概率要明显大于其它竞品,因为大家都知道,苹果是世界上做手机最有实……
中班折贴活动美丽的鱼活动目的:1、引导幼儿选择合适的圆形纸折各种各样的鱼身、鱼尾及水草等,进一步培养幼儿看图折纸的技能,巩固折、压、拼贴的技能。2、培养幼儿的观察力、想象力及交往合作的……今日春节IT之家祝大家牛年牛气冲天!今天是春节,农历年正月初一。IT之家祝各位牛年新年快乐,牛气冲天!春节,即为传统的农历新年,俗称年节,传统名称为新年、大年、新岁。在口头上又称度岁、庆新岁、过年。中国人过……抖音春晚期间抖音红包总互动次数达703亿IT之家2月12日消息抖音发布2021春晚数据报告,报告显示,春晚期间红包总互动次数达703亿,直播间累计观看人次12。21亿,实时在线最高人数达498。46万。2月11……拼多多向陕西省红十字会捐赠1000万元用于疫情防控IT之家1月1日消息,据陕西发布官方微博消息,2021年12月31日,拼多多向陕西省红十字会捐赠1000万元用于陕西疫情防控、应急救护、大病救助、购置防疫和应急设备等。陕……比亚迪2021年94名员工被查处追责28家供应商,举报最高奖IT之家1月25日消息,昨日,比亚迪在其廉洁比亚迪公众号平台发布《至比亚迪合作伙伴的一封信》,信中指出,2021年,因违反廉洁合作相关协议,28家供应商被比亚迪追究违约责任;同……个别用户编造去乌克兰参战可获得学分等虚假信息,微信倡议理性发IT之家2月26日消息,昨日晚间,微信安全中心发布了《关于理性发布涉国际热点事件信息的倡议》。IT之家了解到,微信表示,近期,国际局势变化引发社会各界广泛关注。在国际局势……行行出状元教学目标:1、使学生知道社会需要各行各业的劳动者,无论什么工作,只要干一行、爱一行,就能成为状元。2、培养学生要干一行、爱一行。3、教育学生做有文化的劳动者。……百度申请注册度娘商标获得批准IT之家12月14日消息,企查查App显示,近期,百度在线网络技术(北京)有限公司多个度娘商标完成注册,商标国际分类涉设计研究、办公用品等。百度此前提交度娘商标注册申请被……国美App改名为真快乐感谢IT之家网友你的手机是的线索投递!IT之家1月12日消息据IT之家网友投稿,国美App近日迎来更新,更新后的App直接换了个名字,改名为真快乐。据悉,真快乐是一……国美双11推出九九会员等大促,空调安装全年十免10月27日消息,今日,国美联合海尔、海信、美的等空调品牌联合承诺升级十免服务,重塑空调行业安装标准,并拉开国美双十一的序幕。据悉,2020年双十一活动周期,国美陆续推出九九会……高三政治抢分必备复习盘点热点考查角度分析近年来的高考政治试题我们可以发现,政治试题越来越注重对学生能力的考核,即要求学生能运用马克思主义基本原理分析和解决实际问题,这就必然涉及面广量大的社会……物理牛顿第三定律教学反思牛顿第三定律是反映物体间相互作用的规律,它揭示了一对作用力与反作用力大小间的定量关系和方向间的具体关系,是牛顿运动定律整体的一个基本组成部分。牛顿第三定律作为牛顿运动定律的一个……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网