亚艾元Drupal网页采集器,开源免费版发布

下载地址: http://pan.baidu.com/s/1dDF1Dz7

欢迎大家试用,里面包含一个安装说明。Drupal网页采集利器,我们开发的第一个Drupal发行包。

亚艾元Drupal采集器,是由北京亚艾元软件有限责任公司开发的一款网页采集工具软件,本软件基于Drupal,属于基于Drupal定制的一个发行包。

发行包软件作者:老葛

软件遵守的开源协议:GPL

如果您有更多需求,可以通过购买亚艾元公司的相关服务,或取更多的专业支持。

声明:
基于本软件,您所产生的网页抓取行为,造成版权纠纷的,由您自己100%承担责任,与软件的开发者无关。

Drupal版本: 
论坛: 

2014.10上海大数据采集培训班(培训地点:上海图书馆教育培训中心)

2014.10上海大数据采集培训班(培训地点:上海图书馆教育培训中心)
一 培训目的

信息的发现 、选择、收藏、组织和分享是图情工作人员最重要的工作之一,尤其是在大数据时代,只有做好这方面的基础工作,才能满足领导的战略决策需要,满足教学科研的需要,满足读者个性化信息服务的需要。
在大数据时代,图书馆员只有快速的向数据科学家和领域专家转变,打破图书馆的传统边界,建立各种数据联盟,才能适应时代的发展。
大数据具有信息种类多,更新速度快,综合价值大等众多特性,如何精选真实、更有价值的信息,更快、更方便的采集、聚合各种信息,进而进行存储、分析是图情工作人员面临的重要挑战。
为此,特举办一系列大数据培训班:虚拟化及云计算、大数据采集、信息可视化、数据挖掘等,首先开办大数据采集培训班。
本次培训班将详细讲解Rss、Xpath ,Drupal 、Offline Explorer 、aTube Catcher 、Lucidworks等相关技术和专业软件使用。认真参加培训的老师,将能熟练的掌握数据采集的技巧,并熟悉数据挖掘的部分技能,为将来工作带来极大便利。
二 课程概述

Drupal版本: 
论坛: 

2014年9月22-26日华南农业大学图书馆 Drupal及微信开发培训班通知

一、培训目的

Drupal 软件是世界上最先进的开源内容管理系统之一,由于功能强大,还被称作网站操作系统。Drupal有2万多个模块,2万多个活跃开发者。Drupal在信息的创建、组织、管理、协作、互联、设计、展示及可扩展方面具有无与伦比的优势。各行各业的顶尖用户都在用Drupal。

国内外知名图书馆都在使用Drupal构建自己的门户网站(北大 、清华、哈佛、耶鲁、康奈尔、普渡、杜克大学等图书馆,详细清单http://blog.sina.com.cn/s/blog_50b312bf0101fe8r.html),利用Drupal,图情单位可以很方便的构建图书馆门户网站(含移动开发应用)、学术主题博客、学位论文管理、图书馆MOOC、开放学术社区、机构仓储等信息系统,并可以进行大数据、语义网等方面的研究。

Drupal版本: 
论坛: 

亚艾元招聘Drupal实习生

北京亚艾元软件有限责任公司是提供Drupal软件培训、咨询、开发的高新技术企业。公司座落于中关村软件园。公司由国内顶尖的Drupal技术专家和资深的业务专家联合创办。

因业务发展需要,招聘1-2名Drupal实习生,待遇每月3000元。

职位描述
♣ 主要工作就是帮助老葛打杂,完成开发工作中的一些体力活;
♣ 因为公司比较小,除了开发以外,还有各种杂事需要处理;

要求:
♣ 本科学历,计算机专业。
♣ 能看懂英文文档;
♣ 爱学习
♣ 年龄20-24岁,男性优先

地址 北京市海淀区中关村软件园上地十街辉煌国际4号楼1308室
联系人 崔先生
联系电话 13381113196 13681445347
网址 http://www.yaiyuan.com 邮箱 Cuikejun@qq.com 372948992@qq.com

Drupal版本: 
论坛: 

Think in drupal免费源程序下载

Think in Drupal 目前提供5集,其中2,3集合并成为Drupal实战,已有机械工业出版社出版。对于每集里面的代码,我们都提供免费下载。

程序免费下载地址:

Drupal 实战 源代码下载

Think in drupal 第5集 源代码下载

Think in drupal 第4集 源代码下载

Drupal版本: 

Drupal采集模块介绍

想用Drupal采集插件,可以先下载一下亚艾元Drupal采集器发行版,装起来,就能用,里面有一个详细的文档。亚艾元Drupal采集器,采用标准的Drupal模块,完全开源,只不过为了支持中文采集,对模块个别地方坐了修改。
我们这里介绍一下,亚艾元Drupal采集器里面,用到的与采集相关的模块插件:

Drupal版本: 
论坛: 

Drupal网页采集成功突破百万级数据

2014年9月19日,我们的基于Drupal的图书信息采集系统,成功采集到了103万图书详细信息,这标志着我们基于Drupal开发的采集器系统,日益成熟与文档,完全能够满足大型机构日常的采集需求。

我们在以下方面,获取到了第一手的实践经验:

1, 如何绕过被抓取网站的反抓取设置。
2, 如何存储大规模的抓取过来的图片信息。
3, 如何配制合适的采集任务调度。
4, 如何处理采集过程中,发生的各种异常。

。。。。

前段时间,我们抓取的中国象棋的相关新闻、图书、棋谱信息,我们使用Drupal实践了10万级别的数据抓取,程序运行稳定,性能良好。现在,我们突破了百万级数据。

即便是,在整个全球的Drupal社区,使用Drupal进行网页采集的应用,也少之又少,能够突破百万级别的,除了我们以外,还没有看到别的成功案例。我们在Drupal采集方面的实践,与中国的国情相结合,相信,通过发布免费的亚艾元网页采集器,将来会极大地推动,Drupal在中国市场的应用。

Drupal版本: 
论坛: 

把Drupal的网页采集技术放在优先位置

我有时候,在想这样的一个问题,什么样的Drupal技术,才能让我们得到更好的发展。普通的网站建设,技术含量太低,价格也太低;电子商务网站,我们帮助中华书局做完他们的网上书店以后,就基本上没有类似的实际项目了,Drupal7下,又有Ubercart和Commerce的竞争,不知道选择哪里;电子书技术,这个目标客户对象,又过于狭窄;微信开发,这个虽然时髦,潜在的用户也不少,但是随着时间的推移,微信只是Drupal下面的普通的一个模块,集成一下就可以了,我想来想去,觉得,最值得下功夫的是Drupal的网页采集抓取技术。

虽然,半年以前,我们便在Drupal网页采集技术上面,取得了重大的突破,但是我们缺少,实际项目的支撑。为了锻炼我们的采集技术,我们在内部,启动了两个抓取项目,一个是抓取中国象棋的棋谱、新闻资讯、图书等信息;一个就是抓取当当、京东的图书信息。

中国象棋的棋谱、新闻资讯的采集,在十万级别;而当当、京东的图书信息采集,则在百万级别。前者,已经采集成功,后者正在采集。

通过实际的项目锻炼,我们在采集任务的调度管理、如何绕过反抓取设置、文件的存储、采集异常的处理,等多个方面,都积累了第一手的经验。最主要的,程序运行平稳、强劲。

Drupal版本: 
论坛: 

页面

Subscribe to Think in Drupal RSS