14个最受欢迎的Python开源框架 经验

本文从GitHub中整理出的14个最受欢迎的Python开源框架。这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。 Django : Python Web应用开发框架 Django 应该是最出名的Py

cey6 2015-06-01   25309   0

14个最受欢迎的Python开源框架 经验

以下是从GitHub中整理出的14个最受欢迎的Python开源框架。这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。 Django : Python Web应用开发框架 Django 应该是最出名的Py

jopen 2014-06-29   46805   0
P1

  hadoop面试小结 文档

原来1/100。但事实上复杂度并没降低。 3.还有没更好更优的方法解决这个问题。 1、编写一只爬虫 要求:1、可配置要爬取的网页URL格式          2、可定制要爬取的深度        

wujiuliu 2013-05-31   7460   0

完整全面的Java资源库(包括构建、操作、代码分析、编译器、数据库、社区等等) 经验

:便捷的JDBC抽象。 jOOQ :基于SQL schema生成类型安全代码。 Presto :针对大数据的分布式SQL查询引擎。 Querydsl :针对Java的类型安全统一查询。 日期和时间 处理日期和时间的函数库。

encn 2015-05-20   142799   0

国外程序员整理的Java资源大全 经验

:便捷的JDBC抽象。 jOOQ :基于SQL schema生成类型安全代码。 Presto :针对大数据的分布式SQL查询引擎。 Querydsl :针对Java的类型安全统一查询。 日期和时间 处理日期和时间的函数库。

my5g 2015-01-07   84238   0

推荐!国外程序员整理的Java资源大全 资讯

抽象。 jOOQ :基于 SQL schema 生成类型安全代码。 Presto :针对大数据的分布式 SQL 查询引擎。 Querydsl :针对 Java 的类型安全统一查询。 日期和时间

jopen 2015-01-09   78536   4

Java应用程序开发相关工具集合 经验

:便捷的JDBC抽象。 jOOQ :基于SQL schema生成类型安全代码。 Presto :针对大数据的分布式SQL查询引擎。 Querydsl :针对Java的类型安全统一查询。 日期和时间 处理日期和时间的函数库。

jopen 2015-02-27   64194   0

Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor 经验

的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的,采用主从架构,主节点负责维护抽

jopen 2015-04-18   17175   0
P3

  大数据分析的流程浅析之一:大数据采集过程分析 文档

算机技术中的分布式计算开始发挥优势,它可以将6000台甚至更多的计算机组合在一起,让它们的硬盘组合成一块巨大的硬盘,这样人们就不用再害怕大数据了,大数据再大,增加计算机就可以了。实现分布式计算的软件有

czh_3104 2015-07-06   608   0

Yioop! 0.92 发布,PHP 全文搜索引擎 资讯

搜索)。 利用其提供的默认安装程序,每天可以抓取和索引数百万的页面。还可以通过运行更多的爬虫(支持分布式)增加每天抓取和索引的页面数。 它支持的索引文件类型包括:HTML, DOC, PNG

jopen 2013-01-05   6827   0
Yioop!  

开源的PHP搜索引擎 - Yioop! 资讯

搜索)。 利用其提供的默认安装程序,每天可以抓取和索引数百万的页面。还可以通过运行更多的爬虫(支持分布式)增加每天抓取和索引的页面数。 它支持的索引文件类型包括:HTML, DOC, PNG

码头工人 2011-08-31   24255   1

Yioop! 0.92 发布,PHP 全文搜索引擎 资讯

搜索)。 利用其提供的默认安装程序,每天可以抓取和索引数百万的页面。还可以通过运行更多的爬虫(支持分布式)增加每天抓取和索引的页面数。 它支持的索引文件类型包括:HTML, DOC, PNG

jopen 2013-07-25   5622   0
Yioop!  

Java搜索引擎 MG4J 经验

Moffat和Timothy所写,名字是《管理十亿字节:压缩并且索引文档和图片》。在使用他们的分布式、可容错的网页爬虫UbiCrawler收集到大量的网页数据后,它的作者需要一个软件来解析那些收集来的数据,由于这个需求,MG4J诞生了。

fmms 2012-01-03   15208   0
P12

  淘宝 Hadoop 数据分析实践 文档

Hive淘宝数据分析选型历程 4. Hadoop是什么一个Map/Reduce框架实现一个开源项目一个分布式计算平台一个分布式文件系统 5. Oracle 备库MySQL 备库日志系统Hadoop Cluster:

wsldg 2012-02-28   678   0

Java搜索引擎,Nutch v1.6 发布 资讯

为这些网页维护一个索引 * 对索引文件进行每秒上千次的搜索 * 提供高质量的搜索结果 组成 爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。

jopen 2012-12-08   9090   1
nutch  

9个基于Java的搜索引擎框架 经验

Nutch 是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 利用Nutch,你可以做到以下这些功能: 每个月取几十亿网页 为这些网页维护一个索引 对索引文件进行每秒上千次的搜索

jopen 2014-09-03   34907   0

Java资源大全中文版 经验

约束满足问题求解程序 持续集成 CSV解析 数据结构 数据库 时间日期工具库 依赖注入 开发流程增强工具 分布式应用 分布式数据库 发布 文档处理工具 函数式编程 游戏开发 GUI 高性能计算 IDE 图像处理 JSON

jopen 2015-11-03   117384   0

FEX 技术周刊 - 2015/12/21 资讯

法。 当讨论分布式系统时,我们都会讨论些什么 http://dockone.io/article/898 分布式系统是一个庞大的议题,每个子领域都有大量的研究。学习分布式系统知识,如果不分

jopen 2015-12-21   36306   0
FEX  

微服务框架-基础框架 经验

这样虽然企业内部是复杂的分布式微服务结构,但是外部系统从网关上看到的就像是一个统一的完整服务,网关屏蔽了后台服务的复杂性,同时也屏蔽了后台服务的升级和变化。 安全认证和防爬虫 ,所有外部请求必须经过网

hn5og3i3 2016-11-15   19536   0
P648

  搜索引擎核心技术与实现(基于Lucene和Solr) 文档

1 网络爬虫 5 1.3.2 全文索引结构与Lucene实现 5 1.3.3 搜索用户界面 10 1.3.4 计算框架 10 1.3.5 文本挖掘 12 1.4 本章小结 12 第2章 网络爬虫的原理与应用

SevnInfor 2011-08-02   2133   0
1 2 3 4 5 6 7 8 9 10