开源商业智能解决方案 Pentaho 4.1 发布

jopen 12年前
     <p>Pentaho BI项目提供了企业级的报表、多维分析、仪表盘、数据挖掘和工作流功能，帮助组织更加有效率的运营。Pentaho产品提供了方便的发布选项，使得它可以作为嵌入式的组件、自定义的BI应用方案以及一个完整的开箱即用的集成BI平台。<img title="pentaho_logo.png" border="0" alt="pentaho_logo.png" align="right" src="https://simg.open-open.com/show/e4db2742c2c1e9c4dbfb0213bdd4c161.png" width="242" height="80" /></p>    <div id="p_fullcontent" class="detail">     <p><img title="开源商业智能解决方案 Pentaho 4.1 发布" border="0" alt="开源商业智能解决方案 Pentaho 4.1 发布" src="https://simg.open-open.com/show/0c28bb72a9c5bfacfed973fc93682fce.jpg" width="406" height="480" /></p>    </div>    <p>Pentaho 4.1 发布了，增加对Infinispan/JBoss企业数据网格及Memcahed缓存系统的数据分析支持，同时也可以扩展到其他系统。其他改进则包括全新的性能辅助调整（tuning aids）、支持对Apache Hive及EMC的Greenplum数据库的本地SQL代码自动生成等。</p>    <div id="p_fullcontent" class="detail">     <p><a style="font-weight:bold;" href="/misc/goto?guid=4958183481587207384" target="_blank">Inﬁnispan </a>是个开源的数据网格平台。它公开了一个简单的数据结构（一个Cache）来存储对象。虽然可以在本地模式下运行Inﬁnspan，但其真正的价值在于分布 式，在这种模式下，Inﬁnispan可以将集群缓存起来并公开大容量的堆内存。这可比简单的复制强大的多，因为它会为每个结点分配固定数量的副本——服 务器故障的一种恢复手段——同时还提升了可伸缩性，这是由于存储每个结点所需的工作量是与集群大小息息相关的。</p>     <p>Inﬁnispan提供了一种简单的机制来利用大容量的堆内存。如果对每个结点维护一个拷贝，假如集群当中有100个结点，每个结点分配2GB的堆内存， 那么网格中的任何实例都能使用多达100GB的空间，这可都是内存，显然速度会非常快。同时Inﬁnispan还兼容于JTA，这样它就能很好地处理事务 了。我们还有一个超级强大的异步API，它可以保证同步的网络调用以及异步调用的并行性及可伸缩性。比方说：Future f = cache.putAsync(k, v) 可以阻塞线程，再调用f.get()可以让网络调用继续进行或是忽略掉f。更为重要的是，线程还可以做别的事情，这一点非常有用。然后再回来通过调用 f.get()来检查该网络调用是否能继续进行。可以将其看作是NIO与传统的阻塞性IO之间的关系。</p>     <p>Inﬁnispan公开了一个CacheStore接口和几个高性能的实现，包括JDBC CacheStores、基于文件系统的CacheStores以及Amazon S3 CacheStores等等。CacheStores可用作“温启动（warm starts）”或是确保网格中的数据在重启后依然可用，同时在内存耗尽时还能将数据写到磁盘上。</p>     <p>主要特点：</p>     <ul>      <li>大量的堆体</li>      <li>极高的可扩展性</li>      <li>快速轻量级核心</li>      <li>不仅仅支持Java(PHP,Python,Ruby,C…)</li>      <li>支持Compute Grids</li>      <li>管理是关键：当你在grid上运行几百个服务时，实现管理是必须的</li>     </ul>     <p><a href="/misc/goto?guid=4958184338198183602" target="_blank"><strong>memcached</strong></a>是一套分布式的快取系统，当初是Danga Interactive为了LiveJournal所发展的，但目前被许多软件（如MediaWiki）所使用。这是一套开放源代码软件，以BSD license授权释出。</p>     <p>memcached缺乏认证以及安全管制，这代表应该将memcached服务器放置在防火墙后。</p>     <p>memcached的API使用三十二位元的循环冗余校验（CRC-32）计算键值后，将资料分散在不同的机器上。当表格满了以后，接下来新增的资料会以LRU机制替换掉。由于memcached通常只是当作快取系统使用，所以使用memcached的应用程式在写回较慢的系统时（像是后端的数据库）需要额外的程式码更新memcached内的资料。</p>     <p>memcached具有多种语言的客户端开发包，包括：Perl/PHP/JAVA/C/Python/Ruby/C#/MySQL/</p>     <div id="p_fullcontent" class="detail">      <p>Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。</p>      <p>Hive是非死book 2008年8月刚开源的一个数据仓库框架，其系统目标与 Pig 有相似之处，但它有一些Pig目前还不支持的机制，比如：更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。</p>     </div>     <p></p>    </div>    <p><br /> <span style="font-weight:bold;">Pentaho 官网：</span><br /> <a href="/misc/goto?guid=4958184740779128202" target="_blank">http://www.pentaho.com/</a></p>    <p>Via <a href="/misc/goto?guid=4958197410797749536" target="_blank">H-online</a></p>
开源商业智能解决方案 Pentaho 4.1 发布

相关资讯