P14 iSearch演变历程太奕概述了解iSearch引擎历史变革iSearch遇到过哪些问题iSearch如何解决这些问题通过解决方案揭示iSearch的进化过程如何为iSearch的技术发展保驾护航iSearch引擎历史问题与挑战问题与挑战技术变革问题与挑战技术变革问题与挑战倒排容量优化正排容量优化保障机制用户对引擎的期望:能够支持更大领域的业务需求能够更快速的响应业务需求一个重要的前提:保证上线版本的服务质量保障机制
P24 介绍一淘及搜索事业部-搜索技术-引擎平台-调度系统周鸿斌(悟非)内容提纲ISearch5AdminISearch5系统架构ISearch5 admin介绍异构机器不停服务切换大增量数据分发(DeployExpress)系统结构功能特性应用服务监控(Amonitor)系统结构功能特性
P26 Angular2现状当前最新版本为2.0.0-alpha.40,2015年10月9日发布,不兼容Anguar1.x开发时不再依赖Traceur或者Babel,推荐使用TypeScript进行编译为ES5功能基本稳定,但缺乏相关文档和样例支持Chrome,Firefox以及IE10+Angular2核心特性基于注解的组件化依赖注入模板及指令属性绑定过滤器(Pipe)表单路由HTTP访问基于注解的组件化Angular2中,一个最基本的组件由3个部分组成:Component:定义组件的名称,以及要注入的服务View:定义组件的试图,即UI展现Class:组件的逻辑实现,基于ES6的class语法依赖注入Angular2中,注入一般在Component完成,使用viewBindings属性。
P12 淘宝搜索业务架构优化桂南Agenda在线架构业务双11优化搜索在线架构重点模块iSearch5:引擎平台,搜索服务的核心Opensearch:十分钟搭建搜索引擎SearchPlanner:搜索的总指挥UPS:个性化信息存储和计算CM:服务定位和流量切换工具支持的业务传统SRP主搜索一淘商品搜索天猫商品搜索店铺搜索店铺内搜索支持的业务传统SRP主搜索一淘商品搜索天猫商品搜索店铺搜索店铺内搜索比价优惠主搜索产品搜索一淘优惠购一淘优惠一淘比价页如意淘支持的业务传统SRP主搜索一淘商品搜索天猫商品搜索店铺搜索店铺内搜索比价优惠主搜索产品搜索一淘优惠购
P33 淘宝搜索离线系统介绍一淘搜索事业部淘宝搜索dump中心木桑概要淘宝搜索的离线场景计算需求存储需求全量流程&增量流程集群运维开发管理展望Q&A淘宝搜索的离线场景离线场景约束条件结构化数据的完整性\准确性:数据量大而又要完整、准确,更新及时性:更新多源头又要同步,更新数据量大而又要实时性架构业务逻辑友好性:全量增量流程不同而又要业务代码一致等淘宝搜索业务简介09年前架构Dumpserver……Dumpserver07年:12台08年:48台OracleSearchEngineXML09年架构-引入map/reduce09年架构–job序列计算需求-09年架构的问题Job链太长;多次重复数据I/O;问题不好查;对数据库压力大;业务逻辑分散,开发效率不高;Job数量跟随业务膨胀;hdfs只有顺序写能力,没有随机读写;增量任务速度慢;计算需求-理想状态和数据库关联少;全量时间控制在2小时内,每天做一次全量(join)计算;
P29 搜索离线生产集群中的流计算莫问个人背景简介花名:莫问真名:王峰2006年毕业后加入公司雅虎中国(垂直搜索引擎团队)阿里云(云计算服务团队)淘宝/一淘(网页抓取团队)技术方向:搜索离线系统*提纲搜索离线系统技术体系Hadoop-2.0YARN介绍StreamService计算模型StreamService服务调度StreamService运维操作*搜索离线系统技术体系*HDFSYARNHBaseMapReduceStreamServiceHQueue搜索离线业务网页抓取数据处理数据统计PigHive数据挖掘…….Hadoop-1.0VSHadoop-2.0*ApplicationsonYARN*StreamService计算模型基本概念拓扑结构消息管理进度管理编程接口*基本概念StreamService:完成一套业务功能的流计算服务StreamRole:1个Role表示1组具备相同计算功能的计算单元StreamWorker:StreamRole中的计算单元StreamSource:StreamWorker的数据输入源StreamSink
P16 背景介绍总体设计辅表设计实时更新通用能力性能优化故障恢复未来工作背景介绍广告引擎架构背景介绍广告引擎架构广告数据的多级结构背景介绍广告引擎架构广告数据的多级结构一次广告查询的流程背景介绍newSn之前的状况isearch3.4.1+table,结构复杂不合理;也没有对主辅表支持较好的成熟引擎searchNode代码无层次,功能/性能/业务逻辑交织在一起newSn做到了解耦业务逻辑,业务流程插件化引入持续集成,保证代码质量查询性能4倍提升故障恢复时间大幅降低总体设计索引层:支持主辅表结构,统一的数据层应用层:抽取通用能力,与业务逻辑解耦通用数据接口DSAsummer框架:处理流程插件化辅表设计主表和辅表的区别docId分配机制查询时辅表字段的访问
P21 应用场景实时引擎消息系统应用场景—主搜需求需要解决的问题性能优化更快的从异常中恢复更好的扩展性应用场景—主搜swiftdumphdfs实时引擎Disk Builder Doc Processor Chain Searcher Reader Query实时引擎—优化手段批量job可以利用offline计算资源做索引优化全局排序静态截断大增量merge实时引擎—大增量MergeMerge用于回收被标记删除的文档,减小物理内存和多segment对查询性能的影响引擎以version和segment为单位组织索引。每个version包含多个segment,segment中包括倒排(index)、正排(attribute)和详情(summary)MergeStrategy:指segment合并的策略,目前引擎提供optimize、balanceTree、realtime三种策略实时引擎—大增量MergeSearcherSegment_0IndexReader1Query实时引擎—按行切换
P69 第二章网页样式第二单元本章相关学习资源《网页样式》专题《Web前端基础及数据库开发》第2章《网页样式》学习平台“静态网页制作”课程学生用书第页/共69页预习检查说出使用CSS制作网页的优点。在CSS中,设置字体颜色可以使用什么属性?在CSS中,可以用于创建横向多列布局的属性是什么?第页/共69页本章任务任务1:制作腾讯软件中心页面第页/共69页能够使用CSS美化网页元素能够使用DIV+CSS布局网页能够解决CSS相关的浏览器兼容性问题本章目标点重点难点重点难第页/共69页讲解:CSS语法为什么需要CSS样式?
P42 第一章使用HTML制作网页第二单元本门课程目标使用语义化的HTML标签制作网页使用CSS美化网页元素使用DIV+CSS布局网页使用JavaScript制作常见的网页特效使用正则表达式进行表单验证掌握Oracle数据库基础知识使用Oracle数据库对数据进行操作和管理独立解决使用Oracle数据库时遇到的一些问题第页/共42页课程项目展示课程项目展示第页/共42页本章相关学习资源《使用HTML制作网页》专题《Web前端基础及数据库开发》第1章《使用HTML制作网页》学习平台“静态网页制作”课程学生用书第页/共42页预习检查至少说出5个常用的HTML标签。HTML语义化的概念是什么?
P29 第四章表单验证第二单元第页/共29页本章相关学习资源《表单验证》专题《Web前端基础及数据库开发》第4章《表单验证》学习平台“静态网页制作”课程学生用书第页/共29页预习检查简述表单验证的必要性。使用什么事件可以实现文本输入提示特效?什么方法用于检测一个字符串是否匹配某个表达式?第页/共29页本章任务任务1:验证博客网注册页面任务2:升级验证博客网注册页面任务3:使用正则表达式验证博客网注册页面第页/共29页会使用RegExp对象验证表单本章目标点难点重理解表单验证的必要性及实现思路会使用String对象和文本框对象实现客户端的验证点重第页/共29页串讲:表单验证必要性减轻服务器的压力保证输入的数据符合要求网络根据你的理解,说一说为什么需要表单验证?
P43 第三章JavaScript基础第二单元本章相关学习资源《JavaScript语法》专题《JavaScript制作页面特效》专题《Web前端基础及数据库开发》第3章《JavaScript基础》第页/共43页学习平台“静态网页技术”课程学生用书预习检查说出在网页中引入JavaScript的方式。简述setTimeout和setInterval的区别。说出动态改变样式的两种属性及其取值。第页/共43页本章任务任务1:输出倒正金字塔直线任务2:计算扣税后实得工资金额任务3:网页窗口特效任务4:制作12小时的时钟任务5:表格操作任务
P58 状态收集增加页面缓存状态收集增加页面片段缓存状态收集数据缓存状态收集增加webserver状态收集服务调度分库状态收集服务调度分表、DAL和分布式缓存状态收集服务调度增加更多的webserver状态收集数据读写分离和廉价存储方案状态收集大型分布式应用和廉价服务器群状态收集服务调度实现框架Zookeeper服务集群管理ThriftRPC实现服务模块Nagios数据采集监控ZooKeeper Zookeeper从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群管理。
P18 Palantir是什么?业界理解:数据分析平台,通过图(graphs),地图(maps),统计(statistics),集合(settheory)分析结构或非结构化数据个人理解:用于知识图谱创建,管理,搜索,发现,挖掘,积累的可扩展的大数据分析平台五大支柱数据集成:集成不同源数据,基于语义网(Ontology)来创建实体搜索和发现:围绕Ontology来搜索发现结果和关系知识管理:所有的知识是有权限控制的协作:知识可以在不同的用户之间共享,协同工作算法引擎:对于通用领域问题,提供了通用算法来发现趋势语义网/知识图谱/Ontology构成Palantir的Ontology有:三种基本类型,类型间的关系
P25 第七章缓存及注解第三单元第页/共25页本章相关学习资源《使用缓存提高查询性能》专题《使用注解简化映射配置》专题《升级新闻管理系统》相关专题《使用Hibernate升级新闻管理系统》第7章《缓存及注解》第页/共25页学习平台“Hibernate实现数据持久化”课程学生用书预习检查简述缓存的作用简述Hibernate的缓存分类列举完成实体类常用配置的注解第页/共25页本章任务任务1:使用一级缓存查询特定房屋信息任务2:使用二级缓存和查询缓存任务3:使用注解配置项目任务
P29 第六章Criteria查询及命名查询第三单元第页/共29页本章相关学习资源《使用Criteria查询数据》专题《使用命名查询与本地SQL》专题《使用Hibernate升级新闻管理系统》第6章《Criteria查询及命名查询》第页/共29页学习平台“Hibernate实现数据持久化”课程学生用书预习检查简述如下代码的作用如何使用Criteria实现分页简述实现命名HQL查询的步骤
P120 R语言讲义吴喜之免费(没有权力和铜臭)资源公开,可改变代码(不是黑盒子,也不是吝啬鬼,透明是防止“腐败”的最好方式)容易学习。可编程以实行复杂的课题可扩展:通过数千个网上提供的适用于不同领域、不同目的、不同方法的软件包来实现你的目标。也可以把你的方法贡献出来功能强大(绘图功能,优秀的内在帮助系统,R社区的支持,不断更新,不断修正)没有任何一个商业软件有如此多和如此新的算法世界应用统计学家大都把自己的方法首先以R来实现,并尽量放到R网站上一年多,R网站的软件包数量增加了两倍,从近1000个到近3000多个。大都都有关于计算、演示和输入输出方法的函数和例子数据除非得到巨额资助(或者永远使用盗版软件),没有理由在公立学校教授商业软件绝大多数美国统计研究生都会的语言(Berkeley统计和应用数学本科都开设R语言课)我的很大一部分数据分析知识的来源就是R.我都能学会,并且到处宣传和普及,相信你们会做得更好!
P77 *WebSphereMQ教程*提要WebsphereMQ介绍安装和配置WebsphereMQWebsphereMQ集群WebsphereMQ分布式队列管理WebsphereMQ故障诊断*议程MQ概念中间件MOM异步通信消息原理MQ对象演示Reference(备用)应用案例*MQ简史1992SSI(ServerSideIncludes,服务器端包含),开发了消息产品ezBridge;IBM为网络通信定义了3个API标准:CPI-C,RPC,MQI1992-3IBM开发消息产品(代码Victory)1993IBM从SSI那里购买了ezBridge的版权之后MQSeriesversion1产生(主要运行在大型机上)1994/1995IBM发布三个平台的MQ:AIX,OS/2,和AS/400.到MQSeries5.3(WebSphereMQ5.3)已支持超过35个平台Windows,Linux,多个Unix,……2006年初WebSphereMQ6发布CPI-C(CommonProgrammingInterfaceCommunication,IBM公共通信编程接口)是一个与平台无关的API,它与一套公用的APPC(高级程序间通信)接口。简单直接,在支持CPI-C的所有平台上都可移植。
P58 陈利人微信:diggerchen微博:lirenchen提纲指导思想实例架构进化实现框架常用技术指导思想分而治之(divideandconquer)集中调度(centralizedschedule)缓存(cache)复制(replication)数据采集(sample)实例1:Google早期系统架构 状态收集增加页面缓存状态收集增加页面片段缓存状态收集数据缓存状态收集增加webserver状态收集服务调度分库状态收集服务调度分表、DAL和分布式缓存状态收集服务调度增加更多的webserver状态收集数据读写分离和廉价存储方案状态收集大型分布式应用和廉价服务器群状态收集服务调度实现框架Zookeeper服务集群管理ThriftRPC实现服务模块Nagios数据采集监控ZooKeeperZookeeper从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,负责存储和管理大家都关心的数据,然后接受观察者的注册.
P18 Palantir是什么?业界理解:数据分析平台,通过图(graphs),地图(maps),统计(statistics),集合(settheory)分析结构或非结构化数据个人理解:用于知识图谱创建,管理,搜索,发现,挖掘,积累的可扩展的大数据分析平台五大支柱数据集成:集成不同源数据,基于语义网(Ontology)来创建实体搜索和发现:围绕Ontology来搜索发现结果和关系知识管理:所有的知识是有权限控制的协作:知识可以在不同的用户之间共享,协同工作算法引擎:对于通用领域问题,提供了通用算法来发现趋势语义网/知识图谱/Ontology构成Palantir的Ontology有:三种基本类型,类型间的关系,类型属性三种基本类型:实体(Entities),事件(Events)和文档(Documents)实体:就是物体