Ocrad.js 是一个OCP的实现库,纯javascript版本的 Ocrad 项目实现。
SoundManager2 是一个 JavaScript 语音 API,对HTML5 和 Flash Audio APIs进行了封装和扩展。 支持MP3, MPEG4 和HTML5 audio + (experimental) RTMP。它为JavaScript提供了可靠的跨浏览器的语音控制,体积很小,只有 11KB 左右。
跨平台开源语音识别软件Simon发布了v0.4版。新版历经了多年的开发,主要新特性有:全新的语音识别层;改进上下文感知准确性和性能;新的对话系统引入脚本变量、整合模板系统、数据引擎和文本语音输出,能支持与用户的完整对话;新的样本评审工具Afaras,Akonadi命令插件,等等。
今天微信在微信公众合作伙伴沟通会上发布了一款全新的语音识别平台——微信语音识别开放平台,会在下个月正式上线。
7月 30 日消息,华为日前正式发布了其 Emotion UI 产品。Emotion UI 是基于 Android 4.0 研发的智能终端人机交互系统,其中文含义为“情感”。
8 月 23 日消息,据外媒报道,Facebook 加入语音计算革命大潮的速度有点儿慢。它还没有自己的语音助手,智能音箱仍在开发中,Instagram 等诸多应用程序也没有完全集成音频通信功能。但从 Facebook 代码中发现的线索以及新的专利申请来看,这一状况将发生很大变化。
语音是一个复杂的现象。我们基本上不知道它是如何产生和被感知的。我们最基础的认识就是语音是由单词来构成的,然后每个单词是由音素来构成的。但事 实与我们的理解大相径庭。语音是一个动态过程,不存在很明显的部分划分。通过音频编辑软件去查看一个语音的录音对于理解语音是一个比较有效的方法。下面就 是一个录音在音频编辑器里的显示的例子。
Windows 10 即将在年内到来,微软也在此前放出了针对桌面设备的预览版供用户体验。但不要忘记,Windows 10 支持手机设备。一直以来,Windows Phone 都在 iOS 和 Android 的打压下艰难生存,微软在手机市场的份额也越来越不理想。收购诺基亚移动、笼络手机厂商再加上 Windows 10,可以说是 Windows 手机的“复兴三部曲”,那么 Windows 10 手机是否会重新吸引用户的注意力呢?我们不妨通过早期的预览版来一探究竟。
Google Chrome 浏览器的开源版本 Chromium 被发现会在启动时自动下载一个二进制文件——Chrome Hotword Shared Module。该模块没提供源代码,功能没有默认激活,它的功能是监听用户电脑的麦克风,如果用户发说了“OK, Google”,
Google 内部的 Brain 团队正在进行 一项试点研究 ——运用现有的语音识别技术来记录医生与患者之间的医疗对话。
10 月 17 日,国际语音识别领域的大神级人物、前约翰霍普金斯大学(Jonhs Hopkins University)教授、 语音识别开源工具 Kaldi 之父 Daniel Povey 在个人 Twitter 上宣布,他已经非常接近于与小米签订一项工作协议,工作地点位于北京
Google 今天正式发布了 Chrome 25,Windows、Mac、Linux 和 Chrome Frame 浏览器框架用户均将获得自动更新,升级至 25.0.1364.97。Chrome 25 带来了众多新功能,新增了语音识别 API,禁止扩展/插件的静默安装。
坐在俯瞰华盛顿贝尔维尤市中心的办公室里,微软的 Fil Alleva 正聊起包括他在内的专家们在语音识别探索过程中走过的漫长而艰辛的道路 —— 从 20 世纪 70 年代的早期研究一直聊到了技术的现状。现在,你只需转过头对电脑说: “ 小娜,我想来张披萨饼 ” ,接下来你就可以等着吃了。
本文是腾讯深度学习系列文章的第三篇,聚焦于腾讯深度学习平台(Tencent Deep Learning Platform)中深度神经网络DNN的多GPU数据并行框架。
一、常用数据结构:数组,堆,栈,队列,链表,树,图,散列表 数组:把具有相同类型的若干变量按有序的形式组织起来。 堆:是一个特殊的树形数据结构,每个结点都有一个值。一般说的堆是指二叉堆。他的最大特点就是根节点的值最小或最大,并且根节点的两个子树也是一个堆。
近日,阿里巴巴达摩院机器智能实验室推出了新一代语音识别模型 DFSMN,将全球语音识别准确率纪录提高至 96.04%(这一数据测试基于世界最大的免费语音识别数据库 LibriSpeech)。
最近,IBM 的一个研究团队宣布他们在语音识别上创造了一个新的业界纪录,在使用 SWITCHBOARD 语料库的情况下词错误率为 5.5%,接近于人类的错误率 5.1%。人们一般会在所听到的 20 个单词中遗失其中的一到两个。在一次五分钟左右的对话中,大约会遗失 80 个词。
日前, Facebook 人工智能研究院发布 wav2letter 工具包,它是一个简单高效的端到端自动语音识别(ASR)系统,实现了 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 这两篇论文中提出的架构。如果大家想现在就开始使用这个工具进行语音识别,Facebook 提供 Librispeech 数据集的预训练模型。
使用MediaRecorder的步骤: 1、创建MediaRecorder对象 2、调用MediRecorder对象的setAudioSource()方法设置声音的来源,一般传入MediaRecorder.MIC 3、调用MediaRecorder对象的setOutputFormat()设置所录制的音频文件的格式 4、调用MediaRecorder对象的setAudioRncoder()、setA
Luasynth 是个小型 Lua 语音框架,使用 Lua 编写,非常简洁,模块化,声明式代码。可以查看 (effects/pan.lua) 和延迟 (effects/delay.lua)的源代码,都非常短。