曼孚科技以优质的语音转文字网格服务打造经典语音标注品牌,致力于IT技术服务领域推动信息化产业进程而努力。曼孚科技依托IT技术人才,为客户提供一站式的语音标注服务。曼孚科技专注IT领域技术服务十几年来,在技术沉淀了丰富的语音标注项目运作支持经验,在服务上打造了知名的专业服务团队,为客户项目运作提供强有力的支撑和保障。 产品拓展 语音标注是人工智能领域的辅助工作,即:将听到的一段语音,按照自己听到的内容,手动识别为中文文字,不能少字漏字语句错乱!提出一种基于Spark计算框架的海量视频语义标注方法。将存储在Hadoop分布式文件系统(Hadoopdistributedfilesystem,HDFS)上的海量视频部署到若干计算节点上,依据分形特征实现镜头快速分割。提取样本关键帧的颜色、纹理和分形特征向量,进行元学习策略训练,进而形成视觉词典。根据视觉词典对检测视频内容进行分析,产生一系列能表征视频内容的视觉单词语音标注。根据重要程度,通过马尔科夫链按重要程度对视频的视觉单词进行排序,并将排列结果作为该视频的标注。最后,从检测正确率、平均运行时间和扩展效能方面与传统分布式计算模型进行了对比。上述方法在数据量不大、实时性要求不高的情况下,能取得不错的效果。但对于海量视频,有限资源无法支持大规模运算,这些方法的应用受到制约。近年来,新兴大数据技术为海量视频标注提供了一条有效途径,不但解决了大容量视频数据的存储问题,而且,分布式计算也有利于语音标注语义的快速分析。其代表性工具Spark是UCBerkeleyAMPlab开源的并行计算框架,在机器学习处理方面具有独特优势,特别适合解决多次迭代的视频分析问题。因此,本文提出基于Spark的视频标注方法,利用其强计算能力,通过颜色、纹理、分形三重特征表征一类实体,进而采用元学习策略进行训练及预测。相对于传统分布式方法,该方法在语音标注效能方面有较大提升。

