专利名称:媒体播放设备的制作方法
技术领域:
本实用新型涉及媒体播放设备,特别是涉及通过声音输入选择所需乐曲的媒体播 放装置。
背景技术:
多媒体播放器,如MP3、 MP4、移动终端、电脑等已相当普及,这些设备通常都具 有较大的信息存储容量,存储了很多条多媒体信息。要从这些多媒体信息中选择所需的 多媒体信息进行播放的方法主要是先将多媒体信息按一定规则进行分类,然后以选择菜 单的方式由操作者通过操作界面进行选择。当多媒体信息内容很多时,将会使操作界面 的菜单层次很多,以至于选择到所需的多媒体信息也是比较困难的。而且通常操作界面 所显示的菜单选项通常只显示多媒体信息的标题,当多媒体信息内容很多时,人们往往 看到标题有时也不能知道是否是所需内容,往往选中后试听或试看后发现不是所需,再 重新选择的情况。
在互联网络发展的今天,网络中的多媒体内容更是十分庞大,从中搜索所需内容 并不容易,特别是当人们记不清多媒体内容的标题时搜索更是难以获得。
近年来,语音识别技术和基于声音控制操作电子设备的研究也比较多,在一些移 动终端设备上也一些商用,如通过声音选择进行电话拨打操作等。美国专利文件 No. 4, 277, 644和No. 6, 101, 467覆盖了语音识别软件的各个方面。而且用于表征音频内 容的方法也有描述。特别是美国专利No. 6, 054, 646和No. 6, 173, 250覆盖了用于通过节 拍、能量、音高等特征来表征音乐的方法。
尽管有针对语音识别、音频信号分析和音乐特征的表征方法的进步和近年来的发 展,以及在一些电子设备上实现语音控制,但其应用在很多情况下并不能满足人们的需 求。例如,经常出现的一种情况是,人们使用多媒体播放器选择自己喜欢的多媒体内容 时出现一些困难,当时也许能够哼出该多媒体信息中乐曲的某个片断或某一句或者仅仅 能够哼出乐曲旋律的一小节的近似内容,但就是想不起来多媒体内容的标题,因而无法 有效地找到所需的媒体内容。
在
公开日为2005年7月13日,公开号为CN1639975A的中国发明专利申请公开内容中提到了通过提取信号源的语音特征后用语音特征去选择所需信号源的内容。特别是 该公开文件中公开的看门狗功能(Watch Dog):用户可以向音频记录器-播放器中音频分 析器唱或哼出一个样式(pattern),然后音频记录器-播放器可以针对那个特定的音调来 监视不同的频道,而且用户可以通过声音识别软件将所说的词输入给音频记录器-播放 器,然后音频记录器-播放器可针对包含这些词的一些或全部的对话和独白而监视不同 频道。采用高级匹配算法,即当短语在预定的秒数中出现两次或三次时宣布匹配的算法。 当出现匹配时,可以产生一个控制事件,控制频道的切换。
但上述描述的技术应用到具有较大容量的多媒体播放器时有其缺陷。因为使用多 媒体播放器并非都是专业人员,所唱出或哼出的片断或一句内容或者乐曲旋律的内容 时,往往并不是标准的内容,如乐曲旋律的节拍并不一样、或者乐曲旋律的音调并不一 样,但其所哼出或唱出的内容与所希望选择的内容又有一定的相似性。比如一首乐曲是 C调的,录制的多媒体信息也是基于C调的,但人们哼出或唱出的内容可以用F调或C 升调或C降调,但乐曲的韵律却基本相似,人们可以判断出是同一首乐曲;或者一首乐 曲是2/4节拍,但哼出或唱出的内容却可能是4/4节拍,但乐曲的韵律却基本相似,人 们可以判断出是同一首乐曲。在这种情况下,现有技术是没有很好解决的。
另一方面,对于媒体播放器,还存在的情况是,人们希望某条媒体信息从某个点 开始播放,现有技术通常是采用快进按钮或快退按钮,但这种操作方式,只能凭操作者 进行预估前进或后退位置,通常不准确,需要多次按快进按钮或快退按钮才能完成。现 有的数字媒体记录方式虽然提供了目录式菜单选择方式以选定某条媒体的播放,但仍然 不能解决按人们的期望快速控制媒体播放起点的问题。
另外,音乐的版权问题,也越来越受到关注,特别是音乐的抄袭问题时有报道, 而且一些抄袭者为了躲避相应的法律规定的漏洞,将乐曲的音调或节拍稍作调整,使其 与原曲从形式上不同,但实体内容仍然相似,这种相似性如何被认为是抄袭,现有技术 也没有提出相应的方法。
实用新型内容
本实用新型所要解决的技术问题是如何更有效地从媒体存储体或从互联网络中选 择所需的多媒体信息并有效地随意控制媒体播放的起点。本实用新型采用语音特征提 取、分段提取、相似度计算、相似性判定的方法来实现声音控制电子设备或网络操作实现自动获取所需多媒体信息。同时本实用新型的技术还可以用于或者实现乐曲抄袭或相 似性的自动判定。
术语说明;本文中所指的语音特征是与输入语音的韵律相关的特征信息,而韵律 是以每个可识别的音节为基础,也就是说, 一段多媒体包含很多音节,而提取语音特征 时是以每个音节为基础获得的特征,每个音节的特征按顺序组合在一起即构成了这段多 媒体信息的整个韵律或旋律,因此所提取特征组合可以截取其中任意一段,作为本实用 新型中进行特征比对的基础。当一段语音输入包含多个旋律时,可以仅提取主旋律特征 或者提取所有旋律的特征。在本文中语音特征和特征信息是相同含义。
术语说明本实用新型所指的媒体信息与多媒体信息具有相同的含义,都是指包 含有声音信息的语音信息、音乐信息、视频信息、数据信息或这些信息的任意组合。
术语说明本实用新型所指相似度是指两个信息之间采用相关性算法得出的表示 信息相关性的数据,所述相关性算法包含线性相关性计算方法或非线性相关性计算方 法。线性相关性计算方法和非线性相关性计算方法在现有的数学领域和实验物理学中已 经给出了很多种数学模型和计算方法,作为与本实用新型相关联的现有技术进行引用。
为解决上述问题,提出的技术解决方案是
1、 一种多媒体播放装置第一种方案,包括存储了至少一条多媒体信息的信息存储体和 多媒体信号输出部件,其特征是还包括
声音输入部件,既可以是通过声音传感器输入声音,也可以是是一段预先制作的声 音文件输入信息;
特征提取部件,从所述声音输入部件输入的声音信号或信息中提取第一特征信息; 媒体信息特征存储部件,存储了对应于所述每条多媒体信息的第二特征信息; 特征相似性计算部件,用于判断所述第一特征信息与所述每条多媒体信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判断部件,从所述相似度数据中选取相似度最大值;
多媒体信息选择部件,从所述信息存储体中选择相似度最大值的信息段所在的那条 多媒体信息传送到所述多媒体信号输出部件。
2、 一种多媒体播放装置第二种方案,包括存储了至少一条多媒体信息的信息存储体和 多媒体信号输出部件,其特征是还包括-声音输入部件,既可以是通过声音传感器输入声音,也可以是是一段预先制作的声 音文件输入信息;
特征提取部件,从所述声音输入部件输入的声音信号或信息中提取第一特征信息;
媒体信息特征计算部件,计算对应于所述每条多媒体信息的第二特征信息;
特征相似性计算部件,用于判断所述第一特征信息与所述每条多媒体信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判断部件,从所述相似度数据中选取相似度最大值;
多媒体信息选择部件,从所述信息存储体中选择相似度最大值的信息段所在的那条 多媒体信息传送到所述多媒体信号输出部件。
3、对于第一特征信息和第二特征信息的提取方法,以大家熟悉的歌曲为例,可提取这
首歌曲的主旋律特征信息,如用简谱或五线谱表示,简谱中包含了节拍速度和音调
的信息。可以把主旋律特征信息作为本实用新型的第二特征信息;而不同的人唱出 或哼出这首歌曲时,其节拍速度和/或音调可能与这首歌曲本身确定的节拍速度、音 调不同,也可能与所录制成多媒体信息的信息段中第二特征信息的节拍速度、音调 不同,但如果都是针对同一首歌曲演唱,他们的主旋律是存在很大的相似性的。因 此对于第二特征信息进行节拍调整和/或音调调整后,再与第一特征信息进行相似性 计算。所述旋律也可以用五线谱或其他旋律表示。在音乐的多媒体信息处理中,其 中一种音乐媒体格式是乐谱文件,这种文件以表示音符、乐器以及清晰度信息的数 据形式存储声音,最流行的数据格式是MIDI数据格式。MIDI文件包含如何再现声 音的规范,可被认为是电可读格式的一张乐谱,它包含有关在重放各MIDI文件中 存储的数据所表示的乐谱时要考虑的声道、所用的装置以及升学参数的信息。集合 术语"声学参数"表示定义例如音高、音符或其余值分别为响应等级、音速、音色 或特殊效果如颤音或混响的描述。因此所述MIDI文件包含了本实用新型所需要的 第二特征信息,可以针对每一条或每一首多媒体信息所对应的MIDI文件作为本实 用新型的第二特征信息,相应的,第一特征信息的提取也采用相同方法,提取出输 入语音的MIDI文件作为第一特征信息。或者对于每一条或每一首多媒体信息所对 应的MIDI文件再进行数据提取去除乐器、响应等级、音色颤音、混响等特征之一 或几个后作为本实用新型的第二特征信息,相应的,第一特征信息的提取也采用相同方法,提取出输入语音的MIDI文件去除音速、乐器、响应等级、音色颤音、混 响等特征之一或几个后作为第一特征信息。
在美国专利No. 6, 054, 646中给出了通过从声音信号中提取特征信号的方法,包括倒 频谱系数法(MFCC: Mel Frequency C印stral Coefficients )、线性预测编码法(LPC: Linear Predictive Coding)。同时也给出了将MFCC特征转化为MIDI文件的参数映射 描述。本实用新型在这里全文引用美国专利No.6,054,646的内容。另外在现有的互联 网络中可以很容易找到将采集的声音波形文件(WAVE)转换为MIDI文件的软件,还有将 MIDI文件转换为简谱的软件以及将MIDI文件转换为五线谱的软件。因此本实用新型在 这些现有知识的基础之上实现本实用新型的内容以判定输入的声音信息与存储的多媒 体信息之间的关联性。 一种实现方案可以描述如下-
对于输入的声音信号提取MFCC系数,然后用MFCC系数生成MIDI文件,再将MIDI 文件转换为简谱文件,以简谱文件作为第一特征信息;对于存储的多媒体信息采用相同 的方法提取MFCC系数,然后用MFCC系数生成MIDI文件,再将MIDI文件转换为简谱文 件,以简谱文件作为第二特征信息;然后计算第一特征信息与第二特征信息的相似度, 根据相似度计算结果就可以实现本实用新型所需要达到的功能。在不同应用要求中,对 于第一特征信息与第二特征信息还可以进行进一歩的变换,如第二特征信息还包含所述 多媒体信息对应的简谱文件进一歩生成的基于各种大调的简谱文件的组合,即假如原多 媒体信息的简谱文件是C大调的,可以进一歩生成D大调、E大调、G大调等的简谱文
件作为第二特征信息的部分;再如第二特征信息还包含所述多媒体信息对应的简谱文件 进一步生成的基于各种节拍的简谱文件的组合,即假如原多媒体信息的简谱文件是2/4 拍的,可以进一步生成4/4拍、6/8拍等的简谱文件作为第二特征信息的部分;再如将 简谱文件每个音调都用一个数字表示,将相邻的相同音调合并为一个音调,然后再进行 相似度计算,可以排除输入的声音因音调不准或节拍不同造成相似度的差异。
一种可选实现方案中,第一特征信息与第二特征信息可以就是MFCC系数或LPC系数, 直接对于MFCC系数或LPC系数进行相似度计算;还可以就是MIDI文件,直接对于MIDI 文件进行相似度计算。
4、所述第一特征信息包含声音音调信息和/或音调变化信息;所述第二特征信息包含多 媒体信息中包含的声音音调信息和/或音调变化信息。5、 或者所述第一特征信息包含声音音高信息和/或音高变化信息;所述第二特征信息包 含多媒体信息中包含的声音音高信息和/或音高变化信息。
6、 一种多媒体信息选择方法第一种方案,从至少一条多媒体信息和每条多媒体信息对 应的第二特征信息的信息存储体中选择所需的多媒体信息,其特征是包括如下步骤-
第一步通过声音输入部件输入声音信号;
第二步从所述声音输入部件输入的声音信号中提取第一特征信息;
第三步计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意一 段信息的相似度数据;
第四步从所述相似度数据中选取相似度最大值;
第五步从所述信息存储体中选择相似度最大值的信息段所属的第二特征信息; 第六步从信息存储体中根据所属的第二特征信息检索到所对应的那条多媒体信息。
7、 该方法还包括将所对应的那条多媒体信息输出的歩骤。
8、 该方法,还包括向信息存储体中输入多媒体信息的歩骤,通过有线或无线方式从其 他介质中将多媒体信息输入到信息存储体中或者通过网络连接把多媒体信息下载到 信息存储体中。
9、 进一步的是该方法,还包括对所述输入的多媒体信息计算对应的第二特征信息的步 骤并存储在所述信息存储体中。
10、 或者该方法还包括直接向信息存储体中输入多媒体信息和对应的第二特征信息 的歩骤。
11 、 所述第二特征信息中的任意一段信息的长度与所述第一特征信息的长度相同, 或者所述第二特征信息中的任意一段信息通过节拍调整后和/或音调调整后与所述 第一特征信息的长度相同。
12、 所述第二特征信息与所述第一特征信息是音乐的韵律或旋律信息。
13、 或者所述第二特征信息与所述第一特征信息是去除了音拍长度的韵律或旋律信 息。
14、 所述第三步的计算方法是线性相关性计算方法。 一种实现是基于简谱的第一特征信息和第二特征信息,由于通常简谱可用三个八度音符和节拍完全表示。由于音 符都是1到7的数字加上高音符或低音符以及停顿音(通常用0表示)表示。当转
化为本实用新型所述特征信息可以进行如下处理。对于高音(第三个八度)用8到 15共7个数字表示,对于低音(第一个八度)用-7到-1共7个数字表示,对于中音 (第二个八度)用l-7共7个数字表示,停顿音用0表示,因此本实用新型所述的 特征信息在这个实现方案中被转变成了数字信息,每个节拍对应一个数字。用线性 相关度计算方法,可以很容易计算出第一特征信息和第二特征信息的相似性,即使 第一特征信息与第二特征信息的音高或音调不同,但如果存在相似,则每个节拍音 高或音调都会相应地变化。如第二特征信息是音乐中的C调,但第二特征信息可以 是B调,由于每个节拍的数字都根据所确定的调而发生相应地变化,虽然每个节拍 的数字不同,计算的相似度却很高。线性相似度的数学计算方法属于公知算法,这 里就不再赘述。有时也会出现输入语音的第一特征信息所表示的节拍与多媒体信息 的第二特征信息的节拍不同,如第二特征信息是2/4节拍,而第一特征信息是4/4 节拍,但其表示的主旋律却可能是相似的,因此计算相似度之前需要对于第一特征 信息和/或第二特征信息的节拍进行调整。调整方法之一是将一个节拍的数据以相同 的数据扩展一个节拍,如某个节拍的数据为5可以调整为两个节拍,每个节拍都是 5;调整方法之二是将数据相同的两个相连节拍縮减为一个节拍,如某两个相连节拍 的数据都为5可以调整为一个节拍,节拍数据是5。
15、 一种多媒体信息选择方法的第二种方案,从至少存储了一条多媒体信息的信息 存储体中选择所需的多媒体信息,其特征是包括如下步骤 第一步通过声音输入部件输入声音信号;
第二歩从所述声音输入部件输入的声音信号中提取第一特征信息; 第三步计算每条多媒体信息对应的第二特征信息;
第四步计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意一
段信息的相似度数据;
第五步;从所述相似度数据中选取相似度最大值;
第六步;根据相似度最大值的信息段所属的第二特征信息检索到所对应的那条多媒
体信息。第二种方案与第一种方案的差别在于每条多媒体信息的第二特征信息是预先存储 在存储体中,还是应用需要时才计算出来。
16、 一种多媒体信息播放器操作方法的第一种方案,从至少一条多媒体信息和每条 多媒体信息对应的第二特征信息的信息存储体中选择所需的多媒体信息进行播放, 其特征是包括如下步骤
第一步通过声音输入部件输入声音信号;
第二步从所述声音输入部件输入的声音信号中提取第一特征信息;
第三步计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意一 段信息的相似度数据;
第四步从所述相似度数据中选取相似度最大值;
第五步从所述信息存储体中选择相似度最大值的信息段所属的第二特征信息;
第六步从信息存储体中根据所属的第二特征信息检索到所对应的那条多媒体信息 进行播放输出。
每条多媒体信息对应的第二特征信息可以采用MIDI文件,或者抽出MIDI文件的 部分要素。
17、 一种多媒体信息播放器操作方法第二种方案,从至少存储了一条多媒体信息的 信息存储体中选择所需的多媒体信息,其特征是包括如下歩骤-
第一歩通过声音输入部件输入声音信号;
第二步从所述声音输入部件输入的声音信号中提取第一特征信息; 第三步计算每条多媒体信息对应的第二特征信息;
第四步;计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意一 段信息的相似度数据;
第五步从所述相似度数据中选取相似度最大值;
第六歩根据相似度最大值的信息段所属的第二特征信息检索到所对应的那条多媒 体信息进行播放输出。
本实用新型所述技术还可以用于判断两首音乐的相似性,在判断音乐是否抄袭中具 有较大的用处。18、 一种进行音乐相似性判断方法,对于第一音乐与第二音乐进行相似性判断,其 特征是包括如下步骤
第一步从所述第一音乐的多媒体信息中提取第一特征信息;
第二步将所述第一特征信息分解成以任意一起点开始的一定长度的多个信息段; 第三步从所述第二音乐的多媒体信息中提取第二特征信息;
第四步计算所述多个信息段的任意一段与所述第二特征信息中的任意一段信息的 相似度数据;
第五歩从所述相似度数据中选取相似度最大值;
第六歩判断相似度最大值是否超过设定的阀值,如果超过设定的阀值则判断所述 第一音乐与所述第二音乐相似性高,否则所述第一音乐与所述第二音乐相似性低。
上述一定长度的多个信息段中,对于一定长度的规定可以与相关的法律文件的定义 进行关联,如规定连续7个节拍的相似被认定为抄袭的话,可以将所述一定长度设定为 7个节拍的长度。
上述设定的阀值的含义是根据对于相关法律的执行严格程度来确定的。对于严格的 相似才算抄袭,则设定的阀值就很高,接近l;当执行严格程度降低时设定的阀值就可 适当降低,如为0.8或0.9。
19、 一种对于互联网中的音乐进行音乐相似性判断方法,其特征是包括如下歩骤
第一步输入第一音乐的多媒体信息的第一特征信息或者输入第一音乐的多媒体信
息后从所述第一音乐的多媒体信息中提取第一特征信息;
第二步将所述第一特征信息分解成以任意一起点开始的一定长度的多个信息段;
第三步从互联网络中下载第二音乐的多媒体信息的第二特征信息或者从互联网络 中下载第二音乐的多媒体信息后从所述第二音乐的多媒体信息中提取第二特征信息;
第四步计算所述多个信息段的任意一段与所述第二特征信息中的任意一段信息的
相似度数据;
第五步从所述相似度数据中选取相似度最大值;
第六步判断相似度最大值是否超过设定的阀值,如果超过设定的阀值则判断所述 第一音乐与所述第二音乐相似性高,否则所述第一音乐与所述第二音乐相似性低。上述一定长度的多个信息段中,对于一定长度的规定可以与相关的法律文件的定义 进行关联,如规定连续7个节拍的相似被认定为抄袭的话,可以将所述一定长度设定为 7个节拍的长度。
上述设定的阀值的含义是根据对于相关法律的执行严格程度来确定的。对于严格的 相似才算抄袭,则设定的阀值就很高,接近h当执行严格程度降低时设定的阀值就可 适当降低,如为0.8或0.9。
采用本实用新型的技术还可以用于互联网络中进行媒体信息搜索,提供一种更加有 效的一种搜索系统和搜索方法。
20、 一种网络搜索系统的一种方案,包括远端服务器部件和近端部件,其特征是
所述近端部件包含
声音输入部件;
特征提取部件,从所述声音输入部件输入的声音信号中提取第一特征信息; 信息发送部件,将第一特征信息通过网络传递到所述远端服务器部件; 信息接受部件,接收所述远端服务器部件发送过来的多媒体信息; 所述远端服务器部件包含
信息接受部件,接收从所述近端部件发送过来的第一特征信息; 媒体信息存储部件,存储了至少一条多媒体信息;
媒体信息特征存储部件,计算并存储或预先存储了对应于所述每条多媒体信息的第 二特征信息;
特征相似性计算部件,用于判断所述第一特征信息与所述每条多媒体信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判断部件,从所述相似度数据中选取相似度最大值;
多媒体信息选择部件,从所述媒体信息存储体中选择所述相似度最大值的信息段所 在的第二特征信息对应的一条或多条多媒体信息传送到所述近端部件。
21、 一种网络搜索系统的第二种方案,包括远端服务器部件和近端部件,其特征是:
所述近端部件包含
声音输入部件;特征提取部件,从所述声音输入部件输入的声音信号中提取第一特征信息;
下载部件,从所述远端服务器部件下载每条多媒体信息的第二特征信息;
近端存储部件,存储来自下载部件的每条多媒体信息的第二特征信息
特征相似性计算部件,用于判断所述第一特征信息与所述每条多媒体信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判断部件,从所述相似度数据中选取相似度最大值; 选择部件,从所述存储部件中取出相似度最大值所对应的第二特征信息; 信息发送部件,将选择部件所选择的第二特征信息通过网络传递到所述远端服务器 部件;
信息接受部件,接收所述远端服务器部件发送过来的多媒体信息; 所述远端服务器部件包含
信息接受部件,接收从所述近端部件发送过来的第二特征信息; 媒体信息存储部件,存储了至少一条多媒体信息;
媒体信息特征存储部件,计算并存储或预先存储了对应于所述每条多媒体信息的第 二特征信息;
多媒体信息选择部件,从所述媒体信息存储体中选择与所述信息接受部件中接受到 的第二特征信息所对应的一条或多条多媒体信息传送到所述近端部件。
22、 所述多媒体信息是下列信息之一或其组合文字、图片、声音、乐曲、电影、 电视。
本实用新型的技术还可以用于根据声音输入自动翻页的装置,如演奏家的乐谱翻页等。
23、 一种自动翻页装置,包括存储了至少一条多媒体信息的媒体信息存储体和显示 部件,其特征是还包括
声音输入部件;
特征提取部件,从所述声音输入部件输入的声音信号中提取第一特征信息; 媒体信息特征存储部件,计算并存储或预先存储了对应于所述每条多媒体信息的第 二特征信息;特征相似性计算部件,用于判断所述第一特征信息与所述显示部件所显示的多媒体 信息的部分所对应第二特征信息相似度最大的信息段所对应的多媒体信息的当前位置;
翻页判断部件,当所述多媒体信息的当前位置是所述显示部件所显示的多媒体信息 的部分的结尾则所述显示部件显示所述多媒体信息的下一页内容;
24、 一种唱歌辅助学习系统的一种方案,包括存储了至少一条多媒体信息的存储体, 其特征是还包括-
声音输入部件;
特征提取部件,从所述声音输入部件输入的声音信号中提取第一特征信息;
媒体信息选择部件,选择准备学习的某条多媒体信息;
媒体信息特征提取部件,提取所选定多媒体信息的第二特征信息;
特征相似性计算部件,用于计算并判断所述第一特征信息与所选定多媒体信息对应 第二特征信息相似度;
信息提示部件,根据信息相似度给出输入的声音与多媒体信息的差异。
25、 一种唱歌辅助学习系统的第二种方案,包括存储了至少一条多媒体信息和与每 条多媒体信息对应的第二特征信息的存储体,其特征是还包括
声音输入部件;
特征提取部件,从所述声音输入部件输入的声音信号中提取第一特征信息; 媒体信息选择部件,选择准备学习的某条多媒体信息;
特征相似性计算部件,用于计算并判断所述第一特征信息与所选定的多媒体信息对 应第二特征信息相似度;
信息提示部件,根据信息相似度给出输入的声音与多媒体信息的差异。
本实用新型的有益效果采用本实用新型的技术可以实现更有效地从媒体存储体 或从互联网络中选择所需的多媒体信息,通过输入媒体相关的部分语音特征信息,如哼
唱某首歌曲的片断即可检索到这首歌曲的完整信息;同时本实用新型的技术还可以更有
效地区分一首乐曲是否有抄袭其他乐曲。本实用新型采用语音特征提取、分段提取、相 似度计算、相似性判定的方法来实现声音控制电子设备或网络操作实现自动获取所需多媒体信息,或者实现乐曲抄袭或相似性的自动判定,并还可以实现乐曲自动翻页功能、 唱歌辅助学习功能。本实用新型实现媒体播放器可以实现通过语音输入从媒体播放器中 选择与输入语音具有很大相似度的媒体信息,完全改变了现有媒体播放器的操作方式, 具有更准确的媒体信息定位特征,而且大多数情况不用手的操作,直接通过说或唱就可 进行媒体信息的选择并可以控制媒体的播放起点,大大降低了用户的操作难度,即使对 于盲人或不懂播放器操作的用户都可以实现媒体播放器的操作。本实用新型实现媒体搜 索系统可以实现通过语音输入从互联网络或局域网络中的各种媒体服务器中选择与输 入语音具有很大相似度的媒体信息,完全改变了现有网络搜索引擎或搜索工具的搜索方 式,具有更准确的媒体信息定位特征,而且大多数情况不用手的操作,直接通过说或唱 就可进行媒体信息的搜索,大大简化了用户的操作难度,即使对于盲人或不懂电脑操作 的用户都可以实现媒体信息的搜索。
图1是本实用新型第一种实现多媒体信息检索的系统工作原理示意图。 图2是本实用新型第二种实现多媒体信息检索的系统工作原理示意图。 图3是本实用新型中第一特征信息与第二特征信息进行相似度计算的第一种算法 工作原理示意图。
图4是本实用新型中第一特征信息与第二特征信息进行相似度计算的第二种算法
工作原理示意图。
图5是本实用新型中第一特征信息与第二特征信息进行相似度计算的第三种算法 工作原理示意图。
图6是本实用新型通过声音输入选取多媒体信息的工作流程示意图。
图7是本实用新型通过声音从互联网络中选取多媒体信息的第一种系统实现示意图。
图8是本实用新型通过声音从互联网络中选取多媒体信息的第二种系统实现示意图。
图9是本实用新型实现乐谱自动翻页系统原理示意图。 图IO是本实用新型实现唱歌辅助学习系统原理示意图。 图11是本实用新型实现媒体播放器原理示意图。
具体实施方式
本实用新型的核心点在于,对输入的声音信息进行处理,提取第一特征信息,然 后采用特定算法与多媒体信息中的第二特征信息进行相似度计算。选出相似度最大的那 条多媒体信息作为所输入的声音所希望选定的多媒体信息。当多媒体信息与声音输入及 其处理部件集中在一个嵌入式系统中,可以设计出基于本实用新型的媒体播放器、掌上 电脑、移动终端、笔记本电脑等便携式设备。当多媒体信息存储在服务器中,而声音输 入在客户端中,声音信息处理部件既可以集成到服务器中又可以集成到客户端中,服务 器与客户端通过局域网络或互联网络进行连接,可以设计出基于本实用新型的媒体搜索 系统、音乐侵权判定系统、歌唱学习系统、乐谱自动翻页装置。
以下结合附图进一步描述本实用新型的具体实施方案。
图1是基于本实用新型实现声音输入选择的媒体播放系统第一种实现方案。该方 案中,特征相似度计算部件105的包含两个输入 一个是来自第一特征信息提取部件 103,它通过处理来自语音输入部件IOI的语音信息,从中提取特征信息;另一个是来 自第二特征信息中的任意一段信息截取部件104,它通过从媒体信息特征存储部件102 取出媒体信息的特征,然后截取任意一段特征信息。特征相似度计算部件105将计算出 的多个相似度数据输出给特征相似度判断部件106,由该部件进行筛选比较,从中选取 相似度最大的那段特征信息所属的第二特征信息作为多媒体信息选择部件108从信息 存储体107中选择所需多媒体信息。媒体信息特征存储部件102所存储的第二特征信息 与信息存储体107存储的媒体信息是一一对应的,即媒体信息特征存储部件102的一条 第二特征信息与信息存储体107中的一条媒体信息是一一对应的。这种对应关系也存储 在媒体信息特征存储部件102中或信息存储体107中。具体实现中,媒体信息特征存储 部件102和信息存储体107可以合并成由一个存储部件,其中第二特征信息与媒体信息 的对应可以采用数据表格存储形式,也可以采用数据库的存储形式。典型的语音输入部 件101具体实现比如是由麦克风、麦克风信号处理电路及语音信号数字化采集电路构 成。第一特征信息提取部件103从所输入的语音中提取的特征比如是语音中的韵律信 息、音高信息等,并进一步可以转化为乐谱信息,作为特征。作为媒体播放系统的实现, 具体设计中,其中第一特征信息提取部件103、第二特征信息中的任意一段信息截取部 件104、特征相似度计算部件105、特征相似度判断部件106和多媒体信息选择部件108 都由媒体播放器的处理器通过软件实现。其实现的效果是,当人们希望媒体播放器播放某条媒体信息时,可以对着语音输入部件101的由麦克风哼唱该媒体信息所包含的音乐 信息的片断,利用本实用新型的方法媒体播放器就可以自动选择出与所哼唱片断最近似 的媒体信息进行播放,因而省却了因忘记媒体信息名称或因媒体信息太多而进行多级菜 单操作的烦恼。即使媒体播放器的使用者所哼唱的乐曲片断并不太准确,只有基本的韵 律相似即可,因而具有很大的实用性、适应性、可操作性。本实用新型实现媒体播放器
可以实现通过语音iii入从媒体播放器中选择与输入语音具有很大相似度的媒体信息,完 全改变了现有媒体播放器的操作方式,具有更准确的媒体信息定位特征,而且大多数情 况不用手的操作,直接通过说或唱就可进行媒体信息的选择,大大简化了用户的操作难 度,即使对于盲人或不懂播放器操作的用户都可以实现媒体播放器的操作。
图2是基于本实用新型实现声音输入选择的媒体播放系统第二种实现方案。该方 案与图1所示方案的不同之处在于,第二特征信息并不是预先存储在存储体中,而是由 媒体信息特征计算部件202通过读取信息存储体107中的媒体信息来计算出第二特征信 息。这种实现方案相比于第一种方案的好处在于,可以利用人们对于语音特征的进一歩 研究成果通过随时更新媒体信息特征计算部件202的算法来提高所提取特征的效率或 调整所提取的特征内容。 '
图3是基于本实用新型的第一特征信息与第二特征信息进行相似度计算的第一种 方法原理示意图。在该图中,假定第一特征信息的长度为4字节,特征内容302每个字 节位置分别标记为a、 b、 c、 d,第一特征信息301的长度为16字节,每个字节的位置 标记为l、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 13、 14、 15、 16。截取第二特征信 息的方法是以任一字节为起点截取相同长度的字节数,省去字节长度不够的截取值。这 样得到13个截取段,每个截取段的字节位置分别为1、 2、 3、 4; 2、 3、 4、 5; 3、 4、 5、 6; 4、 5、 6、 7; 5、 6、 7、 8; 6、 7、 8、 9; 7、 8、 9、 10; 8、 9、 10、 11; 9、 10、 11、 12; 10、 11、 12、 13; 11、 12、 13、 14; 12、 13、 14、 15; 13、 14、 15、 16。每个 截取段分别与第一特征信息进行相似度计算得到计算结果303,计算结果303包含13 个数值,表示为Rl、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 Rll、 R12、 R13。 对于n条多媒体信息,假定每条多媒体信息的第二特征信息长度相同,都为16字节, 则按上述相似度计算共有13 * n个值,从13 * n个值中再选取最大值,根据该最大值 所对应的第二特征信息段,就可以得知该第二特征信息,然后根据媒体信息与第二特征 信息的对应关系检索到相应的那条媒体信息。由于每个人哼唱相同的曲调,或说出相同内容的话,哼唱或说话的速度不一定相 同,因此所哼唱或说出内容的韵律特征可能比媒体信息的韵律特征的相同片断的长度不 同,如某个音节再媒体信息中是单个l/4拍,而哼唱或说出该音节的韵律特征可能是两 个l/4拍;或者某个音节再媒体信息中是两个l/4拍,而哼唱或说出该音节的韵律特征 可能是单个1/4拍。因此为了提高相似度计算的兼容性和可靠性,在进行相似度计算中, 包含对于第一特征信息和/或第二特征信息的相邻的相同特征字节合并为一个特征字节 的情况。图4是基于本实用新型的第一特征信息与第二特征信息进行相似度计算的第二 种方法原理示意图。该图中,除了按图3的方式,在对第一特征信息402和第二特征信 息401都不做合并处理,计算相似度结果403,计算结果403包含13个数值,表示为 Rl、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 Rll、 R12、 R13。图中第二特征信 息401有两处相邻特征相同,即特征2和特征6,我们将相邻相同特征合并为一个特征, 此时,第二特征信息变成第二特征信息的合并信息404,然后第一特征信息402与合并 信息404按相同的相似度计算方法得到结果405,计算结果405包含10个数值,表示 为R14、 R15、 R16、 R17、 R18、 R19、 R20、 R21、 R22、 R23。对于n条多媒体信息, 做上述相同的处理和计算,再选取最大值,根据该最大值所对应的第二特征信息段,就 可以得知该第二特征信息,然后根据媒体信息与第二特征信息的对应关系检索到相应的 那条媒体信息。
图5是基于本实用新型的第一特征信息与第二特征信息进行相似度计算的第三种 方法原理示意图。与图4相比,该图中的第一特征信息存在需要合并处理的相邻的相同 特征。先按原第一特征信息502与第二特征信息501做相似度计算得到结果503,计算 结果503包含13个数值,表示为Rl、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 Rll、 R12、 R13,然后把第一特征信息的合并信息504与第二特征信息501做相似度计算得 到结果505,计算结果503包含13个数值,表示为R14、 R15、 R16、 R17、 R18、 R19、 R20、 R2K R22、 R23、 R24、 R25、 R26、 R27。对于n条多媒体信息,做上述相同的 处理和计算,再选取最大值,根据该最大值所对应的第二特征信息段,就可以得知该第 二特征信息,然后根据媒体信息与第二特征信息的对应关系检索到相应的那条媒体信 息。
对于第一特征信息与第二特征信息都存在可以合并的特征信息时,则包含四种情 况计算,即第一特征信息与第二特征信息直接计算相似度;第一特征信息与第二特征信息的合并信息计算相似度;第一特征信息的合并信息与第二特征信息计算相似度;第一 特征信息的合并信息与第二特征信息的合并信息计算相似度。
图6是基于本实用新型采用声音输入选择多媒体信息的处理流程示意图。该图更
进一步给出事先实例,以提取MFCC系数后转换为MIDI文件后,再转换为简谱信息作 为特征信息。具体流程是在步骤601进行声音信号输入,如哼唱一段,对于输入的声 音信号在步骤602时提取MFCC系数,在步骤603把得到的MFCC系数转换为MIDI 文件,然后在步骤604转换为简谱信息,在步骤605生成第一特征信息;假定媒体存储 器中巳经存储了每条多媒体信息对应的MIDI文件,如果没有,可以先转换出MIDI文 件,进入步骤606读取第一条多媒体信息的MIDI文件,在步骤607转换为简谱信息, 在步骤608生成第二特征信息,然后在步骤609计算第一特征信息与第二特征信息的相 似度;在步骤610判断是否最后一条多媒体信息?如果不是则迸入步骤614读取下一条 多媒体信息的MIDI文件,继续步骤607、步骤608、步骤609、步骤610的处理,如果 是则进入步骤611判定相似度最大值所对应MIDI文件,在步骤读612取与相似度最大 值所对应MIDI文件相关联的多媒体文件,最后在步骤613输出选定多媒体文件。
图7是基于本实用新型实现媒体搜索系统的第一种原理示意图。媒体搜索系统包 含服务器端700和客户端710,客户端710通过互连网络或局域网络704连接服务器端 700。其中服务器端700包含媒体信息数据库701、媒体访问处理部件702、网络接口 703;客户端710包含信息展示部件706、语音输入部件707、语音信号处理部件708、 网络接口 705。用户通过语音输入部件707输入语音,如哼唱乐曲的片断,或拷贝预先 制作的语音文件,由语音信号处理部件708进行处理,包括语音信号的数字化、语音第 一特征信息的提取,然后将提取的第一特征信息通过网络接口 705发送到互连网络或局 域网络704中,由服务器端700的网络接口 703接收到第一特征信息送到媒体访问处理 部件702。媒体访问处理部件702从媒体信息数据库701取出每条媒体信息的第二特征
信息,然后与收到的第一特征信息采用相似度计算方法计算出每条第二特征信息的每个 片断与第一特征信息的相似度,选取相似度最大值所对应的第二特征信息,然后根据每
条媒体信息与第二特征信息的对应关系从媒体信息数据库701取出与相似度最大值所 对应的第二特征信息相关联的媒体信息,并将所选取的媒体信息通过网络接口 703发送 到互连网络或局域网络704中,由客户端710的网络接口 705该媒体信息并送到语音信 号处理部件708,由语音信号处理部件708将该媒体信息送到信息展示部件706进行展是声音信号输出放大器和喇叭或耳 机。如媒体信息是包含音乐信息的视频,展示部件706可以是包含显示屏和声音信号输 出放大器和喇叭或耳机的组合部件。如收到媒体信息包含多条可供选择的媒体信息,则 可以将信息按条目方式显示在展示部件706的显示屏上供用户选择。本实用新型实现媒 体搜索系统可以实现通过语音输入从互联网络或局域网络中的各种媒体服务器中选择 与输入语音具有很大相似度的媒体信息,完全改变了现有网络搜索引擎或搜索工具的搜 索方式,具有更准确的媒体信息定位特征,而且大多数情况不用手的操作,直接通过说 或唱就可进行媒体信息的搜索,大大简化了用户的操作难度,即使对于盲人或不懂电脑 操作的用户都可以实现媒体信息的搜索。
图8是基于本实用新型实现媒体搜索系统的第二种原理示意图。媒体搜索系统包 含服务器端800和客户端810,客户端810通过互连网络或局域网络704连接服务器端 800。其中服务器端800包含媒体信息数据库701、媒体访问处理部件802、网络接口 703;客户端810包含信息展示部件706、语音输入部件707、语音信号处理部件808、 网络接口 705和本地媒体第二特征信息存储部件809。在进行语音搜索之前,客户端810 需要先通过互连网络或局域网络704从服务器端800下载每条媒体信息所对应的第二特 征信息,然后存储到第二特征信息存储部件809中。用户通过语音输入部件707输入语 音,如哼唱乐曲的片断,或拷贝预先制作的语音文件,由语音信号处理部件808进行处 理,包括语音信号的数字化、语音第一特征信息的提取,然后语音信号处理部件808 从第二特征信息存储部件809读取每条媒体信息的第二特征信息,然后与提取的第一特 征信息采用相似度计算方法计算出每条第二特征信息的每个片断与第一特征信息的相 似度,选取相似度最大值所对应的第二特征信息,将选取的第二特征信息通过网络接口 705发送到互连网络或局域网络704中,由服务器端800的网络接口 703接收到第二特 征信息送到媒体访问处理部件802。媒体访问处理部件802根据每条媒体信息与第二特 征信息的对应关系从媒体信息数据库701取出与所收到第二特征信息相关联的媒体信 息,并将所选取的媒体信息通过网络接口 703发送到互连网络或局域网络704中,由客 户端810的网络接口 705该媒体信息并送到语音信号处理部件808,由语音信号处理部 件808将该媒体信息送到信息展示部件706进行展示。如媒体信息是单纯音乐信息,展 示部件706可以是声音信号输出放大器和喇叭或耳机。如媒体信息是包含音乐信息的视 频,展示部件706可以是包含显示屏和声音信号输出放大器和喇叭或耳机的组合部件。如收到媒体信息包含多条可供选择的媒体信息,则可以将信息按条目方式显示在展示部 件706的显示屏上供用户选择。本实用新型实现媒体搜索系统可以实现通过语音输入从
互联网络或局域网络中的各种媒体服务器中选择与输入语音具有很大相似度的媒体信 息,完全改变了现有网络搜索引擎或搜索工具的搜索方式,具有更准确的媒体信息定位 特征,而且大多数情况不用手的操作,直接通过说或唱就可进行媒体信息的搜索,大大 简化了用户的操作难度,即使对于盲人或不懂电脑操作的用户都可以实现媒体信息的搜 索。
图9是本实用新型实现乐谱自动翻页系统原理示意图。乐谱自动翻页系统包含乐 谱显示部件901、处理部件902和语音输入部件903。其中处理部件902包含存储乐谱 信息的存储体、处理器和储存程序软件的存储体。语音输入部件903包含收集语音的麦 克风和语音数字化采集和存储电路。乐谱显示部件901是电子显示部件,如液晶显示器、 有机发光管显示部件、电子纸显示部件等。在演奏乐曲时,乐谱显示部件901在处理部 件902的控制下显示相应乐曲的乐谱的第一页内容,在演奏过程中,语音输入部件903 不断采集输入所演奏的声音,由处理部件902提取出声音的韵律作为第一特征信息并与 预先存储的所演奏乐曲的第二特征信息的片断作相似度计算,根据相似度最大值可以判 断已经演奏到乐谱的位置,从而处理部件902 —旦分析到显示在显示部件901的乐谱内 容己经演奏完毕则自动将乐谱的下一页内容显示在显示部件901上,避免演奏者手动进 行乐谱翻页造成演奏的短暂中断。通常演奏家演奏的乐曲与乐谱的快慢是十分接近的, 因此进行相似度计算时可以不需要进行合并处理相邻的相同特征。
图10是本实用新型实现唱歌辅助学习系统原理示意图。唱歌辅助学习系统包含显 示部件1001、处理部件1002和语音输入部件1003。其中处理部件1002包含存储乐曲 信息的存储体、处理器和储存程序软件的存储体。语音输入部件1003包含收集语音的 麦克风和语音数字化采集和存储电路。乐谱显示部件1001是电子显示部件,如液晶显 示器、有机发光管显示部件、电子纸显示部件等。在唱歌或演奏乐曲时,显示部件IOOI 在处理部件1002的控制下显示相应乐曲的乐谱,在唱歌或演奏过程中,语音输入部件 903不断采集输入所演奏的声音,由处理部件902提取出声音的韵律作为第一特征信息, 一首乐曲结束后,将所提取的第一特征信息与预先存储的所演奏乐曲的第二特征信息按
音节作相似度计算,根据相似度计算结果给出在唱歌或演奏乐曲时每个音节与标准乐曲 的音节的差异,从而处理部件902将这种差异显示在显示部件901上,唱歌或演奏乐者根据所显示音节的差异来发现错误,并调整自己的演奏达到学习辅助的目的。
图11是本实用新型实现媒体播放器原理示意图。媒体播放器1100包含处理器主 机1101、控制操作按钮1102、耳机1103和麦克风1104。处理器主机1101通过连接导 线1105与控制操作按钮1102、耳机1103和麦克风1104连接,这种连接的信号是双向 的,即控制操作按钮1102的按键信号和麦克风1104输入的声音信号可以传送到处理器 主机IIOI,处理器主机1101的输出信号可以输出到耳机1103。在其他实现中,处理器 主机1101通过无线信号与控制操作按钮U02、耳机1103和麦克风1104进行无线连接, 如采用蓝牙技术(BlueTooth)或WiFi技术实现无线连接,无论有线连接或无线连接方 式,都是现有成熟技术。处理器主机1101包含存储媒体信息及其第二特征信息的存储 体1105和信息处理部件1106。控制操作按钮1102上包含第一按键1107和第二按键 1108。由于人们使用媒体播放器时,当播放某首媒体时会跟着媒体的音乐哼唱,而本实 用新型的播放器在选择媒体和控制媒体的播放起点时也是采用操作者哼唱媒体片断进 行的,为了使媒体播放器区分使用者是跟随正在播放的媒体进行哼唱还是哼唱片断来控 制媒体播放器重新选择媒体或播放起点,采用控制操作按钮1102上的第一按键1107 和第二按键1108实现。当操作者按下第一按键1107时表示是通过哼唱片断来选择媒体, 当操作者按下第二按键1108时表示是通过哼唱片断来选择媒体的播放起点,当第一按 键1107和第二按键1108都没有按下时,是跟随正在播放的媒体进行哼唱。控制操作按 钮1102的按键信号送入到处理器主机1101,由处理主机迸行判断处理。如操作者按下 第一按键1107,信息处理部件1106通过处理来自麦克风1104的语音信息,从中提取 特征信息;从存储体1105取出媒体信息的特征,然后截取任意一段特征信息计算出的 多个相似度数据进行筛选比较,从中选取相似度最大的那段特征信息所属的第二特征信 息作为选择所需多媒体信息的依据,然后根据第二特征信息与媒体信息对应关系选取媒 体信息进行播放。如操作者按下第二按键1108,信息处理部件1106通过处理来自麦克 风1104的语音信息,从中提取特征信息;从存储体1105取出媒体信息的特征,然后截 取任意一段特征信息计算出的多个相似度数据进行筛选比较,从中选取相似度最大的那 段特征信息所属的第二特征信息作为选择所需多媒体信息的依据,然后根据第二特征信 息与媒体信息对应关系选取媒体信息并从与第二特征信息片断相似度最大的位置点开 始播放。这样就实现了媒体播放器的媒体选择与媒体播放起点的自动定位。
权利要求1、一种媒体播放装置,包括存储了至少一条多媒体信息的信息存储体和多媒体信号输出部件,其特征是还包括声音输入部件;特征提取部件,从所述声音输入部件输入的声音信号或信息中提取第一特征信息;媒体信息特征存储部件,存储了对应于所述每条多媒体信息的第二特征信息;特征相似性计算部件,用于判断所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意一段信息的相似度;特征相似性判断部件,从所述相似度数据中选取相似度最大值;多媒体信息选择部件,从所述信息存储体中选择相似度最大值的信息段所在的那条多媒体信息传送到所述多媒体信号输出部件。
2、 根据权利要求1所述的媒体播放装置,其特征是所述第,征信息包含声音音调信 息和/或音调变化信息;所述第二特征信息包含多媒体信息中包含的声音音调信息和 /或音调变化信息。
3、 一神媒体播放装置,其特征是包含处理器主机、^^操作按钮、耳机和麦克风;所 述处理器主机通过连接导线与控制操作按钮、耳机和麦克风连接;所述处理器主机 包含存储媒体信息及其第二特征信息的存储体和信息处理部件。
4、 根据权利要求i或2所述的媒体播放装置,其特征是所述特征提取部件、媒体信息 特征存储部件、特征相似性计算部件、特征相似性判断部件、多媒体信息选择部件、 信息存储体由包含处理器的信息处理部件实现,所述信息处理部件与多媒体信号输 出部件、声音输入部件之间采用有线导线连接或采用无线信号连接。
5、 根据权利要求4所述的媒体播'放装置,其特征是还包含控制按钮部件,所述信息处 理部件与所述控制按钮部件之间采用有线导线连接或采用无线信号连接。
6、 根据权利要求i或2或5所述的媒体播放装置,其特征是所述信息存储体与媒体信 息特征存储部件是独立的存储体或共享的存储体;所述信息存储体和/或媒体信息特 征存储部件还存储了每条多媒钵信息与其第二特征信息对应关系。
7、 一神媒体播放装置,包括存储了至少一条多媒体信息的信息存储体和多媒体信号输 出部件,其特征是还包括声音输入部件;特征提取部件,从総声音输入部伴输入的声音信号或信息中提取第一特征信息; 媒体信息特征计算部件,计算对应于所述每条多媒体信息的第二特征信息-,特征相似性计算部传,用于判断皿第一特征信息与所述每条多媒体信息的第二特 征信息中的在意一段信息的賴似度;特征相似性判断部件,从所述相似度数据中选取相叙度最大值;多媒体信息选择部件,从所述信息存储体中选择相似度最大值的信息段所在的那条 多媒体信息传送到皿多媒体信号输出部件。
8、 根据权利要求?所述的媒体播放装置,其特征是所述第~#征信息包含声音音调信 息和/或音调变化信息;所述第二特征信息包含多媒体信息中包含的声音音调信息和 /或音调变化信息。.
9、 一种媒体播放装置,其特征是包含处理器主机、^^操作按钮、耳机和麦克风;所述处理器主机通过无线信号与控制操作按钮、耳机和麦克M^;所述处理器主机包含存储媒体信息及其第二特征信息的存储体和信息处理部件。
10、 根据权利要求7或8所述的媒体播放装置,其特征是所述特征提取部件、媒体信息特征计算部件、特征相叙性计算部件、特征相似性判断部件、多媒体信息选择 部件、信息存储体由包含处理器的信息处理部件实現,所述信息处理部件与多媒体 信号输出部件、声音输入部件之间采用有线导线连接或采用无线信号连接。
专利摘要本实用新型提出媒体播放设备,包括存储了至少一条多媒体信息的信息存储体、多媒体信号输出部件、声音输入部件、特征提取部件、媒体信息特征存储部件、特征相似性计算部件、特征相似性判断部件、多媒体信息选择部件,从信息存储体中选择相似度最大值的信息段对应的那条多媒体信息传送到多媒体信号输出部件。通过语音输入从媒体播放器中选择与输入语音具有很大相似度的媒体信息,改变了现有媒体播放器的操作方式,具有更准确的媒体信息定位,而且大多数情况不用手的操作,直接通过说或唱就可进行媒体信息的选择并可以控制媒体的播放起点,大大降低了用户的操作难度,即使对于盲人或不懂播放器操作的用户都可以实现媒体播放器的操作。
文档编号G10L15/22GK201397671SQ200920106578
公开日2010年2月3日 申请日期2009年3月23日 优先权日2009年3月23日
发明者清 须 申请人:北京派瑞根科技开发有限公司