一种OCR识别乐谱的方法与装置与流程

文档序号:36389069发布日期:2023-12-15 04:55阅读:79来源:国知局

本发明属于音乐信息学,具体涉及一种ocr识别乐谱的方法与装置。


背景技术:

1、随着数字化技术的发展,乐谱的数字化存储和处理变得越来越重要。乐谱不仅包含音符信息,还包括节奏、动态、指法和其他音乐表现形式,这使得乐谱的识别远比普通文本复杂。传统的光学字符识别(ocr)技术主要针对文本内容,对于复杂的乐谱结构和元素,其识别效果并不理想。

2、为了实现乐谱的自动化识别和转录,需要一种专门针对乐谱的ocr技术。这种技术应该能够准确地识别乐谱中的各种元素,如音符、和弦、节奏线等,并将其转化为数字格式,以便于存储、编辑和分享。

3、然而,现有ocr技术主要是针对通用域的,这些ocr方法大都通过识别图像中的字符来将图像解析为结构化数据,而乐谱(简谱、吉他谱)中除了由数字、字母构成的旋律外还有由小节线构成的歌曲段落,节奏线构成的旋律节奏,以及字母出现的不同位置所代表的和声在歌曲结构中的位置信息,以上这些信息都是使用现有方法无法获取到的。


技术实现思路

1、本发明的主要目的在于提供一种ocr识别乐谱的方法与装置,可以有效解决背景技术中所涉及的问题。

2、为实现上述目的,本发明采取的技术方案为:

3、一种ocr识别乐谱的方法,包括以下步骤:

4、步骤s1:图像预处理;

5、步骤s2:字符分割;

6、步骤s3:字符分割分类;

7、步骤s4:字符识别。

8、进一步的,在步骤s1中,所述图像预处理包括:

9、a)对输入图像进行水平校正;

10、b)对输入图像进行去噪、滤波、二值化。

11、进一步的,所述对输入图像进行水平校正包括:

12、a)对图像进行去噪;

13、b)对线条进行膨胀;

14、c)使用霍夫变换进行直线检测;

15、d)基于规则筛选检测到的直线;

16、e)计算图像的倾斜角度;

17、f)对图像进行倾斜校正。

18、进一步的,所述对输入图像进行去噪、滤波、二值化包括:

19、a)对图像进行形态学变换;

20、b)图像灰度化;

21、c)计算图像统计特征;

22、d)图像去噪(基于统计特征去噪、高斯去噪、图像像素相关性的去噪);

23、e)图像滤波;

24、f)图像二值化;

25、g)图像形态学变换。

26、进一步的,在步骤s2中,所述字符分割包括:

27、a)图像转换为y轴的1维向量;

28、b)基于该向量对图像进行y轴上的图像分割;

29、c)基于边缘检测算法进行字符边缘检测。

30、进一步的,在步骤s3中,所述字符分割分类包括:a)找到谱子中的tab线;

31、b)对旋律字符分割框的粗分类;

32、c)计算旋律字符分割框的特征;

33、d)基于聚类算法进行精分类;

34、e)识别歌词位置;

35、f)计算节奏线位置;

36、g)识别指板位置;

37、h)识别和弦分割框。

38、进一步的,在步骤s4中,所述字符识别包括:

39、a)基于神经网络识别简谱数字;

40、b)基于神经网络识别和弦名称;

41、c)识别节奏线的具体节奏;

42、d)识别小节线;

43、e)基于分割框坐标对齐和弦、旋律;

44、f)以文本方式返回识别的旋律和和声。

45、一种ocr识别乐谱的装置,包括以下模块:

46、图像输入模块:此模块负责接收用户输入的乐谱图像,用户可以通过此模块上传或输入他们希望识别的乐谱图像;

47、图像预处理模块:在图像被识别之前,首先要进行预处理,包括去噪、滤波、二值化等步骤,这些步骤有助于改进图像的质量,为图像的进一步处理做好准备;

48、字符分割模块:此模块基于边缘检测和其他算法对乐谱图像进行字符分割,这样,每一个音符、数字或符号都可以单独被识别;

49、字符识别模块:这是装置的核心模块,利用神经网络技术,此模块可以对分割出的字符进行识别,判断它是什么音符、数字或符号;

50、结构化数据输出模块:一旦音符、数字和符号被识别,这个模块会将识别的结果转换为xml或json格式的结构化数据,方便后续的处理或分析;

51、用户界面:这是与用户互动的界面,它允许用户上传乐谱图像,设置识别参数,并查看识别结果。

52、与现有技术相比,本发明具有如下有益效果:

53、1.专门针对乐谱的设计:与传统的光学字符识别(ocr)技术不同,这个发明专门针对乐谱设计,从而更准确地捕捉和识别乐谱中的特定元素和结构。

54、2.捕捉复杂的音乐信息:除了基本音乐元素,该技术还能识别乐谱中的复杂结构,如小节线、节奏线和和声的位置信息,填补了现有方法在这些方面的空白。

55、3.高度结构化的数据输出:通过转化为数字格式,使乐谱更易于存储、编辑和分享,满足现代数字化时代的需求。



技术特征:

1.一种ocr识别乐谱的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的ocr识别乐谱的方法,其特征在于:在步骤s1中,所述图像预处理包括:

3.根据权利要求2所述的ocr识别乐谱的方法,其特征在于:所述对输入图像进行水平校正包括:

4.根据权利要求2所述的ocr识别乐谱的方法,其特征在于:所述对输入图像进行去噪、滤波、二值化包括:

5.根据权利要求1所述的ocr识别乐谱的方法,其特征在于:

6.根据权利要求1所述的ocr识别乐谱的方法,其特征在于:

7.根据权利要求1所述的ocr识别乐谱的方法,其特征在于:

8.一种ocr识别乐谱的装置,其特征在于:包括以下模块:


技术总结
本发明公开了一种OCR识别乐谱的方法与装置,该方法首先对输入的乐谱图像进行水平校正,确保乐谱的线条水平,同时通过形态学变换、灰度化、去噪、滤波和二值化等一系列图像处理技术,提高图像的清晰度。接着,基于y轴的1维向量,对乐谱图像进行字符分割,并利用边缘检测算法进一步提取字符边缘。为了分类乐谱中的各种字符,方法涉及到对tab线、旋律、歌词、节奏线、指板和和弦等关键元素的定位和分类。字符的识别主要基于深度学习中的神经网络技术,如卷积神经网络(CNN)和长短时记忆网络(LSTM),实现对简谱数字、和弦名称等的高准确度识别。最终,识别出的乐谱信息将以文本格式输出,为后续音乐分析和应用提供准确数据。

技术研发人员:杨沛
受保护的技术使用者:成都开心音符科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1