文字双面打印文件的碎片数据。要求尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果。
二、模型的基本假设
(1)待拼接的碎纸片来自同一页印刷文字文件。(2)待拼接复原的碎纸片是规整的矩形。(3)模型中的碎纸片长度、宽度和面积都相等。(4)附件中照片都是同标准拍摄。
三、符号说明
表1符号说明
符号
符号说明
灰度值
红色
绿色
蓝色
矩阵
裁截距i12209
裁截文字长度i12209
行间距i12209
裁截空白距离i12209
字体高度i12209
四、问题分析
将不规则的文档碎纸片进行拼接,一般是利用碎纸片的边缘曲线,尖点、尖角、面
f积等几何特征,搜索与之匹配的相邻碎纸片。但对于边缘形状相似的碎纸片,这种基于边界几何特征的拼接方法失效,拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配。
本问题给定的碎纸片有以下几个特点:1、每一张碎纸片都是规整的矩形;2、所有的碎纸片的长度、宽度都相等,形状是完全一样的;3、每一张碎纸片里都包含着文字(汉字、英文),不存在空白的碎纸片;4、不同的碎纸片之间没有重叠部分。由于碎纸片的形状相同,因而不能针对碎纸片的几何特征建立数学模型;碎纸片间无重叠,也不能利用图像融合技术进行图像配准。根据上述分析,我们考虑将图片进行数字化处理,根据每张碎纸片上的边缘文字特征进行匹配,也就是利用图片边缘文字的像素进行最优化匹配。
五、模型的建立与求解
51问题一的建模与算法
由于碎纸片本身不具有体现其拼接特性的数字特征,我们需要将其数字化、矩阵化,将问题转化为矩阵之间的相关性。
511图片的灰度处理
利用photoshop软件,将附件中所给的BMP格式的图片转化成JPG格式,去除图片的多彩性。为了对碎纸片进行数字化,我们将图像进行灰度处理,取出图像中每一个像素点的灰度值,灰度值的大小与像素点颜色的红绿蓝成分有关。根据文献1,每个像素点的灰度值红色030绿色059蓝色011,即
Grayr030g059b011,其中,rgb的取值范围是0255。问题一将同一页印刷文字文件纵切为19张图片(见图1),根据实际情况,我们将每张图片设置为198072格式,于是,每张图片对应一个198072的灰度矩阵。
图1附件1未进行拼接的19张碎纸片
512图片的二值化处理
将图片进行灰度处理以后,每个像素的灰度值介于0255之间。灰度值不能直接用于文字图片的拼接,还须进行二值化处理。
f将图片r