【碎纸片的拼接复原】-全球旧事资料库

碎纸片的拼接复原

02153360801321331521561651982002051727位置414141414242424242424242424242424343序号66110125181131621106109145157173182184187197204139150位置47474747484848484848484848484848484949序号2074401021081131141171191231401461551941011511541851位置53545454545454545454545454545555555558序号23304162768687120168179191182650100142147195位置606060606060606060606061616161616161序号1353313951107159169176127382115128134160199203位置656666666666666666676767676767676767序号2891186188211224965951181291411431781901925457位置78787878797979797979797979797979798080序号29718914位置73111122135
在上述表格中，碎纸片基本被分为了11组，每组有19个元素左右，而在最后，有4张碎纸片的行特征位置显示出异常，不能被分入各组中。
我们考虑到，在文章必定会有换行的情况存在，若换行的部分被切割后处于碎纸片的上部，则会使这张碎纸片的行特征位置产生影响，即我们取到的行特征位置跳过了已经换行的那一个字体行，则得到的行特征位置实际上应为碎纸片上的第二个字体行的位置，所以，这4张碎纸片的行特征值会出现异常。这种异常的产生是合理的。
综上考虑，我们将四个纸片的位置按位置放入对应的组中去（即按位置从小到大，依次排入所缺的空位中），经过matlab的imshow函数将同组纸片相连后的图像显示出来，可以看出同组碎纸片各行的位置在一条直线上，分组的结果是合理的。
（2）同行首尾位置碎纸片的确定考虑到文章的首尾是不可能被分割的，那么一行中原处于起始位置的碎纸片的左边
7
f缘和原处于末尾位置的碎纸片的右边缘应该均为空白，则以此为根据，我们可以通过
matlab程序实现对对首尾位置碎纸片的确定。
首先由各碎纸片的灰度矩阵
a11
Mm

a21

a1801
a12a22
a1802
a172a272
a18072
将每一列的元素进行相加，得到新矩阵A180a
1
180
a
2

180a
72，由于灰

1

1

1

度矩阵中白色的值为255，则若某一列均为空白，则其值应为180255，即45900，将满足前面几行为空白的值与后面几行为空白的值找出，我们即得到了结果。532归类后的模型求解
通过对纸片的归类，我们将每一行有哪些碎纸片寻找了出来，由于每张碎纸片的边缘矩阵上仅有180个点，将两个边缘矩阵的点进行匹配分析时会有较大误差，为此，所以我们采用了字体判断模型。
（1）字体矩阵判断模型在计算机中，相同字型和字号的汉字字体的高度与宽度是基本一致的，字体间的空隙r