全球旧事资料 分类
02153360801321331521561651982002051727位置414141414242424242424242424242424343序号66110125181131621106109145157173182184187197204139150位置47474747484848484848484848484848484949序号2074401021081131141171191231401461551941011511541851位置53545454545454545454545454545555555558序号23304162768687120168179191182650100142147195位置606060606060606060606061616161616161序号1353313951107159169176127382115128134160199203位置656666666666666666676767676767676767序号2891186188211224965951181291411431781901925457位置78787878797979797979797979797979798080序号29718914位置73111122135
在上述表格中,碎纸片基本被分为了11组,每组有19个元素左右,而在最后,有4张碎纸片的行特征位置显示出异常,不能被分入各组中。
我们考虑到,在文章必定会有换行的情况存在,若换行的部分被切割后处于碎纸片的上部,则会使这张碎纸片的行特征位置产生影响,即我们取到的行特征位置跳过了已经换行的那一个字体行,则得到的行特征位置实际上应为碎纸片上的第二个字体行的位置,所以,这4张碎纸片的行特征值会出现异常。这种异常的产生是合理的。
综上考虑,我们将四个纸片的位置按位置放入对应的组中去(即按位置从小到大,依次排入所缺的空位中),经过matlab的imshow函数将同组纸片相连后的图像显示出来,可以看出同组碎纸片各行的位置在一条直线上,分组的结果是合理的。
(2)同行首尾位置碎纸片的确定考虑到文章的首尾是不可能被分割的,那么一行中原处于起始位置的碎纸片的左边
7
f缘和原处于末尾位置的碎纸片的右边缘应该均为空白,则以此为根据,我们可以通过
matlab程序实现对对首尾位置碎纸片的确定。
首先由各碎纸片的灰度矩阵
a11
Mm

a21

a1801
a12a22
a1802
a172a272
a18072
将每一列的元素进行相加,得到新矩阵A180a
1
180
a
2

180a
72,由于灰

1

1

1

度矩阵中白色的值为255,则若某一列均为空白,则其值应为180255,即45900,将满足前面几行为空白的值与后面几行为空白的值找出,我们即得到了结果。532归类后的模型求解
通过对纸片的归类,我们将每一行有哪些碎纸片寻找了出来,由于每张碎纸片的边缘矩阵上仅有180个点,将两个边缘矩阵的点进行匹配分析时会有较大误差,为此,所以我们采用了字体判断模型。
(1)字体矩阵判断模型在计算机中,相同字型和字号的汉字字体的高度与宽度是基本一致的,字体间的空隙r
好听全球资料 返回顶部