和,若
72
am
72255,即等于18360,可认为这一行均为白色,即处于间隔行中,其他的
1
各行则认为是字体所在的行,我们称为字体行。我们可以通过matlab程序,将第一个字体行后,与间隔行的分界线的位置记录下,
作为这个纸片的行特征位置。由于在一张纸中,同一行的字体是水平对齐的,则字体行的位置是即固定的,那么碎纸片反映字体行位置的行特征位置也就是固定的,相同的行特征位置即说明了这些碎纸片原本是处于同一行的。
然而,实际得到的结果经过检验,同一组的碎纸片并不都在同一行,有一些其它行的碎纸片也被分到这一组中去。为此,我们对字体行分组法做出一定的改进。
通过观察,我们发现字体中如“员”字这种呈现上下结构的字体,其“口”部和“贝”部之间也存在空白行,在实际操作中这条空白行会被认为是间隔行,从而影响了我们对字体行和行间距的位置的判断,为了消除这种影响,我们将对matlab程序进行改进。
我们将沿垂直方向上的由上而下的第一个字体行与它下面的间隔行之间的分界线视为是这一个纸片的行特征位置,而这个位置会受到字体行内部空白行的影响。因为空
6
f白行的高度远小于间隔行的高度,所以我们在程序中引入一个判断,即在找到行特征位置后,我们将继续运算,去找到下一个字体行与它下面的间隔行之间的分界,若两者间的距离小于
(
为判断距离,一般设为间隔行的高度)即认为已找到的行特征位置是有误的,取到的位置是字体行与其间空白行的分界位置,所以,我们取到的第二个分界才可能作为行特征位置,并进一步判断,直到取到的两个行特征位置间的距离大于
,则已取到的行特征位置才能作为正确值。
经过matlab程序(程序见附录三)运算,我们得到了每一个碎纸片的行特征位置,并将行特征位置由小到大进行排序,若两个元素之间的差小于或等于2,则可的近似认为它们是处于同一行的。由matlab程序得到的结果见表55:
表55碎纸片行特征位置
序号548597517220610374455649298104111171180201位置444444555555555555序号105825353846748188103122130148161167193924189位置16171717171717171717171717171717181818序号34434758778490971121211241271361441491641834294位置23232323232323232323232323232323232424序号0457326870126158166174175535693137138153196208位置27282929292929292929293030303030303030序号961161316192036526163676972787999162163177位置35353536363636363636363636363636363636序号83851702r