全球旧事资料 分类
匹配度第一行的最大值进行比较,选取匹配度大的作为拼接的纸片,即编号为000的碎纸片要与该纸片拼接。以此类推把19张碎纸片拼接完成后做人工处理。412英文碎纸片的复原分析将附件2的19张图片做411中处理得到二值化后的矩阵Bi,矩阵均为198072的矩阵,这里我们分别将每张图片的Bi矩阵第1列和第72列提取出来做一新的二维边缘矩阵Ci,它是19802的矩阵。通过对所有图片矩阵的分析可以发现C3、C4矩阵中均有一列为0,所以可以认为编号为003和004的图片为原完整文件的一端,在做题过程中无需考虑会存在其他白边与白边拼接的情况。做如上判断后解题过程同411。
42问题二的分析42.1中文碎纸片的分析此问中同41的图片处理方法,也需要将209张碎纸片进行同样的图像处理转化为灰度矩阵后进行二值化处理得到处理后的矩阵。根据结果知此问中的图片转化后的矩阵为72180的矩阵,列数由第一问中的1980变为180,虽然数量变少,但是图片数量由19张变为了209张。若同样使用41中的边缘匹配的方法,一张碎纸片对应其他208张碎纸片的边缘匹配相同的像素点有208种情况,变化范围为0180,可知若直接采用41中的方法得到的结果可能出现多个相同或无法判断的情况,所以这里我们先考虑附件3中碎纸片的特性。观察下面的图3可以发现,通过查阅资料分析2基于文字特征的文档碎纸片半自动拼接,每一行的绝大多数中文文字均可认为拥有同一上界、同一下界(图3最右端出现了“一”字,但是同行还存在其他文字,可以认为同一行文字有同一上界与同一下界),
5
f我们可以根据这一特性使用软件将3匹配度高及位置相同的碎纸片归类为一组。方法为:搜索每一张碎纸片转化后二值化矩阵Ci的每一行,若矩阵该行中存在数值1,则将该行全部赋值为1,若这一行元素全为0,则将该行全部赋值为0,其中1表示本行存在灰度小于255的像素,0表示不存在灰度小于255的像素,这样将209张碎纸片做出4新的二值化矩阵Ei,之后同41的分析取边缘做边缘匹配得修改后的6边缘匹配度矩阵
D,匹配度高则说明碎纸片的文字信息处于同一水平位置,见下图图4,之后再人工干
预,得到较优的结果。
图3处理的图片
图4再次处理后的图片得到很多组有相同位置的的碎纸片后,在每一组内采用41的中的边缘匹配方法,这里为了防止出现两白边匹配造成碎纸片连接混乱的现象,要加以限制。方法为:若在组内做边缘匹配出现匹配度为1的情况,则暂时不连接此碎纸片,从剩余的碎纸r
好听全球资料 返回顶部