لطفا جهت دانلود بر روی گزینه زیر کلیک کنید
چکیده
حجم زياد تصاوير متني روز به روز مساله ديجيتالي شدن متن تصاوير و همچنين مساله جستجو در اين منابع را اهميت مي بخشد. در بازشناسي متن هاي حجيم مي توان از ويژگي هايي مانند محدودبودن تعداد و اندازه قلم، يکسان بودن صفحه آرايي در کل صفحه ها، محدودبودن مجموعه واژه ها و حوزه معنايي آنها و يکسان بودن سبک نگارشي در کل متن استفاده کرد. در اين مقاله الگوريتمي ارائه شده که از يکسان بودن نوع و اندازه قلم براي خوشه يابي زيرکلمات يک کتاب قديمي با کيفيت پايين چاپ استفاده شده است. اين کتاب 233 صفحه دارد و کل زيرکلمات آن که در حدود 111000 زيرکلمه است جداسازي و برچسب زني شده است. در اين تحقيق از يک روش ساده افزايشي براي خوشه يابي زيرکلمات استفاده شده است. ابتدا براي هر زيرکلمه چهار ويژگي ساده استخراج مي شود، در صورتي که تفاوت اين ويژگي ها از ويژگي هاي نماينده يک خوشه کمتر از مقدار آستانه باشد، مقايسه تصويري بين آن دو انجام مي شود. به علت زيادبودن تعداد زيرکلمات سعي شده تا از ساده ترين روش هاي ممکن استفاده شود تا سرعت اجرا افزايش يابد. نتايج آزمايش ها نشان مي دهد مي توان زيرکلمات را با دقتي در حدود99.7 درصد خوشه يابي کرد. نتايج اين خوشه يابي در مرحله بازشناسي زيرکلمات کمک بسيار زيادي خواهد کرد.
[gview file=”http://www.sid.ir/fa/VEWSSID/J_pdf/7001313920203.pdf” save=”1″]