- دوشنبه ۲۰ آذر ۱۴۰۲
TOMATE : رویکرد ابتکاری استخراج داده از جداول HTML
TOMATE: رویکرد ابتکاری استخراج داده از جداول HTML
استخراج داده از جداول HTML کاری دشوار است و دلیل آن چیدمان دادهها (layouts)، فرمتهای گوناگون و مشکلات مربوط به رمزگذاری دادههاست. در این مقاله پیشنهاد جدیدی مطرح میکنیم. این پیشنهاد در مرحله نخست چندین روش ابتکاری پیش از پردازش (pre-processing) دادهها را جهت پاکسازی جداول معرفی میکند و سپس تحلیل عملکرد را انجام میدهد و در مرحله آخر روشهای ابتکاری مربوط به پس از پردازش (post-processing) را معرفی میکند که نتیجه آن رسیدن به خروجی است.
مهمترین بخش کار ما در مرحله تحلیل عملکرد است که با نمایش سلولهای داده در فضایی انجام میشود که دارای ابعاد بالاست (high-dimensional). در این مرحله از یک روش دستهبندی استاندارد استفاده میکنیم که به کمک آن میتوان سلولهای متادیتا (فراداده) را از سلولهای داده جدا کرد.
برای آزمایش از دو انبار بزرگ از جداول واقعی HTML استفاده کردهایم و نتایجی که به دست آوردهایم تأیید میکنند که پیشنهاد ما کمک میکند سیپییو بتواند دادههای هر جدول را ظرف ۰.۰۹ ثانیه و با امتیاز F1برابر با ۸۹.۵۰ درصد استخراج کند.
ما طرح پیشنهادی خود را با روشهای رقبا مقایسه کردهایم و تحلیل آماری نشاندهنده برتری و اثربخشی بیشتر این طرح بوده و در عین حال این طرح ابتکاری از نظر کارایی نیز بسیار قابل رقابت با نمونههای مشابه است.(آموزش طراحی وب)
مقدمه
یادگیری ماشینی بسیاری از خدمات مبتنی بر وب را تقویت کرده است. این امر باعث نیاز روزافزون به مجموعه دادههایی (datasets) شده است که هم برای آموزش و هم برای بهرهبرداری از ماشینهای یادگیرنده مورد استفاده قرار میگیرند.
در اینجا ما به مجموعه دادههایی توجه میکنیم که با استفاده از جداول HTML کدگذاری شدهاند و تأکید ما بر جداولی است که کاربران آنها را تهیه کردهاند. بسیاری از این جداول دادههایی ارائه میدهند که نمیتوان آنها را در پایگاههای داده رایج پیدا کرد و به همین دلیل استفاده از این دادهها در فرایندهای خودکار بسیار دشوار است.
نرمافزارهای استخراج داده اسناد موجود در وب را تجزیه و تحلیل میکنند و دادههای آنها را بهصورت مدارکی ارائه میدهند که به کمک آنها روند پردازش خودکار تسهیل میشود. بسیاری از این مدارک استفاده چندمنظوره دارند، زیرا بر یک چیدمان خاص از دادهها متمرکز نیستند و اغلب پیشنهاداتی مطرح میکنند که مختص جداول هستند.
ما پیشنهادات گوناگونی را که مختص جداول هستند بررسی کردهایم و به این نتیجه رسیدیم که آنها معمولاً مربوط به این امور هستند: مکان، تقسیمبندی، تبعیض، تحلیل عملکرد، تحلیل ساختار و تفسیر. این مفاهیم راه حلهای متعددی برای اجرای این پیشنهادات ارائه میدهند اما نقطه تمرکز ما بر تحلیل عملکرد است، زیرا کمتر به آن توجه شده است و در نتیجه جا دارد بهبود پیدا کند.
متأسفانه تعداد اندکی از پیشنهادات فعلی میتوانند جداول دارای چیدمان دلخواه (مانند فهرستهای افقی، فهرستهای عمودی یا ماتریسها) را تحلیل کنند که کاربران آنها را تولید میکنند و این پیشنهادات در بررسی فرمتهای گوناگونی که برای نمایش داده مورد استفاده قرار میگیرند به مشکل بر میخورند، مانند وقتی که سرتیتر شامل چند خط است یا اصلاً سرتیتر وجود ندارد، در سلولهای متنی، سرتیترهای تکراری و سلولهای فاکتوریل و محاسبات عددی. همچنین آنها در رمزگذاریهای معمولی نیز با مشکل مواجه میشوند، مانند ردیفهای نابرابر یا استفاده نادرست از تگهای td و th در جداول HTML. به بیان ساده، این پیشنهادات با ۶۴.۴۱ درصد جداول در انبار جداول مورد آزمایش ما به مشکل بر میخورند.
TOMATE پیشنهادی جدید است که بهطور خاص برای تحلیل جداول HTML طراحی شده است و نتایج پیشین را بهبود میبخشد. کار اصلی این پیشنهاد در مورد تحلیل عملکرد است. این پیشنهاد سلولها را در فضایی با ویژگیهای برتر قرار میدهد و در این فضا از یک روش دستهبندی استاندارد به همراه چند روش ابتکاری خاص استفاده میشود به این منظور که سلولهای متادیتا را از سلولهای داده جدا کند.
تحلیل آزمایشی ما نشان میدهد که این روش امتیاز F1برابر با ۸۹.۵۰ درصد را به دست میآورد که ۵.۶۸ درصد بهتر از بهترین روش رقیب در شرایط نظارتشده و ۲۴.۱۱ درصد بهتر از بهترین روش رقیب در شرایط نظارتنشده عمل میکند.
افزون بر این، در این روش سیپییو برای تحلیل هر جدول ۰.۰۹ ثانیه زمان صرف میکند و این تفاوتها از نظر آماری در سطح اطمینان استاندارد معنادار و مهم هستند. در حال حاضر از این روش برای دادن دادههایی که از جداول ویکیپدیا استخراج شدهاند به یک سیستم IARPA استفاده میشود. بیشتر این جداول را کاربران تولید کردهاند و این بدان معناست که نرمافزارهای استخراج داده که در حال حاضر در پایگاههای دانش اصلی و مهم مستقر هستند نمیتوانند آنها را تحلیل کنند.
سایر بخشهای مقاله به شرح زیر هستند:
·بخش دو: مرور اقدامات مرتبط
·بخش سه: توضیح نحوه استخراج اطلاعات توسط TOMATE
·بخش چهار: نشان دادن نتایج تحلیل آزمایشی
·بخش پنج: ارائه مطالعه موردی
·بخش شش: جمعبندی مقاله
خلاصه بخشهای مقاله
·مرور اقدامات مرتبط
در این بخش از مقاله اقدامات مرتبط با این حوزه را مرور میکنیم. نخست خلاصهای از ادبیات و اصطلاحات بحث ارائه میدهیم و سپس سایر پیشنهادات موجود را با پیشنهاد خودمان مقایسه میکنیم.
پیشنهاد ما
در این بخش پیشنهاد خود را توضیح میدهیم. نخست برخی از مفاهیم اولیه را ارائه میدهیم و سپس به راه حل خود میپردازیم جهت اجرای وظایف مربوط به درک و اجرای جداول (بنگرید به شکل یک مقاله)
تحلیل تجربی
در این بخش تحلیل تجربی خود را ارائه میدهیم. نخست شرایط آزمایش را توضیح میدهیم، سپس نقاط تغییر را گزارش میدهیم، سپس نتایج تجربی خود را بیان میکنیم و در نهایت تحلیل آماری خود را ارائه میدهیم.
مطالعه موردی
روش TOMATE را در یک سیستم IARPA ادغام کردهایم که هدف آن کمک به کارشناسان برای پاسخگویی به سؤالات اساسی در حوزه سیاست است. از این کارشناسان انتظار میرود تنها وظایف اداری خود را انجام دهند، مانند وارد کردن کلیدواژه در بخش جستجوی ویکیپدیا و انتخاب جداولی که به نظر آنها دادههای مرتبط را ارائه میدهند. TOMATE دادههای جداول انتخابشده را بهطور خودکار استخراج میکند و آنها را به سیستم میدهد تا پیشبینی را انجام داده و با استفاده از جداول و نمودارها، نتیجه پیشبینی را نشان دهد. (شکل ۱۱ مقاله)
نتیجهگیری
مجتمع فنی تهران :در این مقاله ما روش پیشنهادی TOMATE را معرفی میکنیم که روشی خودکار برای استخراج داده از جداول HTML است. این روش راه حل همه مشکلاتی است که سایر پیشنهادها در این حوزه قادر به حل آنها نیستند. در مورد چیدمان جداول، روش TOMATE میتواند فهرستهای افقی، فهرستهای عمودی و ماتریسها را تحلیل کند. در مورد مشکلات مربوط به فرمت جداول نیز TOMATE میتواند جداولی را که چندین سرتیتر دارند یا اصلاً سرتیتر ندارد و سلولهای متنی، سرتیترهای تکراری و سلولهای فاکتوریلدار را تحلیل کند.
نویسندگان:
·Juan C.Roldán: مفهومسازی، نرمافزار، اعتبارسنجی، تحقیق، منابع، نگهداری دادهها، نگارش پیشنویس اصلی، بازنگری و ویرایش، تجسم
·Patricia Jiménez: مفهومسازی، تحقیق، نگهداری دادهها، نگارش پیشنویس اصلی، بازنگری و ویرایش، تجسم
·Pedro Szekely: مفهومسازی، روششناسی، تحقیق، منابع، نگارش پیشنویس اصلی، بازنگری و ویرایش، تجسم، نظارت، مدیریت پروژه، تأمین مالی
·RafaelCorchuelo
مترجم: بهناز دهکردی
منبع: sciencedirect