سه شنبه ۲۱ دی ۱۴۰۰

TOMATE : رویکرد ابتکاری استخراج داده از جداول HTML

TOMATE: رویکرد ابتکاری استخراج داده از جداول HTML

استخراج داده از جداول HTML کاری دشوار است و دلیل آن چیدمان داده‌ها (layouts)، فرمت‌های گوناگون و مشکلات مربوط به رمزگذاری داده‌هاست. در این مقاله پیشنهاد جدیدی مطرح می‌کنیم. این پیشنهاد در مرحله نخست چندین روش ابتکاری پیش از پردازش (pre-processing) داده‌ها را جهت پاکسازی جداول معرفی می‌کند و سپس تحلیل عملکرد را انجام می‌دهد و در مرحله آخر روش‌های ابتکاری مربوط به پس از پردازش (post-processing) را معرفی می‌کند که نتیجه آن رسیدن به خروجی است.

مهم‌ترین بخش کار ما در مرحله تحلیل عملکرد است که با نمایش سلول‌های داده در فضایی انجام می‌شود که دارای ابعاد بالاست (high-dimensional). در این مرحله از یک روش دسته‌بندی استاندارد استفاده می‌کنیم که به کمک آن می‌توان سلول‌های متادیتا (فراداده) را از سلول‌های داده جدا کرد.

برای آزمایش از دو انبار بزرگ از جداول واقعی HTML استفاده کرده‌ایم و نتایجی که به دست آورده‌ایم تأیید می‌کنند که پیشنهاد ما کمک می‌کند سی‌پی‌یو بتواند داده‌های هر جدول را ظرف ۰.۰۹ ثانیه و با امتیاز F1برابر با ۸۹.۵۰ درصد استخراج کند.

ما طرح پیشنهادی خود را با روش‌های رقبا مقایسه کرده‌ایم و تحلیل آماری نشان‌دهنده برتری و اثربخشی بیشتر این طرح بوده و در عین حال این طرح ابتکاری از نظر کارایی نیز بسیار قابل رقابت با نمونه‌های مشابه است.(آموزش طراحی وب)

مقدمه

یادگیری ماشینی بسیاری از خدمات مبتنی بر وب را تقویت کرده است. این امر باعث نیاز روزافزون به مجموعه‌ داده‌هایی (datasets) شده است که هم برای آموزش و هم برای بهره‌برداری از ماشین‌های یادگیرنده مورد استفاده قرار می‌گیرند.

در اینجا ما به مجموعه داده‌هایی توجه می‌کنیم که با استفاده از جداول HTML کدگذاری شده‌اند و تأکید ما بر جداولی است که کاربران آنها را تهیه کرده‌اند. بسیاری از این جداول داده‌هایی ارائه می‌دهند که نمی‌توان آنها را در پایگاه‌های داده رایج پیدا کرد و به همین دلیل استفاده از این داده‌ها در فرایندهای خودکار بسیار دشوار است.

نرم‌افزارهای استخراج داده اسناد موجود در وب را تجزیه و تحلیل می‌کنند و داده‌های آنها را به‌صورت مدارکی ارائه می‌دهند که به کمک آنها روند پردازش خودکار تسهیل می‌شود. بسیاری از این مدارک استفاده چندمنظوره دارند، زیرا بر یک چیدمان خاص از داده‌ها متمرکز نیستند و اغلب پیشنهاداتی مطرح می‌کنند که مختص جداول هستند.

ما پیشنهادات گوناگونی را که مختص جداول هستند بررسی کرده‌ایم و به این نتیجه رسیدیم که آنها معمولاً مربوط به این امور هستند: مکان، تقسیم‌بندی، تبعیض، تحلیل عملکرد، تحلیل ساختار و تفسیر. این مفاهیم راه حل‌های متعددی برای اجرای این پیشنهادات ارائه می‌دهند اما نقطه تمرکز ما بر تحلیل عملکرد است، زیرا کمتر به آن توجه شده است و در نتیجه جا دارد بهبود پیدا کند.

متأسفانه تعداد اندکی از پیشنهادات فعلی می‌توانند جداول دارای چیدمان دلخواه (مانند فهرست‌های افقی، فهرست‌های عمودی یا ماتریس‌ها) را تحلیل کنند که کاربران آنها را تولید می‌کنند و این پیشنهادات در بررسی فرمت‌های گوناگونی که برای نمایش داده مورد استفاده قرار می‌گیرند به مشکل بر می‌خورند، مانند وقتی که سرتیتر شامل چند خط است یا اصلاً سرتیتر وجود ندارد، در سلول‌های متنی، سرتیترهای تکراری و سلول‌های فاکتوریل و محاسبات عددی. همچنین آنها در رمزگذاری‌های معمولی نیز با مشکل مواجه می‌شوند،‌ مانند ردیف‌های نابرابر یا استفاده نادرست از تگ‌های td و th در جداول HTML. به بیان ساده، این پیشنهادات با ۶۴.۴۱ درصد جداول در انبار جداول مورد آزمایش ما به مشکل بر می‌خورند.

TOMATE پیشنهادی جدید است که به‌طور خاص برای تحلیل جداول HTML طراحی شده است و نتایج پیشین را بهبود می‌بخشد. کار اصلی این پیشنهاد در مورد تحلیل عملکرد است. این پیشنهاد سلول‌ها را در فضایی با ویژگی‌های برتر قرار می‌دهد و در این فضا از یک روش دسته‌بندی استاندارد به همراه چند روش ابتکاری خاص استفاده می‌شود به این منظور که سلول‌های متادیتا را از سلول‌های داده جدا کند.

تحلیل آزمایشی ما نشان می‌دهد که این روش امتیاز F1برابر با ۸۹.۵۰ درصد را به دست می‌آورد که ۵.۶۸ درصد بهتر از بهترین روش رقیب در شرایط نظارت‌شده و ۲۴.۱۱ درصد بهتر از بهترین روش رقیب در شرایط نظارت‌نشده عمل می‌کند.

افزون بر این، در این روش سی‌پی‌یو برای تحلیل هر جدول ۰.۰۹ ثانیه زمان صرف می‌کند و این تفاوت‌ها از نظر آماری در سطح اطمینان استاندارد معنادار و مهم هستند. در حال حاضر از این روش برای دادن داده‌هایی که از جداول ویکی‌پدیا استخراج شده‌اند به یک سیستم IARPA استفاده می‌شود. بیشتر این جداول را کاربران تولید کرده‌اند و این بدان معناست که نرم‌افزارهای استخراج داده که در حال حاضر در پایگاه‌های دانش اصلی و مهم مستقر هستند نمی‌توانند آنها را تحلیل کنند.

سایر بخش‌های مقاله به شرح زیر هستند:

·بخش دو: مرور اقدامات مرتبط

·بخش سه: توضیح نحوه استخراج اطلاعات توسط TOMATE

·بخش چهار: نشان دادن نتایج تحلیل آزمایشی

·بخش پنج: ارائه مطالعه موردی

·بخش شش: جمع‌بندی مقاله

خلاصه بخش‌های مقاله

·مرور اقدامات مرتبط

در این بخش از مقاله اقدامات مرتبط با این حوزه را مرور می‌کنیم. نخست خلاصه‌ای از ادبیات و اصطلاحات بحث ارائه می‌دهیم و سپس سایر پیشنهادات موجود را با پیشنهاد خودمان مقایسه می‌کنیم.

پیشنهاد ما

در این بخش پیشنهاد خود را توضیح می‌دهیم. نخست برخی از مفاهیم اولیه را ارائه می‌دهیم و سپس به راه حل خود می‌پردازیم جهت اجرای وظایف مربوط به درک و اجرای جداول (بنگرید به شکل یک مقاله)

تحلیل تجربی

در این بخش تحلیل تجربی خود را ارائه می‌دهیم. نخست شرایط آزمایش را توضیح می‌دهیم، سپس نقاط تغییر را گزارش می‌دهیم، سپس نتایج تجربی خود را بیان می‌کنیم و در نهایت تحلیل آماری خود را ارائه می‌دهیم.

مطالعه موردی

روش TOMATE را در یک سیستم IARPA ادغام کرده‌ایم که هدف آن کمک به کارشناسان برای پاسخ‌گویی به سؤالات اساسی در حوزه سیاست است. از این کارشناسان انتظار می‌رود تنها وظایف اداری خود را انجام دهند، مانند وارد کردن کلیدواژه در بخش جستجوی ویکی‌پدیا و انتخاب جداولی که به نظر آنها داده‌های مرتبط را ارائه می‌دهند. TOMATE داده‌های جداول انتخاب‌شده را به‌طور خودکار استخراج می‌کند و آنها را به سیستم می‌دهد تا پیش‌بینی را انجام داده و با استفاده از جداول و نمودارها، نتیجه پیش‌بینی را نشان دهد. (شکل ۱۱ مقاله)

نتیجه‌گیری

مجتمع فنی تهران :در این مقاله ما روش پیشنهادی TOMATE را معرفی می‌کنیم که روشی خودکار برای استخراج داده از جداول HTML است. این روش راه حل همه مشکلاتی است که سایر پیشنهادها در این حوزه قادر به حل آنها نیستند. در مورد چیدمان جداول، روش TOMATE می‌تواند فهرست‌های افقی، فهرست‌های عمودی و ماتریس‌ها را تحلیل کند. در مورد مشکلات مربوط به فرمت جداول نیز TOMATE می‌تواند جداولی را که چندین سرتیتر دارند یا اصلاً سرتیتر ندارد و سلول‌های متنی، سرتیترهای تکراری و سلول‌های فاکتوریل‌دار را تحلیل کند.

نویسندگان:

·Juan C.Roldán: مفهوم‌سازی، نرم‌افزار، اعتبارسنجی، تحقیق، منابع، نگهداری داده‌ها، نگارش پیش‌نویس اصلی، بازنگری و ویرایش، تجسم

·Patricia Jiménez: مفهوم‌سازی، تحقیق، نگهداری داده‌ها، نگارش پیش‌نویس اصلی، بازنگری و ویرایش، تجسم

·Pedro Szekely: مفهوم‌سازی، روش‌شناسی، تحقیق، منابع، نگارش پیش‌نویس اصلی، بازنگری و ویرایش، تجسم، نظارت، مدیریت پروژه، تأمین مالی

·RafaelCorchuelo

مترجم: بهناز دهکردی

منبع: sciencedirect

{{item.title}}

{{item.title}}

{{item.title}}

{{item.title}}

{{item.title}}

TOMATE : رویکرد ابتکاری استخراج داده از جداول HTML

TOMATE: رویکرد ابتکاری استخراج داده از جداول HTML

مقدمه

خلاصه بخش‌های مقاله