دانشگاه آزاد اسلامی سبزوار - جستجو در پایان‌نامه‌ها

پایان‌نامه‌ی کارشناسی ارشد: جواد ارجمند، ۱۳۹۸

هوشمندسازی الگوریتم TF-IDF با استفاده از شبکه عصبی برای استخراج کلمات کلیدی از متون فارسی و تعیین موضوع بر اساس آن

با گسترش روزافزون حجم اطلاعات متنی، استخراج اطلاعات از این متن¬ها و پی بردن به موضوع و زمینه¬ی آن‌ها ضروری است. با توجه به اینکه ممکن است متن¬ها طولانی باشند پی بردن به اهداف آن‌ها دشوار است. بنابراین می‌توان از کلمات کلیدی که لغات مهم متن را فراهم می¬کنند برای استخراج و دست¬یابی به مفاهیم اصلی استفاده کرد. استخراج کلمات کلیدی از همه¬ی متن¬ها به‌صورت دستی دشوار است به همین دلیل به دنبال روشی هستیم تا بتوان کلمات کلیدی را به‌صورت هوشمند استخراج کرد. روش‌های متفاوتی برای استخراج کلمات کلیدی وجود دارند که هریک دارای مزایا و معایبی هستند. در این پایان¬نامه از تکنیک¬های هوش مصنوعی مانند شبکه عصبی برای استخراج کلمات کلیدی استفاده‌شده است. با توجه به اینکه داده¬هایی که برای آموزش شبکه عصبی لازم هستند باید به‌صورت عددی باشند بنابراین لازم است قبل از استفاده از آن، پیش‌پردازشی بر روی متن انجام شود. در این پیش¬پردازش کلمات عمومی، کلمات کمتر از سه حرف و نشانه¬گذاری¬های متن حذف‌شده و یکسان¬سازی بر روی متن انجام می-شود. حال می‌توان ورودی¬های شبکه عصبی را ایجاد کرد. در این پایان¬نامه از شبکه عصبی پرسپترون استفاده‌شده است که ورودی¬های این شبکه عبارت‌اند از تعداد تکرار هر کلمه در یک متن، تعداد تکرار هر کلمه در کل متن¬های پایگاه داده، تعداد تکرار هر کلمه در گروه متن¬های با موضوع یکسان، وجود کلمه در عنوان، وجود کلمه در پاراگراف اول متن و تعیین موضوع متن. با این ورودی¬ها و چند متن که از قبل کلمات کلیدی آن‌ها مشخص است، شبکه عصبی آموزش‌دیده و حال می‌توان از آن برای استخراج کلمات کلیدی همه¬ی متن¬ها استفاده کرد. نتایج نشان می¬دهد که روش پیشنهادی نتایج قابل قبول و با دقت بالایی را ایجاد کرده است.

کلیدواژه‌ها: استخراج اطلاعات، کلمه کلیدی، پیش‌پردازش متن، شبکه عصبی

M.A. Thesis:

Intelligent TF-IDF algorithm Using Neural Network To Extract keywords from Persian texts And Determine the topic based on it

By increasing volume of textual information, it is necessary to extract information from these texts and to understand their subject and context. Given that texts may be long, it is difficult to understand their purpose. So keywords that provide important text vocabulary can be used to extract and access key concepts. It is difficult to extract keywords from all texts manually, so we are looking for a way to extract keywords intelligently. There are different ways to extract keywords that each have advantages and disadvantages. This thesis uses artificial intelligence techniques such as neural network to extract keywords. Since the data needed for neural network training must be numerical, it is necessary to pre-process the text before using it. In this preposition of general words, words less than three letters and text markups are deleted and the text is merged. Now you can create neural network inputs. This thesis uses Perceptron neural network whose inputs are number of repetitions of each word in a text, number of repetitions of each word in all database texts, number of repetitions of each word in the text group with The same theme is the text in the title, the text in the first paragraph of the text, and the topic of the text. With these inputs and some keywords already known, the neural network is trained and can now be used to extract keywords for all texts. The results show that the proposed method has higher accuracy than similar methods.

Keywords: information extraction, keyword, text preprocessing, neural network