پایاننامهی کارشناسی ارشد: جواد ارجمند، ۱۳۹۸
هوشمندسازی الگوریتم TF-IDF با استفاده از شبکه عصبی برای استخراج کلمات کلیدی از متون فارسی و تعیین موضوع بر اساس آن
با گسترش روزافزون حجم اطلاعات متنی، استخراج اطلاعات از این متن¬ها و پی بردن به موضوع و زمینه¬ی آنها ضروری است. با توجه به اینکه ممکن است متن¬ها طولانی باشند پی بردن به اهداف آنها دشوار است. بنابراین میتوان از کلمات کلیدی که لغات مهم متن را فراهم می¬کنند برای استخراج و دست¬یابی به مفاهیم اصلی استفاده کرد. استخراج کلمات کلیدی از همه¬ی متن¬ها بهصورت دستی دشوار است به همین دلیل به دنبال روشی هستیم تا بتوان کلمات کلیدی را بهصورت هوشمند استخراج کرد. روشهای متفاوتی برای استخراج کلمات کلیدی وجود دارند که هریک دارای مزایا و معایبی هستند.
در این پایان¬نامه از تکنیک¬های هوش مصنوعی مانند شبکه عصبی برای استخراج کلمات کلیدی استفادهشده است. با توجه به اینکه داده¬هایی که برای آموزش شبکه عصبی لازم هستند باید بهصورت عددی باشند بنابراین لازم است قبل از استفاده از آن، پیشپردازشی بر روی متن انجام شود. در این پیش¬پردازش کلمات عمومی، کلمات کمتر از سه حرف و نشانه¬گذاری¬های متن حذفشده و یکسان¬سازی بر روی متن انجام می-شود. حال میتوان ورودی¬های شبکه عصبی را ایجاد کرد.
در این پایان¬نامه از شبکه عصبی پرسپترون استفادهشده است که ورودی¬های این شبکه عبارتاند از تعداد تکرار هر کلمه در یک متن، تعداد تکرار هر کلمه در کل متن¬های پایگاه داده، تعداد تکرار هر کلمه در گروه متن¬های با موضوع یکسان، وجود کلمه در عنوان، وجود کلمه در پاراگراف اول متن و تعیین موضوع متن. با این ورودی¬ها و چند متن که از قبل کلمات کلیدی آنها مشخص است، شبکه عصبی آموزشدیده و حال میتوان از آن برای استخراج کلمات کلیدی همه¬ی متن¬ها استفاده کرد. نتایج نشان می¬دهد که روش پیشنهادی نتایج قابل قبول و با دقت بالایی را ایجاد کرده است.
کلیدواژهها:
استخراج اطلاعات، کلمه کلیدی، پیشپردازش متن، شبکه عصبی
M.A. Thesis:
Intelligent TF-IDF algorithm Using Neural Network To Extract keywords from Persian texts And Determine the topic based on it
By increasing volume of textual information, it is necessary to extract information from these texts and to understand their subject and context. Given that texts may be long, it is difficult to understand their purpose. So keywords that provide important text vocabulary can be used to extract and access key concepts. It is difficult to extract keywords from all texts manually, so we are looking for a way to extract keywords intelligently. There are different ways to extract keywords that each have advantages and disadvantages.
This thesis uses artificial intelligence techniques such as neural network to extract keywords. Since the data needed for neural network training must be numerical, it is necessary to pre-process the text before using it. In this preposition of general words, words less than three letters and text markups are deleted and the text is merged. Now you can create neural network inputs.
This thesis uses Perceptron neural network whose inputs are number of repetitions of each word in a text, number of repetitions of each word in all database texts, number of repetitions of each word in the text group with The same theme is the text in the title, the text in the first paragraph of the text, and the topic of the text. With these inputs and some keywords already known, the neural network is trained and can now be used to extract keywords for all texts. The results show that the proposed method has higher accuracy than similar methods.
Keywords:
information extraction, keyword, text preprocessing, neural network