|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Abstract: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| pages and group together those pages that contain similar types of information. Our goal is to build a prototype system that will do web search and categorize retrieved web pages automatically using a linguistic analysis. For the search component, we use query expansion and focusing techniques to locate the relevant pages. A web robot will further explore the pages that are linked to the relevant pages already found. The new URLs found in this way are used in the final rankings of the web pages. Also, the links are recorded, and used to cluster the pages. This will allow users to search through these clusters for similar retrieved pages. The selected pages will also be summarized and categorized using semantic analysis. Our prototype system will focus on retrieval and classification of pages in the Information Technology (IT) domain. This research builds on our work currently supported by ONR. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||