Classification of web resources using user generated terms

KIPP, Margaret E.I. and JOO, Soohyung and CHOI, Inkyung (2013) Classification of web resources using user generated terms. Paper presented at: IFLA WLIC 2013 - Singapore - Future Libraries: Infinite Possibilities in Session 112 - Classification and Indexing.

Bookmark or cite this item: http://library.ifla.org/id/eprint/186
[img]
Preview
Language: English (Original)
Available under licence Creative Commons Attribution.
Bookmark or cite this item: http://library.ifla.org/186/1/112-kipp-en.pdf
[img]
Preview
Language: Chinese (Translation)
Available under licence Creative Commons Attribution.
Bookmark or cite this item: http://library.ifla.org/186/7/112-kipp-zh.pdf
[img]
Preview
Language: Spanish (Translation)
Available under licence Creative Commons Attribution.

Abstract

Classification of web resources using user generated terms

In this study, we suggest a useful method to classify web resources based on social tag information generated by users. We attempted to examine whether social tags could be a tool of classifying websites in a certain domain. We applied two statistical methods, including principal component analysis (PCA) and hierarchical clustering for classifying websites in the domain of consumer health information. First, PCA method was applied to identify different dimensions of the selected websites. Six dimensions were extracted from PCA: women, seniors, kids/parenting, drugs, men, and research. Second, we conducted a hierarchical clustering analysis to group similar websites in different hierarchical levels. These two methods reveal that social tags well represent the characteristics of individual websites in the domain of health information. This study yields a methodological implication that social tags can be used to automatically classify resources on the Web.

基于用户术语的Web资源分类

在本文的研究中,我们提出了根据用户生成的社会标签信息进行Web资源分类的方法。我们试图研究在某个领域里,社会标签是否能成为对网站进行分类的工具。为此,我们将主成分分析法(PCA)和层次聚类法两种统计方法应用到消费者健康信息领域的网站分类中。首先,我们使用PCA方法识别所选网站的不同维度。使用PCA方法从网站中提取六个维度:女性、老人、儿童/育儿、药物、男性、研究。然后,我们使用层次聚类法在不同的层级对相似的网站分组。以上两种方法揭示了社会标签能够很好地表达健康信息领域的个人网站的特征。这个研究为使用社会标签进行Web资源自动分类提供了理论依据。

Clasificación de los recursos web utilizando los términos generados por los usuarios

En este estudio, proponemos un método útil para clasificar recursos web basado en los marcadores sociales de información creados por los usuarios. Intentamos examinar si las etiquetas sociales pueden ser una herramienta para la clasificación de páginas web de determinados temas. En el estudio, aplicamos dos métodos estadísticos: el Análisis de Componentes Principales (en inglés, PCA) y el agrupamiento jerárquico para la clasificación de sitios web de divulgación médica. Lo primero que hicimos fue utilizar el método PCA para identificar las diferentes áreas temáticas de las páginas web seleccionadas y así se extrajeron seis apartados: mujeres, personas mayores, niños/padres, medicamentos, hombres e investigación. En segundo lugar, se realizó un análisis de agrupamiento jerárquico para reunir sitios web similares en niveles jerárquicos diferentes. Estos dos métodos revelaron que las etiquetas sociales representan bastante bien las características de las páginas web individuales del campo de la divulgación médica. Este estudio proporciona, por tanto, un procedimiento que permite que las etiquetas sociales puedan ser utilizadas para la clasificación automática de recursos de la Web.

FOR IFLA HQ (login required)

Edit item Edit item
.