XBRL, Web semántica, OWL, RDF, Proyectos web, Artículos de investigación, Opinión…

Archivo para la Categoría "Web Semántica"

WWW2009

Esta semana asistí al congreso WWW2009. El congreso está clasificado con la máxima nota en el ranking Core y para mi fue una gran oportunidad el haber podido asistir y presentar allí nuestro trabajo en XBRL y Web Semántica.

Al congreso asistió gente de primera fila. Esta es una foto de la mesa redonda de la sesión de bienvenida del Congreso:

Bienvenida al WWW2009

Mesa redonda WWW2009

De izquierda a derecha son: Mike Shaver (Mozzilla), Dale Dougherty (O’Reilly), Vinton Cerf (Vicepresidente de Google), Robert Cailliau y Tim Berners Lee (propulsores del protocolo HTTP y de HTML). La mesa redonda fue muy distendida, incluso Vinton Cerf y Robert Cailliau hicieron alguna gracia muy buena. Se nota cuando la gente está muy acostumbrada a hablar en público, ya que se hablaba de unas 2.000 inscripciones al congreso y el auditorio estaba lleno.

Después de la mesa redonda, entraron los Principes de Asturias y el Principe dio un breve discurso sobre el impacto de las nuevas tecnologías. Lo que más me impactó de esta parte fue la cantidad de fotógrafos que se les echó encima!

Después ya empezaron las conferencias y el resto de actividades del congreso. Había muchas, casi a todas horas había unas cuatro conferencias en paralelo y tuvimos que descartar muchas que nos hubiera gustado ver. De todas formas, este año han colgado los proceedings on-line, así que aprovecharé para echarles un ojo a alguno de ellos. De las que sí pude ver destacaría Mapping the World’s Photos, que estaba nominada al mejor artículo del congreso, la de la DBPedia (no recuerdo el título del artículo) y la de Rapid Prototiping Using Semantic Mash-Ups through Semantic Web Pipes.

Además de los congresos había stands promocionales de varias empresas como Google, Yahoo, Telefónica, etc. en los cuales te hacían pruebas de aptitud (supongo) y te daban regalos (camisetas, bolígrafos, etc.).

A mi me habían enviado una invitación de Google para una visita al Prado para el miercoles, así que pase por su stand para recoger la invitación. Sobre las 8 de la tarde salieron tres autobuses desde el Palacio de Congresos hasta El Prado con los que estabamos invitados. La visita fue impresionante: primero una visita guiada por nueve de las obras maestras del museo y luego una pequeña charla de Vinton Cerf y Alfred Spector. La temática de la visita fue sobre el proyecto de Google en El Prado. Ah! y después de todo esto Tapas and drinks! con comida de lo más variado: sushi, couscous, pasta, etc. A todo lujo, vamos. Por último, sobre las 11 de la noche los autobuses nos llevaron de vuelta al punto de partida.

Concluyendo, que el año que viene si puedo volveré! Fue una gran experiencia.

Anuncios

Web Semantic XBRL Project

Esta semana he colgado la web del proyecto de Análisis de Documentos XBRL mediante Tecnologías de Web Semántica. En principio, lo único que tiene es un pequeño repositorio de información sobre publicaciones sobre todo, pero más adelante espero poder ir añadiendo utilidades relacionadas con la investigación.

Dejo aquí un enlace por si alguien le quiere echar un vistazo:

www.semanticxbrl.com

WWW 2009 Conference

El viernes pasado recibimos la confirmación de aceptación de un paper que habíamos escrito para el congreso WWW 2009. El paper se presentará en el Developers Track, que es como una parte más práctica donde la gente va mostrar el trabajo realizado en dos modalidades: charla o demo.

La verdad es que recibimos la noticia con mucha alegría ya que el congreso es un referente mundial y lo patrocinan empresas de la talla de Google, Yahoo Research, Telefonica I+D, Fundación Once, etc. y este año se celebra casualmente en Madrid.

Además, en este congreso Google concede unos premios a mujeres estudiantes y yo, ya que iba a enviar algo, lo he solicitado. Aunque ya se ha resuelto y no me lo han dado, se han puesto en contacto conmigo para comunicarme que a los participantes nos harán un pequeño regalo y nos invitarán a una charla con ingenieros de Google, lo cual para mi ya es premio más que suficiente.

El paper aunque es muy breve (2 páginas) aún lo tenemos que modificar con las revisiones que nos han hecho y ampliarlo a 3 páginas. En cuanto tenga la versión definitiva, colgaré un enlace y espero poder hacer lo mismo con la presentación para la conferencia, que durará entre 10 y 45 minutos.

XBRL España

Estas ultimas semanas hemos estado en contacto con Javi Mora, gerente de XBRL España. La verdad que da gusto encontrar a gente que se interese tanto por nuestro trabajo. Allá por el 2007, cuando empezamos con el proyecto ya mantuvimos contacto con él e incluyó nuestro primer artículo en la sección de artículos de la web de XBRL España y esta semana ha incluido el último que hemos escrito (“A semantic based collaborative system for the interoperability of XBRL accounting information”).

Creo que la sección de artículos de la web de XBRL España es muy interesante, porque a través de ella se pueden ver los avances en los proyectos de investigación en XBRL de otras universidades españolas (también alguna extranjera).

A semantic based collaborative system for the interoperability of XBRL accounting information

El pasado mes de Septiembre, se ha presentado junto con José Emilio Labra, Javier de Andrés y Patricia Ordoñez, A semantic based collaborative system for the interoperability of XBRL accounting information, nuestro último trabajo sobre XBRL y web semántica.

El paper describe una idea para poder comparar documentos XBRL basados en diferentes taxonomías. La manera de hacerlo se describe en el paper en mayor profundidad, aunque en esencia es una herramienta colaborativa de usuarios expertos en XBRL que evalúa la confiabilidad de la semejanza entre dos conceptos XBRL de diferentes taxos con lógica difusa.

Aquí dejo un boceto de la arquitectura del sistema:

Arquitectura del sistema

Arquitectura del sistema

Aunque recientemente he cambiado de línea de investigación espero que no me impida llevar a cabo la idea de este paper ya que creo que sería de gran utilidad, ya que en mi opinión el punto flaco de XBRL radica en la dificultad de comparación de información financiera entre empresas de diferentes países y por lo tanto de diferentes Planes Generales Contables.

Improving Tag-Clouds as Visual Information Retrieval Interfaces

Este artículo describe una forma de agrupar palabras semánticamente en una nube de tags. Propone la siguiente fórmula para calcular la similitud entre dos tags:

Dadas dos etiquetas t1 y t2 cualesquiera la similitud semántica entre ambas será:

S ( t1,t2 ) = | t1 ∩ t2 | / | t1 ∪ t2 |

Para este ejercicio, se han calculado el número de apariciones de t1 y t2 en Google. El resultado se puede probar en la siguiente URL:

http://156.35.98.82:8080/tagCloud/

En la aplicación, se pueden escribir una serie de tags (pueden contener espacios, por ejemplo “Fernando Alonso”) separados por comas. El algoritmo realiza una serie de iteraciones sobre los términos. En cada una de ellas aplica la fórmula anteriormente descrita y saca la pareja de términos con una similitud semántica más cercana a la unidad. De esta forma, cuanto más parecido sea el número de documentos en los que aparezca la pareja de palabras y el número donde aparezca cada una por separado, más relacionadas semánticamente estarán. Cabe destacar que para calcular la unión (denominador), se ha restado el valor de la intersección, para no sumar así valores repetidos y dar un resultado más fiable.

Las conclusiones que se pueden extraer de su aplicación es que el algoritmo funciona en la mayor parte de los casos, pero se podría refinar mucho más. Por ejemplo, es muy importante el orden en el que se agrupan las parejas de palabras ya que la precisión de los resultados varía si agrupamos por la derecha o por la izquierda. Un refinamiento posible sería comprobar la similitud S entre el término que vamos a agrupar con los términos que forman los extremos del grupo, para situarlo en el extremo que más se asemeje a él.

Servicios Web Semánticos

En la última asignatura del Máster, Nuevos Avances en Web Semántica, hemos hablado sobre Servicios Web Semánticos, de hecho, como ejercicio de investigación tenemos que escribir un pequeño paper sobre el tema.

A pesar de que la web semántica es mi principal area de trabajo e investigación, creo que hay cosas que han sido “malentendidas” o “malexplicadas” desde un primer momento. Los evangelizadores de la web semántica, hablaban de buscadores semánticos que atendiendo a una consulta en lenguaje natural de un usuario, devuelvan los resultados semánticamente relacionados, pero ¿se ha estudiado la viabilidad de esta afirmación? Para llevarlo a cabo, serian necesarios no solo robots de búsqueda que interpretasen el lenguaje natural expresado por los usuarios, sino marcado semántico en todas las páginas indexadas por estos buscadores… En definitiva, no creo que sea imposible pero sí muy dificil. A veces se habla sin fundamento sobre estas cuestiones y no he visto ni un solo planteamiento teorico que demuestre lo contrario.

De igual forma, creo que está pasando lo mismo con los servicios web semánticos. Se propone una capa de abstracción basada en ontologías que por una parte describan qué hace el servicio, sus entradas y sus salidas para que se pueda descubrir e invocar por medio de procesos automatizados. En primer lugar, creo que una dificultad para llevar a cabo esto es la ambiguedad inherente a la semántica y por otro lado la no existencia de un repositorio común de servicios web semánticos (como la “poco acogida” iniciativa del UDDI).

Como contrapunto, también creo que los servicios web semánticos, también tienen cosas muy buenas y útiles (que es lo que siempre tiendo a valorar más). Como por ejemplo, el uso de marcado semántico para crear estructuras de control y evitar el interbloqueo de servicios o la explosión de estados (derivada de la primera) en la orquestación de servicios.

Por supuesto, esto es solo una reflexión personal, susceptible de ser rebatida y todavía espero la explicación que me haga entender cómo construir las “utopias” de la web semántica…