1 / 25

Detecção de sessões de utilização nos diários dos Tumba!

Detecção de sessões de utilização nos diários dos Tumba!. Ideias e Trabalho Preliminar. AGENDA. Apresentação do tumba! Web-Mining Diferentes perspectivas Diários do tumba! Detecção de Sessões Padrões de utilização Extracção de relações semânticas Conclusão.

verdad
Download Presentation

Detecção de sessões de utilização nos diários dos Tumba!

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar Knowledge Management and Discovery Group

  2. AGENDA • Apresentação do tumba! • Web-Mining • Diferentes perspectivas • Diários do tumba! • Detecção de Sessões • Padrões de utilização • Extracção de relações semânticas • Conclusão Knowledge Management and Discovery Group

  3. Tumba!temos um motor bem alternativo! • Motor de pesquisa para a WWW portuguesa. • Desenvolvido pelo grupo XLDB @ fc.ul.pt • Actualmente indexa 10.273.292 documentos. • O “Google” para uma comunidade específica • http://www.tumba.pt Knowledge Management and Discovery Group

  4. Tumba!temos um motor bem alternativo! Knowledge Management and Discovery Group

  5. Web-Mining • Data-Mining para a WWW • Extracção de conhecimento relevante a partir de dados obtidos na WWW Mas que dados poderão ser esses? Knowledge Management and Discovery Group

  6. Web-Mining • Conteúdo • As páginas HTML, imagens, video.... (text mining) • Estrutura • Os hyper-links contidos num único sítio web ou em toda a WWW (algoritmo de page rank) • Utilização • Entradas nos diários de servidores e proxies HTTP, histórico guardado pelo cliente HTTP (personalização, recomendação) Knowledge Management and Discovery Group

  7. Extracto do diário do tumba! 21a.13.2lk.abc - -[01/Oct/2003:00:00:07 +0100] "GET /pesquisa?lang=pt&index=sidra&terms=netmeeting HTTP/1.1" 200 19923 "http://www.tumba.pt/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)“ 21a.13.2lk.abc - - [01/Oct/2003:00:00:08 +0100] "GET /pesquisa?pag=http://ils.telepac.pt&query_id=1064962805716&pos=0&terms=netmeeting&index=sidra&lang=pt HTTP/1.1" 302 167 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=netmeeting" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2b3.2a.1w9.7e - - [01/Oct/2003:00:01:51 +0100] "GET /pesquisa?docs=10&terms=condominio&index=sidra&lang=pt&query_id=1064962635442&pos=hit_2 HTTP/1.1" 200 20025 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=condominio&Submit.x=34&Submit.y=18" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90; (R1 1.3))" 1oo.23.1ww.1cc - - [01/Oct/2003:00:02:06 +0100] "GET /pesquisa?lang=pt&index=sidra&terms=descodificador+tvcabo&Submit.x=30&Submit.y=14 HTTP/1.1" 200 19742 "http://www.tumba.pt/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2xy.2a.2qq.1aa - - [01/Oct/2003:00:02:18 +0100] "GET /cache?terms=cache:http://cirurgia4.med.up.pt/jornadas3.html+distanasia&query_id=1064962876502 HTTP/1.1" 200 56505 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=distanasia&Submit.x=63&Submit.y=5" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" Knowledge Management and Discovery Group

  8. Informação usual nos diários • hora e data • nome e tamanho do ficheiro a enviar • endereço do cliente (pode ser um proxy!!) • comando HTTP: GET, PUT, POST • resultado: Status Code • QueryID (específico do tumba!) • Copulado a um mecanismo de re-direct Knowledge Management and Discovery Group

  9. Preparação e limpeza dos diários 21a.1sd.227.abc - - [01/Oct/2003:00:00:08 +0100] "GET pesquisa?pag=http://ils.telepac.pt&query_id=1064962805716&pos=0&terms=netmeeting&index=sidra&lang=pt HTTP/1.1" 302 167 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=netmeeting" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" Servlet pesquisa, IP 213.13.227.218, Date 1064962808312, Terms netmeeting, Language pt, Index sidra, Position 0, Page http://ils.telepac.pt, QueryID 1064962805716, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5 Knowledge Management and Discovery Group

  10. Preparação e limpeza dos diários • Ignorar as entradas que não correspondem a pesquisas • Ignorar as pesquisas nulas (sem termos) • Watchdog • Erros ou experiências de utilizadores Knowledge Management and Discovery Group

  11. Preparação e limpeza dos diários • Os diários estudados correspondem a período de 6 meses em 2003. • Inicialmente: 1.150.304 entradas • Após limpeza: 1.136.749 entradas • Re-directs: 678.126 entradas • Pesquisas: 458.623 Knowledge Management and Discovery Group

  12. Detecção de Sessões de Utilização • Uma sessão pode ser definida como: “Um período de tempo durante a qual existe alguma interactividade com a WWW por um utilizador” Knowledge Management and Discovery Group

  13. Detecção de Sessões de Utilização • 5 variáveis foram utilizadas: • QueryID • Agent • Endereço IP • Date • Termos da Pesquisa Knowledge Management and Discovery Group

  14. Detecção de Sessões de Utilização - Algoritmo • Quando existe QueryID faz parte de uma sessão de utilização existente. • Quando não existe QueryID • Inicio de uma nova sessão • Ou reformulação da pesquisa Knowledge Management and Discovery Group

  15. Detecção de Sessões de Utilização - Algoritmo • Assumimos que uma entrada pertence a uma sessão existente se: • Têm mesmo agente • Têm mesmo endereço IP • O intervalo entre a última entrada e a corrente é menor do que um limiar estabelecido • Pelo menos um termo (após radicalização) na sessão é utilizado na entrada actual Knowledge Management and Discovery Group

  16. Detecção de Sessões de Utilização - Algoritmo • Sessões que após “algum tempo” estão inactivas • Expiram e são removidas de memória central Knowledge Management and Discovery Group

  17. Exemplo de uma Sessão Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962926312, Terms descodificador tvcabo, Language pt, Index sidra, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962971328, Terms crack tvcabo, Language pt, Index sidra, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962998328, Terms crack tvcabo, Language pt, Index sidra, Position 0, Page http://www.esec-madeira-torres.rcts.pt/jornal interactivo 2/sites.htm, QueryID 1064962970178, AgentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Knowledge Management and Discovery Group

  18. Problema com o Algoritmo Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005110937, Terms sumos, Language pt, Site www.dgcc.pt, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005130937, Terms site:www.dgcc.pt sumos, Language pt, Index pt, Position 0, Page http://www.dgcc.pt/38.htm, QueryID 1065005104943, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005269937, Terms compal, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005323953, Terms compal sumos, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Knowledge Management and Discovery Group

  19. Solução Proposta • Antes de remover uma sessão: • verificar se essa pode ser “cabeçalho” de outra já existente. • Utilizar as regras anteriores mas agora tendo em conta as sessões já estabelecidas. Aglomerar Sessões Knowledge Management and Discovery Group

  20. Aglomeração de Sessões Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005110937, Terms sumos, Language pt, Site www.dgcc.pt, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005130937, Terms site:www.dgcc.pt sumos, Language pt, Index pt, Position 0, Page http://www.dgcc.pt/38.htm, QueryID 1065005104943, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005269937, Terms compal, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005323953, Terms compal sumos, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Knowledge Management and Discovery Group

  21. Aglomeração de Sessões • 4187 aglomerações efectuadas • Inspecção manual preliminar das aglomerações são favoráveis Knowledge Management and Discovery Group

  22. Padrões de utilização mais frequentes Total de 235.713 sessões detectadas Knowledge Management and Discovery Group

  23. Extracção de Relações Semânticas Alguns extractos de sessões.... coser malhas tricô avaliação carro avaliação automóvel bonecos desenhos animados construir instrumentos de música fabricar instrumentos de música misturas para aves misturas para periquitos pensões porto residenciais porto purificadores de água filtros de água Knowledge Management and Discovery Group

  24. Extracção de Relações Semânticas • Não sabemos exactamente que relação temos. • TALVEZ! Possamos “olhar” para página que o utilizador consultou e extrair a relação... Knowledge Management and Discovery Group

  25. Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar FIM Knowledge Management and Discovery Group

More Related