技术特点 目前,在网络日志内容的挖掘和应用领域中,受限于数据获取手段,主要的数据对象大都是特定的Web站点数据,这导致在分析用户个性化行为模式方面具有一定局限性。考虑到隐私等因素,直接从用户端获取数据十分困难。鉴于此情况,管道数据的价值凸显出来,通过管道数据可以相对容易和完整地获取用户的所有上网行为记录。管道数据的来源不仅仅局限于宽带运营商,也可以来自于一般的局域网出口,因此具有一定的通用性。相比于Web站点数据,一方面,管道数据可以具有典型的社区、地域、群体、地理信息特征,且信息全面,因而其在理解用户行为模式方面具有独特优势,另一方面,管道数据又具有网站类别多元化、非结构化、数据量大、数据重现率低(除网站主页外,单个用户多次访问同一URL的几率低)、用户构成复杂的特点,使得对于管道数据的分析更为复杂。截至目前,针对管道数据的挖掘方法体系尚未建立,因而开展该领域研究具有理论意义和科学意义。 技术先进性 数据预处理 通常Web管道日志数据来源于不同的服务器、客户端、用户自定义文件、以及访问事物、查询、和鼠标点击的信息等,这使得管道日志数据中常常含有噪声、冗余或错误信息,而且存在数据格式上的差异,以及由虚假访问或客户端缓存而引起的路径不全问题。因此,在进行Web日志挖掘之前,需要先对管道数据进行预处理,针对这一问题,主要从数据过滤、url归一化、用户识别、会话识别四个环节进行研究。 URL的语义特征解析模型 传统的基于词频的web文本挖掘方法尽管能高效的获取web页面特征,但这些特征缺乏语义信息,且页面数据的特征向量的维度较高,因此需要研究一种从稀疏特征中提取有效信息并高效分析web页面特征提取算法,并构建语义模型。本项目利用深度学习方法,按照承载语义的层次,从单词分布表达式、句子分布表达式等方面获取词的分布表示,建立用户行为语义模型。 管道大数据的多粒度表示与简约 大多数研究对于Web用户浏览行为的描述是基于单一粒度即会话/事务的描述模型。虽然会话/事务的粒度较细,具有较强的分辨能力,但是若数据源为单纯的Web日志,那么会话识别尤其是事务识别的精度会极大影响挖掘效果,从而使得后续的模式分析很难得到有价值的知识;同时,由于自身特点,会话/事务具有瞬时性、模糊性和片面性,其中一个会话/事务中仅含有少量页面序列,只能反映用户行为的碎片,尽管描述的粒度很细,但无法稳定准确地描绘一个用户的行为特征;而且,在实际分析中,由会话/事务构成的用户描述矩阵,往往是高维度的稀疏矩阵,这为后续模式分析也提出了巨大的挑战。 因此在本研究中提出多粒度结合的用户行为描述模型,引入多形式的多行为描述指标,对用户的短期和长期行为特征进行全面分析,包括经典的基于事务的细粒度描述模型、基于总体行为描述的粗粒度描述模型、以及同一个URL下多粒度Web文档标注下的语义描述模型。通过对数据的多粒度描述,提供更全面的用户行为描述,进而建立用户行为模型。 应用市场 网络购物平台,视频网站等用户网站。