当前位置：首页 > 科技成果 > 详细页

[00296740]用户线上行为建模与应用分析研究

交易价格： 面议

所属行业： 人工智能

类型： 非专利

技术成熟度： 正在研发

交易方式： 技术转让技术转让技术入股

联系人：南方科技大学

进入空间

所在地：广东深圳市

服务承诺: 产权明晰; 资料保密
对所交付的所有资料进行保密; 如实描述

登录后向技术服务商咨询

发布技术需求服务免费，交易还可领红包哦

技术详细介绍

技术特点目前，在网络日志内容的挖掘和应用领域中，受限于数据获取手段，主要的数据对象大都是特定的Web站点数据，这导致在分析用户个性化行为模式方面具有一定局限性。考虑到隐私等因素，直接从用户端获取数据十分困难。鉴于此情况，管道数据的价值凸显出来，通过管道数据可以相对容易和完整地获取用户的所有上网行为记录。管道数据的来源不仅仅局限于宽带运营商，也可以来自于一般的局域网出口，因此具有一定的通用性。相比于Web站点数据，一方面，管道数据可以具有典型的社区、地域、群体、地理信息特征，且信息全面，因而其在理解用户行为模式方面具有独特优势，另一方面，管道数据又具有网站类别多元化、非结构化、数据量大、数据重现率低(除网站主页外，单个用户多次访问同一URL的几率低)、用户构成复杂的特点，使得对于管道数据的分析更为复杂。截至目前，针对管道数据的挖掘方法体系尚未建立，因而开展该领域研究具有理论意义和科学意义。 技术先进性 数据预处理通常Web管道日志数据来源于不同的服务器、客户端、用户自定义文件、以及访问事物、查询、和鼠标点击的信息等，这使得管道日志数据中常常含有噪声、冗余或错误信息，而且存在数据格式上的差异，以及由虚假访问或客户端缓存而引起的路径不全问题。因此，在进行Web日志挖掘之前，需要先对管道数据进行预处理，针对这一问题，主要从数据过滤、url归一化、用户识别、会话识别四个环节进行研究。 URL的语义特征解析模型传统的基于词频的web文本挖掘方法尽管能高效的获取web页面特征，但这些特征缺乏语义信息，且页面数据的特征向量的维度较高，因此需要研究一种从稀疏特征中提取有效信息并高效分析web页面特征提取算法，并构建语义模型。本项目利用深度学习方法，按照承载语义的层次，从单词分布表达式、句子分布表达式等方面获取词的分布表示，建立用户行为语义模型。 管道大数据的多粒度表示与简约大多数研究对于Web用户浏览行为的描述是基于单一粒度即会话/事务的描述模型。虽然会话/事务的粒度较细，具有较强的分辨能力，但是若数据源为单纯的Web日志，那么会话识别尤其是事务识别的精度会极大影响挖掘效果，从而使得后续的模式分析很难得到有价值的知识；同时，由于自身特点，会话/事务具有瞬时性、模糊性和片面性，其中一个会话/事务中仅含有少量页面序列，只能反映用户行为的碎片，尽管描述的粒度很细，但无法稳定准确地描绘一个用户的行为特征；而且，在实际分析中，由会话/事务构成的用户描述矩阵，往往是高维度的稀疏矩阵，这为后续模式分析也提出了巨大的挑战。因此在本研究中提出多粒度结合的用户行为描述模型，引入多形式的多行为描述指标，对用户的短期和长期行为特征进行全面分析，包括经典的基于事务的细粒度描述模型、基于总体行为描述的粗粒度描述模型、以及同一个URL下多粒度Web文档标注下的语义描述模型。通过对数据的多粒度描述，提供更全面的用户行为描述，进而建立用户行为模型。 应用市场网络购物平台，视频网站等用户网站。

[00296740]用户线上行为建模与应用分析研究

技术详细介绍

推荐服务：