数说技术 | 让算法“教导”数据，以数字化内容洞察消费者

原创赞收藏评论

举报 2018-11-14

扫描,分享朋友圈

大数据在企业中的分析与应用离不开背后的算法平台支撑，获取数据仅仅是大数据应用的第一步。企业如何按照不同的需求筛选、分类数据，提取最有效的部分进行分析？只有经年积累的算法和机器学习技术，才能让数据真正“活”起来。

其中，文本类型数据的内容、意图和情感分析是文本数据挖掘中的重点分析对象。DataStory依托持续更新的机器学习能力和文本挖掘引擎，在海量互联网数据的支撑下，结合不同行业的大数据实践，不断完善自有的机器学习与文本处理算法。

本文将展开介绍DataStory算法平台 - 数说罗盘，一个集“算法测试演示 - 标注 - 模型训练上线”三位一体的智能持续优化系统平台。

算法展示与测试

DataStory提供业界领先的基础文本分析算法：中文分词、中文句法分析、关键词提取、实体识别、通用内容分类、内容摘要、垃圾广告判断、情感判断。

DataStory拥有专利技术的观点提取算法 - 三元组提取技术，提供细粒度的维度情感判断。通过多领域的专业三元组模型建立，能够支持不同领域定制化的观点提取分析。除此之外，DataStory还提供通用的智能提取模块，达到快速的分析模块构建。

互联网的数据的一个常见特征是数据类型纷杂无序，通过关键词进行数据搜索，会带来大量的噪音。DataStory针对性的开发了歧义词识别算法，以达到有效的噪音消除。

社交网络营销的主阵地 - 微博，存在大量的水军以及僵尸账号，这对企业的数据分析会造成非常的大的影响。DataStory通过60+维度的水军特征，通过机器学习的算法判断微博用户的水军可能性。

出于商业分析的需要，DataStory会大量的根据爬虫协议对全网新闻数据进行采集。面对海量的站点，开发专用爬虫模板的成本会非常大，DataStory通过研发通用新闻提取算法，能够到达多核心字段>95%的准确率。

除此之外，聚类分析、人脸检测与识别、知识图谱的相关模块也是不可或缺的。

数据标注

DataStory研发了一套基于active-learning算法的数据标注工具。数据标注不再是一次性大量数据标注，变成了迭代式的、打怪升级式的标注。每一个迭代，算法自动判断收敛，和筛选最有价值的数据进行下一次标注。

为了进一步的加快数据标注的速度，DataStory深度优化标注的过程，使得用户可以通过简单的快捷键、清晰明显的数据展示，进行快速的标注。

当模型标注达到收敛时，可以一键点击模型训练，后台会自动训练模型并且发布上线。

互联网信息爆炸的状况让快速、便捷的信息呈现显得愈发重要，而这一点有赖于智能机器算法的不断升级。作为人工智能领域的探索者，DataStory对算法不断开发和迭代，目前已经完成大部分算法自动化训练部署。配合智能化的标注，DataStory最终将实现算法全链条的打通，让数据学会思考，助力人工智能技术在不同商业场景下的应用实践。