整数有约 | 深言科技:一款应用拯救“词不达意”,理工科也能玩转浪漫

2年前 (2022) 程序员胖胖胖虎阿
276 0 0

整数有约 | 深言科技:一款应用拯救“词不达意”,理工科也能玩转浪漫

2019年,清华大学自然语言处理实验室(THUNLP)研制出一款名为WantWords的反向词典,能够根据语义描述查找词语,可用于写作辅助等多个场景;2021年11月,这款应用突然在微博爆红,成千上万用户涌入WantWords,多次挤爆了服务器;2022年5月,基于语义的名言名句检索系统WantQuotes上线,短短两三周的时间,已获得近30万用户。截至目前,WantWords和WantQuotes已有近200万用户,每天都有几万人使用它们解决词句查找的困扰。

整数有约 | 深言科技:一款应用拯救“词不达意”,理工科也能玩转浪漫

WantWords和WantQuotes手机端界面

当初研发这款应用的几位同学目前已毕业,并和他们的导师孙茂松教授一同创办了创业公司深言科技(DeepLang AI),致力于使用世界领先的人工智能和自然语言处理技术,为数亿脑力劳动者和数千万组织的信息处理全流程赋能。公司成立之初即获得一线VC千万元级投资。WantWords和WantQuotes做对了什么?我们采访了深言科技创始人&CEO、清华大学计算机系博士岂凡超,一同体会深言的魅力所在。
整数有约 | 深言科技:一款应用拯救“词不达意”,理工科也能玩转浪漫

深言科技创始人&CEO 岂凡超

兼具实用与趣味属性的智能工具

在微信端搜索“深言科技服务号”,打开后就会看到WantWords和WantQuotes。在WantWords中,只要用户输入想表达的意思,就会有无数个词语跳出来,协助用户找到最想要的那个词。比如输入“这风景好美”,除了有意思相近的二字词,还有上百个四字成语,例如“江山如画、山清水秀、风月无边、水秀山明”等,还有不常看到的“风光旖旎、云舒霞卷、千岩竞秀”等词,也都可以用来形容美景。

而WantQuotes则更让人惊艳,别名叫做据意查句,顾名思义,输入想表达的意思,就会有大量名言名句来丰富你的语料库,包括但不限于古今中外的名言名句、古诗文、谚语、俗语、歇后语,甚至还能找到动漫、影视剧、综艺里的台词,通过设定分类,基本都能找到。

例如依然输入“风景好美”,WantQuotes出来的便是:

苏轼的“水光潋滟晴方好,山色空蒙雨亦奇”; 
席慕蓉的“说天气真好风又轻柔,还能在夕阳下疲倦的微笑”; 
林清玄的“清晨滚着金边的红云,午后飘过慵懒的白云,黄昏燃烧炽烈的晚霞,还有有时散得干净的天空”; 
还有动漫《言叶之庭》里的台词:总觉得她的美不太像人类,更像远处的云,高耸的山峰,或是雪山里的兔子和鹿之类的,宛如大自然之美的一部分。

深言科技CEO岂凡超表示:“WantWords反向词典和WantQuotes据意查句的实用性在于,可以帮助不同使用者写作文、论文、演讲稿、政府公文、营销文案,甚至还可以用来做朋友圈素材,只要是用户在文字创作方面的需求,我们都能满足。”深言科技也得到了很多用户的高度评价:

WantWords将成为大众身边的活字典!
感谢你们创造了这个拯救语弱的神仙网站! 
这个网站功能效果真的惊艳,使我的翻译工作效率翻了三倍!希望你们再接再厉,我会把你们的网站推荐给更多的人。

整数有约 | 深言科技:一款应用拯救“词不达意”,理工科也能玩转浪漫

搜索深言科技服务号试用WantWords和WantQuotes

自然语言处理技术国内顶尖

谈及深言科技是否有不可替代的优势,岂凡超从两个方面展开回答。首先是数据方面,深言科技团队成员此前已耗时两年多时间,通过上百个不同渠道获取系统所需要的文本数据,这其中的工作量细致而繁琐,需要研发团队耗费大量的时间和精力。例如,WantQuotes的数据集包含近百万句不同类型的名言名句。

另一个优势就是深言的自然语言处理技术国内顶尖,其产品具有极高的壁垒和门槛。深言科技CEO岂凡超解释:WantWords和WantQuotes的背后是国际最领先的语义理解和匹配模型。而且还将义原这样的语言学知识引入神经网络模型中,较好地解决了歧义、语义稀疏等问题。

深言科技希望通过文本摘要、语义检索、信息抽取等技术提高信息获取的效率,同时通过可控文本生成、素材自动推荐、文本校对和风格检查,实现用户文本内容创作的提质增效。
整数有约 | 深言科技:一款应用拯救“词不达意”,理工科也能玩转浪漫

深言科技LOGO

创业之路追求极致

深言科技的CEO岂凡超在本科期间就萌生了创业的想法,读博期间,岂凡超目睹并亲身经历了近年来自然语言处理技术的革命性发展,其本人也在人工智能和自然语言处理领域的国际刊物发表论文近30篇,申请专利十余项。而其博士生导师孙茂松教授,一直以来都有将实验室技术进行产业落地的考量,因而与岂凡超一拍即合,决定成立公司,立志将实验室多年积累的国内顶尖自然语言处理技术落到实地,转化成生产力,为数亿脑力劳动者和数千万组织的信息处理全流程赋能。

目前,深言科技团队的核心成员主要由清华大学的博士、硕士组成,并由欧洲科学院院士孙茂松教授领衔担任首席科学家。今年,作为清华大学2022博士应届毕业生,岂凡超将深言科技的发展正式提上日程。面对不同角色身份的转换,岂凡超表示:求学和创业最大的不同在于,创业不是一场有正确答案、有满分上限的考试,不是做到90分就可以高枕无忧,而是要做到比所有人都强才有价值。

在创业方面,岂凡超认为:认知才是最大的壁垒,而认知来源于深刻的、长期的、甚至是痛苦的思考。每当想到市场上有无数更勤奋、聪明、有经验、有资源的人都在专注地做一件事,在马不停蹄地竞争的时候,他就能感受到巨大的压力,因此在这件事上,必须要追求极致。

世上没有随随便便的成功,岂凡超始终相信,在创业的过程中没有什么是“理所应当”的,外界不会因你出身名校,拥有技术加成而认可你,能打动别人的,就是深刻的行业认知、极致的产品与服务和成熟的商业模式。

未来,深言科技将继续完善产品,开发出专属APP,帮助用户从阅读到写作再到检索,提升整个环节的文本信息处理效率,将最新的技术转化为生产力。

此外,深言科技也在大规模招聘中,开放了算法工程师、前后端开发、UI/UX、产品等岗位,欢迎有兴趣的朋友微信联系岂凡超(微信号:fanchao_qi)。

整数有约 | 深言科技:一款应用拯救“词不达意”,理工科也能玩转浪漫

深言科技公司实景

整数智能好奇心专栏

由于深言科技对构建数据库有较高需求,以及考虑到整数智能在智能标注领域的权威性,深言科技CEO岂凡超选择和整数智能开展合作,岂凡超表示:“整数智能在标注质量、响应速度、性价比等综合评估方面都有较高水准,整个合作流程非常顺利、高效。”

除了便利的数据标注平台,整数智能还自研AI辅助工具以提高数据生产效率,包括光流跟踪算法、OCR预标注系统、ASR辅助音频采集等,能节省大量的人力标注时间与复核成本。

另外,整数智能标注平台可以通过多终端无缝连接,全场景满足用户需求,可对质量进行灵活抽查、动态分阶段验收,帮助AI企业随时把控数据标注质量及进度,保证信息的同步性,让数据真正可靠可控。不仅如此,为提高数据集的交付质量,整数智能对数据生产全过程实现了全方位的质量把控。在人员管理方面,涉及到数据生命周期的各级人员都参与到质量管理中,确保经手数据的每一方都能严控质量。

正因为持续的技术能力和行业积淀,让整数智能成为了人工智能产业联盟的产业数据组专家,共同参与制定AI行业的数据标准和白皮书工作,得到中国电子技术标准化研究院和信通院的邀请参编SC42《可信赖人工智能标准化白皮书》与《人工智能研发运营一体化(Model/MLOps)能力成熟度模型》标准体系。参与制定包括过程管理、模型管理、安全与风险管理、组织结构、系统与工具等5个能力标准,致力于帮助企业提高AI研发运营管理能力,提升AI模型治理能力,为AI大规模应用提供有效路径。参与制定的TC260《AI数据采集及标注安全规范》,聚焦AI数据采集及标注过程及过程中可能出现的安全隐患,提炼、梳理相关安全技术。
整数有约 | 深言科技:一款应用拯救“词不达意”,理工科也能玩转浪漫

相关文章

暂无评论

暂无评论...