微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

c# – 文本中的异常

让我举个例子来解释一下.
我们有以下文字

“Comme Il Faut成立于1927年.烟草公司以其为全球合作伙伴生产定制自有品牌的声誉而闻名.”

这是正常的文字.但是以下文字

“CommeIlFaut于1927年成立.这家烟草公司最为人所知的是为全球范围内的合作伙伴生产定制的私人品牌

这是文本异常:拼写错误,没有空格的单词,也许是别的东西.

如何搜索这样的异常?
有什么算法(统计)?

期望结果是百分比:例如,80%的异常.

谢谢.

解决方法

使用字典中的所有已知单词构造一个 Trie树. 记下文本中的每个单词并尝试在Trie树中找到它.如果你没有找到它,那么尝试匹配length-k的前缀.如果找到匹配项,则对其余的k字符应用相同的过程.它是递归的,它可以捕获超过两个连接的单词

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐