做采集会用到提取网页正文的功能。

找到一个 《基于行块分布函数的通用网页正文抽取算法》

已经有一个实现方式了,项目名称Html2Article 原作者不支持.net core

因为我要在 .net core 中使用,所以github上找到源代码,稍作修改


调用方式很简单

var article=Html2Article.GetArticle(html); 
Console.WriteLine(article.ContentW…

验证码处理

算法 2016-01-26 16:19

找了一份不错的源码,学习一下验证码识别

第一步当然是批量下载验证码了

        static void Main(string[] args)
        { 
            string downloadPath = Path.Combine(Config.Root, @"yzm\58"); 
            for (int index = 0; index < 200; index  )
            { 
                Random r = new Random…

研究一下DES对称加密的算法

C#实现如下

    public class DESEncryptHelper
    {

        /// <summary>
        /// DES对称加密的Key
        /// 固定8位
        /// </summary>
        private static string Key = "duRdp3kJ";

        //// <summary> 
        /// DES加密 
        /// </summary>&nbs

        

1965年Vladmir Levenshtein创造了莱温斯坦算法.

该算法主要 用来表述一个 字符串到另外 一个字符串需要 移动的次数. 使用该算法我们 可以测量两个 字符串的 相似性.


ant==>aunt     LD=1   因为只需要加'u'

Samantha==>Sam    LD=5   需要移除5个字母

Flomax==>Volmax    LD=3 需要更改前3 个字母


算法 简单实现

class Program
{…

LRU算法简易版

算法 2013-06-05 15:21

lru算法, least recently used最近最少使用算法

在做 词语大全的时候,要展示最近访问的数据

本来想写一个双向链表来实现的.但是后来一考虑,我的应用场景中,最多只保留10条数据,而且都是string,那么感觉真没这个必要了

一个List其实就可以搞定了

所以就有了这个简易版本

记录下来,等以后网站发展了再完善了

using System;   
u…

没学计算机专业最大的不足就是算法

居然以前没听过KMP匹配算法

首先简单说一下倒排序索引实现原理

0)设有两篇文章1和2
  文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.
  文章2的内容为:He once lived in Shanghai.
  
  …

帮忙给别人做个单循环赛的赛程排序

实际上就是排列组合

这个本身没有什么复杂的,唯一有点意思的就是如何打散每个队员的比赛顺序

写了这么一个算法,记录一下

   

  private static string GetFullCode(int code, int length) {
           string result = code.ToString();
           int codeLength= result.Length;
      …

今天看到一篇不错的帖子,使用hash算法替换关键词

思想可以借鉴一下,比方说以前做SEO网站内链的时候,关键词加链接,这样就是比较高效的一种做法了

先上性能对比效果图

可以看出来,性能提升有10倍,当然,这个还是因为哈希替换这个类里面第一次加载脏字词到hash表里面的原因

如果剔除这个时间损耗,性能提升还是很大的

上代码了

using S…

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

namespace TestDemo.Think
{
    ///


    /// 统计方法常用函数
    ///

    public class StatisticHelper
    {

        ///


        /// 估算标准差
        ///

        ///
        …