之前有记录一篇提取网页正文的算法

提取网页正文的通用算法

 

发现在一些文章上提取效果不是很理想。后来发现了 Raedability网站(www.readability.com)

它最引以为傲的就是其强大的解析引擎, 号称世界上最强大的文本解析神器. Safari中的"阅读器"功能就是用它来实现的! 他们还提供了API可以调用解析器的功能

 

网上找了一个包装代…

做采集会用到提取网页正文的功能。

找到一个 《基于行块分布函数的通用网页正文抽取算法》

已经有一个实现方式了,项目名称Html2Article 原作者不支持.net core

因为我要在 .net core 中使用,所以github上找到源代码,稍作修改


调用方式很简单

var article=Html2Article.GetArticle(html); 
Console.WriteLine(article.ContentW…

配合之前的自动生成DAL代码

做做简单后台还是很快的。

sb.AppendLine("            " ClassName "Info info = new " ClassName "Info();");
foreach (var item in list)
{
    sb.AppendLine("            info."   item.COLUMN_NAME   " = HttpContext.Request.Form[\""   item.COLUMN_NAME   "\"];");
}
sb.AppendLine…

.net中的session需要添加引用nuget包

Microsoft.AspNetCore.Session

Session 是基于 IDistributedCache 构建的,所以必须引用一种 IDistributedCache 的实现,ASP.NET Core 提供了多种 IDistributedCache 的实现,如内存、数据库、redis等。所以也需要引用对应的nuget包,一种就可以

Microsoft.Extensions.Caching.Memory
Mic…

我做东西喜欢从最简单开始。这样方便梳理每个细节。今天弄个.net core的站点试试。

开发工具vs2017,新建项目 .net core 下的 asp.net core web application 

.net framework 选择最高的4.6.1 创建一个空的站点

 

空网站已经引用了两个包

Microsoft.ApplicationInsights.AspNetCore
Microsoft.AspNetCore

删除Startup自带的代码文…

appsettings.json

{
  "option1": "value1_from_json",
  "option2": 2,

  "subsection": {
    "suboption1": "subvalue1_from_json"
  },
  "wizards": [
    {
      "Name": "Gandalf",
      "Age": "1000"
    },
    {
      "Name": "Harry",
      "Age": "17"
    }
  ]
}