18:46 Feb 23, 2014 |
English to Dutch translations [PRO] Science - Mathematics & Statistics | |||||||
---|---|---|---|---|---|---|---|
|
| ||||||
| Selected response from: Henk Sanderson Netherlands Local time: 08:33 | ||||||
Grading comment
|
Summary of answers provided | ||||
---|---|---|---|---|
4 | pseudo-count |
| ||
3 | pseudocount / voortelling |
| ||
3 | kunstmatige frequentiecorrectie/tellingscorrectie |
|
Discussion entries: 4 | |
---|---|
pseudo-count Explanation: In wetenschappelijke artikelen wordt een dergelijke term meestal niet vertaald, omdat de meeste artikelen in het Engels worden geschreven en men begripsverwarring door het invoeren van een eigen terminologie wenst te voorkomen. Ook in Duitse artikelen is de Engelse term te vinden (en Duitsers zijn toch vaak echte puristen). |
| |
Login to enter a peer comment (or grade) |
pseudocount / voortelling Explanation: It's a sort of "prior count". There seems to be a book which uses the English name. -------------------------------------------------- Note added at 1 hr (2014-02-23 20:00:07 GMT) -------------------------------------------------- The book "publisher" is at best dubious "A rough estimate is that VDM Publishing is adding about a book every two minutes to Amazon. They’re up to 54,000 books (at least) listed right now for Alphascript + Betascript, and Alphascript alone added 20k volumes from some time in February to April 2." I hadn't heard of them before :-( Reference: http://www.vanstockum.nl/boeken/wetenschappen/exacte-wetensc... |
| ||
Notes to answerer
| |||
Login to enter a peer comment (or grade) |
kunstmatige frequentiecorrectie/tellingscorrectie Explanation: kunstmatige frequentiecorrectie kunstmatige tellingscorrectie Ik zou 'pseudocount' willen vermijden, tenzij iemand overtuigende voorbeelden van 'pseudocount' kan laten zien in Nederlandse teksten. Tot dusver zijn die niet getoond. Op grond van onderstaande informatie stel ik het volgende voor: A simple type of smoothing used in statistics is known as a pseudo-count, and the classic example is Laplacian smoothing, based on Laplace's rule of succession. Een eenvoudige vorm van smoothing die in de statistiek wordt gebruikt is een kunstmatige/artificiële frequentiecorrectie/tellingscorrectie en het klassieke voorbeeld is Laplace smoothing, die is gebaseerd op de regel van opeenvolging van Laplace. Een groot probleem bij N-gram taalmodellen is dat ze moeten getraind worden op een beperkte trainingsset. Hierdoor is niet de volledige taal gemodelleerd en zullen niet alle mogelijke N-grammen in het model aanwezig zijn. Het is dan mogelijk dat bepaalde N-grammen een kans nul zullen krijgen. Stel dat het trigram de Siberische tijger niet aanwezig is in de trainingsset. Dan zal de kans P(tijger|de, Siberische) gelijk zijn aan 0, wat niet realistisch is. Dit gebrek wordt opgelost door het gebruiken van smoothingtechnieken. Deze technieken zullen een deel van de kansmassa van de hoogfrequente N-grammen toewijzen aan ongeziene (frequentie 0; BvZ) en laagfrequente N-grammen Uit de link in de discussion entry In any observed data set or sample there is the possibility, especially with low-probability events and with small data sets, of a possible event not occurring. Its observed frequency is therefore zero, apparently implying a probability of zero. This is an oversimplification, which is inaccurate and often unhelpful. By artificially adjusting the probability of rare (but not impossible) events so those probabilities are not exactly zero, zero-frequency problems are avoided. The simplest approach is to add one to each observed number of events including the zero-count possibilities. This is sometimes called Laplace's Rule of Succession. It is a type of additive smoothing. http://en.wikipedia.org/wiki/Pseudocount Sample correction If a given class and feature value never occur together in the training data, then the frequency-based probability estimate will be zero. This is problematic because it will wipe out all information in the other probabilities when they are multiplied. Therefore, it is often desirable to incorporate a small-sample correction, called pseudocount, in all probability estimates such that no probability is ever set to be exactly zero. http://en.wikipedia.org/wiki/Naive_Bayes_classifier Statistical language modelling In a bag of words model of natural language processing and information retrieval, the data consists of the number of occurrences of each word in a document. Additive smoothing allows the assignment of non-zero probabilities to words which do not occur in the sample. Chen & Goodman (1996) empirically compare additive smoothing to a variety of other techniques, using both α fixed at one and a more general value. http://en.wikipedia.org/wiki/Additive_smoothing Belangrijk is dat Laplace’s principe, dat sterke gelijkenis vertoont met hetgeen heden ten dage bekend staat als het theorema van Bayes, berust op de impliciete aanname dat a priori alle mogelijke oorzaken even waarschijnlijk zijn, dat wil zeggen een waarschijnlijkheid hebben van 1 gedeeld door hun aantal. De aanname zal later bekend komen te staan als het principe van onvoldoende reden: bij het ontbreken van kennis vooraf is er geen reden om aan te nemen dat een oorzaak waarschijnlijker is dan de andere. Laplace’s versie van het theorema van Bayes stelt hem onder andere in staat de kans te berekenen dat de beweging van de planeten in dezelfde richting en bij benadering in hetzelfde vlak om de zon aan een zekere oorzaak en niet aan het toeval moet worden toegeschreven, terwijl de kans dat de zon morgen opkomt na reeds n maal verschenen te zijn in het verleden zijns inziens gelijkgesteld dient te worden aan n+1/n+2. Deze formule staat ook wel bekend als ‘de regel van opeenvolging’. het principe van onvoldoende reden - principle of indifference (also called principle of insufficient reason) - http://en.wikipedia.org/wiki/Principle_of_indifference de regel van opeenvolging’ - Laplace's rule of succession http://dare.uva.nl/document/487546 -------------------------------------------------- Note added at 1 day4 hrs (2014-02-24 22:55:39 GMT) Post-grading -------------------------------------------------- Van waar je snelle afwijzing, Theo. Of waarom geen kleine uitleg? Ik heb hier erg mijn best op gedaan. Barend -------------------------------------------------- Note added at 1 day4 hrs (2014-02-24 23:21:47 GMT) Post-grading -------------------------------------------------- Bedankt voor je uitleg. Ik had net het nodige onderzoek gedaan en een zo zorgvuldig mogelijk antwoord geformuleerd en bam! Ik zou toch graag een relevant voorbeeld van 'pseudocount' hebben willen zien. Ik heb nu het werk voor de lezer gedaan. Wat Kitty's voorstel betreft: "inventarisatie van netwerkoverlappingen/netwerkovereenkomsten", dat lijkt me prima. Met vriendelijke groeten, Barend |
| ||
Notes to answerer
| |||
Login to enter a peer comment (or grade) |
Login or register (free and only takes a few minutes) to participate in this question.
You will also have access to many other tools and opportunities designed for those who have language-related jobs (or are passionate about them). Participation is free and the site has a strict confidentiality policy.